ABOUT THE SPEAKER
Cathy O'Neil - Mathematician, data scientist
Data skeptic Cathy O’Neil uncovers the dark secrets of big data, showing how our "objective" algorithms could in fact reinforce human bias.

Why you should listen

In 2008, as a hedge-fund quant, mathematician Cathy O’Neil saw firsthand how really really bad math could lead to financial disaster. Disillusioned, O’Neil became a data scientist and eventually joined Occupy Wall Street’s Alternative Banking Group.

With her popular blog mathbabe.org, O’Neil emerged as an investigative journalist. Her acclaimed book Weapons of Math Destruction details how opaque, black-box algorithms rely on biased historical data to do everything from sentence defendants to hire workers. In 2017, O’Neil founded consulting firm ORCAA to audit algorithms for racial, gender and economic inequality.

More profile about the speaker
Cathy O'Neil | Speaker | TED.com
TED2017

Cathy O'Neil: The era of blind faith in big data must end

캐시 오닐 (Cathy O'Neil): 빅 데이터에 대한 맹신의 시기는 끝나야만 합니다

Filmed:
1,391,460 views

알고리즘은 은행에서 누가 돈을 빌릴 수 있는지, 누가 면접을 볼 수 있는지, 그리고 누가 보험에 가입할 수 있는지나 혹은 더 많은 것을 결정하지만 그렇다고 그게 자동으로 세상을 공정하게 만들지는 않습니다. 수학자이자 데이터 과학자인 캐시 오닐은 비밀스럽고, 중요하면서도 해를 끼칠 수 있는 알고리즘을 "대량 수학 살상 무기"라고 명명했죠. 이들 공식에 숨겨진 목적에 한 층 더 가까이 다가가 봅시다.
- Mathematician, data scientist
Data skeptic Cathy O’Neil uncovers the dark secrets of big data, showing how our "objective" algorithms could in fact reinforce human bias. Full bio

Double-click the English transcript below to play the video.

00:12
Algorithms알고리즘 are everywhere어디에나.
0
975
1596
알고리즘은 어디나 있죠.
00:16
They sort종류 and separate갈라진
the winners승자 from the losers패자.
1
4111
3125
그걸로 승자와 패자가 갈리고 나뉘어
00:20
The winners승자 get the job
2
8019
2264
승자는 직장을 구하거나
00:22
or a good credit신용 card카드 offer제공.
3
10307
1743
신용카드 조건도 좋아지지만
00:24
The losers패자 don't even get an interview회견
4
12074
2651
패자는 면접기회조차 없거나
00:27
or they pay지불 more for insurance보험.
5
15590
1777
보험료도 더 부담하죠.
00:30
We're being존재 scored득점 한 with secret비밀 formulas방식
that we don't understand알다
6
18197
3549
이해도 못하는 은밀한 공식으로
점수 매겨지지만
00:34
that often자주 don't have systems시스템 of appeal항소.
7
22675
3217
보통은 거기에 이견을 제시할
기회조차 없습니다.
00:39
That begs~을 구걸하다 the question문제:
8
27240
1296
이러면 질문이 생깁니다:
00:40
What if the algorithms알고리즘 are wrong잘못된?
9
28560
2913
알고리즘이 잘못됐다면
어떤 일이 발생할까요?
00:45
To build짓다 an algorithm연산 you need two things:
10
33100
2040
알고리즘 개발엔
두 가지가 필요합니다.
00:47
you need data데이터, what happened일어난 in the past과거,
11
35164
1981
과거에 있었던 일에 대한 자료와
00:49
and a definition정의 of success성공,
12
37169
1561
우리가 찾고 종종 원하는
성공이란 것에 대한 정의죠.
00:50
the thing you're looking for
and often자주 hoping희망하는 for.
13
38754
2457
00:53
You train기차 an algorithm연산
by looking, figuring생각하다 out.
14
41235
5037
저희는 이걸 들여다보고 분석해서
알고리듬을 훈련시킵니다
00:58
The algorithm연산 figures인물 out
what is associated관련 with success성공.
15
46296
3419
알고리즘은 성공과 관련된 게
뭔지 알아내죠.
01:01
What situation상태 leads리드 to success성공?
16
49739
2463
어떤 상황이면 성공하게 될까요?
01:04
Actually사실은, everyone각자 모두 uses용도 algorithms알고리즘.
17
52881
1762
실제 우리 모두는
알고리즘을 사용합니다.
01:06
They just don't formalize형식을 정하다 them
in written code암호.
18
54667
2718
그저 이걸 코드로 형식화하지
않았을 뿐인데
01:09
Let me give you an example.
19
57409
1348
예를 들어 볼게요.
저는 매일 가족들의 식사를
준비할 때 알고리즘을 이용합니다.
01:10
I use an algorithm연산 every...마다 day
to make a meal식사 for my family가족.
20
58781
3316
01:14
The data데이터 I use
21
62121
1476
제가 이용하는 자료는
01:16
is the ingredients성분 in my kitchen부엌,
22
64394
1659
주방에 있는 재료
제게 주어진 시간
01:18
the time I have,
23
66077
1527
01:19
the ambition큰 뜻 I have,
24
67628
1233
하고 싶은 요리 등으로
01:20
and I curate보좌 신부 that data데이터.
25
68885
1709
제가 직접 관리하는 것들이죠.
01:22
I don't count카운트 those little packages꾸러미
of ramen라면 noodles국수 as food식품.
26
70618
4251
개인적으로 저는 라면같은 즉석 식품은
요리로 치지 않습니다.
01:26
(Laughter웃음)
27
74893
1869
(웃음)
01:28
My definition정의 of success성공 is:
28
76786
1845
제가 정의하는 성공은 이겁니다.
01:30
a meal식사 is successful성공한
if my kids아이들 eat먹다 vegetables야채.
29
78655
2659
아이들이 채소를 먹는다면
성공한 식사가 되는 건데
01:34
It's very different다른
from if my youngest최연소자 son아들 were in charge요금.
30
82181
2854
제 막내 아들이 차렸다면 생각했을
성공과는 아주 다르죠.
01:37
He'd그는 say success성공 is if
he gets도착 to eat먹다 lots of NutellaNutella.
31
85059
2788
막내는 누텔라 초코잼만 듬뿍 먹어도
성공이라 했을 테니까요.
01:41
But I get to choose고르다 success성공.
32
89179
2226
하지만 성공은
제가 선택하는 겁니다.
01:43
I am in charge요금. My opinion의견 matters사안.
33
91429
2707
제가 차리는 거니까요.
제 의견이 중요한 거죠.
01:46
That's the first rule규칙 of algorithms알고리즘.
34
94160
2675
이것이 알고리즘의
첫 번째 규칙입니다.
01:48
Algorithms알고리즘 are opinions의견 embedded내장 된 in code암호.
35
96859
3180
알고리즘이란 코드에 담긴
의견입니다.
01:53
It's really different다른 from what you think
most가장 people think of algorithms알고리즘.
36
101562
3663
여러분과 대부분의 사람들이 생각하는
알고리즘과는 매우 다르죠.
사람들은 알고리즘이 객관적이며
사실이고 과학적이라고 생각하지만
01:57
They think algorithms알고리즘 are objective목표
and true참된 and scientific과학적.
37
105249
4504
02:02
That's a marketing마케팅 trick장난.
38
110387
1699
이건 마케팅 상술일 뿐입니다.
02:05
It's also또한 a marketing마케팅 trick장난
39
113269
2125
이것은 또한 그 알고리즘으로
02:07
to intimidate협박하다 you with algorithms알고리즘,
40
115418
3154
여러분을 위협하고 여러분이 알고리즘을
02:10
to make you trust믿음 and fear무서움 algorithms알고리즘
41
118596
3661
신뢰하고 두려워하게 만들려는
마케팅 상술인데
02:14
because you trust믿음 and fear무서움 mathematics수학.
42
122281
2018
왜냐하면 여러분들이 수학을 믿고
두려워하니까요.
02:17
A lot can go wrong잘못된 when we put
blind블라인드 faith신앙 in big data데이터.
43
125567
4830
빅 데이터를 맹신하면
많은 것이 잘못될 수 있습니다.
02:23
This is Kiri키 리 SoaresSoares.
She's a high높은 school학교 principal주요한 in Brooklyn브루클린.
44
131684
3373
이분은 브룩클린의 어느 고등학교
교장인 키리 소어스 씨인데
02:27
In 2011, she told me
her teachers교사 were being존재 scored득점 한
45
135081
2586
2011년에 저에게
교사들의 인사 고과 평가에
02:29
with a complex복잡한, secret비밀 algorithm연산
46
137691
2727
복잡하고 비밀스런 알고리즘인
02:32
called전화 한 the "value-added값 추가 model모델."
47
140442
1489
"가치-부가 모델"을 쓴다고 했죠.
02:34
I told her, "Well, figure그림 out
what the formula공식 is, show보여 주다 it to me.
48
142505
3092
제가 그랬죠. "음, 공식이 뭔지
파악하고 보여주세요.
제가 설명해 드릴게요."
02:37
I'm going to explain설명 it to you."
49
145621
1541
그랬더니
"음, 공식을 구하려고 했지만
02:39
She said, "Well, I tried시도한
to get the formula공식,
50
147186
2141
교육부 담당자가 그러는데 그건 수학이라
02:41
but my Department학과 of Education교육 contact접촉
told me it was math수학
51
149351
2772
제가 봐도 모를 겁니다"라고 했대요.
02:44
and I wouldn't~ 않을거야. understand알다 it."
52
152147
1546
02:47
It gets도착 worse보다 나쁜.
53
155266
1338
설상가상인 건
뉴욕포스트지에서 정보자유법에 따라
정보공개를 신청한 후
02:48
The New새로운 York요크 Post게시하다 filed줄로 자르는
a Freedom자유 of Information정보 Act행위 request의뢰,
54
156628
3530
모든 선생님의 이름과 점수를 입수해서
02:52
got all the teachers'교사 ' names이름
and all their그들의 scores점수
55
160182
2959
일종의 선생님 망신 주기로
기사화 했어요.
02:55
and they published출판 된 them
as an act행위 of teacher-shaming교사 - 쉐인.
56
163165
2782
제가 같은 방법으로 이 공식과
소스코드를 찾으려고 했더니
02:59
When I tried시도한 to get the formulas방식,
the source출처 code암호, through...을 통하여 the same같은 means방법,
57
167084
3860
허가할 수 없다고 하더라고요.
03:02
I was told I couldn't할 수 없었다.
58
170968
2149
거부 당한 겁니다.
03:05
I was denied부정한.
59
173141
1236
그 후 알게된 건데
03:06
I later후에 found녹이다 out
60
174401
1174
뉴욕의 어느 누구도 그 공식은
접근할 수 없었어요.
03:07
that nobody아무도 in New새로운 York요크 City시티
had access접속하다 to that formula공식.
61
175599
2866
아는 사람도 없었죠.
03:10
No one understood이해 된 it.
62
178489
1305
03:13
Then someone어떤 사람 really smart똑똑한
got involved뒤얽힌, Gary게리 Rubenstein루벤스 타인.
63
181929
3224
그러다 게리 루빈스타인이라는 아주
똑똑한 사람이 여기 관여하게 됩니다.
그가 뉴욕 포스트 자료에서
665명의 선생님을 찾아내 봤더니
03:17
He found녹이다 665 teachers교사
from that New새로운 York요크 Post게시하다 data데이터
64
185177
3621
점수가 두 가지였어요.
03:20
that actually사실은 had two scores점수.
65
188822
1866
03:22
That could happen우연히 있다 if they were teaching가르치는
66
190712
1881
한 분이 7학년 수학과 8학년 수학을
03:24
seventh제칠 grade학년 math수학 and eighth여덟 번째 grade학년 math수학.
67
192617
2439
함께 가르치면 생기는 일입니다.
03:27
He decided결정적인 to plot음모 them.
68
195080
1538
게리가 이걸로 그림을 그려봤어요.
점 하나 하나가 선생님 한 분입니다.
03:28
Each마다 dot represents대표하다 a teacher선생.
69
196642
1993
03:31
(Laughter웃음)
70
199104
2379
(웃음)
03:33
What is that?
71
201507
1521
저건 뭡니까?
(웃음)
03:35
(Laughter웃음)
72
203052
1277
03:36
That should never have been used
for individual개인 assessment평가.
73
204353
3446
개인 인사 고과에 정말 이용하지
말았어야 할 프로그램이었던 겁니다.
거의 난수 생성기네요.
03:39
It's almost거의 a random무작위의 number번호 generator발전기.
74
207823
1926
(박수)
03:41
(Applause박수 갈채)
75
209773
2946
하지만 실제로 활용됐습니다.
03:44
But it was.
76
212743
1162
이분은 사라 와이사키 선생님입니다.
03:45
This is Sarah사라 WysockiWysocki.
77
213929
1176
다른 205명의 선생님과 함께
03:47
She got fired해고당한, along...을 따라서
with 205 other teachers교사,
78
215129
2175
워싱턴 DC 학군에서 해직되셨죠.
03:49
from the Washington워싱턴, DCDC school학교 district지구,
79
217328
2662
03:52
even though그래도 she had great
recommendations추천 from her principal주요한
80
220014
2909
교장이나 학생들 학부모로부터
높은 평가를 받았음에도
어쩔 수 없었어요.
03:54
and the parents부모님 of her kids아이들.
81
222947
1428
여러분들, 특히 여기 데이터 과학자,
인공지능 과학자분들이
03:57
I know what a lot
of you guys are thinking생각,
82
225390
2032
03:59
especially특히 the data데이터 scientists과학자들,
the AIAI experts전문가 here.
83
227446
2487
무슨 생각들 하시는지 압니다.
이렇게 생각하시겠죠.
04:01
You're thinking생각, "Well, I would never make
an algorithm연산 that inconsistent모순 된."
84
229957
4226
"음, 난 저런 일관성 없는
알고리즘은 절대 안 만들어."
하지만 알고리즘도 잘못될 수 있고
04:06
But algorithms알고리즘 can go wrong잘못된,
85
234853
1683
좋은 의도에도 심각히 파괴적인
결과로 이끌 수 있습니다.
04:08
even have deeply깊이 destructive파괴적인 effects효과
with good intentions의도.
86
236560
4598
설계가 잘못된 비행기는
04:14
And whereas이므로 an airplane비행기
that's designed디자인 된 badly심하게
87
242531
2379
땅으로 추락하고 그러면
모두가 알 수 있지만
04:16
crashes사고 to the earth지구 and everyone각자 모두 sees본다 it,
88
244934
2001
설계가 잘못된 알고리즘은
04:18
an algorithm연산 designed디자인 된 badly심하게
89
246959
1850
04:22
can go on for a long time,
silently아무 말 않고 wreaking비방하는 havoc큰 파란.
90
250245
3865
오랜 시간에 걸쳐 조용히
우리를 파멸시킵니다.
이분은 로저 에일즈씨입니다.
04:27
This is Roger알았다 AilesAiles.
91
255748
1570
04:29
(Laughter웃음)
92
257342
2000
(웃음)
04:32
He founded설립 된 Fox여우 News뉴스 in 1996.
93
260524
2388
1996년 폭스 뉴스를 세웠죠.
20명 이상의 여성들이
성희롱을 당했다고 했습니다.
04:35
More than 20 women여자들 complained불평하다
about sexual성적 harassment괴롭힘.
94
263436
2581
그들에 따르면 여자들은 폭스 뉴스에서
성공할 수 없었다고 해요.
04:38
They said they weren't하지 않았다 allowed허용 된
to succeed성공하다 at Fox여우 News뉴스.
95
266041
3235
그는 작년에 쫓겨 났지만
우리는 최근에도
04:41
He was ousted축출 된 last year,
but we've우리는 seen recently요새
96
269300
2520
그 문제가 여전하다는 걸
접하고 있습니다.
04:43
that the problems문제들 have persisted지속 된.
97
271844
2670
04:47
That begs~을 구걸하다 the question문제:
98
275654
1400
여기서 의문이 떠오릅니다.
04:49
What should Fox여우 News뉴스 do
to turn회전 over another다른 leaf?
99
277078
2884
분위기를 쇄신하려면 폭스 뉴스는
뭘 해야 할까요?
04:53
Well, what if they replaced대체 된
their그들의 hiring고용 process방법
100
281245
3041
음, 거기 고용 절차를
기계 학습 알고리즘으로
바꾸면 어떨까요?
04:56
with a machine-learning기계 학습 algorithm연산?
101
284310
1654
괜찮은 생각이죠? 안 그래요?
04:57
That sounds소리 good, right?
102
285988
1595
생각해 보세요.
04:59
Think about it.
103
287607
1300
자료, 자료는 어떤 거면 될까요?
05:00
The data데이터, what would the data데이터 be?
104
288931
2105
지난 21년간 팍스 뉴스 지원자의
자료면 합당하겠죠.
05:03
A reasonable합리적인 choice선택 would be the last
21 years연령 of applications응용 프로그램 to Fox여우 News뉴스.
105
291060
4947
05:08
Reasonable합리적인.
106
296031
1502
합리적입니다.
05:09
What about the definition정의 of success성공?
107
297557
1938
성공에 대한 정의는 어떨까요?
합리적인 선택이라면
05:11
Reasonable합리적인 choice선택 would be,
108
299921
1324
음, 폭스 뉴스에서 성공한 사람
정도면 어때요?
05:13
well, who is successful성공한 at Fox여우 News뉴스?
109
301269
1778
제 생각에 예를 들어
4년 정도 근무하면서
05:15
I guess추측 someone어떤 사람 who, say,
stayed머물렀던 there for four years연령
110
303071
3580
적어도 한 번쯤 승진한 거면
될 듯한데.
05:18
and was promoted승진 한 at least가장 작은 once일단.
111
306675
1654
05:20
Sounds소리 reasonable합리적인.
112
308816
1561
그럴 듯합니다.
이제 알고리즘은 학습할 수 있습니다.
05:22
And then the algorithm연산 would be trained훈련 된.
113
310401
2354
무엇이 성공의 원인인가를 학습해
이 정의에 따라
05:24
It would be trained훈련 된 to look for people
to learn배우다 what led to success성공,
114
312779
3877
과거에 어떤 지원자가 성공했는지
찾아내도록 훈련한
05:29
what kind종류 of applications응용 프로그램
historically역사적으로 led to success성공
115
317219
4318
알고리즘이 생기겠죠.
05:33
by that definition정의.
116
321561
1294
이제 그걸 지금의
지원자들에게 적용하면
05:36
Now think about what would happen우연히 있다
117
324200
1775
05:37
if we applied적용된 that
to a current흐름 pool of applicants지원자.
118
325999
2555
어떤 일이 발생할지 생각해 봅시다.
05:41
It would filter필터 out women여자들
119
329119
1629
여성은 배제될 겁니다.
과거에 성공한 경력이
있을 것 같지 않기 때문이죠.
05:43
because they do not look like people
who were successful성공한 in the past과거.
120
331663
3930
05:51
Algorithms알고리즘 don't make things fair공정한
121
339752
2537
아무 생각 없이 맹목적으로 이용한다고
알고리즘으로 세상이
공평해지진 않습니다.
05:54
if you just blithelyblithely,
blindly맹목적으로 apply대다 algorithms알고리즘.
122
342313
2694
그걸로 세상이 공정해지진 않아요.
05:57
They don't make things fair공정한.
123
345031
1482
단지 과거의 관행과 우리
행동의 유형을 따라할 뿐입니다.
05:58
They repeat반복 our past과거 practices관행,
124
346537
2128
06:00
our patterns패턴들.
125
348689
1183
현상태를 자동화하는 거죠.
06:01
They automate자동화하다 the status지위 quo진정한.
126
349896
1939
우리의 현재가 완벽하다면
훌륭한 알고리즘이겠지만
06:04
That would be great
if we had a perfect완전한 world세계,
127
352718
2389
현실은 완벽하지 않습니다.
06:07
but we don't.
128
355905
1312
06:09
And I'll add더하다 that most가장 companies회사들
don't have embarrassing창피한 lawsuits소송,
129
357241
4102
그리고 여기에 대부분의 기업이
난처한 소송에 휘말리진 않아도
그런 기업의 데이터 과학자들은
06:14
but the data데이터 scientists과학자들 in those companies회사들
130
362446
2588
그 데이터에 따라 일하도록
06:17
are told to follow따르다 the data데이터,
131
365058
2189
정확성에 집중하도록
요구받고 있습니다.
06:19
to focus초점 on accuracy정확성.
132
367271
2143
무슨 뜻일지 생각해 보세요.
06:22
Think about what that means방법.
133
370273
1381
우리는 모두 편견이 있기 때문에
성차별이나 다른 어떤 편견을
06:23
Because we all have bias바이어스,
it means방법 they could be codifying성문화하는 sexism성 차별주의
134
371678
4027
06:27
or any other kind종류 of bigotry편협한 신앙.
135
375729
1836
코드에 넣을 수 있습니다.
06:31
Thought experiment실험,
136
379488
1421
사고 실험 해봅시다.
제가 좋아하니까
06:32
because I like them:
137
380933
1509
06:35
an entirely전적으로 segregated분리 된 society사회 --
138
383574
2975
완벽하게 분리된 사회
06:40
racially인종적으로 segregated분리 된, all towns도시,
all neighborhoods이웃
139
388247
3328
인종으로도 분리되고, 각 도시도
이웃도 분리되고
사회적 약자의 거주지역에만
경찰을 보내 범죄를 조사한다고 해보죠.
06:43
and where we send보내다 the police경찰
only to the minority소수 neighborhoods이웃
140
391599
3037
06:46
to look for crime범죄.
141
394660
1193
그 검거율 자료는
아주 편향되었을 겁니다.
06:48
The arrest체포 data데이터 would be very biased치우친.
142
396451
2219
거기에, 만약 데이터 과학자들과
고용된 데이터 분석가들에게
06:51
What if, on top상단 of that,
we found녹이다 the data데이터 scientists과학자들
143
399851
2575
06:54
and paid유료 the data데이터 scientists과학자들 to predict예측하다
where the next다음 것 crime범죄 would occur나오다?
144
402450
4161
다음 번엔 어디서 범죄가 생길지
예측하게 한다면 어떻게 될까요?
사회적 약자의 거주 지역일 겁니다.
06:59
Minority소수 neighborhood이웃.
145
407275
1487
혹은 다음 번 범죄자가 누구일지
예측케 한다면 누가 될까요?
07:01
Or to predict예측하다 who the next다음 것
criminal범죄자 would be?
146
409285
3125
사회적 약자겠죠.
07:04
A minority소수.
147
412888
1395
그 데이터 과학자는 자신의 모델이
얼마나 대단하고 정확한지
07:07
The data데이터 scientists과학자들 would brag자랑거리
about how great and how accurate정확한
148
415949
3541
자랑할 것이고
07:11
their그들의 model모델 would be,
149
419514
1297
그게 맞겠죠.
07:12
and they'd그들은 be right.
150
420835
1299
지금 현실은 저렇게 극단적이진 않아도
우리는 많은 도시와 마을에서
07:15
Now, reality현실 isn't that drastic격렬한,
but we do have severe심한 segregations분리
151
423951
4615
심각한 인종차별이 있고
07:20
in many많은 cities도시들 and towns도시,
152
428590
1287
차별적인 경찰 활동과
법 집행에 대한 증거는 차고 넘칩니다.
07:21
and we have plenty많은 of evidence증거
153
429901
1893
07:23
of biased치우친 policing치안
and justice정의 system체계 data데이터.
154
431818
2688
07:27
And we actually사실은 do predict예측하다 hotspots핫스팟,
155
435632
2815
그리고 우범지역, 바로 범죄가
발생할 것 같은 장소를
실제로도 예측합니다.
07:30
places장소들 where crimes범죄 will occur나오다.
156
438471
1530
또한 우리는 실제로 개인의
범죄 가능성을 예측하죠.
07:32
And we do predict예측하다, in fact,
the individual개인 criminality범죄,
157
440401
3866
07:36
the criminality범죄 of individuals개인.
158
444291
1770
개인적 범죄성이라고 합니다.
뉴스 조직인 프로 퍼블리카는 최근
07:38
The news뉴스 organization조직 ProPublica프로 공공
recently요새 looked보았다 into
159
446972
3963
어느 "재범 위험성 평가"
알고리즘을 살펴 봤습니다.
07:42
one of those "recidivism상습적 범행 risk위험" algorithms알고리즘,
160
450959
2024
전문가들은 그렇게 부르더군요.
07:45
as they're called전화 한,
161
453007
1163
플로리다주에서 판사가 형을
선고하는 동안 사용하고 있죠.
07:46
being존재 used in Florida플로리다
during...동안 sentencing양형 by judges심사 위원.
162
454194
3194
왼쪽의 흑인 버너드는
10점 만점에 10점을 받았습니다.
07:50
Bernard남자 이름, on the left, the black검은 man,
was scored득점 한 a 10 out of 10.
163
458411
3585
07:55
Dylan딜란, on the right, 3 out of 10.
164
463179
2007
오른쪽 딜런은
10점 만점에 3점을 받았고요.
07:57
10 out of 10, high높은 risk위험.
3 out of 10, low낮은 risk위험.
165
465210
2501
10점 만점에 10점, 고위험군.
10점 만점에 3점, 저위험군.
둘 다 불법약물 소지혐의로
재판 중이었습니다.
08:00
They were both양자 모두 brought가져온 in
for drug possession소유.
166
468598
2385
둘 다 전과가 있었지만
08:03
They both양자 모두 had records기록들,
167
471007
1154
딜런은 중범죄 전과자였고
08:04
but Dylan딜란 had a felony중죄
168
472185
2806
버너드는 그렇지 않았죠.
08:07
but Bernard남자 이름 didn't.
169
475015
1176
이게 중요한데 왜냐하면
점수가 높으면 높을수록
08:09
This matters사안, because
the higher더 높은 score점수 you are,
170
477818
3066
더 긴 형기를 선고받을 수
있기 때문입니다.
08:12
the more likely아마도 you're being존재 given주어진
a longer더 길게 sentence문장.
171
480908
3473
도대체 무슨 일이 벌어지고 있죠?
08:18
What's going on?
172
486294
1294
데이터 세탁이죠.
08:20
Data데이터 laundering세탁.
173
488526
1332
바로 기술자들이 추악한 진실을
08:22
It's a process방법 by which어느
technologists기술자 hide숨는 장소 ugly추한 truths진실
174
490930
4427
블랙 박스 알고리즘 속에 숨겨버리고
08:27
inside내부 black검은 box상자 algorithms알고리즘
175
495381
1821
그것을 객관적이라 능력주의적이라
08:29
and call them objective목표;
176
497226
1290
부르는 과정입니다.
08:31
call them meritocratic감성적 인.
177
499320
1568
그 알고리즘이 비밀이고,
중요하면서 파괴적이기 때문에
08:35
When they're secret비밀,
important중대한 and destructive파괴적인,
178
503118
2385
저는 이런 알고리즘에
새 이름을 지었습니다.
08:37
I've coined화폐로 주조 한 a term기간 for these algorithms알고리즘:
179
505527
2487
"대량 수학 살상 무기."
08:40
"weapons무기 of math수학 destruction파괴."
180
508038
1999
(웃음)
08:42
(Laughter웃음)
181
510061
1564
(박수)
08:43
(Applause박수 갈채)
182
511649
3054
어느 곳에나 퍼져 있고
그게 실수가 아닙니다.
08:46
They're everywhere어디에나,
and it's not a mistake잘못.
183
514727
2354
08:49
These are private은밀한 companies회사들
building건물 private은밀한 algorithms알고리즘
184
517695
3723
이들이 자신들의 목적을 위해
자신들만의 알고리즘을 만든 사기업입니다.
08:53
for private은밀한 ends끝이다.
185
521442
1392
심지어 제가 언급한 교직원이나
경찰관 고과평가 프로그램도
08:55
Even the ones그들 I talked말한 about
for teachers교사 and the public공공의 police경찰,
186
523214
3214
개인 기업이 만들고
08:58
those were built세워짐 by private은밀한 companies회사들
187
526452
1869
정부가 돈을 들여 산 겁니다.
09:00
and sold팔린 to the government정부 institutions기관.
188
528345
2231
09:02
They call it their그들의 "secret비밀 sauce소스" --
189
530600
1873
그들은 이 알고리즘을
"비법"이라고 하고
그래서 공개 못한다는 건데
09:04
that's why they can't tell us about it.
190
532497
2128
09:06
It's also또한 private은밀한 power.
191
534649
2220
그게 사기업의 힘이죠.
그들은 "불가해"라는 권력을 휘둘러
이익을 챙기고 있죠.
09:09
They are profiting이익을주는 for wielding휘두르는
the authority권위 of the inscrutable헤아릴 수 없는.
192
537924
4695
여러분들 중에는 이 모든 게
사적인 문제이고
09:17
Now you might think,
since이후 all this stuff물건 is private은밀한
193
545114
2934
경쟁이 있으니까
09:20
and there's competition경쟁,
194
548072
1158
자유 시장이 다 해결할 거라고
생각하실 수도 있습니다.
09:21
maybe the free비어 있는 market시장
will solve풀다 this problem문제.
195
549254
2306
09:23
It won't습관.
196
551584
1249
절대로 그렇지 않습니다.
불공정한 세상에서는
많은 돈을 벌 수 있습니다.
09:24
There's a lot of money
to be made만든 in unfairness불공평.
197
552857
3120
또한 우리는 경제적으로
이성적 참여자가 아닙니다.
09:29
Also또한, we're not economic간결한 rational이성적인 agents자치령 대표.
198
557127
3369
우리에겐 편견이 있죠.
09:33
We all are biased치우친.
199
561031
1292
09:34
We're all racist인종 차별 주의자 and bigoted편견없는
in ways that we wish소원 we weren't하지 않았다,
200
562960
3377
우리는 원하지 않고
심지어 알지도 못하는 방식으로
모두 인종차별주의자이고
편견에 사로잡혀 있습니다.
09:38
in ways that we don't even know.
201
566361
2019
전체적으로 우리는 전부
이걸 알고 있습니다.
09:41
We know this, though그래도, in aggregate골재,
202
569352
3081
왜냐하면 많은 사회학자들이
자신들만의 실험으로
09:44
because sociologists사회 학자
have consistently일관되게 demonstrated시연 된 this
203
572457
3220
끊임없이 이걸 증명했기 때문이죠.
09:47
with these experiments실험 they build짓다,
204
575701
1665
자격은 똑같았지만 백인일 것
같은 이름을 적은 지원서와
09:49
where they send보내다 a bunch다발
of applications응용 프로그램 to jobs일자리 out,
205
577390
2568
09:51
equally같이 qualified자격 있는 but some
have white-sounding흰 들리는 소리 names이름
206
579982
2501
흑인일 것 같은 이름을 적은
지원서를 여러 장 기업에 제출했는데
09:54
and some have black-sounding까만 소리가 나는 소리 names이름,
207
582507
1706
언제나 실망적이었습니다.
결과는, 늘 그랬어요.
09:56
and it's always disappointing실망시키는,
the results결과들 -- always.
208
584237
2694
그래서 우리는 편견을 가진
동물이라는 겁니다.
09:59
So we are the ones그들 that are biased치우친,
209
587510
1771
그리고 우리는 이런 편견을
알고리즘에 투영합니다.
10:01
and we are injecting주입 those biases편향
into the algorithms알고리즘
210
589305
3429
예를 들면 라면을
배제하기로 한다던지 하는 식으로
10:04
by choosing고르는 what data데이터 to collect수집,
211
592758
1812
10:06
like I chose선택한 not to think
about ramen라면 noodles국수 --
212
594594
2743
수집할 자료를 선별하고
저는 이것이 전혀 관계가
없다고 생각했죠.
10:09
I decided결정적인 it was irrelevant무의미한.
213
597361
1625
하지만 실제로 생긴 과거의 사례에서
수집된 자료를 신뢰하거나
10:11
But by trusting신뢰하는 the data데이터 that's actually사실은
picking선발 up on past과거 practices관행
214
599010
5684
10:16
and by choosing고르는 the definition정의 of success성공,
215
604718
2014
성공의 정의를 선택할 때
어떻게 알고리즘이
아무탈 없기를 기대하겠습니까?
10:18
how can we expect배고 있다 the algorithms알고리즘
to emerge나타나다 unscathed상처 없는?
216
606756
3983
10:22
We can't. We have to check검사 them.
217
610763
2356
불가능합니다.
그들의 유효성을 검증해야 합니다.
10:26
We have to check검사 them for fairness공평.
218
614165
1709
공정성을 위해 반드시
검증이 필요합니다.
좋은 소식은 우리가 공정성을
검증할 수 있다는 것입니다.
10:27
The good news뉴스 is,
we can check검사 them for fairness공평.
219
615898
2711
10:30
Algorithms알고리즘 can be interrogated심문 한,
220
618633
3352
알고리즘은 조사할 수 있고
그러면 알고리즘은 매번 우리에게
진실을 말해 줄 겁니다.
10:34
and they will tell us
the truth진실 every...마다 time.
221
622009
2034
10:36
And we can fix고치다 them.
We can make them better.
222
624067
2493
그러면 우리는 수정할 수 있죠.
알고리즘을 개선할 수 있습니다.
저는 이걸 알고리즘 감사라고 합니다.
10:38
I call this an algorithmic알고리즘의 audit심사,
223
626584
2375
어떻게 하는지 알려드리죠.
10:40
and I'll walk산책 you through...을 통하여 it.
224
628983
1679
첫 번째는 자료 진실성 검사입니다.
10:42
First, data데이터 integrity청렴 check검사.
225
630686
2196
10:46
For the recidivism상습적 범행 risk위험
algorithm연산 I talked말한 about,
226
634132
2657
제가 말씀드린
재범 위험도 알고리즘에서
자료 진실성 확인은 미국에서
흑인과 백인 모두 같은 비율로
10:49
a data데이터 integrity청렴 check검사 would mean
we'd우리는 have to come to terms자귀 with the fact
227
637582
3573
대마초를 피우고 있지만
체포율은 흑인이 훨씬 높음을
10:53
that in the US, whites백대하 and blacks흑인
smoke연기 pot냄비 at the same같은 rate
228
641179
3526
인정해야 한다는 겁니다.
10:56
but blacks흑인 are far멀리 more likely아마도
to be arrested체포 된 --
229
644729
2485
지역마다 다르지만 세 배에서
네 배까지 높죠.
10:59
four or five다섯 times타임스 more likely아마도,
depending의존하는 on the area지역.
230
647238
3184
11:03
What is that bias바이어스 looking like
in other crime범죄 categories카테고리,
231
651317
2826
다른 범죄에서는 이런 편견이
과연 어떨까요?
또 이걸 어떻게 반영해야 할까요?
11:06
and how do we account계정 for it?
232
654167
1451
11:08
Second둘째, we should think about
the definition정의 of success성공,
233
656162
3039
두 번째, 우리는 성공에 대한
정의를 다시 생각하고 따져봐야 합니다.
11:11
audit심사 that.
234
659225
1381
11:12
Remember생각해 내다 -- with the hiring고용
algorithm연산? We talked말한 about it.
235
660630
2752
고용문제 알고리즘 기억하세요?
아까 얘기했는데요.
11:15
Someone어떤 사람 who stays체재하다 for four years연령
and is promoted승진 한 once일단?
236
663406
3165
4년 근무하면 1번 승진을 한 사람을
찾는 알고리즘 말입니다.
이건 성공한 직장인이긴 합니다만
11:18
Well, that is a successful성공한 employee종업원,
237
666595
1769
또한 그 문화에 잘 동화된
직원이기도 합니다.
11:20
but it's also또한 an employee종업원
that is supported지원되는 by their그들의 culture문화.
238
668388
3079
이렇게 말하면 이 알고리즘 또한
너무 한쪽으로 치우져 있죠.
11:24
That said, also또한 it can be quite아주 biased치우친.
239
672089
1926
우리는 이 둘을 분리할
필요가 있습니다.
11:26
We need to separate갈라진 those two things.
240
674039
2065
11:28
We should look to
the blind블라인드 orchestra오케스트라 audition오디션
241
676128
2426
예로 블라인드 오케스트라 오디션을
참고할 필요가 있습니다.
11:30
as an example.
242
678578
1196
심사자들이 커튼 뒤에 있는 거죠.
11:31
That's where the people auditioning오디션
are behind뒤에 a sheet시트.
243
679798
2756
제가 여기서 찾는 것은
11:34
What I want to think about there
244
682946
1931
무엇이 중요한지를 결정을 하고
11:36
is the people who are listening청취
have decided결정적인 what's important중대한
245
684901
3417
또 덜 중요한가를 결정하는 게
듣는 사람이라는 거죠
11:40
and they've그들은 decided결정적인 what's not important중대한,
246
688342
2029
그 어떤 것에도 간섭받지 않는 거죠.
11:42
and they're not getting점점
distracted산만 by that.
247
690395
2059
11:44
When the blind블라인드 orchestra오케스트라
auditions오디션 started시작한,
248
692961
2749
블라인드 오케스트라 오디션이 시작되면서
오케스트라의 여성 단원 수가
5배 정도 증가했습니다.
11:47
the number번호 of women여자들 in orchestras오케스트라
went갔다 up by a factor인자 of five다섯.
249
695734
3444
다음으로 정확성도 생각해봐야 합니다.
11:52
Next다음 것, we have to consider중히 여기다 accuracy정확성.
250
700253
2015
바로 여기서 선생님들에게 적용한
가치 증강 모델이 금방 탈락합니다.
11:55
This is where the value-added값 추가 model모델
for teachers교사 would fail실패 immediately바로.
251
703233
3734
물론 어느 알고리즘도
완벽하지 않습니다.
11:59
No algorithm연산 is perfect완전한, of course코스,
252
707578
2162
12:02
so we have to consider중히 여기다
the errors오류 of every...마다 algorithm연산.
253
710620
3605
그래서 모든 알고리즘의 오류를
고려해야 합니다.
얼마나 자주 오류가 발생하고
이 모델이 안 맞는 사람은 누군가요?
12:06
How often자주 are there errors오류,
and for whom누구에게 does this model모델 fail실패?
254
714836
4359
그 오류의 댓가는 얼마나 되나요?
12:11
What is the cost비용 of that failure실패?
255
719850
1718
그리고 마지막으로
반드시 고려해야 하는 것은
12:14
And finally마침내, we have to consider중히 여기다
256
722434
2207
알고리즘의 장기적 영향과
12:17
the long-term장기간 effects효과 of algorithms알고리즘,
257
725973
2186
여기서 생겨나는 피드백 고리죠.
12:20
the feedback피드백 loops루프 that are engendering창안하다.
258
728866
2207
12:23
That sounds소리 abstract추상,
259
731586
1236
구체적으로 와닿진 않겠지만
12:24
but imagine상상하다 if Facebook페이스 북 engineers엔지니어
had considered깊이 생각한 that
260
732846
2664
페이스북 엔지니어가 친구들이
올린 글만 보여주도록 결정하기 전에
12:28
before they decided결정적인 to show보여 주다 us
only things that our friends친구 had posted게시 됨.
261
736270
4855
이 점을 먼저 생각해 봤다면
과연 어땠을까요?
12:33
I have two more messages메시지,
one for the data데이터 scientists과학자들 out there.
262
741761
3234
제가 드릴 메세지가 둘 있는데
하나는 데이터 과학자분들 겁니다.
데이터 과학자 여러분, 우리는
진실의 결정권자가 아닙니다.
12:37
Data데이터 scientists과학자들: we should
not be the arbiters중재인 of truth진실.
263
745450
3409
12:41
We should be translators번역가
of ethical윤리적 인 discussions토론 that happen우연히 있다
264
749520
3783
우리는 더 큰 사회에서 벌어지는
윤리적 토론을 번역하는 사람에 불과합니다.
12:45
in larger더 큰 society사회.
265
753327
1294
(박수)
12:47
(Applause박수 갈채)
266
755579
2133
12:49
And the rest휴식 of you,
267
757736
1556
나머지 비데이터 과학자
여러분
12:52
the non-data비 - 데이터 scientists과학자들:
268
760011
1396
이 문제는 수학 시험이 아닙니다.
12:53
this is not a math수학 test테스트.
269
761431
1498
12:55
This is a political주재관 fight싸움.
270
763632
1348
이것은 정치적 투쟁입니다.
알고리즘을 지배하는 이들에게
책임을 요구할 필요가 있습니다.
12:58
We need to demand수요 accountability책임
for our algorithmic알고리즘의 overlords군주.
271
766587
3907
(박수)
13:04
(Applause박수 갈채)
272
772118
1499
빅 데이터에 대한 맹신의 시기는
반드시 끝나야 합니다.
13:05
The era연대 of blind블라인드 faith신앙
in big data데이터 must절대로 필요한 것 end종료.
273
773641
4225
대단히 감사합니다
13:09
Thank you very much.
274
777890
1167
(박수)
13:11
(Applause박수 갈채)
275
779081
5303
Translated by SeungGyu Min
Reviewed by Tae-Hoon Chung

▲Back to top

ABOUT THE SPEAKER
Cathy O'Neil - Mathematician, data scientist
Data skeptic Cathy O’Neil uncovers the dark secrets of big data, showing how our "objective" algorithms could in fact reinforce human bias.

Why you should listen

In 2008, as a hedge-fund quant, mathematician Cathy O’Neil saw firsthand how really really bad math could lead to financial disaster. Disillusioned, O’Neil became a data scientist and eventually joined Occupy Wall Street’s Alternative Banking Group.

With her popular blog mathbabe.org, O’Neil emerged as an investigative journalist. Her acclaimed book Weapons of Math Destruction details how opaque, black-box algorithms rely on biased historical data to do everything from sentence defendants to hire workers. In 2017, O’Neil founded consulting firm ORCAA to audit algorithms for racial, gender and economic inequality.

More profile about the speaker
Cathy O'Neil | Speaker | TED.com