ABOUT THE SPEAKER
Kenneth Cukier - Data Editor of The Economist
Kenneth Cukier is the Data Editor of The Economist. From 2007 to 2012 he was the Tokyo correspondent, and before that, the paper’s technology correspondent in London, where his work focused on innovation, intellectual property and Internet governance. Kenneth is also the co-author of Big Data: A Revolution That Will Transform How We Live, Work, and Think with Viktor Mayer-Schönberger in 2013, which was a New York Times Bestseller and translated into 16 languages.

Why you should listen

As Data Editor of The Economist and co-author of Big Data: A Revolution That Will Transform How We Live, Work, and Think, Kenneth Cukier has spent years immersed in big data, machine learning -- and the impact of both. What's the future of big data-driven technology and design? To find out, watch this talk.

More profile about the speaker
Kenneth Cukier | Speaker | TED.com
TEDSalon Berlin 2014

Kenneth Cukier: Big data is better data

大数据好处多

Filmed:
1,663,038 views

无人驾驶汽车只是大数据时代的开始。由大数据所带来的未来技术和设计将会是什么样子的?Kenneth Cukier的精彩演讲给我们展现了由大数据给机器学习和人类知识带来的翻天覆地的变化。
- Data Editor of The Economist
Kenneth Cukier is the Data Editor of The Economist. From 2007 to 2012 he was the Tokyo correspondent, and before that, the paper’s technology correspondent in London, where his work focused on innovation, intellectual property and Internet governance. Kenneth is also the co-author of Big Data: A Revolution That Will Transform How We Live, Work, and Think with Viktor Mayer-Schönberger in 2013, which was a New York Times Bestseller and translated into 16 languages. Full bio

Double-click the English transcript below to play the video.

美国人最爱的馅饼是什么?
00:12
America's美国 favorite喜爱 pie馅饼 is?
0
787
3845
00:16
Audience听众: Apple苹果.
Kenneth肯尼斯 CukierCukier: Apple苹果. Of course课程 it is.
1
4632
3506
观众:苹果派
Kenneth Cukier:苹果派 毋庸置疑
00:20
How do we know it?
2
8138
1231
我们是怎么知道的?
00:21
Because of data数据.
3
9369
2753
因为数据
00:24
You look at supermarket超级市场 sales销售.
4
12122
2066
当你观察超市的销售数据
00:26
You look at supermarket超级市场
sales销售 of 30-centimeter-厘米 pies馅饼
5
14188
2866
会发现超市销售的30厘米冷冻馅饼中
00:29
that are frozen冻结的, and apple苹果 wins, no contest比赛.
6
17054
4075
苹果派胜出, 毫无悬念
00:33
The majority多数 of the sales销售 are apple苹果.
7
21129
5180
绝大多数的销售份额就是来自苹果派
00:38
But then supermarkets超级市场 started开始 selling销售
8
26309
2964
但是之后超市开始销售
00:41
smaller, 11-centimeter-厘米 pies馅饼,
9
29273
2583
比较小的11厘米的馅饼
00:43
and suddenly突然, apple苹果 fell下跌 to fourth第四 or fifth第五 place地点.
10
31856
4174
突然间苹果派的销量下降到了第4或第5名
00:48
Why? What happened发生?
11
36030
2875
为什么?怎么了?
00:50
Okay, think about it.
12
38905
2818
好, 想象一下
00:53
When you buy购买 a 30-centimeter-厘米 pie馅饼,
13
41723
3848
当你准备买一个30厘米的馅饼时
00:57
the whole整个 family家庭 has to agree同意,
14
45571
2261
全家都不得不同意(选择苹果派馅饼)
00:59
and apple苹果 is everyone's大家的 second第二 favorite喜爱.
15
47832
3791
虽然苹果派只是每个人的次选项
01:03
(Laughter笑声)
16
51623
1935
(笑声)
01:05
But when you buy购买 an individual个人 11-centimeter-厘米 pie馅饼,
17
53558
3615
但当你给自己选一个11厘米馅饼时
01:09
you can buy购买 the one that you want.
18
57173
3745
你可以买你最爱吃的口味
01:12
You can get your first choice选择.
19
60918
4015
你会选你的首选项
01:16
You have more data数据.
20
64933
1641
你有了更多数据
01:18
You can see something
21
66574
1554
你可以知道些事情
01:20
that you couldn't不能 see
22
68128
1132
这些事情在你只有少量数据时
01:21
when you only had smaller amounts of it.
23
69260
3953
你是无法知道的
01:25
Now, the point here is that more data数据
24
73213
2475
这里, 关键的是更多的数据
01:27
doesn't just let us see more,
25
75688
2283
不单单让我们知道更多
01:29
more of the same相同 thing we were looking at.
26
77971
1854
知道更多我们正在关注的同样事物
01:31
More data数据 allows允许 us to see new.
27
79825
3613
更多的数据使我们能了解新的事情
01:35
It allows允许 us to see better.
28
83438
3094
让我们更好地了解
01:38
It allows允许 us to see different不同.
29
86532
3656
让我们有不同的视角
01:42
In this case案件, it allows允许 us to see
30
90188
3173
在这个例子里 更多的数据让我们知道
01:45
what America's美国 favorite喜爱 pie馅饼 is:
31
93361
2913
美国人最喜欢的馅饼
01:48
not apple苹果.
32
96274
2542
不是苹果派
01:50
Now, you probably大概 all have heard听说 the term术语 big data数据.
33
98816
3614
你或许听说过大数据这个词
01:54
In fact事实, you're probably大概 sick生病 of hearing听力 the term术语
34
102430
2057
事实上, 你可能对这个词
01:56
big data数据.
35
104487
1630
已经心生厌恶
01:58
It is true真正 that there is a lot of hype炒作 around the term术语,
36
106117
3330
确实, 大数据受到了空前的宣传炒作
02:01
and that is very unfortunate不幸的,
37
109447
2332
这很不应该
02:03
because big data数据 is an extremely非常 important重要 tool工具
38
111779
3046
因为大数据是一个非常重要的工具
02:06
by which哪一个 society社会 is going to advance提前.
39
114825
3734
社会将由此而不断进步
02:10
In the past过去, we used to look at small data数据
40
118559
3561
过去我们习惯于处理小数据
02:14
and think about what it would mean
41
122120
1704
思考这些小数据的意义
02:15
to try to understand理解 the world世界,
42
123824
1496
并以此来了解世界
02:17
and now we have a lot more of it,
43
125320
1991
现在我们有很多很多的数据
02:19
more than we ever could before.
44
127311
2722
数据量前所未有的巨大
02:22
What we find is that when we have
45
130033
1877
当我们掌握海量数据时
02:23
a large body身体 of data数据, we can fundamentally从根本上 do things
46
131910
2724
我们可以做一些事
02:26
that we couldn't不能 do when we
only had smaller amounts.
47
134634
3276
一些在只有较少数据时不可能办到的事
02:29
Big data数据 is important重要, and big data数据 is new,
48
137910
2641
大数据很重要, 它也是一个新兴事物
02:32
and when you think about it,
49
140551
1777
想象一下
02:34
the only way this planet行星 is going to deal合同
50
142328
2216
能够帮助我们应对
02:36
with its global全球 challenges挑战
51
144544
1789
世界性难题
02:38
to feed饲料 people, supply供应 them with medical care关心,
52
146333
3537
像食物短缺 医疗短缺
02:41
supply供应 them with energy能源, electricity电力,
53
149870
2810
能源短缺 电力短缺
02:44
and to make sure they're not burnt to a crisp
54
152680
1789
还有确保人类家园
02:46
because of global全球 warming变暖
55
154469
1238
不会因为全球变暖而生灵涂炭
02:47
is because of the effective有效 use of data数据.
56
155707
4195
的唯一办法是有效利用大数据
02:51
So what is new about big
data数据? What is the big deal合同?
57
159902
3870
那么大数据新在何处, 重在何处呢?
02:55
Well, to answer回答 that question, let's think about
58
163772
2517
为了回答这个问题, 让我们看一下
02:58
what information信息 looked看着 like,
59
166289
1896
信息看上去是什么样的
03:00
physically物理 looked看着 like in the past过去.
60
168185
3034
信息在以前是什么样的
03:03
In 1908, on the island of Crete克里特岛,
61
171219
3611
1908年在克里特岛上
(注:位于地中海 为希腊第一大岛)
03:06
archaeologists考古学家 discovered发现 a clay粘土 disc圆盘.
62
174830
4735
考古学家发现了一个粘土做的盘子
03:11
They dated过时的 it from 2000 B.C., so it's 4,000 years年份 old.
63
179565
4059
这是个公元前2000年的盘子
距今约有4000年的历史
03:15
Now, there's inscriptions铭文 on this disc圆盘,
64
183624
2004
盘子上有铭文
03:17
but we actually其实 don't know what it means手段.
65
185628
1327
但是我们不知道它们是什么意思
03:18
It's a complete完成 mystery神秘, but the point is that
66
186955
2098
这完全是个谜团
03:21
this is what information信息 used to look like
67
189053
1928
但这就是4000年前
03:22
4,000 years年份 ago.
68
190981
2089
信息的样子
03:25
This is how society社会 stored存储
69
193070
2548
这就是当时社会
03:27
and transmitted发送 information信息.
70
195618
3524
存储和传递信息的方式
03:31
Now, society社会 hasn't有没有 advanced高级 all that much.
71
199142
4160
现代社会也没有什么很大的进步
03:35
We still store商店 information信息 on discs光盘,
72
203302
3474
我们还是把数据存储在盘中
(注:指磁盘)
03:38
but now we can store商店 a lot more information信息,
73
206776
3184
但我们可以存储更多的信息
03:41
more than ever before.
74
209960
1260
远远超过以前的信息容量
03:43
Searching搜索 it is easier更轻松. Copying仿形 it easier更轻松.
75
211220
3093
这些信息搜索和复制起来更简单
03:46
Sharing分享 it is easier更轻松. Processing处理 it is easier更轻松.
76
214313
3500
分享和处理起来也更便捷
03:49
And what we can do is we can reuse重用 this information信息
77
217813
2766
我们也可以重新利用这些数据
03:52
for uses使用 that we never even imagined想象
78
220579
1834
一些我们当初收集的时候
03:54
when we first collected the data数据.
79
222413
3195
从来没有料想过的用途
03:57
In this respect尊重, the data数据 has gone走了
80
225608
2252
从这个方面来说
数据已经从储存状态到了流动状态
03:59
from a stock股票 to a flow,
81
227860
3532
04:03
from something that is stationary静止的 and static静态的
82
231392
3938
从静态的统计性的数据
04:07
to something that is fluid流体 and dynamic动态.
83
235330
3609
变成动态的数据流
04:10
There is, if you will, a liquidity流动性 to information信息.
84
238939
4023
这就是信息的流动性
04:14
The disc圆盘 that was discovered发现 off of Crete克里特岛
85
242962
3474
克里特岛发现的粘土盘
04:18
that's 4,000 years年份 old, is heavy,
86
246436
3764
有4000年的历史, 非常笨重
04:22
it doesn't store商店 a lot of information信息,
87
250200
1962
但它不能记录太多的信息
04:24
and that information信息 is unchangeable不可改变的.
88
252162
3116
并且它所记录的信息是不能更改的
04:27
By contrast对比, all of the files
89
255278
4011
与此相反
爱德华·斯诺登从美国国家安全局
04:31
that Edward爱德华 Snowden斯诺登 took
90
259289
1861
04:33
from the National国民 Security安全
Agency机构 in the United联合的 States状态
91
261150
2621
所获得的文件
04:35
fits适合 on a memory记忆 stick
92
263771
2419
可以放在一个
04:38
the size尺寸 of a fingernail指甲,
93
266190
3010
仅有指甲大小的存储盘里
04:41
and it can be shared共享 at the speed速度 of light.
94
269200
4745
并且可以以光速进行数据共享
04:45
More data数据. More.
95
273945
5255
更多数据 更多
04:51
Now, one reason原因 why we have
so much data数据 in the world世界 today今天
96
279200
1974
今天我们有这么多数据的一个原因是
04:53
is we are collecting搜集 things
97
281174
1432
我们一直在收集信息
04:54
that we've我们已经 always collected information信息 on,
98
282606
3280
就像我们一直在做的一样
04:57
but another另一个 reason原因 why is we're taking服用 things
99
285886
2656
另一个原因是我们记录了
05:00
that have always been informational信息
100
288542
2812
许多蕴含丰富信息的事物
05:03
but have never been rendered呈现 into a data数据 format格式
101
291354
2486
但是从没把信息转换成数据形式
05:05
and we are putting it into data数据.
102
293840
2419
现在我们正在把信息转变成数据
05:08
Think, for example, the question of location位置.
103
296259
3308
举个例子, 定位问题
05:11
Take, for example, Martin马丁 Luther路德.
104
299567
2249
比如说马丁·路德
05:13
If we wanted to know in the 1500s
105
301816
1597
在16世纪 如果我们想知道
05:15
where Martin马丁 Luther路德 was,
106
303413
2667
马丁·路德在哪里
05:18
we would have to follow跟随 him at all times,
107
306080
2092
我们必须一直跟着他
05:20
maybe with a feathery羽毛状 quill鹅毛笔 and an inkwell墨水瓶,
108
308172
2137
或许用羽毛笔和墨水
05:22
and record记录 it,
109
310309
1676
把这些情况记录下来
05:23
but now think about what it looks容貌 like today今天.
110
311985
2183
那现今是什么样的情形呢?
05:26
You know that somewhere某处,
111
314168
2122
在某些地方
05:28
probably大概 in a telecommunications电信 carrier's运营商 database数据库,
112
316290
2446
可能在电信运营商的数据库里
05:30
there is a spreadsheet电子表格 or at least最小 a database数据库 entry条目
113
318736
3036
有个电子数据表或者至少一个数据目录
05:33
that records记录 your information信息
114
321772
2088
记录着所有关于你
05:35
of where you've been at all times.
115
323860
2063
任何时候在什么地点的信息
05:37
If you have a cell细胞 phone电话,
116
325923
1360
如果你有个手机
05:39
and that cell细胞 phone电话 has GPS全球定位系统,
but even if it doesn't have GPS全球定位系统,
117
327283
2847
这个手机有GPS, 或者即使没有GPS
05:42
it can record记录 your information信息.
118
330130
2385
它还是可以记录你的信息
05:44
In this respect尊重, location位置 has been datafied数据化.
119
332515
4084
从这方面来说, 位置信息被数据化了
05:48
Now think, for example, of the issue问题 of posture姿势,
120
336599
4601
再举个例子, 关于姿势
05:53
the way that you are all sitting坐在 right now,
121
341200
1285
你们现在坐着的姿势
05:54
the way that you sit,
122
342485
2030
你坐着的姿势
05:56
the way that you sit, the way that you sit.
123
344515
2771
你坐着的姿势 你坐着的姿势
05:59
It's all different不同, and it's a function功能 of your leg length长度
124
347286
2077
这些都不一样 这是一个关于腿长
06:01
and your back and the contours轮廓 of your back,
125
349363
2093
你的背部和背部轮廓的函数
06:03
and if I were to put sensors传感器,
maybe 100 sensors传感器
126
351456
2531
如果我现在放一些传感器 或许100个
06:05
into all of your chairs椅子 right now,
127
353987
1766
在你的椅子里
06:07
I could create创建 an index指数 that's fairly相当 unique独特 to you,
128
355753
3600
我可以算出你的独一无二的参数
06:11
sort分类 of like a fingerprint指纹, but it's not your finger手指.
129
359353
4409
就像你的指纹 但不是针对你的手指
06:15
So what could we do with this?
130
363762
2969
那我们能用它来干什么呢?
06:18
Researchers研究人员 in Tokyo东京 are using运用 it
131
366731
2397
东京的研究者把它
06:21
as a potential潜在 anti-theft防小偷 device设备 in cars汽车.
132
369128
4388
运用在一个汽车防盗设施的雏形上
06:25
The idea理念 is that the carjackercarjacker sits坐镇 behind背后 the wheel,
133
373516
2924
它的设想是盗贼坐在驾驶座上
06:28
tries尝试 to stream off, but the car汽车 recognizes识别
134
376440
2104
企图把车开走 但是汽车识别出
06:30
that a non-approved未经批准 driver司机 is behind背后 the wheel,
135
378544
2362
驾驶座上的是个未授权驾驶人
06:32
and maybe the engine发动机 just stops停止, unless除非 you
136
380906
2164
那汽车可能就会熄火
06:35
type类型 in a password密码 into the dashboard仪表板
137
383070
3177
除非你在仪表盘上输入密码
06:38
to say, "Hey, I have authorization授权 to drive驾驶." Great.
138
386247
4658
来表明“我已获得授权”
06:42
What if every一切 single car汽车 in Europe欧洲
139
390905
2553
如果欧洲的每辆汽车
06:45
had this technology技术 in it?
140
393458
1457
都装备了这项技术会是怎样的情形?
06:46
What could we do then?
141
394915
3165
我们还能做些什么呢?
06:50
Maybe, if we aggregated汇总 the data数据,
142
398080
2240
或许如果我们整合数据
06:52
maybe we could identify鉴定 telltale揭秘 signs迹象
143
400320
3814
我们可以识别示警信号
06:56
that best最好 predict预测 that a car汽车 accident事故
144
404134
2709
对于在下一个五秒钟内
06:58
is going to take place地点 in the next下一个 five seconds.
145
406843
5893
可能发生的意外做出最佳预判
07:04
And then what we will have datafied数据化
146
412736
2557
我们也可以进行数据化的是
07:07
is driver司机 fatigue疲劳,
147
415293
1783
司机的疲劳度
07:09
and the service服务 would be when the car汽车 senses感官
148
417076
2334
当汽车侦测到司机的坐姿
07:11
that the person slumps暴跌 into that position位置,
149
419410
3437
倒成某一特定姿势时
07:14
automatically自动 knows知道, hey, set an internal内部 alarm报警
150
422847
3994
这个设备感知到并发出车内警告
07:18
that would vibrate颤动 the steering操舵 wheel, honk按喇叭 inside
151
426841
2025
可能是震动方向盘或语音提示
07:20
to say, "Hey, wake唤醒 up,
152
428866
1721
“嗨,醒醒
07:22
pay工资 more attention注意 to the road."
153
430587
1904
集中精神在路况上”
07:24
These are the sorts排序 of things we can do
154
432491
1853
这就是生活的更多方面数据化后
07:26
when we datafydatafy more aspects方面 of our lives生活.
155
434344
2821
我们能做的事情
07:29
So what is the value of big data数据?
156
437165
3675
那么大数据的价值在哪里?
07:32
Well, think about it.
157
440840
2190
好 思考一下
07:35
You have more information信息.
158
443030
2412
你有了更多地信息
07:37
You can do things that you couldn't不能 do before.
159
445442
3341
你可以做你以前不能做的事
07:40
One of the most impressive有声有色 areas
160
448783
1676
在运用这个概念的领域里
07:42
where this concept概念 is taking服用 place地点
161
450459
1729
让人印象最为最深刻的
07:44
is in the area of machine learning学习.
162
452188
3307
是机器学习
07:47
Machine learning学习 is a branch of artificial人造 intelligence情报,
163
455495
3077
机器学习是人工智能的一个分支
07:50
which哪一个 itself本身 is a branch of computer电脑 science科学.
164
458572
3378
人工智能又是计算机科学的一个分支
07:53
The general一般 idea理念 is that instead代替 of
165
461950
1543
它的基本理念是
07:55
instructing指示 a computer电脑 what do do,
166
463493
2117
把关于某个问题的一堆数据扔给电脑
07:57
we are going to simply只是 throw data数据 at the problem问题
167
465610
2620
让电脑自己找出解决方案
08:00
and tell the computer电脑 to figure数字 it out for itself本身.
168
468230
3206
而不是教电脑应该做什么
08:03
And it will help you understand理解 it
169
471436
1777
通过机器学习的原型
08:05
by seeing眼看 its origins起源.
170
473213
3552
可以帮助你来理解这个理念
08:08
In the 1950s, a computer电脑 scientist科学家
171
476765
2388
20世纪50年代IBM的计算机科学家
08:11
at IBMIBM named命名 Arthur亚瑟 Samuel塞缪尔 liked喜欢 to play checkers跳棋,
172
479153
3592
亚瑟·塞缪尔想玩跳棋
08:14
so he wrote a computer电脑 program程序
173
482745
1402
所以他写了个程序
08:16
so he could play against反对 the computer电脑.
174
484147
2813
这样他就可以和电脑来玩
08:18
He played发挥. He won韩元.
175
486960
2711
开始他下一盘 赢一盘
08:21
He played发挥. He won韩元.
176
489671
2103
下一盘 赢一盘
08:23
He played发挥. He won韩元,
177
491774
3015
下一盘 赢一盘
08:26
because the computer电脑 only knew知道
178
494789
1778
因为电脑只知道
08:28
what a legal法律 move移动 was.
179
496567
2227
规则允许怎样走
08:30
Arthur亚瑟 Samuel塞缪尔 knew知道 something else其他.
180
498794
2087
亚瑟·塞缪尔还知道其他东西
08:32
Arthur亚瑟 Samuel塞缪尔 knew知道 strategy战略.
181
500881
4629
他知道下棋的策略
08:37
So he wrote a small sub-program分项计划 alongside并肩 it
182
505510
2396
所以他又写了一个附加程序
08:39
operating操作 in the background背景, and all it did
183
507906
1974
这个程序在后台运行
08:41
was score得分了 the probability可能性
184
509880
1817
它的功能只是计算概率
08:43
that a given特定 board configuration组态 would likely容易 lead
185
511697
2563
在一个给定的棋局里
08:46
to a winning胜利 board versus a losing失去 board
186
514260
2910
每走一步后
08:49
after every一切 move移动.
187
517170
2508
会获胜或者失败的概率
08:51
He plays播放 the computer电脑. He wins.
188
519678
3150
再和电脑下棋 还是下一盘 赢一盘
08:54
He plays播放 the computer电脑. He wins.
189
522828
2508
下一盘 赢一盘
08:57
He plays播放 the computer电脑. He wins.
190
525336
3731
下一盘 赢一盘
09:01
And then Arthur亚瑟 Samuel塞缪尔 leaves树叶 the computer电脑
191
529067
2277
后来亚瑟让电脑
09:03
to play itself本身.
192
531344
2227
自己和自己下棋
09:05
It plays播放 itself本身. It collects收集 more data数据.
193
533571
3509
电脑自己玩的时候收集了更多的数据
09:09
It collects收集 more data数据. It increases增加
the accuracy准确性 of its prediction预测.
194
537080
4309
收集的数据越多, 预测的准确率就越高
09:13
And then Arthur亚瑟 Samuel塞缪尔 goes back to the computer电脑
195
541389
2104
然后亚瑟又继续和电脑下棋
09:15
and he plays播放 it, and he loses失去,
196
543493
2318
这次他下一盘 输一盘
09:17
and he plays播放 it, and he loses失去,
197
545811
2069
下一盘 输一盘
09:19
and he plays播放 it, and he loses失去,
198
547880
2047
下一盘 输一盘
09:21
and Arthur亚瑟 Samuel塞缪尔 has created创建 a machine
199
549927
2599
亚瑟创造了一个机器
09:24
that surpasses超过 his ability能力 in a task任务 that he taught it.
200
552526
6288
它的能力超越了亚瑟开始时所教给它的
09:30
And this idea理念 of machine learning学习
201
558814
2498
机器学习的理念
09:33
is going everywhere到处.
202
561312
3927
现在已经随处可见
09:37
How do you think we have self-driving自驾车 cars汽车?
203
565239
3149
你们觉得无人驾驶汽车(关键的技术)是什么?
09:40
Are we any better off as a society社会
204
568388
2137
是不是把所有交通规则输入软件
09:42
enshrining奉祀 all the rules规则 of the road into software软件?
205
570525
3285
就万事大吉了?不是
09:45
No. Memory记忆 is cheaper便宜. No.
206
573810
2598
内存很便宜?不是
09:48
Algorithms算法 are faster更快. No. Processors处理器 are better. No.
207
576408
3994
算法更快了 不是 处理器更强大了 不是
09:52
All of those things matter, but that's not why.
208
580402
2772
这些都有影响, 但不是真正的原因
09:55
It's because we changed the nature性质 of the problem问题.
209
583174
3141
真正的原因是我们改变了问题的本质
09:58
We changed the nature性质 of the problem问题 from one
210
586315
1530
我们把问题的本质从
09:59
in which哪一个 we tried试着 to overtly阳谋 and explicitly明确地
211
587845
2245
试图明确无误地
10:02
explain说明 to the computer电脑 how to drive驾驶
212
590090
2581
教会电脑怎样驾驶
10:04
to one in which哪一个 we say,
213
592671
1316
变成我们对电脑说
10:05
"Here's这里的 a lot of data数据 around the vehicle车辆.
214
593987
1876
“这里有许多关于汽车的数据
10:07
You figure数字 it out.
215
595863
1533
你自己搞定它
10:09
You figure数字 it out that that is a traffic交通 light,
216
597396
1867
你知道那是交通信号灯
10:11
that that traffic交通 light is red and not green绿色,
217
599263
2081
那是红灯不是绿灯
10:13
that that means手段 that you need to stop
218
601344
2014
遇到红灯你必须停下来
10:15
and not go forward前锋."
219
603358
3083
不能往前走”
10:18
Machine learning学习 is at the basis基础
220
606441
1518
机器学习是许多
10:19
of many许多 of the things that we do online线上:
221
607959
1991
网上在线应用的基础
10:21
search搜索 engines引擎,
222
609950
1857
搜索引擎
10:23
Amazon's亚马逊 personalization个性化 algorithm算法,
223
611807
3801
亚马逊的个性化算法
10:27
computer电脑 translation翻译,
224
615608
2212
电脑智能翻译
10:29
voice语音 recognition承认 systems系统.
225
617820
4290
语音识别系统
10:34
Researchers研究人员 recently最近 have looked看着 at
226
622110
2835
研究者最近在研究
10:36
the question of biopsies活检,
227
624945
3195
关于活组织检查的问题
10:40
cancerous癌的 biopsies活检,
228
628140
2767
关于肿瘤活组织检查
10:42
and they've他们已经 asked the computer电脑 to identify鉴定
229
630907
2315
他们让电脑
10:45
by looking at the data数据 and survival生存 rates利率
230
633222
2471
通过 (历史) 数据和存活率
10:47
to determine确定 whether是否 cells细胞 are actually其实
231
635693
4667
来判断这些细胞
10:52
cancerous癌的 or not,
232
640360
2544
是否是癌症细胞
10:54
and sure enough足够, when you throw the data数据 at it,
233
642904
1778
果不其然 当你把数据交给电脑
10:56
through通过 a machine-learning机器学习 algorithm算法,
234
644682
2047
电脑通过自主学习
10:58
the machine was able能够 to identify鉴定
235
646729
1877
可以寻找出
11:00
the 12 telltale揭秘 signs迹象 that best最好 predict预测
236
648606
2262
12个最佳的鉴别特征用来预测
11:02
that this biopsy活检 of the breast乳房 cancer癌症 cells细胞
237
650868
3299
乳腺癌细胞的活检切片
11:06
are indeed确实 cancerous癌的.
238
654167
3218
确实是癌症细胞
11:09
The problem问题: The medical literature文学
239
657385
2498
问题是医学文献
11:11
only knew知道 nine of them.
240
659883
2789
只知道其中的九个鉴别特征
11:14
Three of the traits性状 were ones那些
241
662672
1800
其他三个
11:16
that people didn't need to look for,
242
664472
2975
人们不会去寻找
11:19
but that the machine spotted.
243
667447
5531
但是电脑把它们找了出来
11:24
Now, there are dark黑暗 sides双方 to big data数据 as well.
244
672978
5925
大数据也有黑暗的一面
11:30
It will improve提高 our lives生活, but there are problems问题
245
678903
2074
它可以改善我们的生活
11:32
that we need to be conscious意识 of,
246
680977
2640
但也会带来一些我们需要注意的问题
11:35
and the first one is the idea理念
247
683617
2623
首先就是
11:38
that we may可能 be punished处罚 for predictions预测,
248
686240
2686
我们可能因为预测的结果而受到惩罚
11:40
that the police警察 may可能 use big data数据 for their purposes目的,
249
688926
3870
警察可能会用大数据来实现目标
11:44
a little bit like "Minority少数民族 Report报告."
250
692796
2351
有点像“少数派报告”
11:47
Now, it's a term术语 called predictive预测 policing治安,
251
695147
2441
现在有个词叫做预见性监管
11:49
or algorithmic算法 criminology犯罪,
252
697588
2363
或者叫算法犯罪学
11:51
and the idea理念 is that if we take a lot of data数据,
253
699951
2036
这个想法是如果我们掌握了大量数据
11:53
for example where past过去 crimes犯罪 have been,
254
701987
2159
比如以往犯罪发生的地点
11:56
we know where to send发送 the patrols巡逻.
255
704146
2543
我们可以就知道把警力派到哪里
11:58
That makes品牌 sense, but the problem问题, of course课程,
256
706689
2115
这很合理 但问题是
12:00
is that it's not simply只是 going to stop on location位置 data数据,
257
708804
4544
数据分析不会仅限于地点数据
12:05
it's going to go down to the level水平 of the individual个人.
258
713348
2959
它会进一步深入到个人层面
12:08
Why don't we use data数据 about the person's人的
259
716307
2250
为什么我们不去分析
12:10
high school学校 transcript抄本?
260
718557
2228
某人的中学成绩单
12:12
Maybe we should use the fact事实 that
261
720785
1561
或者我们可以了解
12:14
they're unemployed失业的 or not, their credit信用 score得分了,
262
722346
2028
他们的就职情况、信用记录
12:16
their web-surfing网上冲浪 behavior行为,
263
724374
1552
他们的上网行为
12:17
whether是否 they're up late晚了 at night.
264
725926
1878
他们是否熬夜
12:19
Their FitbitFitbit, when it's able能够
to identify鉴定 biochemistries生物化学性质,
265
727804
3161
当可以通过健康腕带读取生化数据时
12:22
will show显示 that they have aggressive侵略性 thoughts思念.
266
730965
4236
就可以知道他们是否有激进的想法
12:27
We may可能 have algorithms算法 that are likely容易 to predict预测
267
735201
2221
我们可以用算法来预测
12:29
what we are about to do,
268
737422
1633
我们将要做什么
12:31
and we may可能 be held保持 accountable问责
269
739055
1244
可能有些事情还没做
12:32
before we've我们已经 actually其实 acted行动.
270
740299
2590
我们就要承担责任
12:34
Privacy隐私 was the central中央 challenge挑战
271
742889
1732
个人隐私在小数据时代
12:36
in a small data数据 era时代.
272
744621
2880
是主要挑战
12:39
In the big data数据 age年龄,
273
747501
2149
在大数据时代
12:41
the challenge挑战 will be safeguarding保障 free自由 will,
274
749650
4523
这个挑战将会成为保卫自由意愿
12:46
moral道德 choice选择, human人的 volition意志,
275
754173
3779
道德选择 、人类意志
12:49
human人的 agency机构.
276
757952
3068
人类的能动性
12:54
There is another另一个 problem问题:
277
762540
2225
还有另一个问题
12:56
Big data数据 is going to steal our jobs工作.
278
764765
3556
大数据会偷走我们的工作
13:00
Big data数据 and algorithms算法 are going to challenge挑战
279
768321
3512
在21世纪
13:03
white白色 collar, professional专业的 knowledge知识 work
280
771833
3061
大数据和算法会威胁到
13:06
in the 21stST century世纪
281
774894
1653
白领和需要专业知识的工作
13:08
in the same相同 way that factory automation自动化
282
776547
2434
就像在20世纪工厂自动化
13:10
and the assembly部件 line线
283
778981
2189
和装配生产线的应用
13:13
challenged挑战 blue蓝色 collar labor劳动 in the 20th century世纪.
284
781170
3026
威胁到了蓝领们的工作岗位
13:16
Think about a lab实验室 technician技术员
285
784196
2092
想象一下一个研究室技术员
13:18
who is looking through通过 a microscope显微镜
286
786288
1409
他的工作就是通过一个显微镜
13:19
at a cancer癌症 biopsy活检
287
787697
1624
观察一个癌症活检组织
13:21
and determining决定 whether是否 it's cancerous癌的 or not.
288
789321
2637
来判定它是不是癌症的
13:23
The person went to university大学.
289
791958
1972
这个人上大学
13:25
The person buys购买 property属性.
290
793930
1430
买房子
13:27
He or she votes.
291
795360
1741
他/她投票选举
13:29
He or she is a stakeholder利益相关者 in society社会.
292
797101
3666
他/她是这个社会的一份子
13:32
And that person's人的 job工作,
293
800767
1394
然后这个人的工作
13:34
as well as an entire整个 fleet舰队
294
802161
1609
还有其他
13:35
of professionals专业人士 like that person,
295
803770
1969
像他一样的专业人员
13:37
is going to find that their jobs工作 are radically根本 changed
296
805739
3150
将会发现他们的工作被彻底改变了
13:40
or actually其实 completely全然 eliminated淘汰.
297
808889
2357
或者彻底废除了
13:43
Now, we like to think
298
811246
1284
我们一直以为
13:44
that technology技术 creates创建 jobs工作 over a period of time
299
812530
3187
在短时或者暂时的就业调整期后
13:47
after a short, temporary临时 period of dislocation错位,
300
815717
3465
一段时间内科技会创造就业机会
13:51
and that is true真正 for the frame of reference参考
301
819182
1941
这对于我们所处的参考系
13:53
with which哪一个 we all live生活, the Industrial产业 Revolution革命,
302
821123
2142
工业革命来说就是这样
13:55
because that's precisely恰恰 what happened发生.
303
823265
2328
因为在工业革命时期事情就是这样的
13:57
But we forget忘记 something in that analysis分析:
304
825593
2333
但是我们忘记了一件事情
13:59
There are some categories类别 of jobs工作
305
827926
1830
有些类型的职业
14:01
that simply只是 get eliminated淘汰 and never come back.
306
829756
3420
已经彻底消失了并且再也不会回来
14:05
The Industrial产业 Revolution革命 wasn't very good
307
833176
2004
如果你是一匹马
14:07
if you were a horse.
308
835180
4002
工业革命不是一件好事
14:11
So we're going to need to be careful小心
309
839182
2055
所以我们必须非常小心
14:13
and take big data数据 and adjust调整 it for our needs需求,
310
841237
3514
根据我们的需求和整个人类的需求
14:16
our very human人的 needs需求.
311
844751
3185
来利用和适应大数据
14:19
We have to be the master of this technology技术,
312
847936
1954
我们必须是技术的主人
14:21
not its servant仆人.
313
849890
1656
而不是技术的仆人
14:23
We are just at the outset开始 of the big data数据 era时代,
314
851546
2958
我们正在步入大数据时代
14:26
and honestly老老实实, we are not very good
315
854504
3150
老实说, 我们并不能很好地
14:29
at handling处理 all the data数据 that we can now collect搜集.
316
857654
4207
处理所有我们现在能够收集到的数据
14:33
It's not just a problem问题 for
the National国民 Security安全 Agency机构.
317
861861
3330
这不仅仅是国家安全局的问题
14:37
Businesses企业 collect搜集 lots of
data数据, and they misuse滥用 it too,
318
865191
3038
许多企业也搜集并不恰当地使用数据
14:40
and we need to get better at
this, and this will take time.
319
868229
3667
我们需要时间来纠正这个问题
14:43
It's a little bit like the challenge挑战 that was faced面对
320
871896
1822
这有点像原始人类面对火时
14:45
by primitive原始 man and fire.
321
873718
2407
所面临的挑战
14:48
This is a tool工具, but this is a tool工具 that,
322
876125
1885
火是一种工具
14:50
unless除非 we're careful小心, will burn烧伤 us.
323
878010
3559
但是如果使用不当就会引火烧身
14:56
Big data数据 is going to transform转变 how we live生活,
324
884008
3120
大数据即将改变我们的生活方式
14:59
how we work and how we think.
325
887128
2801
我们的工作方式和思考方式
15:01
It is going to help us manage管理 our careers职业生涯
326
889929
1889
它可以帮助我们管理事业
15:03
and lead lives生活 of satisfaction满意 and hope希望
327
891818
3634
帮助我们过想要的满足、充满希望
15:07
and happiness幸福 and health健康,
328
895452
2992
幸福和健康的生活
15:10
but in the past过去, we've我们已经 often经常
looked看着 at information信息 technology技术
329
898444
3306
但是在过去, 对于信息技术(IT)
15:13
and our eyes眼睛 have only seen看到 the T,
330
901750
2208
我们经常只看到了T
15:15
the technology技术, the hardware硬件,
331
903958
1686
就是技术、硬件
15:17
because that's what was physical物理.
332
905644
2262
因为这是切实可见的东西
15:19
We now need to recast重铸 our gaze凝视 at the I,
333
907906
2924
现在我们需要把目光放在 I 上
15:22
the information信息,
334
910830
1380
信息
15:24
which哪一个 is less apparent明显的,
335
912210
1373
它不是那么切实可见
15:25
but in some ways方法 a lot more important重要.
336
913583
4109
但某种程度上却更加重要
15:29
Humanity人性 can finally最后 learn学习 from the information信息
337
917692
3465
在人类永无止境的探索过程中
15:33
that it can collect搜集,
338
921157
2418
我们可以从我们能收集的信息中
15:35
as part部分 of our timeless永恒 quest寻求
339
923575
2115
来了解这个世界
15:37
to understand理解 the world世界 and our place地点 in it,
340
925690
3159
以及人类在这个世界中所处的地位
15:40
and that's why big data数据 is a big deal合同.
341
928849
5631
这就是为什么大数据非常重要
15:46
(Applause掌声)
342
934480
3568
(掌声)
Translated by Simon Cai
Reviewed by Amy Young

▲Back to top

ABOUT THE SPEAKER
Kenneth Cukier - Data Editor of The Economist
Kenneth Cukier is the Data Editor of The Economist. From 2007 to 2012 he was the Tokyo correspondent, and before that, the paper’s technology correspondent in London, where his work focused on innovation, intellectual property and Internet governance. Kenneth is also the co-author of Big Data: A Revolution That Will Transform How We Live, Work, and Think with Viktor Mayer-Schönberger in 2013, which was a New York Times Bestseller and translated into 16 languages.

Why you should listen

As Data Editor of The Economist and co-author of Big Data: A Revolution That Will Transform How We Live, Work, and Think, Kenneth Cukier has spent years immersed in big data, machine learning -- and the impact of both. What's the future of big data-driven technology and design? To find out, watch this talk.

More profile about the speaker
Kenneth Cukier | Speaker | TED.com

THE ORIGINAL VIDEO ON TED.COM