ABOUT THE SPEAKER
Fei-Fei Li - Computer scientist
As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing.

Why you should listen

Using algorithms built on machine learning methods such as neural network models, the Stanford Artificial Intelligence Lab led by Fei-Fei Li has created software capable of recognizing scenes in still photographs -- and accurately describe them using natural language.

Li’s work with neural networks and computer vision (with Stanford’s Vision Lab) marks a significant step forward for AI research, and could lead to applications ranging from more intuitive image searches to robots able to make autonomous decisions in unfamiliar situations.

Fei-Fei was honored as one of Foreign Policy's 2015 Global Thinkers

More profile about the speaker
Fei-Fei Li | Speaker | TED.com
TED2015

Fei-Fei Li: How we're teaching computers to understand pictures

李飛飛: 我們如何教導電腦看懂圖像

Filmed:
2,702,344 views

當孩童看著一個圖像,她能辨識出簡單的東西,例如貓、書、椅子等。如今,電腦也慢慢聰明得可以做到一樣的事情。那麼接下來呢?在這場動人的演說中,電腦視覺專家李飛飛與我們分享最先進的成果,包含了她的研究小組所建造,用來「教導」電腦識別的一千五百萬幅圖像,以及對未來世界的想像。
- Computer scientist
As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing. Full bio

Double-click the English transcript below to play the video.

00:14
Let me show顯示 you something.
0
2366
3738
容我為各位呈現一些照片
00:18
(Video視頻) Girl女孩: Okay, that's a cat
sitting坐在 in a bed.
1
6104
4156
(影片)女孩:嗯,這是一隻貓,坐在床上。
00:22
The boy男孩 is petting撫摸 the elephant.
2
10260
4040
這男孩在拍撫一隻象。
00:26
Those are people
that are going on an airplane飛機.
3
14300
4354
這些人要去搭飛機。
00:30
That's a big airplane飛機.
4
18654
2810
好大的飛機。
主講人:這是由一位三歲的小孩
00:33
Fei-Fei菲菲 Li: This is
a three-year-old三十歲 child兒童
5
21464
2206
00:35
describing說明 what she sees看到
in a series系列 of photos相片.
6
23670
3679
所描述她看到的一系列照片
00:39
She might威力 still have a lot
to learn學習 about this world世界,
7
27349
2845
雖然對於這世界她還有更多要學習的地方,
00:42
but she's already已經 an expert專家
at one very important重要 task任務:
8
30194
4549
但是她已經是其中一項重要技能的專家--
00:46
to make sense of what she sees看到.
9
34743
2846
為所見之聞賦予意義。
科技在我們的社會已進展到前所未有的程度:
00:50
Our society社會 is more
technologically技術 advanced高級 than ever.
10
38229
4226
00:54
We send發送 people to the moon月亮,
we make phones手機 that talk to us
11
42455
3629
我們把人送上月球、發明可以與人交談的電話,
00:58
or customize定制 radio無線電 stations
that can play only music音樂 we like.
12
46084
4946
或是客製一個電台,只播放個人喜歡的音樂。
01:03
Yet然而, our most advanced高級
machines and computers電腦
13
51030
4055
然而這台無比聰明的機器和電腦
01:07
still struggle鬥爭 at this task任務.
14
55085
2903
仍然無法發展這項技能,
01:09
So I'm here today今天
to give you a progress進展 report報告
15
57988
3459
因此今天我來到這裡向各位報告
01:13
on the latest最新 advances進步
in our research研究 in computer電腦 vision視力,
16
61447
4047
我們在電腦視覺的最新研究進展,
01:17
one of the most frontier邊境
and potentially可能 revolutionary革命的
17
65494
4161
這是現階段在資訊業領域中,
最先進、最具潛力的革命性技術。
01:21
technologies技術 in computer電腦 science科學.
18
69655
3206
01:24
Yes, we have prototyped原型 cars汽車
that can drive駕駛 by themselves他們自己,
19
72861
4551
是的,目前我們已經有自動駕駛的原型車,
01:29
but without smart聰明 vision視力,
they cannot不能 really tell the difference區別
20
77412
3853
但若不具備視覺辨識技術,
它將無法分辨同樣出現在馬路中,
01:33
between之間 a crumpled皺巴巴 paper bag
on the road, which哪一個 can be run over,
21
81265
3970
一團它其實輾過也無妨的破紙袋,
01:37
and a rock that size尺寸,
which哪一個 should be avoided避免.
22
85235
3340
以及一個大到它必須閃避的石塊,
兩者有何不同。
我們製造出畫素極高的相機,
01:41
We have made製作 fabulous極好 megapixel百萬像素 cameras相機,
23
89415
3390
01:44
but we have not delivered交付
sight視力 to the blind.
24
92805
3135
但我們卻無法賦予盲人視覺;
無人機可以翻山越嶺,
01:48
Drones無人機 can fly over massive大規模的 land土地,
25
96420
3305
01:51
but don't have enough足夠 vision視力 technology技術
26
99725
2134
卻沒有足夠的視覺技術可以
讓我們追蹤雨林的變化;
01:53
to help us to track跟踪
the changes變化 of the rainforests熱帶雨林.
27
101859
3461
01:57
Security安全 cameras相機 are everywhere到處,
28
105320
2950
監視器滿佈在各個角落,
02:00
but they do not alert警報 us when a child兒童
is drowning溺死 in a swimming游泳的 pool.
29
108270
5067
卻無法在看到一個孩子將溺斃在泳池之際,
對我們發出警訊。
靜態及動態影像已逐漸與全世界的生活密不可分,
02:06
Photos相片 and videos視頻 are becoming變得
an integral積分 part部分 of global全球 life.
30
114167
5595
02:11
They're being存在 generated產生 at a pace步伐
that's far beyond what any human人的,
31
119762
4087
它們發展的步伐已經遠遠超越人類
及其群體所相信的,
02:15
or teams球隊 of humans人類, could hope希望 to view視圖,
32
123849
2783
在座各位以及我自己
都是TED這個活動裡頭的推手。
02:18
and you and I are contributing貢獻
to that at this TEDTED.
33
126632
3921
02:22
Yet然而 our most advanced高級 software軟件
is still struggling奮鬥的 at understanding理解
34
130553
5232
然而,目前最先進的軟體卻仍在其中苦苦掙扎,
無法理解與應用這龐大的資料體。
02:27
and managing管理的 this enormous巨大 content內容.
35
135785
3876
02:31
So in other words,
collectively as a society社會,
36
139661
5272
換而言之,在這整個社會裡,
大家都有如盲人在運作,
02:36
we're very much blind,
37
144933
1746
02:38
because our smartest最聰明的
machines are still blind.
38
146679
3387
因為連我們最聰明的機器都還看不見。
02:43
"Why is this so hard?" you may可能 ask.
39
151526
2926
或許有人會問:這到底有什麼困難?
02:46
Cameras相機 can take pictures圖片 like this one
40
154452
2693
任何相機都可以產生像這樣的照片,
02:49
by converting轉換 lights燈火 into
a two-dimensional二維 array排列 of numbers數字
41
157145
3994
它是藉由將有色光轉換成2D的數字陣列,
02:53
known已知 as pixels像素,
42
161139
1650
也就是大家熟知的像素。
02:54
but these are just lifeless死氣沉沉 numbers數字.
43
162789
2251
但這些數字是死的,
02:57
They do not carry攜帶 meaning含義 in themselves他們自己.
44
165040
3111
並沒有被賦予意義。
03:00
Just like to hear is not
the same相同 as to listen,
45
168151
4343
就好像有「聽」,不代表有「到」。
03:04
to take pictures圖片 is not
the same相同 as to see,
46
172494
4040
同樣地,攝取到影像不等於看見,
03:08
and by seeing眼看,
we really mean understanding理解.
47
176534
3829
我們所認知的看到,應包含著了解其中的意義。
03:13
In fact事實, it took Mother母親 Nature性質
540 million百萬 years年份 of hard work
48
181293
6177
事實上,這樣的成果,
是大自然花了五億四千萬年的光陰
03:19
to do this task任務,
49
187470
1973
才得到的。
03:21
and much of that effort功夫
50
189443
1881
這其中的努力,
03:23
went into developing發展 the visual視覺
processing處理 apparatus儀器 of our brains大腦,
51
191324
5271
泰半是耗費在發展腦部的視覺處理這個區塊,
03:28
not the eyes眼睛 themselves他們自己.
52
196595
2647
而不是眼睛的部分。
03:31
So vision視力 begins開始 with the eyes眼睛,
53
199242
2747
也就是說,視覺始於眼睛,
03:33
but it truly takes place地點 in the brain.
54
201989
3518
但真正使它有用的,卻是大腦。
03:38
So for 15 years年份 now, starting開始
from my Ph博士.D. at Caltech加州理工學院
55
206287
5060
十五年來,從在加州理工學院攻讀博士開始,
03:43
and then leading領導 Stanford's斯坦福大學的 Vision視力 Lab實驗室,
56
211347
2926
到領導史丹佛的視覺實驗室,
03:46
I've been working加工 with my mentors導師,
collaborators合作者 and students學生們
57
214273
4396
我和指導教授、同事及學生們,
03:50
to teach computers電腦 to see.
58
218669
2889
試圖讓電腦擁有智能之眼,
03:54
Our research研究 field領域 is called
computer電腦 vision視力 and machine learning學習.
59
222658
3294
我們研究的領域稱之為電腦視覺與機器學習,
03:57
It's part部分 of the general一般 field領域
of artificial人造 intelligence情報.
60
225952
3878
這是人工智慧其中一環。
04:03
So ultimately最終, we want to teach
the machines to see just like we do:
61
231000
5493
我們的終極目標就是教導機器能夠像人一樣理解所見之物,
04:08
naming命名 objects對象, identifying識別 people,
inferring推斷 3D geometry幾何 of things,
62
236493
5387
像是識別物品、辨認人臉、
推論物體的幾何形態,
04:13
understanding理解 relations關係, emotions情緒,
actions行動 and intentions意圖.
63
241880
5688
進而理解其中的關聯、情緒、動作及意圖。
04:19
You and I weave編織 together一起 entire整個 stories故事
of people, places地方 and things
64
247568
6153
在座每一位和我,都可以在匆匆一瞥的瞬間,
理解到人事、地、物所交織而成的網絡,
04:25
the moment時刻 we lay鋪設 our gaze凝視 on them.
65
253721
2164
04:28
The first step towards this goal目標
is to teach a computer電腦 to see objects對象,
66
256955
5583
要電腦達成這個目標的第一步,就是教導它辨別物品,
04:34
the building建造 block of the visual視覺 world世界.
67
262538
3368
這是視覺的基石。
04:37
In its simplest簡單 terms條款,
imagine想像 this teaching教學 process處理
68
265906
4434
簡單來說,我們教導的方法就是
04:42
as showing展示 the computers電腦
some training訓練 images圖片
69
270340
2995
給電腦看一些特定物體的影像,
04:45
of a particular特定 object目的, let's say cats,
70
273335
3321
例如貓咪。
04:48
and designing設計 a model模型 that learns獲悉
from these training訓練 images圖片.
71
276656
4737
我們設計了一個程式讓電腦利用這些影像來學習
04:53
How hard can this be?
72
281393
2044
這有啥困難?
04:55
After all, a cat is just
a collection採集 of shapes形狀 and colors顏色,
73
283437
4052
貓咪不就是由一些幾何圖形和顏色所組成的嘛,
04:59
and this is what we did
in the early days of object目的 modeling造型.
74
287489
4086
這就是我們初期所做的物體模型。
05:03
We'd星期三 tell the computer電腦 algorithm算法
in a mathematical數學的 language語言
75
291575
3622
我們用數學語言來告知電腦演繹方法,
05:07
that a cat has a round回合 face面對,
a chubby豐滿的 body身體,
76
295197
3343
貓就是有圓圓的臉、胖胖的身體,
05:10
two pointy尖尖 ears耳朵, and a long tail尾巴,
77
298540
2299
兩個尖尖的耳朵和一條長尾巴。
05:12
and that looked看著 all fine.
78
300839
1410
看起來很好啊,
05:14
But what about this cat?
79
302859
2113
但如果貓咪長這樣呢?
05:16
(Laughter笑聲)
80
304972
1091
(觀眾笑)
05:18
It's all curled捲曲 up.
81
306063
1626
全身都捲起來了。
05:19
Now you have to add another另一個 shape形狀
and viewpoint觀點 to the object目的 model模型.
82
307689
4719
這下子我們又得在原來的模型
加上新的形狀和不同的視野角度。
05:24
But what if cats are hidden?
83
312408
1715
又,如果貓咪是躲著的呢?
05:27
What about these silly愚蠢 cats?
84
315143
2219
像這群傻貓?
05:31
Now you get my point.
85
319112
2417
這樣各位了解我的意思嗎?
05:33
Even something as simple簡單
as a household家庭 pet寵物
86
321529
3367
即使簡單如貓這樣的家庭寵物,
05:36
can present當下 an infinite無窮 number
of variations變化 to the object目的 model模型,
87
324896
4504
也會有相對於原型以外,無數的其他形態表徵,
05:41
and that's just one object目的.
88
329400
2233
而這只是其中一樣。
05:44
So about eight years年份 ago,
89
332573
2492
因此八年前,
05:47
a very simple簡單 and profound深刻 observation意見
changed my thinking思維.
90
335065
5030
一項極其簡單和深刻的觀察,改變了我的想法,
05:53
No one tells告訴 a child兒童 how to see,
91
341425
2685
沒有人教導孩子如何去「看」,
05:56
especially特別 in the early years年份.
92
344110
2261
特別是在早期發育階段,
05:58
They learn學習 this through通過
real-world真實世界 experiences經驗 and examples例子.
93
346371
5000
他們是從真實世界的經驗中學習。
06:03
If you consider考慮 a child's孩子的 eyes眼睛
94
351371
2740
如果你把孩童的眼睛
06:06
as a pair of biological生物 cameras相機,
95
354111
2554
當成生物相機的概念,
06:08
they take one picture圖片
about every一切 200 milliseconds毫秒,
96
356665
4180
就如同每200毫秒就拍一張照片一樣,
06:12
the average平均 time an eye movement運動 is made製作.
97
360845
3134
這是眼球移動的平均時間。
06:15
So by age年齡 three, a child兒童 would have seen看到
hundreds數以百計 of millions百萬 of pictures圖片
98
363979
5550
年紀到了三歲時,
孩子們已經看過了真實世界中
數以百萬計的照片,
06:21
of the real真實 world世界.
99
369529
1834
06:23
That's a lot of training訓練 examples例子.
100
371363
2280
這樣的訓練範例是很大量的。
06:26
So instead代替 of focusing調焦 solely獨自
on better and better algorithms算法,
101
374383
5989
因此,我的直覺告訴我
應該以孩童的學習經驗法則,
06:32
my insight眼光 was to give the algorithms算法
the kind of training訓練 data數據
102
380372
5272
並兼以質與量,
提供訓練的資料給電腦,
06:37
that a child兒童 was given特定 through通過 experiences經驗
103
385644
3319
06:40
in both quantity數量 and quality質量.
104
388963
3878
而非一昧追求更好的程式演算。
06:44
Once一旦 we know this,
105
392841
1858
有了上述的洞見,
06:46
we knew知道 we needed需要 to collect蒐集 a data數據 set
106
394699
2971
我們接下來必須要收集
06:49
that has far more images圖片
than we have ever had before,
107
397670
4459
前所未有的大量資料群,
06:54
perhaps也許 thousands數千 of times more,
108
402129
2577
甚至於是千倍以上的。
06:56
and together一起 with Professor教授
Kai Li at Princeton普林斯頓 University大學,
109
404706
4111
於是我與普林斯頓大學的李凱教授
07:00
we launched推出 the ImageNetImageNet project項目 in 2007.
110
408817
4752
共同於2007年開始了
我們稱之為 ImageNet 的專案。
07:05
Luckily, we didn't have to mount安裝
a camera相機 on our head
111
413569
3838
很幸運地,我們不必在頭上綁一個相機,
07:09
and wait for many許多 years年份.
112
417407
1764
然後花費數年收集影像,
07:11
We went to the Internet互聯網,
113
419171
1463
而是轉而由網際網路,
07:12
the biggest最大 treasure寶藏 trove寶庫 of pictures圖片
that humans人類 have ever created創建.
114
420634
4436
這個由人類所創造出來 龐大的影像寶窟,
07:17
We downloaded下載 nearly幾乎 a billion十億 images圖片
115
425070
3041
我們下載了數以百萬計的影像,
07:20
and used crowdsourcing眾包 technology技術
like the Amazon亞馬遜 Mechanical機械 Turk土耳其人 platform平台
116
428111
5880
並且使用如Amazon Mechanical Turk
這樣的群眾外包平台,
07:25
to help us to label標籤 these images圖片.
117
433991
2339
來協助我們處理及分類這些照片。
07:28
At its peak, ImageNetImageNet was one of
the biggest最大 employers雇主
118
436330
4900
在高峰期,ImageNet 甚至是整個亞馬遜平台
07:33
of the Amazon亞馬遜 Mechanical機械 Turk土耳其人 workers工人:
119
441230
2996
最大的雇主之一,
07:36
together一起, almost幾乎 50,000 workers工人
120
444226
3854
我們一共聘請了來自167個國家,
07:40
from 167 countries國家 around the world世界
121
448080
4040
約5萬個工作者,
07:44
helped幫助 us to clean清潔, sort分類 and label標籤
122
452120
3947
來協助我們分類處理並標示
07:48
nearly幾乎 a billion十億 candidate候選人 images圖片.
123
456067
3575
將近10億幅影像,
07:52
That was how much effort功夫 it took
124
460612
2653
花費了這麼多的資源,
07:55
to capture捕獲 even a fraction分數
of the imagery意象
125
463265
3900
就是為了捕捉那一絲絲
07:59
a child's孩子的 mind心神 takes in
in the early developmental發展的 years年份.
126
467165
4171
孩童在早期心智發展的浮光掠影。
08:04
In hindsight事後, this idea理念 of using運用 big data數據
127
472148
3902
用現在眼光看來,使用大量的資料
08:08
to train培養 computer電腦 algorithms算法
may可能 seem似乎 obvious明顯 now,
128
476050
4550
來訓練電腦演算是明顯合理的,
08:12
but back in 2007, it was not so obvious明顯.
129
480600
4110
然而在2007年的世界卻非如此。
08:16
We were fairly相當 alone單獨 on this journey旅程
for quite相當 a while.
130
484710
3878
有好長一段時間,
我們在這個旅途中孤獨地踽踽而行,
08:20
Some very friendly友善 colleagues同事 advised建議 me
to do something more useful有用 for my tenure保有,
131
488588
5003
有些同事好心地建議我,
與其苦苦掙扎於研究經費的募集,
08:25
and we were constantly經常 struggling奮鬥的
for research研究 funding資金.
132
493591
4342
還不如轉而先做些比較好拿到終身聘的研究,
08:29
Once一旦, I even joked開玩笑 to my graduate畢業 students學生們
133
497933
2485
我還曾跟我的研究生開玩笑說
08:32
that I would just reopen重開
my dry cleaner's清潔的 shop to fund基金 ImageNetImageNet.
134
500418
4063
我乾脆再開一間乾洗店來資助ImageNet 好了,
08:36
After all, that's how I funded資助
my college學院 years年份.
135
504481
4761
畢竟那就是我用以支付大學學費的方法。
08:41
So we carried攜帶的 on.
136
509242
1856
就這樣我們還是繼續往前走,
08:43
In 2009, the ImageNetImageNet project項目 delivered交付
137
511098
3715
2009年起,ImageNet 已經是個擁有
08:46
a database數據庫 of 15 million百萬 images圖片
138
514813
4042
涵蓋了兩萬兩千種不同類別,
08:50
across橫過 22,000 classes
of objects對象 and things
139
518855
4805
多達150億幅圖像的資料庫,
08:55
organized有組織的 by everyday每天 English英語 words.
140
523660
3320
並組織以英語日常生活用字為主,
08:58
In both quantity數量 and quality質量,
141
526980
2926
這樣的規模,不論是「質」或「量」
09:01
this was an unprecedented史無前例 scale規模.
142
529906
2972
都是史無前例的。
09:04
As an example, in the case案件 of cats,
143
532878
3461
用貓來舉個例子說明,
09:08
we have more than 62,000 cats
144
536339
2809
我們有超過六萬兩千種
09:11
of all kinds of looks容貌 and poses姿勢
145
539148
4110
不同外觀和姿勢的貓咪,
09:15
and across橫過 all species種類
of domestic國內 and wild野生 cats.
146
543258
5223
橫跨不同的種類,有家貓,也有野貓。
09:20
We were thrilled高興
to have put together一起 ImageNetImageNet,
147
548481
3344
ImageNet 的成果讓我們非常激動,
09:23
and we wanted the whole整個 research研究 world世界
to benefit效益 from it,
148
551825
3738
我們希望它有助於全世界的研究,
09:27
so in the TEDTED fashion時尚,
we opened打開 up the entire整個 data數據 set
149
555563
4041
就如同 TED 的貢獻,我們免費提供整個資料庫
09:31
to the worldwide全世界
research研究 community社區 for free自由.
150
559604
3592
給全世界的研究單位。
(觀眾鼓掌)
09:36
(Applause掌聲)
151
564636
4000
09:41
Now that we have the data數據
to nourish滋養 our computer電腦 brain,
152
569416
4538
有了這些資料,我們可以教育我們的電腦,
09:45
we're ready準備 to come back
to the algorithms算法 themselves他們自己.
153
573954
3737
下一步就是回到程式演算的部分了。
09:49
As it turned轉身 out, the wealth財富
of information信息 provided提供 by ImageNetImageNet
154
577691
5178
結果我們發現,ImageNet 所提供的豐富資訊
09:54
was a perfect完善 match比賽 to a particular特定 class
of machine learning學習 algorithms算法
155
582869
4806
恰巧與機器學習演算的其中一門特定領域
不謀而合,
09:59
called convolutional卷積 neural神經 network網絡,
156
587675
2415
我們稱它為「卷積神經網絡」,
10:02
pioneered首創 by Kunihiko邦彥 Fukushima福島,
Geoff傑夫 Hinton韓丁, and Yann LeCunLeCun
157
590090
5248
在七零及八零年代,福島邦彥、Geoff Hinton
10:07
back in the 1970s and '80s.
158
595338
3645
和 Yann LeCun 等學者為該領域的先驅。
10:10
Just like the brain consists
of billions數十億 of highly高度 connected連接的 neurons神經元,
159
598983
5619
正如同大腦是由無數個緊密連結的神經元所組成,
10:16
a basic基本 operating操作 unit單元 in a neural神經 network網絡
160
604602
3854
神經網絡的基本運作單位
10:20
is a neuron-like神經元樣 node節點.
161
608456
2415
也是一個類神經元的節點。
10:22
It takes input輸入 from other nodes節點
162
610871
2554
它的運作方式是從別的節點得到資料,
10:25
and sends發送 output產量 to others其他.
163
613425
2718
然後再傳給其他的節點。
10:28
Moreover此外, these hundreds數以百計 of thousands數千
or even millions百萬 of nodes節點
164
616143
4713
而且這些數不清的節點
10:32
are organized有組織的 in hierarchical分級 layers,
165
620856
3227
擁有層層的組織架構,
10:36
also similar類似 to the brain.
166
624083
2554
就好像我們的大腦一樣。
10:38
In a typical典型 neural神經 network網絡 we use
to train培養 our object目的 recognition承認 model模型,
167
626637
4783
在一般的神經網絡中,
我們用作訓練的物品辨識模型
10:43
it has 24 million百萬 nodes節點,
168
631420
3181
就有兩千四百萬個節點、
10:46
140 million百萬 parameters參數,
169
634601
3297
一億四千萬個參數,
10:49
and 15 billion十億 connections連接.
170
637898
2763
以及一百五十億個連結。
10:52
That's an enormous巨大 model模型.
171
640661
2415
這是一個大的不得了的模型。
10:55
Powered供電 by the massive大規模的 data數據 from ImageNetImageNet
172
643076
3901
由ImageNet 提供巨大的資料群、
10:58
and the modern現代 CPUsCPU的 and GPUs圖形處理器
to train培養 such這樣 a humongous堆積如山 model模型,
173
646977
5433
並使用先進的核心處理器及圖型處理器來訓練
這個龐然大物,
11:04
the convolutional卷積 neural神經 network網絡
174
652410
2369
卷積神經網絡就在眾人的意料外
11:06
blossomed開花 in a way that no one expected預期.
175
654779
3436
開花結果了。
11:10
It became成為 the winning勝利 architecture建築
176
658215
2508
在物品辨識領域中,這樣的架構
11:12
to generate生成 exciting扣人心弦 new results結果
in object目的 recognition承認.
177
660723
5340
以令人興奮的嶄新成果,傲視群雄。
11:18
This is a computer電腦 telling告訴 us
178
666063
2810
電腦告訴我們
11:20
this picture圖片 contains包含 a cat
179
668873
2300
這張圖中有隻貓,
11:23
and where the cat is.
180
671173
1903
還告訴我們貓在哪裡。
11:25
Of course課程 there are more things than cats,
181
673076
2112
當然,這世界不會只有貓,
11:27
so here's這裡的 a computer電腦 algorithm算法 telling告訴 us
182
675188
2438
電腦的演算告訴我們
11:29
the picture圖片 contains包含
a boy男孩 and a teddy泰迪熊 bear;
183
677626
3274
這張圖中有一個男孩和一隻泰迪熊;
11:32
a dog, a person, and a small kite風箏
in the background背景;
184
680900
4366
有狗,一個人,以及背景中的一支小風箏;
11:37
or a picture圖片 of very busy things
185
685266
3135
或這一張令人眼花撩亂的圖,
11:40
like a man, a skateboard滑板,
railings欄杆, a lampostlampost, and so on.
186
688401
4644
有人、滑板、欄杆、路燈,等等。
11:45
Sometimes有時, when the computer電腦
is not so confident信心 about what it sees看到,
187
693045
5293
有時候,如果電腦不確定自己所見到的東西時,
11:51
we have taught it to be smart聰明 enough足夠
188
699498
2276
我們已經將它教到可以聰明地
11:53
to give us a safe安全 answer回答
instead代替 of committing提交 too much,
189
701774
3878
給一個安全的答案,而非莽撞地回答,
11:57
just like we would do,
190
705652
2811
就像一般人會做的。
12:00
but other times our computer電腦 algorithm算法
is remarkable卓越 at telling告訴 us
191
708463
4666
更有些時候,電腦的運算竟能夠
12:05
what exactly究竟 the objects對象 are,
192
713129
2253
精準地辨別物體品項
12:07
like the make, model模型, year of the cars汽車.
193
715382
3436
例如製造商、型號、車子的年份。
12:10
We applied應用的 this algorithm算法 to millions百萬
of Google谷歌 Street View視圖 images圖片
194
718818
5386
Google 將這個演算程式廣泛地運用在
12:16
across橫過 hundreds數以百計 of American美國 cities城市,
195
724204
3135
數百個美國城市的街景裡,
12:19
and we have learned學到了 something
really interesting有趣:
196
727339
2926
也因此我們從中得到了一些有趣的概念。
12:22
first, it confirmed確認 our common共同 wisdom智慧
197
730265
3320
首先,它證實了一項廣為人知的說法,
12:25
that car汽車 prices價格 correlate關聯 very well
198
733585
3290
也就是汽車價格和家庭收入
12:28
with household家庭 incomes收入.
199
736875
2345
是息息相關的。
12:31
But surprisingly出奇, car汽車 prices價格
also correlate關聯 well
200
739220
4527
然而令人驚訝的是,汽車價格也和
12:35
with crime犯罪 rates利率 in cities城市,
201
743747
2300
城市中的犯罪率
12:39
or voting表決 patterns模式 by zip壓縮 codes代碼.
202
747007
3963
以及區域選舉模式,有相當的關係。
12:44
So wait a minute分鐘. Is that it?
203
752060
2206
等等,難道說我今天
12:46
Has the computer電腦 already已經 matched匹配
or even surpassed超越 human人的 capabilities功能?
204
754266
5153
就是來告訴各位電腦已經趕上
甚至超越人類了嗎?
12:51
Not so fast快速.
205
759419
2138
還早得很呢。
12:53
So far, we have just taught
the computer電腦 to see objects對象.
206
761557
4923
到目前為止,我們只是教導電腦識別物品,
12:58
This is like a small child兒童
learning學習 to utter說出 a few少數 nouns名詞.
207
766480
4644
就像小孩子牙牙學語一樣,
13:03
It's an incredible難以置信 accomplishment成就,
208
771124
2670
雖然這是個傲人的進展,
13:05
but it's only the first step.
209
773794
2460
但它不過是第一步而已,
13:08
Soon不久, another另一個 developmental發展的
milestone里程碑 will be hit擊中,
210
776254
3762
很快地,下一波具指標性的後浪就會打上來了,
13:12
and children孩子 begin開始
to communicate通信 in sentences句子.
211
780016
3461
小孩子開始進展到用句子來溝通。
13:15
So instead代替 of saying
this is a cat in the picture圖片,
212
783477
4224
因此,他已經不會用「這是貓」
來描述圖片,
13:19
you already已經 heard聽說 the little girl女孩
telling告訴 us this is a cat lying說謊 on a bed.
213
787701
5202
而是會聽到這個小女孩說「這是躺在床上的貓」。
13:24
So to teach a computer電腦
to see a picture圖片 and generate生成 sentences句子,
214
792903
5595
因此,要教導電腦看到圖並說出句子,
13:30
the marriage婚姻 between之間 big data數據
and machine learning學習 algorithm算法
215
798498
3948
必須進一步地仰賴龐大資料群
13:34
has to take another另一個 step.
216
802446
2275
以及機器的學習演算。
13:36
Now, the computer電腦 has to learn學習
from both pictures圖片
217
804721
4156
現在,電腦不僅要學習圖片識別,
13:40
as well as natural自然 language語言 sentences句子
218
808877
2856
還要學習人類自然的
13:43
generated產生 by humans人類.
219
811733
3322
說話方式。
13:47
Just like the brain integrates整合
vision視力 and language語言,
220
815055
3853
就如同大腦要結合視覺和語言一樣,
13:50
we developed發達 a model模型
that connects所連接 parts部分 of visual視覺 things
221
818908
5201
我們做出了一個模型,
它可以連結不同的可視物體,
13:56
like visual視覺 snippets片段
222
824109
1904
就像視覺片段一樣,
13:58
with words and phrases短語 in sentences句子.
223
826013
4203
並附上句子用的字詞和片語。
14:02
About four months個月 ago,
224
830216
2763
約四個月前,
14:04
we finally最後 tied all this together一起
225
832979
2647
我們終於把所有的元素全部兜起來了,
14:07
and produced生成 one of the first
computer電腦 vision視力 models楷模
226
835626
3784
做出了第一個電腦版的模型,
14:11
that is capable of generating發電
a human-like類人 sentence句子
227
839410
3994
它有辦法在初次看到照片時
14:15
when it sees看到 a picture圖片 for the first time.
228
843404
3506
說出像人類般自然的句子,
14:18
Now, I'm ready準備 to show顯示 you
what the computer電腦 says
229
846910
4644
好,現在我要給各位看看電腦
14:23
when it sees看到 the picture圖片
230
851554
1975
對於演講一開頭
14:25
that the little girl女孩 saw
at the beginning開始 of this talk.
231
853529
3830
那位小女孩所看到的影像,
它又是如何理解的。
14:31
(Video視頻) Computer電腦: A man is standing常設
next下一個 to an elephant.
232
859519
3344
(電腦) 有個人站在大象旁邊。
14:36
A large airplane飛機 sitting坐在 on top最佳
of an airport飛機場 runway跑道.
233
864393
3634
一架大飛機停在機場跑道上。
14:41
FFLFFL: Of course課程, we're still working加工 hard
to improve提高 our algorithms算法,
234
869057
4212
(主講人) 當然,我們仍戮力於改善這電腦程式,
14:45
and it still has a lot to learn學習.
235
873269
2596
它還有很多要學。
14:47
(Applause掌聲)
236
875865
2291
(觀眾鼓掌)
14:51
And the computer電腦 still makes品牌 mistakes錯誤.
237
879556
3321
電腦還是會犯錯。
14:54
(Video視頻) Computer電腦: A cat lying說謊
on a bed in a blanket.
238
882877
3391
(電腦) 一隻貓包著毯子躺在床上。
14:58
FFLFFL: So of course課程, when it sees看到
too many許多 cats,
239
886268
2553
(主講人) 因為它看了太多貓了,
15:00
it thinks everything
might威力 look like a cat.
240
888821
2926
以至於它見到了什麼都像貓咪。
15:05
(Video視頻) Computer電腦: A young年輕 boy男孩
is holding保持 a baseball棒球 bat蝙蝠.
241
893317
2864
(電腦) 一位小男孩握著一支球棒。
15:08
(Laughter笑聲)
242
896181
1765
(觀眾笑)
(主講人) 或者,如果電腦是第一次看到牙刷,
會把它與球棒混淆。
15:09
FFLFFL: Or, if it hasn't有沒有 seen看到 a toothbrush牙刷,
it confuses混淆 it with a baseball棒球 bat蝙蝠.
243
897946
4583
15:15
(Video視頻) Computer電腦: A man riding騎術 a horse
down a street next下一個 to a building建造.
244
903309
3434
(電腦) 一個人在建築物旁的街道上騎馬。
15:18
(Laughter笑聲)
245
906743
2023
(觀眾笑)
15:20
FFLFFL: We haven't沒有 taught Art藝術 101
to the computers電腦.
246
908766
3552
(主講人) 我們還沒讓電腦上基礎美術課。
15:25
(Video視頻) Computer電腦: A zebra斑馬 standing常設
in a field領域 of grass.
247
913768
2884
(電腦) 一匹斑馬站在原野中。
15:28
FFLFFL: And it hasn't有沒有 learned學到了 to appreciate欣賞
the stunning令人驚嘆 beauty美女 of nature性質
248
916652
3367
(主講人) 電腦還沒辦法像人類一樣,
15:32
like you and I do.
249
920019
2438
學會欣賞大自然的美景。
15:34
So it has been a long journey旅程.
250
922457
2832
這是條漫漫長路,
15:37
To get from age年齡 zero to three was hard.
251
925289
4226
要從零歲發展到三歲是很難的,
15:41
The real真實 challenge挑戰 is to go
from three to 13 and far beyond.
252
929515
5596
更艱深的挑戰在於從三歲發展到十三歲,
甚至到更遠的階段。
15:47
Let me remind提醒 you with this picture圖片
of the boy男孩 and the cake蛋糕 again.
253
935111
4365
讓我用這張男孩與蛋糕的圖片來進一步說明,
15:51
So far, we have taught
the computer電腦 to see objects對象
254
939476
4064
直到今日,我們已經教會了電腦識別物品,
15:55
or even tell us a simple簡單 story故事
when seeing眼看 a picture圖片.
255
943540
4458
甚至於在看到一張圖後,可以簡單地敘述。
15:59
(Video視頻) Computer電腦: A person sitting坐在
at a table with a cake蛋糕.
256
947998
3576
(電腦) 一個人和蛋糕坐在桌旁。
16:03
FFLFFL: But there's so much more
to this picture圖片
257
951574
2630
(主講人) 這張照片其實蘊涵著更多的東西,
16:06
than just a person and a cake蛋糕.
258
954204
2270
不僅只有人和蛋糕。
16:08
What the computer電腦 doesn't see
is that this is a special特別 Italian意大利 cake蛋糕
259
956474
4467
電腦看不出這是種特別的義式蛋糕,
16:12
that's only served提供服務 during Easter復活節 time.
260
960941
3217
人們只有在復活節時才會做。
16:16
The boy男孩 is wearing穿著 his favorite喜愛 t-shirtT恤衫
261
964158
3205
這個男孩穿著他最心愛的T恤,
16:19
given特定 to him as a gift禮品 by his father父親
after a trip to Sydney悉尼,
262
967363
3970
是去雪梨玩的時候,他的父親送的,
16:23
and you and I can all tell how happy快樂 he is
263
971333
3808
各位和我都可以看得出他有多快樂,
16:27
and what's exactly究竟 on his mind心神
at that moment時刻.
264
975141
3203
以及當時他的心裡在想什麼。
16:31
This is my son兒子 Leo獅子座.
265
979214
3125
這是我兒子,李奧。
16:34
On my quest尋求 for visual視覺 intelligence情報,
266
982339
2624
在探索智能視覺的旅途上,
16:36
I think of Leo獅子座 constantly經常
267
984963
2391
我不斷地想到他,
16:39
and the future未來 world世界 he will live生活 in.
268
987354
2903
以及他在將來生活的世界,
16:42
When machines can see,
269
990257
2021
當未來,機器有了視覺,
16:44
doctors醫生 and nurses護士 will have
extra額外 pairs of tireless不知疲倦的 eyes眼睛
270
992278
4712
醫生和護士就多了雙永不倦怠的眼睛,
16:48
to help them to diagnose診斷
and take care關心 of patients耐心.
271
996990
4092
幫助他們診斷及照顧病人;
16:53
Cars汽車 will run smarter聰明
and safer更安全 on the road.
272
1001082
4383
行駛在路上的車子可以更聰明、更安全;
16:57
Robots機器人, not just humans人類,
273
1005465
2694
人類與機器人能一起
17:00
will help us to brave勇敢 the disaster災害 zones
to save保存 the trapped被困 and wounded負傷.
274
1008159
4849
共同投入災區的救援工作,拯救受困人員及傷者;
17:05
We will discover發現 new species種類,
better materials物料,
275
1013798
3796
我們還可以發現新品種
與更好的材料,
17:09
and explore探索 unseen看不見 frontiers前沿
with the help of the machines.
276
1017594
4509
探索未知的疆界,
這一切都可仰賴機器的協助。
17:15
Little by little, we're giving sight視力
to the machines.
277
1023113
4167
一步一步地,我們賦予機器視覺,
17:19
First, we teach them to see.
278
1027280
2798
先教他們識別物品,
17:22
Then, they help us to see better.
279
1030078
2763
然後它們也讓我們看得更清楚,
17:24
For the first time, human人的 eyes眼睛
won't慣於 be the only ones那些
280
1032841
4165
這是第一次人類的眼睛不是唯一
17:29
pondering琢磨 and exploring探索 our world世界.
281
1037006
2934
可以用來思考和探索世界的工具,
17:31
We will not only use the machines
for their intelligence情報,
282
1039940
3460
我們不僅可以利用機器的智能,
17:35
we will also collaborate合作 with them
in ways方法 that we cannot不能 even imagine想像.
283
1043400
6179
更可以運用更多你想像不到的方式攜手合作。
17:41
This is my quest尋求:
284
1049579
2161
這是我想追求的目標:
17:43
to give computers電腦 visual視覺 intelligence情報
285
1051740
2712
給予機器智慧之眼,
17:46
and to create創建 a better future未來
for Leo獅子座 and for the world世界.
286
1054452
5131
為李奧和整個世界創造更美好的未來。
17:51
Thank you.
287
1059583
1811
謝謝各位。
17:53
(Applause掌聲)
288
1061394
3785
(觀眾鼓掌)
Translated by Sailin Lu
Reviewed by chen chi

▲Back to top

ABOUT THE SPEAKER
Fei-Fei Li - Computer scientist
As Director of Stanford’s Artificial Intelligence Lab and Vision Lab, Fei-Fei Li is working to solve AI’s trickiest problems -- including image recognition, learning and language processing.

Why you should listen

Using algorithms built on machine learning methods such as neural network models, the Stanford Artificial Intelligence Lab led by Fei-Fei Li has created software capable of recognizing scenes in still photographs -- and accurately describe them using natural language.

Li’s work with neural networks and computer vision (with Stanford’s Vision Lab) marks a significant step forward for AI research, and could lead to applications ranging from more intuitive image searches to robots able to make autonomous decisions in unfamiliar situations.

Fei-Fei was honored as one of Foreign Policy's 2015 Global Thinkers

More profile about the speaker
Fei-Fei Li | Speaker | TED.com