ABOUT THE SPEAKER
Joseph Redmon - Computer scientist
Joseph Redmon works on the YOLO algorithm, which combines the simple face detection of your phone camera with a cloud-based AI -- in real time.

Why you should listen

Computer scientist Joseph Redmon is working on the YOLO (You Only Look Once) algorithm, which has a simple goal: to deliver image recognition and object detection at a speed that would seem science-fictional only a few years ago. The algorithm looks like the simple face detection of a camera app but with the level complexity of systems like Google's Deep Mind Cloud Vision, using Convolutional Deep Neural Networks to crunch object detection in realtime. It's the kind of technology that will be embedded on all smartphones in the next few years.

Redmon is also internet-famous for his resume.

More profile about the speaker
Joseph Redmon | Speaker | TED.com
TED2017

Joseph Redmon: How computers learn to recognize objects instantly

Joseph Redmon: Kaip kompiuteris išmoksta akimirksniu atpažinti objektus

Filmed:
2,471,805 views

Prieš dešimt metų mokslininkai manė, kad tikriausiai niekuomet nebus įmanoma išmokyti kompiuterį atskirti katę nuo šuns. Šiandien kompiuterio regos programos pajėgia tai atlikti daugiau nei 99 proc. tikslumu. Kaip? Jeseph Redmon dirba su YOLO (You Only Look Once, angliškai: „tu pažiūri tik kartą“) - objektus aptinkančia atviro kodo programa, kuri žaibo greitumu atpažįsta objektus atvaizduose ir vaizdo įrašuose – nuo zebrų iki Stop ženklų. Nuostabiame demonstraciniame pasirodyme Redman išryškina šio žingsnio svarbą savarankiškai važiuojančių automobilių, robotikos, vėžio nustatymo ir kitose srityse.
- Computer scientist
Joseph Redmon works on the YOLO algorithm, which combines the simple face detection of your phone camera with a cloud-based AI -- in real time. Full bio

Double-click the English transcript below to play the video.

Prieš dešimt metų
00:12
TenDešimt yearsmetai agoprieš,
0
825
1151
mokslininkai, tiriantys
kompiuterinę regą, manė,
00:14
computerkompiuteris visionvizija researchersmokslininkai
thought that gettinggauti a computerkompiuteris
1
2000
2776
kad išmokyti kompiuterį
atskirti katę nuo šuns
00:16
to tell the differenceskirtumas
betweentarp a catkatė and a dogšuo
2
4800
2696
00:19
would be almostbeveik impossibleneįmanomas,
3
7520
1976
tikriausiai niekuomet nebus įmanoma,
netgi gerokai pažengus
dirbtinio intelekto srityje.
00:21
even with the significantreikšmingas advanceiš anksto
in the statevalstija of artificialdirbtinis intelligencežvalgyba.
4
9520
3696
00:25
Now we can do it at a levellygis
greaterdidesnis than 99 percentproc accuracytikslumas.
5
13240
3560
Šiandien galime tai atlikti daugiau
nei 99-ių procentų tikslumu.
00:29
This is calledvadinamas imagevaizdas classificationklasifikacija --
6
17680
1856
Tai vadinama vaizdų klasifikavimu –
imame vaizdą, priskiriame jam etiketę –
00:31
give it an imagevaizdas,
put a labeletiketė to that imagevaizdas --
7
19560
3096
00:34
and computerskompiuteriai know
thousandstūkstančiai of other categorieskategorijos as well.
8
22680
3040
ir taip kompiuteriai išmoksta
tūkstančius kategorijų.
Esu magistrantas Vašingtono Universitete
00:38
I'm a graduateabsolventas studentstudentas
at the UniversityUniversitetas of WashingtonVašingtonas,
9
26680
2896
ir dirbu prie projekto pavadinimu
„Darknet“ (angl. „tamsusis tinklas“).
00:41
and I work on a projectprojektas calledvadinamas DarknetDarknetu,
10
29600
1896
00:43
whichkuris is a neuralnervinis networktinklas frameworksistema
11
31520
1696
Tai – neuroninio tinklo sistema,
00:45
for trainingmokymas and testingbandymai
computerkompiuteris visionvizija modelsmodeliai.
12
33240
2816
skirta mokyti ir testuoti
kompiuterinės regos modelius.
00:48
So let's just see what DarknetDarknetu thinksgalvoja
13
36080
2976
Pažiūrėkime ką „Darknet“ mano
00:51
of this imagevaizdas that we have.
14
39080
1760
apie šį mūsų turimą atvaizdą.
00:54
When we runpaleisti our classifierklasifikatorius.
15
42520
2336
Kai paleidžiame klasifikatorių
pateikę jam šį atvaizdą,
00:56
on this imagevaizdas,
16
44880
1216
atgal gauname ne tik spėjimus
apie aptiktas kates ir šunis,
00:58
we see we don't just get
a predictionprognozavimas of dogšuo or catkatė,
17
46120
2456
01:00
we actuallyiš tikrųjų get
specifickonkretus breedveislė predictionsprognozės.
18
48600
2336
bet ir specifines jų veisles.
Toks šiandieninis mūsų
pasiektas išsamumo lygis.
01:02
That's the levellygis
of granularitydetalumo we have now.
19
50960
2176
01:05
And it's correctteisingai.
20
53160
1616
Ir tai – tiesa,
01:06
My dogšuo is in factfaktas a malamutemalamutas.
21
54800
1840
mano šuo iš tiesų yra malamutas.
01:09
So we'vemes turime madepagamintas amazingnuostabus stridesžingsniai
in imagevaizdas classificationklasifikacija,
22
57040
4336
Pasiekiemė įspūdingus tolius
vaizdų klasifikacijoje,
tačiau kas nutinka,kai
paleidžiame klasifikatorių
01:13
but what happensatsitinka
when we runpaleisti our classifierklasifikatorius.
23
61400
2000
01:15
on an imagevaizdas that looksatrodo like this?
24
63424
1960
pateikę atvaizdą, kuris atrodo taip?
01:19
Well ...
25
67080
1200
Na...
01:24
We see that the classifierklasifikatorius. comesateina back
with a prettygana similarpanašus predictionprognozavimas.
26
72640
3896
Klasifikatorius grąžina panašius spėjimus.
01:28
And it's correctteisingai,
there is a malamutemalamutas in the imagevaizdas,
27
76560
3096
Ir jis teisus – atvaizde yra malamutas,
01:31
but just givenpateiktas this labeletiketė,
we don't actuallyiš tikrųjų know that much
28
79680
3696
tačiau vien tik tokia etiketė
nesuteikia jokios informacijos
apie tai, kas vyksta šiame atvaizde.
01:35
about what's going on in the imagevaizdas.
29
83400
1667
01:37
We need something more powerfulgalingas.
30
85091
1560
Mums reikia kažko galingesnio.
Aš dirbu prie problemos,
vadinamos objektų aptikimu.
01:39
I work on a problemproblema
calledvadinamas objectobjektas detectionaptikimas,
31
87240
2616
Tai reiškia, kad žiūrėdami į atvaizdą
01:41
where we look at an imagevaizdas
and try to find all of the objectsobjektai,
32
89880
2936
siekiame aptikti visus
jame esančius objektus,
01:44
put boundingribos boxesdėžės around them
33
92840
1456
apibrėžti jų ribas
01:46
and say what those objectsobjektai are.
34
94320
1520
ir juos įvardinti.
01:48
So here'sčia yra what happensatsitinka
when we runpaleisti a detectordetektorius on this imagevaizdas.
35
96400
3280
Štai kas nutinka, kai paleidžiame
detektorių, pateikę jam šį atvaizdą.
01:53
Now, with this kindmalonus of resultrezultatas,
36
101240
2256
Gavę tokį rezultatą,
galime atlikti kur kas daugiau su
mūsų kompiuterinės regos algoritmais.
01:55
we can do a lot more
with our computerkompiuteris visionvizija algorithmsalgoritmai.
37
103520
2696
01:58
We see that it knowsžino
that there's a catkatė and a dogšuo.
38
106240
2976
Programa žino, jog
atvaizde yra katė ir šuo.
02:01
It knowsžino their relativesantykinis locationsvietose,
39
109240
2256
Žino jų santykines vietas
02:03
their sizedydis.
40
111520
1216
ir jų dydį.
02:04
It mayGegužė even know some extrapapildomai informationinformacija.
41
112760
1936
Galbūt žino ir dar daugiau.
02:06
There's a bookknyga sittingsėdi in the backgroundfonas.
42
114720
1960
Antrame vaizdo plane guli knyga.
02:09
And if you want to buildstatyti a systemsistema
on topviršuje of computerkompiuteris visionvizija,
43
117280
3256
Jeigu norite sukurti sistemą,
pagrįstą kompiuterine rega,
02:12
say a self-drivingsavarankiškai vairuotojo vehicletransporto priemonė
or a roboticrobotas systemsistema,
44
120560
3456
pavyzdžiui, savaeigę transporto
priemonę ar robotą,
tai yra būtent tokio pobūdžio
informacija, kurios jums reikia.
02:16
this is the kindmalonus
of informationinformacija that you want.
45
124040
2456
02:18
You want something so that
you can interactbendrauti with the physicalfizinis worldpasaulis.
46
126520
3239
Jums reikia kažko, suteikiančio
galimybę bendrauti su fiziniu pasauliu.
Kai pradėjau dirbti prie objektų aptikimo,
02:22
Now, when I startedprasidėjo workingdirba
on objectobjektas detectionaptikimas,
47
130759
2257
vieno atvaizdo apdorojimas
užtrukdavo 20 sekundžių.
02:25
it tookpaėmė 20 secondssekundes
to processprocesas a singlevienišas imagevaizdas.
48
133040
3296
02:28
And to get a feel for why
speedgreitis is so importantsvarbu in this domaindomenas,
49
136360
3880
Kad suprastumėte, kodėl šioje
srityje greitis yra toks svarbus,
štai – detektoriaus pavyzdys,
02:33
here'sčia yra an examplepavyzdys of an objectobjektas detectordetektorius
50
141120
2536
kuriame vienas atvaizdas
apdorojamas per dvi sekundes.
02:35
that takes two secondssekundes
to processprocesas an imagevaizdas.
51
143680
2416
02:38
So this is 10 timeslaikai fastergreičiau
52
146120
2616
Taigi, 10 kartų greičiau,
02:40
than the 20-seconds-per-image-SEK-už-vaizdas detectordetektorius,
53
148760
3536
nei ankstesnis detektorius.
Galite matyti, kad kol sistema
galiausiai atlieka spėjimą,
02:44
and you can see that by the time
it makesdaro predictionsprognozės,
54
152320
2656
02:47
the entirevisa statevalstija of the worldpasaulis has changedpasikeitė,
55
155000
2040
pasaulis aplink spėja pasikeisti.
02:49
and this wouldn'tnebūtų be very usefulnaudinga
56
157880
2416
Taigi, tai nebūtų labai naudinga
02:52
for an applicationprašymas.
57
160320
1416
realiam pritaikymui.
02:53
If we speedgreitis this up
by anotherkitas factorfaktorius of 10,
58
161760
2496
Jeigu pagreitintume procesą
dar 10-čia kartų,
02:56
this is a detectordetektorius runningbėgimas
at fivepenki framesrėmeliai per secondantra.
59
164280
2816
tai – detektorius, apdorojantis
penkis vaizdus per sekundę.
02:59
This is a lot better,
60
167120
1536
Kur kas geriau,
03:00
but for examplepavyzdys,
61
168680
1976
tačiau,
03:02
if there's any significantreikšmingas movementjudėjimas,
62
170680
2296
situacijoje, kurioje
vaizdas greitai keičiasi,
03:05
I wouldn'tnebūtų want a systemsistema
like this drivingvairuoja my carautomobilis.
63
173000
2560
aš nenorėčiau, kad tokia sistema
vairuotų mano automobilį.
Čia – mūsų objektų aptikimo sistema,
veikianti esamu laiku, mano kompiuteryje.
03:09
This is our detectionaptikimas systemsistema
runningbėgimas in realrealus time on my laptopnešiojamas kompiuteris.
64
177120
3240
03:13
So it smoothlysklandžiai trackstakelius me
as I movejudėti around the framerėmas,
65
181000
3136
Ji sklandžiai seka mane kai judu
03:16
and it's robusttvirtas to a wideplatus varietyveislė
of changespokyčiai in sizedydis,
66
184160
3720
ir sparčiai prisitaiko prie staigių
pokyčių, tokių kaip dydis,
03:21
posekelti,
67
189440
1200
poza,
03:23
forwardPirmyn, backwardatgal.
68
191280
1856
judesiai pirmyn, atgal.
03:25
This is great.
69
193160
1216
Tai – puiku.
03:26
This is what we really need
70
194400
1736
Štai ko mums iš tiesų reikia,
03:28
if we're going to buildstatyti systemssistemos
on topviršuje of computerkompiuteris visionvizija.
71
196160
2896
ketinant kurti sistemas,
pagrįstas kompiuterine rega.
03:31
(ApplausePlojimai)
72
199080
4000
(Plojimai.)
03:36
So in just a fewnedaug yearsmetai,
73
204280
2176
Taigi, tik per keletą metų
nuo 20 sekundžių vienam atvaizdui
03:38
we'vemes turime gonedingo from 20 secondssekundes per imagevaizdas
74
206480
2656
perėjome iki 20 milisekundžių
vienam atvaizdui.
03:41
to 20 millisecondsmilisekundžių per imagevaizdas,
a thousandtūkstantis timeslaikai fastergreičiau.
75
209160
3536
Tai – tūkstantį kartų greičiau.
03:44
How did we get there?
76
212720
1416
Kaip tai padarėme?
03:46
Well, in the pastpraeitis,
objectobjektas detectionaptikimas systemssistemos
77
214160
3016
Praeityje objektų aptikimo sistemos
03:49
would take an imagevaizdas like this
78
217200
1936
pirmiausia padalindavo vaizdinį
03:51
and splitpadalinti it into a bunchkrūva of regionsregionai
79
219160
2456
į daugybę regionių,
03:53
and then runpaleisti a classifierklasifikatorius.
on eachkiekvienas of these regionsregionai,
80
221640
3256
o tuomet klasifikatorius
apdorodavo kiekvieną jų.
03:56
and highaukštas scoresbalai for that classifierklasifikatorius.
81
224920
2536
Aukšti klasifikatoriaus balai
03:59
would be consideredlaikomas
detectionspastebėjimai in the imagevaizdas.
82
227480
3136
reikšdavo objektų aptikimą atvaizde.
04:02
But this involveddalyvavo runningbėgimas a classifierklasifikatorius.
thousandstūkstančiai of timeslaikai over an imagevaizdas,
83
230640
4056
Klasikifatorius būdavo paleidžiamas
tūkstantį kartų kiekvienam vaizdui,
04:06
thousandstūkstančiai of neuralnervinis networktinklas evaluationsvertinimai
to producepagaminti detectionaptikimas.
84
234720
2920
reikėdavo tūkstančių neuroninių tinklų
analizių vienam objektui aptikti.
04:11
InsteadVietoj to, we trainedtreniruotas a singlevienišas networktinklas
to do all of detectionaptikimas for us.
85
239240
4536
Vietoj to, mes išmokėme vieną
neuroninį tinklą aptikti visus objektus.
04:15
It producesgamina all of the boundingribos boxesdėžės
and classklasė probabilitiestikimybių simultaneouslytuo pačiu metu.
86
243800
4280
Jis tuo pat metu apibrėžia objektus
ir suskaičiuoja jų tikimybes.
04:20
With our systemsistema, insteadvietoj to of looking
at an imagevaizdas thousandstūkstančiai of timeslaikai
87
248680
3496
Su mūsų sistema nereikia žiūrėti
į tą patį atvaizdą tūkstantį kartų,
kad aptiktume objektą.
04:24
to producepagaminti detectionaptikimas,
88
252200
1456
Užtenka pažiūrėti tik kartą,
04:25
you only look oncekartą,
89
253680
1256
todėl taip ir vadiname savo
objektų aptikimo metodą:
04:26
and that's why we call it
the YOLOYOLO methodmetodas of objectobjektas detectionaptikimas.
90
254960
2920
YOLO (You only look once –
angl. „tu tik pažiūri kartą“).
04:31
So with this speedgreitis,
we're not just limitedribotas to imagesvaizdai;
91
259360
3976
Tokiu greičiu galime apdoroti
ne tik nuotraukas,
04:35
we can processprocesas videovideo in realrealus time.
92
263360
2416
bet ir vaizdo įrašus realiu laiku.
04:37
And now, insteadvietoj to of just seeingpamatyti
that catkatė and dogšuo,
93
265800
3096
Galime ne tik matyti šunis ir kates,
04:40
we can see them movejudėti around
and interactbendrauti with eachkiekvienas other.
94
268920
2960
bet ir sekti juos judant ir
sąveikaujant vienas su kitu.
04:46
This is a detectordetektorius that we trainedtreniruotas
95
274560
2056
Tai – detektorius, kurį išmokėme
80 skirtingų klasių,
04:48
on 80 differentskiriasi classesklasių
96
276640
4376
04:53
in Microsoft's"Microsoft' COCOCOCO datasetduomenų rinkinys.
97
281040
3256
esančių „Microsoft“ „COCO“ duomenų bazėje.
04:56
It has all sortsrūšiuoja of things
like spoonšaukštas and forkšakutė, bowldubuo,
98
284320
3336
Šioje bazėje pilna įvairių objektų,
pavyzdžiui, šaukštų, šakučių, lėkščių
04:59
commonbendras objectsobjektai like that.
99
287680
1800
it kitų paprastų daiktų.
05:02
It has a varietyveislė of more exoticEgzotiški things:
100
290360
3096
Yra ir egzotiškesnių objektų:
05:05
animalsgyvūnai, carsautomobiliai, zebraszebrai, giraffesŽirafos.
101
293480
3256
gyvūnų, automobilių, zebrų, žirafų.
05:08
And now we're going to do something funlinksma.
102
296760
1936
O dabar pademonstruosime šį tą smagaus.
05:10
We're just going to go
out into the audienceauditorija
103
298720
2096
Nukreipsime detektorių į publiką
ir pažiūrėsime kokius
daiktus galime joje aptikti.
05:12
and see what kindmalonus of things we can detectaptikti.
104
300840
2016
05:14
Does anyonekas nors want a stuffedįdaryti animalgyvūnas?
105
302880
1620
Ar kas nors nori pliušinio žaislo?
05:18
There are some teddymeškiukas bearsneša out there.
106
306000
1762
Ten kažkur mėtosi keletas
pliušinių meškinų.
05:22
And we can turnpasukti down
our thresholdslenkstis for detectionaptikimas a little bitšiek tiek,
107
310040
4536
Šiek tiek sumažinsime aptikimo slenkstį,
05:26
so we can find more of you guys
out in the audienceauditorija.
108
314600
3400
kad aptiktume daugiau jūsų.
Pažiūrėkime, ar galime aptikti
šiuos „Stop“ ženklus.
05:31
Let's see if we can get these stop signsženklai.
109
319560
2336
05:33
We find some backpackskuprinės.
110
321920
1880
Randame keletą kuprinių.
05:37
Let's just zoompriartinti in a little bitšiek tiek.
111
325880
1840
Šiek tiek priartinkime vaizdą.
05:42
And this is great.
112
330320
1256
Tai – puiku.
05:43
And all of the processingapdorojimas
is happeningvyksta in realrealus time
113
331600
3176
Visas apdorojimas vyksta realiu laiku
05:46
on the laptopnešiojamas kompiuteris.
114
334800
1200
mano nešiojamame kompiuteryje.
05:49
And it's importantsvarbu to rememberPrisiminti
115
337080
1456
Svarbu atminti,
05:50
that this is a generalapskritai purposetikslas
objectobjektas detectionaptikimas systemsistema,
116
338560
3216
kad tai – bendro naudojimo
objektų aptikimo sistema,
05:53
so we can traintraukinys this for any imagevaizdas domaindomenas.
117
341800
5000
kurią galima išmokyti visokiausių vaizdų.
06:00
The sametas pats codekodas that we use
118
348320
2536
Tas pats kodas, kurį naudojame
06:02
to find stop signsženklai or pedestrianspėstiesiems,
119
350880
2456
surasti „Stop“ ženklus ar pėsčiuosius,
dviračius ar savieiges
transporto priemones,
06:05
bicyclesdviračiai in a self-drivingsavarankiškai vairuotojo vehicletransporto priemonė,
120
353360
1976
06:07
can be used to find cancervėžys cellsląstelės
121
355360
2856
gali būti naudojamas aptikti
vėžines ląsteles audinio biopsijoje.
06:10
in a tissueaudinys biopsybiopsija.
122
358240
3016
06:13
And there are researchersmokslininkai around the globegaublys
alreadyjau usingnaudojant this technologytechnologija
123
361280
4040
Daugybė mokslininkų visame pasaulyje
jau naudojasi šia technologija,
siekdami pasistūmėti tokiose srityse
kaip medicina ar robotų technika.
06:18
for advancespažanga in things
like medicinevaistas, roboticsrobotų technika.
124
366240
3416
Šįryt laikraštyje perskaičiau
06:21
This morningrytas, I readskaityti a paperpopierius
125
369680
1376
06:23
where they were takingpasiimti a censussurašymas
of animalsgyvūnai in NairobiNairobis NationalNacionalinės ParkParkas
126
371080
4576
apie tai, kad gyvūnai Nairobio
nacionaliniame parke buvo surašyti
06:27
with YOLOYOLO as partdalis
of this detectionaptikimas systemsistema.
127
375680
3136
naudojant YOLO kaip
vieną iš sistemos dalių.
06:30
And that's because DarknetDarknetu is openatviras sourcešaltinis
128
378840
3096
Nes „Darknet“ yra atviro kodo sistema,
06:33
and in the publicvisuomenė domaindomenas,
freenemokamai for anyonekas nors to use.
129
381960
2520
patalpinta viešajame domene –
naudotis ja gali visi ir už dyką.
06:37
(ApplausePlojimai)
130
385600
5696
(Plojimai.)
06:43
But we wanted to make detectionaptikimas
even more accessibleprieinama and usabletinkami naudoti,
131
391320
4936
Tačiau norėjome dar labiau padidinti
objektų aptikimo prieinamumą ir naudą,
06:48
so throughper a combinationderinys
of modelmodelis optimizationoptimizavimas,
132
396280
4056
taigi sujungę modelių optimizaciją,
06:52
networktinklas binarizationbinarization and approximationįstatymų,
133
400360
2296
tinklo binarizavimą ir derinimą
06:54
we actuallyiš tikrųjų have objectobjektas detectionaptikimas
runningbėgimas on a phonetelefonas.
134
402680
3920
dabar turime objektų aptikimo modelį,
veikiantį mobiliajame telefone.
07:04
(ApplausePlojimai)
135
412800
5320
(Plojimai.)
07:10
And I'm really excitedsusijaudinęs because
now we have a prettygana powerfulgalingas solutiontirpalas
136
418960
5056
Aš labai džiaugiuosi, nes dabar
turime ganėtinai galingą sprendimą
07:16
to this low-levelžemo lygio computerkompiuteris visionvizija problemproblema,
137
424040
2296
šiai žemo lygio kompiuterinės
regos problemai,
07:18
and anyonekas nors can take it
and buildstatyti something with it.
138
426360
3856
ir kiekvienas norintis gali pasiekti
šią sistemą ir kažką su ja sukurti.
07:22
So now the restpoilsis is up to all of you
139
430240
3176
Tad likusi dalis priklauso nuo visų jūsų
ir žmonių visame pasaulyje, turinčių
priėjimą prie šios programinės įrangos,
07:25
and people around the worldpasaulis
with accessprieiga to this softwareprograminė įranga,
140
433440
2936
07:28
and I can't wait to see what people
will buildstatyti with this technologytechnologija.
141
436400
3656
ir aš nekantrauju pamatyti, ką žmonės
sukurs, naudodamiesi šia technologija.
07:32
Thank you.
142
440080
1216
Ačiū.
07:33
(ApplausePlojimai)
143
441320
3440
(Plojimai.)

▲Back to top

ABOUT THE SPEAKER
Joseph Redmon - Computer scientist
Joseph Redmon works on the YOLO algorithm, which combines the simple face detection of your phone camera with a cloud-based AI -- in real time.

Why you should listen

Computer scientist Joseph Redmon is working on the YOLO (You Only Look Once) algorithm, which has a simple goal: to deliver image recognition and object detection at a speed that would seem science-fictional only a few years ago. The algorithm looks like the simple face detection of a camera app but with the level complexity of systems like Google's Deep Mind Cloud Vision, using Convolutional Deep Neural Networks to crunch object detection in realtime. It's the kind of technology that will be embedded on all smartphones in the next few years.

Redmon is also internet-famous for his resume.

More profile about the speaker
Joseph Redmon | Speaker | TED.com