ABOUT THE SPEAKER
Joseph Redmon - Computer scientist
Joseph Redmon works on the YOLO algorithm, which combines the simple face detection of your phone camera with a cloud-based AI -- in real time.

Why you should listen

Computer scientist Joseph Redmon is working on the YOLO (You Only Look Once) algorithm, which has a simple goal: to deliver image recognition and object detection at a speed that would seem science-fictional only a few years ago. The algorithm looks like the simple face detection of a camera app but with the level complexity of systems like Google's Deep Mind Cloud Vision, using Convolutional Deep Neural Networks to crunch object detection in realtime. It's the kind of technology that will be embedded on all smartphones in the next few years.

Redmon is also internet-famous for his resume.

More profile about the speaker
Joseph Redmon | Speaker | TED.com
TED2017

Joseph Redmon: How computers learn to recognize objects instantly

Joseph Redmon: Máy tính nhận diện vật thể ngay lập tức như thế nào?

Filmed:
2,471,805 views

Mười năm trước, các nghiên cứu cho rằng để máy tính nhận ra được sự khác nhau giữa con chó và con mèo là gần như bất khả thi. Ngày nay, hệ thống thị giác máy tính đã làm được điều đó với độ chính xác cao hơn 99%. Tại sao vậy? Joseph Redmon thiết kể hệ thống nguồn mở YOLO (You Only Look Once), một phương thức nhận diện vật thể có trong hình ảnh và video - từ ngựa vằn đến biển báo cấm - với tốc độ cực nhanh. Trong bản live giới thiệu sản phẩm này, Redmon cho thấy một bước tiến gần hơn đến các sản phẩm như xe tự lái, chế tạo robot hay thậm chí là phát hiện ung thư.
- Computer scientist
Joseph Redmon works on the YOLO algorithm, which combines the simple face detection of your phone camera with a cloud-based AI -- in real time. Full bio

Double-click the English transcript below to play the video.

00:12
TenMười yearsnăm agotrước,
0
825
1151
Mười năm trước,
00:14
computermáy vi tính visiontầm nhìn researchersCác nhà nghiên cứu
thought that gettingnhận được a computermáy vi tính
1
2000
2776
các nghiên cứu thị giác máy tính
cho rằng để máy tính
00:16
to tell the differenceSự khác biệt
betweengiữa a catcon mèo and a dogchó
2
4800
2696
nhận biết được
sự khác nhau giữa chó và mèo
00:19
would be almosthầu hết impossibleKhông thể nào,
3
7520
1976
gần như là bất khả thi
00:21
even with the significantcó ý nghĩa advancenâng cao
in the statetiểu bang of artificialnhân tạo intelligenceSự thông minh.
4
9520
3696
cho dù với những tiến bộ
đáng kể về trí tuệ nhân tạo.
00:25
Now we can do it at a levelcấp độ
greaterlớn hơn than 99 percentphần trăm accuracytính chính xác.
5
13240
3560
Giờ đây, chúng ta có thể thực hiện được
điều đó với hơn 99% độ chính xác.
00:29
This is calledgọi là imagehình ảnh classificationphân loại --
6
17680
1856
Đây được gọi là Phân lớp hình ảnh
00:31
give it an imagehình ảnh,
put a labelnhãn to that imagehình ảnh --
7
19560
3096
tức là cho một hình ảnh,
dán nhãn cho hình ảnh đó
00:34
and computersmáy vi tính know
thousandshàng nghìn of other categoriesThể loại as well.
8
22680
3040
và máy tính sẽ nhận diện
hàng ngàn loại hình ảnh như vậy.
00:38
I'm a graduatetốt nghiệp studentsinh viên
at the UniversityTrường đại học of WashingtonWashington,
9
26680
2896
Tôi là cử nhân của Đại học Washington,
00:41
and I work on a projectdự án calledgọi là DarknetDarknet,
10
29600
1896
và đang làm việc cho dự án Darknet
00:43
which is a neuralthần kinh networkmạng frameworkkhuôn khổ
11
31520
1696
nó là một khung mạng lưới nơ-ron
00:45
for trainingđào tạo and testingthử nghiệm
computermáy vi tính visiontầm nhìn modelsmô hình.
12
33240
2816
dùng để điều chỉnh và kiểm tra
các mô hình thị giác máy tính
00:48
So let's just see what DarknetDarknet thinksnghĩ
13
36080
2976
Vậy cùng xem Darknet thấy gì
00:51
of this imagehình ảnh that we have.
14
39080
1760
về bức ảnh mà chúng ta có ở đây.
00:54
When we runchạy our classifierloại
15
42520
2336
Khi ta khởi động bộ phân lớp
00:56
on this imagehình ảnh,
16
44880
1216
cho hình ảnh này
00:58
we see we don't just get
a predictiondự đoán of dogchó or catcon mèo,
17
46120
2456
ta thấy rằng ta không chỉ
nhận được dự đoán về chó hay mèo
01:00
we actuallythực ra get
specificriêng breedgiống predictionsdự đoán.
18
48600
2336
mà thực sự còn có dự đoán về
loài cụ thể.
01:02
That's the levelcấp độ
of granularityđộ chi tiết we have now.
19
50960
2176
Đây là mức độ chi tiết chúng ta hiện có
01:05
And it's correctchính xác.
20
53160
1616
Và nó hoàn toàn chính xác.
01:06
My dogchó is in factthực tế a malamuteMalamute.
21
54800
1840
Con chó của tôi đúng là
một con Malamute.
01:09
So we'vechúng tôi đã madethực hiện amazingkinh ngạc stridesbước tiến dài
in imagehình ảnh classificationphân loại,
22
57040
4336
Vậy chúng ta đã tạo ra một bước tiến
vượt bậc trong phân lớp hình ảnh,
01:13
but what happensxảy ra
when we runchạy our classifierloại
23
61400
2000
nhưng điều gì xảy ra
khi khởi động bộ phân lớp
01:15
on an imagehình ảnh that looksnhìn like this?
24
63424
1960
trên một hình ảnh như thế này?
01:19
Well ...
25
67080
1200
Ừm ...
01:24
We see that the classifierloại comesđến back
with a prettyđẹp similargiống predictiondự đoán.
26
72640
3896
Ta thấy rằng bộ phân lớp sẽ phản hồi
với dự đoán tương tự như vậy.
01:28
And it's correctchính xác,
there is a malamuteMalamute in the imagehình ảnh,
27
76560
3096
Và nó hoàn toàn chính xác, đúng là
có một con malamute trong bức ảnh,
01:31
but just givenđược this labelnhãn,
we don't actuallythực ra know that much
28
79680
3696
nhưng nếu chỉ với thông tin này,
chúng ta không thực sự hiểu rõ
01:35
about what's going on in the imagehình ảnh.
29
83400
1667
về điều gì đang diễn ra
trong bức ảnh đó.
01:37
We need something more powerfulquyền lực.
30
85091
1560
Chúng ta cần thứ gì đó mạnh mẽ hơn.
01:39
I work on a problemvấn đề
calledgọi là objectvật detectionphát hiện,
31
87240
2616
Tôi nghiên cứu về một vấn đề
được gọi là Nhận diện vật thể
01:41
where we look at an imagehình ảnh
and try to find all of the objectscác đối tượng,
32
89880
2936
nghĩa là chúng ta nhìn vào bức ảnh
và cố tìm ra tất cả các đồ vật,
01:44
put boundingCác giáp ranh boxeshộp around them
33
92840
1456
đặt các hộp giới hạn xung quanh chúng
01:46
and say what those objectscác đối tượng are.
34
94320
1520
và chỉ ra những vật đó là gì
01:48
So here'sđây là what happensxảy ra
when we runchạy a detectorMáy dò on this imagehình ảnh.
35
96400
3280
Sau đây là những gì sẽ xảy ra khi chúng ta nhận diện bức ảnh này.
01:53
Now, with this kindloại of resultkết quả,
36
101240
2256
Với kết quả này,
01:55
we can do a lot more
with our computermáy vi tính visiontầm nhìn algorithmsthuật toán.
37
103520
2696
chúng ta có thể làm được nhiều điều hơn với những thuật toán thị giác máy tính.
01:58
We see that it knowsbiết
that there's a catcon mèo and a dogchó.
38
106240
2976
Nó nhận ra trong ảnh có
một con chó và một con mèo
02:01
It knowsbiết theirhọ relativequan hệ locationsvị trí,
39
109240
2256
Nó biết vị trí của chúng,
02:03
theirhọ sizekích thước.
40
111520
1216
kích thước của chúng.
02:04
It mayTháng Năm even know some extrathêm informationthông tin.
41
112760
1936
Thậm chí nó có thể biết thêm nhiều thông tin nữa.
02:06
There's a booksách sittingngồi in the backgroundlý lịch.
42
114720
1960
ví dụ như có quyển sách ở phía sau
02:09
And if you want to buildxây dựng a systemhệ thống
on tophàng đầu of computermáy vi tính visiontầm nhìn,
43
117280
3256
Và nếu bạn muốn xây dựng một hệ thống
dựa vào thị giác máy tính,
02:12
say a self-drivingtự lái vehiclephương tiện
or a roboticrobot systemhệ thống,
44
120560
3456
như xe hơi tự lái hay hệ thống robot,
02:16
this is the kindloại
of informationthông tin that you want.
45
124040
2456
đây chính là thông tin mà bạn cần.
02:18
You want something so that
you can interacttương tác with the physicalvật lý worldthế giới.
46
126520
3239
Bạn muốn thứ gì đó để bạn có thể
tương tác với thế giới thực.
02:22
Now, when I startedbắt đầu workingđang làm việc
on objectvật detectionphát hiện,
47
130759
2257
Giờ, khi tôi bắt đầu khởi động nhận diện vật thể,
02:25
it tooklấy 20 secondsgiây
to processquá trình a singleĐộc thân imagehình ảnh.
48
133040
3296
sẽ mất 20 giây để xử lý một hình ảnh.
02:28
And to get a feel for why
speedtốc độ is so importantquan trọng in this domainmiền,
49
136360
3880
Và để hiểu tại sao tốc độ lại
quan trọng đến thế,
02:33
here'sđây là an examplethí dụ of an objectvật detectorMáy dò
50
141120
2536
đây sẽ là ví dụ: một bộ nhận diện vật thể
02:35
that takes two secondsgiây
to processquá trình an imagehình ảnh.
51
143680
2416
mất 2 giây để xử lý tấm ảnh.
02:38
So this is 10 timeslần fasternhanh hơn
52
146120
2616
Vì thế nó nhanh gấp 10 lần
02:40
than the 20-seconds-per-image-giây-mỗi-hình ảnh detectorMáy dò,
53
148760
3536
so với bộ nhận diện 20 giây/ảnh
02:44
and you can see that by the time
it makeslàm cho predictionsdự đoán,
54
152320
2656
và bạn có thể nhận ra rằng,
vào lúc nó đưa ra dự đoán xong
02:47
the entiretoàn bộ statetiểu bang of the worldthế giới has changedđã thay đổi,
55
155000
2040
thì tất cả các trạng thái đã thay đổi,
02:49
and this wouldn'tsẽ không be very usefulhữu ích
56
157880
2416
và vì thế nó sẽ không còn thực sự có ích
02:52
for an applicationứng dụng.
57
160320
1416
cho một ứng dụng.
02:53
If we speedtốc độ this up
by anotherkhác factorhệ số of 10,
58
161760
2496
Nếu chúng ta tăng tốc nó lên theo hệ số 10
02:56
this is a detectorMáy dò runningđang chạy
at fivesố năm frameskhung permỗi secondthứ hai.
59
164280
2816
nó sẽ nhận diện 5 ảnh/giây.
02:59
This is a lot better,
60
167120
1536
Nó thực sự vượt trội hơn nhiều,
03:00
but for examplethí dụ,
61
168680
1976
nhưng ví dụ,
03:02
if there's any significantcó ý nghĩa movementphong trào,
62
170680
2296
nếu có bất kì chuyển động đáng kể nào,
03:05
I wouldn'tsẽ không want a systemhệ thống
like this drivingđiều khiển my carxe hơi.
63
173000
2560
tôi sẽ không muốn một hệ thống như này
điều khiển chiếc xe của mình.
03:09
This is our detectionphát hiện systemhệ thống
runningđang chạy in realthực time on my laptopmáy tính xách tay.
64
177120
3240
Đây là hệ thống nhận diện theo thời gian thực đang chạy trên laptop của tôi
03:13
So it smoothlythông suốt tracksbài hát me
as I movedi chuyển around the framekhung,
65
181000
3136
Vì vậy nó dễ dàng theo dõi tôi khi tôi di chuyển xung quanh khung hình,
03:16
and it's robustmạnh mẽ to a widerộng varietyđa dạng
of changesthay đổi in sizekích thước,
66
184160
3720
và nó rất nhanh nhạy với các thay đổi về kích thước,
03:21
poseđặt ra,
67
189440
1200
tư thế,
03:23
forwardphía trước, backwardlạc hậu.
68
191280
1856
về phía trước, phía sau.
03:25
This is great.
69
193160
1216
Điều này thật tuyệt.
03:26
This is what we really need
70
194400
1736
Đây chính xác là gì chúng ta cần
03:28
if we're going to buildxây dựng systemshệ thống
on tophàng đầu of computermáy vi tính visiontầm nhìn.
71
196160
2896
nếu ta định xây dựng một hệ thống
dựa trên thị giác máy tính.
03:31
(ApplauseVỗ tay)
72
199080
4000
(Tiếng vỗ tay)
03:36
So in just a fewvài yearsnăm,
73
204280
2176
Vì vậy chỉ trong vài năm,
03:38
we'vechúng tôi đã goneKhông còn from 20 secondsgiây permỗi imagehình ảnh
74
206480
2656
chúng ta chuyển từ 20 giây/ảnh
03:41
to 20 millisecondsmili giây permỗi imagehình ảnh,
a thousandnghìn timeslần fasternhanh hơn.
75
209160
3536
sang 20 phần nghìn giây/ảnh,
nhanh gấp nghìn lần.
03:44
How did we get there?
76
212720
1416
Chúng ta đã tiến tới đó bằng cách nào?
03:46
Well, in the pastquá khứ,
objectvật detectionphát hiện systemshệ thống
77
214160
3016
Trong quá khứ, các hệ thống nhận diện vật thể
03:49
would take an imagehình ảnh like this
78
217200
1936
sẽ xử lí một hình ảnh như này,
03:51
and splitphân chia it into a bunch of regionsvùng
79
219160
2456
và chia nó thành các vùng,
03:53
and then runchạy a classifierloại
on eachmỗi of these regionsvùng,
80
221640
3256
sau đó chạy bộ nhận diện trên từng vùng,
03:56
and highcao scoresđiểm số for that classifierloại
81
224920
2536
điểm nổi trội nhất trong vùng nhận diện
03:59
would be consideredxem xét
detectionsphát hiện in the imagehình ảnh.
82
227480
3136
sẽ được tính là kết quả.
04:02
But this involvedcó tính liên quan runningđang chạy a classifierloại
thousandshàng nghìn of timeslần over an imagehình ảnh,
83
230640
4056
Nhưng điều này cũng đồng nghĩa với
hàng nghìn lần nhận diện trên một hình,
04:06
thousandshàng nghìn of neuralthần kinh networkmạng evaluationsđánh giá
to producesản xuất detectionphát hiện.
84
234720
2920
hàng nghìn đánh giá của mạng lưới nơ-rôn
để đi đến được kết quả.
04:11
InsteadThay vào đó, we trainedđào tạo a singleĐộc thân networkmạng
to do all of detectionphát hiện for us.
85
239240
4536
Thay vào đó, chúng ta có một mạng lưới duy nhất
tiến hành tất cả các nhận diện,
04:15
It producessản xuất all of the boundingCác giáp ranh boxeshộp
and classlớp học probabilitiesxác suất simultaneouslyđồng thời.
86
243800
4280
tạo ra đồng thời tất cả các hộp giới hạn và
các khả năng
04:20
With our systemhệ thống, insteadthay thế of looking
at an imagehình ảnh thousandshàng nghìn of timeslần
87
248680
3496
Với hệ thống của chúng tôi, thay vì "nhìn" bức ảnh
hàng ngàn lần
04:24
to producesản xuất detectionphát hiện,
88
252200
1456
để đưa ra nhận diện,
04:25
you only look onceMột lần,
89
253680
1256
You Only Look Once
(Chỉ nhìn một lần)
04:26
and that's why we call it
the YOLOYOLO methodphương pháp of objectvật detectionphát hiện.
90
254960
2920
Phương pháp YOLO để nhận diện vật thể.
04:31
So with this speedtốc độ,
we're not just limitedgiới hạn to imageshình ảnh;
91
259360
3976
Tốc độ này khiến ta không bị giới hạn
chỉ trong Ảnh
04:35
we can processquá trình videovideo in realthực time.
92
263360
2416
mà còn nhận diện trong Video theo thời gian thực.
04:37
And now, insteadthay thế of just seeingthấy
that catcon mèo and dogchó,
93
265800
3096
Giờ, thay vì chỉ thấy chó và mèo,
04:40
we can see them movedi chuyển around
and interacttương tác with eachmỗi other.
94
268920
2960
ta còn thấy chúng di chuyển và đùa giỡn.
04:46
This is a detectorMáy dò that we trainedđào tạo
95
274560
2056
Đây là bộ nhận diện được phát triển
04:48
on 80 differentkhác nhau classesCác lớp học
96
276640
4376
với 80 hạng mục khác nhau
04:53
in Microsoft'sCủa Microsoft COCOCOCO datasetsố liệu.
97
281040
3256
thuộc COCO dataset của Microsoft.
04:56
It has all sortsloại of things
like spoonmuỗng and forkngã ba, bowlbát,
98
284320
3336
Có đủ thứ hết, như muỗng, nĩa, tô,...
04:59
commonchung objectscác đối tượng like that.
99
287680
1800
những vật dụng thông thường như vậy.
05:02
It has a varietyđa dạng of more exotickỳ lạ things:
100
290360
3096
Và có những mục thú vị:
05:05
animalsđộng vật, carsxe hơi, zebrasngựa vằn, giraffeshươu cao cổ.
101
293480
3256
động vật, xe hơi, ngựa vằn, hươu cao cổ.
05:08
And now we're going to do something funvui vẻ.
102
296760
1936
Giờ đến trò vui nè
05:10
We're just going to go
out into the audiencethính giả
103
298720
2096
Tôi sẽ đến chỗ khán giả
05:12
and see what kindloại of things we can detectphát hiện.
104
300840
2016
và xem nó nhận diện được những thứ gì nhé.
05:14
Does anyonebất kỳ ai want a stuffednhồi animalthú vật?
105
302880
1620
Ai muốn thú nhồi bông nào?
05:18
There are some teddyTeddy bearsgấu out there.
106
306000
1762
Gấu bông nè.
05:22
And we can turnxoay down
our thresholdngưỡng for detectionphát hiện a little bitbit,
107
310040
4536
Mở rộng khu vực nhận diện ra một chút
05:26
so we can find more of you guys
out in the audiencethính giả.
108
314600
3400
để thấy được nhiều người hơn.
05:31
Let's see if we can get these stop signsdấu hiệu.
109
319560
2336
Để xem, biển cấm này
05:33
We find some backpacksba lô.
110
321920
1880
Tìm được vài cái balo
05:37
Let's just zoomthu phóng in a little bitbit.
111
325880
1840
Phóng to một tí
05:42
And this is great.
112
330320
1256
Thật tuyệt.
05:43
And all of the processingChế biến
is happeningxảy ra in realthực time
113
331600
3176
Tất cả các quá trình đang diễn ra
trong thời gian thực
05:46
on the laptopmáy tính xách tay.
114
334800
1200
trên laptop.
05:49
And it's importantquan trọng to remembernhớ lại
115
337080
1456
Điều quan trọng cần nhớ,
05:50
that this is a generalchung purposemục đích
objectvật detectionphát hiện systemhệ thống,
116
338560
3216
đây là hệ thống nhận diện cho-mọi-mục-đích
05:53
so we can trainxe lửa this for any imagehình ảnh domainmiền.
117
341800
5000
nên có thể áp dụng cho mọi ứng dụng khác.
06:00
The sametương tự code that we use
118
348320
2536
Cùng một đoạn code này
06:02
to find stop signsdấu hiệu or pedestriansngười đi bộ,
119
350880
2456
có thể tìm biển cấm, người đi bộ,
06:05
bicyclesxe đạp in a self-drivingtự lái vehiclephương tiện,
120
353360
1976
xe đạp,...nếu áp dụng cho
xe tự lái;
06:07
can be used to find cancerung thư cellstế bào
121
355360
2856
có thể dùng để tìm tế bào ung thư
06:10
in a tissue biopsysinh thiết.
122
358240
3016
trong một sinh thiết mô.
06:13
And there are researchersCác nhà nghiên cứu around the globequả địa cầu
alreadyđã usingsử dụng this technologyCông nghệ
123
361280
4040
Khắp thế giới đã có những nhà nghiên cứu
áp dụng công nghệ này
06:18
for advancesnhững tiến bộ in things
like medicinedược phẩm, roboticsrobot.
124
366240
3416
để phát triển trong ngành dược,
chế tạo robot.
06:21
This morningbuổi sáng, I readđọc a papergiấy
125
369680
1376
Sáng nay tôi đọc được tin
06:23
where they were takinglấy a censusđiều tra dân số
of animalsđộng vật in NairobiNairobi NationalQuốc gia ParkCông viên
126
371080
4576
người ta điều tra số lượng cá thể động vật
ở Công viên Quốc gia Nairobi
06:27
with YOLOYOLO as partphần
of this detectionphát hiện systemhệ thống.
127
375680
3136
với sự đóng góp của YOLO trong hệ thống
nhận dạng.
06:30
And that's because DarknetDarknet is openmở sourcenguồn
128
378840
3096
Và bởi vì Darknet là nguồn mở
06:33
and in the publiccông cộng domainmiền,
freemiễn phí for anyonebất kỳ ai to use.
129
381960
2520
thuộc miền công cộng và miễn phí cho
tất cả mọi người
06:37
(ApplauseVỗ tay)
130
385600
5696
(Tiếng vỗ tay)
06:43
But we wanted to make detectionphát hiện
even more accessiblecó thể truy cập and usablecó thể sử dụng,
131
391320
4936
Nhưng chúng tôi muốn việc nhận diện
trở nên dễ tiếp cận và dễ sử dụng hơn nữa
06:48
so throughxuyên qua a combinationsự phối hợp
of modelmô hình optimizationtối ưu hóa,
132
396280
4056
nên qua sự kết hợp của mô hình tối ưu hóa
06:52
networkmạng binarizationbinarization and approximationxấp xỉ,
133
400360
2296
nhị phân hóa hệ thống và phép xấp xỉ.
06:54
we actuallythực ra have objectvật detectionphát hiện
runningđang chạy on a phoneđiện thoại.
134
402680
3920
chúng ta thực sự đã có thể
nhận diện vật thể bằng điện thoại.
07:04
(ApplauseVỗ tay)
135
412800
5320
(Tiếng vỗ tay)
07:10
And I'm really excitedbị kích thích because
now we have a prettyđẹp powerfulquyền lực solutiondung dịch
136
418960
5056
Và tôi thực sự hào hứng vì giờ chúng ta
đã có một giải pháp hữu hiệu
07:16
to this low-levelở độ cao thấp computermáy vi tính visiontầm nhìn problemvấn đề,
137
424040
2296
cho vấn đề thị giác máy tính kém,
07:18
and anyonebất kỳ ai can take it
and buildxây dựng something with it.
138
426360
3856
ai cũng có thể sở hữu và từ nó
tạo nên những thứ khác nữa.
07:22
So now the restnghỉ ngơi is up to all of you
139
430240
3176
Vậy nên từ giờ phần còn lại
phụ thuộc vào các bạn
07:25
and people around the worldthế giới
with accesstruy cập to this softwarephần mềm,
140
433440
2936
và mọi người trên thế giới
qua việc truy cập vào phần mềm này
07:28
and I can't wait to see what people
will buildxây dựng with this technologyCông nghệ.
141
436400
3656
tôi rất háo hức mong đợi
những gì sẽ được tạo ra từ công nghệ này.
07:32
Thank you.
142
440080
1216
Xin cảm ơn.
07:33
(ApplauseVỗ tay)
143
441320
3440
(Tiếng vỗ tay)
Translated by Mean Chow
Reviewed by Ngoc Bui

▲Back to top

ABOUT THE SPEAKER
Joseph Redmon - Computer scientist
Joseph Redmon works on the YOLO algorithm, which combines the simple face detection of your phone camera with a cloud-based AI -- in real time.

Why you should listen

Computer scientist Joseph Redmon is working on the YOLO (You Only Look Once) algorithm, which has a simple goal: to deliver image recognition and object detection at a speed that would seem science-fictional only a few years ago. The algorithm looks like the simple face detection of a camera app but with the level complexity of systems like Google's Deep Mind Cloud Vision, using Convolutional Deep Neural Networks to crunch object detection in realtime. It's the kind of technology that will be embedded on all smartphones in the next few years.

Redmon is also internet-famous for his resume.

More profile about the speaker
Joseph Redmon | Speaker | TED.com