ABOUT THE SPEAKER

Joseph Redmon - Computer scientist
Joseph Redmon works on the YOLO algorithm, which combines the simple face detection of your phone camera with a cloud-based AI -- in real time.

Why you should listen

Computer scientist Joseph Redmon is working on the YOLO (You Only Look Once) algorithm, which has a simple goal: to deliver image recognition and object detection at a speed that would seem science-fictional only a few years ago. The algorithm looks like the simple face detection of a camera app but with the level complexity of systems like Google's Deep Mind Cloud Vision, using Convolutional Deep Neural Networks to crunch object detection in realtime. It's the kind of technology that will be embedded on all smartphones in the next few years.

Redmon is also internet-famous for his resume.

More profile about the speaker
Joseph Redmon | Speaker | TED.com

TED2017

Joseph Redmon: How computers learn to recognize objects instantly

Joseph Redmon: Máy tính nhận diện vật thể ngay lập tức như thế nào?

Filmed: 2017-04-24

Readability: 4.5

2,471,805 views

Mười năm trước, các nghiên cứu cho rằng để máy tính nhận ra được sự khác nhau giữa con chó và con mèo là gần như bất khả thi. Ngày nay, hệ thống thị giác máy tính đã làm được điều đó với độ chính xác cao hơn 99%. Tại sao vậy? Joseph Redmon thiết kể hệ thống nguồn mở YOLO (You Only Look Once), một phương thức nhận diện vật thể có trong hình ảnh và video - từ ngựa vằn đến biển báo cấm - với tốc độ cực nhanh. Trong bản live giới thiệu sản phẩm này, Redmon cho thấy một bước tiến gần hơn đến các sản phẩm như xe tự lái, chế tạo robot hay thậm chí là phát hiện ung thư.

Joseph Redmon - Computer scientist
Joseph Redmon works on the YOLO algorithm, which combines the simple face detection of your phone camera with a cloud-based AI -- in real time. Full bio

Double-click the English transcript below to play the video.

00:12

TenMười yearsnăm agotrước,

0

825

1151

Mười năm trước,

00:14

computermáy vi tính visiontầm nhìn researchersCác nhà nghiên cứu
thought that gettingnhận được a computermáy vi tính

1

2000

2776

các nghiên cứu thị giác máy tính
cho rằng để máy tính

00:16

to tell the differenceSự khác biệt
betweengiữa a catcon mèo and a dogchó

2

4800

2696

nhận biết được
sự khác nhau giữa chó và mèo

00:19

would be almosthầu hết impossibleKhông thể nào,

3

7520

1976

gần như là bất khả thi

00:21

even with the significantcó ý nghĩa advancenâng cao
in the statetiểu bang of artificialnhân tạo intelligenceSự thông minh.

4

9520

3696

cho dù với những tiến bộ
đáng kể về trí tuệ nhân tạo.

00:25

Now we can do it at a levelcấp độ
greaterlớn hơn than 99 percentphần trăm accuracytính chính xác.

5

13240

3560

Giờ đây, chúng ta có thể thực hiện được
điều đó với hơn 99% độ chính xác.

00:29

This is calledgọi là imagehình ảnh classificationphân loại --

6

17680

1856

Đây được gọi là Phân lớp hình ảnh

00:31

give it an imagehình ảnh,
put a labelnhãn to that imagehình ảnh --

7

19560

3096

tức là cho một hình ảnh,
dán nhãn cho hình ảnh đó

00:34

and computersmáy vi tính know
thousandshàng nghìn of other categoriesThể loại as well.

8

22680

3040

và máy tính sẽ nhận diện
hàng ngàn loại hình ảnh như vậy.

00:38

I'm a graduatetốt nghiệp studentsinh viên
at the UniversityTrường đại học of WashingtonWashington,

9

26680

2896

Tôi là cử nhân của Đại học Washington,

00:41

and I work on a projectdự án calledgọi là DarknetDarknet,

10

29600

1896

và đang làm việc cho dự án Darknet

00:43

whichmà is a neuralthần kinh networkmạng frameworkkhuôn khổ

11

31520

1696

nó là một khung mạng lưới nơ-ron

00:45

for trainingđào tạo and testingthử nghiệm
computermáy vi tính visiontầm nhìn modelsmô hình.

12

33240

2816

dùng để điều chỉnh và kiểm tra
các mô hình thị giác máy tính

00:48

So let's just see what DarknetDarknet thinksnghĩ

13

36080

2976

Vậy cùng xem Darknet thấy gì

00:51

of this imagehình ảnh that we have.

14

39080

1760

về bức ảnh mà chúng ta có ở đây.

00:54

When we runchạy our classifierloại

15

42520

2336

Khi ta khởi động bộ phân lớp

00:56

on this imagehình ảnh,

16

44880

1216

cho hình ảnh này

00:58

we see we don't just get
a predictiondự đoán of dogchó or catcon mèo,

17

46120

2456

ta thấy rằng ta không chỉ
nhận được dự đoán về chó hay mèo

01:00

we actuallythực ra get
specificriêng breedgiống predictionsdự đoán.

18

48600

2336

mà thực sự còn có dự đoán về
loài cụ thể.

01:02

That's the levelcấp độ
of granularityđộ chi tiết we have now.

19

50960

2176

Đây là mức độ chi tiết chúng ta hiện có

01:05

And it's correctchính xác.

20

53160

1616

Và nó hoàn toàn chính xác.

01:06

My dogchó is in factthực tế a malamuteMalamute.

21

54800

1840

Con chó của tôi đúng là
một con Malamute.

01:09

So we'vechúng tôi đã madethực hiện amazingkinh ngạc stridesbước tiến dài
in imagehình ảnh classificationphân loại,

22

57040

4336

Vậy chúng ta đã tạo ra một bước tiến
vượt bậc trong phân lớp hình ảnh,

01:13

but what happensxảy ra
when we runchạy our classifierloại

23

61400

2000

nhưng điều gì xảy ra
khi khởi động bộ phân lớp

01:15

on an imagehình ảnh that looksnhìn like this?

24

63424

1960

trên một hình ảnh như thế này?

01:19

Well ...

25

67080

1200

Ừm ...

01:24

We see that the classifierloại comesđến back
with a prettyđẹp similargiống predictiondự đoán.

26

72640

3896

Ta thấy rằng bộ phân lớp sẽ phản hồi
với dự đoán tương tự như vậy.

01:28

And it's correctchính xác,
there is a malamuteMalamute in the imagehình ảnh,

27

76560

3096

Và nó hoàn toàn chính xác, đúng là
có một con malamute trong bức ảnh,

01:31

but just givenđược this labelnhãn,
we don't actuallythực ra know that much

28

79680

3696

nhưng nếu chỉ với thông tin này,
chúng ta không thực sự hiểu rõ

01:35

about what's going on in the imagehình ảnh.

29

83400

1667

về điều gì đang diễn ra
trong bức ảnh đó.

01:37

We need something more powerfulquyền lực.

30

85091

1560

Chúng ta cần thứ gì đó mạnh mẽ hơn.

01:39

I work on a problemvấn đề
calledgọi là objectvật detectionphát hiện,

31

87240

2616

Tôi nghiên cứu về một vấn đề
được gọi là Nhận diện vật thể

01:41

where we look at an imagehình ảnh
and try to find all of the objectscác đối tượng,

32

89880

2936

nghĩa là chúng ta nhìn vào bức ảnh
và cố tìm ra tất cả các đồ vật,

01:44

put boundingCác giáp ranh boxeshộp around them

33

92840

1456

đặt các hộp giới hạn xung quanh chúng

01:46

and say what those objectscác đối tượng are.

34

94320

1520

và chỉ ra những vật đó là gì

01:48

So here'sđây là what happensxảy ra
when we runchạy a detectorMáy dò on this imagehình ảnh.

35

96400

3280

Sau đây là những gì sẽ xảy ra khi chúng ta nhận diện bức ảnh này.

01:53

Now, with this kindloại of resultkết quả,

36

101240

2256

Với kết quả này,

01:55

we can do a lot more
with our computermáy vi tính visiontầm nhìn algorithmsthuật toán.

37

103520

2696

chúng ta có thể làm được nhiều điều hơn với những thuật toán thị giác máy tính.

01:58

We see that it knowsbiết
that there's a catcon mèo and a dogchó.

38

106240

2976

Nó nhận ra trong ảnh có
một con chó và một con mèo

02:01

It knowsbiết theirhọ relativequan hệ locationsvị trí,

39

109240

2256

Nó biết vị trí của chúng,

02:03

theirhọ sizekích thước.

40

111520

1216

kích thước của chúng.

02:04

It mayTháng Năm even know some extrathêm informationthông tin.

41

112760

1936

Thậm chí nó có thể biết thêm nhiều thông tin nữa.

02:06

There's a booksách sittingngồi in the backgroundlý lịch.

42

114720

1960

ví dụ như có quyển sách ở phía sau

02:09

And if you want to buildxây dựng a systemhệ thống
on tophàng đầu of computermáy vi tính visiontầm nhìn,

43

117280

3256

Và nếu bạn muốn xây dựng một hệ thống
dựa vào thị giác máy tính,

02:12

say a self-drivingtự lái vehiclephương tiện
or a roboticrobot systemhệ thống,

44

120560

3456

như xe hơi tự lái hay hệ thống robot,

02:16

this is the kindloại
of informationthông tin that you want.

45

124040

2456

đây chính là thông tin mà bạn cần.

02:18

You want something so that
you can interacttương tác with the physicalvật lý worldthế giới.

46

126520

3239

Bạn muốn thứ gì đó để bạn có thể
tương tác với thế giới thực.

02:22

Now, when I startedbắt đầu workingđang làm việc
on objectvật detectionphát hiện,

47

130759

2257

Giờ, khi tôi bắt đầu khởi động nhận diện vật thể,

02:25

it tooklấy 20 secondsgiây
to processquá trình a singleĐộc thân imagehình ảnh.

48

133040

3296

sẽ mất 20 giây để xử lý một hình ảnh.

02:28

And to get a feel for why
speedtốc độ is so importantquan trọng in this domainmiền,

49

136360

3880

Và để hiểu tại sao tốc độ lại
quan trọng đến thế,

02:33

here'sđây là an examplethí dụ of an objectvật detectorMáy dò

50

141120

2536

đây sẽ là ví dụ: một bộ nhận diện vật thể

02:35

that takes two secondsgiây
to processquá trình an imagehình ảnh.

51

143680

2416

mất 2 giây để xử lý tấm ảnh.

02:38

So this is 10 timeslần fasternhanh hơn

52

146120

2616

Vì thế nó nhanh gấp 10 lần

02:40

than the 20-seconds-per-image-giây-mỗi-hình ảnh detectorMáy dò,

53

148760

3536

so với bộ nhận diện 20 giây/ảnh

02:44

and you can see that by the time
it makeslàm cho predictionsdự đoán,

54

152320

2656

và bạn có thể nhận ra rằng,
vào lúc nó đưa ra dự đoán xong

02:47

the entiretoàn bộ statetiểu bang of the worldthế giới has changedđã thay đổi,

55

155000

2040

thì tất cả các trạng thái đã thay đổi,

02:49

and this wouldn'tsẽ không be very usefulhữu ích

56

157880

2416

và vì thế nó sẽ không còn thực sự có ích

02:52

for an applicationứng dụng.

57

160320

1416

cho một ứng dụng.

02:53

If we speedtốc độ this up
by anotherkhác factorhệ số of 10,

58

161760

2496

Nếu chúng ta tăng tốc nó lên theo hệ số 10

02:56

this is a detectorMáy dò runningđang chạy
at fivesố năm frameskhung permỗi secondthứ hai.

59

164280

2816

nó sẽ nhận diện 5 ảnh/giây.

02:59

This is a lot better,

60

167120

1536

Nó thực sự vượt trội hơn nhiều,

03:00

but for examplethí dụ,

61

168680

1976

nhưng ví dụ,

03:02

if there's any significantcó ý nghĩa movementphong trào,

62

170680

2296

nếu có bất kì chuyển động đáng kể nào,

03:05

I wouldn'tsẽ không want a systemhệ thống
like this drivingđiều khiển my carxe hơi.

63

173000

2560

tôi sẽ không muốn một hệ thống như này
điều khiển chiếc xe của mình.

03:09

This is our detectionphát hiện systemhệ thống
runningđang chạy in realthực time on my laptopmáy tính xách tay.

64

177120

3240

Đây là hệ thống nhận diện theo thời gian thực đang chạy trên laptop của tôi

03:13

So it smoothlythông suốt tracksbài hát me
as I movedi chuyển around the framekhung,

65

181000

3136

Vì vậy nó dễ dàng theo dõi tôi khi tôi di chuyển xung quanh khung hình,

03:16

and it's robustmạnh mẽ to a widerộng varietyđa dạng
of changesthay đổi in sizekích thước,

66

184160

3720

và nó rất nhanh nhạy với các thay đổi về kích thước,

03:21

poseđặt ra,

67

189440

1200

tư thế,

03:23

forwardphía trước, backwardlạc hậu.

68

191280

1856

về phía trước, phía sau.

03:25

This is great.

69

193160

1216

Điều này thật tuyệt.

03:26

This is what we really need

70

194400

1736

Đây chính xác là gì chúng ta cần

03:28

if we're going to buildxây dựng systemshệ thống
on tophàng đầu of computermáy vi tính visiontầm nhìn.

71

196160

2896

nếu ta định xây dựng một hệ thống
dựa trên thị giác máy tính.

03:31

(ApplauseVỗ tay)

72

199080

4000

(Tiếng vỗ tay)

03:36

So in just a fewvài yearsnăm,

73

204280

2176

Vì vậy chỉ trong vài năm,

03:38

we'vechúng tôi đã goneKhông còn from 20 secondsgiây permỗi imagehình ảnh

74

206480

2656

chúng ta chuyển từ 20 giây/ảnh

03:41

to 20 millisecondsmili giây permỗi imagehình ảnh,
a thousandnghìn timeslần fasternhanh hơn.

75

209160

3536

sang 20 phần nghìn giây/ảnh,
nhanh gấp nghìn lần.

03:44

How did we get there?

76

212720

1416

Chúng ta đã tiến tới đó bằng cách nào?

03:46

Well, in the pastquá khứ,
objectvật detectionphát hiện systemshệ thống

77

214160

3016

Trong quá khứ, các hệ thống nhận diện vật thể

03:49

would take an imagehình ảnh like this

78

217200

1936

sẽ xử lí một hình ảnh như này,

03:51

and splitphân chia it into a bunchbó of regionsvùng

79

219160

2456

và chia nó thành các vùng,

03:53

and then runchạy a classifierloại
on eachmỗi of these regionsvùng,

80

221640

3256

sau đó chạy bộ nhận diện trên từng vùng,

03:56

and highcao scoresđiểm số for that classifierloại

81

224920

2536

điểm nổi trội nhất trong vùng nhận diện

03:59

would be consideredxem xét
detectionsphát hiện in the imagehình ảnh.

82

227480

3136

sẽ được tính là kết quả.

04:02

But this involvedcó tính liên quan runningđang chạy a classifierloại
thousandshàng nghìn of timeslần over an imagehình ảnh,

83

230640

4056

Nhưng điều này cũng đồng nghĩa với
hàng nghìn lần nhận diện trên một hình,

04:06

thousandshàng nghìn of neuralthần kinh networkmạng evaluationsđánh giá
to producesản xuất detectionphát hiện.

84

234720

2920

hàng nghìn đánh giá của mạng lưới nơ-rôn
để đi đến được kết quả.

04:11

InsteadThay vào đó, we trainedđào tạo a singleĐộc thân networkmạng
to do all of detectionphát hiện for us.

85

239240

4536

Thay vào đó, chúng ta có một mạng lưới duy nhất
tiến hành tất cả các nhận diện,

04:15

It producessản xuất all of the boundingCác giáp ranh boxeshộp
and classlớp học probabilitiesxác suất simultaneouslyđồng thời.

86

243800

4280

tạo ra đồng thời tất cả các hộp giới hạn và
các khả năng

04:20

With our systemhệ thống, insteadthay thế of looking
at an imagehình ảnh thousandshàng nghìn of timeslần

87

248680

3496

Với hệ thống của chúng tôi, thay vì "nhìn" bức ảnh
hàng ngàn lần

04:24

to producesản xuất detectionphát hiện,

88

252200

1456

để đưa ra nhận diện,

04:25

you only look onceMột lần,

89

253680

1256

You Only Look Once
(Chỉ nhìn một lần)

04:26

and that's why we call it
the YOLOYOLO methodphương pháp of objectvật detectionphát hiện.

90

254960

2920

Phương pháp YOLO để nhận diện vật thể.

04:31

So with this speedtốc độ,
we're not just limitedgiới hạn to imageshình ảnh;

91

259360

3976

Tốc độ này khiến ta không bị giới hạn
chỉ trong Ảnh

04:35

we can processquá trình videovideo in realthực time.

92

263360

2416

mà còn nhận diện trong Video theo thời gian thực.

04:37

And now, insteadthay thế of just seeingthấy
that catcon mèo and dogchó,

93

265800

3096

Giờ, thay vì chỉ thấy chó và mèo,

04:40

we can see them movedi chuyển around
and interacttương tác with eachmỗi other.

94

268920

2960

ta còn thấy chúng di chuyển và đùa giỡn.

04:46

This is a detectorMáy dò that we trainedđào tạo

95

274560

2056

Đây là bộ nhận diện được phát triển

04:48

on 80 differentkhác nhau classesCác lớp học

96

276640

4376

với 80 hạng mục khác nhau

04:53

in Microsoft'sCủa Microsoft COCOCOCO datasetsố liệu.

97

281040

3256

thuộc COCO dataset của Microsoft.

04:56

It has all sortsloại of things
like spoonmuỗng and forkngã ba, bowlbát,

98

284320

3336

Có đủ thứ hết, như muỗng, nĩa, tô,...

04:59

commonchung objectscác đối tượng like that.

99

287680

1800

những vật dụng thông thường như vậy.

05:02

It has a varietyđa dạng of more exotickỳ lạ things:

100

290360

3096

Và có những mục thú vị:

05:05

animalsđộng vật, carsxe hơi, zebrasngựa vằn, giraffeshươu cao cổ.

101

293480

3256

động vật, xe hơi, ngựa vằn, hươu cao cổ.

05:08

And now we're going to do something funvui vẻ.

102

296760

1936

Giờ đến trò vui nè

05:10

We're just going to go
out into the audiencethính giả

103

298720

2096

Tôi sẽ đến chỗ khán giả

05:12

and see what kindloại of things we can detectphát hiện.

104

300840

2016

và xem nó nhận diện được những thứ gì nhé.

05:14

Does anyonebất kỳ ai want a stuffednhồi animalthú vật?

105

302880

1620

Ai muốn thú nhồi bông nào?

05:18

There are some teddyTeddy bearsgấu out there.

106

306000

1762

Gấu bông nè.

05:22

And we can turnxoay down
our thresholdngưỡng for detectionphát hiện a little bitbit,

107

310040

4536

Mở rộng khu vực nhận diện ra một chút

05:26

so we can find more of you guys
out in the audiencethính giả.

108

314600

3400

để thấy được nhiều người hơn.

05:31

Let's see if we can get these stop signsdấu hiệu.

109

319560

2336

Để xem, biển cấm này

05:33

We find some backpacksba lô.

110

321920

1880

Tìm được vài cái balo

05:37

Let's just zoomthu phóng in a little bitbit.

111

325880

1840

Phóng to một tí

05:42

And this is great.

112

330320

1256

Thật tuyệt.

05:43

And all of the processingChế biến
is happeningxảy ra in realthực time

113

331600

3176

Tất cả các quá trình đang diễn ra
trong thời gian thực

05:46

on the laptopmáy tính xách tay.

114

334800

1200

trên laptop.

05:49

And it's importantquan trọng to remembernhớ lại

115

337080

1456

Điều quan trọng cần nhớ,

05:50

that this is a generalchung purposemục đích
objectvật detectionphát hiện systemhệ thống,

116

338560

3216

đây là hệ thống nhận diện cho-mọi-mục-đích

05:53

so we can trainxe lửa this for any imagehình ảnh domainmiền.

117

341800

5000

nên có thể áp dụng cho mọi ứng dụng khác.

06:00

The sametương tự codemã that we use

118

348320

2536

Cùng một đoạn code này

06:02

to find stop signsdấu hiệu or pedestriansngười đi bộ,

119

350880

2456

có thể tìm biển cấm, người đi bộ,

06:05

bicyclesxe đạp in a self-drivingtự lái vehiclephương tiện,

120

353360

1976

xe đạp,...nếu áp dụng cho
xe tự lái;

06:07

can be used to find cancerung thư cellstế bào

121

355360

2856

có thể dùng để tìm tế bào ung thư

06:10

in a tissuemô biopsysinh thiết.

122

358240

3016

trong một sinh thiết mô.

06:13

And there are researchersCác nhà nghiên cứu around the globequả địa cầu
alreadyđã usingsử dụng this technologyCông nghệ

123

361280

4040

Khắp thế giới đã có những nhà nghiên cứu
áp dụng công nghệ này

06:18

for advancesnhững tiến bộ in things
like medicinedược phẩm, roboticsrobot.

124

366240

3416

để phát triển trong ngành dược,
chế tạo robot.

06:21

This morningbuổi sáng, I readđọc a papergiấy

125

369680

1376

Sáng nay tôi đọc được tin

06:23

where they were takinglấy a censusđiều tra dân số
of animalsđộng vật in NairobiNairobi NationalQuốc gia ParkCông viên

126

371080

4576

người ta điều tra số lượng cá thể động vật
ở Công viên Quốc gia Nairobi

06:27

with YOLOYOLO as partphần
of this detectionphát hiện systemhệ thống.

127

375680

3136

với sự đóng góp của YOLO trong hệ thống
nhận dạng.

06:30

And that's because DarknetDarknet is openmở sourcenguồn

128

378840

3096

Và bởi vì Darknet là nguồn mở

06:33

and in the publiccông cộng domainmiền,
freemiễn phí for anyonebất kỳ ai to use.

129

381960

2520

thuộc miền công cộng và miễn phí cho
tất cả mọi người

06:37

(ApplauseVỗ tay)

130

385600

5696

(Tiếng vỗ tay)

06:43

But we wanted to make detectionphát hiện
even more accessiblecó thể truy cập and usablecó thể sử dụng,

131

391320

4936

Nhưng chúng tôi muốn việc nhận diện
trở nên dễ tiếp cận và dễ sử dụng hơn nữa

06:48

so throughxuyên qua a combinationsự phối hợp
of modelmô hình optimizationtối ưu hóa,

132

396280

4056

nên qua sự kết hợp của mô hình tối ưu hóa

06:52

networkmạng binarizationbinarization and approximationxấp xỉ,

133

400360

2296

nhị phân hóa hệ thống và phép xấp xỉ.

06:54

we actuallythực ra have objectvật detectionphát hiện
runningđang chạy on a phoneđiện thoại.

134

402680

3920

chúng ta thực sự đã có thể
nhận diện vật thể bằng điện thoại.

07:04

(ApplauseVỗ tay)

135

412800

5320

(Tiếng vỗ tay)

07:10

And I'm really excitedbị kích thích because
now we have a prettyđẹp powerfulquyền lực solutiondung dịch

136

418960

5056

Và tôi thực sự hào hứng vì giờ chúng ta
đã có một giải pháp hữu hiệu

07:16

to this low-levelở độ cao thấp computermáy vi tính visiontầm nhìn problemvấn đề,

137

424040

2296

cho vấn đề thị giác máy tính kém,

07:18

and anyonebất kỳ ai can take it
and buildxây dựng something with it.

138

426360

3856

ai cũng có thể sở hữu và từ nó
tạo nên những thứ khác nữa.

07:22

So now the restnghỉ ngơi is up to all of you

139

430240

3176

Vậy nên từ giờ phần còn lại
phụ thuộc vào các bạn

07:25

and people around the worldthế giới
with accesstruy cập to this softwarephần mềm,

140

433440

2936

và mọi người trên thế giới
qua việc truy cập vào phần mềm này

07:28

and I can't wait to see what people
will buildxây dựng with this technologyCông nghệ.

141

436400

3656

tôi rất háo hức mong đợi
những gì sẽ được tạo ra từ công nghệ này.

07:32

Thank you.

142

440080

1216

Xin cảm ơn.

07:33

(ApplauseVỗ tay)

143

441320

3440

(Tiếng vỗ tay)

Translated by Mean Chow
Reviewed by Ngoc Bui

ABOUT THE SPEAKER

Joseph Redmon - Computer scientist
Joseph Redmon works on the YOLO algorithm, which combines the simple face detection of your phone camera with a cloud-based AI -- in real time.

Why you should listen

Computer scientist Joseph Redmon is working on the YOLO (You Only Look Once) algorithm, which has a simple goal: to deliver image recognition and object detection at a speed that would seem science-fictional only a few years ago. The algorithm looks like the simple face detection of a camera app but with the level complexity of systems like Google's Deep Mind Cloud Vision, using Convolutional Deep Neural Networks to crunch object detection in realtime. It's the kind of technology that will be embedded on all smartphones in the next few years.

Redmon is also internet-famous for his resume.

More profile about the speaker
Joseph Redmon | Speaker | TED.com

THE ORIGINAL VIDEO ON TED.COM

Joseph Redmon: Máy tính nhận diện vật thể ngay lập tức như thế nào? | TED Talk | TED.com