ABOUT THE SPEAKER
Ben Wellington - Data scientist
Ben Wellington blends his love of statistics, the city, and comedy in his entertaining analysis of the story of New York City, told through data.

Why you should listen

Ben Wellington runs the I Quant NY blog, in which he crunches city-released data to find out what's really going on in the Big Apple. To date he has tackled topics such as measles outbreaks in New York City schools, analyzed how companies like Airbnb are really doing in NYC, and asked questions such as "does gentrification cause a reduction in laundromats?" (Answer: inconclusive.)

Ben is a visiting assistant professor in the City & Regional Planning program at the Pratt Institute in Brooklyn; his day job involves working as a quantitative analyst at the investment management firm, Two Sigma. A budding comedian and performer, he also teaches team building workshops through Cherub Improv, a non-profit that uses improv comedy for social good.

More profile about the speaker
Ben Wellington | Speaker | TED.com
TEDxNewYork

Ben Wellington: How we found the worst place to park in New York City -- using big data

Бен Веллингтон: Как найти худшее место для парковки в Нью-Йорке, оперируя данными

Filmed:
1,055,247 views

Городские службы имеют доступ к огромному количеству данных и статистике по каждой части города. И как предполагает Бен Веллингтон, аналитик, работающий с большими данными, они частенько не знают, что с ними делать. Он показывает нам, как комбинация неожиданных вопросов и толковой работы с данными может привести к любоптным и полезным выводам, и делится с нами советами о том, как нужно публиковать большие массивы информации, чтобы ими мог воспользоваться любой из нас.
- Data scientist
Ben Wellington blends his love of statistics, the city, and comedy in his entertaining analysis of the story of New York City, told through data. Full bio

Double-click the English transcript below to play the video.

00:12
SixШесть thousandтысяча milesмиль of roadДорога,
0
711
2820
Десять тысяч километров дорог,
00:15
600 milesмиль of subwayметро trackтрек,
1
3531
2203
тысяча километров метро,
00:17
400 milesмиль of bikeвелосипед lanesполосы
2
5734
1644
600 километров велодорожек
00:19
and a halfполовина a mileмили of tramтрамвай trackтрек,
3
7378
1821
и почти километр трамвайных путей,
00:21
if you've ever been to RooseveltРузвельт Islandостров.
4
9199
1953
если вы бывали на острове Рузвельта.
00:23
These are the numbersчисел that make up
the infrastructureинфраструктура of Newновый YorkЙорк Cityгород.
5
11152
3334
Это цифры, из которых состоит
инфраструктура Нью-Йорка.
00:26
These are the statisticsстатистика
of our infrastructureинфраструктура.
6
14486
2619
Это статистические данные
нашей инфраструктуры.
00:29
They're the kindсвоего рода of numbersчисел you can find
releasedвыпущенный in reportsотчеты by cityгород agenciesагентства.
7
17105
3706
Именно эти данные вы можете
увидеть в отчётах городских служб.
00:32
For exampleпример, the Departmentотдел
of TransportationТранспорт will probablyвероятно tell you
8
20811
3199
К примеру, в Департаменте
транспорта вам наверняка скажут,
00:36
how manyмногие milesмиль of roadДорога they maintainподдерживать.
9
24010
1781
сколько километров дорог
они обслуживают.
00:37
The MTAMTA will boastхвастовство how manyмногие milesмиль
of subwayметро trackтрек there are.
10
25791
2821
MTA похвастается, как много
километров подземки в городе.
00:40
MostНаиболее cityгород agenciesагентства give us statisticsстатистика.
11
28612
1807
Многие службы делятся статистикой.
00:42
This is from a reportдоклад this yearгод
12
30419
1483
Из отчёта этого года
00:43
from the TaxiТакси and Limousineлимузин Commissionкомиссия,
13
31902
1892
от Комиссии по такси и лимузинам
00:45
where we learnучить that there's about
13,500 taxisТакси here in Newновый YorkЙорк Cityгород.
14
33794
3276
мы узнаём, что в Нью-Йорке
около 13 500 такси.
00:49
Prettyмилая interestingинтересно, right?
15
37070
1290
Интересно, не так ли?
00:50
But did you ever think about
where these numbersчисел cameпришел from?
16
38360
2784
А вы не задумывались,
откуда берутся эти цифры?
00:53
Because for these numbersчисел to existсуществовать,
someoneкто то at the cityгород agencyагентство
17
41144
2903
Ведь чтобы их опубликовать,
кто-то должен был подумать:
00:56
had to stop and say, hmmхмм, here'sвот a numberномер
that somebodyкто-то mightмог бы want want to know.
18
44047
3880
«Хм, а вот это может быть
кому-то интересно.
00:59
Here'sВот a numberномер
that our citizensграждане want to know.
19
47927
2250
Это цифры, которые могут
понадобиться горожанам».
01:02
So they go back to theirих rawсырье dataданные,
20
50177
1830
А потом вернуться к исходным данным,
01:04
they countподсчитывать, they addДобавить, they calculateподсчитывать,
21
52007
1797
посчитать, сложить, подвести итог
01:05
and then they put out reportsотчеты,
22
53804
1467
и выложить отчёт,
01:07
and those reportsотчеты
will have numbersчисел like this.
23
55271
2177
один из многих отчётов
с подобной статистикой.
01:09
The problemпроблема is, how do they know
all of our questionsвопросов?
24
57448
2540
Проблема вот в чём:
откуда им знать все наши вопросы?
01:11
We have lots of questionsвопросов.
25
59988
1243
А у нас много вопросов.
01:13
In factфакт, in some waysпути there's literallyбуквально
an infiniteбесконечный numberномер of questionsвопросов
26
61231
3340
На самом деле, у нас буквально
бесконечное количество вопросов,
01:16
that we can askпросить about our cityгород.
27
64571
1649
связанных с городом.
Городским службам не угадать их все.
01:18
The agenciesагентства can never keep up.
28
66220
1475
01:19
So the paradigmпарадигма isn't exactlyв точку workingза работой,
and I think our policymakersполитики realizeпонимать that,
29
67695
4056
Этот подход не работает и, я полагаю,
должностные лица это понимают,
01:23
because in 2012, Mayorмэр BloombergBloomberg
signedподписанный into lawзакон what he calledназывается
30
71751
3959
поскольку в 2012 году мэр Блумберг
утвердил закон, который он назвал
01:27
the mostбольшинство ambitiousамбициозный and comprehensiveкомплексный
openоткрытый dataданные legislationзаконодательство in the countryстрана.
31
75710
3837
самым амбициозным и исчерпывающим
законопроектом об открытых данных в стране.
01:31
In a lot of waysпути, he's right.
32
79547
1573
Во многом он прав.
01:33
In the last two yearsлет,
the cityгород has releasedвыпущенный 1,000 datasetsНаборы данных
33
81120
2861
За последние два года город разместил
1 000 массивов данных
01:35
on our openоткрытый dataданные portalпортал,
34
83981
1610
на портале открытых данных,
01:37
and it's prettyСимпатичная awesomeздорово.
35
85591
1764
и это очень круто.
Вы заходите и смотрите на эти данные,
01:39
So you go and look at dataданные like this,
36
87355
1968
01:41
and insteadвместо of just countingподсчет
the numberномер of cabsкэбы,
37
89323
2289
и вместо того, чтобы просто считать такси,
01:43
we can startНачало to askпросить differentдругой questionsвопросов.
38
91612
1943
вы можете задавать самые разные вопросы.
01:45
So I had a questionвопрос.
39
93555
1200
У меня был такой вопрос.
01:46
When'sКогда будет rushпорыв hourчас in Newновый YorkЙорк Cityгород?
40
94755
1701
Когда в Нью-Йорке час пик?
01:48
It can be prettyСимпатичная bothersomeнадоедливый.
When is rushпорыв hourчас exactlyв точку?
41
96456
2581
Ведь пробки всех достают.
Так когда наступает час пик?
01:51
And I thought to myselfсебя,
these cabsкэбы aren'tне just numbersчисел,
42
99037
2625
И я подумал, ведь такси —
это не просто циферки,
01:53
these are GPSGPS recordersрегистраторы
drivingвождение around in our cityгород streetsулицы
43
101662
2711
это GPS-устройства,
которые разъежают по улицам города
01:56
recordingзапись eachкаждый and everyкаждый rideпоездка they take.
44
104373
1913
и записывают каждую поездку.
01:58
There's dataданные there,
and I lookedсмотрел at that dataданные,
45
106286
2322
Эти данные доступны,
я их проанализировал
02:00
and I madeсделал a plotсюжет of the averageв среднем speedскорость of
taxisТакси in Newновый YorkЙорк Cityгород throughoutна протяжении the day.
46
108608
3961
и нарисовал диаграмму средней скорости
такси в Нью-Йорке в течение дня.
02:04
You can see that from about midnightполночь
to around 5:18 in the morningутро,
47
112569
3412
Вы видите, что где-то
с полуночи до 5:18 утра
02:07
speedскорость increasesувеличивается, and at that pointточка,
things turnочередь around,
48
115981
3563
скорость растёт, а потом — наоборот,
02:11
and they get slowerпомедленнее and slowerпомедленнее and slowerпомедленнее
untilдо about 8:35 in the morningутро,
49
119544
3962
движение всё замедляется и замедляется,
вплоть до 8:35 утра,
02:15
when they endконец up at around
11 and a halfполовина milesмиль perв hourчас.
50
123506
2693
когда скорость падает до 18,5 км/ч.
02:18
The averageв среднем taxiтакси is going 11 and a halfполовина
milesмиль perв hourчас on our cityгород streetsулицы,
51
126199
3562
Среднестатистическое такси ездит по городу
со скоростью 18,5 км/ч,
02:21
and it turnsвитки out it staysостается that way
52
129761
1987
и выясняется, что эта скорость держится
02:23
for the entireвсе day.
53
131748
3368
на протяжении всего дня.
02:27
(LaughterСмех)
54
135116
1373
(Смех)
02:28
So I said to myselfсебя, I guessУгадай
there's no rushпорыв hourчас in Newновый YorkЙорк Cityгород.
55
136489
3180
И я подумал:
«Кажется, в Нью-Йорке нет часа пик.
02:31
There's just a rushпорыв day.
56
139669
1537
Есть только день пик».
02:33
Makesделает senseсмысл. And this is importantважный
for a coupleпара of reasonsпричины.
57
141206
2850
Так и есть. И это важно по ряду причин.
02:36
If you're a transportationтранспорт plannerпланировщик,
this mightмог бы be prettyСимпатичная interestingинтересно to know.
58
144056
3637
Если вы занимаетесь схемой уличного
движения, это должно быть вам интересно.
Но если вы хотите быстро
куда-то добраться,
02:39
But if you want to get somewhereгде-то quicklyбыстро,
59
147693
1975
02:41
you now know to setзадавать your alarmаварийная сигнализация for
4:45 in the morningутро and you're all setзадавать.
60
149668
3468
заводите будильник на 4:45 и вперёд.
02:45
Newновый YorkЙорк, right?
61
153136
1044
Это же Нью-Йорк.
С этими данными связана одна история.
02:46
But there's a storyистория behindза this dataданные.
62
154180
1762
Их было не так просто получить.
02:47
This dataданные wasn'tне было
just availableдоступный, it turnsвитки out.
63
155942
2185
Для этого пришлось сделать запрос
в рамках Закона о свободе информации,
02:50
It actuallyна самом деле cameпришел from something calledназывается
a Freedomсвобода of InformationИнформация Lawзакон RequestЗапрос,
64
158127
3619
запрос FOIL.
02:53
or a FOILФОЛЬГА RequestЗапрос.
65
161746
1076
Бланк можно найти на сайте
Комиссии по такси и лимузинам.
02:54
This is a formформа you can find on the
TaxiТакси and Limousineлимузин Commissionкомиссия websiteВеб-сайт.
66
162822
3466
Чтобы получить доступ к данным,
вам надо получить этот бланк,
02:58
In orderзаказ to accessдоступ this dataданные,
you need to go get this formформа,
67
166288
2826
заполнить его и ждать ответа;
03:01
fillзаполнить it out, and they will notifyпоставить в известность you,
68
169114
1846
и один парень, Крис Вонг,
всё это сделал.
03:02
and a guy namedназванный ChrisКрис WhongWhong
did exactlyв точку that.
69
170960
2130
Крис связался с ними, и они ответили:
03:05
ChrisКрис wentотправился down, and they told him,
70
173090
1890
03:06
"Just bringприносить a brandмарка newновый hardжесткий driveводить машину
down to our officeофис,
71
174980
2827
«Принóсите новый жёсткий диск,
оставляете его на 5 часов, мы копируем
туда все данные и отдаём диск вам».
03:09
leaveоставлять it here for five5 hoursчасов,
we'llЧто ж copyкопия the dataданные and you take it back."
72
177807
3424
03:13
And that's where this dataданные cameпришел from.
73
181231
2032
Вот откуда вся эта информация.
03:15
Now, ChrisКрис is the kindсвоего рода of guy
who wants to make the dataданные publicобщественности,
74
183263
3005
Крис — из тех, кто стремится сделать
информацию публичной,
03:18
and so it endedзакончился up onlineонлайн for all to use,
and that's where this graphграфик cameпришел from.
75
186268
3784
поэтому данные оказались в общем доступе
в Интернете, и появился этот график.
03:22
And the factфакт that it existsсуществует is amazingудивительно.
These GPSGPS recordersрегистраторы -- really coolкруто.
76
190052
3518
И то, что он существует, — круто.
Эти GPS-устройства — классная вещь.
03:25
But the factфакт that we have citizensграждане
walkingгулять пешком around with hardжесткий drivesдиски
77
193570
3118
Но то, что горожанам приходится
ходить с жёсткими дисками
03:28
pickingсобирание up dataданные from cityгород agenciesагентства
to make it publicобщественности --
78
196688
2582
и собирать данные из агентств,
чтобы опубликовать их —
03:31
it was alreadyуже kindсвоего рода of publicобщественности,
you could get to it,
79
199270
2390
хотя они уже «публичны» —
их же можно получить,
03:33
but it was "publicобщественности," it wasn'tне было publicобщественности.
80
201660
1812
на деле это лишь видимость открытости.
03:35
And we can do better than that as a cityгород.
81
203472
1962
Наш город способен на большее.
03:37
We don't need our citizensграждане
walkingгулять пешком around with hardжесткий drivesдиски.
82
205434
2756
Нельзя заставлять людей расхаживать
с жёсткими дисками.
03:40
Now, not everyкаждый datasetНабор данных
is behindза a FOILФОЛЬГА RequestЗапрос.
83
208190
2337
Не все данные спрятаны за формой FOIL.
03:42
Here is a mapкарта I madeсделал with the mostбольшинство
dangerousопасно intersectionsпересечения in Newновый YorkЙорк Cityгород
84
210527
3802
Я сделал карту самых опасных
перекрёстков в Нью-Йорке
03:46
basedисходя из on cyclistвелосипедист accidentsнесчастные случаи.
85
214329
1878
по количеству ДТП с велосипедистами.
03:48
So the redкрасный areasрайоны are more dangerousопасно.
86
216207
1939
Красные зоны — самые опасные.
03:50
And what it showsшоу is first
the Eastвосток sideбоковая сторона of ManhattanМанхеттен,
87
218146
2553
В первую очередь, на востоке Манхэттена,
03:52
especiallyособенно in the lowerниже areaплощадь of ManhattanМанхеттен,
has more cyclistвелосипедист accidentsнесчастные случаи.
88
220699
3611
а в особенности — в нижней его части,
множество ДТП с велосипедистами.
03:56
That mightмог бы make senseсмысл
89
224310
1019
Кажется, это логично,
03:57
because there are more cyclistsвелосипедисты
comingприход off the bridgesмосты there.
90
225329
2896
ведь там больше велосипедистов
спускаются с мостов.
04:00
But there's other hotspotsгорячие точки worthстоимость studyingизучение.
91
228225
2014
Но есть и другие интересные места.
04:02
There's WilliamsburgWilliamsburg.
There's RooseveltРузвельт Avenueпроспект in QueensКвинс.
92
230239
2669
Уильямсбург. Рузвельт-авеню в Куинсе.
04:04
And this is exactlyв точку the kindсвоего рода of dataданные
we need for Visionвидение ZeroНуль.
93
232908
2852
Именно такие данные нужны нам
в рамках программы Vision Zero.
04:07
This is exactlyв точку what we're looking for.
94
235760
1990
Это как раз то, что мы искали.
04:09
But there's a storyистория
behindза this dataданные as well.
95
237750
2135
Но и у этих данных есть своя история.
04:11
This dataданные didn't just appearпоявиться.
96
239885
2067
Эти данные появились не просто так.
04:13
How manyмногие of you guys know this logoлоготип?
97
241952
2391
Кто из вас узнаёт этот логотип?
04:16
Yeah, I see some shakesозноб.
98
244343
1352
Вижу, кто-то кивает.
04:17
Have you ever triedпытался to copyкопия
and pasteвставить dataданные out of a PDFPDF
99
245695
2655
Вы когда-нибудь пытались
скопировать данные из PDF так,
чтобы они не стали бессмыслицей?
04:20
and make senseсмысл of it?
100
248350
1357
04:21
I see more shakesозноб.
101
249707
1060
Мотаете головой.
Многие знают, что такое копировать данные
из PDF, но не узнают логотип.
04:22
More of you triedпытался copyingкопирование and pastingсклеивание
than knewзнал the logoлоготип. I like that.
102
250767
3345
Так вот, данные, которые вы
только что видели, были в формате PDF.
04:26
So what happenedполучилось is, the dataданные
that you just saw was actuallyна самом деле on a PDFPDF.
103
254112
3510
04:29
In factфакт, hundredsсотни and hundredsсотни
and hundredsсотни of pagesстраницы of PDFPDF
104
257622
3105
Сотни и сотни страниц PDF-файлов,
опубликованных Департаментом
полиции Нью-Йорка,
04:32
put out by our very ownсвоя NYPDNYPD,
105
260727
2159
04:34
and in orderзаказ to accessдоступ it,
you would eitherили have to copyкопия and pasteвставить
106
262886
3152
и чтобы получить доступ к данным,
вам нужно или копировать их вручную
04:38
for hundredsсотни and hundredsсотни of hoursчасов,
107
266038
1726
на протяжении сотен часов,
04:39
or you could be JohnДжон KraussKrauss.
108
267764
1344
или быть Джоном Крауссом.
04:41
JohnДжон KraussKrauss was like,
109
269108
1043
Джон Краусс подумал:
04:42
I'm not going to copyкопия and pasteвставить this dataданные.
I'm going to writeзаписывать a programпрограмма.
110
270151
3413
«Не буду я копировать данные вручную.
Лучше я напишу программу».
04:45
It's calledназывается the NYPDNYPD Crashавария DataДанные Band-AidЛейкопластырь,
111
273564
2288
Он назвал её NYPD Crash Data Band-Aid,
она заходила на сайт Департамента полиции
и скачивала PDF-файлы.
04:47
and it goesидет to the NYPD'sполиции Нью-Йорка websiteВеб-сайт
and it would downloadскачать PDFsPDF-файлы.
112
275852
3032
04:50
Everyкаждый day it would searchпоиск;
if it foundнайденный a PDFPDF, it would downloadскачать it
113
278884
3126
Каждый день она искала PDF-файлы
и, если находила, скачивала их,
04:54
and then it would runбег
some PDF-scrapingPDF-выскабливание programпрограмма,
114
282010
2250
а затем запускала программу разбора PDF,
04:56
and out would come the textтекст,
115
284260
1336
извлекала текст,
04:57
and it would go on the Internetинтернет,
and then people could make mapsкарты like that.
116
285596
3565
загружала данные в Интернет, и в итоге
люди могли делать подобные карты.
05:01
And the factфакт that the data'sДейты here,
the factфакт that we have accessдоступ to it --
117
289161
3429
И то, что у нас есть эти данные,
что мы можем работать с ними...
05:04
Everyкаждый accidentавария, by the way,
is a rowряд in this tableТаблица.
118
292590
2450
Кстати, каждое ДТП —
строка в этой таблице.
05:07
You can imagineпредставить how manyмногие PDFsPDF-файлы that is.
119
295040
1836
Представьте, сколько это PDF-файлов.
05:08
The factфакт that we
have accessдоступ to that is great,
120
296876
2207
У нас есть доступ к данным —
это отлично,
05:11
but let's not releaseвыпуск it in PDFPDF formформа,
121
299083
2110
но не нужно публиковать их в формате PDF
05:13
because then we're havingимеющий our citizensграждане
writeзаписывать PDFPDF scrapersскребки.
122
301193
2739
и заставлять горожан писать
программы разбора PDF-файлов.
05:15
It's not the bestЛучший use
of our citizens'граждан time,
123
303932
2076
Это не лучший способ
задействовать горожан,
05:18
and we as a cityгород can do better than that.
124
306008
2004
и мы, как город,
можем улучшить ситуацию.
05:20
Now, the good newsНовости is that
the deде BlasioBlasio administrationадминистрация
125
308012
2736
Есть и хорошая новость —
администрация де Блазио
недавно опубликовала эти данные,
несколько месяцев назад,
05:22
actuallyна самом деле recentlyв последнее время releasedвыпущенный this dataданные
a fewмало monthsмесяцы agoтому назад,
126
310748
2532
05:25
and so now we can
actuallyна самом деле have accessдоступ to it,
127
313280
2158
и теперь у нас есть
нормальный доступ к ним,
05:27
but there's a lot of dataданные
still entombedпогребенные in PDFPDF.
128
315438
2536
но множество данных по-прежнему
сокрыто в PDF-файлах.
05:29
For exampleпример, our crimeпреступление dataданные
is still only availableдоступный in PDFPDF.
129
317974
3197
Например, данные по преступности
доступны только в формате PDF.
05:33
And not just our crimeпреступление dataданные,
our ownсвоя cityгород budgetбюджет.
130
321171
3755
И не только. Даже бюджет города.
05:36
Our cityгород budgetбюджет is only readableудобочитаемый
right now in PDFPDF formформа.
131
324926
3729
Бюджет города доступен
только в формате PDF.
И не только мы с вами не можем
проанализировать его,
05:40
And it's not just us
that can't analyzeанализировать it --
132
328655
2141
05:42
our ownсвоя legislatorsзаконодатели
who voteголос for the budgetбюджет
133
330796
2955
но и сами законодатели,
которые голосуют за бюджет,
05:45
alsoтакже only get it in PDFPDF.
134
333751
1943
тоже получают его только в формате PDF.
05:47
So our legislatorsзаконодатели cannotне могу analyzeанализировать
the budgetбюджет that they are votingголосование for.
135
335694
3844
Законодатели не могут проанализировать
бюджет, за который голосуют.
05:51
And I think as a cityгород we can do
a little better than that as well.
136
339538
3608
И я думаю, что мы можем
организовать всё гораздо лучше.
05:55
Now, there's a lot of dataданные
that's not hiddenскрытый in PDFsPDF-файлы.
137
343146
2488
Есть множество данных,
не похороненных в PDF-файлах.
05:57
This is an exampleпример of a mapкарта I madeсделал,
138
345634
1700
Вот ещё одна из таких карт —
05:59
and this is the dirtiestгрязное waterwaysводные пути
in Newновый YorkЙорк Cityгород.
139
347334
2926
самая грязная вода в Нью-Йорке.
Как измерить загрязнённость воды?
06:02
Now, how do I measureизмерение dirtyгрязный?
140
350260
1509
06:03
Well, it's kindсвоего рода of a little weirdстранный,
141
351769
1857
Это покажется немного странным,
06:05
but I lookedсмотрел at the levelуровень
of fecalфекальный coliformколиподобный,
142
353626
2113
но я смотрел на уровень
фекальных бактерий,
06:07
whichкоторый is a measurementизмерение of fecalфекальный matterдело
in eachкаждый of our waterwaysводные пути.
143
355739
3506
который по сути отражает
количество экскрементов в воде.
06:11
The largerбольше the circleкруг,
the dirtierгрязнее the waterводы,
144
359245
3274
Чем больше круг, тем грязнее вода,
06:14
so the largeбольшой circlesкруги are dirtyгрязный waterводы,
the smallмаленький circlesкруги are cleanerочиститель.
145
362519
3357
большие круги — грязная вода,
маленькие — вода почище.
06:17
What you see is inlandвнутренний waterwaysводные пути.
146
365876
1644
Вы видите, что каналы на суше —
06:19
This is all dataданные that was sampledпробы
by the cityгород over the last five5 yearsлет.
147
367520
3404
эти данные собирались в течение
последних пяти лет —
06:22
And inlandвнутренний waterwaysводные пути are,
in generalГенеральная, dirtierгрязнее.
148
370924
2694
каналы на суше, в общем случае, грязнее.
06:25
That makesмарки senseсмысл, right?
149
373618
1218
Логично, не так ли?
06:26
And the biggerбольше circlesкруги are dirtyгрязный.
And I learnedнаучился a fewмало things from this.
150
374836
3374
Больше круг — грязнее вода.
Из этой карты я сделал несколько выводов.
Первое: никогда не купаться в том,
что называется «сток» или «канал».
06:30
NumberЧисло one: Never swimплавать in anything
that endsконцы in "creekручей" or "canalканал."
151
378210
3164
06:33
But numberномер two: I alsoтакже foundнайденный
the dirtiestгрязное waterwayводный путь in Newновый YorkЙорк Cityгород,
152
381374
4318
Второе: я также нашёл грязнейший
водосток в Нью-Йорке.
06:37
by this measureизмерение, one measureизмерение.
153
385692
1834
Но только по этому параметру.
06:39
In Coneyкролик Islandостров Creekручей, whichкоторый is not
the Coneyкролик Islandостров you swimплавать in, luckilyк счастью.
154
387526
3648
В Кони-Айленд Крик — это не тот
Кони-Айленд, где вы купаетесь, к счастью.
06:43
It's on the other sideбоковая сторона.
155
391174
1158
Это с другой стороны.
06:44
But Coneyкролик Islandостров Creekручей, 94 percentпроцент
of samplesобразцы takenвзятый over the last five5 yearsлет
156
392332
3878
Но в Кони-Айленд Крик
в 94% образцов, взятых за пять лет,
06:48
have had fecalфекальный levelsуровни so highвысокая
157
396210
2157
был настолько повышенный
уровень экскрементов,
06:50
that it would be againstпротив stateгосударство lawзакон
to swimплавать in the waterводы.
158
398367
3093
что плавать там было просто незаконно.
06:53
And this is not the kindсвоего рода of factфакт
that you're going to see
159
401460
2729
Подобными вещами не хвалятся
06:56
boastedхваленое in a cityгород reportдоклад, right?
160
404189
1537
в городских отчётах, верно?
06:57
It's not going to be
the frontфронт pageстраница on nycNYC.govправительственный.
161
405726
2250
Этого не будет на домашней
странице nyc.gov.
06:59
You're not going to see it there,
162
407976
1580
Там вы этого не увидите,
но то, что мы можем получить
эти данные,— это очень круто.
07:01
but the factфакт that we can get
to that dataданные is awesomeздорово.
163
409556
2518
07:04
But onceодин раз again, it wasn'tне было superсупер easyлегко,
164
412074
1773
Но опять же это было непросто,
потому что этого не было
на портале открытых данных.
07:05
because this dataданные was not
on the openоткрытый dataданные portalпортал.
165
413847
2358
07:08
If you were to go to the openоткрытый dataданные portalпортал,
166
416205
2013
Если бы вы зашли
на портал открытых данных,
07:10
you'dвы бы see just a snippetотрывок of it,
a yearгод or a fewмало monthsмесяцы.
167
418218
2613
вы бы увидели данные
за год или за пару месяцев.
07:12
It was actuallyна самом деле on the Departmentотдел
of Environmentalэкологическая Protection'sЗащита-х websiteВеб-сайт.
168
420831
3390
Полный массив находился на сайте
Департамента охраны окружающей среды.
07:16
And eachкаждый one of these linksсвязи is an Excelпревосходить
sheetлист, and eachкаждый Excelпревосходить sheetлист is differentдругой.
169
424221
3878
И каждая из этих ссылок — лист Excel,
все эти листы Excel — разные.
Разные заголовки, их приходится
копировать, всё переделывать.
07:20
Everyкаждый headingзаголовок is differentдругой:
you copyкопия, pasteвставить, reorganizeреорганизовывать.
170
428099
2630
07:22
When you do you can make mapsкарты
and that's great, but onceодин раз again,
171
430729
2952
В итоге вы можете рисовать
такие карты, и это хорошо,
07:25
we can do better than that
as a cityгород, we can normalizeнормализовать things.
172
433681
2969
но можно организовать это получше,
стандартизировать форму.
07:28
And we're gettingполучение there, because
there's this websiteВеб-сайт that SocrataSocrata makesмарки
173
436650
3384
И мы движемся в этом направлении,
есть один сайт от Socrata,
«Портал открытых данных Нью-Йорка».
07:32
calledназывается the Openоткрыто DataДанные PortalПортал NYCНью-Йорк.
174
440034
1541
07:33
This is where 1,100 dataданные setsнаборы
that don't sufferстрадать
175
441575
2257
Это около 1 100 массивов данных
без тех недостатков,
07:35
from the things I just told you liveжить,
176
443832
1781
о которых я говорил.
07:37
and that numberномер is growingрост,
and that's great.
177
445613
2148
Сайт постоянно растёт,
и это прекрасно.
07:39
You can downloadскачать dataданные in any formatформат,
be it CSVCSV or PDFPDF or Excelпревосходить documentдокумент.
178
447761
3412
Вы можете скачать данные в любом формате,
будь то CSV, PDF или Excel.
Вы можете скачать всё, что захотите,
в удобном формате.
07:43
WhateverБез разницы you want,
you can downloadскачать the dataданные that way.
179
451173
2547
07:45
The problemпроблема is, onceодин раз you do,
180
453720
1352
Но даже тут есть одна проблема:
07:47
you will find that eachкаждый agencyагентство
codesкоды theirих addressesадреса differentlyиначе.
181
455072
3686
каждое агенство по-разному
кодирует адреса.
07:50
So one is streetулица nameимя,
intersectionпересечение streetулица,
182
458758
2141
Где-то есть названия
пересекающихся улиц,
07:52
streetулица, boroughрайон, addressадрес, buildingздание,
buildingздание addressадрес.
183
460899
2491
улица, боро, адрес,
номер дома, адрес дома.
И вы снова вынуждены тратить своё время,
даже используя этот портал,
07:55
So onceодин раз again, you're spendingрасходы time,
even when we have this portalпортал,
184
463390
3180
07:58
you're spendingрасходы time
normalizingнормализующий our addressадрес fieldsполя.
185
466570
2606
вы тратите время, нормализуя
данные в адресных полях.
08:01
And that's not the bestЛучший use
of our citizens'граждан time.
186
469176
2423
Это не лучший способ
использовать время горожан.
08:03
We can do better than that as a cityгород.
187
471599
1796
Мы можем улучшить ситуацию.
08:05
We can standardizeстандартизировать our addressesадреса,
188
473395
1645
Мы можем стандартизировать адреса,
08:07
and if we do,
we can get more mapsкарты like this.
189
475040
2185
и сделав это, мы получим
больше таких карт.
08:09
This is a mapкарта of fireОгонь hydrantsгидранты
in Newновый YorkЙорк Cityгород,
190
477225
2285
Это карта пожарных гидрантов Нью-Йорка,
08:11
but not just any fireОгонь hydrantsгидранты.
191
479510
1531
но не всех подряд.
08:13
These are the topВверх 250 grossingкассовым fireОгонь
hydrantsгидранты in termsсроки of parkingстоянка ticketsБилеты.
192
481041
4726
Это 250 гидрантов, лидирующих по прибыли
за счёт штрафов за неправильную парковку.
08:17
(LaughterСмех)
193
485767
1986
(Смех)
08:19
So I learnedнаучился a fewмало things from this mapкарта,
and I really like this mapкарта.
194
487753
3358
Я кое-что узнал благодаря этой карте,
мне она очень нравится.
08:23
NumberЧисло one, just don't parkпарк
on the Upperверхний Eastвосток SideБоковая сторона.
195
491111
2402
Первое: не паркуйтесь в Верхнем Ист-Сайде.
08:25
Just don't. It doesn't matterдело where
you parkпарк, you will get a hydrantгидрант ticketбилет.
196
493513
3587
Просто не надо. Не важно, где вы встали,
вы заплатите за парковку у гидранта.
08:29
NumberЧисло two, I foundнайденный the two highestнаибольший
grossingкассовым hydrantsгидранты in all of Newновый YorkЙорк Cityгород,
197
497100
4153
Второе: есть два самых прибыльных
гидранта во всем Нью-Йорке,
08:33
and they're on the Lowerниже Eastвосток SideБоковая сторона,
198
501253
1886
они находятся в Нижнем Ист-Сайде
08:35
and they were bringingприведение in over
55,000 dollarsдолларов a yearгод in parkingстоянка ticketsБилеты.
199
503139
5098
и собирают более 55 000 долларов
в год в виде штрафов за парковку.
08:40
And that seemedказалось a little strangeстранный
to me when I noticedзаметил it,
200
508237
2738
Мне это показалось немного странным,
08:42
so I did a little diggingрытье and it turnsвитки out
what you had is a hydrantгидрант
201
510975
3269
я копнул глубже и увидел вот что:
гидрант на краю тротуара,
08:46
and then something calledназывается
a curbузда extensionрасширение,
202
514244
1996
потом расширение тротуара, что-то вроде
08:48
whichкоторый is like a seven-footсемь футов
spaceпространство to walkходить on,
203
516240
2059
двухметровой полосы для пешеходов,
08:50
and then a parkingстоянка spotместо.
204
518299
1156
а затем парковочные места.
08:51
And so these carsлегковые автомобили cameпришел alongвдоль,
and the hydrantгидрант --
205
519455
2254
Люди приезжали, видели гидрант... Думали:
«Гидрант далеко, вон там, всё в порядке».
08:53
"It's all the way over there, I'm fine,"
206
521709
1911
08:55
and there was actuallyна самом деле a parkingстоянка spotместо
paintedокрашенный there beautifullyкрасиво for them.
207
523620
3474
И плюс ко всему, там была разметка,
обозначающая парковочное место.
08:59
They would parkпарк there, and the NYPDNYPD
disagreedне согласен with this designationобозначение
208
527094
3155
Люди парковались там, а полиция
Нью-Йорка не соглашалась с этой разметкой
09:02
and would ticketбилет them.
209
530249
1058
и штрафовала их.
09:03
And it wasn'tне было just me
who foundнайденный a parkingстоянка ticketбилет.
210
531307
2344
И не только я видел
эти штрафы за парковку.
09:05
This is the GoogleGoogle
Streetулица ViewПосмотреть carавтомобиль drivingвождение by
211
533651
2146
Вот машина Google Street
View проезжает там
09:07
findingобнаружение the sameодна и та же parkingстоянка ticketбилет.
212
535797
1617
и снимает тот же самый штраф.
09:09
So I wroteписал about this on my blogблог,
on I Quantшест для отталкивания NYНью-Йорк, and the DOTDOT respondedответил,
213
537414
4504
Я написал об этом в своём блоге I Quant NY,
и мне ответили из Департамента транспорта,
09:13
and they said,
214
541918
1020
они написали:
09:14
"While the DOTDOT has not receivedполучено
any complaintsжалобы about this locationместо нахождения,
215
542938
3410
«Хотя Департамент транспорта и не получал
жалоб по поводу этого места,
09:18
we will reviewобзор the roadwayмостовая markingsмаркировка
and make any appropriateподходящее alterationsизменения."
216
546348
4542
мы пересмотрим разметку
и внесём необходимые изменения».
09:22
And I thought to myselfсебя,
typicalтипичный governmentправительство responseответ,
217
550890
2959
Я подумал:
«Типичная государственная отписка».
09:25
all right, movedпереехал on with my life.
218
553849
1881
Ну и ладно, и забыл об этом.
09:27
But then, a fewмало weeksнедель laterпозже,
something incredibleнеимоверный happenedполучилось.
219
555730
3970
Но спустя несколько недель
случилось кое-что невообразимое.
09:31
They repaintedперекрашенный the spotместо,
220
559700
2520
Они переделали разметку,
09:34
and for a secondвторой I thought I saw
the futureбудущее of openоткрытый dataданные,
221
562220
2690
и в тот момент я увидел будущее,
эпоху открытых данных.
09:36
because think about what happenedполучилось here.
222
564910
2000
Только подумайте, что произошло.
09:38
For five5 yearsлет, this spotместо was beingявляющийся
ticketedбилете, and it was confusingзапутанным,
223
566910
5100
На протяжении пяти лет тут выписывали
штрафы, разметка была неоднозначной,
09:44
and then a citizenгражданин foundнайденный something,
they told the cityгород, and withinв a fewмало weeksнедель
224
572010
4306
а потом горожанин заметил это, сообщил
городу, и в течение нескольких недель
09:48
the problemпроблема was fixedисправлено.
225
576316
1294
проблема была решена.
09:49
It's amazingудивительно. And a lot of people
see openоткрытый dataданные as beingявляющийся a watchdogсторожевая собака.
226
577610
3200
Потрясающе. Многие смотрят на открытые
данные как на механизм контроля.
09:52
It's not, it's about beingявляющийся a partnerпартнер.
227
580810
1772
Это не так, суть в партнёрстве.
09:54
We can empowerуполномочивать our citizensграждане
to be better partnersпартнеры for governmentправительство,
228
582582
3138
Мы даём гражданам возможность
работать рука об руку с государством,
09:57
and it's not that hardжесткий.
229
585720
1881
и это не так уж сложно.
Всё, что нужно, — пара изменений.
09:59
All we need are a fewмало changesизменения.
230
587601
1459
10:01
If you're FOILingгон dataданные,
231
589060
1107
Если вы предоставляете
10:02
if you're seeingвидя your dataданные
beingявляющийся FOILedукрашенный лиственный орнамент over and over again,
232
590167
2867
данные по запросу FOIL и видите,
что их запрашивают постоянно,
10:05
let's releaseвыпуск it to the publicобщественности, that's
a signзнак that it should be madeсделал publicобщественности.
233
593034
3574
просто выложите их в общий доступ,
вы ведь видите, что они востребованы.
10:08
And if you're a governmentправительство agencyагентство
releasingрилизинг a PDFPDF,
234
596608
2482
Если вы агентство,
которое публикует PDF-файлы,
10:11
let's passпроходить legislationзаконодательство that requiresтребует you
to postпосле it with the underlyingлежащий в основе dataданные,
235
599090
3649
нужен закон, обязующий вас публиковать
данные, лежащие в основе PDF-файлов,
10:14
because that dataданные
is comingприход from somewhereгде-то.
236
602739
2028
ведь вы получаете их каким-то образом.
10:16
I don't know where, but it's
comingприход from somewhereгде-то,
237
604767
2482
Я не знаю откуда,
но где-то вы их берёте, а значит,
можете опубликовать вместе с PDF-ками.
10:19
and you can releaseвыпуск it with the PDFPDF.
238
607249
1725
10:20
And let's adoptпринять and shareдоля
some openоткрытый dataданные standardsстандарты.
239
608974
2411
Давайте примем и внедрим
стандарты открытых данных.
10:23
Let's startНачало with our addressesадреса
here in Newновый YorkЙорк Cityгород.
240
611385
2481
Начнём с адресов в Нью-Йорке.
10:25
Let's just startНачало
normalizingнормализующий our addressesадреса.
241
613866
2074
Стандартизируем формат адреса.
10:27
Because Newновый YorkЙорк is a leaderлидер in openоткрытый dataданные.
242
615940
2062
Нью-Йорк — лидер в области
открытых данных.
10:30
DespiteНесмотря all this, we are absolutelyабсолютно
a leaderлидер in openоткрытый dataданные,
243
618002
2789
Несмотря на всё это, мы лидеры
в области открытых данных,
и если мы займёмся нормализацией,
стандартизацией открытых данных,
10:32
and if we startНачало normalizingнормализующий things,
and setзадавать an openоткрытый dataданные standardстандарт,
244
620791
3121
10:35
othersдругие will followследовать. The stateгосударство will followследовать,
and maybe the federalфедеральный governmentправительство,
245
623912
3634
нашему примеру последует и штат,
и, может быть, федеральное правительство.
10:39
Other countriesстраны could followследовать,
246
627546
1445
За нами пойдут и другие страны,
10:40
and we're not that farдалеко off from a time
where you could writeзаписывать one programпрограмма
247
628991
3411
мы не так далеко от момента, когда кто-то
сможет написать программу,
10:44
and mapкарта informationИнформация from 100 countriesстраны.
248
632402
1890
наносящую на карту данные из 100 стран.
10:46
It's not scienceнаука fictionфантастика.
We're actuallyна самом деле quiteдовольно closeЗакрыть.
249
634292
2487
Это не научная фантастика.
Мы довольно-таки близко.
10:48
And by the way, who are we
empoweringрасширение прав и возможностей with this?
250
636779
2240
Кстати, а кто всем этим занимается?
10:51
Because it's not just JohnДжон KraussKrauss
and it's not just ChrisКрис WhongWhong.
251
639019
3005
Это не только Джон Краусс и Крис Вонг.
10:54
There are hundredsсотни of meetupsMeetups
going on in Newновый YorkЙорк Cityгород right now,
252
642024
3095
В Нью-Йорке проходят сотни встреч,
оживлённых встреч.
10:57
activeактивный meetupsMeetups.
253
645119
1025
Тысячи людей приходят на эти собрания.
10:58
There are thousandsтысячи of people
attendingпосещение these meetupsMeetups.
254
646144
2572
Люди приходят после работы,
на выходных,
11:00
These people are going after work
and on weekendsв выходные дни,
255
648716
2368
они собираются, чтобы взглянуть
на открытые данные
11:03
and they're attendingпосещение these meetupsMeetups
to look at openоткрытый dataданные
256
651084
2636
и сделать наш город лучше.
11:05
and make our cityгород a better placeместо.
257
653720
1640
Есть группы вроде BetaNYC, которая
недавно создала сайт www.citygram.nyc,
11:07
Groupsгруппы like BetaNYCBetaNYC, who just last weekнеделю
releasedвыпущенный something calledназывается citygramcitygram.nycNYC
258
655360
4073
11:11
that allowsпозволяет you to subscribeподписываться
to 311 complaintsжалобы
259
659433
2147
где вы можете подписаться
на жалобы в службу «3-1-1»
11:13
around your ownсвоя home,
or around your officeофис.
260
661580
2068
рядом с домом или местом работы.
11:15
You put in your addressадрес,
you get localместный complaintsжалобы.
261
663648
2427
Ввóдите свой адрес и видите
жалобы в окрестностях.
11:18
And it's not just the techтек communityсообщество
that are after these things.
262
666075
3374
Этим занимаются не только технари.
Градостроители, студенты,
которых я учу в Институте Пратта.
11:21
It's urbanгородской plannersпланировщики like
the studentsстуденты I teachучат at Prattпрэтт.
263
669449
2622
11:24
It's policyполитика advocatesадвокаты, it's everyoneвсе,
264
672071
1919
Правозащитники — да все подряд,
11:25
it's citizensграждане from a diverseразнообразный
setзадавать of backgroundsфоны.
265
673990
2563
горожане с самым разным опытом.
11:28
And with some smallмаленький, incrementalдополнительный changesизменения,
266
676553
2786
Путём небольших,
постепенных изменений
11:31
we can unlockотпереть the passionстрасть
and the abilityспособность of our citizensграждане
267
679339
3225
мы можем разбудить страсть
и дать горожанам возможность
11:34
to harnessупряжь openоткрытый dataданные
and make our cityгород even better,
268
682564
3156
использовать открытые данные
и улучшать наш город,
11:37
whetherбудь то it's one datasetНабор данных,
or one parkingстоянка spotместо at a time.
269
685720
3626
не важно, идёт речь о целом массиве данных
или об одном парковочном месте.
11:41
Thank you.
270
689346
2322
Спасибо.
11:43
(ApplauseАплодисменты)
271
691668
3305
(Аплодисменты)
Translated by Eugenia Novikova
Reviewed by Alexander Bukhonov

▲Back to top

ABOUT THE SPEAKER
Ben Wellington - Data scientist
Ben Wellington blends his love of statistics, the city, and comedy in his entertaining analysis of the story of New York City, told through data.

Why you should listen

Ben Wellington runs the I Quant NY blog, in which he crunches city-released data to find out what's really going on in the Big Apple. To date he has tackled topics such as measles outbreaks in New York City schools, analyzed how companies like Airbnb are really doing in NYC, and asked questions such as "does gentrification cause a reduction in laundromats?" (Answer: inconclusive.)

Ben is a visiting assistant professor in the City & Regional Planning program at the Pratt Institute in Brooklyn; his day job involves working as a quantitative analyst at the investment management firm, Two Sigma. A budding comedian and performer, he also teaches team building workshops through Cherub Improv, a non-profit that uses improv comedy for social good.

More profile about the speaker
Ben Wellington | Speaker | TED.com