ABOUT THE SPEAKER
Ben Wellington - Data scientist
Ben Wellington blends his love of statistics, the city, and comedy in his entertaining analysis of the story of New York City, told through data.

Why you should listen

Ben Wellington runs the I Quant NY blog, in which he crunches city-released data to find out what's really going on in the Big Apple. To date he has tackled topics such as measles outbreaks in New York City schools, analyzed how companies like Airbnb are really doing in NYC, and asked questions such as "does gentrification cause a reduction in laundromats?" (Answer: inconclusive.)

Ben is a visiting assistant professor in the City & Regional Planning program at the Pratt Institute in Brooklyn; his day job involves working as a quantitative analyst at the investment management firm, Two Sigma. A budding comedian and performer, he also teaches team building workshops through Cherub Improv, a non-profit that uses improv comedy for social good.

More profile about the speaker
Ben Wellington | Speaker | TED.com
TEDxNewYork

Ben Wellington: How we found the worst place to park in New York City -- using big data

本·威灵顿: 如何找到纽约最差停车点——使用大数据

Filmed:
1,055,247 views

市政部门拥有大量反映城市生活各个领域的数据。但是作为数据分析师,本·威灵顿在这个愉悦的演讲中认为有时市政部门并不知道如何使用这些数据。他展示了 如何将未知问题和智能数据处理相结合,产生奇妙有效的见解,并且分享了关于如何发布大数据,方便每个人使用的方法。
- Data scientist
Ben Wellington blends his love of statistics, the city, and comedy in his entertaining analysis of the story of New York City, told through data. Full bio

Double-click the English transcript below to play the video.

00:12
Six thousand miles英里 of road,
0
711
2820
六千英里的公路,
00:15
600 miles英里 of subway地铁 track跟踪,
1
3531
2203
六百英里的铁路,
00:17
400 miles英里 of bike自行车 lanes车道
2
5734
1644
四百英里的自行车道,
00:19
and a half a mile英里 of tram电车 track跟踪,
3
7378
1821
以及半英里的电车轨道,
00:21
if you've ever been to Roosevelt罗斯福 Island.
4
9199
1953
如果你曾经去过罗斯福岛就会知道。
00:23
These are the numbers数字 that make up
the infrastructure基础设施 of New York纽约 City.
5
11152
3334
上述数据构成了纽约的基础设施网络。
这些是我们基础设施的统计数据。
00:26
These are the statistics统计
of our infrastructure基础设施.
6
14486
2619
这些数据你们都可以在
市政机关的报告中找到。
00:29
They're the kind of numbers数字 you can find
released发布 in reports报告 by city agencies机构.
7
17105
3706
比如,交通部可能会告诉你
00:32
For example, the Department
of Transportation运输 will probably大概 tell you
8
20811
3199
他们维修了多少英里的路。
MTA(大纽约交通运输管理局)
会吹嘘纽约有多少英里的铁路。
00:36
how many许多 miles英里 of road they maintain保持.
9
24010
1781
00:37
The MTAMTA will boast how many许多 miles英里
of subway地铁 track跟踪 there are.
10
25791
2821
多数的市政机关会给我们一些统计数据。
00:40
Most city agencies机构 give us statistics统计.
11
28612
1807
这是来自今年出租车与轿车
00:42
This is from a report报告 this year
12
30419
1483
委员会的一个报道,
00:43
from the Taxi出租车 and Limousine豪华轿车 Commission佣金,
13
31902
1892
从中我们可以知道纽约一共有
13500辆出租车。
00:45
where we learn学习 that there's about
13,500 taxis出租车 here in New York纽约 City.
14
33794
3276
很有趣,对吧?
00:49
Pretty漂亮 interesting有趣, right?
15
37070
1290
但是你们有没有想过这些数据从哪里来的?
00:50
But did you ever think about
where these numbers数字 came来了 from?
16
38360
2784
因为这些数据的存在,市政机关的某个人
00:53
Because for these numbers数字 to exist存在,
someone有人 at the city agency机构
17
41144
2903
00:56
had to stop and say, hmm, here's这里的 a number
that somebody might威力 want want to know.
18
44047
3880
可能会想:嗯,这个数据也许会有人想要知道。
这个数据我们的市民想要了解。
00:59
Here's这里的 a number
that our citizens公民 want to know.
19
47927
2250
于是他们找出原始数据
01:02
So they go back to their raw生的 data数据,
20
50177
1830
计数,做补充,再计算,
01:04
they count计数, they add, they calculate计算,
21
52007
1797
并且将它们放在报告里。
01:05
and then they put out reports报告,
22
53804
1467
于是这些报告就会包含这些数据。
01:07
and those reports报告
will have numbers数字 like this.
23
55271
2177
不过问题是,
他们要怎么知道我们所有感兴趣的问题?
01:09
The problem问题 is, how do they know
all of our questions问题?
24
57448
2540
我们有很多的疑问。
01:11
We have lots of questions问题.
25
59988
1243
01:13
In fact事实, in some ways方法 there's literally按照字面
an infinite无穷 number of questions问题
26
61231
3340
事实上,关于我们的城市,
我们有无数的问题要问。
01:16
that we can ask about our city.
27
64571
1649
政府部门当然没办法全部回答。
01:18
The agencies机构 can never keep up.
28
66220
1475
01:19
So the paradigm范例 isn't exactly究竟 working加工,
and I think our policymakers政策制定者 realize实现 that,
29
67695
4056
所以现有模式不是十分有效,
并且我认为决策人也意识到了这个问题。
01:23
because in 2012, Mayor市长 Bloomberg彭博
signed into law what he called
30
71751
3959
因为在2012年,彭博市长签署了一项法令,
他称之为
“全国最有雄心以及最综合性的
开放数据法案”。
01:27
the most ambitious有雄心 and comprehensive全面
open打开 data数据 legislation立法 in the country国家.
31
75710
3837
01:31
In a lot of ways方法, he's right.
32
79547
1573
在很多方面,他的决定是对的。
01:33
In the last two years年份,
the city has released发布 1,000 datasets数据集
33
81120
2861
在最近两年,
纽约已经在公开的数据门户上
01:35
on our open打开 data数据 portal门户,
34
83981
1610
发布了1000组数据库,
01:37
and it's pretty漂亮 awesome真棒.
35
85591
1764
非常了不起。
01:39
So you go and look at data数据 like this,
36
87355
1968
因此你们可以直接得到这些数据,
01:41
and instead代替 of just counting数数
the number of cabs出租车,
37
89323
2289
除了能够计算出租车的数量,
01:43
we can start开始 to ask different不同 questions问题.
38
91612
1943
我们不妨问一些不一样的问题。
我有一个问题。
01:45
So I had a question.
39
93555
1200
01:46
When's当的 rush hour小时 in New York纽约 City?
40
94755
1701
纽约的交通高峰期是哪个时间段?
01:48
It can be pretty漂亮 bothersome伤脑筋.
When is rush hour小时 exactly究竟?
41
96456
2581
这个问题可能令人厌烦。
交通高峰期具体指哪个时间段?
01:51
And I thought to myself,
these cabs出租车 aren't just numbers数字,
42
99037
2625
我在想,
这些出租车不仅仅是一些数据,
它们是行驶在城市街道的
GPS(全球定位系统)记录器,
01:53
these are GPS全球定位系统 recorders录像机
driving主动 around in our city streets街道
43
101662
2711
记录下每一段它们行驶的路线。
01:56
recording记录 each and every一切 ride they take.
44
104373
1913
01:58
There's data数据 there,
and I looked看着 at that data数据,
45
106286
2322
这里有一些数据,我处理了一下,
02:00
and I made制作 a plot情节 of the average平均 speed速度 of
taxis出租车 in New York纽约 City throughout始终 the day.
46
108608
3961
将纽约出租车全天的
平均速度做了一个图表。
你会发现从午夜到凌晨5点18分,
02:04
You can see that from about midnight午夜
to around 5:18 in the morning早上,
47
112569
3412
02:07
speed速度 increases增加, and at that point,
things turn around,
48
115981
3563
速度在增加,到了这个点后,
接下来就不一样了,
02:11
and they get slower比较慢 and slower比较慢 and slower比较慢
until直到 about 8:35 in the morning早上,
49
119544
3962
速度越来越慢直到早上8点35分,
02:15
when they end结束 up at around
11 and a half miles英里 per hour小时.
50
123506
2693
这时候出租车的时速
只有每小时11.5英里。
02:18
The average平均 taxi出租车 is going 11 and a half
miles英里 per hour小时 on our city streets街道,
51
126199
3562
我们城市街道上的出租车
平均时速是每小时11.5英里,
02:21
and it turns out it stays入住 that way
52
129761
1987
并且最终保持这个速度
02:23
for the entire整个 day.
53
131748
3368
一整天。
02:27
(Laughter笑声)
54
135116
1373
(笑)
02:28
So I said to myself, I guess猜测
there's no rush hour小时 in New York纽约 City.
55
136489
3180
所以我心说,
纽约并没有什么交通高峰时间段。
只有“高峰日”。
02:31
There's just a rush day.
56
139669
1537
02:33
Makes使 sense. And this is important重要
for a couple一对 of reasons原因.
57
141206
2850
这个结论是有意义的,
因为以下几个原因:
02:36
If you're a transportation运输 planner规划人员,
this might威力 be pretty漂亮 interesting有趣 to know.
58
144056
3637
如果你是交通运输系统的规划人,
你可能有兴趣知道这些。
02:39
But if you want to get somewhere某处 quickly很快,
59
147693
1975
如果你想要快速到达某个地方,
你现在就知道只要将闹钟设在早上4点45分,
估计就没问题了。
02:41
you now know to set your alarm报警 for
4:45 in the morning早上 and you're all set.
60
149668
3468
在纽约嘛,这样做很合理是吧?
02:45
New York纽约, right?
61
153136
1044
但是在这些数据背后有一个故事,
02:46
But there's a story故事 behind背后 this data数据.
62
154180
1762
这些数据不是现成的。
02:47
This data数据 wasn't
just available可得到, it turns out.
63
155942
2185
它实际上来自一个叫
”信息自由法案申请“的东西,
02:50
It actually其实 came来了 from something called
a Freedom自由 of Information信息 Law Request请求,
64
158127
3619
或者称为”FOIL 申请“。
02:53
or a FOIL挫败 Request请求.
65
161746
1076
这个表格你可以在出租车
与轿车管理委员会的网站上找到。
02:54
This is a form形成 you can find on the
Taxi出租车 and Limousine豪华轿车 Commission佣金 website网站.
66
162822
3466
要拿到这些数据,你必须拿到这个表格,
02:58
In order订购 to access访问 this data数据,
you need to go get this form形成,
67
166288
2826
填写表格,然后他们会通知你,
03:01
fill it out, and they will notify通知 you,
68
169114
1846
有一个叫克里斯·王的人就是这样做的。
03:02
and a guy named命名 Chris克里斯 WhongWhong
did exactly究竟 that.
69
170960
2130
03:05
Chris克里斯 went down, and they told him,
70
173090
1890
克里斯去了那里,他们告诉他,
03:06
"Just bring带来 a brand new hard drive驾驶
down to our office办公室,
71
174980
2827
“只要带一个新的硬盘到我们办公室,
03:09
leave离开 it here for five hours小时,
we'll copy复制 the data数据 and you take it back."
72
177807
3424
我们会将数据拷贝到里面,
过5个小时你就可以拿回去了。”
03:13
And that's where this data数据 came来了 from.
73
181231
2032
这就是这些数据怎么得来的。
03:15
Now, Chris克里斯 is the kind of guy
who wants to make the data数据 public上市,
74
183263
3005
现在,克里斯想将这些数据公开,
这些数据最终被上传到网络上供大家使用,
这就是这个图表背后的故事。
03:18
and so it ended结束 up online线上 for all to use,
and that's where this graph图形 came来了 from.
75
186268
3784
03:22
And the fact事实 that it exists存在 is amazing惊人.
These GPS全球定位系统 recorders录像机 -- really cool.
76
190052
3518
这一切真的很不可思议,
这些GPS记录器实在太酷了。
03:25
But the fact事实 that we have citizens公民
walking步行 around with hard drives驱动器
77
193570
3118
但是实际上市民为了使数据公开,
需要带着装有市政部门数据的
硬盘走来走去——
03:28
picking选择 up data数据 from city agencies机构
to make it public上市 --
78
196688
2582
这已经是一种公开性质的,
你们都可以得到,
03:31
it was already已经 kind of public上市,
you could get to it,
79
199270
2390
不过它虽说是“公开”的,
但并不是真正意义上的“公开”。
03:33
but it was "public上市," it wasn't public上市.
80
201660
1812
我们作为一个城市可以做得更好。
03:35
And we can do better than that as a city.
81
203472
1962
我们不需要市民带着硬盘走来走去。
03:37
We don't need our citizens公民
walking步行 around with hard drives驱动器.
82
205434
2756
另外,不是每一组数据都需要
填写信息自由法案的申请。
03:40
Now, not every一切 dataset数据集
is behind背后 a FOIL挫败 Request请求.
83
208190
2337
03:42
Here is a map地图 I made制作 with the most
dangerous危险 intersections十字路口 in New York纽约 City
84
210527
3802
这是一张我根据自行车事故数据绘制出的
纽约最危险十字路口的地图。
03:46
based基于 on cyclist骑车人 accidents事故.
85
214329
1878
03:48
So the red areas are more dangerous危险.
86
216207
1939
红色区域是最危险的。
03:50
And what it shows节目 is first
the East side of Manhattan曼哈顿,
87
218146
2553
首先显示的是曼哈顿的东区,
03:52
especially特别 in the lower降低 area of Manhattan曼哈顿,
has more cyclist骑车人 accidents事故.
88
220699
3611
特别曼哈顿的下城区,
发生过很多自行车车祸。
03:56
That might威力 make sense
89
224310
1019
这可能说得通,
03:57
because there are more cyclists骑自行车的人
coming未来 off the bridges桥梁 there.
90
225329
2896
因为很多自行车都是从桥上过来的。
04:00
But there's other hotspots热点 worth价值 studying研究.
91
228225
2014
不过还有其他值得研究的热点区域。
这里是威廉斯堡。
这里是皇后区的罗福斯大道。
04:02
There's Williamsburg威廉斯堡.
There's Roosevelt罗斯福 Avenue大街 in Queens皇后.
92
230239
2669
这些正是Vision Zero
(跨国道路交通安全项目)所需要的数据。
04:04
And this is exactly究竟 the kind of data数据
we need for Vision视力 Zero.
93
232908
2852
这正是我们所要找的。
04:07
This is exactly究竟 what we're looking for.
94
235760
1990
04:09
But there's a story故事
behind背后 this data数据 as well.
95
237750
2135
在这些数据的背后也有一个故事。
04:11
This data数据 didn't just appear出现.
96
239885
2067
它们也不是现成的。
04:13
How many许多 of you guys know this logo商标?
97
241952
2391
有多少人知道这个标志?
04:16
Yeah, I see some shakes奶昔.
98
244343
1352
我看到有些人点头。
04:17
Have you ever tried试着 to copy复制
and paste data数据 out of a PDFPDF
99
245695
2655
你们是否曾要复制和黏贴
PDF里的内容,
04:20
and make sense of it?
100
248350
1357
并且搞清楚这些数据的意义?
我看到更多的人在点头。
04:21
I see more shakes奶昔.
101
249707
1060
比起知道这个标志,有更多的人
试过复制和黏贴。很不错。
04:22
More of you tried试着 copying仿形 and pasting粘贴
than knew知道 the logo商标. I like that.
102
250767
3345
所以你们刚才看到的
数据确实是来自一个PDF。
04:26
So what happened发生 is, the data数据
that you just saw was actually其实 on a PDFPDF.
103
254112
3510
事实上,有不计其数的PDF文档
04:29
In fact事实, hundreds数以百计 and hundreds数以百计
and hundreds数以百计 of pages网页 of PDFPDF
104
257622
3105
04:32
put out by our very own拥有 NYPDNYPD,
105
260727
2159
都是通过纽约警察局公布的,
04:34
and in order订购 to access访问 it,
you would either have to copy复制 and paste
106
262886
3152
为了得到这些数据,
你要么需要花几百个小时
复制和黏贴,
04:38
for hundreds数以百计 and hundreds数以百计 of hours小时,
107
266038
1726
或者像约翰·克劳斯那样做。
04:39
or you could be John约翰 Krauss克劳斯.
108
267764
1344
04:41
John约翰 Krauss克劳斯 was like,
109
269108
1043
他是这样做的:
04:42
I'm not going to copy复制 and paste this data数据.
I'm going to write a program程序.
110
270151
3413
我不想复制黏贴这些数据,
我要写一个程序。
这个程序被称为:”纽约警察局事故数据创可贴“
(NYPD Crash Data Band-Aid),
04:45
It's called the NYPDNYPD Crash紧急 Data数据 Band-Aid创可贴,
111
273564
2288
04:47
and it goes to the NYPD'sNYPD的 website网站
and it would download下载 PDFsPDF文件.
112
275852
3032
这个程序先进入纽约警察局的网站,
然后下载PDF文件。
04:50
Every一切 day it would search搜索;
if it found发现 a PDFPDF, it would download下载 it
113
278884
3126
每天进行搜索,如果发现PDF文件,
就会下载下来,
04:54
and then it would run
some PDF-scrapingPDF刮 program程序,
114
282010
2250
然后它会运行PDF解码程序,
04:56
and out would come the text文本,
115
284260
1336
就可以将文本拷出来,
04:57
and it would go on the Internet互联网,
and then people could make maps地图 like that.
116
285596
3565
然后上传到网络上,
大家就可以做出这样的地图了。
05:01
And the fact事实 that the data's数据的 here,
the fact事实 that we have access访问 to it --
117
289161
3429
只要数据在这里,
我们就可以使用这些数据——
05:04
Every一切 accident事故, by the way,
is a row in this table.
118
292590
2450
每个事故都是这个
表格里的一行数据。
05:07
You can imagine想像 how many许多 PDFsPDF文件 that is.
119
295040
1836
你门可以想象得有多少个PDF文件。
05:08
The fact事实 that we
have access访问 to that is great,
120
296876
2207
我们可以使用这些数据当然非常棒,
05:11
but let's not release发布 it in PDFPDF form形成,
121
299083
2110
但是不要用PDF的格式公开这些数据,
05:13
because then we're having our citizens公民
write PDFPDF scrapers铲运机.
122
301193
2739
因为还需要我们的市民写PDF解码程序。
05:15
It's not the best最好 use
of our citizens'公民 time,
123
303932
2076
这是在浪费市民的时间,
我们作为一个城市可以做得更好。
05:18
and we as a city can do better than that.
124
306008
2004
05:20
Now, the good news新闻 is that
the de BlasioBlasio administration行政
125
308012
2736
有一个好消息,
白思豪(纽约市长)的行政办公室
05:22
actually其实 recently最近 released发布 this data数据
a few少数 months个月 ago,
126
310748
2532
几个月前公开了这些数据。
05:25
and so now we can
actually其实 have access访问 to it,
127
313280
2158
现在我们可以直接使用这些数据了,
05:27
but there's a lot of data数据
still entombed埋葬 in PDFPDF.
128
315438
2536
但是依然有很多数据隐藏在PDF里。
05:29
For example, our crime犯罪 data数据
is still only available可得到 in PDFPDF.
129
317974
3197
比如,与犯罪相关的数据
依然只能在PDF里才能看到。
05:33
And not just our crime犯罪 data数据,
our own拥有 city budget预算.
130
321171
3755
不仅仅是与犯罪相关的数据,
还有我们城市的预算。
05:36
Our city budget预算 is only readable可读
right now in PDFPDF form形成.
131
324926
3729
我们城市的预算只能
在PDF格式的文件里才能看到。
05:40
And it's not just us
that can't analyze分析 it --
132
328655
2141
不仅仅是我们无法分析这些数据——
05:42
our own拥有 legislators立法者
who vote投票 for the budget预算
133
330796
2955
我们为预算投票的立法者
05:45
also only get it in PDFPDF.
134
333751
1943
也只能通过PDF得到这些数据。
05:47
So our legislators立法者 cannot不能 analyze分析
the budget预算 that they are voting表决 for.
135
335694
3844
因此我们的立法者也无法
分析他们要投票的预算方案。
05:51
And I think as a city we can do
a little better than that as well.
136
339538
3608
我认为我们作为一个
城市同样可以做得更好。
05:55
Now, there's a lot of data数据
that's not hidden in PDFsPDF文件.
137
343146
2488
有许多没有被隐藏在PDF文件里的数据。
05:57
This is an example of a map地图 I made制作,
138
345634
1700
我做的地图就是一个例子,
05:59
and this is the dirtiest最脏 waterways水路
in New York纽约 City.
139
347334
2926
这是纽约最脏的水沟。
06:02
Now, how do I measure测量 dirty?
140
350260
1509
我怎么判断肮脏的程度呢?
06:03
Well, it's kind of a little weird奇怪的,
141
351769
1857
可能有点奇怪,
06:05
but I looked看着 at the level水平
of fecal粪便 coliform大肠菌群,
142
353626
2113
我是根据粪便菌群数的水平来判断的,
06:07
which哪一个 is a measurement测量 of fecal粪便 matter
in each of our waterways水路.
143
355739
3506
就是测量每一个水沟粪便物的指标。
06:11
The larger the circle,
the dirtier the water,
144
359245
3274
圆圈越大,表示水越脏。
06:14
so the large circles are dirty water,
the small circles are cleaner清洁器.
145
362519
3357
所以大圆圈代表脏水,
小圆圈代表较干净的水。
06:17
What you see is inland内陆 waterways水路.
146
365876
1644
你们看到的是内陆地区的水沟。
06:19
This is all data数据 that was sampled取样
by the city over the last five years年份.
147
367520
3404
这些是过去五年城市取样的所有数据。
06:22
And inland内陆 waterways水路 are,
in general一般, dirtier.
148
370924
2694
内陆地区的水沟普遍更脏。
06:25
That makes品牌 sense, right?
149
373618
1218
有道理,是吧?
06:26
And the bigger circles are dirty.
And I learned学到了 a few少数 things from this.
150
374836
3374
圆圈越大表示越脏。
我从中了解到几件事。
第一:不要在任何名字末尾有
“小溪”、“运河”的地方游泳。
06:30
Number one: Never swim游泳 in anything
that ends结束 in "creek" or "canal运河."
151
378210
3164
06:33
But number two: I also found发现
the dirtiest最脏 waterway水路 in New York纽约 City,
152
381374
4318
第二:经过一次测量我就发现了
06:37
by this measure测量, one measure测量.
153
385692
1834
纽约最脏的水沟。
06:39
In Coney科尼 Island Creek, which哪一个 is not
the Coney科尼 Island you swim游泳 in, luckily.
154
387526
3648
就是康尼岛小溪,
幸运的是这并不是你们去游泳的康尼岛,
是在岛的另一面。
06:43
It's on the other side.
155
391174
1158
过去五年,康尼岛小溪94%的取样
06:44
But Coney科尼 Island Creek, 94 percent百分
of samples样本 taken采取 over the last five years年份
156
392332
3878
06:48
have had fecal粪便 levels水平 so high
157
396210
2157
所含排泄物含量水平如此高,
06:50
that it would be against反对 state law
to swim游泳 in the water.
158
398367
3093
以至于州立法已经
禁止人们在此游泳。
06:53
And this is not the kind of fact事实
that you're going to see
159
401460
2729
这不是你所看到的市政报告中
06:56
boasted吹嘘 in a city report报告, right?
160
404189
1537
吹嘘的那一类数据,对吧?
06:57
It's not going to be
the front面前 page on nyc纽约.govGOV.
161
405726
2250
也不会出现在纽约政府官网的首页上。
06:59
You're not going to see it there,
162
407976
1580
你们不会在那里看到,
但是我们能得到这些数据是非常棒的。
07:01
but the fact事实 that we can get
to that data数据 is awesome真棒.
163
409556
2518
07:04
But once一旦 again, it wasn't super easy简单,
164
412074
1773
但是再说一次,
这些数据并不是轻易得到的,
07:05
because this data数据 was not
on the open打开 data数据 portal门户.
165
413847
2358
因为这些数据并不是公开的数据库。
如果你们查看公开的数据,
07:08
If you were to go to the open打开 data数据 portal门户,
166
416205
2013
只会看到其中的部分数据,
一年或几个月的数据。
07:10
you'd see just a snippet片段 of it,
a year or a few少数 months个月.
167
418218
2613
环境保护部门网站上
提供的数据就是这样的。
07:12
It was actually其实 on the Department
of Environmental环境的 Protection's保护的 website网站.
168
420831
3390
每一个链接都是一个Excel表格,
每一个表格都是不一样的。
07:16
And each one of these links链接 is an Excel高强
sheet, and each Excel高强 sheet is different不同.
169
424221
3878
标题也是不一样的:
你复制,黏贴,重新整理。
07:20
Every一切 heading标题 is different不同:
you copy复制, paste, reorganize改组.
170
428099
2630
然后你就可以做一份地图,
那是很棒的,但是再说一次,
07:22
When you do you can make maps地图
and that's great, but once一旦 again,
171
430729
2952
作为一个城市我们可以做得更好,
我们可以使数据标准化。
07:25
we can do better than that
as a city, we can normalize正常化 things.
172
433681
2969
我们正在慢慢改进,
Socrata做了一个网站
07:28
And we're getting得到 there, because
there's this website网站 that SocrataSocrata makes品牌
173
436650
3384
叫做“纽约市公开数据门户网站”。
这里有1100组数据,
这些数据不会遭遇
07:32
called the Open打开 Data数据 Portal门户 NYCNYC.
174
440034
1541
07:33
This is where 1,100 data数据 sets
that don't suffer遭受
175
441575
2257
我刚才跟你们说的那种情况,
并且数量还在增长,
这个网站真的很不错。
07:35
from the things I just told you live生活,
176
443832
1781
07:37
and that number is growing生长,
and that's great.
177
445613
2148
你们可以下载任何格式的数据,
CSV或者PDF 或者Excel。
07:39
You can download下载 data数据 in any format格式,
be it CSVCSV or PDFPDF or Excel高强 document文件.
178
447761
3412
你想要什么格式,就以那种格式下载。
07:43
Whatever随你 you want,
you can download下载 the data数据 that way.
179
451173
2547
问题是,一旦你开始下载数据,
07:45
The problem问题 is, once一旦 you do,
180
453720
1352
07:47
you will find that each agency机构
codes代码 their addresses地址 differently不同.
181
455072
3686
就会发现不同的部门会
用不同方式编码他们的地址。
07:50
So one is street name名称,
intersection路口 street,
182
458758
2141
有的用街道名,十字路口,
07:52
street, borough, address地址, building建造,
building建造 address地址.
183
460899
2491
街道,区,地址,大厦,大厦地址。
07:55
So once一旦 again, you're spending开支 time,
even when we have this portal门户,
184
463390
3180
所以你还是需要花时间,
即使我们有这个网站,
07:58
you're spending开支 time
normalizing正火 our address地址 fields领域.
185
466570
2606
你还是需要花时间使地址格式规范化。
08:01
And that's not the best最好 use
of our citizens'公民 time.
186
469176
2423
这在浪费市民时间。
我们作为一个城市完全可以做得更好。
08:03
We can do better than that as a city.
187
471599
1796
08:05
We can standardize规范 our addresses地址,
188
473395
1645
我们可以将我们的地址格式标准化,
08:07
and if we do,
we can get more maps地图 like this.
189
475040
2185
如果我们做到了,
就可以做更多类似这样的地图,
08:09
This is a map地图 of fire hydrants消防栓
in New York纽约 City,
190
477225
2285
这是纽约市防火栓的地图,
08:11
but not just any fire hydrants消防栓.
191
479510
1531
但并不是全部的。
08:13
These are the top最佳 250 grossing票房 fire
hydrants消防栓 in terms条款 of parking停車處 tickets门票.
192
481041
4726
这些是最容易被开罚单的前250个防火栓。
08:17
(Laughter笑声)
193
485767
1986
(笑声)
08:19
So I learned学到了 a few少数 things from this map地图,
and I really like this map地图.
194
487753
3358
我从这张地图学到了一些东西,
我非常喜欢这张地图。
08:23
Number one, just don't park公园
on the Upper East Side.
195
491111
2402
第一,不要在上东区停车。
08:25
Just don't. It doesn't matter where
you park公园, you will get a hydrant消防栓 ticket.
196
493513
3587
不论你停在哪里,
你都会收到一张罚单。
08:29
Number two, I found发现 the two highest最高
grossing票房 hydrants消防栓 in all of New York纽约 City,
197
497100
4153
第二,我发现全纽约市消防栓
最多的两个区域,
08:33
and they're on the Lower降低 East Side,
198
501253
1886
都在下东区,
08:35
and they were bringing使 in over
55,000 dollars美元 a year in parking停車處 tickets门票.
199
503139
5098
并且一年可以带来
55000美元的罚单收入。
08:40
And that seemed似乎 a little strange奇怪
to me when I noticed注意到 it,
200
508237
2738
我发现这点的时候,感觉有点奇怪,
我做了一些研究,比如有一个消防栓,
08:42
so I did a little digging挖掘 and it turns out
what you had is a hydrant消防栓
201
510975
3269
08:46
and then something called
a curb抑制 extension延期,
202
514244
1996
旁边有横向拓宽的人行道,
就像一个可以行走的七英尺的空间,
08:48
which哪一个 is like a seven-foot七尺
space空间 to walk步行 on,
203
516240
2059
然后旁边是停车位置。
08:50
and then a parking停車處 spot.
204
518299
1156
08:51
And so these cars汽车 came来了 along沿,
and the hydrant消防栓 --
205
519455
2254
司机将车开过来,心想
“ 还离得挺远,没问题的,“
08:53
"It's all the way over there, I'm fine,"
206
521709
1911
何况地上还有一个画得美美的停车位。
08:55
and there was actually其实 a parking停車處 spot
painted there beautifully精美 for them.
207
523620
3474
于是他们将车停在这里,
但纽约警察局不允许这样,
08:59
They would park公园 there, and the NYPDNYPD
disagreed不同意 with this designation指定
208
527094
3155
然后他们就会被开罚单。
09:02
and would ticket them.
209
530249
1058
不仅仅是我收到罚单。
09:03
And it wasn't just me
who found发现 a parking停車處 ticket.
210
531307
2344
谷歌街景车开过的时候
09:05
This is the Google谷歌
Street View视图 car汽车 driving主动 by
211
533651
2146
也看到了同样的罚单。
09:07
finding发现 the same相同 parking停車處 ticket.
212
535797
1617
09:09
So I wrote about this on my blog博客,
on I Quant定量 NY纽约, and the DOT responded回应,
213
537414
4504
我将这件事情写在我的博客和
“I Quant NY ”上,交通部回复了我,
09:13
and they said,
214
541918
1020
他们说,
09:14
"While the DOT has not received收到
any complaints投诉 about this location位置,
215
542938
3410
”虽然交通部没有收到关于这个地点的投诉,
09:18
we will review评论 the roadway巷道 markings标记
and make any appropriate适当 alterations改变."
216
546348
4542
我们还是会评估道路标志,
做出合适的调整。
09:22
And I thought to myself,
typical典型 government政府 response响应,
217
550890
2959
我认为这是典型的政府答复,
09:25
all right, moved移动 on with my life.
218
553849
1881
好吧,继续过我的日子。
09:27
But then, a few少数 weeks later后来,
something incredible难以置信 happened发生.
219
555730
3970
但是几个礼拜后,
难以置信的事情发生了。
09:31
They repainted粉刷一新 the spot,
220
559700
2520
他们重新粉刷了停车位置,
09:34
and for a second第二 I thought I saw
the future未来 of open打开 data数据,
221
562220
2690
这让我立刻看到了公开数据的未来,
09:36
because think about what happened发生 here.
222
564910
2000
想想这里发生的事情吧。
五年来,这个位置的车常被开罚单,
令人很困惑。
09:38
For five years年份, this spot was being存在
ticketed票款, and it was confusing扑朔迷离,
223
566910
5100
09:44
and then a citizen公民 found发现 something,
they told the city, and within a few少数 weeks
224
572010
4306
然后有人发现了一些事情,
并且告诉了城市的管理者,在几周内
09:48
the problem问题 was fixed固定.
225
576316
1294
这个问题就得到了解决。
09:49
It's amazing惊人. And a lot of people
see open打开 data数据 as being存在 a watchdog看家狗.
226
577610
3200
这太不可思议了。
很多人把公开数据当做监督者。
09:52
It's not, it's about being存在 a partner伙伴.
227
580810
1772
不是的,它更像是一个合作伙伴。
09:54
We can empower授权 our citizens公民
to be better partners伙伴 for government政府,
228
582582
3138
我们可以赋予市民权利
成为政府的优秀合作伙伴,
09:57
and it's not that hard.
229
585720
1881
这不是很难。
09:59
All we need are a few少数 changes变化.
230
587601
1459
只需要一些改变。
10:01
If you're FOILing挫败 data数据,
231
589060
1107
如果你正在申请FOIL数据,
10:02
if you're seeing眼看 your data数据
being存在 FOILed挫败 over and over again,
232
590167
2867
如果你看到你要的数据被反复的请求获得,
10:05
let's release发布 it to the public上市, that's
a sign标志 that it should be made制作 public上市.
233
593034
3574
让我们直接将这些数据向大众公开吧,
这是一个数据需要公开的信号。
如果你是一个政府部门,
要公开一个PDF,
10:08
And if you're a government政府 agency机构
releasing释放 a PDFPDF,
234
596608
2482
10:11
let's pass通过 legislation立法 that requires要求 you
to post岗位 it with the underlying底层 data数据,
235
599090
3649
让我们通过立法,发布被要求的源数据,
10:14
because that data数据
is coming未来 from somewhere某处.
236
602739
2028
因为数据肯定来自某个地方。
虽然我不知道是哪里,
10:16
I don't know where, but it's
coming未来 from somewhere某处,
237
604767
2482
但你们可用PDF的形式将这些数据公开。
10:19
and you can release发布 it with the PDFPDF.
238
607249
1725
让我们采用和共享公开数据的标准。
10:20
And let's adopt采用 and share分享
some open打开 data数据 standards标准.
239
608974
2411
我们先从纽约的地址开始。
10:23
Let's start开始 with our addresses地址
here in New York纽约 City.
240
611385
2481
从规范地址格式开始。
10:25
Let's just start开始
normalizing正火 our addresses地址.
241
613866
2074
纽约在公开数据上属于引领者。
10:27
Because New York纽约 is a leader领导 in open打开 data数据.
242
615940
2062
抛开这些问题,
我们在公开数据方面绝对是领先者,
10:30
Despite尽管 all this, we are absolutely绝对
a leader领导 in open打开 data数据,
243
618002
2789
如果我们开始规范化一些事情,
并且建立一个公开数据的标准,
10:32
and if we start开始 normalizing正火 things,
and set an open打开 data数据 standard标准,
244
620791
3121
其他人会照着标准做,
纽约州也会照着做,甚至是联邦政府。
10:35
others其他 will follow跟随. The state will follow跟随,
and maybe the federal联邦 government政府,
245
623912
3634
其他国家也可能参照这套标准,
不久的将来,我们可以编写一个程序,
10:39
Other countries国家 could follow跟随,
246
627546
1445
10:40
and we're not that far off from a time
where you could write one program程序
247
628991
3411
并整理出100个国家的数据信息。
10:44
and map地图 information信息 from 100 countries国家.
248
632402
1890
这不是科幻小说。
我们已经很接近这个目标了。
10:46
It's not science科学 fiction小说.
We're actually其实 quite相当 close.
249
634292
2487
顺便说一下,我们的授权对象是谁?
10:48
And by the way, who are we
empowering授权 with this?
250
636779
2240
不仅仅是约翰·克劳斯和克里斯·王。
10:51
Because it's not just John约翰 Krauss克劳斯
and it's not just Chris克里斯 WhongWhong.
251
639019
3005
现在纽约有上百个聚会小组,
10:54
There are hundreds数以百计 of meetups聚会
going on in New York纽约 City right now,
252
642024
3095
活跃的聚会小组。
10:57
active活性 meetups聚会.
253
645119
1025
成千上万的人参加了这些小组。
10:58
There are thousands数千 of people
attending出席 these meetups聚会.
254
646144
2572
人们在下班后或周末去参加这些活动,
11:00
These people are going after work
and on weekends周末,
255
648716
2368
在活动上,人们会处理这些公开数据,
11:03
and they're attending出席 these meetups聚会
to look at open打开 data数据
256
651084
2636
想办法让我们的城市越来越好。
11:05
and make our city a better place地点.
257
653720
1640
像BetaNYC这样的组织,
上周刚公开了一个叫citygram.nyc的网站,
11:07
Groups like BetaNYCBetaNYC, who just last week
released发布 something called citygramcitygram.nyc纽约
258
655360
4073
11:11
that allows允许 you to subscribe订阅
to 311 complaints投诉
259
659433
2147
允许你订阅你家附近
11:13
around your own拥有 home,
or around your office办公室.
260
661580
2068
或者你公司附近的311投诉。
11:15
You put in your address地址,
you get local本地 complaints投诉.
261
663648
2427
输入地址,你就能看到本地的投诉。
11:18
And it's not just the tech高科技 community社区
that are after these things.
262
666075
3374
这背后不仅仅有个技术团体,
还有许多城市规划者,
比如我在普瑞特艺术学院教过的学生。
11:21
It's urban城市的 planners规划者 like
the students学生们 I teach at Pratt普拉特.
263
669449
2622
不仅仅是政策的提倡者,是每一个人,
11:24
It's policy政策 advocates倡导者, it's everyone大家,
264
672071
1919
11:25
it's citizens公民 from a diverse多种
set of backgrounds背景.
265
673990
2563
是具有不同背景的城市市民。
11:28
And with some small, incremental增加的 changes变化,
266
676553
2786
通过一些微小但与日俱增的变化,
11:31
we can unlock开锁 the passion
and the ability能力 of our citizens公民
267
679339
3225
我们就能释放市民的热情和能力,
11:34
to harness马具 open打开 data数据
and make our city even better,
268
682564
3156
去利用公开数据
使我们的城市变得更美好,
11:37
whether是否 it's one dataset数据集,
or one parking停車處 spot at a time.
269
685720
3626
无论是每次一组数据,
还是一个停车点。
11:41
Thank you.
270
689346
2322
谢谢。
11:43
(Applause掌声)
271
691668
3305
(掌声}
Translated by zoe hong
Reviewed by Min Wang

▲Back to top

ABOUT THE SPEAKER
Ben Wellington - Data scientist
Ben Wellington blends his love of statistics, the city, and comedy in his entertaining analysis of the story of New York City, told through data.

Why you should listen

Ben Wellington runs the I Quant NY blog, in which he crunches city-released data to find out what's really going on in the Big Apple. To date he has tackled topics such as measles outbreaks in New York City schools, analyzed how companies like Airbnb are really doing in NYC, and asked questions such as "does gentrification cause a reduction in laundromats?" (Answer: inconclusive.)

Ben is a visiting assistant professor in the City & Regional Planning program at the Pratt Institute in Brooklyn; his day job involves working as a quantitative analyst at the investment management firm, Two Sigma. A budding comedian and performer, he also teaches team building workshops through Cherub Improv, a non-profit that uses improv comedy for social good.

More profile about the speaker
Ben Wellington | Speaker | TED.com