ABOUT THE SPEAKER
Mona Chalabi - Data journalist
Mona Chalabi tries to take the numb out of numbers. She's left with lots of "ers."

Why you should listen

After working for a humanitarian organisation, Mona Chalabi saw how important data was, but also how easily it could be used by people with their own specific agendas. Since then, her work for organizations like Transparency International and The Guardian has had one goal: to make sure as many people as possible can find and question the data they need to make informed decisions about their lives.

Chalabi is currently the Data Editor of the Guardian US, where she writes articles, produces documentaries and turns data into illustrations and animations. In 2016, her data illustrations were commended by the Royal Statistical Society.

More profile about the speaker
Mona Chalabi | Speaker | TED.com
TEDNYC

Mona Chalabi: 3 ways to spot a bad statistic

夢娜.夏拉比: 三個辨識劣質統計數據的方法

Filmed:
1,888,599 views

有時候真的很難判斷哪些統計數據是值得信任的。我們不能全然相信統計數據,而是應該要學會看懂數據背後的意義。在這場愉快又充滿幽默的演說中,數據記者夢娜.夏拉比與我們分享她的幾個拿手妙招,可以幫助我們對數據進行質疑、解讀,並真正地理解數據背後的意義。
- Data journalist
Mona Chalabi tries to take the numb out of numbers. She's left with lots of "ers." Full bio

Double-click the English transcript below to play the video.

00:12
Now, I'm going to be talking
about statistics統計 today今天.
0
884
2763
今天我要來談談統計。
00:15
If that makes品牌 you immediately立即 feel
a little bit wary警惕, that's OK,
1
3671
3138
如果讓你感覺到
一點點的焦慮,沒關係,
這場演講不會讓你變成
瘋狂的陰謀論者,
00:18
that doesn't make you some
kind of crazy conspiracy陰謀 theorist理論家,
2
6833
2859
00:21
it makes品牌 you skeptical懷疑的.
3
9716
1296
它能讓你學會懷疑。
00:23
And when it comes to numbers數字,
especially特別 now, you should be skeptical懷疑的.
4
11036
3886
一提到數據,特別是現在,
你更要懷疑。
但你也必須要有能力
判讀哪些數據是可靠的,
00:26
But you should also be able能夠 to tell
which哪一個 numbers數字 are reliable可靠
5
14946
3011
哪些是不可靠的。
00:29
and which哪一個 ones那些 aren't.
6
17981
1160
00:31
So today今天 I want to try to give you
some tools工具 to be able能夠 to do that.
7
19165
3206
所以我今天要教大家
一些判斷的工具。
但在這之前,
00:34
But before I do,
8
22395
1169
00:35
I just want to clarify澄清 which哪一個 numbers數字
I'm talking about here.
9
23588
2839
我想要先說明
我所談論的是哪一種數據。
我並不是要談類似這樣的數據:
00:38
I'm not talking about claims索賠 like,
10
26451
1635
00:40
"9 out of 10 women婦女 recommend推薦
this anti-aging抗衰老 cream奶油."
11
28110
2449
「十位女性當中有九位
會推薦這款抗老化乳液」
我們很多人聽到那樣的說法
會不相信而翻眼珠。
00:42
I think a lot of us always
roll our eyes眼睛 at numbers數字 like that.
12
30583
2972
但是我現在要談的,
是人們會質疑的一些統計數據,
00:45
What's different不同 now is people
are questioning疑問 statistics統計 like,
13
33579
2984
例如「美國的失業率是 5% 」。
00:48
"The US unemployment失業
rate is five percent百分."
14
36587
2014
兩者的差異在於後者這宣稱
(失業率)並非來自私人企業,
00:50
What makes品牌 this claim要求 different不同 is
it doesn't come from a private私人的 company公司,
15
38625
3516
而是來自政府機構。
00:54
it comes from the government政府.
16
42165
1388
實際上,如今每十個美國人當中
00:55
About 4 out of 10 Americans美國人
distrust懷疑 the economic經濟 data數據
17
43577
3336
就有四個人根本不相信
政府公布的經濟數據。
00:58
that gets得到 reported報導 by government政府.
18
46937
1573
01:00
Among其中 supporters支持者 of President主席 Trump王牌
it's even higher更高;
19
48534
2491
而川普總統的支持者當中,
不相信的比例更高,
01:03
it's about 7 out of 10.
20
51049
1633
大約十個人裡面會有七個。
01:04
I don't need to tell anyone任何人 here
21
52706
1804
我並不想在這裡解釋
在目前社會中的許多分界線;
01:06
that there are a lot of dividing lines
in our society社會 right now,
22
54534
3011
一旦你了解政府公佈的數據
與民眾之間的關係,
01:09
and a lot of them start開始 to make sense,
23
57569
1825
01:11
once一旦 you understand理解 people's人們 relationships關係
with these government政府 numbers數字.
24
59418
3687
這些分界線就開始變得有意義了。
一方面,有些人認為
這些數據是至關重要的,
01:15
On the one hand, there are those who say
these statistics統計 are crucial關鍵,
25
63129
3336
01:18
that we need them to make sense
of society社會 as a whole整個
26
66489
2630
這些數據能讓我們
瞭解整個社會的狀況,
為了就是要避免
各種情感上的糾葛,
01:21
in order訂購 to move移動 beyond
emotional情緒化 anecdotes軼事
27
69143
2164
01:23
and measure測量 progress進展 in a subjective主觀 way.
28
71331
2410
並且以客觀的方式
衡量政策的發展。
另外一群人則認為,
01:25
And then there are the others其他,
29
73765
1467
01:27
who say that these statistics統計 are elitist精英,
30
75256
2156
這些統計數據
都是來自菁英份子,
甚至可能是受到操縱的;
01:29
maybe even rigged非法操縱的;
31
77436
1208
這些數據沒有意義,
而且根本無法真正反映
01:30
they don't make sense
and they don't really reflect反映
32
78668
2394
一般民眾的日常生活狀況。
01:33
what's happening事件
in people's人們 everyday每天 lives生活.
33
81086
2296
01:35
It kind of feels感覺 like that second第二 group
is winning勝利 the argument論據 right now.
34
83406
3487
目前看來,主張第二種觀點的人
似乎是對的。
01:38
We're living活的 in a world世界
of alternative替代 facts事實,
35
86917
2108
我們生活的世界中
胡說八道已成常態,
01:41
where people don't find statistics統計
this kind of common共同 ground地面,
36
89049
2935
民眾對這些數據沒有基本共識,
也不會把這些數據
視為爭論時的基準點。
01:44
this starting開始 point for debate辯論.
37
92008
1636
這會是個問題。
01:45
This is a problem問題.
38
93668
1286
01:46
There are actually其實
moves移動 in the US right now
39
94978
2067
實際上,目前有一股風潮
正在席捲美國,
01:49
to get rid擺脫 of some government政府
statistics統計 altogether.
40
97069
2861
他們認為應該要全面擺脫
政府統計數據的束縛。
01:51
Right now there's a bill法案 in congress國會
about measuring測量 racial種族 inequality不等式.
41
99954
3387
目前國會正在審查一項有關
評估種族不平等的法案。
01:55
The draft草案 law says that government政府
money should not be used
42
103365
2801
草案中主張,
政府不應該把經費運用於
01:58
to collect蒐集 data數據 on racial種族 segregation隔離.
43
106190
1902
收集各種有關種族隔離的資料上。
02:00
This is a total disaster災害.
44
108116
1885
這簡直是一場災難。
如果我們缺乏這樣的資料,
02:02
If we don't have this data數據,
45
110025
1748
我們要如何觀察種族歧視現象?
02:03
how can we observe discrimination區別,
46
111797
1778
更不用提要如何修正它?
02:05
let alone單獨 fix固定 it?
47
113599
1278
換句話說:
02:06
In other words:
48
114901
1188
如果政府無法衡量
目前不公的程度,
02:08
How can a government政府 create創建 fair公平 policies政策
49
116113
2059
02:10
if they can't measure測量
current當前 levels水平 of unfairness不平?
50
118196
2771
他們要如何制訂公平的政策?
這也不只是攸關歧視的問題,
02:12
This isn't just about discrimination區別,
51
120991
1794
02:14
it's everything -- think about it.
52
122809
1670
也會牽扯到所有的事情,各位想想:
02:16
How can we legislate立法 on health健康 care關心
53
124503
1690
如果我們沒有
健康或貧困的正確數據,
02:18
if we don't have good data數據
on health健康 or poverty貧窮?
54
126217
2271
我們要如何制訂
衛生保健的相關法案?
如果我們連有多少人正要移入、
遷出我們的國家,
02:20
How can we have public上市 debate辯論
about immigration移民
55
128512
2198
都缺乏一致的共識,
02:22
if we can't at least最小 agree同意
56
130734
1250
我們要如何對於移民政策
進行公開的辯論?
02:24
on how many許多 people are entering進入
and leaving離開 the country國家?
57
132008
2643
統計(Statistics) 這個字,
就是源自於國家事務(State)。
02:26
Statistics統計 come from the state;
that's where they got their name名稱.
58
134675
3058
重點是,要更精確地
測量人口的分布,
02:29
The point was to better
measure測量 the population人口
59
137757
2157
才能為社會大眾提供更好的服務。
02:31
in order訂購 to better serve服務 it.
60
139938
1357
所以我們需要政府的數據,
02:33
So we need these government政府 numbers數字,
61
141319
1725
但我們也需要摒除全盤接受
02:35
but we also have to move移動
beyond either blindly盲目地 accepting驗收
62
143068
2647
或是全盤否定的迷思。
02:37
or blindly盲目地 rejecting拒絕 them.
63
145739
1268
02:39
We need to learn學習 the skills技能
to be able能夠 to spot bad statistics統計.
64
147031
2997
我們需要學會
辨識劣質統計數據的方法。
02:42
I started開始 to learn學習 some of these
65
150052
1528
當我在聯合國的統計部門工作時,
02:43
when I was working加工
in a statistical統計 department
66
151604
2166
我開始學會了一些辨識的技巧。
02:45
that's part部分 of the United聯合的 Nations國家.
67
153794
1643
我們的工作是要了解
有多少伊拉克人民
02:47
Our job工作 was to find out how many許多 Iraqis伊拉克人
had been forced被迫 from their homes家園
68
155461
3406
因為戰爭而被迫離開家鄉,
02:50
as a result結果 of the war戰爭,
69
158891
1158
並且了解他們的需求。
02:52
and what they needed需要.
70
160073
1158
02:53
It was really important重要 work,
but it was also incredibly令人難以置信 difficult.
71
161255
3178
這是很重要的工作,
但也非常困難。
02:56
Every一切 single day, we were making製造 decisions決定
72
164457
2018
我們每天所作的決策,
02:58
that affected受影響 the accuracy準確性
of our numbers數字 --
73
166499
2157
都會影響數據的準確性,
03:00
decisions決定 like which哪一個 parts部分
of the country國家 we should go to,
74
168680
2744
像是我們應該要前往
這個國家的哪些地區、
我們要與誰談話、
03:03
who we should speak說話 to,
75
171448
1156
03:04
which哪一個 questions問題 we should ask.
76
172628
1568
應該問哪些問題...等等。
03:06
And I started開始 to feel
really disillusioned幻滅 with our work,
77
174220
2680
但我對於工作的幻想
很快就破滅了,
因為我們自認這項工作很有意義,
03:08
because we thought we were doing
a really good job工作,
78
176924
2518
但是能夠告訴我們
真實情況的伊拉克民眾,
03:11
but the one group of people
who could really tell us were the Iraqis伊拉克人,
79
179466
3278
他們根本沒機會看到我們的分析,
更別說是提出質疑了。
03:14
and they rarely很少 got the chance機會 to find
our analysis分析, let alone單獨 question it.
80
182768
3540
03:18
So I started開始 to feel really determined決心
81
186332
1831
所以我愈來愈確信,
03:20
that the one way to make
numbers數字 more accurate準確
82
188187
2311
要讓數據更為準確的方法,
03:22
is to have as many許多 people as possible可能
be able能夠 to question them.
83
190522
3053
就是盡量讓更多人對數據提出質疑。
03:25
So I became成為 a data數據 journalist記者.
84
193599
1434
所以我變成一位數據記者。
03:27
My job工作 is finding發現 these data數據 sets
and sharing分享 them with the public上市.
85
195057
3904
我的工作就是找到這些資料,
並且公開分享給社會大眾。
03:30
Anyone任何人 can do this,
you don't have to be a geek極客 or a nerd書呆子.
86
198985
3173
任何人都能做得到,
你不需要是個技術極客或是怪咖。
你不用理會這些名詞;
03:34
You can ignore忽視 those words;
they're used by people
87
202182
2355
這是某些人想要表現聰明,
卻假裝謙虛時所用的字眼。
03:36
trying to say they're smart聰明
while pretending假裝 they're humble謙卑.
88
204561
2822
任何人絕對都可以做到。
03:39
Absolutely絕對 anyone任何人 can do this.
89
207407
1589
所以我想給各位三個問題,
03:41
I want to give you guys three questions問題
90
209020
2067
它們可以幫助你辨識出
劣質的統計數據。
03:43
that will help you be able能夠 to spot
some bad statistics統計.
91
211111
3005
03:46
So, question number one
is: Can you see uncertainty不確定?
92
214140
3507
問題一:
你是否能看出數據的不確定性?
03:49
One of things that's really changed
people's人們 relationship關係 with numbers數字,
93
217671
3364
有件事真正會改變
民眾與數據的關係,
甚至改變對媒體的信任,
03:53
and even their trust相信 in the media媒體,
94
221059
1641
其中一個方式就是
對選舉民調的濫用。
03:54
has been the use of political政治 polls民意調查.
95
222724
2258
我個人對選舉民調的
報導方式很有意見,
03:57
I personally親自 have a lot of issues問題
with political政治 polls民意調查
96
225006
2538
因為我認為記者扮演的角色,
就只是報導事實,
03:59
because I think the role角色 of journalists記者
is actually其實 to report報告 the facts事實
97
227568
3376
而不是嘗試著預測結果,
04:02
and not attempt嘗試 to predict預測 them,
98
230968
1553
特別是那些會傷害民主
的選舉預測,
04:04
especially特別 when those predictions預測
can actually其實 damage損傷 democracy民主
99
232545
2996
像是暗示選民說:
別再費心給那個傢伙投票了,
04:07
by signaling發信號 to people:
don't bother to vote投票 for that guy,
100
235565
2732
他根本沒機會當選。
04:10
he doesn't have a chance機會.
101
238321
1205
我們把這個話題擺一邊,
先來談談這樣做的效果如何。
04:11
Let's set that aside在旁邊 for now and talk
about the accuracy準確性 of this endeavor努力.
102
239550
3654
根據幾個國家的選舉,
像是英國、義大利、以色列,
04:15
Based基於 on national國民 elections選舉
in the UK聯合王國, Italy意大利, Israel以色列
103
243228
4608
當然還有最近的美國總統大選,
04:19
and of course課程, the most recent最近
US presidential總統 election選舉,
104
247860
2764
可以看到運用民調來預測選舉結果,
04:22
using運用 polls民意調查 to predict預測 electoral outcomes結果
105
250648
2137
04:24
is about as accurate準確 as using運用 the moon月亮
to predict預測 hospital醫院 admissions招生.
106
252809
3812
準確度就像觀測天象來預測
是否應該住院,同樣的不可靠。
04:28
No, seriously認真地, I used actual實際 data數據
from an academic學術的 study研究 to draw this.
107
256645
4200
說真的,我用了一份學術研究報告
的真實資料,畫出這張圖。
04:32
There are a lot of reasons原因 why
polling輪詢 has become成為 so inaccurate不準確.
108
260869
3727
民調變得不準確,有很多原因。
我們的社會已經變得相當多元化,
04:36
Our societies社會 have become成為 really diverse多種,
109
264620
1970
讓從事民意調查的人很難挑選出
04:38
which哪一個 makes品牌 it difficult for pollsters民意調查機構
to get a really nice不錯 representative代表 sample樣品
110
266614
3821
真正能代表選民意願的樣本。
04:42
of the population人口 for their polls民意調查.
111
270459
1627
人們已經很厭倦回答民調電話,
04:44
People are really reluctant不情願 to answer回答
their phones手機 to pollsters民意調查機構,
112
272110
3006
而且令人震驚的是,
受訪者還可能會說謊。
04:47
and also, shockingly令人吃驚 enough足夠,
people might威力 lie謊言.
113
275140
2276
04:49
But you wouldn't不會 necessarily一定
know that to look at the media媒體.
114
277440
2811
但是你在媒體報導中
不會知道這些事情。
04:52
For one thing, the probability可能性
of a Hillary希拉里 Clinton克林頓 win贏得
115
280275
2761
例如希拉蕊·柯林頓
贏得選舉的機率,
04:55
was communicated傳達 with decimal十進制 places地方.
116
283060
2791
竟然可以精確到小數點?
我們描述氣溫都不會這麽精確。
04:57
We don't use decimal十進制 places地方
to describe描述 the temperature溫度.
117
285875
2621
所以怎麼可能對於全國
二億三千萬選民的行為,
05:00
How on earth地球 can predicting預測 the behavior行為
of 230 million百萬 voters選民 in this country國家
118
288520
4228
能夠做出如此精確的預測?
05:04
be that precise精確?
119
292772
1829
05:06
And then there were those sleek光滑 charts圖表.
120
294625
2002
還有一些看似井然有條的圖表,
各位知道嗎,有許多的視覺化設計,
05:08
See, a lot of data數據 visualizations可視化
will overstate誇大 certainty肯定, and it works作品 --
121
296651
3973
會誇大資料的準確性,而且很有效。
05:12
these charts圖表 can numb麻木
our brains大腦 to criticism批評.
122
300648
2620
這些圖表會麻痺我們的大腦,
讓我們無法做出判斷。
05:15
When you hear a statistic統計,
you might威力 feel skeptical懷疑的.
123
303292
2558
當你聽到一個統計數據,
你可能會覺得懷疑。
05:17
As soon不久 as it's buried隱藏 in a chart圖表,
124
305874
1635
但是當數據變成了圖表,
05:19
it feels感覺 like some kind
of objective目的 science科學,
125
307533
2129
看起來就成為客觀的科學調查結果,
但實際上並非如此。
05:21
and it's not.
126
309686
1249
05:22
So I was trying to find ways方法
to better communicate通信 this to people,
127
310959
3103
所以,我試著找出一些方法,
清楚地告訴大家這些事,
05:26
to show顯示 people the uncertainty不確定
in our numbers數字.
128
314086
2504
讓大家知道數據本身的不確定性。
而我所做的,就是把這些數據
05:28
What I did was I started開始 taking服用
real真實 data數據 sets,
129
316614
2246
用手繪的視覺化設計來呈現,
05:30
and turning車削 them into
hand-drawn手繪 visualizations可視化,
130
318884
2652
05:33
so that people can see
how imprecise不精確 the data數據 is;
131
321560
2672
好讓人們可以看到
資料是如此的不精確;
05:36
so people can see that a human人的 did this,
132
324256
1996
所以大家會看到,
有人作了這個調查,
05:38
a human人的 found發現 the data數據 and visualized可視化 it.
133
326276
1972
然後有人找到這些數據,
並且將它視覺化。
05:40
For example, instead代替
of finding發現 out the probability可能性
134
328272
2672
舉個例子,
我們不去找出每個月
民眾患流行性感冒的機率,
05:42
of getting得到 the flu流感 in any given特定 month,
135
330968
2126
而是得到整個流感季節
的大致分布情形。
05:45
you can see the rough
distribution分配 of flu流感 season季節.
136
333118
2792
就是這一張圖。
05:47
This is --
137
335934
1167
05:49
(Laughter笑聲)
138
337125
1018
(笑聲)
正值二月,這數據真不適時宜。
05:50
a bad shot射擊 to show顯示 in February二月.
139
338167
1486
但這樣的視覺化呈現方式
是比較可靠的,
05:51
But it's also more responsible主管
data數據 visualization可視化,
140
339677
2455
05:54
because if you were to show顯示
the exact精確 probabilities概率,
141
342156
2455
因為如果你是用精確的機率來呈現,
也許會誤導民眾
05:56
maybe that would encourage鼓勵
people to get their flu流感 jabs刺戳
142
344635
2592
在錯誤的時間注射疫苗。
05:59
at the wrong錯誤 time.
143
347251
1456
重點是這些歪七扭八的線條,
06:01
The point of these shaky搖搖欲墜 lines
144
349163
1693
能讓人們記得「數據的不精確性」,
06:02
is so that people remember記得
these imprecisions不精確,
145
350880
2911
人們不應該滿足於
一個鷄肋的數字,
06:05
but also so they don't necessarily一定
walk步行 away with a specific具體 number,
146
353815
3227
而是要能夠記得重要的事實。
06:09
but they can remember記得 important重要 facts事實.
147
357066
1866
有些不正義和不公平的事實,
在我們生活中造成了巨大的影響。
06:10
Facts事實 like injustice不公正 and inequality不等式
leave離開 a huge巨大 mark標記 on our lives生活.
148
358956
4024
像是美國黑人及原住民的預期壽命
06:15
Facts事實 like Black黑色 Americans美國人 and Native本地人
Americans美國人 have shorter life expectancies的預期
149
363004
4189
比其他族群來的短,
06:19
than those of other races比賽,
150
367217
1400
06:20
and that isn't changing改變 anytime任何時候 soon不久.
151
368641
2138
而且這是短時間內難以改變的事實。
06:22
Facts事實 like prisoners囚犯 in the US
can be kept不停 in solitary confinement坐月子 cells細胞
152
370803
3901
還有像是美國監獄中,
囚犯的個人牢房空間
06:26
that are smaller than the size尺寸
of an average平均 parking停車處 space空間.
153
374728
3342
比一般停車位的平均面積
還要小的事實。
06:30
The point of these visualizations可視化
is also to remind提醒 people
154
378535
3335
這些視覺化圖像的重點
就是為了要提醒大家,
關注一些真正重要的統計概念,
06:33
of some really important重要
statistical統計 concepts概念,
155
381894
2350
像是關於「平均數」的概念。
06:36
concepts概念 like averages均線.
156
384268
1636
例如你聽到有人說:
06:37
So let's say you hear a claim要求 like,
157
385928
1668
「在美國,每座游泳池裡面
平均有 6.23 次大便」。
06:39
"The average平均 swimming游泳的 pool in the US
contains包含 6.23 fecal糞便 accidents事故."
158
387620
4434
06:44
That doesn't mean every一切 single
swimming游泳的 pool in the country國家
159
392078
2797
它的意思不是說,每一座游泳池
06:46
contains包含 exactly究竟 6.23 turdsturds.
160
394899
2194
都有剛剛好 6.23 次大便。
06:49
So in order訂購 to show顯示 that,
161
397117
1417
為了說明這件事,
06:50
I went back to the original原版的 data數據,
which哪一個 comes from the CDCCDC,
162
398558
2841
我找到疾病管制局的原始資料,
06:53
who surveyed調查 47 swimming游泳的 facilities設備.
163
401423
2065
他們總共調查了47 座游泳池。
06:55
And I just spent花費 one evening晚間
redistributing重新分配 poop船尾.
164
403512
2391
我花了一個晚上「重新分配大便」。
06:57
So you can kind of see
how misleading誤導 averages均線 can be.
165
405927
2682
所以你就可以看出,
平均數如何地誤導大家。
07:00
(Laughter笑聲)
166
408633
1282
(笑聲)
07:01
OK, so the second第二 question
that you guys should be asking yourselves你自己
167
409939
3901
好,第二個辨識
劣質統計數據的方法,
07:05
to spot bad numbers數字 is:
168
413864
1501
就是你要問自己:
07:07
Can I see myself in the data數據?
169
415389
1967
我自己的情況體現在這份數據內嗎?
這個問題也與平均數有關,
07:09
This question is also
about averages均線 in a way,
170
417380
2913
07:12
because part部分 of the reason原因
why people are so frustrated受挫
171
420317
2605
因為民眾會對於國家的統計數據
產生失望的一部份原因,
07:14
with these national國民 statistics統計,
172
422946
1495
07:16
is they don't really tell the story故事
of who's誰是 winning勝利 and who's誰是 losing失去
173
424465
3273
是因為在國家的政策中,
他們無法完全地看出
誰是贏家、誰是輸家。
07:19
from national國民 policy政策.
174
427762
1156
很容易理解,
為什麼當全球的平均數字
07:20
It's easy簡單 to understand理解 why people
are frustrated受挫 with global全球 averages均線
175
428942
3318
與民眾的個人經驗不一致時,
他們會感到失望不已。
07:24
when they don't match比賽 up
with their personal個人 experiences經驗.
176
432284
2679
我想告訴人們與我們
日常生活相關的數據。
07:26
I wanted to show顯示 people the way
data數據 relates涉及 to their everyday每天 lives生活.
177
434987
3263
07:30
I started開始 this advice忠告 column
called "Dear Mona莫娜,"
178
438274
2246
我開設了一個專欄《親愛的夢娜》,
人們會寫信詢問一些
他們所關心的事情,
07:32
where people would write to me
with questions問題 and concerns關注
179
440544
2726
我會試著用數據回答他們。
07:35
and I'd try to answer回答 them with data數據.
180
443294
1784
人們會問我任何事情,
07:37
People asked me anything.
181
445102
1200
像是「跟老婆分床睡是正常的嗎?」
07:38
questions問題 like, "Is it normal正常 to sleep睡覺
in a separate分離 bed to my wife妻子?"
182
446326
3261
「人們會對身上的刺青覺得後悔嗎?」
07:41
"Do people regret後悔 their tattoos紋身?"
183
449611
1591
「自然死亡」是甚麼意思?
07:43
"What does it mean to die
of natural自然 causes原因?"
184
451226
2164
07:45
All of these questions問題 are great,
because they make you think
185
453414
2966
所有的問題都很棒,
因為這些問題會讓你思考,
用什麼方法尋找並傳達這些數字。
07:48
about ways方法 to find
and communicate通信 these numbers數字.
186
456404
2336
如果有人問你,「尿多少尿才算太多?」
07:50
If someone有人 asks you,
"How much pee撒尿 is a lot of pee撒尿?"
187
458764
2503
07:53
which哪一個 is a question that I got asked,
188
461291
2458
我真的曾經被問過這個問題,
07:55
you really want to make sure
that the visualization可視化 makes品牌 sense
189
463773
2980
你會很想用視覺化圖像來表達,
這樣可以盡量讓更多人理解。
07:58
to as many許多 people as possible可能.
190
466777
1747
08:00
These numbers數字 aren't unavailable不可用.
191
468548
1575
這些數字不是找不到。
08:02
Sometimes有時 they're just buried隱藏
in the appendix附錄 of an academic學術的 study研究.
192
470147
3507
有時候,數據只是被埋沒在
學術研究的附錄裡。
08:05
And they're certainly當然 not inscrutable高深莫測;
193
473678
1839
但是它們並非難以理解的;
08:07
if you really wanted to test測試
these numbers數字 on urination排尿 volume,
194
475541
2975
如果你真的想要檢驗
這些有關尿量的數據,
你自己拿個瓶子試試就知道了。
08:10
you could grab a bottle瓶子
and try it for yourself你自己.
195
478540
2257
(笑聲)
08:12
(Laughter笑聲)
196
480821
1008
08:13
The point of this isn't necessarily一定
197
481853
1694
重點是,這些數據
並不是每樣都要與你有關。
08:15
that every一切 single data數據 set
has to relate涉及 specifically特別 to you.
198
483571
2877
我對於「法國有多少女人
因為戴面紗與頭巾而被罰款」
08:18
I'm interested有興趣 in how many許多 women婦女
were issued發行 fines罰款 in France法國
199
486472
2880
這樣的議題很感興趣,
08:21
for wearing穿著 the face面對 veil面紗, or the niqab面紗,
200
489376
1959
即使我不住法國也不戴面紗。
08:23
even if I don't live生活 in France法國
or wear穿 the face面對 veil面紗.
201
491359
2618
08:26
The point of asking where you fit適合 in
is to get as much context上下文 as possible可能.
202
494001
3835
問自己是否符合數據當中的情況,
是為了儘量得到更多的事件脈絡。
08:29
So it's about zooming縮放 out
from one data數據 point,
203
497860
2191
所以我們要更宏觀地觀察數據,
08:32
like the unemployment失業 rate
is five percent百分,
204
500075
2104
像是失業率 5% 這類的數據,
可以觀察它如何隨著時間而變化,
08:34
and seeing眼看 how it changes變化 over time,
205
502203
1757
08:35
or seeing眼看 how it changes變化
by educational教育性 status狀態 --
206
503984
2650
或看看它在不同教育程度的差異──
08:38
this is why your parents父母 always
wanted you to go to college學院 --
207
506658
3104
這也許是爸媽希望你進大學的原因──
08:41
or seeing眼看 how it varies變化 by gender性別.
208
509786
2032
或是看它在不同性別上的表現。
08:43
Nowadays如今, male unemployment失業 rate is higher更高
209
511842
2127
如今,男性的失業率
已經比女性高了。
08:45
than the female unemployment失業 rate.
210
513993
1700
08:47
Up until直到 the early '80s,
it was the other way around.
211
515717
2695
但是在 80 年代初期之前,
情況是相反的。
這是美國社會到目前為止,
08:50
This is a story故事 of one
of the biggest最大 changes變化
212
518436
2117
其中一項最大的改變,
08:52
that's happened發生 in American美國 society社會,
213
520577
1720
一旦你眼光放遠,不被平均數字侷限,
這些訊息都存在圖表當中。
08:54
and it's all there in that chart圖表,
once一旦 you look beyond the averages均線.
214
522321
3276
軸線能呈現數據的各種意義;
08:57
The axes are everything;
215
525621
1165
08:58
once一旦 you change更改 the scale規模,
you can change更改 the story故事.
216
526810
2669
當你改變觀察的尺度,
你就能得到新的結論。
09:01
OK, so the third第三 and final最後 question
that I want you guys to think about
217
529503
3380
好,第三個也是最後一個問題,
當你觀察統計數據時
我希望各位去思考的是:
09:04
when you're looking at statistics統計 is:
218
532907
1819
這些數據是如何收集而來的?
09:06
How was the data數據 collected?
219
534750
1873
09:09
So far, I've only talked about the way
data數據 is communicated傳達,
220
537667
2939
目前為止,我只談論到
呈現數據的方式,
但收集資料的方式也同樣重要。
09:12
but the way it's collected
matters事項 just as much.
221
540630
2276
我知道這很困難,
09:14
I know this is tough強硬,
222
542930
1167
因為收集數據的方法,
經常是不透明而且有些無聊的,
09:16
because methodologies方法 can be opaque不透明
and actually其實 kind of boring無聊,
223
544121
3081
但有一些步驟
可以給各位用來檢視數據。
09:19
but there are some simple簡單 steps腳步
you can take to check this.
224
547226
2873
這裡我要舉最後一個例子。
09:22
I'll use one last example here.
225
550123
1839
09:24
One poll輪詢 found發現 that 41 percent百分 of Muslims穆斯林
in this country國家 support支持 jihad討伐異教徒,
226
552309
3887
一份民調指出,國內有 41% 的
穆斯林支持伊斯蘭聖戰,
09:28
which哪一個 is obviously明顯 pretty漂亮 scary害怕,
227
556220
1525
聽起來相當嚇人,
09:29
and it was reported報導 everywhere到處 in 2015.
228
557769
2642
這份調查在 2015 年被大肆報導。
09:32
When I want to check a number like that,
229
560435
2615
當我想檢驗這樣的數據時,
我會先尋找原始的問卷。
09:35
I'll start開始 off by finding發現
the original原版的 questionnaire調查問卷.
230
563074
2501
09:37
It turns out that journalists記者
who reported報導 on that statistic統計
231
565599
2926
結果發現,報導這則新聞的記者,
忽略了問卷當中的一個問題,
09:40
ignored忽視 a question
lower降低 down on the survey調查
232
568549
2231
題目中詢問了受訪者
「如何定義伊斯蘭聖戰?」
09:42
that asked respondents受訪者
how they defined定義 "jihad討伐異教徒."
233
570804
2346
大多數人的定義是:
09:45
And most of them defined定義 it as,
234
573174
1981
「為了更虔誠的信仰,穆斯林所進行
個人的、和平的內心鬥爭」。
09:47
"Muslims'穆斯林' personal個人, peaceful平靜的 struggle鬥爭
to be more religious宗教."
235
575179
3942
只有 16% 的人認為是
「對抗不信教者的暴力神聖戰爭」。
09:51
Only 16 percent百分 defined定義 it as,
"violent暴力 holy war戰爭 against反對 unbelievers不信."
236
579145
4194
所以真正的重點是:
09:55
This is the really important重要 point:
237
583363
2430
根據原本的數據,很有可能
09:57
based基於 on those numbers數字,
it's totally完全 possible可能
238
585817
2155
那些將聖戰
定義為暴力神聖戰爭的人,
09:59
that no one in the survey調查
who defined定義 it as violent暴力 holy war戰爭
239
587996
3105
根本不支持聖戰。
10:03
also said they support支持 it.
240
591125
1332
10:04
Those two groups might威力 not overlap交疊 at all.
241
592481
2208
這兩群人可能沒有根本重疊。
10:07
It's also worth價值 asking
how the survey調查 was carried攜帶的 out.
242
595122
2637
問卷調查的進行方式
也值得我們探討。
這次的民調是一種稱為
「自願參與」的調查方式,
10:09
This was something called an opt-in選擇參加 poll輪詢,
243
597783
1998
意思就是,任何人都可以上網
找到並且參與這項調查。
10:11
which哪一個 means手段 anyone任何人 could have found發現 it
on the internet互聯網 and completed完成 it.
244
599805
3402
你沒有辦法得知參與者
是否真的是穆斯林。
10:15
There's no way of knowing會心
if those people even identified確定 as Muslim穆斯林.
245
603231
3339
而且最後只有 600 個人
參與了那份民調。
10:18
And finally最後, there were 600
respondents受訪者 in that poll輪詢.
246
606594
2612
根據皮尤研究中心的資料,
10:21
There are roughly大致 three million百萬
Muslims穆斯林 in this country國家,
247
609230
2654
我們國內大約有三百萬名
伊斯蘭教信徒。
10:23
according根據 to Pew座位 Research研究 Center中央.
248
611908
1607
意思就是國內每五千名穆斯林當中,
10:25
That means手段 the poll輪詢 spoke to roughly大致
one in every一切 5,000 Muslims穆斯林
249
613539
2993
大約只有一位填寫了那份問卷。
10:28
in this country國家.
250
616556
1168
這也是為什麼政府的統計數據,
10:29
This is one of the reasons原因
251
617748
1266
10:31
why government政府 statistics統計
are often經常 better than private私人的 statistics統計.
252
619038
3607
通常比私人機構的調查
更為準確的原因之一。
一項民調可能訪談了幾百或一千人,
10:34
A poll輪詢 might威力 speak說話 to a couple一對
hundred people, maybe a thousand,
253
622669
3035
或者以萊雅公司在 2005 年
嘗試銷售護膚產品為例,
10:37
or if you're L'Oreal歐萊雅, trying to sell
skin皮膚 care關心 products製品 in 2005,
254
625728
3058
只訪談了 48 位
認為產品有效的女性就好了。
10:40
then you spoke to 48 women婦女
to claim要求 that they work.
255
628810
2417
(笑聲)
10:43
(Laughter笑聲)
256
631251
1026
私人公司沒多少興趣
去追求數據的正確性,
10:44
Private私人的 companies公司 don't have a huge巨大
interest利益 in getting得到 the numbers數字 right,
257
632301
3556
他們只需要「對」的數字。
10:47
they just need the right numbers數字.
258
635881
1755
但是政府的統計人員可不能如此。
10:49
Government政府 statisticians統計學家 aren't like that.
259
637660
2020
至少在理論上,他們必須完全公正,
10:51
In theory理論, at least最小,
they're totally完全 impartial公正,
260
639704
2447
特別是因為他們大多數都很盡職,
不受掌權者所影響。
10:54
not least最小 because most of them do
their jobs工作 regardless而不管 of who's誰是 in power功率.
261
642175
3501
他們都是人民的公僕。
10:57
They're civil國內 servants公務員.
262
645700
1162
而為了做好份內的事,
10:58
And to do their jobs工作 properly正確,
263
646886
1964
他們不能只調查幾百人。
11:00
they don't just speak說話
to a couple一對 hundred people.
264
648874
2363
我所引用的失業率數字
11:03
Those unemployment失業 numbers數字
I keep on referencing引用
265
651261
2318
來自美國勞動統計局,
11:05
come from the Bureau of Labor勞動 Statistics統計,
266
653603
2004
為了這項估計,
11:07
and to make their estimates估計,
267
655631
1335
他們調查超過 14 萬家國內企業。
11:08
they speak說話 to over 140,000
businesses企業 in this country國家.
268
656990
3489
11:12
I get it, it's frustrating洩氣.
269
660503
1725
我懂,聽到這些很令人沮喪。
11:14
If you want to test測試 a statistic統計
that comes from a private私人的 company公司,
270
662252
3115
如果你想檢驗私人企業的
統計數據是否正確,
你可以替自己或其他朋友
買面霜來試用,
11:17
you can buy購買 the face面對 cream奶油 for you
and a bunch of friends朋友, test測試 it out,
271
665391
3361
如果覺得沒有效果,
你就可以說他們的數據有誤。
11:20
if it doesn't work,
you can say the numbers數字 were wrong錯誤.
272
668776
2591
但是你要如何
對政府的統計數據提出質疑呢?
11:23
But how do you question
government政府 statistics統計?
273
671391
2146
你需要檢查這些數據的方方面面。
11:25
You just keep checking檢查 everything.
274
673561
1630
找出他們是如何收集這些數據的。
11:27
Find out how they collected the numbers數字.
275
675215
1913
找出圖表中是否有你需要的全部訊息。
11:29
Find out if you're seeing眼看 everything
on the chart圖表 you need to see.
276
677152
3125
但是也不要完全放棄數據,
因為如果你放棄了,
11:32
But don't give up on the numbers數字
altogether, because if you do,
277
680301
2965
我們就會受私人利益的誤導,
11:35
we'll be making製造 public上市 policy政策
decisions決定 in the dark黑暗,
278
683290
2439
在無知的狀態下,
制訂出錯誤的公共政策。
11:37
using運用 nothing but private私人的
interests利益 to guide指南 us.
279
685753
2262
謝謝各位。
11:40
Thank you.
280
688039
1166
(掌聲)
11:41
(Applause掌聲)
281
689229
2461
Translated by Yi-Fan Yu
Reviewed by Wilde Luo

▲Back to top

ABOUT THE SPEAKER
Mona Chalabi - Data journalist
Mona Chalabi tries to take the numb out of numbers. She's left with lots of "ers."

Why you should listen

After working for a humanitarian organisation, Mona Chalabi saw how important data was, but also how easily it could be used by people with their own specific agendas. Since then, her work for organizations like Transparency International and The Guardian has had one goal: to make sure as many people as possible can find and question the data they need to make informed decisions about their lives.

Chalabi is currently the Data Editor of the Guardian US, where she writes articles, produces documentaries and turns data into illustrations and animations. In 2016, her data illustrations were commended by the Royal Statistical Society.

More profile about the speaker
Mona Chalabi | Speaker | TED.com