ABOUT THE SPEAKERS
Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com
TEDxBoston 2011

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

El que hem après amb 5 milions de llibres.

Filmed:
2,049,453 views

Heu fet servir el Google Labs' Ngram Viewer? És una eina addictiva que et permet cercar mots i idees en una base de dades de 5 milions de llibres de diferents segles. Erez Lieberman Aiden i Jean-Baptiste Michel ens monstren que funciona, i també algunes de les coses sorprenents que podem aprendre amb 5000 milions de mots.
- Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world. Full bio - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ... Full bio

Double-click the English transcript below to play the video.

00:15
ErezErez LiebermanLieberman AidenAiden: EveryoneTothom knowssap
0
0
2000
Erez Lieberman Aiden: Tothom sap
00:17
that a pictureimatge is worthval la pena a thousandmilers wordsparaules.
1
2000
3000
que una imatge val més que mil mots.
00:22
But we at HarvardHarvard
2
7000
2000
Però a Harvard
00:24
were wonderingpreguntant-se if this was really trueveritat.
3
9000
3000
ens preguntàvem si és de veres.
00:27
(LaughterRiure)
4
12000
2000
(Rialles)
00:29
So we assembledmuntat a teamequip of expertsexperts,
5
14000
4000
Així doncs vam formar un grup d'experts,
00:33
spanningabastant HarvardHarvard, MITMIT,
6
18000
2000
incloent-hi Harvard, el MIT,
00:35
The AmericanNord-americà HeritagePatrimoni DictionaryDiccionari, The EncyclopediaEnciclopèdia BritannicaBritannica
7
20000
3000
The American Heritage Dictionary, La Enciclopèdia Britànica
00:38
and even our proudorgullós sponsorspatrocinadors,
8
23000
2000
i fins i tot el nostre orgullós espònsor,
00:40
the GoogleGoogle.
9
25000
3000
Google.
00:43
And we cogitatedcogitated about this
10
28000
2000
I ens ho vam rumiar
00:45
for about fourquatre yearsanys.
11
30000
2000
durant vora quatre anys.
00:47
And we cameva venir to a startlinguna sorprenent conclusionconclusió.
12
32000
5000
I vam arribar a una conclusió sorprenent.
00:52
LadiesSenyores and gentlemensenyors, a pictureimatge is not worthval la pena a thousandmilers wordsparaules.
13
37000
3000
Senyores i senyors, una imatge no val més que mil mots.
00:55
In factfet, we foundtrobat some picturesimatges
14
40000
2000
De fet, vam trobar algunes imatges
00:57
that are worthval la pena 500 billionmil milions wordsparaules.
15
42000
5000
que valen més que 500.000 milions de mots.
01:02
Jean-BaptisteJean-Baptiste MichelMichel: So how did we get to this conclusionconclusió?
16
47000
2000
Jean-Baptiste Michel: Així doncs com vam arribar a aquesta conclusió?
01:04
So ErezErez and I were thinkingpensant about waysmaneres
17
49000
2000
Erez i jo buscàvem maneres
01:06
to get a biggran pictureimatge of humanhumà culturecultura
18
51000
2000
de trobar una imatge general de la cultura
01:08
and humanhumà historyhistòria: changecanviar over time.
19
53000
3000
i història humanes: com canvien amb el temps.
01:11
So manymolts booksllibres actuallyen realitat have been writtenescrit over the yearsanys.
20
56000
2000
S'han escrit molts i molts llibres al llarg de la història.
01:13
So we were thinkingpensant, well the bestmillor way to learnaprendre from them
21
58000
2000
Pensàvem que la millor manera d´aprendre d'ells
01:15
is to readllegir all of these millionsmilions of booksllibres.
22
60000
2000
és llegir-se tots aquests milions de llibres.
01:17
Now of coursecurs, if there's a scaleescala for how awesomeincreïble that is,
23
62000
3000
Ara, és clar, si hi ha una escala per a la magnitud de tot això,
01:20
that has to rankrang extremelyextremadament, extremelyextremadament highalt.
24
65000
3000
cal que vagi extremadament per dalt.
01:23
Now the problemproblema is there's an X-axisEix x for that,
25
68000
2000
El problema és que també hi ha un eix d'abscisses per a això,
01:25
whichquin is the practicalpràctic axiseix.
26
70000
2000
el qual és l'eix pràctic.
01:27
This is very, very lowbaix.
27
72000
2000
És molt, molt baix.
01:29
(ApplauseAplaudiments)
28
74000
3000
(Aplaudiment)
01:32
Now people tendtendeix to use an alternativealternativa approachenfocament,
29
77000
3000
Ara la gent tendeix a fer servir un enfocament alternatiu,
01:35
whichquin is to take a fewpocs sourcesfonts and readllegir them very carefullyacuradament.
30
80000
2000
que és prendre poques fonts i llegilr-les amb molta cura.
01:37
This is extremelyextremadament practicalpràctic, but not so awesomeincreïble.
31
82000
2000
Això és molt pràctic, però no tan sorprenent.
01:39
What you really want to do
32
84000
3000
El que realment volem fer
01:42
is to get to the awesomeincreïble yetencara practicalpràctic partpart of this spaceespai.
33
87000
3000
és aconseguir la part sorprenent, i pràctica d'aquest espai.
01:45
So it turnsgirs out there was a companyempresa acrossa través de the riverriu calledanomenat GoogleGoogle
34
90000
3000
Resulta que hi havia una companyia a l'altra vorera del riu anomenada Google
01:48
who had startedva començar a digitizationdigitalització projectprojecte a fewpocs yearsanys back
35
93000
2000
que havia encetat un procés de digitalització fa alguns anys
01:50
that mightpotser just enablehabilitar this approachenfocament.
36
95000
2000
que potser possibilitaria aquest enfocament.
01:52
They have digitizeddigitalitzat millionsmilions of booksllibres.
37
97000
2000
Han digitalitzat milions de llibres.
01:54
So what that meanssignifica is, one could use computationalcomputacional methodsmètodes
38
99000
3000
El que això vol dir és que hom podria usar mètodes informàtics
01:57
to readllegir all of the booksllibres in a clickfeu clic a of a buttonbotó.
39
102000
2000
per llegir tots els llibres amb un clic del ratolí.
01:59
That's very practicalpràctic and extremelyextremadament awesomeincreïble.
40
104000
3000
Això és molt pràctic i molt i molt sorprenent.
02:03
ELAELA: Let me tell you a little bitpoc about where booksllibres come from.
41
108000
2000
ELA: Us diré ara una mica sobre l'origen dels llibres.
02:05
SinceDes de time immemorialimmemorial, there have been authorsautors.
42
110000
3000
Des de temps immemorials, hi ha hagut autors.
02:08
These authorsautors have been strivingesforçant to writeescriure booksllibres.
43
113000
3000
S'han esforçat en escriure llibres.
02:11
And this becamees va convertir considerablyconsiderablement easiermés fàcil
44
116000
2000
Això esdevingué molt més fàcil
02:13
with the developmentdesenvolupament of the printingimpressió presspremeu some centuriessegles agofa.
45
118000
2000
amb el desenvolupament de la impremta fa alguns segles.
02:15
SinceDes de then, the authorsautors have wonguanyat
46
120000
3000
Des de llavors, els autors han guanyat
02:18
on 129 millionmilions distinctdiferent occasionsocasions,
47
123000
2000
129 milions vegades,
02:20
publishingedició booksllibres.
48
125000
2000
tot publicant llibres.
02:22
Now if those booksllibres are not lostperdut to historyhistòria,
49
127000
2000
Si aquests llibres no es perden en la nit dels temps,
02:24
then they are somewhereen algun lloc in a librarybiblioteca,
50
129000
2000
aleshores hi són en algun lloc d'una biblioteca,
02:26
and manymolts of those booksllibres have been gettingaconseguint retrievedrecuperat from the librariesbiblioteques
51
131000
3000
i molts d'ells han estat deixats en préstec a les biblioteques
02:29
and digitizeddigitalitzat by GoogleGoogle,
52
134000
2000
i digitalitzats per Google,
02:31
whichquin has scannedescanejat 15 millionmilions booksllibres to datedata.
53
136000
2000
qui ha escanejat 15 milions de llibres fins avui.
02:33
Now when GoogleGoogle digitizesDigitalitza a bookllibre, they put it into a really niceagradable formatformat.
54
138000
3000
Quan Google digitalitza un llibre, li donen un format bonic de veres.
02:36
Now we'vetenim got the datadades, plusmés we have metadatametadades.
55
141000
2000
Ara tenim les dades i, a més a més, les metadades.
02:38
We have informationinformació about things like where was it publishedpublicat,
56
143000
3000
Tenim informació sobre coses com on ha estat publicat,
02:41
who was the authorautor, when was it publishedpublicat.
57
146000
2000
qui era l'autor, quan fou publicat.
02:43
And what we do is go througha través all of those recordsregistres
58
148000
3000
I el que fem és esbrinar tots aquests registres
02:46
and excludeexcloure everything that's not the highestel més alt qualityqualitat datadades.
59
151000
4000
i excloure tot allò que no siguin les dades de més qualitat.
02:50
What we're left with
60
155000
2000
El que ens queda
02:52
is a collectioncol · lecció of fivecinc millionmilions booksllibres,
61
157000
3000
és una col·leció de cinc milions de llibres,
02:55
500 billionmil milions wordsparaules,
62
160000
3000
500.000 milions de mots,
02:58
a stringcadena of characterspersonatges a thousandmilers timestemps longermés llarg
63
163000
2000
una tirallonga de lletres mil vegades més llarga
03:00
than the humanhumà genomegenoma --
64
165000
3000
que el genoma humà --
03:03
a texttext whichquin, when writtenescrit out,
65
168000
2000
un text que, un cop escrit,
03:05
would stretchestirar from here to the MoonLluna and back
66
170000
2000
faria el camí d'anada i tornada a la lluna
03:07
10 timestemps over --
67
172000
2000
més de 10 vegades --
03:09
a veritableveritable shardpedra de of our culturalcultural genomegenoma.
68
174000
4000
un veritable fragment del nostre genoma cultural.
03:13
Of coursecurs what we did
69
178000
2000
És cert que el que vam fer
03:15
when facedenfrontat with suchtal outrageousescandalosament hyperbolehipèrbole ...
70
180000
3000
al enfrontar-nos a aquesta hipèrbole indignant ...
03:18
(LaughterRiure)
71
183000
2000
(Rialles)
03:20
was what any self-respectingpreï researchersinvestigadors
72
185000
3000
fou allò que qualsevol investigador que es precïi
03:23
would have donefet.
73
188000
3000
hauria fet.
03:26
We tookva prendre a pagepàgina out of XKCDXKCD,
74
191000
2000
Vam agafar una plana del còmic XKCD,
03:28
and we said, "StandEstand back.
75
193000
2000
i diguérem, "Atura't.
03:30
We're going to try scienceciència."
76
195000
2000
Provarem de fer ciència."
03:32
(LaughterRiure)
77
197000
2000
(Rialles)
03:34
JMJM: Now of coursecurs, we were thinkingpensant,
78
199000
2000
JM: És clar, hi pensem,
03:36
well let's just first put the datadades out there
79
201000
2000
posem les dades per aquí
03:38
for people to do scienceciència to it.
80
203000
2000
perquè la gent faci ciència amb elles.
03:40
Now we're thinkingpensant, what datadades can we releasealliberament?
81
205000
2000
I pensem, quines dades podem publicar?
03:42
Well of coursecurs, you want to take the booksllibres
82
207000
2000
Evidentment, hom vol prendre els llibres
03:44
and releasealliberament the fullple texttext of these fivecinc millionmilions booksllibres.
83
209000
2000
i publicar el text sencer de cinc milions de llibres.
03:46
Now GoogleGoogle, and JonJon OrwantOrwant in particularparticular,
84
211000
2000
Google, i Jon Orwant en particular,
03:48
told us a little equationequació that we should learnaprendre.
85
213000
2000
ens van dir una petita equació que calia que aprenguéssim.
03:50
So you have fivecinc millionmilions, that is, fivecinc millionmilions authorsautors
86
215000
3000
Així doncs hi ha cinc milions, és a dir, cinc milions d'autors
03:53
and fivecinc millionmilions plaintiffsdemandants is a massivemassiu lawsuitdemanda.
87
218000
3000
i cinc millions de demandes judicials és un procés descomunal.
03:56
So, althoughencara que that would be really, really awesomeincreïble,
88
221000
2000
Així doncs, encara que això seria molt i molt sorprenent,
03:58
again, that's extremelyextremadament, extremelyextremadament impracticalimpracticable.
89
223000
3000
una vegada més, seria molt i molt poc pràctic.
04:01
(LaughterRiure)
90
226000
2000
(Rialles)
04:03
Now again, we kindamable of cavedes va ensorrar in,
91
228000
2000
Llavors, gairebé ens vam ensorrar,
04:05
and we did the very practicalpràctic approachenfocament, whichquin was a bitpoc lessmenys awesomeincreïble.
92
230000
3000
i optàrem per l'enfocament pràctic, que no era tan sorprenent.
04:08
We said, well insteaden canvi of releasingl'alliberament the fullple texttext,
93
233000
2000
Ens vam dir, en lloc de publicar el text sencer,
04:10
we're going to releasealliberament statisticsestadístiques about the booksllibres.
94
235000
2000
publicarem estadístiques al voltant dels llibres.
04:12
So take for instanceinstància "A gleambrillantor of happinessfelicitat."
95
237000
2000
A tall d'exemple "A gleam of happiness."
04:14
It's fourquatre wordsparaules; we call that a four-gramquatre grams.
96
239000
2000
Té quatre paraules; ho anomenem un quatre-grams.
04:16
We're going to tell you how manymolts timestemps a particularparticular four-gramquatre grams
97
241000
2000
Us direm quantes vegades va aparèixer un quatre-grams en particular
04:18
appearedva aparèixer in booksllibres in 1801, 1802, 1803,
98
243000
2000
en els llibres de 1801, 1802, 1802,
04:20
all the way up to 2008.
99
245000
2000
fins a l'any 2008.
04:22
That givesdóna us a time seriessèrie
100
247000
2000
Això ens dóna una sèrie temporal
04:24
of how frequentlyfreqüentment this particularparticular sentencesentència was used over time.
101
249000
2000
sobre la freqüència amb què una frase concreta ha estat usada al llarg del temps.
04:26
We do that for all the wordsparaules and phrasesfrases that appearapareixen in those booksllibres,
102
251000
3000
Ho fem amb tots els mots i frases que apareixen en aquells llibres,
04:29
and that givesdóna us a biggran tabletaula of two billionmil milions lineslínies
103
254000
3000
i ens dóna una gran taula de 2000 milions de línies
04:32
that tell us about the way culturecultura has been changingcanviant.
104
257000
2000
que ens parla sobre la manera com la cultura ha canviat.
04:34
ELAELA: So those two billionmil milions lineslínies,
105
259000
2000
ELA: Així doncs 2000 milions de línies,
04:36
we call them two billionmil milions n-gramsn-g.
106
261000
2000
ho anomenem 2000 milions de n-grams.
04:38
What do they tell us?
107
263000
2000
Què ens diu tot això?
04:40
Well the individualindividual n-gramsn-g measuremesurar culturalcultural trendstendències.
108
265000
2000
Doncs que els n-grams mesuren les tendències culturals.
04:42
Let me give you an exampleexemple.
109
267000
2000
Us posaré un exemple.
04:44
Let's supposesuposo that I am thrivingpròspera,
110
269000
2000
Suposem que estic esforçant-me,
04:46
then tomorrowdemà I want to tell you about how well I did.
111
271000
2000
demà vull contar-vos el que vaig fer ahir.
04:48
And so I mightpotser say, "YesterdayAhir, I throvethrove."
112
273000
3000
Podria dir-vos, "Ahir, em vaig esforçar."
04:51
AlternativelyAlternativament, I could say, "YesterdayAhir, I thrivedva prosperar."
113
276000
3000
Altrament, puc dir, "Ahir, m'esforcí."
04:54
Well whichquin one should I use?
114
279000
3000
Quina forma cal que faci servir?
04:57
How to know?
115
282000
2000
Com saber-ho?
04:59
As of about sixsis monthsmesos agofa,
116
284000
2000
Fa com sis mesos,
05:01
the stateestat of the artart in this fieldcamp
117
286000
2000
el més novedós en aquest camp
05:03
is that you would, for instanceinstància,
118
288000
2000
era que, posem per cas, hom
05:05
go up to the followingsegüent psychologistpsicòleg with fabulousfabulós haircabell,
119
290000
2000
aniria al psicòleg amb cabells fabulosos
05:07
and you'dho faria say,
120
292000
2000
i li preguntaria,
05:09
"SteveSteve, you're an expertexpert on the irregularirregular verbsVerbs.
121
294000
3000
"Steve, tu que ets un expert en verbs irregulars.
05:12
What should I do?"
122
297000
2000
Què cal que digui?"
05:14
And he'del tindria tell you, "Well mostla majoria people say thrivedva prosperar,
123
299000
2000
I et diria, "la majoria de la gent diu em vaig esforçar,
05:16
but some people say throvethrove."
124
301000
3000
però alguns diuen m'esforcí."
05:19
And you alsotambé knewsabia, more or lessmenys,
125
304000
2000
I hom sap que, més o menys,
05:21
that if you were to go back in time 200 yearsanys
126
306000
3000
si ens remuntem 200 anys en la història
05:24
and askpreguntar the followingsegüent statesmanestadista with equallyigualment fabulousfabulós haircabell,
127
309000
3000
i preguntem al següent estadista també amb cabells fabulosos,
05:27
(LaughterRiure)
128
312000
3000
(Rialles)
05:30
"TomTom, what should I say?"
129
315000
2000
"Tom, què cal que digui?"
05:32
He'dHo faria say, "Well, in my day, mostla majoria people throvethrove,
130
317000
2000
Diria, "Bé, en la meua època, la majoria deia m'esforcí,
05:34
but some thrivedva prosperar."
131
319000
3000
i alguns em vaig esforçar."
05:37
So now what I'm just going to showespectacle you is rawcrua datadades.
132
322000
2000
El que ara us mostraré són dades en brut.
05:39
Two rowsfiles from this tabletaula of two billionmil milions entriesentrades.
133
324000
4000
Dues línes en aquesta taula de 2000 milions d'entrades.
05:43
What you're seeingveient is yearcurs by yearcurs frequencyfreqüència
134
328000
2000
El que esteu veient és la freqüència any rere any
05:45
of "thrivedva prosperar" and "throvethrove" over time.
135
330000
3000
de "em vaig esforçar" i "m'esforcí".
05:49
Now this is just two
136
334000
2000
Això és sols dues
05:51
out of two billionmil milions rowsfiles.
137
336000
3000
línies dels 2000 milions.
05:54
So the entiretot datadades setconjunt
138
339000
2000
Doncs totes les dades plegades
05:56
is a billionmil milions timestemps more awesomeincreïble than this slidediapositiva.
139
341000
3000
són 1000 milions de cops més sorprenents que aquesta diapositiva.
05:59
(LaughterRiure)
140
344000
2000
(Rialles)
06:01
(ApplauseAplaudiments)
141
346000
4000
(Aplaudiment)
06:05
JMJM: Now there are manymolts other picturesimatges that are worthval la pena 500 billionmil milions wordsparaules.
142
350000
2000
JM: Hi ha moltes altres imatges que valen més que 500.000 milions de paraules.
06:07
For instanceinstància, this one.
143
352000
2000
Per exemple, aquesta.
06:09
If you just take influenzagrip,
144
354000
2000
Si prenem en consideració la grip
06:11
you will see peakspics at the time where you knewsabia
145
356000
2000
hom veurà pics allà on se sap que
06:13
biggran flugrip epidemicsepidèmies were killingmatant people around the globeglobus terraqüi.
146
358000
3000
grans epidèmies de grip eren mortíferes a escala mundial.
06:16
ELAELA: If you were not yetencara convincedconvençut,
147
361000
3000
ELA: Si encara no estiguéssiu convençuts,
06:19
seamar levelsnivells are risingpujant,
148
364000
2000
el nivell del mar està pujant,
06:21
so is atmosphericatmosfèric COCO2 and globalglobal temperaturetemperatura.
149
366000
3000
igual que el CO2 de l'atmosfera i el rescalfament global.
06:24
JMJM: You mightpotser alsotambé want to have a look at this particularparticular n-gramn-grames,
150
369000
3000
JM: Potser us interessi fer una ullada a aquest n-gram,
06:27
and that's to tell NietzscheNietzsche that God is not deadmort,
151
372000
3000
per dir-li a Nietzsche que Déu és mort,
06:30
althoughencara que you mightpotser agreeacordar that he mightpotser need a better publicistpublicista.
152
375000
3000
tot i que potser esteu d'acord que potser necessita un altre publicista.
06:33
(LaughterRiure)
153
378000
2000
(Rialles)
06:35
ELAELA: You can get at some prettybonic abstractresum conceptsconceptes with this sortordenar of thing.
154
380000
3000
ELA: Hom pot arribar a alguns conceptes prou abstractes amb això.
06:38
For instanceinstància, let me tell you the historyhistòria
155
383000
2000
Per exemple, us contaré la història
06:40
of the yearcurs 1950.
156
385000
2000
de l'any 1950.
06:42
PrettyForça much for the vastimmens majoritymajoria of historyhistòria,
157
387000
2000
Pel que fa a gran part de la història,
06:44
no one gaveva donar a damnmaleïda about 1950.
158
389000
2000
a ningú li importava un rave el 1950.
06:46
In 1700, in 1800, in 1900,
159
391000
2000
El 1700, el 1800, el 1900,
06:48
no one caredcuidat.
160
393000
3000
a ningú li importaven un rave.
06:52
ThroughA través de the 30s and 40s,
161
397000
2000
Els anys 30 i 40,
06:54
no one caredcuidat.
162
399000
2000
a ningú li importava un rave.
06:56
SuddenlyDe sobte, in the mid-mid-40s,
163
401000
2000
De sobte, a mitjans dels anys 40,
06:58
there startedva començar to be a buzzbrunzit.
164
403000
2000
va començar a haver-hi un rumor.
07:00
People realizedadonar-se'n that 1950 was going to happenpassar,
165
405000
2000
La gent s'adonà que 1950 anava a succeir,
07:02
and it could be biggran.
166
407000
2000
i que potser seria gran.
07:04
(LaughterRiure)
167
409000
3000
(Rialles)
07:07
But nothing got people interestedinteressat in 1950
168
412000
3000
Però no-res va fer que la gent s'hi interessessi.
07:10
like the yearcurs 1950.
169
415000
3000
tant com l'any 1950.
07:13
(LaughterRiure)
170
418000
3000
(Rialles)
07:16
People were walkingcaminant around obsessedobsessionat.
171
421000
2000
La gent s'hi estava obsessionant.
07:18
They couldn'tno podia stop talkingparlar
172
423000
2000
No podien deixar de parlar-ne
07:20
about all the things they did in 1950,
173
425000
3000
sobre allò que havien fet en 1950,
07:23
all the things they were planningplanificació to do in 1950,
174
428000
3000
tot allò que planejaven fer en 1950,
07:26
all the dreamssomnis of what they wanted to accomplishaconseguir in 1950.
175
431000
5000
tots els somnis al voltant d'allò que volien aconseguir en 1950.
07:31
In factfet, 1950 was so fascinatingfascinant
176
436000
2000
De fet, el 1950 va ser tant fascinant
07:33
that for yearsanys thereaftera partir de llavors,
177
438000
2000
que durant anys després,
07:35
people just keptmantingut talkingparlar about all the amazingsorprenent things that happenedsucceït,
178
440000
3000
la gent va continuar parlant sobre les coses meravelloses que havien passat,
07:38
in '51, '52, '53.
179
443000
2000
en 1951, 52, 53.
07:40
FinallyFinalment in 1954,
180
445000
2000
Al capdavall en 1954,
07:42
someonealgú wokeva despertar up and realizedadonar-se'n
181
447000
2000
algú es va despertar i es va adonar
07:44
that 1950 had gottenaconseguit somewhatuna mica passpassaré.
182
449000
4000
que el 1950 havia, d'alguna manera, passat de moda.
07:48
(LaughterRiure)
183
453000
2000
(Rialles)
07:50
And just like that, the bubblebombolla burstexplosió.
184
455000
2000
I simplement així, la bombolla va esclatar.
07:52
(LaughterRiure)
185
457000
2000
(Rialles)
07:54
And the storyhistòria of 1950
186
459000
2000
I la història del 1950
07:56
is the storyhistòria of everycada yearcurs that we have on recordregistre,
187
461000
2000
és la història de cada any que tenim enregistrat,
07:58
with a little twistgir, because now we'vetenim got these niceagradable chartsgràfics.
188
463000
3000
amb un petit canvi, perquè ara tenim aquests fantàstics gràfics.
08:01
And because we have these niceagradable chartsgràfics, we can measuremesurar things.
189
466000
3000
I com que tenim aquests fantàstics gràfics, podem mesurar les coses.
08:04
We can say, "Well how fastràpid does the bubblebombolla burstexplosió?"
190
469000
2000
Podem afirmar, "A quina velocitat esclata la bombolla?
08:06
And it turnsgirs out that we can measuremesurar that very preciselyprecisament.
191
471000
3000
I resulta que podem mesurar-ho amb molta precisió.
08:09
EquationsEquacions were derivedderivat, graphsgràfics were producedproduït,
192
474000
3000
Vam resoldre equacions, generar gràfics.
08:12
and the netnet resultresultat
193
477000
2000
i el resultat nítid
08:14
is that we find that the bubblebombolla burstsràfegues fastermés ràpid and fastermés ràpid
194
479000
3000
és que trobem que la bombolla esclata més i més ràpidament
08:17
with eachcadascun passingpassant yearcurs.
195
482000
2000
amb cada any que passa.
08:19
We are losingperdent interestinterès in the pastpassat more rapidlyràpidament.
196
484000
5000
El passat deixa d'interessar-nos més ràpidament.
08:24
JMJM: Now a little piecepeça of careercarrera adviceconsells.
197
489000
2000
JM: Ara un petit consell per a la vida professional.
08:26
So for those of you who seekbuscar to be famousfamós,
198
491000
2000
Per a aquells de vosaltres qui vulgueu ser famosos,
08:28
we can learnaprendre from the 25 mostla majoria famousfamós politicalpolític figuresxifres,
199
493000
2000
podem aprendre de les 25 figures polítiques més famoses,
08:30
authorsautors, actorsactors and so on.
200
495000
2000
autors, actors, etc.
08:32
So if you want to becomeconvertir-se en famousfamós earlyaviat on, you should be an actoractor,
201
497000
3000
Així, si algú vol esdevenir famós aviat, caldria que fos actor,
08:35
because then famefama startscomença risingpujant by the endfinal of your 20s --
202
500000
2000
perquè la fama comença a crèixer quan tens gariebé 30 anys --
08:37
you're still youngjove, it's really great.
203
502000
2000
encara ets jove, això és bonic de veres.
08:39
Now if you can wait a little bitpoc, you should be an authorautor,
204
504000
2000
Ara si pots esperar una mica més, caldria que fossis un autor,
08:41
because then you risepujar to very great heightsaltures,
205
506000
2000
perquè llavors t'aixecaràs a alçades molt elevades,
08:43
like MarkMark TwainSamuel, for instanceinstància: extremelyextremadament famousfamós.
206
508000
2000
com Mark Twain, per exemple: molt i molt famós.
08:45
But if you want to reacharribar the very topsuperior,
207
510000
2000
Però si vols assolir el cim,
08:47
you should delayretard gratificationgratificació
208
512000
2000
cal que endarrereixis la gratificació
08:49
and, of coursecurs, becomeconvertir-se en a politicianpolític.
209
514000
2000
i, és clar, esdevinguis polític.
08:51
So here you will becomeconvertir-se en famousfamós by the endfinal of your 50s,
210
516000
2000
En aquest cas seràs famós quan tinguis gairebé 60 anys,
08:53
and becomeconvertir-se en very, very famousfamós afterwarddesprés.
211
518000
2000
i seràs molt i molt famós després.
08:55
So scientistscientífics alsotambé tendtendeix to get famousfamós when they're much oldermés vell.
212
520000
3000
Els científics tendeixen a ser famosos quan són encara més grans.
08:58
Like for instanceinstància, biologistsbiòlegs and physicsfísica
213
523000
2000
Com, per exemple, els biòlegs i els físics
09:00
tendtendeix to be almostgairebé as famousfamós as actorsactors.
214
525000
2000
tendeixen a ser tan famosos com els actors.
09:02
One mistakeerrada you should not do is becomeconvertir-se en a mathematicianmatemàtic.
215
527000
3000
Una errada que cal evitar és convertir-se en matemàtic.
09:05
(LaughterRiure)
216
530000
2000
(Rialles)
09:07
If you do that,
217
532000
2000
Si ho fas,
09:09
you mightpotser think, "Oh great. I'm going to do my bestmillor work when I'm in my 20s."
218
534000
3000
potser pensis, "molt bé, faré la meua gran obra quan tingui 20 i escaig."
09:12
But guesssuposo what, nobodyningú will really carecura.
219
537000
2000
Però sabeu què, a ningú li importarà un rave.
09:14
(LaughterRiure)
220
539000
3000
(Rialles)
09:17
ELAELA: There are more soberingsobri notesnotes
221
542000
2000
ELA: Hi ha més notes alliçonadores
09:19
amongentre the n-gramsn-g.
222
544000
2000
entre els n-grams.
09:21
For instanceinstància, here'sheus aquí the trajectorytrajectòria of MarcMarc ChagallChagall,
223
546000
2000
A tall d'exemple, heus aquí la trajectòria de Marc Chagall,
09:23
an artistartista bornnascut in 1887.
224
548000
2000
un artista nascut en 1887.
09:25
And this looksaspecte like the normalnormal trajectorytrajectòria of a famousfamós personpersona.
225
550000
3000
I això sembla la trajectòria normal de una persona famosa.
09:28
He getses posa more and more and more famousfamós,
226
553000
4000
Es fa més i més famós,
09:32
exceptexcepte if you look in GermanAlemany.
227
557000
2000
excepte si recerques en alemay.
09:34
If you look in GermanAlemany, you see something completelycompletament bizarreestranya,
228
559000
2000
Si recerques en alemay, veus quelcom estrany del tot,
09:36
something you prettybonic much never see,
229
561000
2000
quelcom que garibé no veus mai,
09:38
whichquin is he becomeses converteix extremelyextremadament famousfamós
230
563000
2000
que és que esdevé molt i molt famós
09:40
and then all of a suddende sobte plummetspicat,
231
565000
2000
i llavors, sobtadament, decau
09:42
going througha través a nadirBanu betweenentre 1933 and 1945,
232
567000
3000
tot tocant fons entre 1933 i 1945,
09:45
before reboundingrebot afterwarddesprés.
233
570000
3000
abans de repuntar de nou.
09:48
And of coursecurs, what we're seeingveient
234
573000
2000
I, és clar, el que veiem
09:50
is the factfet MarcMarc ChagallChagall was a JewishJueu artistartista
235
575000
3000
és el fet que Marc Chagall era un artista jueu
09:53
in NaziNazi GermanyAlemanya.
236
578000
2000
a l'Alemanya nazi.
09:55
Now these signalssenyals
237
580000
2000
Aquests signes
09:57
are actuallyen realitat so strongfort
238
582000
2000
són realment tan forts
09:59
that we don't need to know that someonealgú was censoredcensurat.
239
584000
3000
que no cal que sapiguem que algú fou censurat.
10:02
We can actuallyen realitat figurefigura it out
240
587000
2000
Podem deduir-ho
10:04
usingutilitzant really basicbàsic signalsenyal processingprocessament.
241
589000
2000
fent servir un bàsic procesament de signes.
10:06
Here'sAquí és a simplesenzill way to do it.
242
591000
2000
Aquí teniu una manera simple de fer-ho.
10:08
Well, a reasonableraonable expectationexpectativa
243
593000
2000
Una expectativa raonable
10:10
is that somebody'salgú famefama in a givendonat periodperíode of time
244
595000
2000
és que la fama d'algú en un període donat de temps
10:12
should be roughlyaproximadament the averagemitjana of theirels seus famefama before
245
597000
2000
hauria de ser, més o menys, el promedi de la seva fama anterior
10:14
and theirels seus famefama after.
246
599000
2000
i la seva fama posterior.
10:16
So that's sortordenar of what we expectespera.
247
601000
2000
Doncs això és el que esperem.
10:18
And we comparecomparar that to the famefama that we observeobservar.
248
603000
3000
I comparem això amb la fama que observem.
10:21
And we just dividedividir one by the other
249
606000
2000
I dividim l'una entre l'altra
10:23
to produceproduir something we call a suppressionsupressió indexíndex.
250
608000
2000
per obtindre quelcom que anomenem índex de supressió.
10:25
If the suppressionsupressió indexíndex is very, very, very smallpetit,
251
610000
3000
Si l'índex de supressió és molt i molt petit,
10:28
then you very well mightpotser be beingser suppressedsuprimida.
252
613000
2000
és més que probable que t'estiguin suprimint.
10:30
If it's very largegran, maybe you're benefitingbeneficiant from propagandapropaganda.
253
615000
3000
I si és molt gran, potser és gràcies a la propaganda.
10:34
JMJM: Now you can actuallyen realitat look at
254
619000
2000
JM: Aquí podeu veure realment
10:36
the distributiondistribució of suppressionsupressió indexesíndexs over wholetot populationspoblacions.
255
621000
3000
la distribució dels índex de supresió de poblacions senceres.
10:39
So for instanceinstància, here --
256
624000
2000
Així doncs per exemple, aquí --
10:41
this suppressionsupressió indexíndex is for 5,000 people
257
626000
2000
l'índex de supressió és de 5.000 persones
10:43
pickedescollit in EnglishAnglès booksllibres where there's no knownconegut suppressionsupressió --
258
628000
2000
preses en llibres en anglés on no hi ha supressió coneguda --
10:45
it would be like this, basicallybàsicament tightlyamb força centeredcentrat on one.
259
630000
2000
seria d'aquesta manera, en essència centrat estretament al voltant del u.
10:47
What you expectespera is basicallybàsicament what you observeobservar.
260
632000
2000
El que ens esperaríem és el que observem.
10:49
This is distributiondistribució as seenvist in GermanyAlemanya --
261
634000
2000
Aquesta és la distribució vista en Alemanay --
10:51
very differentdiferent, it's shiftedva canviar to the left.
262
636000
2000
molt diferent, està inclinada envers l'esquerra.
10:53
People talkedva parlar about it twicedues vegades lessmenys as it should have been.
263
638000
3000
La gent en parlava dues vegades del que caldria esperar.
10:56
But much more importantlyimportant, the distributiondistribució is much widermés ampli.
264
641000
2000
Però encara més important, la distribució és molt més àmplia.
10:58
There are manymolts people who endfinal up on the farlluny left on this distributiondistribució
265
643000
3000
Hi ha molta gent que acaben en l'extrem esquerrà d'aquesta distribució
11:01
who are talkedva parlar about 10 timestemps fewermenys than they should have been.
266
646000
3000
dels quals es parla unes 10 vegades menys del que caldria esperar.
11:04
But then alsotambé manymolts people on the farlluny right
267
649000
2000
I, d'una altra banda, molta gent en el extrem contrari
11:06
who seemsembla to benefitbenefici from propagandapropaganda.
268
651000
2000
qui semblen rebre el benefici de la propaganda.
11:08
This pictureimatge is the hallmarksegell of censorshipcensura in the bookllibre recordregistre.
269
653000
3000
Aquesta imatge és l'epítom de la censura en el registre de llibres.
11:11
ELAELA: So culturomicsculturomics
270
656000
2000
ELA: cultròmica
11:13
is what we call this methodmètode.
271
658000
2000
és com hem anomenat aquest mètode.
11:15
It's kindamable of like genomicsgenòmica.
272
660000
2000
És com la genòmica.
11:17
ExceptExcepte genomicsgenòmica is a lenslent on biologybiologia
273
662000
2000
Tret que la genòmica és una lent vers la biologia
11:19
througha través the windowfinestra of the sequenceseqüència of basesbases in the humanhumà genomegenoma.
274
664000
3000
a través de la finestra de la seqüència de les bases en el genoma humà.
11:22
CulturomicsCulturomics is similarsimilar.
275
667000
2000
La cultròmica és similar.
11:24
It's the applicationaplicació of massive-scaleescala massiva datadades collectioncol · lecció analysisanàlisi
276
669000
3000
És l'aplicació de l'anàlisi de corpus massius de dades
11:27
to the studyestudiar of humanhumà culturecultura.
277
672000
2000
a l'estudi de la cultura humana.
11:29
Here, insteaden canvi of througha través the lenslent of a genomegenoma,
278
674000
2000
Aquí, en lloc de fer servir la lent del genoma,
11:31
througha través the lenslent of digitizeddigitalitzat piecespeces of the historicalhistòric recordregistre.
279
676000
3000
es fa a través de la lent de registres històrics digitalitzats.
11:34
The great thing about culturomicsculturomics
280
679000
2000
El bo de la cultròmica
11:36
is that everyonetothom can do it.
281
681000
2000
és que tothom pot practicar-la.
11:38
Why can everyonetothom do it?
282
683000
2000
Perquè pot practicar-la tothom?
11:40
EveryoneTothom can do it because threetres guys,
283
685000
2000
Gràcies a tres tipus,
11:42
JonJon OrwantOrwant, MattMatt GrayGris and Will BrockmanBrockman over at GoogleGoogle,
284
687000
3000
Jon Orwant, Matt Gray i Will Brockman a Google,
11:45
saw the prototypeprototip of the NgramNgram ViewerEspectador,
285
690000
2000
van veure el prototipus del Ngram Viewer,
11:47
and they said, "This is so fundiversió.
286
692000
2000
i van dir-se, "Això és molt divertit.
11:49
We have to make this availabledisponible for people."
287
694000
3000
Hem de posar-ho a l'abast de tothom."
11:52
So in two weekssetmanes flatpla -- the two weekssetmanes before our paperpaper cameva venir out --
288
697000
2000
Així que en sols dues setmanes -- les dues setmanes prèvies a la publicació de la nostra recerca --
11:54
they codedcodificat up a versionversió of the NgramNgram ViewerEspectador for the generalgeneral publicpúblic.
289
699000
3000
van codificar una versió del Ngram Viewer per al gran públic.
11:57
And so you too can typeescriu in any wordparaula or phrasefrase that you're interestedinteressat in
290
702000
3000
I llavors hom pot teclejar qualsevol mot o frase en què hom estigui interessat
12:00
and see its n-gramn-grames immediatelyimmediatament --
291
705000
2000
i veure el seu n-gram immediatament --
12:02
alsotambé browsenavegar examplesexemples of all the variousdiversos booksllibres
292
707000
2000
també navegar per exemples de diversos llibres
12:04
in whichquin your n-gramn-grames appearsapareix.
293
709000
2000
on aquest n-gram apareix.
12:06
JMJM: Now this was used over a millionmilions timestemps on the first day,
294
711000
2000
JM: Va ser utilitzat més d'un milio de vegades el primer dia,
12:08
and this is really the bestmillor of all the queriesconsultes.
295
713000
2000
i això és la millor de les consultes.
12:10
So people want to be theirels seus bestmillor, put theirels seus bestmillor footpeu forwardendavant.
296
715000
3000
La gent vol el bo i millor, engrescar-s'hi amb ganes.
12:13
But it turnsgirs out in the 18thth centurysegle, people didn't really carecura about that at all.
297
718000
3000
Però sembla ser que en el segle XVIII, a la gent li importava un rave tot això.
12:16
They didn't want to be theirels seus bestmillor, they wanted to be theirels seus beftbeft.
298
721000
3000
No volien el bo i millor (best), volien el bo i millor (beft).
12:19
So what happenedsucceït is, of coursecurs, this is just a mistakeerrada.
299
724000
3000
El que passava és, és clar, que això és una errada.
12:22
It's not that stroveesforçaven for mediocritymediocritat,
300
727000
2000
No és que s'esforcessin per la mediocritat,
12:24
it's just that the S used to be writtenescrit differentlyde manera diferent, kindamable of like an F.
301
729000
3000
és simplement que la S s'escrivia diferent, una mena de F.
12:27
Now of coursecurs, GoogleGoogle didn't pickcollir this up at the time,
302
732000
3000
Òbviament Google no ho va veure aleshores,
12:30
so we reportedreportat this in the scienceciència articlearticle that we wroteva escriure.
303
735000
3000
així que vam notificar-ho en el següent article científic que vam escriure.
12:33
But it turnsgirs out this is just a reminderrecordatori
304
738000
2000
Resulta que això és sols un recordatori
12:35
that, althoughencara que this is a lot of fundiversió,
305
740000
2000
que, tot i ser molt divertit,
12:37
when you interpretinterpretar these graphsgràfics, you have to be very carefulamb compte,
306
742000
2000
quan interpretes aquests gràfics, cal ser molt curós,
12:39
and you have to adoptadoptar the basebase standardsnormes in the sciencesciències.
307
744000
3000
i cal que s'adoptin els estàndards bàsics de les ciències.
12:42
ELAELA: People have been usingutilitzant this for all kindstipus of fundiversió purposesfinalitats.
308
747000
3000
ELA: La gent ho ha fet servir per a tot tipus de propòsits.
12:45
(LaughterRiure)
309
750000
7000
(Rialles)
12:52
ActuallyEn realitat, we're not going to have to talk,
310
757000
2000
En realitat, no parlarem,
12:54
we're just going to showespectacle you all the slidesdiapositives and remainromanen silentsilenciós.
311
759000
3000
simplement mostrarem les diapositives i estarem callats.
12:57
This personpersona was interestedinteressat in the historyhistòria of frustrationfrustració.
312
762000
3000
Aquesta persona estava interessada en la història de la frustració.
13:00
There's variousdiversos typestipus of frustrationfrustració.
313
765000
3000
Hi ha diversos tipus de frustració.
13:03
If you stubesborrany your toedit del peu, that's a one A "arghargh."
314
768000
3000
Si et fas mal al dit del peu, això és un "argh" amb una A.
13:06
If the planetplaneta EarthTerra is annihilateda continuació destruí by the VogonsVogons
315
771000
2000
Si el planeta Terra és anihilat pels Vogons
13:08
to make roomhabitació for an interstellarinterestel·lar bypassDerivació,
316
773000
2000
per fer lloc per una circumval·lació interstel·lar
13:10
that's an eightvuit A "aaaaaaaarghaaaaaaaargh."
317
775000
2000
Això és un "aaaaaaaargh" amb vuit As.
13:12
This personpersona studiesestudis all the "arghsarghs,"
318
777000
2000
Aquesta persona estudia tots els "arghs,"
13:14
from one througha través eightvuit A'sA.
319
779000
2000
des de una A a vuit As.
13:16
And it turnsgirs out
320
781000
2000
I resulta que
13:18
that the less-frequentmenys freqüents "arghsarghs"
321
783000
2000
els "arghs" menys freqüents
13:20
are, of coursecurs, the onesuns that correspondcorresponen to things that are more frustratingfrustrant --
322
785000
3000
són, és clar, els que corresponen a les coses més frustrants --
13:23
exceptexcepte, oddlyestranyament, in the earlyaviat 80s.
323
788000
3000
excepte, curiosament, a principis dels anys 80.
13:26
We think that mightpotser have something to do with ReaganReagan.
324
791000
2000
Pensem que potser estigui relacionat amb Reagan.
13:28
(LaughterRiure)
325
793000
2000
(Rialles)
13:30
JMJM: There are manymolts usagesusos of this datadades,
326
795000
3000
JM: Hi ha molts usos d'aquestes dades.
13:33
but the bottomfons linelínia is that the historicalhistòric recordregistre is beingser digitizeddigitalitzat.
327
798000
3000
però el més important és que els arxius històrics estan sent digitaliltzats.
13:36
GoogleGoogle has startedva començar to digitizedigitalitzar 15 millionmilions booksllibres.
328
801000
2000
Google ha començat a digitalitzar 15 milions de llibres.
13:38
That's 12 percentpercentatge of all the booksllibres that have ever been publishedpublicat.
329
803000
2000
Això és el 12 % de tots els llibres que s'han publicat en la història.
13:40
It's a sizableconsiderable chunkfragment of humanhumà culturecultura.
330
805000
3000
És un troç important de la cultura humana.
13:43
There's much more in culturecultura: there's manuscriptsmanuscrits, there newspapersdiaris,
331
808000
3000
Hi ha molt més en la cultura: hi ha manuscrits, periòdics,
13:46
there's things that are not texttext, like artart and paintingspintures.
332
811000
2000
hi ha coses que no són text, com ara art i quadres.
13:48
These all happenpassar to be on our computersordinadors,
333
813000
2000
I resulta que tot ho tenim als nostres ordinadors,
13:50
on computersordinadors acrossa través de the worldmón.
334
815000
2000
als ordinadors de tot el món.
13:52
And when that happenspassa, that will transformtransformar the way we have
335
817000
3000
I quan això succeixi, això transformarà la manera que tenim
13:55
to understandentendre our pastpassat, our presentpresent and humanhumà culturecultura.
336
820000
2000
d'entendre el nostre passat, el nostre present i la cultura humana.
13:57
Thank you very much.
337
822000
2000
Moltes gràcies.
13:59
(ApplauseAplaudiments)
338
824000
3000
(Aplaudiment)
Translated by Eduardo Otsoa
Reviewed by Fran Ontanaya

▲Back to top

ABOUT THE SPEAKERS
Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com