ABOUT THE SPEAKERS
Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com
TEDxBoston 2011

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

Det har vi lært af 5 millioner bøger

Filmed:
2,049,453 views

Har du leget med Ngram Viewer i Google Labs? Dette vanedannende værktøj lader dig søge efter ord og idéer i en database med 5 millioner bøger fra flere århundreder. Erez Liebermann Aiden og Jean-Baptiste Michel viser os, hvordan det virker, og nogle af de overraskende ting, vi kan lære af 500 milliarder ord.
- Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world. Full bio - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ... Full bio

Double-click the English transcript below to play the video.

00:15
ErezERez LiebermanLieberman AidenAiden: EveryoneAlle knowskender
0
0
2000
Erez Lieberman Aiden: Alle ved
00:17
that a picturebillede is worthværdi a thousandtusind wordsord.
1
2000
3000
at et billede siger mere end tusind ord
00:22
But we at HarvardHarvard
2
7000
2000
Men på Harvard
00:24
were wonderingundrende if this was really truerigtigt.
3
9000
3000
spurgte vi os selv, om det egentlig er sandt.
00:27
(LaughterLatter)
4
12000
2000
(Latter)
00:29
So we assembledsamles a teamhold of expertseksperter,
5
14000
4000
Så vi samlede et hold eksperter,
00:33
spanningspænder HarvardHarvard, MITMIT,
6
18000
2000
både fra Harvard, MIT,
00:35
The AmericanAmerikansk HeritageArv DictionaryOrdbog, The EncyclopediaEncyklopædi BritannicaBritannica
7
20000
3000
The American Heritage Dictionary, The Encyclopedia Britannica
00:38
and even our proudstolt sponsorssponsorer,
8
23000
2000
og sågar vores stolte sponsor...
00:40
the GoogleGoogle.
9
25000
3000
The Google.
00:43
And we cogitatedcogitated about this
10
28000
2000
Og vi har funderet over dette
00:45
for about fourfire yearsflere år.
11
30000
2000
i cirka fire år.
00:47
And we camekom to a startlingoverraskende conclusionkonklusion.
12
32000
5000
Og vores konklusion er overraskende.
00:52
LadiesDamer and gentlemenherrer, a picturebillede is not worthværdi a thousandtusind wordsord.
13
37000
3000
Mine damer og herrer, et billede siger ikke mere end tusind ord.
00:55
In factfaktum, we foundfundet some picturesbilleder
14
40000
2000
Det viste sig faktisk at nogle billeder
00:57
that are worthværdi 500 billionmilliard wordsord.
15
42000
5000
siger mere end 500 milliarder ord.
01:02
Jean-BaptisteJean-Baptiste MichelMichel: So how did we get to this conclusionkonklusion?
16
47000
2000
Jean-Baptiste Michel: Hvordan når vi denne konklusion?
01:04
So ErezERez and I were thinkingtænker about waysmåder
17
49000
2000
Erez og jeg tænkte på, hvordan man
01:06
to get a bigstor picturebillede of humanhuman culturekultur
18
51000
2000
kunne få overblik over menneskets kultur og historie -
01:08
and humanhuman historyhistorie: changelave om over time.
19
53000
3000
- og ændringen over tid.
01:11
So manymange booksbøger actuallyrent faktisk have been writtenskriftlig over the yearsflere år.
20
56000
2000
Der skrevet så mange bøger gennem tiderne.
01:13
So we were thinkingtænker, well the bestbedst way to learnlære from them
21
58000
2000
Så vi tænkte at man kan lære mest af alle disse bøger
01:15
is to readlæse all of these millionsmillioner of booksbøger.
22
60000
2000
ved at læse dem alle sammen.
01:17
Now of courseRute, if there's a scalevægt for how awesomefantastisk that is,
23
62000
3000
Hvis der er en skala for, hvor fantastisk det er
01:20
that has to rankrang extremelyekstremt, extremelyekstremt highhøj.
24
65000
3000
må det selvfølgelig ligge meget, meget højt (Awesome).
01:23
Now the problemproblem is there's an X-axisX-aksen for that,
25
68000
2000
Problemet er, at der også er en X-akse,
01:25
whichhvilken is the practicalpraktisk axisakse.
26
70000
2000
og det aksen for, om det også er praktisk.
01:27
This is very, very lowlav.
27
72000
2000
Den er meget, meget lav.
01:29
(ApplauseBifald)
28
74000
3000
(Bifald)
01:32
Now people tendtendens to use an alternativealternativ approachnærme sig,
29
77000
3000
Folk bruger som regel en anden tilgang,
01:35
whichhvilken is to take a few sourceskilder and readlæse them very carefullyomhyggeligt.
30
80000
2000
Man tager nogle få kilder og læser dem meget omhyggeligt.
01:37
This is extremelyekstremt practicalpraktisk, but not so awesomefantastisk.
31
82000
2000
Dette er meget praktisk, men ikke særlig fantastisk.
01:39
What you really want to do
32
84000
3000
Det bedste må være
01:42
is to get to the awesomefantastisk yetendnu practicalpraktisk parten del of this spaceplads.
33
87000
3000
at nå til dette fantastiske men alligevel praktiske område.
01:45
So it turnsdrejninger out there was a companySelskab acrosset kors the riverflod calledhedder GoogleGoogle
34
90000
3000
Et firma på den anden side af floden - Google -
01:48
who had startedstartede a digitizationdigitalisering projectprojekt a few yearsflere år back
35
93000
2000
startede et digitaliseringsprojekt for nogle år siden
01:50
that mightmagt just enablegøre det muligt for this approachnærme sig.
36
95000
2000
og det kan måske gøre denne tilgang mulig.
01:52
They have digitizeddigitaliseret millionsmillioner of booksbøger.
37
97000
2000
De har digitaliseret millioner af bøger.
01:54
So what that meansmidler is, one could use computationalberegningsmæssige methodsmetoder
38
99000
3000
Man kan således bruge computerbaserede metoder
01:57
to readlæse all of the booksbøger in a clickklik of a buttonknap.
39
102000
2000
til at læse alle bøgerne med et enkelt klik.
01:59
That's very practicalpraktisk and extremelyekstremt awesomefantastisk.
40
104000
3000
Det er meget praktisk og ekstremt fantastisk.
02:03
ELAELA: Let me tell you a little bitbit about where booksbøger come from.
41
108000
2000
ELA: Nu skal I høre, hvor bøger stammer fra.
02:05
SinceSiden time immemorialArilds, there have been authorsforfattere.
42
110000
3000
Der har altid eksisteret forfattere.
02:08
These authorsforfattere have been strivingstræber to writeskrive booksbøger.
43
113000
3000
Disse forfattere har bestræbt sig på at skrive bøger.
02:11
And this becameblev til considerablybetydeligt easiernemmere
44
116000
2000
Og det blev væsentligt nemmere
02:13
with the developmentudvikling of the printingtrykning presstrykke some centuriesårhundreder agosiden.
45
118000
2000
da trykpressen blev opfundet for nogle hundrede år siden.
02:15
SinceSiden then, the authorsforfattere have wonvandt
46
120000
3000
Siden da, er det lykkedes forfattere
02:18
on 129 millionmillion distinctdistinkt occasionslejligheder,
47
123000
2000
at udgive bøger
02:20
publishingforlagsvirksomhed booksbøger.
48
125000
2000
129 millioner gange.
02:22
Now if those booksbøger are not lostfaret vild to historyhistorie,
49
127000
2000
Hvis disse bøger ikke er gået tabt for historien,
02:24
then they are somewhereet eller andet sted in a librarybibliotek,
50
129000
2000
findes de på et bibliotek et sted,
02:26
and manymange of those booksbøger have been getting retrievedhentet from the librariesbiblioteker
51
131000
3000
og mange bøgerne er blevet taget fra hylderne
02:29
and digitizeddigitaliseret by GoogleGoogle,
52
134000
2000
og er blevet digitaliseret af Google,
02:31
whichhvilken has scannedscannet 15 millionmillion booksbøger to datedato.
53
136000
2000
som til dato har scannet 15 millioner bøger.
02:33
Now when GoogleGoogle digitizesdigitaliserer a bookBestil, they put it into a really nicepæn formatformat.
54
138000
3000
Når Google digitaliserer en bog, får den et rigtig fint format.
02:36
Now we'vevi har got the datadata, plusplus we have metadatametadata.
55
141000
2000
Nu har vi både data og metada.
02:38
We have informationinformation about things like where was it publishedoffentliggjort,
56
143000
3000
Vi har f.eks. oplysninger om, hvor den blev udgivet,
02:41
who was the authorforfatter, when was it publishedoffentliggjort.
57
146000
2000
hvem forfatteren var, og hvornår den blev udgivet.
02:43
And what we do is go throughigennem all of those recordsoptegnelser
58
148000
3000
Og vi går gennem alle disse arkiver
02:46
and excludeudelukke everything that's not the highesthøjeste qualitykvalitet datadata.
59
151000
4000
og udelukker alle data, der ikke er af højeste kvalitet.
02:50
What we're left with
60
155000
2000
Det, der er tilbage, er en samling
02:52
is a collectionkollektion of fivefem millionmillion booksbøger,
61
157000
3000
på fem millioner bøger,
02:55
500 billionmilliard wordsord,
62
160000
3000
500 milliarder ord,
02:58
a stringsnor of characterstegn a thousandtusind timesgange longerlængere
63
163000
2000
en tegnstreng, der er tusind gange længere
03:00
than the humanhuman genomegenom --
64
165000
3000
end menneskets arvemasse.
03:03
a texttekst whichhvilken, when writtenskriftlig out,
65
168000
2000
Hvis teksten blev skrevet ud,
03:05
would stretchstrække from here to the MoonMånen and back
66
170000
2000
ville den nå herfra til månen og tilbage igen
03:07
10 timesgange over --
67
172000
2000
10 gange!
03:09
a veritableveritabel shardskår of our culturalkulturel genomegenom.
68
174000
4000
- Et sandt brudstykke af vores kulturelle arvemasse.
03:13
Of courseRute what we did
69
178000
2000
Det vi gjorde,
03:15
when facedkonfronteret with suchsådan outrageousuhyrlig hyperboleoverdrivelse ...
70
180000
3000
da vi stod over for så vanvittige sammenligninger...
03:18
(LaughterLatter)
71
183000
2000
(Latter)
03:20
was what any self-respectingrespekt for sig selv researchersforskere
72
185000
3000
var, hvad enhver forskere med respekt for sig selv
03:23
would have doneFærdig.
73
188000
3000
ville have gjort.
03:26
We tooktog a pageside out of XKCDXKCD,
74
191000
2000
Vi gjorde som i tegneserien XKCD,
03:28
and we said, "StandStå back.
75
193000
2000
og sagde "Gør plads!
03:30
We're going to try sciencevidenskab."
76
195000
2000
Vi prøver med videnskab".
03:32
(LaughterLatter)
77
197000
2000
(Latter)
03:34
JMJM: Now of courseRute, we were thinkingtænker,
78
199000
2000
JM: Først tænkte vi selvfølgelig,
03:36
well let's just first put the datadata out there
79
201000
2000
"Vi gør bare data tilgængelige,
03:38
for people to do sciencevidenskab to it.
80
203000
2000
så andre kan bruge videnskab på dem."
03:40
Now we're thinkingtænker, what datadata can we releasefrigøre?
81
205000
2000
Nu tænker vi "Hvilke data kan vi lægge ud?"
03:42
Well of courseRute, you want to take the booksbøger
82
207000
2000
Egentlig vil vi gerne tage bøgerne
03:44
and releasefrigøre the fullfuld texttekst of these fivefem millionmillion booksbøger.
83
209000
2000
og lægge teksten fra alle fem millioner bøger ud.
03:46
Now GoogleGoogle, and JonJon OrwantOrwant in particularsærlig,
84
211000
2000
Men Google - og særligt Jon Orwant -
03:48
told us a little equationligning that we should learnlære.
85
213000
2000
fortalte om en ligning, vi skulle lære.
03:50
So you have fivefem millionmillion, that is, fivefem millionmillion authorsforfattere
86
215000
3000
Vi har altså fem millioner forfattere
03:53
and fivefem millionmillion plaintiffssagsøgere is a massivemassiv lawsuitretssag.
87
218000
3000
altså fem millioner, der gerne vil sagsøge os.
03:56
So, althoughSelvom that would be really, really awesomefantastisk,
88
221000
2000
Så selvom det ville være virkelig, virkelig fantastisk,
03:58
again, that's extremelyekstremt, extremelyekstremt impracticalupraktisk.
89
223000
3000
ville det også være helt ekstremt upraktisk.
04:01
(LaughterLatter)
90
226000
2000
(Latter)
04:03
Now again, we kindvenlig of cavedgivet in,
91
228000
2000
Igen lod vi os overtale
04:05
and we did the very practicalpraktisk approachnærme sig, whichhvilken was a bitbit lessmindre awesomefantastisk.
92
230000
3000
og fulgte den praktiske tilgang, der var lidt mindre fantastisk.
04:08
We said, well insteadi stedet of releasingfrigive the fullfuld texttekst,
93
233000
2000
I stedet for at lægge den fulde tekst ud ville vi
04:10
we're going to releasefrigøre statisticsstatistik about the booksbøger.
94
235000
2000
gøre statistikker om bøgerne tilgængelige.
04:12
So take for instanceinstans "A gleamskæret of happinesslykke."
95
237000
2000
Et eksempel er "A gleam of happiness" - Et glimpt af lykke
04:14
It's fourfire wordsord; we call that a four-gramfire-gram.
96
239000
2000
Det er fire ord - det vi kalder et fire-gram
04:16
We're going to tell you how manymange timesgange a particularsærlig four-gramfire-gram
97
241000
2000
Vi vil nu fortælle jer, hvor mange gange et bestemt fire-gram
04:18
appearedsyntes in booksbøger in 1801, 1802, 1803,
98
243000
2000
optrådte i bøger i 1801, 1802, 1803,
04:20
all the way up to 2008.
99
245000
2000
og helt op til 2008
04:22
That givesgiver us a time seriesserie
100
247000
2000
Det giver os en tidsserie, der viser hvor hyppigt
04:24
of how frequentlyhyppigt this particularsærlig sentencesætning was used over time.
101
249000
2000
denne ene sætning er blevet brugt over tid.
04:26
We do that for all the wordsord and phrasessætninger that appearkomme til syne in those booksbøger,
102
251000
3000
Det gør vi for alle ord og udtryk i disse bøger.
04:29
and that givesgiver us a bigstor tabletabel of two billionmilliard lineslinjer
103
254000
3000
Det giver os en stor tabel med to milliarder linjer
04:32
that tell us about the way culturekultur has been changingskiftende.
104
257000
2000
som viser hvordan kulturen har ændret sig.
04:34
ELAELA: So those two billionmilliard lineslinjer,
105
259000
2000
ELA: Disse to milliarder linjer
04:36
we call them two billionmilliard n-gramsn-gram.
106
261000
2000
som vi kalder to milliarder n-grammer...
04:38
What do they tell us?
107
263000
2000
Hvad fortæller de os?
04:40
Well the individualindividuel n-gramsn-gram measuremåle culturalkulturel trendstendenser.
108
265000
2000
De enkelte n-grammer måler kulturelle tendenser.
04:42
Let me give you an exampleeksempel.
109
267000
2000
Lad mig give et eksempel.
04:44
Let's supposeformode that I am thrivingblomstrende,
110
269000
2000
Jeg vil sige, at jeg trives,
04:46
then tomorrowi morgen I want to tell you about how well I did.
111
271000
2000
i morgen siger jeg så, hvor godt jeg havde det.
04:48
And so I mightmagt say, "YesterdayI går, I throvetrivedes."
112
273000
3000
Jeg ville sige "I går trivedes (throve) jeg".
04:51
AlternativelyAlternativt, I could say, "YesterdayI går, I thrivedtrivedes."
113
276000
3000
Man kan også bruge "thrived" i stedet for "throve".
04:54
Well whichhvilken one should I use?
114
279000
3000
Hvilket af de to ord skal jeg bruge?
04:57
How to know?
115
282000
2000
Hvor skulle jeg vide det fra?
04:59
As of about sixseks monthsmåneder agosiden,
116
284000
2000
Indtil for seks måneder siden
05:01
the statestat of the artkunst in this fieldMark
117
286000
2000
var den anerkendte metode på dette område
05:03
is that you would, for instanceinstans,
118
288000
2000
at du f.eks. kunne få fat i
05:05
go up to the followingfølge psychologistpsykolog with fabulousfabelagtig hairhår,
119
290000
2000
denne psykolog med lækkert hår
05:07
and you'ddu ville say,
120
292000
2000
og spørge ham:
05:09
"SteveSteve, you're an expertekspert on the irregularuregelmæssig verbsverber.
121
294000
3000
"Steve, du er ekspert i uregelmæssige verber.
05:12
What should I do?"
122
297000
2000
Hvad skal jeg gøre?"
05:14
And he'dhan havde tell you, "Well mostmest people say thrivedtrivedes,
123
299000
2000
Og han ville sige: "De fleste mennesker bruger "thrived"
05:16
but some people say throvetrivedes."
124
301000
3000
men nogle siger "throve".
05:19
And you alsoogså knewvidste, more or lessmindre,
125
304000
2000
Og du vidste også - mere eller mindre -
05:21
that if you were to go back in time 200 yearsflere år
126
306000
3000
at hvis du gik 200 år tilbage i tiden
05:24
and askSpørg the followingfølge statesmanstatsmand with equallyligeligt fabulousfabelagtig hairhår,
127
309000
3000
og spurgte denne statsmand med ligeså lækkert hår:
05:27
(LaughterLatter)
128
312000
3000
(Latter)
05:30
"TomTom, what should I say?"
129
315000
2000
"Tom, hvad ville du sige?"
05:32
He'dHan ville say, "Well, in my day, mostmest people throvetrivedes,
130
317000
2000
Han ville sige: "På min tid brugte de fleste "throve,
05:34
but some thrivedtrivedes."
131
319000
3000
mens andre brugte "thrived".
05:37
So now what I'm just going to showat vise you is raw datadata.
132
322000
2000
Så nu vil jeg bare vise jer rå data.
05:39
Two rowsrækker from this tabletabel of two billionmilliard entriesposter.
133
324000
4000
To rækker i denne tabel ud af to millarder poster.
05:43
What you're seeingat se is yearår by yearår frequencyfrekvens
134
328000
2000
Den viser hyppigheden pr. år
05:45
of "thrivedtrivedes" and "throvetrivedes" over time.
135
330000
3000
af "thrived" og "throve" over tid.
05:49
Now this is just two
136
334000
2000
Det her er kun to
05:51
out of two billionmilliard rowsrækker.
137
336000
3000
ud af to milliarder rækker.
05:54
So the entirehel datadata setsæt
138
339000
2000
Så hele datasættet
05:56
is a billionmilliard timesgange more awesomefantastisk than this slideglide.
139
341000
3000
er en milliard gange mere fantastisk end dette slide.
05:59
(LaughterLatter)
140
344000
2000
(Latter)
06:01
(ApplauseBifald)
141
346000
4000
(Bifald)
06:05
JMJM: Now there are manymange other picturesbilleder that are worthværdi 500 billionmilliard wordsord.
142
350000
2000
JM: Der er jo mange andre billeder, der siger mere end 500 milliarder ord.
06:07
For instanceinstans, this one.
143
352000
2000
For eksempel dette.
06:09
If you just take influenzainfluenza,
144
354000
2000
Hvis vi bare ser på influenza,
06:11
you will see peakstoppe at the time where you knewvidste
145
356000
2000
vil I se høje udslag på de tidspunkter, hvor I vidste
06:13
bigstor fluinfluenza epidemicsepidemier were killingdrab people around the globeglobus.
146
358000
3000
at der var store globale influenzaepidemier.
06:16
ELAELA: If you were not yetendnu convincedoverbevist,
147
361000
3000
ELA: Hvis du ikke er overbevist,
06:19
seahav levelsniveauer are risingstigende,
148
364000
2000
stiger vandstanden i havene -
06:21
so is atmosphericatmosfærisk COCO2 and globalglobal temperaturetemperatur.
149
366000
3000
det gør CO2-indholdet i atmosfæren og den globale temperatur også.
06:24
JMJM: You mightmagt alsoogså want to have a look at this particularsærlig n-gramn-gram,
150
369000
3000
JM: Prøv også at kaste et blik på dette n-gram,
06:27
and that's to tell NietzscheNietzsche that God is not deaddød,
151
372000
3000
og det fortæller Nietzsche, at Gud ikke er død,
06:30
althoughSelvom you mightmagt agreeenig that he mightmagt need a better publicistinformationsmedarbejder.
152
375000
3000
selvom du måske også synes, han har brug for en bedre ///presseagent.
06:33
(LaughterLatter)
153
378000
2000
(Latter)
06:35
ELAELA: You can get at some prettysmuk abstractabstrakt conceptsbegreber with this sortsortere of thing.
154
380000
3000
ELA: Man kan få nogle ret abstrakte begreber med disse ting.
06:38
For instanceinstans, let me tell you the historyhistorie
155
383000
2000
Lad mig f.eks. fortælle jer historien
06:40
of the yearår 1950.
156
385000
2000
om året 1950.
06:42
PrettyKøn much for the vastlangt majorityflertal of historyhistorie,
157
387000
2000
I den største del af vores historie
06:44
no one gavegav a damnfor pokker about 1950.
158
389000
2000
har ingen interesseret sig en pind for 1950.
06:46
In 1700, in 1800, in 1900,
159
391000
2000
I 1700 og 1800 og 1900
06:48
no one caredplejes.
160
393000
3000
var ingen interesseret.
06:52
ThroughGennem the 30s and 40s,
161
397000
2000
Op gennem 30'erne og 40'erne
06:54
no one caredplejes.
162
399000
2000
var ingen interesseret.
06:56
SuddenlyPludselig, in the mid-midten40s,
163
401000
2000
Pludselig, midt i 40'erne,
06:58
there startedstartede to be a buzzBuzz.
164
403000
2000
blev der hvisket i krogene.
07:00
People realizedgik op for that 1950 was going to happenske,
165
405000
2000
Folk indså at 1950 var noget, der ville ske,
07:02
and it could be bigstor.
166
407000
2000
og det kunne være noget stort.
07:04
(LaughterLatter)
167
409000
3000
(Latter)
07:07
But nothing got people interestedinteresseret in 1950
168
412000
3000
Men det der gjorde folk allermest interesseret i 1950
07:10
like the yearår 1950.
169
415000
3000
var året 1950.
07:13
(LaughterLatter)
170
418000
3000
(Latter)
07:16
People were walking around obsessedbesat.
171
421000
2000
Folk var som besat.
07:18
They couldn'tkunne ikke stop talkingtaler
172
423000
2000
De kunne ikke lade være med at tale
07:20
about all the things they did in 1950,
173
425000
3000
om alt det, de lavede i 1950,
07:23
all the things they were planningplanlægning to do in 1950,
174
428000
3000
alt det de planlagde at skulle gøre i 1950,
07:26
all the dreamsdrømme of what they wanted to accomplishopnå in 1950.
175
431000
5000
og alle drømmene om, hvad de ville opnå i 1950.
07:31
In factfaktum, 1950 was so fascinatingspændende
176
436000
2000
Faktisk var 1950 så fascinerende
07:33
that for yearsflere år thereafterderefter,
177
438000
2000
at folk i flere år efter
07:35
people just keptholdt talkingtaler about all the amazingfantastiske things that happenedskete,
178
440000
3000
bare blev ved med at tale om alle de utrolige ting, der skete -
07:38
in '51, '52, '53.
179
443000
2000
i 1951, 1952 og 1953.
07:40
FinallyEndelig in 1954,
180
445000
2000
Omsider i 1954
07:42
someonenogen wokevågnede up and realizedgik op for
181
447000
2000
var der en der vågnede op og indså
07:44
that 1950 had gottenfået somewhatnoget passpassereé.
182
449000
4000
at 1950 var blevet noget passé.
07:48
(LaughterLatter)
183
453000
2000
(Latter)
07:50
And just like that, the bubbleboble burstburst.
184
455000
2000
Og uden videre sprang boblen.
07:52
(LaughterLatter)
185
457000
2000
(Latter)
07:54
And the storyhistorie of 1950
186
459000
2000
Og historien om 1950
07:56
is the storyhistorie of everyhver yearår that we have on recordoptage,
187
461000
2000
er historien om alle de år, vi har registreret,
07:58
with a little twisttwist, because now we'vevi har got these nicepæn chartsdiagrammer.
188
463000
3000
med et lille tvist, fordi vi nu har disse fine grafer.
08:01
And because we have these nicepæn chartsdiagrammer, we can measuremåle things.
189
466000
3000
Og fordi vi har disse fine grafer, kan vi nu måle ting.
08:04
We can say, "Well how fasthurtig does the bubbleboble burstburst?"
190
469000
2000
Vi kan sige "Hvor hurtigt springer boblen?"
08:06
And it turnsdrejninger out that we can measuremåle that very preciselypræcist.
191
471000
3000
Og de viser sig, at vi kan måle dette meget præcist.
08:09
EquationsLigninger were derivedafledt, graphsgrafer were producedproduceret,
192
474000
3000
Der blev udledt ligninger, og der opstillet grafer,
08:12
and the netnet resultresultat
193
477000
2000
og nettoresultatet er
08:14
is that we find that the bubbleboble burstsByger fasterhurtigere and fasterhurtigere
194
479000
3000
at det viser sig, at boblen springer hurtigere og hurtigere
08:17
with eachhver passingpasserer yearår.
195
482000
2000
for hvert år der går.
08:19
We are losingmiste interestinteresse in the pastforbi more rapidlyhurtigt.
196
484000
5000
Vi mister interessen for fortiden hurtigere.
08:24
JMJM: Now a little piecestykke of careerkarriere adviceråd.
197
489000
2000
JM: Og nu et godt karrieretip:
08:26
So for those of you who seeksøge to be famousberømt,
198
491000
2000
For de af jer, der vil være berømte,
08:28
we can learnlære from the 25 mostmest famousberømt politicalpolitisk figurestal,
199
493000
2000
kan vi lære af de 25 mest berømte politiske personligheder,
08:30
authorsforfattere, actorsaktører and so on.
200
495000
2000
forfattere, skuespillere osv.
08:32
So if you want to becomeblive famousberømt earlytidlig on, you should be an actorskuespiller,
201
497000
3000
Så hvis du vil være berømt tidligt, skal du være skuespiller,
08:35
because then fameberømmelse startsstarter risingstigende by the endende of your 20s --
202
500000
2000
fordi berømmelsen så begynder at stige, nrå du er sidst i 20'erne –
08:37
you're still youngung, it's really great.
203
502000
2000
Du er stadig ung, og det er virkelig skønt.
08:39
Now if you can wait a little bitbit, you should be an authorforfatter,
204
504000
2000
Men hvis du kan vente lidt, skal du blive forfatter,
08:41
because then you risestige to very great heightshøjder,
205
506000
2000
fordi så opnår meget stor berømmelse,
08:43
like MarkMark TwainTWAIN, for instanceinstans: extremelyekstremt famousberømt.
206
508000
2000
som f.eks. Mark Twain: Ekstremt berømt.
08:45
But if you want to reach the very toptop,
207
510000
2000
Men hvis du vil helt til toppen,
08:47
you should delayforsinke gratificationtilfredsstillelse
208
512000
2000
skal du udskyde den tilfredsstillelse, det er
08:49
and, of courseRute, becomeblive a politicianpolitiker.
209
514000
2000
at blive berømt - og selvfølgelig blive politiker.
08:51
So here you will becomeblive famousberømt by the endende of your 50s,
210
516000
2000
Her vil du blive berømt, når du er i slutningen af 50'erne,
08:53
and becomeblive very, very famousberømt afterwardbagefter.
211
518000
2000
og blive meget, meget berømt derefter.
08:55
So scientistsforskere alsoogså tendtendens to get famousberømt when they're much olderældre.
212
520000
3000
Videnskabsfolk plejer også at blive berømte, når de er meget ældre.
08:58
Like for instanceinstans, biologistsbiologer and physicsfysik
213
523000
2000
For eksempel biologer og fysikere
09:00
tendtendens to be almostnæsten as famousberømt as actorsaktører.
214
525000
2000
bliver næsten ligeså berømte som skuespillere.
09:02
One mistakefejl you should not do is becomeblive a mathematicianmatematiker.
215
527000
3000
En fejl, du ikke skal begå, er at blive matematiker.
09:05
(LaughterLatter)
216
530000
2000
(Latter)
09:07
If you do that,
217
532000
2000
Hvis du gør det,
09:09
you mightmagt think, "Oh great. I'm going to do my bestbedst work when I'm in my 20s."
218
534000
3000
tænker du måske "Herligt! Jeg leverer mit bedste arbejde, når jeg er i 20'erne"
09:12
But guessgætte what, nobodyingen will really careomsorg.
219
537000
2000
Men tænk engang... stort set ingen lægger mærke til det.
09:14
(LaughterLatter)
220
539000
3000
(Latter)
09:17
ELAELA: There are more soberingnedslående notesnoter
221
542000
2000
ELA: Der er mere nøgterne observationer
09:19
amongblandt the n-gramsn-gram.
222
544000
2000
blandt n-grammerne.
09:21
For instanceinstans, here'sher er the trajectorybane of MarcMarc ChagallChagall,
223
546000
2000
Her er f.eks. Marc Chagalls livsforløb,
09:23
an artistkunstner bornFødt in 1887.
224
548000
2000
som kunster født i 1887.
09:25
And this looksudseende like the normalnormal trajectorybane of a famousberømt personperson.
225
550000
3000
Og dette ligner det normale forløb for en berømt person.
09:28
He getsfår more and more and more famousberømt,
226
553000
4000
Han bliver mere og mere berømt,
09:32
exceptundtagen if you look in Germantysk.
227
557000
2000
bare ikke hvis vi ser på tysk.
09:34
If you look in Germantysk, you see something completelyfuldstændig bizarrebizarre,
228
559000
2000
På tysk ser vi noget ganske bizart,
09:36
something you prettysmuk much never see,
229
561000
2000
noget man stort set aldrig ser,
09:38
whichhvilken is he becomesbliver til extremelyekstremt famousberømt
230
563000
2000
og det er, at han bliver ekstremt berømt
09:40
and then all of a suddenpludselig plummetsdalende,
231
565000
2000
hvorefter berømmelsen falder brat
09:42
going throughigennem a nadirNadir betweenmellem 1933 and 1945,
232
567000
3000
og er på nulpunktet mellem 1933 og 1945,
09:45
before reboundingigen stiger afterwardbagefter.
233
570000
3000
hvorefter berømmelsen vender tilbage.
09:48
And of courseRute, what we're seeingat se
234
573000
2000
Og de vi selvfølgelig kan se
09:50
is the factfaktum MarcMarc ChagallChagall was a JewishJødiske artistkunstner
235
575000
3000
er at Marc Chagall var jødisk kunstner
09:53
in NaziNazistiske GermanyTyskland.
236
578000
2000
i nazi-Tyskland
09:55
Now these signalssignaler
237
580000
2000
Disse signaler
09:57
are actuallyrent faktisk so strongstærk
238
582000
2000
er faktisk så stærk,
09:59
that we don't need to know that someonenogen was censoredcensureret.
239
584000
3000
at vi ikke behøver at vide, at en person er blevet censureret.
10:02
We can actuallyrent faktisk figurefigur it out
240
587000
2000
Vi kan faktisk regne det ud
10:04
usingved brug af really basicgrundlæggende signalsignal processingforarbejdning.
241
589000
2000
ved hjælp af meget grundlæggende behandling af signalerne.
10:06
Here'sHer er a simpleenkel way to do it.
242
591000
2000
Her er en simpel måde at gøre det på.
10:08
Well, a reasonablerimelig expectationforventning
243
593000
2000
Det er rimeligt at forvente
10:10
is that somebody'snogen er fameberømmelse in a givengivet periodperiode of time
244
595000
2000
at en persons berømmelse i en given periode
10:12
should be roughlyrundt regnet the averagegennemsnit of theirderes fameberømmelse before
245
597000
2000
vil være nogenlunde gennemsnittet af berømmelsen før
10:14
and theirderes fameberømmelse after.
246
599000
2000
og berømmelsen efter perioden.
10:16
So that's sortsortere of what we expectforventer.
247
601000
2000
Så det er nogenlunde, det vi forventer.
10:18
And we comparesammenligne that to the fameberømmelse that we observeobservere.
248
603000
3000
Og vi sammenligner med den berømmelse, vi kan aflæse.
10:21
And we just dividedele one by the other
249
606000
2000
Og så dividerer vi bare den ene med den anden
10:23
to producefremstille something we call a suppressionundertrykkelse indexindeks.
250
608000
2000
så vi får noget, vi kalder et undertrykkelsesindeks.
10:25
If the suppressionundertrykkelse indexindeks is very, very, very smalllille,
251
610000
3000
Hvis undertrykkelsesindekset er meget, meget, meget lavt,
10:28
then you very well mightmagt be beingvære suppressedundertrykt.
252
613000
2000
er der stor sandsynlighed for at du er undertrykt.
10:30
If it's very largestor, maybe you're benefitingfordel from propagandapropaganda.
253
615000
3000
Hvis det er meget højt, får du måske hjælp af propaganda.
10:34
JMJM: Now you can actuallyrent faktisk look at
254
619000
2000
JM: Nu kan man faktisk se på
10:36
the distributionfordeling of suppressionundertrykkelse indexesindekser over wholehel populationspopulationer.
255
621000
3000
fordelingen af undertrykkelsesindekser over hele populationer.
10:39
So for instanceinstans, here --
256
624000
2000
For eksempel her:
10:41
this suppressionundertrykkelse indexindeks is for 5,000 people
257
626000
2000
Dette undertrykkelsesindeks er for 5.000 personer
10:43
pickedplukket in Englishengelsk booksbøger where there's no knownkendt suppressionundertrykkelse --
258
628000
2000
taget fra engelske bøger uden nogen kendt undertrykkelse.
10:45
it would be like this, basicallyi bund og grund tightlystramt centeredcentreret on one.
259
630000
2000
Det ville være på denne måde, tæt centreret om ét.
10:47
What you expectforventer is basicallyi bund og grund what you observeobservere.
260
632000
2000
Det man kan aflæse, er grundlæggende som forventet.
10:49
This is distributionfordeling as seenset in GermanyTyskland --
261
634000
2000
Dette er fordelingen, som den ses i Tyskland.
10:51
very differentforskellige, it's shiftedforskudt to the left.
262
636000
2000
Meget anderledes... den er forskudt til venstre.
10:53
People talkedtalte about it twiceto gange lessmindre as it should have been.
263
638000
3000
Folk talte dobbelt så lidt om det, som de burde.
10:56
But much more importantlyvigtigere, the distributionfordeling is much widerbredere.
264
641000
2000
Men vigtigere er, at fordelingen er meget bredere.
10:58
There are manymange people who endende up on the farlangt left on this distributionfordeling
265
643000
3000
Der er mange personer, der ender ude til venstre i fordelingen,
11:01
who are talkedtalte about 10 timesgange fewerfærre than they should have been.
266
646000
3000
som der bliver talt 10 gange så lidt om, som der burde.
11:04
But then alsoogså manymange people on the farlangt right
267
649000
2000
Men der er også personer ude til højre,
11:06
who seemsynes to benefitfordel from propagandapropaganda.
268
651000
2000
som synes at være hjulpet af propaganda.
11:08
This picturebillede is the hallmarkHallmark of censorshipcensur in the bookBestil recordoptage.
269
653000
3000
Dette er kendetegnende for censur i bogregisteret.
11:11
ELAELA: So culturomicsculturomics
270
656000
2000
ELA: Denne metode
11:13
is what we call this methodmetode.
271
658000
2000
kalder vi "culturomics".
11:15
It's kindvenlig of like genomicsgenomforskning.
272
660000
2000
Det er lidt ligesom genforskning
11:17
ExceptBortset fra genomicsgenomforskning is a lenslinse on biologybiologi
273
662000
2000
Genomics - genforskning - er et nærbillede af biologi
11:19
throughigennem the windowvindue of the sequencesekvens of basesbaser in the humanhuman genomegenom.
274
664000
3000
hvor man ser på sekvenser af baser i arvemassen.
11:22
CulturomicsCulturomics is similarlignende.
275
667000
2000
Culturomics minder om dette.
11:24
It's the applicationAnsøgning of massive-scalemassivt datadata collectionkollektion analysisanalyse
276
669000
3000
Det er en analyse af en kæmpe samling data
11:27
to the studyundersøgelse of humanhuman culturekultur.
277
672000
2000
anvendt på studiet af menneskets kultur.
11:29
Here, insteadi stedet of throughigennem the lenslinse of a genomegenom,
278
674000
2000
I stedet for at bruge arvemassen som perspektiv,
11:31
throughigennem the lenslinse of digitizeddigitaliseret piecesstykker of the historicalhistorisk recordoptage.
279
676000
3000
bruges digitaliserede stykker af historisk materiale.
11:34
The great thing about culturomicsculturomics
280
679000
2000
Det gode ved culturomics er
11:36
is that everyonealle sammen can do it.
281
681000
2000
at alle kan gøre det.
11:38
Why can everyonealle sammen do it?
282
683000
2000
Hvorfor kan alle gøre det?
11:40
EveryoneAlle can do it because threetre guys,
283
685000
2000
Alle kan gøre det, fordi disse tre herrer,
11:42
JonJon OrwantOrwant, MattMatt GrayGrå and Will BrockmanBrockman over at GoogleGoogle,
284
687000
3000
Jon Orwant, Matt Gray og Will Brockman hos Google,
11:45
saw the prototypeprototype of the NgramNgram ViewerViewer,
285
690000
2000
så prototypen af Ngram Viewer,
11:47
and they said, "This is so funsjovt.
286
692000
2000
og sagde, "Det er så sjovt,
11:49
We have to make this availableledig for people."
287
694000
3000
at vi må gøre det tilgængeligt for alle."
11:52
So in two weeksuger flatflad -- the two weeksuger before our paperpapir camekom out --
288
697000
2000
På nøjagtig de to uger inden offentliggørelsen af vores rapport
11:54
they codedkodet up a versionversion of the NgramNgram ViewerViewer for the generalgenerel publicoffentlig.
289
699000
3000
kodede de en version af Ngram Viewer til almen brug.
11:57
And so you too can typetype in any wordord or phraseudtryk that you're interestedinteresseret in
290
702000
3000
Du kan så skrive et vilkårligt ord, du er interesseret i
12:00
and see its n-gramn-gram immediatelymed det samme --
291
705000
2000
og straks se det tilhørende n-gram,
12:02
alsoogså browseGennemse exampleseksempler of all the variousforskellige booksbøger
292
707000
2000
og du kan gennemse eksempler på alle bøger
12:04
in whichhvilken your n-gramn-gram appearskommer til syne.
293
709000
2000
som dit n-gram optræder i.
12:06
JMJM: Now this was used over a millionmillion timesgange on the first day,
294
711000
2000
Dette blev brugt over en million gang første dag,
12:08
and this is really the bestbedst of all the queriesforespørgsler.
295
713000
2000
og dette er den bedste af alle søgninger.
12:10
So people want to be theirderes bestbedst, put theirderes bestbedst footfod forwardfrem.
296
715000
3000
Så folk ønsker at yde deres bedste.
12:13
But it turnsdrejninger out in the 18thth centuryårhundrede, people didn't really careomsorg about that at all.
297
718000
3000
Men i det 18. årh. var folk ligeglade med alt det.
12:16
They didn't want to be theirderes bestbedst, they wanted to be theirderes beftbeft.
298
721000
3000
De ville ikke gøre bedste, de ville være "beft".
12:19
So what happenedskete is, of courseRute, this is just a mistakefejl.
299
724000
3000
Dette var selvfølgelig bare en fejl.
12:22
It's not that strovestræbte for mediocritymiddelmådighed,
300
727000
2000
Man stræbte ikke efter middelmådighed,
12:24
it's just that the S used to be writtenskriftlig differentlyforskelligt, kindvenlig of like an F.
301
729000
3000
men tidligere skrev man S anderledes, nærmest som et f.
12:27
Now of courseRute, GoogleGoogle didn't pickplukke this up at the time,
302
732000
3000
Det opdagede Google selvfølgelig ikke dengang,
12:30
so we reportedrapporteret this in the sciencevidenskab articleartiklen that we wroteskrev.
303
735000
3000
så vi skrev det i den videnskabelige artikel.
12:33
But it turnsdrejninger out this is just a reminderpåmindelse
304
738000
2000
Dette minder os om, at
12:35
that, althoughSelvom this is a lot of funsjovt,
305
740000
2000
selvom det er rigtig sjovt,
12:37
when you interpretfortolke these graphsgrafer, you have to be very carefulforsigtig,
306
742000
2000
at fortolke disse grafer, skal man være forsigtig
12:39
and you have to adoptvedtage the basegrundlag standardsstandarder in the sciencesvidenskaber.
307
744000
3000
og overholde de videnskabelige standarder.
12:42
ELAELA: People have been usingved brug af this for all kindsformer of funsjovt purposesformål.
308
747000
3000
Folk har brugt dette til mange sjove formål.
12:45
(LaughterLatter)
309
750000
7000
(Latter)
12:52
ActuallyFaktisk, we're not going to have to talk,
310
757000
2000
Vi behøver faktisk ikke tale,
12:54
we're just going to showat vise you all the slidesdias and remainforblive silentstille.
311
759000
3000
vi viser bare alle slides og tier stille.
12:57
This personperson was interestedinteresseret in the historyhistorie of frustrationfrustration.
312
762000
3000
Denne person var interesseret i frustrationens historie.
13:00
There's variousforskellige typestyper of frustrationfrustration.
313
765000
3000
Der er forskellige typer frustration.
13:03
If you stubstub your toe, that's a one A "arghArgh."
314
768000
3000
Hvis slår tåen, er der ét A i "argh".
13:06
If the planetplanet EarthJorden is annihilatedudslettet by the VogonsVogons
315
771000
2000
Hvis Jorden udslettes af Vogonerne
13:08
to make roomværelse for an interstellarinterstellar bypassbypass,
316
773000
2000
for at gøre plads til en intergalaktisk ekspresrute,
13:10
that's an eightotte A "aaaaaaaarghaaaaaaaargh."
317
775000
2000
er det et "aaaaaaaargh" med otte A'er.
13:12
This personperson studiesundersøgelser all the "arghsarghs,"
318
777000
2000
Personen undersøger alle udgaver af "argh"
13:14
from one throughigennem eightotte A'sAS.
319
779000
2000
fra ét til otte A'er.
13:16
And it turnsdrejninger out
320
781000
2000
Og det viser sig
13:18
that the less-frequentmindre hyppige "arghsarghs"
321
783000
2000
at de mindst hyppige "argh" vedrører
13:20
are, of courseRute, the onesdem that correspondsvarer to things that are more frustratingfrustrerende --
322
785000
3000
vedrører ting, der er mere frustrerende
13:23
exceptundtagen, oddlymærkeligt, in the earlytidlig 80s.
323
788000
3000
men sjovt nok ikke i de tidlige 80'ere.
13:26
We think that mightmagt have something to do with ReaganReagan.
324
791000
2000
Vi tror det kan være noget med Reagan.
13:28
(LaughterLatter)
325
793000
2000
(Latter)
13:30
JMJM: There are manymange usageskutymer of this datadata,
326
795000
3000
Disse data kan bruges til mange ting,
13:33
but the bottombund linelinje is that the historicalhistorisk recordoptage is beingvære digitizeddigitaliseret.
327
798000
3000
men grundlaget er, at historien bliver digitaliseret.
13:36
GoogleGoogle has startedstartede to digitizedigitalisere 15 millionmillion booksbøger.
328
801000
2000
Google er begyndt at digitalisere 15 millioner bøger.
13:38
That's 12 percentprocent of all the booksbøger that have ever been publishedoffentliggjort.
329
803000
2000
Det er 12 % af alle bøger, der er udgivet.
13:40
It's a sizableanselig chunkluns of humanhuman culturekultur.
330
805000
3000
Det er en god klump af menneskets kultur.
13:43
There's much more in culturekultur: there's manuscriptsmanuskripter, there newspapersaviser,
331
808000
3000
Kultur er meget mere: manuskripter, aviser
13:46
there's things that are not texttekst, like artkunst and paintingsmalerier.
332
811000
2000
noget er ikke tekst, f.eks. kunst og malerier.
13:48
These all happenske to be on our computerscomputere,
333
813000
2000
Disse vil alle findes på vores computere,
13:50
on computerscomputere acrosset kors the worldverden.
334
815000
2000
på computere i hele verden.
13:52
And when that happenssker, that will transformomdanne the way we have
335
817000
3000
Og når det sker, ændrer det den måde
13:55
to understandforstå our pastforbi, our presenttil stede and humanhuman culturekultur.
336
820000
2000
vi forstår vores fortid, vores nutid og menneskets kultur.
13:57
Thank you very much.
337
822000
2000
Mange tak.
13:59
(ApplauseBifald)
338
824000
3000
(Bifald)

▲Back to top

ABOUT THE SPEAKERS
Jean-Baptiste Michel - Data researcher
Jean-Baptiste Michel looks at how we can use large volumes of data to better understand our world.

Why you should listen

Jean-Baptiste Michel holds joint academic appointments at Harvard (FQEB Fellow) and Google (Visiting Faculty). His research focusses on using large volumes of data as tools that help better understand the world around us -- from the way diseases progress in patients over years, to the way cultures change in human societies over centuries. With his colleague Erez Lieberman Aiden, Jean-Baptiste is a Founding Director of Harvard's Cultural Observatory, where their research team pioneers the use of quantitative methods for the study of human culture, language and history. His research was featured on the covers of Science and Nature, on the front pages of the New York Times and the Boston Globe, in The Economist, Wired and many other venues. The online tool he helped create -- ngrams.googlelabs.com -- was used millions of times to browse cultural trends. Jean-Baptiste is an Engineer from Ecole Polytechnique (Paris), and holds an MS in Applied Mathematics and a PhD in Systems Biology from Harvard.

More profile about the speaker
Jean-Baptiste Michel | Speaker | TED.com
Erez Lieberman Aiden - Researcher
Erez Lieberman Aiden pursues a broad range of research interests, spanning genomics, linguistics, mathematics ...

Why you should listen

Erez Lieberman Aiden is a fellow at the Harvard Society of Fellows and Visiting Faculty at Google. His research spans many disciplines and has won numerous awards, including recognition for one of the top 20 "Biotech Breakthroughs that will Change Medicine", by Popular Mechanics; the Lemelson-MIT prize for the best student inventor at MIT; the American Physical Society's Award for the Best Doctoral Dissertation in Biological Physics; and membership in Technology Review's 2009 TR35, recognizing the top 35 innovators under 35. His last three papers -- two with JB Michel -- have all appeared on the cover of Nature and Science.

More profile about the speaker
Erez Lieberman Aiden | Speaker | TED.com