The Great Revolution is still ahead of us @ Dagbladet Information

You are here

Big data er ikke noget, der ligger på bunden af havet og bare skal fiskes op. Det indtryk kan man ellers godt få, når konsulenter og entusiaster skal forklare fænomenet med at udnytte de store datamængder, som er biproduktet af vores brug af teknologi. Det data, som vores mobiltelefoner producerer, når vi bruger dem til at kommunikere, eller de spor, vi sætter, når vi bevæger os rundt på internettet og de sociale medier. Der tales om, at dataet ligger »derude«. Der er »oceaner af oplysninger« man kan få, hvis man »bare samler dem op« derude hos »Google og co.« som det lyder i en tekst i et oplæg til en konference med overskriften: »Brug nettet og tjen millioner«. Men selv om der uden tvivl er masser af penge at hente for både big data-konsulenter og de virksomheder, som formår at udnytte dataet til markedsføring, så står der stadig mange ting i vejen for, at vi kan realisere de store potentialer, som big data rummer. Viden om vores bevægelsesmønstre, der kan bruges til bedre planlægning af byer eller nye indsigter i transportmønstre, forurening eller forbrug:

»Data i dag er som jord i Middelalderen,« siger Dino Pedreschi, der er professor i computervidenskab på universitetet i Pisa. Forhindringen fr den udvikling består først og fremmest i kontrol og ejerskab. Som ejendomsret til jord i Middelalderen kontrolleres det af nogle få giganter, mens alle andre er tvunget til at arbejde på deres præmisser, hvis man vil analysere det værdifulde data.

»Firmaer som Google, Facebook, Yahoo og teleselskaberne akkumulerer de mest interessante data. Det, vi har brug for, er gennemsigtighed i forhold til brugen af denne information,« siger Dino Pedreschi.

Et socialt medie som Facebook gemmer ufatteligt mange oplysninger om, hvordan sitets mere end én milliard brugere interagerer med netværket og hinanden. Hver dag kan man lægge 2,5 milliarder nye likes og 300 millioner billeder til databasen, men de store datamængder, der registreres, er ikke noget, som udenforstående umiddelbart kan trække oplysninger fra. Systemet er lukket og stort set begrænset til at blive brugt af Facebook selv til at målrette reklamer.

Google har fat i endnu større datamængder om blandt andet websøgninger og e-mailkommunikation, mens Apple både har store mængder kommunikations- og netværksdata, men også indsamler data fra de indbyggede GPS’er, der bruges i blandt andet telefonens kortfunktioner.

Fælles for internetgiganterne er, at de data, de indsamler, ikke nødvendigvis kommer andre end dem selv til gode, selv om nogle af dem indgår eksklusive samarbejder med forskere, der får adgang til datasæt. At de største og mest interessante datasæt er ejet af teknologigiganterne, giver potentielt få aktører mulighed for at udnytte de store vidensmængder til egen fordel.

»Det er et demokratisk problem. For mængden af informationer, som kan udledes fra de her data er ufatteligt stor, og det kan bruges til mange praktiske formål,« siger Dino Pedreschi.

»Der er for øjeblikket en stor debat om, hvorvidt vi kan forudsige valgresultater med big data-informationer. Hvis man har adgang til at kombinere meget detaljerede informationer om websøgninger og Facebook-aktiviteter, så vil det måske være muligt at påvirke resultatet. Nogle monopoler kan have adgang til den her information før alle andre og kan udnytte det til at varetage interesser, der ikke er det fælles bedste,« siger han.

Beskyttelse af den enkelte
Men selv om de store amerikanske datamonopoler skulle få lyst til at dele ud af deres datasæt til gavn for forskning eller det offentlige, er der særligt et problem, som gør det svært for dem.

»Problemet med at dele mange data er privatlivshensyn,« siger Sune Lehmann, der er lektor på DTU Compute. Man kan potentielt afsløre rigtig meget om de enkelte brugeres meget personlige forhold, også selv om man gør sig umage med at forsøge at skjule det.

»Et af de store problemer ved at dele big data åbent, er at de personer, der har genereret data, bliver sat på spil. Ofte kalder man det ikke ’anonymiseret’, men ’deidentificeret’, fordi man indrømmer, at det er vanskeligt at garantere, at det er anonymt. Det er det allerstørste problem, man ikke har løst,« siger Sune Lehmann.

I 2006 lagde internetudbyderen AOL et datasæt ud om brugernes søgevaner i en tremåneders periode til brug for forskning. Men ved en fejl var filen på deres hjemmeside tilgængelig for andre end bare forskere, og den blev spredt på internettet. Ved at krydsreferere med andre datasæt lykkedes det at finde frem til brugere, der havde foretaget de enkelte søgninger og skandalen og søgsmålene mod firmaet kunne begynde. Noget lignende skete, da Netflix skulle gøre data om folks filmratings tilgængelige, og tidligere i år kom forskere på Massachussets Institute of Technology frem til, at der kun skal bruges fire datapunkter til at identificere de enkelte telefonbrugere i et ellers anonymiseret datasæt, der kortlægger deres bevægelsesmønstre.

Så selv om vi måske føler, at vi bevæger os spontant og uforudsigeligt, er vores mønstre i virkeligheden så ensformige og trivielle, at man ret nemt kan finde frem til den enkelte person ved zoome ind på mønstrene. Ud over privatlivshensyn er også kombinationen af flere datasæt en afgørende udfordring. For ingen af dataejerne har noget komplet billede af, hvad deres brugere foretager sig, men kun fragmenter registreret i de enkelte informationssiloer:

»Det er ikke tilfældigt, at Facebook udvikler en Facebook-telefon, og Google udvikler en særlig app, der registrerer, hvor du er i tid og rum. Det er, fordi de har brug for mere end Google-søgedata, hvis de for alvor skal kunne sige noget. Facebook vil også gerne vide, hvor du er, og det ved din telefon,« siger Sune Lehmann.

Kortlægning af godt humør
En undtagelse fra de lukkede systemer har været Twitter, der indtil for nylig ikke i samme grad som Facebook havde lukket sig om sig selv. Det brugte Sune Lehmann til projektet Twittermood, der trak overskrifter verden over, efter han med et hold af forskere kunne lave et interaktivt kort, der indikerede amerikanernes humør spredt geografisk og i tid. Ved at kombinere sprogforskning – der havde kortlagt forskellige tidsperioders humør ud fra teksterne i popsange – med Twitter-data fra millioner af brugere kunne forskerne fremlægge et kort, der viste, hvornår på dagen folk var henholdsvis positive og negative.

»Der er ikke på noget tidspunkt før i historien systematisk blevet indsamlet informationer om, hvordan mennesker opfører sig på samfundsplan. Det er ret fantastisk at tænke på, at vi kan begynde at tage de data og prøve at forstå dem,« siger Sune Lehmann.

»Men vi forstår stadig meget lidt. Der er ikke nogen systematik i den måde, vi indsamler data. De er spredt ud over det hele, og det er tekniskenormt svært, at sammenholde de forskellige ting. Der vil løbende komme interessante indsigter, men tidspunktet for, hvornår vi kan lære noget sammenhængende om den menneskelige handlen, er ikke noget, vi kommer til indenfor 10 år.«

Nye datainstitutioner
For at komme ud over problemet med de fragmenterede datasæt eksperimenter Sune Lehmann for øjeblikket med et projekt, hvor han har uddelt telefoner til 180 af sine studerende på DTU. Telefonerne er udstyret med en app, der registrerer stort set alt, hvad de foretager sig. Deres kommunikation og bevægelser, men også via Bluetooth hvilke andre telefoner, der er i nærheden rent fysisk.

»Mit eget projekt var en reaktion på problemet med de adskilte siloer. Jeg har kigget på mange ikkeperfekte datasæt, og jeg blev frustreret over de folk, der havde store påstande om, hvad man kunne gøre. Det var hype – med indsigter og resultater, der var oversolgte,« siger han. Ved hjælp af mobiltelefonerne vil han nu skabe et langt mere komplet datasæt, der forhåbentligt kan forbedre den teoretiske indsigt i dynamiske netværk, der hele tiden udvikler sig. Og samtidig sige noget om, hvordan mennesker opfører sig ikke bare på individuelt plan, men sammen med andre, hvilke mekanismer der gør, at man bliver venner, hvad der gør, at man holder op med at være venner, og hvordan ideer og indflydelse transporteres rundt i netværkene.

Dino Pedreschi er også af den opfattelse, at hvis man skal udnytte big datas fulde potentiale, bliver man nødt til at gribe fat om roden og selv begynde at etablere egne institutioner til indsamling af og forskning i data. De fleste lande er begyndt at frigive store offentlige datasæt til gavn for både forskning og erhvervsliv, men det meste af det, der handler om mobilitet og sociale netværk, er på private hænder. Der skal brydes med ideen om, at det bare »ligger derude« klar til at blive hentet, og man skal selv begynde at opbygge datasættene ved hjælp af frivillige brugeres mobiltelefoner. En platform, der godt nok skal opbygges fra bunden, men vil få afgørende fordele i forhold til den nuværende situation.

»Den indsigt, vi på den måde kan opnå, er meget dybere, end den vi kan få fra en server selv fra meget indgribende firmaer som Facebook eller Google. Det er noget, som ikke er opnåeligt, som det er nu,« siger Dino Pedreschi og tilføjer, at det for øjeblikket diskuteres i fora under EU-Kommissionen, hvordan det skulle kunne lade sig gøre. Det, der skal få folk til at deltage, er en synliggørelse af, at big data ikke kun er gavnligt for store institutioner, staten eller virksomheder, der vil bruge det i markedsføringsøjemed. Også den enkelte har meget at vinde ved at udnytte datastrømmen – fra mobiltelefoner, banktransaktioner, internetbrug og sociale medier – til at blive mere bevidst om sin egen ageren:

Individets muligheder
»Det skal være muligt for os alle sammen at generere viden ud fra vores eget data. Hver dag efterlader vi en gigantisk mængde digitale spor, som kunne blive integreret på individuelt niveau – undelagt ens egen kontrol – og brugt på et personligt plan til at få en bedre selvforståelse og -bevidsthed,« siger han. Mønstre som f.eks. hvornår man kører på arbejde, køber ind, hvad man spiser, hvad man køber eller ens søvnmønstre, skal kunne sammenlignes med andre menneskers. Det vil gøre det muligt at optimere ens eget liv, undgå myldretid og køer, træffe valg, der minder om de andres, hvis man vurderer, det er smartere eller vælge at adskille sig fra, hvad andre gør, hvis man hellere vil det. Applikationerne, der skulle gøre det muligt at foretage disse sammenligninger kunne f.eks. være bundet op til en ny statistisk institution, som folk kunne vælge at donere dele af sine data til, og som kunne bruge det til forskning, byplanlægning eller folkesundhed.

»Den her type opsætning vil gøre det muligt for folk at acceptere, at de deler en del af deres egen personlige fil med andre, så det på aggregeret niveau kan give et bedre billede af min by, min region og min stat. I essensen vil det være ideen om en smart by og en smart befolkning, fordi man bliver en del af en kollektiv bevidsthed, der handler om at skabe viden og som har incentiv til at bidrage, fordi man samtidigt får viden om sig selv,« siger Dino Pedreschi.

»Det ville åbne et mere rimeligt territorium, hvor indsamlingen af information af høj kvalitet ikke vil kræve, at man går gennem Google, teleudbydere eller andre af den digitale æras herskere«.