Gull på dynga
"Om to år vil markedet se tilbake på Big Data hysteriet med et smil", skriver Helge Skrivervik på sin blogg MyMayday. "Vi lot oss rive med, trodde på alkymi. Men søppel blir aldri til gull." Det er ikke noe galt med søppel, det er materie som befinner seg på feil sted til feil tid.
Helge trekker analogier til floppen "Second Life". Og det er sant, it-industrien har et stort antall flopper å se tilbake på. Men det er nok av eksempler på oppfinnelser som først ble dømt nord og ned. Bare tenk på pc-er som mange på 80-tallet mente var leketøy. (Jeg var blant dem.) Eller på Internettet. Eller på Cloud Computing. Først dyp skepsis, siden vill begeistring.
Helge kaller sitt innlegg "Big Data – ustø redningsplanke for it". Jeg betrakter Big Data som en teknisk og forretningsmessig revolusjon i emning. En purung slektning av Business Intelligence som i dag regnes som konvensjonell teknologi og som alle virksomheter med respekt for seg selv er avhengig av. Jeg skrev om forskjellen mellom de to for noen uker siden, under overskriften "Grådress eller rutet skjorte?".
Big Data er et bredt konsept som inneholder mange teknologier og analyseteknikker. Det vesentlige er at alle tilgjengelige data blir utnyttet, ikke bare et lite utvalg. Datagrunnlaget gjemmer både søppel og gull. Og data er det stadig mer av, både i og utenfor virksomhetene. Først nå er teknologien klar og billig nok for BIIIIG DATA. Mye er å finne i cloud.
Blant klassiske suksesshistorier er flere fra Google og Amazon, to selskaper som allerede har realisert mye av fremtiden. Google Translate er en slik historie som begynte i 2006. Da bestemte Google seg til å knekke koden for maskinell oversettelse, en notorisk vanskelig oppgave. Flere forsøkte seg tidligere, blant annet IBM og Microsoft, men uten å få til et gjennombrudd. Google satset på Big Data og brutal kraft. De samlet inn tekster som forelå på to språk ved å tråle hele nettet, sine egne arkiver og hva de ellers kunne legge hånd på. Milliarder av sider, godt og dårlig om hverandre, mye søppel. En million ganger større database enn hva alle andre hadde til disposisjon. I dag har Google et system som virker brukbart for over 60 språk (selv om en del gjenstår). Peter Norvig, sjefsarkitekten sier: "Enkle modeller og en masse data vinner over avanserte modeller basert på lite data".
Når datamengden blir overveldende, gir mennesker opp, men maskiner holder stand. Pat Helland, database-guru har skrevet en berømt artikkel som heter: Hvis du har for mye data da er ”godt nok” godt nok. Vi kan ikke lenger late som vi lever i en ren verden.
Billion Prices Project er en annen suksesshistorie. Hver måned publiserer U.S. Bureau of Labor Statistics sin konsumprisindeks som brukes til å kalkulere inflasjonsraten. Samme gjør Norge, indeksen brukes til mye viktig i samfunnet. Hundrevis er ansatt for å ringe, fakse eller rett og slett besøke butikker i 90 byer for å samle inn datagrunnlaget. 80 tusen enkeltpriser, fra tomater til drosjeturer blir logget. Det koster en masse og tar lang tid. To MIT-økonomer har utviklet en Big Data-løsning som samler inn fra nettet en halv million priser hver dag. Også her er datagrunnlaget noe søplete, men kløktige analyser gjør at resultatene er klare "dagen etter". Da storbanken Lehman Brothers plutselig gikk konkurs i 2008 og ringvirkningene sto i kø, kunne systemet allerede samme måned fortelle hva som skjedde med prisene (de gikk ned over hele fjøla) mens den offisielle statistikken først forelå to måneder senere.
Det finnes en vell av slike historier i min hovedkilde "Big Data: A revolution that will transform how we live, work and think." (Finnes som Kindle.) Det er mye der om detaljhandel og kredittselskaper. Amazon med sin anbefalingsmotor er kanskje verdens største Big Data-suksess, målt med kommersielle termer. Jeg synes helsesektoren er spesielt lovende. Instrumenter i sykehus tikker inn millioner av observasjoner som i dag bare blir kastet. Et elektrokardiogram alene leverer tusen avlesninger i sekundet. Klarer vi å ta vare på dette "søppelet" og analyserer det nøye, kan vi komme over livsavgjørende innsikt. Et velkjent Big Data-prosjekt har for eksempel vist at med datamaskiners hjelp går det an å forutse komplikasjoner for tidligfødte barn.
I min forrige spalte brukte jeg bildet grådress og rutet skjorte. Tradisjonelle BI-løsninger er velfriserte og tilbakeskuende. Low risk, low reward. Big Data ser fremover, og jobber nødvendigvis i uryddig terreng. Noen har sagt at det ligner på en fisketur: Du ror ut uten å vite om du får noe i det hele tatt og i så fall hva som biter på. Typisk high risk and high reward.
USA er ikke Norge, det vet jeg. Gartners undersøkelser viser at Europa på dette området ligger flere år bak USA. Norge er heller ikke kommet i gang. Om jeg fremdeles ikke er avskiltet i 2015, kan vi gjerne fortsette diskusjonen. Om ikke før.
hidas@online.no