Skal skape et felles overordnet syn på data
Datavirtualisering er nytt for mange selv om fagfolk har jobbet med funksjonen i mer enn ti år. Hensikten er å fremskaffe de data som trengs for øyeblikkets behov uansett hvor data kommer fra.
Virtualisering innen it handler om muliggjøring, effektivisering og tilrettelegging. Muliggjøring gjelder bruk av datamaskinens minne, effektivisering om å utnytte datamaskinene bedre for å redusere antallet. Tilrettelegging handler om å skape en digital omgivelse som ligner den man vil møte i virkeligheten (VR, Virtual Reality). Tilrettelegging handler også om å samle de dataene som trengs for formålet, uten at brukeren må gå inn i de tekniske detaljene.
– Bedriftenes konkurransedyktige slagmark er om utnyttelse av data. Databaserte avgjørelser er basert på fakta. Erfaringsbaserte avgjørelser er influert av oppfatninger. Bedriftens evne til å bruke data er dens differensiator. Tid er helt avgjørende, påpekte Robert Eve, evangelist og markedsføringsansvarlig i Tibco for datavirtualisering, på Den norske dataforenings seminar Make Data Smart Again.
Datavirtualiseringen skal bidra til å forenkle uthentingen av de interessante dataene. Tilhengere hevder at norske virksomheter er sent ute ved å dra nytte av datavirtualisering, men tilretteleggingen av dataene for bruk er så omfattende at det fortsatt vil gå flere år før programvaren har tilstrekkelig funksjonalitet og er enkel å bruke. Hensikten er å gjemme flest mulige it-detaljer, eksempelvis om datadefinisjoner.
Forenkler
– Datavirtualisering forenkler arbeidet med å tilknytte og vedlikeholde datakilder. Dermed reduseres behovet for replikering til datavarehus. Sikkerhet, tilgangskontroll og tilpasning til GDPR er viktige forutsetninger, påpeker Per Baumann, salgsdirektør i Precise Prediction.
Precise Prediction representerer Tibco som via oppkjøp har en av de beste løsningene for datavirtualisering.
Analysefirmaet Gartner hevder at i løpet 2020 vil 35 prosent av virksomhetene innføre datavirtualisering for å sørge for dataintegrering.
– Datavirtualisering skal skape grunnlaget for effektive forretningstransaksjoner, sier Robert Eve.
Skal man tro Denodo, en av de ledende leverandørene, sørger datavirtualisering for et virtuelt lag som eliminerer behovet for replikering eller ekstra lagringskostnader. Videre hevder Denodo at et datavirtualiseringsprosjekt er tilbakebetalt i løpet av seks måneder.
– Med datavirtualisering føler brukerne at de er på én felles dataplattform, hevder Henry Cook, Senior Director Analyst for Technical Professionals i Gartner.
Det er ikke en reel felles dataplattform, men en logisk. Det krever programvare som tilrettelegger dataene for bruk. Konsekvensen er ekstra programvare for å sørge for å sammenstille dataene til brukernes behov.
– Ett grensesnitt uavhengig av datakilde kan være med på å effektivisere tidsbruken for å få frem nye innovative analyser, fremhever Lars-Roar Masdal, partner og med-gründer i datakompetansefirmaet Rav.
Tilrettelegge
For å skape en logiske dataplattform skjer det en betydelig utvikling med hensyn til å tilrettelegge data for bruk i analyse.
– Datavirtualisering er kjempespennende for det kan hente data som kan berike eksisterende data for ytterligere analyser, påpeker Lars-Roar Masdal.
En norsk offentlig etat skal benytte datavirtualisering i kombinasjon med selvbetjent analyse som Tableau eller Qlik for å oppnå ytterligere innsikt.
– Datavirtualiasering er teknologi som virksomhetene bruker for å utnytte og bygge dataleveranseplattformer, fortsetter Robert Eve.
Det vil kreve betydelig innsats for data skal frikobles de maskinene de administreres av. Når data kobles fra tjenestemaskinene, må metadata om dataene følge med, eksempelvis at data er i ASCII-format og benytter Big Endian.
ASCII (American Standard Code for Information Interchange) benyttes av alle datamaskiner med Intels prosessorer. Endian er regelverket for hvor det viktigste bit-et (sifferet) er i det feltet det skal analyseres på. Begrepet Endian stammer fra Gullivers reiser og benyttes i forbindelse med om det er den butte eller den smale delen av egget det skal kakkes i.
Big Endian og Little Endian har det viktigste sifferet helt motsatt og vil kunne medføre store feil hvis det ikke er kjent. IBMs Power 9 benytter typisk Big Endian. Overføringsprotokollen IP benytter Big Endian, Intels prosessorer benytter Little Endian.
Men Endian er det letteste. Det er mange andre dataformater som også må harmoniseres for å kunne benyttes i forbindelse med analyse.
Prototype
– Datavirtualisering konverterer data til et standardisert format som kan se ut som ODBC, forklarer Henry Cook.
Derfor legges det ned mye arbeid med å håndtere dataformater. Det krever større grad av standardisering. Det krever større grad av avansert it-teknologi med bufring av data, data i minnet og bruk av parallell databehandling.
En av grunnene er at ved bruk av datavirtualisering vil det være mulig å prototype en problemstilling hvor forskjellige data skal sammenstilles og vurderes for anvendelighet.
– Datavirtualisering er bra for prototyping som kan avgjøre om problemstillingen lar seg løse på en effektiv måte eller om det må benyttes alternativer som ETL, påpeker Henry Cook.
ETL, Extract, Transform and Load, har vært benyttet i alle datavarehus siden forretningsinnsikt med trendanalyse ble nødvendig for rundt 50 år siden. Spesialiserte datavarehus, Data Mart, og store datainnsjøer, Data Lakes, krever it-fagfolk for definisjon av relevante data og oppbygging av dataarkivet.
Datavirtualisering skal ikke overta fullstendig, men være et supplement til Datavarehus hvor virksomheten har samlet de viktige dataene for analyse. En av ideene er at kompetente ansatte skal kunne utnytte datasammenstillinger på egenhånd uten å måtte bruke it-fagfolk.
Tilgang
– Glem selve ordet. Hensikten er å sørge for en uniform tilgang til data, sier Robert Engels, ansvarlig for AI, datautvinning og forretningsinnsikt i Capgemini i Norge.
– Datavirtualisering er et veldig nyttig verktøy å ha i verktøykassen, men er ikke noe universalmiddel. En smart blanding av fysisk sammenstilling og datavirtualisering, kan ofte være optimalt, sier Henry Cook.
Ved å bruke datavirtualisering blir det et sentralt adgangspunkt som ifølge fagfolk forenkler sikkerhetsadministrasjonen, dataovervåkingen og ytelsesovervåkningen. Andre hevder at datavirtualisering med sitt omfattende programvarebyråkrati ødelegger for ytelsen i forbindelse med adgang til data.
Det hevdes like fullt at datavirtualisering er en forbedring til dataføderasjon, hvor data befinner seg spredd geografisk. Forbedringen skal sørge for ytelsesoptimalisering og selvbetjening. Tilhengerne er veldig opptatt av umiddelbar tilgang, men selv om tilgangen til de data som trengs for en analyse er enklere, vil det i mange tilfelle ta lang tid å fremskaffe dataene. Lang tid i denne forbindelse er mer enn syv sekunder, irritasjonsgrensen for når folk vil gjøre noe ifølge psykologiske målinger.
Grunnen til interessen for datavirtualisering er i første omgang å unngå omfattende prosjekter for å skape innsikt basert på mange forskjellige typer datakilder. Men skal det oppnås skikkelig ytelse, må it-fagfolkene gjennomføre et prosjekt hvor data tilrettelegges for bruk ved hjelp av den mest avanserte teknologien som bruk av grafiske prosessorer og data i minnet.
Datavirtualisering forsøker å skape en helhetlig oversikt med tilgang til nødvendige data en bruker trenger for innsikt i sine problemstillinger. I praksis skapes det en samling data, en virtuell record (post) som skal fremskaffes.
– Brukerne ønsker å gripe fatt i de data de trenger for øyeblikkets behov og handle på en optimal måte. Det skjer ved å skape en virtuell record med data som overleveres datavirtualiseringsprogramvaren, sier Robert Eve.
Utfordringen blir større med antall nye datakilder som kan være interessante for å skape innsikten. Det er ikke lenger bare relasjonsdata, men også øyeblikkets transaksjonsdata, regneark, datakartotek, grafiske data, bildedata, lyd, video, tekstdata, XML, sensordata og alle former for oppsamlede data i form av datavarehus, datamart og datainnsjøer.
Målet er å skape innsikt og forståelse. Det har vært ideen i femti år for BI-verktøy (Business Insight). Den gang var det analyse og rapportering som skapte innsikten. Datagrunnlaget ble tilrettelagt for oppgaven og samlet løpende i et datavarehus. Det er fortsatt det ideelle, men med antall nye datakilder blir oppgaven bare større ved å samle og tilrettelegge alle dataene virksomheten har behov for.
– Den historiske datainnsikten som virksomhetene har bygget opp gjennom mange år er helt nødvendig for å forstå utviklingen. Det må virksomhetene fortsette med. Det som skjer i øyeblikket er bare et viktig bidrag til beslutningene, påpeker Robert Eve.
Sensitive
Også maskering av sensitive data er vesentlig. Brukere skal få tilgang til data uten de virkelige dataene fremkommer. Det kan være viktig i forbindelse med lovverket GDPR (General Data Protection Regulation).
Elkjøp måtte stoppe prosjekter fordi de ville kreve tilgang til persondata og risikerte dermed brudd på reglene i GDPR. Ved hjelp av Tibcos datavirtualisering har Elkjøp utviklet VEDAL (Virtual Enterprise Data Access Layer) som sørger for å maskere data fra brukere som trenger tilgang.
– Med Tibco datavirtualisering gir vi brukerne tilgang til data som de normalt ikke ville få tilgang til. Vi trenger ikke sette i gang et nytt prosjekt, men kan fokusere på det som skal leveres, teste det, og få umiddelbar tilbakemelding fra brukerne. Det er veldig enkelt å rulle ut og endre i en fart, sier Johannes Melkeraaen, BI-arkitekt i Elkjøp ifølge et presseskriv fra Tibco.
I løpet av minutter kan it-fagfolkene maskere data som brukerne ikke skal ha tilgang til på grunn av VEDAL, den universelle datatilgangen for dataanalyse.
– I forbindelse med GDPR kan datavirtualisering bidra til views avhengig av roller, som i en HR-avdeling, forteller Henry Cook.
Ideen er at personlige data ikke skal kunne komme på avveie og bare bli benyttet for godkjente oppgaver.
Mer enn 50 år
Virtualisering innen it er mer enn 50 år. Det starte med virtuelt minne hvor applikasjonen trodde at den hadde mer plass enn det som eksisterte. Det ble gjort ved å dele opp minne i sider, vanligvis på 4 KB, og hvor applikasjonen ble tildelt sider etter hvert som bearbeidingen krevde det. Det virtuelle minnet var stort, det fysiske lite.
Så for 20 år siden ble konseptet om virtuelle maskiner introdusert. Grunnen var at det ble alt for mange maskiner som bare i liten grad ble utnyttet, ofte mindre enn ti prosent. Resultatet ble mindre strømforbruk, mindre plass, færre maskiner å administrere, men til gjengjeld krevde det ny programvare. Vmware ble ledestjerne, Microsoft introduserte sitt alternativ, og innen Linux kom KVM, Kernal, Virtual Memory.
IBM stormaskin hadde hatt virtualisering i mange år. Der kan enhver enhet defineres som en maskin, eksempelvis tastaturet. Også Unix-maskiner hadde virtualisering tidlig med fysisk oppdeling i logiske maskiner og virtualisering i operativsystemet.
Kanskje den mest avanserte løsningen utnyttes av IBM System I, tidligere S/38 og AS/400. I den maskinen er prosessoren helt isolert fra resten av maskinen. Applikasjonen oversettes til en mellomkode som deretter oversettes til maskinkode under bruk. Dette øker sikkerheten. Virus er ukjent.
VR, Virtual Reality, er blitt et hett begrep de seneste årene. Personer tar på seg masker og dykker inn i en lukket verden hvor de opplever en tenkt mulig verden, fantastisk for opplæring hvor det ikke er mulig å være til daglig. VR er slitsomt for kroppen ved bruk over lenger tid. Enkelte blir svimle.