Setter syntetiske data høyere på agendaen

Kronikk: Teorien bak konseptet The Synthetic Data Vault (SDV) har vært kjent i noen år, men nå ser vi at denne teorien omsettes i anvendbare løsninger. Syntetiske data brukes til utvikling, test og forvaltning av IT-løsninger for å skjerme sensitive produksjonsdata mot uønsket bruk.

Jan Birkeland

Publisert 29.09.2017 - 14:45 Sist oppdatert 29.09.2017 - 14:45

Synthetic Data Vault er relevant for mange virksomheter og GDPR kravene har satt dette på agendaen hos mange virksomheter som nå må skjerme produksjonsdata i større grad enn tidligere.

Mange virksomheter sliter med å lage gode syntetiske data. Løsningen blir som regel å anonymisere/maskere produksjonsdata som i praksis ødelegger de statistiske egenskapene til produksjonsdataene. Kvaliteten på de anonymiserte dataene blir lav og dermed ofte ikke gode nok for behovet de var tiltenkt til, samt at det er krevende å verifisere at anonymiseringen er tilstrekkelig. Resultatet blir at kopier av produksjonsdata blir liggende rundt i de forskjellige utviklings-, test- og QA-miljøene. I store virksomheter med mange systemer og parallelle utviklingsløp blir dette etter hvert en krevende oppgave med risiko for at produksjonsdata havner på avveie.

Konseptet The Synthetic Data Vault (SDV) baserer seg på bruk av maskinlæring og statistikk for å trene modeller som, i motsetning til anonymisering/maskering, genererer datasett med statistiske egenskaper som blir identiske med de originale produksjonsdataene.

The SDV workflow (Patki, 2016) beskriver en fire stegs prosess for å etablere SDV, først organiseres produksjonsdata fra alle tabellene i separate filer, deretter spesifiserer man datatyper og relasjoner, trener opp modellen og til slutt genereres det opp syntetiske data til et SDV.

Datakvaliteten på produksjonsdataene er helt avgjørende for at konseptet basert på SDV blir vellykket. Om datakvaliteten er god nok oppdages ofte ikke før læring av modellen er prøvd ut den første gangen. I mange tilfeller må det tas et eller flere steg tilbake for å se på hvordan produksjonsdataene blir skapt. Dårlig datakvalitet er som regel knyttet til fagsystemer og arbeidsprosessene hvor data blir til, så disse må ofte utbedres for å heve kvaliteten.

Et praktisk tips er derfor å starte raskt med å trene modellen, da vil man oppdage svakheter tidlig og nødvendige utbedringer kan gjøres uten for mye bortkastet tid, så “prøv og feil” er en god arbeidsmetode for å komme i gang med SDV basert på maskinlæring.

Når SDV er etablert med tilfredsstillende kvalitet, må det forvaltes og vedlikeholdes, ved feks. endringer i fagsystemene eller prosessene som skaper produksjonsdata, må modellen trenes på nytt og et nytt SDV genereres.

Bruksområdene for syntetiske produksjonsdata basert på anonymisering/maskering av produksjonsdata er begrenset, disse dataene blir som regel laget for et spesielt formål og er lite anvendelig utenfor dette området. Syntetiske data basert på SDV har et langt større bruksområde og kan i praksis sidestilles med reelle produksjonsdata, eksempler er:

* Trening av maskinlæringssystemer generelt* Effektiv og repeterbar generering av testdata med kvalitet som på produksjonsdata* Skalerbare datasett for feks. Ytelsestesting* GDPR- relaterte krav til håndtering av personrelatert informasjon* Isolere produksjonsdata fra utviklingsprosesser og miljøer slik at færrest mulig får tilgang til produksjonsdata* Data Science/Data mining/Data Visualization oppgaver kan utføres mot syntetiske data* Trening av maskinlæringssystemer beregnet for avdekking av misbruk (Fraud Detection).

Morten Brurberg er COO i Visma Consulting

computerworld kronikk

Setter syntetiske data høyere på agendaen

Kronikk: Teorien bak konseptet The Synthetic Data Vault (SDV) har vært kjent i noen år, men nå ser vi at denne teorien omsettes i anvendbare løsninger. Syntetiske data brukes til utvikling, test og forvaltning av IT-løsninger for å skjerme sensitive produksjonsdata mot uønsket bruk.

Enorm bot til Tiktok for å ha sendt EU-brukeres data til Kina

Samarbeider med Tietoevry om nytt studie

Europeisk skygruppe investerer i «Trump-sikker» sky

Ny «ransomware as a service»-plattform på rask fremmarsj

Agentisk KI vil ikke gjøre skyleverandørene rike

Selger selskap med milliardgevinst

Nkom: Nye EU-regler for utstyr som kobles til internett

Med sunn fornuft er det ingen grunn til å frykte Copilot

Innleder samarbeid for å modernisere europeiske banker

Open AI henter historisk stor investering

Slik akselererer du digital transformasjon

Nobelprisvinnere anklager Meta for tyveri

Går fra sikkerhet i Sopra Steria til sikkerhet i Omny

Conta får ny toppsjef

– Næringslivet må komme seg på banen

IT-gründere må droppe teknisk problemløsning

Olivia har ankommet Nordfjordeid

Capgemini tredobler i Drammen

KI-gapet øker blant toppledere i Norden

Gartner: Økt GenKI-skepsis, men veksten fortsetter

Deler ut 112 millioner kroner til forskerskoler

Apple ilagt milliardbot i Frankrike

IDC: 88 prosent av alle KI-piloter kommer ikke i produksjon

Setter syntetiske data høyere på agendaen

Kronikk: Teorien bak konseptet The Synthetic Data Vault (SDV) har vært kjent i noen år, men nå ser vi at denne teorien omsettes i anvendbare løsninger. Syntetiske data brukes til utvikling, test og forvaltning av IT-løsninger for å skjerme sensitive produksjonsdata mot uønsket bruk.​

Enorm bot til Tiktok for å ha sendt EU-brukeres data til Kina

Samarbeider med Tietoevry om nytt studie

Europeisk skygruppe investerer i «Trump-sikker» sky

Ny «ransomware as a service»-plattform på rask fremmarsj

Agentisk KI vil ikke gjøre skyleverandørene rike

Selger selskap med milliardgevinst

Nkom: Nye EU-regler for utstyr som kobles til internett

Med sunn fornuft er det ingen grunn til å frykte Copilot

Innleder samarbeid for å modernisere europeiske banker

Open AI henter historisk stor investering

Slik akselererer du digital transformasjon

Nobelprisvinnere anklager Meta for tyveri

Går fra sikkerhet i Sopra Steria til sikkerhet i Omny

Conta får ny toppsjef

– Næringslivet må komme seg på banen

IT-gründere må droppe teknisk problemløsning

Olivia har ankommet Nordfjordeid

Capgemini tredobler i Drammen

KI-gapet øker blant toppledere i Norden

Gartner: Økt GenKI-skepsis, men veksten fortsetter

Deler ut 112 millioner kroner til forskerskoler

Apple ilagt milliardbot i Frankrike

IDC: 88 prosent av alle KI-piloter kommer ikke i produksjon

Kronikk: Teorien bak konseptet The Synthetic Data Vault (SDV) har vært kjent i noen år, men nå ser vi at denne teorien omsettes i anvendbare løsninger. Syntetiske data brukes til utvikling, test og forvaltning av IT-løsninger for å skjerme sensitive produksjonsdata mot uønsket bruk.