Glem ikke språket

KOMMENTAR: Når det offentlige tar i bruk språkteknologi i digitale løsninger, er det påfallende at det ikke snakkes mer om språk, skriver direktør i Språkrådet, Åse Wetås.

Åse Wetås

Språkrådet

Publisert 07.01.2019 - 16:29 Sist oppdatert 07.01.2019 - 16:29

Når samfunnet satser mer og mer på kunstig intelligens og digital kommunikasjon, er det tilgjengeliggjøringen av digital informasjon som kartdata, journaler, transaksjoner og posisjonsdata som får mest oppmerksomhet. Den språklige komponenten i de digitale løsningene kommer i skyggen. Det ønsker Språkrådet å gjøre noe med.

Åpne data

Språkteknologien er blitt en del av hverdagen vår. Vi møter den i alt fra stavekontroller og maskinoversettelser til samtaleroboter (chatbots) og smarthøyttalere. Teknologien er avgjørende for sømløs universell utforming og for utvikling av talegjenkjenning, talesyntese, tekstanalyse og ulike former for kunstig intelligens.

Fordelen med språkteknologien er at den effektiviserer kommunikasjonen mellom det offentlige, næringslivet og privatpersoner. Ulempen er at de språkteknologiske løsningene foreløpig fungerer bedre på engelsk enn på norsk.

Heldigvis kan vi gjøre noe med dette. All språkteknologisk programvare bruker språkdata, og jo mer og bedre data man mater programvaren med, jo bedre blir resultatet som kommer ut. Språkrådet og Nasjonalbiblioteket samler inn slike data og legger dem i Språkbanken, en åpen plattform for deling av data og verktøy til språkteknologi.

Spredte data

Språkdata kommer i mange innpakninger: stordata (big data), termbaser, synonymordlister, oversettelsesminner, tekster fra spesialiserte fagområder, taledata og mye mer. I mange tilfeller er dataene produsert for andre formål enn språkteknologi. De ligger spredt, og er uten faglig merkelapp. For eksempel vil ikke en oversettelse ligge lagret under merkelappen "språkdata", siden det opprinnelige formålet med den ikke er å fungere som «mat» for fremtidige oversettelser. Likevel er det nettopp tidligere oversettelser som brukes for å lære opp programmer som produserer nye oversettelser.

Jo flere oversettelser et program arbeider med, jo bedre blir neste oversettelse, og jo mer områdespesifikke oversettelsene er, jo bedre blir nye oversettelser innenfor samme område.

Dyre data

Noen typer data utvikles spesielt for språkteknologiske formål, for eksempel bearbeidede taledata som brukes i talegjenkjenning. Slike data er dyre å produsere, særlig fordi en norsk talegjenkjenner skal kunne håndtere det norske dialektmangfoldet. Bare store aktører som Google har tilstrekkelig med midler til selv å utvikle data til språkteknologiske løsninger på norsk – i den grad de finner det hensiktsmessig.

Når mindre bedrifter skal utvikle teknologiske produkter og verktøy som inneholder språkkomponenter, må de ha tilgang til gode språkdata for at deres produkter skal kunne konkurrere med produkter fra de store aktørene. Det er ikke realistisk å regne med at hver enkelt bedrift skal klare å samle inn eller produsere data til slike formål.

Skal vi nå målene i den norske språkpolitikken og gi norske språkbrukere gode digitale tjenester og produkter, må vi ha mulighet til å gjenbruke de dyre dataene som er utviklet for språkteknologiske formål. Vi må også ha rutiner for å samle inn og nyttiggjøre oss de spredte dataene som er produsert for andre formål enn språkteknologi. Det offentlige må være villig til å ta regningen slik at teknologien virker like bra på norsk som på engelsk.

Glem ikke språket

KOMMENTAR: Når det offentlige tar i bruk språkteknologi i digitale løsninger, er det påfallende at det ikke snakkes mer om språk, skriver direktør i Språkrådet, Åse Wetås.

Åpne data

Spredte data

Dyre data

Open AI henter historisk stor investering

Slik akselererer du digital transformasjon

Nobelprisvinnere anklager Meta for tyveri

Går fra sikkerhet i Sopra Steria til sikkerhet i Omny

Conta får ny toppsjef

– Næringslivet må komme seg på banen

IT-gründere må droppe teknisk problemløsning

Olivia har ankommet Nordfjordeid

Capgemini tredobler i Drammen

KI-gapet øker blant toppledere i Norden

Gartner: Økt GenKI-skepsis, men veksten fortsetter

Deler ut 112 millioner kroner til forskerskoler

Apple ilagt milliardbot i Frankrike

IDC: 88 prosent av alle KI-piloter kommer ikke i produksjon

KI favoriserer amerikanske varemerker

Et felles europeisk helsedataområde (EDHS) vil sette fart i norsk e-helsepolitikk

Her er offentlig sektor best i klassen

Felles rammeverk for digital trygghet

Ingen vei utenom USA i skyen

Inngår femårig bankavtale med Tietoevry

AI og cybersikkerhet i energi og maritim sektor med DNV

Northug kappet kabelen da butikk åpnet

Kritiserer Datatilsynet for dårlig veiledning