SERVER: Superdatamaskinen Lumi skal brukes når prosjektet gjennomfører språktrening. (Foto: Pekka Agarth)

Språkteknologi-forskning skal utfordre monopol

Prosjektet har fått midler fra EUs Horisont Europa-program til gjennomføringen, som har som mål å utvikle språkmodeller for dyplæring og maskinoversettelsesverktøy i stor skala.

Publisert Sist oppdatert

Tjenester som Google Translate eller stemme-assistenter bygger på komplisert språkteknologi. I bunnen har man språkmodeller som er trent opp ved hjelp av maskinlæring.

Språkmodellene eies av noen få amerikanske og kinesiske teknologiselskaper. Dette gir ikke bare stor markedsmakt til enkelte aktører, det fører også til skjevheter i hvilke språk modeller trenes på. Språk som har mindre antatt kommersiell verdi, har ofte svakere modeller eller ingen modeller i det hele tatt.

Det vil forskere gjøre noe med.

Utfordrer monopol

High-Performance Language Technologies (HPLT) er navnet på et prosjekt som skal utfordre nåværende monopolsituasjon hvor noen få store teknologiselskap står bak verdensledende tjenester. De vil sette søkelys på flerspråklighet og utvikle treningsmateriale og språkmodeller som støtter europeiske språk.

Ved å trene opp språkmodeller for alle europeiske hovedspråk, kommer HPLT-prosjektet til å endre forutsetningene helt. Mange vil dra nytte av dette.

Andrey Kutuzov ved Institutt for informatikk ved Universitetet i Oslo

HPLT ledes av tsjekkiske Charles University. Det er et samarbeid mellom fem universiteter: Oslo i Norge, Edinburgh i Skottland, Praha i Tsjekkia, Helsinki og Turku i Finland, samt to leverandører av høykapasitetstjenester (Sigma2 og tsjekkiske Cesnet), og et privat selskap (spanske Prompsit).

HPLT har fått midler fra EUs Horisont Europa-program til å gjennomføre prosjektet. De vil ha støtte til alle offisielle europeiske språk, og mange flere. Resultatet skal bli åpent nedlastbare høykvalitetsmodeller.

Offentlig tilgjengelig og transparent Siri

Noe av motivasjonen bak prosjektet er dessuten å ta vare på europeisk språk.

– Ved å trene opp språkmodeller for alle europeiske hovedspråk, kommer HPLT-prosjektet til å endre forutsetningene helt. Mange vil dra nytte av dette, særlig forskere utenfor store selskaper og oppstartsbedrifter som kan utvikle nye tjenester ved hjelp av språkmodellene, sier Andrey Kutuzov ved Institutt for informatikk ved Universitetet i Oslo, en av forskerne bak prosjektet i en pressemelding. Han fortsetter:

Vi ser at etterspørselen etter KI-ressurser fra både akademia og industri stadig øker, og som nasjonal leverandør er det avgjørende at vi kan tilby beregnings- og lagringsressurser i verdensklasse.

– Dette kan selvsagt også inkludere videreutvikling av virtuelle assistenter som Siri, men denne gangen bygget med transparent og offentlig tilgjengelig teknologi under panseret.

Enormt tekstarkiv

Til å gjennomføre prosjektet skal HPLT-forskerne bruke tekstdata fra det såkalte Internettarkivet, som kanskje er best kjent for sin ikoniske Wayback Machine. Internettarkivet inneholder en enorm mengde nettsider på ulike språk. Det er trygt å si at denne samlingen enkelt overgår de fleste datasett som til nå har vært brukt i trening av nyere språkmodeller.

Forskerne bak studien skal laste ned de mest relevante dataene fra europeiske domener og etablere kopier i Norge og i Tsjekkia. Så blir nettsidene rensket og tekstene hentes ut for å benyttes i opplæring av språkmodellene. Det er snakk om billiarder av ord med tekst. Prosjektet tar sikte på å utvikle den største åpne tekstsamlingen for andre språk enn engelsk noensinne.

HUS: Slik ser datasenteret som huser Lumi ut. (Foto: Pekka Agarth)

– Vi ser at etterspørselen etter KI-ressurser fra både akademia og industri stadig øker, og som nasjonal leverandør er det avgjørende at vi kan tilby beregnings- og lagringsressurser i verdensklasse. Der blir Lumi en nøkkel til å muliggjøre forskningsgjennombrudd på fagområder som drives av høykapasitetsberegninger og databehandling fremover, sier Gunnar Bøe, daglig leder i Sigma2.

Velger NIRD som lagringspunkt

I størrelse er det snakk om omtrent syv petabyte med data. Det tilsvarer lagringskapasiteten til to millioner DVD-plater. Nå er det selvsagt uaktuelt å lagre Internettarkivet på DVD-plater. I stedet skal de syv petabytene med rådata lagres på den nye nasjonale lagringsinfrastrukturen, NIRD, som eies av Sigma2 og driftes av NRIS (Norwegian research infrastructure services).

Det er komplisert å håndtere en så stor datamengde. Datakapasitet og overføringshastighet mellom dataklynger i Norge og utlandet, inkludert Internettarkivets datasenter i California, er helt avgjørende for å gjennomføre forskningen.

Nøkkelpunkt

I Norge har vi Forskningsnettet, som driftes og utvikles av Sikt. Dette høykapasitetsnettverket er koblet til internasjonale forskningsnettverk slik at data raskt og sikkert kan overføres mellom de nasjonale systemene og Europas raskeste superdatamaskin Lumi i Finnland, hvor språktreningen skal utføres. Norge er deleier av Lumi gjennom Sigma2.

Superdatamaskinen Lumis enorme datakapasitet er først og fremst basert på mange GPU-prosessorer, som er svært godt egnet til forskning som involverer kunstig intelligens, og spesielt dyplæring.