Nasjonalbiblioteket tilrettelegger for nynorsk talegjenkjenning
570.000 nynorske ord i Språkbanken.
At pc-er, Mac-er, mobiler og nettbrett klarer å forholde seg til talt norsk språk, både som inn- og utdata, er slett ingen nyhet. Men da dreier det seg alltid om norsk bokmål. Nå opplyser Nasjonalbiblioteket at det vil bli enklere å lage norsk taleteknologi som også støtter nynorsk, takket være et nytt innskudd i Språkbanken.
570.000 gratis ord
Språkbanken hos Nasjonalbiblioteket er en samling av store datasett med norsk tekst og tale. Disse datasettene danner blant annet grunnlag for utvikling av taleteknologi som skal støtte norsk språk. Språkbanken ble etablert gjennom en bevilgning over statsbudsjettet i 2010.
Nå opplyser Nasjonalbiblioteket i en pressemelding at Språkbanken har fått en uttaleordliste på 570.000 ord på nynorsk. En slik ordliste inneholder selve ordet, i tillegg til maskinlesbare, fonetiske transkripsjoner av ordene. Det er opplagt at å lage en slik liste er omfattende, og både kostbart og krever spisskompetanse om norsk lydlære.
– For mange virksomheter vil verken være mulig eller lønnsomt å lage sin egen liste for nynorsk. Gjennom å tilby denne listen med åpen lisens gjør vi det billigere og enklere å utvikle taleteknologi for nynorsk, sier Per Erik Solberg, språkteknolog ved Språkbanken i Nasjonalbiblioteket, i pressemeldingen.
Tale begge veier
En slik uttaleordliste fungerer begge veier. Når talegjenkjenning skal oversette fra tale til tekst, bruke listen til å avgjøre hvilke ord lydsegmenter svarer til. Når tekst skal oversettes til tale, brukes ordlisten til å fortelle den syntetiske stemmen hvordan ordene skal uttales.
Uttaleordliste blir delt ut i ressurskatalogen til Språkbanken, og lisensen gir både kommersielle og ikke-kommersielle utviklere tillatelse til å bruke den. Ordlisten er utviklet av trondheimsfirmaet Lingit.
Språkbanken har naturligvis også en tilsvarende ordliste for norsk bokmål, og i fortsettelsen kommer begge listene til å utvides med mer dialektinformasjon og flere ord, slik at de blir enda mer nyttige.
Så kanskje en fin dag vil både Siri, Alexa og Cortana snakke til oss på korrekt nynorsk, med klingende Ålesund-dialekt?