Hvad er talegenkendelse?
Talegenkendelse er teknologi, der bruges til at omdanne tale til tekst. Det er altså transskribering udført af et computerprogram, også omtalt som maskin-transskribering eller automatisk transskribering.
Der findes talrige programmer til automatisk transskribering, men de fungerer bedst på de store sprog, fx engelsk, spansk og kinesisk. Det har den simple årsag, at der er færre data tilgængelige til træning af sprogmodeller på dansk end på de store sprog. Det er derfor svært at opnå den nødvendige nøjagtighed i genkendelsen.
Kvaliteten af talegenkendelsen afhænger af faktorer som sprogets kompleksitet, modellens kapacitet og nøjagtigheden, man ønsker at opnå gengivelsen. Generelt kræver det store mængder af data at træne talegenkendelsesmodeller, fordi de skal lære at genkende tale optaget i forskellige lydkvaliteter og tale fra personer med forskellige accenter, og som taler forskellige dialekter.
For at opnå en høj nøjagtighed i transskriptionen, skal sprogmodellen trænes med hundredtusindvis af timer af talte data. Et eksempel er Google, der brugte flere hundredtusinde timer af talte data til at træne deres model til at opnå en nøjagtighed på 95 %.
Og de data, man bruger, skal være kvalitative og repræsentere forskellige dialekter og sprogbrugen i forskellige situationer og fra forskellige kilder. Det kræver selvsagt en enorm mængde lyddata.
Hvorfor er talegenkendelse af dansk svært?
Det er svært at opnå en meget høj nøjagtighed med automatisk transskribering af dansk tale. Det er der forskellige grunde til.
For det første er Danmark et meget lille sprogområde, og det er derfor svært at skaffe den nødvendige datamængde. Man kan altså ikke træne modellen så godt som på de større sprog, og derfor opnår man ikke den samme nøjagtighed i genkendelsen.
En anden grund er, at dansk har mange homofoner, altså ord, der udtales ens, men skrives forskelligt. Det gør det svært for talegenkendelsesmodellen at bestemme den korrekte skrivning af ordene. For eksempel kan lyden "vær" både staves vejr, værd, hver og vær.
For at tackle dette problem kan man bruge teknologier som semantisk analyse og kontekstgenkendelse for at forstå betydningen af ordene i en given sætning eller sammenhæng. Det kan hjælpe sprogmodellen med at bestemme den korrekte skrivning af ordene. Men netop semantisk analyse og kontekstgenkendelse kræver en omfattende datamængde og meget avanceret teknologi.
Også dansk talesprogs mange accenter og dialekter gør det svært for modellerne at forstå og genkende tale. Accent refererer til måden, hvorpå et ord eller en sætning udtales af en person, mens dialekter refererer til variationer i sproget efter geografisk område eller social gruppe.
Så selv om man kan træne modeller med mange data, vil der stadig være variationer i tale, som modellen ikke er i stand til at håndtere.
Samtidig kan dialekterne også påvirke ordforrådet, så der vil være ord og udtryk, som er almindelige i en landsdel, men som ikke bruges i andre dele af landet. Det kan også gøre det svært for modellen at forstå tale, hvis den ikke er trænet på disse særegne ord eller udtryk.
Så sprog med mange dialekter og accenter kræver en meget stor mængde lyd-data. Og det kniber det som sagt med i Danmark, fordi dansk er et meget lille sprog.
Transskribering med høj nøjagtighed
Automatisk transskribering er oplagt i situationer, hvor pris og leveringstid vejer tungere end nøjagtighed. Høj nøjagtighed, altså mindst 99 %, opnås dog kun ved manuel transskribering.
Læs mere om transskribering.