Sprogmodellen Ælæctra vil forbedre dansk sprogteknologi på en klimavenlig måde

digitization

Der er brug for at videreudvikle dansk sprogteknologi, hvis kunstig intelligens også fremover skal være med til at effektivisere arbejdsgange med udgangspunkt i dansk tekst og tale. KMD hilser derfor den nye danske NLP-baserede sprogmodel Ælæctra velkommen.

Dansk er et lille sprog. Hvor computere i dag kan forstå og bearbejde engelsk på et højt plan, halter udviklingen bagud, når det gælder dansk. Det er noget, de fleste kan nikke genkendende til, når de taler med virtuelle assistenter som Siri og Alexa på henholdsvis dansk og engelsk.

Engelsksprogede modeller er så langt fremme, at de skaber overskrifter verden rundt – i bogstavelig forstand: Sprogmodellen GPT-3 har eksempelvis selv skrevet både nyhedsartikler, digte, essays og skønlitteratur. Det er muligt, fordi der er investeret massivt i træningen af den kunstige intelligens i det engelske sprog. Rent teknisk bruger man sprogteknologi (på engelsk Natural Language Processing – NLP) til at skabe repræsentationer af sprog for computere, så de kan forstå og interagere sprogligt.

KMD’s data scientist Malte Højmark-Bertelsen har udviklet sprogmodellen Ælæctra som led i sit bachelorprojekt på Cognitive Science ved Aarhus Universitet. Ælæctra er præ-trænet på et datasæt fra The Danish Gigaword Project, der er udviklet af en række forskere fra IT-Universitetet, AU og Cornell Universitet.

”Ælæctra er opkaldt efter modeltræningstilgangen ELECTRA. I udviklingen af Ælæctra har jeg trænet modellen effektivt ved at optimere på tværs af samtlige ord modellen processerer, i stedet for – som tidligere modeller – blot at optimere på bestemte ord,” fortæller Malte Højmark-Bertelsen.

Traditionelt har NLP-komponenter ikke været i stand til at lære den dybe kontekst, der gemmer sig i sætninger, fordi ord i sætninger er blevet processeret sekventielt. Men ved at benytte metoden ELECTRA eller andre transformerbaserede neurale netværk i træningen kan man forfine værktøjets evne til at forstå kontekst.

Samme fremgangsmåde er blevet brugt til at udvikle den danske sprogmodel Danish BERT. Her adskiller Ælæctra sig dog ved at kræve væsentlig færre ressourcer til træning og processering. BERT-modeller er mindst otte gange større end Ælæctra og sætter dermed et større CO2-aftryk. En effektiv og lille sprogmodel som Ælæctra har altså en fordel målt i klimapåvirkningen.

”Processering af data koster på klimakontoen. Det er vi stærkt bevidste om i KMD og prioriterer derfor klimavenlige løsninger højt. Et produkt som Ælæctra præsterer på niveau med eksisterende danske sprogmodeller, men når det samtidig er otte gange mindre klimabelastende, er der en tungtvejende grund til at satse på denne model i fremtiden,” siger KMD’s teknologidirektør, Hans Jayatissa.

KMD anvender allerede Ælæctra, der er baseret på data fra The Danish Gigaword Project, i løsningen ’Sager som min’ til Nævnenes Hus, hvor den kan aflæse en ny klagesag og automatisk finde lignende sager og afgørelser på området. Potentialet for at benytte sprogmodeller i it-løsninger er ikke til at komme uden om. Sprogmodeller kan eksempelvis hjælpe kommuner og regioner med indsigt i store tekstmængder, og de kan producere maskingenerede resuméer og oversættelser, estimere teksters sentiment (stemning), fungere som chatbots osv.

Med brug af Ælæctra arbejder KMD målrettet med at introducere dansk sprogforståelse i flere af sine produkter. Den er tiltænkt som kommende NLP-komponent i flere eksisterende KMD-løsninger og bliver allerede afprøvet i nogle af disse.

Pressekontakt

Anne Rosa Simonsen, pressechef i KMD, tlf. +45 2063 3133, gfs@kmd.dk

The Danish Gigaword Project

Læs mere om projektet på http://gigaword.dk/.

 

/ Redigeret 18. januar 2021.