Forskere: Dansk sprogmodel afgørende for den nationale IT-sikkerhed

English

Do you want information in English? Visit our English website.

Go to our english site

4. juli 2024

Ernst Poulsen

Bemærk: Denne artikel er mere end et år gammel og kan indeholde forældet information

Det er afgørende for dansk IT-sikkerhed, at vi får skabt en dansk sprogmodel, for vi kan ikke tillade os at sende hverken sundhedsdata, forsvarsdata eller virksomhedernes fortrolige data ud i internationale AI-værktøjer, lyder advarslen fra Alexandra Instituttet.

Flere danske ministerier har indføre et forbud mod at bruge AI-værktøjer, og det kan ikke undre, siger Jens Kaas Benner, der er Head of AI Lab hos Alexandra Instituttet: "Sundhedsdata og alt fra Forsvarsministeriet er bare to af de mest åbenlyse typer af data, man ikke skal lægge op i et system, hvor man reelt ikke ved, hvor de konkrete data ender.”

Vi har allerede hørt advarslerne: Man skal tænke sig om fem gange, før man smider følsomme oplysninger op i ChatGPT og andre AI-værktøjer. Reelt ved man aldrig helt, hvilke servere indholdet havner på og hvem der lytter med.

Det har også fået flere danske ministerier til at indføre et forbud mod at bruge AI-værktøjer, og det kan ikke undre, siger Jens Kaas Benner, der er Head of AI Lab hos Alexandra Instituttet:

”Sundhedsdata og alt fra Forsvarsministeriet er bare to af de mest åbenlyse typer af data, man ikke skal lægge op i et system, hvor man reelt ikke ved, hvor de konkrete data ender.”

Hos Alexandra Instituttet arbejder de netop nu med at udvikle en ny dansk sprogmodel.

”Lige nu arbejder vi med at bygge de grundlæggende funktioner, og her er det afgørende, at have adgang til at fodre modellerne med store mængder tekst på det konkrete sprog og inden for det konkrete fagområde. For at sikre de data mod misbrug er det netop afgørende, at vi gør det i en kontrolleret dansk sammenhæng,” forklarer Jens Kaas Benner.

Skal fjerne rutineopgaver

Forude venter en fremtid, hvor AI-værktøjer kommer til at effektivisere en hel masse rutineopgaver, forklarer Dan Saattrup Nielsen, der er Senior AI Specialist og kollega til Jens Kaas Benner på Alexandra Instituttet.

”Offentligt ansatte har i mange tilfælde en notatpligt, og en oplagt mulighed for brug af et AI-værktøj er, at service-samtaler med borgerne bliver optaget og, at de vigtigste pointer bliver opsummeret.”

Men som situationen er i dag, kan det ikke lade sig gøre. Både fordi de danske sprogmodeller ikke er gode nok, men også fordi man på offentlige arbejdspladser har forbud mod at bruge ChatGPT,” forklarer Dan Saattrup Nielsen.

Det er imidlertid ikke den eneste barriere. Reelt er det i dag også meget dyrt at bruge værktøjer som ChatGPT i stort omfang.

Store datamængder er meget dyrt

”Hvis du har små datamængder eller kun arbejder med 10 dokumenter om dagen, så er prisen ikke noget problem. Men hvis du leder efter systematik i et stort antal dokumenter, så kan det blive rigtigt dyrt, hvis du fast benytter de her services,” forklarer Dan Saattrup Nielsen.

”Vi har set flere eksempler på virksomheder, som bliver afhængige af de her services – og så ender den månedlige regning måske med at være temmelig høj, hvis du har en million dokumenter, der skal gennem maskinrummet.”

Alexandra Instituttet arbejder både med forskning og rådgivning af virksomheder, og her er prissætningen tit en del af de faktorer, der skal tages hensyn til.

”Vi råder tit virksomheder til at starte med små mængder af ikke-sensitive data, som de kan køre med, mens de arbejder med et proof of concept. Giver det værdi? Kan det bruges? Hvis det fungerer, bør man måske gå over til en on-premise model, hvor man arbejder med sine egne datamodeller, så man kan styre omkostningen og sikre egne data,” siger Dan Saattrup Nielsen.

1.000 timers dansk tale

Alexandra Instituttet er involveret i flere forskellige projekter, der alle sammen skal understøtte udviklingen hen mod en dansk sprogmodel.

Et af initiativerne er ”CoRal Projektet”, hvor de hen over to år skal optage 2.000 danskeres dialekter og accenter. Målet er at få et tale-datasæt med over 1.000 timers dansk tale og for at gøre modellen robust, skal den trænes på både mænd og kvinder, forskellige aldersgrupper – med forskellige dialekter og tillige med forskellige accenter, så folk der er flyttet til Danmark også kan forstås.

I et andet projekt arbejder Alexandra Instituttet sammen med universiteter i seks forskellige land i Nordeuropa om at skabe en germansk sprogmodel, der frem mod 2026 skal fungere på de germanske sprog som f.eks. tysk, hollandsk og alle de skandinaviske sprog. Alt sammen for at understøtte alternativer til de stærke engelsksprogede modeller.

I de sammenhænge arbejder de typisk oven på arbejde som andre virksomheder eller forskningsinstitutioner har udført, men de mange kilder gør også, at de er nødt til hele tiden at være bevidste om, hvilke rettigheder der er til de forskellige dele, så de ved hvilke dele der kan stilles frit til rådighed for kommerciel brug.

Open source

Under interviewet opremser både Dan Saattrup Nielsen og Jens Kaas Benner en stribe forskellige samarbejdspartnere, som bidrager til forskellige elementer.

”Vi arbejder tæt sammen med folk fra Aarhus Universitet, med folk på Det Kongelige Bibliotek, med folk i Stockholm – og reelt arbejder vi oven på de modeller som firmaet Mistral har lavet i Frankrig,” forklarer Jens Kaas Benner.

Han glæder sig over den enormt hurtige udvikling, som open source-tilgangen giver.

”Der er konstant folk, der arbejder videre og tester nye ting. Lige for tiden er der folk, der arbejder med at sammensmelte forskellige sprog- og instruktionsmodeller. Det har løftet kvaliteten af den danske sprogmodel helt utroligt.”

”Det er egentlig modeller, der gør helt forskellige ting, og som er trænet på forskellige sprog, og hvis du havde spurgt for et par måneder siden, så havde de fleste sagt, at det ikke ville give mening at merge de to typer af modeller. Men lige nu dukker der hele tiden nye forsøg op, og det giver en utrolig dynamik og et stort løft i kvalitet,” siger Jens Kaas Benner.

Af Ernst Poulsen, ernst@ernstpoulsen.com

Skal fjerne rutineopgaver

Store datamængder er meget dyrt

1.000 timers dansk tale

Open source

Del

Læs mere