INNSIKT
Slik sikrer Journalia presis transkribering, fra lyd til tekst
Vi jobber i to steg: først transkribere, så generere notat. Her er hvordan vi tilnærmer oss det første, og kanskje viktigste, steget.
Leon Sandøy
Founding Engineer · 22. mars 2026
Når folk spør hva Journalia gjør, er det enkle svaret at vi lager journalnotater fra kliniske samtaler. Men under overflaten skjer det to ulike prosesser. Først må tale gjøres om til tekst — det er transkribering. Deretter bruker vi transkripsjonen til å lage et strukturert klinisk notat som behandleren kan lese, redigere og godkjenne.
Begge deler er viktig. Men transkriberingen kommer først, og den setter rammene for alt som skjer etterpå. Hvis det som ble sagt i rommet ikke fanges opp riktig, blir det vanskelig å lage et godt journalnotat — uansett hvor avansert notatgenereringen er.
Det er derfor vi bruker så mye tid på lyd, dialekter, medisinsk terminologi, talergjenkjenning, språkvalg, modellvalg og kvalitetssikring.
Transkribering i helse er vanskeligere enn vanlig tale-til-tekst
Vanlig talegjenkjenning handler ofte om å få en setning omtrent riktig. Klinisk transkribering krever mer.
I en konsultasjon kan ett ord endre betydningen av hele notatet. Det er forskjell på «Paracet» og «Paralgin forte». Det er forskjell på høyre og venstre skulder. Det er forskjell på at pasienten har brystsmerter og at pasienten ikke har brystsmerter.
I tillegg må systemet forstå hvem som sier hva. Når legen spør «Har du hatt feber?», og pasienten svarer «Nei», må informasjonen knyttes til riktig person. Det er ikke nok å vite at ordene ble sagt — systemet må forstå samtalestrukturen.
Transkribering i helse handler derfor ikke bare om lyd til tekst. Det handler om å bevare klinisk mening.
Lydkvalitet starter før KI-en får jobben
Det mest grunnleggende er lydopptaket. Hvis mikrofonen ikke fanger opp samtalen godt nok, har ingen modell et godt utgangspunkt.
Vi ser dette i praksis. En lege kan sitte litt for langt unna mikrofonen. Et behandlingsrom kan ha harde flater og mye ekko. En fysioterapeut kan snakke mens pasienten beveger seg. En konsultasjon kan foregå med bakgrunnsstøy fra venterom, tastatur eller annet utstyr.
Da blir oppgaven vanskeligere. Systemet må ikke bare forstå ordene, men også skille dem fra støy, romklang og overlappende tale. Derfor starter god transkribering med god lyd.
I Journalia anbefaler vi en spesifikk mikrofon til nye brukere, og tilbyr den inkludert ved oppstart. Det er et enkelt tiltak, men det har stor effekt. Når lydkilden er god, blir resten av systemet bedre.
Vi jobber også med å gjøre lydkvalitet synlig for brukeren. Står mikrofonen for langt unna, eller er det for mye bakgrunnsstøy, skal brukeren få beskjed tidlig — helst før det påvirker notatet.
Norsk er ikke bare «norsk»
Norge er et lite land med stor språklig variasjon. En konsultasjon i Tromsø, Bergen, Trondheim, Kristiansand og Oslo kan handle om nøyaktig det samme, men høres veldig forskjellig ut.
For et menneske er dette som regel uproblematisk. For talegjenkjenning er det en reell teknisk utfordring.
Norsk har fem hoveddialektområder — nordnorsk, østnorsk, sørlandsk, vestlandsk og trøndersk. I tillegg har vi to skriftformer, bokmål og nynorsk. Et system som fungerer godt på østnorsk bokmål, men svikter på vestlandsk eller trøndersk, er ikke godt nok for norsk helsetjeneste.
Derfor må transkriberingen trenes og evalueres bredt. Ikke bare på «standardnorsk», men på norsk slik det faktisk snakkes i klinikkene.
Journalias transkripsjonsoppsett er bygget for dette. Modellen vi bruker for norsk er forbedret med regionspesifikke data og teknikker som håndterer variasjon i uttale, dialekt og sammensatte ord. Det er særlig viktig i norsk, der nye ord lett bygges ved å sette sammen flere: sykmeldingsoppfølging, fastlegeordning, brystsmerteutredning, skuldermobilisering.
Dette er en av grunnene til at moderne talegjenkjenning bruker såkalte «subword»-teknikker. I stedet for bare å lære hele ord, lærer modellen også deler av ord og hvordan de kan settes sammen. Det gjør systemet bedre i stand til å håndtere sammensatte norske ord — også ord det ikke nødvendigvis har sett før.
Klinisk språk er et eget språk
Helsepersonell snakker ikke som folk flest gjør i en vanlig samtale. De bruker medisinske begreper, forkortelser, legemiddelnavn, tester, måleverdier og profesjonsspesifikke uttrykk.
En fastlege kan snakke om CRP, otoskopi, spirometri, Marevan, Metoprolol, Albyl-E og differensialdiagnoser. En fysioterapeut kan snakke om AROM, traksjonstest, triggerpunkter, mobilisering og nevrologiske utfall. En psykolog kan snakke om affektbevissthet, mentalisering, eksponering og reguleringsvansker.
Mange av disse ordene er sjeldne i generelle datasett. Noen er norske merkenavn. Andre uttales ulikt fra sted til sted. Flere kan høres ut som vanlige ord hvis modellen ikke forstår konteksten.
Derfor holder det ikke å bruke en generell tale-til-tekst-modell og håpe at den forstår klinisk språk.
Journalia bruker transkripsjonsoppsett tilpasset medisinsk terminologi, norske legemiddelnavn og ulike profesjoner. En fysioterapeut har ikke samme vokabularbehov som en fastlege. En psykolog har ikke samme språk som en legevaktslege. Transkriberingen må speile arbeidsflyten den brukes i.
Målet er ikke bare at systemet skal høre ordene. Det skal forstå hvilken type samtale det lytter til.
Hvem sa hva?
I en vanlig transkripsjon kan det være nok å få en sammenhengende tekst. I en klinisk konsultasjon er det ofte avgjørende å vite hvem som sa hva.
Hvis legen sier «Har du smerter i brystet?», og pasienten svarer «Ja, i tre uker», må systemet forstå at det er pasienten som har hatt smerter — ikke legen. Hvis en pårørende svarer på vegne av pasienten, må det også håndteres riktig. Og i tverrfaglige møter kan det være flere behandlere, pasient, pårørende og eventuelt tolk i samme samtale.
Dette løses gjennom talerseparasjon, ofte kalt speaker diarization. Systemet analyserer lydstrømmen og skiller mellom ulike stemmer gjennom samtalen. På den måten kan transkripsjonen deles inn etter taler.
Journalia støtter talerseparasjon for både to og flere deltakere. I tillegg kan brukeren opprette en personlig stemmeprofil ved å lese inn noen korte lydklipp. Da kan systemet lære behandlerens stemme og lettere skille behandleren fra pasienten i fremtidige konsultasjoner.
Det gir bedre transkripsjon, men også bedre notater. Når systemet vet hva behandleren spurte om, og hva pasienten svarte, blir det enklere å strukturere informasjonen riktig.
Flere språk i samme kliniske hverdag
Norge er flerkulturelt, og mange konsultasjoner foregår ikke bare på norsk.
Noen pasienter snakker norsk med aksent. Andre snakker lite norsk. Noen konsultasjoner gjennomføres med tolk. I enkelte samtaler veksles det mellom norsk og et annet språk underveis.
Automatisk språkgjenkjenning kan fungere godt i mange situasjoner, men i klinisk praksis er det risikabelt å overlate alt til gjetting. Hvis systemet velger feil språk, kan resultatet bli dårlig både for transkripsjonen og notatet.
Derfor gir Journalia brukeren kontroll. Før eller under transkriberingen kan brukeren velge språk. Journalia støtter norsk bokmål, nynorsk og over 50 språk. I tolkesituasjoner kan brukeren bytte språk underveis og likevel ende med ett ferdig notat på norsk.
Det gjør løsningen bedre egnet for den kliniske hverdagen slik den faktisk er — ikke bare for ideelle konsultasjoner der alle snakker tydelig bokmål i et stille rom.
Riktig transkripsjonsmodell for riktig arbeidsflyt
Det finnes ikke én transkripsjonsmodell som er best på alt.
Noen situasjoner krever hastighet. En lege som skal videre til neste pasient, trenger et notat raskt. En kort diktering etter en telefonkonsultasjon bør være ferdig nesten umiddelbart.
Andre situasjoner krever maksimal presisjon. En lang spesialistvurdering, en kompleks førstegangskonsultasjon eller et tverrfaglig møte med flere deltakere stiller andre krav. Da kan det være viktigere å bruke mer tid på talerseparasjon, medisinsk terminologi og struktur.
Derfor bruker Journalia flere transkripsjonsmodeller, innstillinger og arbeidsflyter. Noen er optimalisert for rask respons. Andre er bedre på samtaler med flere deltakere. Noen er sterkere på medisinsk terminologi. Andre passer bedre for ren diktering.
Det er et viktig prinsipp i hvordan vi bygger Journalia: transkribering i helse er ikke én oppgave. Det er flere ulike oppgaver som ligner på hverandre. En konsultasjon, en diktering, et tverrfaglig møte og en tolkesamtale trenger ikke samme tekniske oppsett. Brukeren skal slippe å tenke på dette i detalj — Journalia velger og tilpasser transkriberingen etter situasjonen.
Riktig modell til riktig arbeidsflyt gir bedre resultat enn å presse alt gjennom samme løsning.
Personvern som premiss
Lyd fra en konsultasjon er blant de mest sensitive dataene som finnes. Pasienter forteller om symptomer, bekymringer, diagnoser, psykisk helse, familieforhold og livssituasjon. Slike opptak skal ikke lagres unødvendig.
Derfor er personvern ikke en ekstrafunksjon i Journalia. Det er et premiss for hele løsningen.
Journalia lagrer ikke lydopptak permanent. Lyden prosesseres som en strøm, brukes til å lage transkripsjonen, og forkastes deretter. Transkripsjoner og journalutkast håndteres med automatiske sletterutiner, og kundedata brukes ikke til å trene KI-modeller.
All behandling skjer innenfor EU/EØS, og data krypteres under overføring og ved lagring. Løsningen er bygget etter prinsippene om dataminimering, tilgangskontroll og innebygd personvern. Les mer på sikkerhetssiden vår.
Det betyr at vi bare behandler de dataene som trengs for å levere tjenesten — og ikke mer.
Transkripsjonen er grunnlag, ikke fasit
Selv med god transkribering er Journalia et dokumentasjonsverktøy, ikke en erstatning for klinisk vurdering.
Alle notater som genereres, er utkast. Behandleren skal alltid lese, redigere og godkjenne innholdet før det overføres til journalen. Systemet skal hjelpe med dokumentasjon, ikke ta kliniske beslutninger.
Dette er viktig. KI kan gjøre dokumentasjonsarbeidet raskere og mer strukturert, men helsepersonell må fortsatt ha kontroll over det som journalføres.
Derfor er human-in-the-loop ikke bare en formulering for oss. Det er en del av produktdesignet. Ingenting går inn i pasientjournalen uten at behandleren har godkjent det.
Kvalitet er en kontinuerlig prosess
Transkribering er ikke et «løst problem». Feltet utvikler seg raskt, og kliniske arbeidsflyter er komplekse.
Nye modeller kommer. Nye feil oppdages. Nye faguttrykk dukker opp. Nye brukere har nye dialekter, rom, mikrofoner og arbeidsmåter. Derfor kan ikke transkriberingskvalitet behandles som noe man setter opp én gang og blir ferdig med.
Journalia jobber kontinuerlig med kvalitet. Vi tester nye modeller, følger med på ytelse, analyserer tilbakemeldinger og evaluerer endringer før de rulles ut bredt. Vi bruker referansesett, automatiserte tester og klinisk validering for å forstå om endringer faktisk gjør løsningen bedre.
Vi følger også med på kvalitetssignaler i produksjon — som forsinkelse, redigeringsmønstre, feilmeldinger og brukerfeedback — uten å lese pasientinnhold. Når brukere melder fra om feil, bruker vi det til å forbedre systemet og prioritere hva vi bør jobbe med videre.
Målet er ikke at transkripsjonen skal være «god nok» én gang. Målet er at den skal bli bedre over tid.
Fra lyd til tillit
God transkribering handler til slutt om tillit. Behandleren må stole på at det som ble sagt, er fanget opp riktig. Pasienten må stole på at sensitive opplysninger håndteres forsvarlig. Klinikken må stole på at teknologien fungerer i en travel hverdag, med ekte mennesker, ekte dialekter, ekte støy og ekte kliniske konsekvenser.
Det er derfor vi bygger transkribering som mer enn bare tale-til-tekst. Vi jobber med lydkvalitet før opptaket starter, bruker modeller som forstår norske dialekter og medisinsk terminologi, skiller mellom talere, støtter flere språk, velger riktig transkripsjonsoppsett for riktig arbeidsflyt, lagrer ikke lyd unødvendig — og behandler alle KI-genererte notater som utkast som behandleren skal godkjenne.
For når transkripsjonen er god, får notatgenereringen et bedre grunnlag. Og når grunnlaget er bedre, kan Journalia gjøre det vi er laget for: redusere dokumentasjonsarbeid, uten å redusere kvaliteten i journalen.
Transkribering er første steg. Men det er også fundamentet.