Universitetet i
Bergen : Doktorgrader : 2011
NY DOKTORGRAD Forståelsesfull språkteknologi
"Translation-based Word Sense Disambiguation" Ordforrådet vårt er forbløffende fullt av flertydighet, altså begreper med mer enn én betydning. For maskiner er flertydigheter en stor utfordring siden bruken av flertydigheter forutsetter en evne til å forstå ordbetydninger. Tenk at en maskin skal kunne oversette setningen ”Vi spiller på lag” automatisk for deg fra norsk til engelsk. Hvordan skal da systemet kunne vite om ”lag” skal oversettes som ”team” eller ”layer”? Orddisambiguering (Word Sense Disambiguation) er forskningsfeltet som utforsker metoder for å sette systemer i stand til å identifisere den relevante betydningen av et ord i en gitt sammenheng. Den mest lovende tilnærmingen til orddisambiguering i dag er eksempelbasert læring. Dette betyr at systemet ”lærer” å gjenkjenne ordbetydninger ved å presenteres for konkrete eksempler på omgivelsene som en ordbetydning typisk opptrer i. Denne metoden er oftest statistisk basert, og problemet med tilnærmingen er at systemet trenger mange eksempler, og at hvert eksempel på forhånd må være merket med riktig betydning. Slike treningssett er derfor kostbart og tidkrevende å produsere. Lyse har utforsket en metode for automatisk å bygge slike treningsssett, som deretter kan brukes til å lære et system å disambiguere ord. For ytterligere å kompensere for små treningssett har Lyse videre eksperimentert med å ”utvide” treningssettene ved å supplere informasjon fra en database hvor ord er lenket sammen betydningsmessig – hvis ”landskamp” er et typisk ord for omgivelsen til ’team’-betydningen av ”lag”, og hvis ”landskamp” er betydningsmessig lik ”sport”, så kan systemet lære at sportsbegreper generelt er typisk for ’team’-betydningen av ”lag”. Lyses arbeid er det første større norske bidrag til arbeid med orddisambiguering, og har bl.a. gitt det første kvalitetssikrede norske testsettet for videre arbeid med orddisambiguering for norsk. Personalia: Tidspunkt og sted for prøveforelesningen: Tidspunkt og sted for disputasen: Kontaktpersoner: Avhandlingen kan lånes på Bibliotek for samfunnsvitenskap og humaniora. Avhandlingen er tilgjengelig i BORA. For kjøp/bestilling av avhandlingen, kontakt kandidaten direkte. |