Kilder til bildebeskrivelse : en undersøkelse av bildetekstens potensial som grunnlag for automatisk indeksering av bilder i digitale bøker

Author(s)

Publication date

2009

Publisher

Høgskolen i Oslo. Avdeling for journalistikk, bibliotek- og informasjonsfag

Document type

Description

Master i bibliotek- og informasjonsvitenskap

Abstract

Denne oppgaven undersøker mulighetene for automatisk tekstbasert indeksering av bilder i digitale bøker. Oppgaven har et særlig fokus på bildetekstens potensial som indekseringskilde, og tre hovedspørsmål ble stilt: hva skal til for å identifisere bildetekster i de digitale bøkene, hva skal til for å identifisere mulige indekstermer av typen personnavn, stedsnavn og årstall i bildetekstene og hvor godt indekserer disse termene bildene i forhold til de tre emnetypene termene representerer? Fordi det ble funnet lite forskning om bildeindeksering i digitale bøker, ble det nødvendig å utvikle metoder for identifisering og indeksering spesielt for denne oppgaven. Fremgangsmåten som ble utviklet for å identifisere bildetekster, ga lovende resultater, med en gjenfinning på 88% for 10 bøker. Det er allikevel utfordringer knyttet til problemstillingen som det gjenstår å løse i videre forskning. Fremgangsmåten for identifisering av personnavn ga veldig gode resultater med en presisjon på 0,9 og en fullstendighet på 0,88. Metoden for å identifisere stedsnavn derimot må utvikles videre. Når det gjelder hvor godt indekstermene indekserer bildene, indikerer resultatene at de genererte indekstermene i mange tilfeller er gode indekstermer, men de indikerer også at bildeteksten ikke er en like god indekseringskilde i alle tilfeller. Det vil derfor være interessant videre å vurdere andre kilder for bildebeskrivelse i digitale bøker, som et supplement til bildeteksten.

Keywords

Permanent URL (for citation purposes)

  • http://hdl.handle.net/10642/329