Metadata Structures of the Bibliographic Universe: Transformation, Interoperability, Conceptualizations, and Quality

Author(s)

Publication date

2018

Series/Report no

OsloMet Avhandling;2018, nr 18

Publisher

OsloMet – Oslo Metropolitan University

Document type

Abstract

This PhD dissertation examines different aspects of the quality of bibliographic metadata structures. In the library field, there is a long tradition of using bibliographic metadata to organize document collections. It essentially involves describing documents and structuring these descriptions in a way that optimizes fitness for use. Fitness for use applies to both the end users of metadata-based information systems and the computers that interpret metadata algorithmically (e.g., a search or a recommendation system) or in contexts where metadata are exchanged across systems. Metadata descriptions and structures are developed according to standards based on the opportunities and limitations in their technological environment. These standards cover a variety of use cases and purposes. Consequently, significant resources are being put into modernizing standards and metadata practices to exploit technological innovations. In the library sector (and other sectors where metadata are business critical), much of this work in recent years has been inspired by the principles of Linked Data, which encourage metadata producers to publish data on the Web according to Web standards. After years of Linked Data oriented experimentation and development, evaluations from several perspectives are required. The main purpose of this thesis, therefore, is to provide updated knowledge in this field of work, based on three main research questions: What are the main challenges in transforming bibliographic metadata according to Linked Data principles? What qualities characterize bibliographic metadata published as Linked Data? How do current users conceptualize entities and relationships in the bibliographic universe? The questions are examined through four studies. The main challenges of Linked Data transformations are investigated through a literature review and an experimental case study. Sets of Linked Data published by four European national libraries are examined through a statistical study of their structural and semantic characteristics. User conceptualizations are explored in a study where informants used concept mapping to conceptualize relationships between selected documents. The findings show that both published Linked Data and user conceptualizations vary. The national libraries have chosen different strategies when creating their Linked Data sets. The data conform to Linked Data principles on a general level, but the divergent implementations can hinder interoperability across data sets and with the outside world. Some datasets are also characterized by significant quality problems in completeness and consistency. A cluster analysis of the user conceptualizations, group participants into two main clusters and five subclusters. The two main clusters represent conceptualizations applying an abstracted multi-entity model to relate documents and conceptualizations that relate documents directly, respectively. The review of main challenges in Linked Data transformations shows that a significant challenge concerns the choice of target vocabularies, which must be adapted to the purpose of the metadata. The experimental case study also shows that the existing data to be transformed can be characterized by inconsistencies, further affecting the results. This finding is confirmed by the study of the published Linked Data sets. The findings indicate that the quality of the large amounts of existing data facilitating access to cultural heritage collections must be improved and that new practices and standards must be developed and implemented to prevent new inconsistencies. The variations in user conceptualizations and models for publishing Linked Data indicate that the further development of standards and practices should be closely monitored for relevant purposes and use-case scenarios.
PhD-avhandlingen undersøker ulike kvalitetsaspekter ved bibliografiske metadata. I bibliotekfeltet har man lange tradisjoner for å bruke bibliografiske metadata til å organisere dokumentsamlinger. Det innebærer i hovedsak å beskrive dokumenter og om å strukturere disse beskrivelsene på en måte som optimaliserer brukskvaliteten. Brukskvalitet gjelder både for sluttbrukere av metadatabaserte informasjonssystemer, for datamaskiner som fortolker metadata algoritmisk (for eksempel et søke- eller anbefalingssystem) eller i sammenhenger hvor metadata utveksles på tvers av systemer. Metadatabeskrivelser og -strukturer utvikles i henhold til standarder. Slike metadatastandarder har på sin side blitt utviklet på bakgrunn av muligheter og begrensninger i de teknologiske omgivelsene. De skal gjerne dekke flere bruksområder og nye kommer stadig til. Det legges derfor vesentlige ressurser inn i å modernisere standarder og metadatapraksis for å kunne utnytte teknologiske nyvinninger. I biblioteksektoren (og i andre sektorer hvor metadata er virksomhetskritisk) har mye av dette arbeidet de senere årene latt seg inspirere av prinsipper for såkalt lenkede data (Linked Data). Dette er prinsipper som oppfordrer metadataprodusenter til å publisere data på Weben i henhold til gitte Web-standarder. Moderniseringsarbeidet består både i å utvikle nye lenkede data-vennlige metadatastandarder og i å transformere eksisterende data i henhold til disse. Etter noen år med mye eksperimentering, etterlyses evalueringer fra flere hold. Denne avhandlingens hovedformål er derfor å fremskaffe oppdatert kunnskap på dette feltet. Utviklingen undersøkes hovedsakelig ut fra tre hovedspørsmål: Hva er hovedutfordringene ved overgangen til nye bibliografiske metadatapraksiser basert på prinsipper for lenkede data? Hvilken kvalitet har bibliografiske metadata som er publisert på Weben som lenkede data? Hvordan konseptualiserer brukere bibliografiske strukturer? Spørsmålene blir undersøkt gjennom fire studier. Hovedutfordringer ved en overgang til nye praksiser er undersøkt gjennom en litteraturstudie og et case studie av en eksperimentell metadatatransformasjon. Eksisterende samlinger med lenkede data, publisert av fire europeiske nasjonalbibliotek, undersøkes gjennom en statistisk studie. Brukerkonseptualiseringer er undersøkt gjennom en studie hvor informanter gjennom en concept mapping-oppgave ble bedt om å angi sammenhenger mellom utvalgte dokumenter. Funnene viser at både publiserte data og brukerkonseptualiseringer varierer. Nasjonalbibliotekene har valgt nokså ulike modeller for sine «nye» data. Dataene er gode lenkede data på et overordnet nivå, men valgene av ulike modeller kan begrense interoperabiliteten mellom samlingene, og samlet sett mot omverdenen. Enkelte av datasettene er også preget av betydelige kvalitetsproblemer når det gjelder fullstendighet og konsistens. Brukerkonspetualiseringene kan deles inn i to hovedmodeller, men videre i fem nokså ulike undermodeller av disse. De to hovedmodellene skiller konseptualiseringer som bruker en multi-entitetsmodell til å relatere dokumenter på et abstrahert nivå, og konseptualiseringer som relaterer dokumenter direkte. Undersøkelsen av hovedutfordringer ved transformasjonene viser at en vesentlige utfordring nettopp angår valg av modell, og at dette valget må tilpasses metadataenes formål. Den viser også at eksisterende data som skal transformeres preges av inkonsistenser som videre påvirker resultatet. Dette funnet underbygges av studien av de publiserte lenkede dataene. Avhandlingen indikerer dermed at kvaliteten ved de store mengdene av eksisterende metadata må forbedres og at nye praksiser og standarder må utvikles og innføres på en slik måte av de best mulig forhindrer nye inkonsistenser. Variasjonen i brukerkonseptualiseringer og modeller for å publisere lenkede data, indikerer at videreutviklingen av standarder og praksiser bør vurderes nøye opp mot (nye) formål og bruksscenarier.

Keywords

Version

publishedVersion

Permanent URL (for citation purposes)

  • https://hdl.handle.net/10642/6622