Este documento es una traducción al español del "Library Linked Data Incubator Group: Datasets, Value Vocabularies, and Metadata Element Sets", publicado el 25 de octubre de 2011. Los criterios seguidos pueden consultarse en Nota a esta traducción. Se concluyó el 21 de febrero de 2012.
La versión original en inglés es el único documento válido y se encuentra en: http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset-20111025/. La última versión del documento original está disponible en: http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/
Se ha tratado de respetar al máximo el contenido del documento original en inglés. Esta traducción puede contener errores, en ningún caso achacables a sus autores. Cualquier sugerencia de corrección, duda o comentario sobre la misma puede realizarse dirigiéndose a: Xavier Agenjo o a Francisca Hernández.
Copyright © 2011 W3C ® (MIT, ERCIM, Keio), Todos los derechos reservados. A este documento se le aplican las normas del W3C sobre responsabilidad, marcas registradas y uso de documentos.
El objetivo del Grupo Incubador de Datos Vinculados de Bibliotecas del W3C, constituido desde mayo de 2010 hasta agosto de 2011, ha sido "contribuir a incrementar la interoperabilidad global de los datos de las bibliotecas en la Web, reuniendo a personas implicadas en actividades de la Web Semántica —centradas en los Datos Vinculados— en bibliotecas e instituciones afines, mediante el examen de las iniciativas en curso e identificando futuras vías de colaboración. Los Datos Vinculados se expresan según una normativa, como Resource Description Framework (RDF), que especifica las relaciones entre cosas y los Uniform Resource Identifiers (URIs o "direcciones Web").
Este informe sobre Conjuntos de Datos, Vocabularios controlados y Conjuntos de Elementos de Metadatos es un complemento del informe principal realizado por el grupo. Este documento proporciona, a partir de los datos recopilados en los Casos de Uso y de las aportaciones del grupo de expertos, un resumen del estado actual de los componentes estructurales de los Datos Vinculados y en especial de aquellos que están más relacionados con los esfuerzos llevados a cabo desde el área de las bibliotecas.
En esta sección se describe el estado de este documento en el momento de su publicación. Este documento puede ser sustituido por otros documentos. Se dispone de una lista con los Informes Finales de los Grupos Incubadores disponibles. Véase además el índice de informes técnicos del W3C en http://www.w3.org/TR/.
La publicación de este documento por el W3C como parte de la Actividad Incubadora del W3C no indica respaldo alguno de su contenido por el W3C, ni que el W3C haya asignado, tenga asignado o vaya a asignar ningún recurso a los temas tratados en él. La participación en los Grupos Incubadores y la publicación de Informes de estos Grupos en el Sitio del W3C son algunas de las ventajas de ser Miembro del W3C.
Los Grupos Incubadores tienen como objetivo elaborar trabajos que pueden implementarse sobre la base de la gratuidad de los derechos, tal y como se define en la Política de Patentes del W3C. Los participantes en este Grupo Incubador han acordado proporcionar licencias, según los requisitos de la Política de Patentes del W3C, a aquellas partes de este Informe de Grupo Incubador que posteriormente puedan ser incorporadas a una Recomendación del W3C.
Este documento es uno de los resultados del Grupo Incubador del W3C de Datos Vinculados de Bibliotecas. Trata de identificar un conjunto de recursos útiles para la creación y consumo de datos vinculados en el campo de las bibliotecas. Está concebido tanto para principiantes que deseen una visión general del área de los Datos Vinculados de bibliotecas, como para expertos que necesiten localizar o actualizar información. En el informe final del Grupo Incubador se señala que el éxito de Datos Vinculados en cualquier ámbito dependerá de la habilidad de los profesionales para identificar, reutilizar o conectar conjuntos y modelos de datos ya existentes. Los Datos Vinculados de bibliotecas no son una excepción. Este esfuerzo de identificación es crucial, dada la complejidad y la variedad de los recursos de datos de bibliotecas, muchos de los cuales están ya disponibles en Datos Vinculados en el momento de redactar este informe. Esperamos que este documento ayude a los que tengan que emprender estas tareas.
Este documento tiene también como objetivo proporcionar a la comunidad de Datos Vinculados una mayor comprensión del punto de vista específico, de los recursos y de la terminología, de la comunidad bibliotecaria y ayudar a los profesionales de la Biblioteconomía y Ciencias de la Información a que aprovechen los conceptos de Datos Vinculados que se corresponden con su tradición. Existen ya trabajos previos de explicación de la terminología bibliotecaria en los que se han identificado los siguientes tipos de recursos, que no son excluyentes como se pone de manifiesto a lo largo del documento:
La intención de este informe es que sea un punto de partida para que los profesionales puedan encontrar, comprender y explorar algunos ejemplos de conjuntos de metadatos, vocabularios de valores y conjuntos de datos. Se basa fundamentalmente en el informe de Casos de uso reunidos por el Grupo Incubador y no pretende ser una lista exhaustiva de los diferentes recursos relacionados con la "nube" de Datos Vinculados de bibliotecas. Se espera que este informe sea un complemento de listas más completas de herramientas como los Motores de búsqueda de la Web Semántica (como Sindice o Falcons), otras recopilaciones como las de Linked Open Vocabularies [Vocabularios de Datos Vinculados] o registros como Open Metadata Registry [Registro de Metadatos Abiertos], Schemapedia o el The Data Hub [El Concentrador de Datos]. Por supuesto, se anima a los lectores del documento a que utilicen esas fuentes, de la misma forma que hizo el grupo con el registro de The Data Hub.
The Data Hub [El Concentrador de Datos] es un registro de datos. En este sitio se puede compartir información sobre paquetes de datos de cualquier tipo y describirlos de forma colaborativa. Aunque el registro The Data Hub no es en sí mismo un servicio de Datos Vinculados, sí dispone de una versión de Datos Vinculados con la información que contiene. Gran parte de los datos descritos en The Data Hub se encuentran en forma de Datos Vinculados.
The Data Hub organiza los paquetes de datos en grupos que están a cargo de una comunidad. Se utilizan tanto para mantener información sobre los miembros de la más extensa Nube LOD, como para los subconjuntos que pertenecen a los Datos Vinculados de bibliotecas, lo que incluye tanto los conjuntos de datos de bibliotecas como los vocabularios de valores, tal y como se ha definido más arriba. Los responsables de estos grupos han adoptado una serie de convenciones para utilizar el sistema de etiquetado de The Data Hub en la descripción de los paquetes que se van a incluir. Esta documentación, véase más abajo, incluye información sobre el volumen de los datos, ejemplos de recursos y métodos de acceso (p.e., puntos de acceso según el Protocolo SPARQL y Lenguaje de Búsqueda RDF (SPARQL)) y, lo que es fundamental, enlaces a otros paquetes de datos. Véase:
Añadir un nuevo paquete de datos a The Data Hub contribuye a su visibilidad, ya que se trata de un catálogo que se consulta con bastante frecuencia. Al seguir las convenciones de los grupos LOD Cloud [Nube LOD] y Datos Vinculados de bibliotecas se garantiza que se documenten las relaciones con otros paquetes y que formen parte del creciente corpus de los Datos Vinculados. Los Conjuntos de Datos que se referencian de este modo aparecerán en los diagramas y visualizaciones que se produzcan en los estudios de los Datos Vinculados. Como los datos están documentados de forma consistente se pueden construir herramientas que aporten una mayor comprensión de su naturaleza y de la forma en la que encajan todos juntos. Además de su propio interés, este proceso es muy importante debido a que esta clase de conocimiento hace más fácil determinar qué paquetes de datos son más apropiados para una determinada función y, en consecuencia, los datos resultan más fáciles de utilizar.
Para ilustrar con un ejemplo el resultado de este proceso, consideremos el siguiente diagrama:
El gráfico actualizado puede consultarse en: http://semantic.ckan.net/group/?group=http://ckan.net/group/lld
Los círculos de color brillante representan los paquetes que forman parte del grupo de los Datos Vinculados de Bibliotecas en The Data Hub. Los círculos grises representan los paquetes que están conectados, pero no pertenecen a dicho grupo (por lo general suelen pertenecer al grupo de la Nube de Datos Abiertos Vinculados). El tamaño de los círculos y el grosor de las líneas está en relación, respectivamente, con el volumen de los datos y el número de enlaces salientes, representados mediante una escala logarítmica.
Este gráfico se genera de forma automática, a partir de un algoritmo, y representa el estado del grupo de Datos Vinculados de Bibliotecas en The Data Hub en el momento de la publicación de este informe. Ha cambiado de forma significativa desde el inicio de nuestro trabajo, y con toda seguridad mostrará un aspecto diferente en un futuro próximo. Como ejemplo, en el momento de la redacción de este informe el Library of Congress Name Authority File [Fichero de Autoridades de Nombres de la Library of Congress] se acababa de publicar y aparece desconectado en la periferia del gráfico, pero es muy probable que esto cambie en pocos meses.
El gráfico demuestra la dificultad de representar una web de enlaces compleja y en constante evolución que siga el crecimiento explosivo de la nube de Datos Abiertos Vinculados. Sin embargo, se aprecia a primera vista que hay agrupaciones de paquetes densamente conectados en Datos Vinculados de bibliotecas, y que muchos otros están conectados a través de conjuntos de datos externos al sector de las bibliotecas, siendo DBpedia y GeoNames los más destacados. También se ve con claridad que los enlaces con datos que no ocupan una posición central es bastante frecuente: no sólo los concentradores son útiles.
Esta sección recoge un listado de todos los Conjuntos de Datos (en su mayoría bibliográficos) que están disponibles en el grupo Datos Vinculados de bibliotecas de The Data Hub en el momento de la publicación de este informe. Se invita al lector a seguir los enlaces de cada uno de los paquetes reseñados, para ampliar información.
Esta sección describe los vocabularios de valores que están disponibles como Datos Vinculados y que han sido citados en alguno de los casos de uso del Grupo Incubador.
Cada entrada ofrece una breve introducción al vocabulario, así como los enlaces a sus localizaciones y los casos de uso relacionados con el vocabulario recogidos por el Grupo Incubador.
"Dewey Summaries" es un conjunto de datos muy apropiado que contiene las clases principales de la Dewey Decimal Classification (DDC) en su edición 22ª. Da acceso a los tres niveles superiores de la DDC en once idiomas y a la Edición abreviada 14 (rúbricas y notaciones) en tres idiomas.
La Clasificación Decimal Universal (CDU) es un esquema multilingüe de clasificación para todos los campos del conocimiento. "UDC Summary" es una selección de unas 2000 clases, extraídas del esquema de la CDU. [1]
LCSH es una lista comprehensiva de encabezamientos de materia publicada de forma impresa y como Datos Vinculados. Los encabezamientos de materia autorizados están disponibles en el servicio Library of Congress Authorities and Vocabularies [Library of Congress: Autoridades y Vocabularios].
RAMEAU es un vocabulario para encabezamientos de materia usado por la Biblioteca Nacional de Francia (BnF). Se desarrolló a partir del repositorio de encabezamientos de materia de la Quebec University, el cual a su vez se deriva de los Encabezamientos de Materia de la Library of Congress (LCSH). RAMEAU ha sido publicado como Datos Vinculados por el proyecto TELplus.
Vocabulario controlado gestionado por la Biblioteca Nacional de Alemania (DNB, por sus siglas en inglés) en colaboración con diferentes redes de bibliotecas. La inclusión de palabras clave en el SWD está definida en las "Rules for the Keyword Catalogue" (RSWK) [Reglas para el Catálogo de Palabras Clave]. [2]
La Lista de Encabezamientos de Materia de la Biblioteca Nacional de la Dieta (Japón) es la que se utiliza en esa biblioteca y contiene principalmente encabezamientos de materia y algunos encabezamientos de nombres propios. [3]
VIAF es un proyecto conjunto de diferentes bibliotecas nacionales del mundo que combina virtualmente los ficheros de autoridades de nombres de las instituciones participantes en un único servicio de autoridades de nombre. En el momento de la publicación de este informe contiene 21 ficheros de autoridad de nombres de personas, de entidades y de congresos procedentes de las 18 organizaciones que participan en VIAF. [4]
ULAN es un vocabulario estructurado que contiene más de 225.000 nombres, así como información biográfica y bibliográfica sobre artistas y arquitectos, e incluye un abundante número de variantes de nombres, seudónimos y formas lingüísticas. Aunque ULAN no se ha publicado aún como Datos Vinculados está incluido en VIAF como aportación del Getty Research Institute.
LC/NAF proporciona datos de autoridad para nombres de personas, instituciones, eventos, lugares y títulos, con más de 8 millones de descripciones creadas a lo largo de décadas y según diferentes políticas de catalogación. A los Nombres LC se le denomina oficialmente Name Authority Component (NACO) Authority File [Componente de Autoridades de Nombre (NACO) del Fichero de Autoridad]; es un proyecto cooperativo en el que los participantes siguen determinadas normas y directrices comunes.
La base de datos geográfica GeoNames contiene más de 10 millones de nombres geográficos, compuesta por 7,5 millones de características únicas, de las cuales 2,8 millones son lugares habitados y 5,5 millones son nombres alternativos. [5]
Este tesauro proporciona términos para cualquier temática económica. Incluye también términos utilizados en derecho, sociología y política, así como nombres geográficos. [6]
AGROVOC es un vocabulario controlado y multilingüe publicado por la Organización de las Naciones Unidas para la Alimentación y la Agricultura (FAO, por sus siglas en inglés). Está diseñado para cubrir la terminología de cualquier ámbito temático de la agricultura, silvicultura, pesca, alimentación y otros campos relacionados (por ejemplo, medio ambiente). [7]
Eurovoc es un tesauro multilingüe y multidisciplinar que cubre las actividades de la Unión Europea, y en particular del Parlamento Europeo. Contiene términos en 24 idiomas (en el momento de la publicación de este informe).[8]
El Thesaurus for Graphic Materials de la Library of Congress incluye más de 7.000 términos de materia para la indización de los temas reflejados en todo tipo de imágenes, así como 650 términos de género/forma para la indización de tipos de fotografías, impresos, bocetos, ephemera y otras categorías. [9]
Lista general e interdisciplinaria de los términos de la Dublin Core Metadata Initiative (DCMI) [Iniciativa de Metadatos Dublin Core] que pueden utilizarse como valores para el elemento tipo de recurso en la identificación de un recurso.
Las Relaciones MARC (MAchine-Readable Cataloging) proporcionan una lista de propiedades para la descripción de relaciones entre nombres y recursos bibliográficos.
PRONOM es un registro en línea de información técnica sobre formatos de ficheros, productos de software y otros componentes técnicos requeridos para soportar el acceso a largo plazo a los recursos electrónicos y objetos digitales de valor cultural, histórico o de negocio. [10]
Creative Commons proporciona una infraestructura compuesta por un conjunto de licencias de derechos de autor y de herramientas para mantener un equilibrio dentro del ajuste tradicional “todos los derechos reservados" que crea la legislación sobre derechos de autor. [11]
Se proporcionan dos vocabularios principales: los Acontecimientos de Preservación es un esquema conceptual para los acontecimientos de preservación, es decir, las acciones realizadas sobre los objetos digitales dentro de un repositorio de preservación. Las Funciones del Nivel de Preservación constituyen un esquema conceptual para las funciones del nivel de preservación, es decir, los valores que especifican en qué contexto se aplican una serie de opciones de preservación.
WordNet es una base de datos léxica para el idioma Inglés que agrupa nombres, verbos, adjetivos y adverbios en conjuntos de sinónimos (llamados "synsets"). Cada "synset" expresa un concepto distinto. Los "synsets" están interconectados por medio de relaciones semántico-conceptuales y léxicas. [12]. Wordnet ha sido publicado como Datos Vinculados por la Vrije Universiteit Amsterdam.
Freebase es una colección de datos estructurados, abiertos y con licencia Creative Commons, y una plataforma para acceder y manipular estos datos a través de la API de Freebase. Freebase importa datos de una amplia variedad de fuentes de datos abiertos, como Wikipedia, MusicBrainz, y otras [13]. Téngase en cuenta que Freebase es fundamentalmente un conjunto de datos, pero al incluir numerosos recursos de referencias permite que algunas partes se utilicen, en ciertos casos, como un vocabulario de valores.
DBpedia extrae información estructurada de la Wikipedia. El conjunto de datos de DBpedia caracteriza, etiqueta y resume más de 3 millones de objetos, de los que la mitad están clasificados en una ontología. Contiene millones de enlaces a imágenes, páginas web externas y enlaces externos a otros conjuntos de datos en RDF. [14]. De forma similar a Freebase, DBpedia puede considerarse un conjunto de datos general, pero algunas de las entidades que describe —lugares, personas, "categorías"— pueden utilizarse en algunos casos como un vocabulario de valores de referencia.
Este tesauro se utiliza en la indización por materias en Aquatic Sciences and Fisheries Abstracts (ASFA) y en el servicio de resúmenes e indización; abarca la bibliografía mundial sobre ciencia, tecnología, gestión, conservación de recursos marinos, de marismas y de agua dulce, así como sus aspectos legales, ambientales y socioeconómicos.
El sistema Fisheries Reference Metadata almacena todos los sistemas de clasificación (para especies, países, zonas acuáticas, servicios, flotas pesqueras, equipamientos para la pesca, etc.) usados por la FAO para describir observaciones sobre el sector pesquero, tales como series de datos temporales de capturas pesqueras o estadísticas de producción de especies.
El Agriculture Thesaurus and Glossary es un vocabulario en línea para términos de agricultura en inglés y español que proporciona la USDA National Agricultural Library (NAL). El ámbito temático "agricultura" se define de una forma muy amplia en el Tesauro de Agricultura de la NAL e incluye terminología de otras ciencias como las biológicas, físicas y sociales. Las definiciones de los términos del tesauro se publicaron de forma separada en el "Glossary of Agricultural Terms" [Glosario de Términos de Agricultura]. [15]
Vocabulario controlado multilingüe para bellas artes, arquitectura, artes decorativas, materiales de archivo y para la cultura material que se usa para la indización, catalogación y búsqueda, así como herramienta de investigación.
Vocabulario controlado comprehensivo producido por la National Library of Medicine (NLM), para información y documentación médica relacionada con la salud. La versión española y francesa de MeSH está accesible como una ontología de la Web Semántica en BioPortal. La traducción al noruego de MeSH ha sido publicada como Datos Vinculados por la Universidad de Ciencia y Tecnología de Noruega. Otra versión de MeSH en Simple Knowledge Organization System (SKOS) [Sistema Sencillo de Organización del Conocimiento], está disponible en los OCLC Terminology Services [Servicios de Terminología de OCLC].
Sistema de clasificación para la descripción y clasificación de los temas de las imágenes representadas en diferentes medios, tales como pinturas, dibujos y fotografías.
Vocabulario estructurado de cobertura mundial con más de 1.3 millones de nombres, que incluye nombres vernáculos e históricos, coordenadas, tipos de lugares y notas descriptivas, y que está centrado en los lugares importantes para el estudio del arte y de la arquitectura.
El New York Times utiliza aproximadamente 30,000 etiquetas para alimentar sus páginas temáticas (Times Topics Pages). Estas etiquetas se han publicado en Datos Vinculados categorizadas en 'personas', 'organizaciones' 'lugares' y "descriptores" y están vinculadas a Freebase, DBpedia, y GeoNames.
La lista MARC de países identifica entidades nacionales actuales, estados de los Estados Unidos, provincias y territorios de Canadá, Australia, divisiones del Reino Unido y dependencias internacionalmente reconocidas. Las entradas incluyen la referencia a los códigos ISO 3166 equivalentes.
La lista MARC de idiomas proporciona cadenas de tres caracteres alfabéticos en minúscula para la identificación de idiomas y grupos de idiomas. Tiene referencias cruzadas, en los casos apropiados, a ISO 639-1, 639-2 y a 639-5.
La lista MARC de Áreas Geográficas identifica países independientes, divisiones políticas de primer nivel de algunos países, regiones, características geográficas, áreas del espacio exterior y cuerpos celestes. La lista contiene más de 550 códigos diferentes. [16]
En esta sección se relacionan los conjuntos de elementos de metadatos mencionados en los casos de uso recopilados por el Grupo de Datos Vinculados de Bibliotecas durante 2010 y 2011. Se incluyen algunos de los vocabularios RDF más significativos para los profesionales que quieran reutilizar tecnologías de la Web Semántica ya disponibles para crear o convertir datos del área de las bibliotecas.
Estos vocabularios RDF se representan por medio de los elementos de los lenguajes de modelado de RDF Schema (RDFS) y de OWL Web Ontology Language (OWL). Además de la documentación que proporcionan quienes mantienen los vocabularios, también se puede consular una ontología con una herramientas genéricas de creación y visualización como Protégé, el Manchester ontology browser, OWL Sight o Live OWL Documentation Environment (LODE). (Véase como ejemplo la presentación LODE de la ontología de Description of a Project (DOAP)).
Para cada conjunto de elementos se indica un sitio web legible por personas y el correspondiente espacio de nombres RDF, así como su prefijo abreviado común según la sintaxis XML para la declaración de espacios de nombres. También se proporciona, o se reutiliza, una descripción breve, sobre el alcance principal o el dominio de uso del conjunto de elementos. A veces se han resaltado decisiones importantes de diseño que caracterizan al conjunto de elementos de metadatos, que incluyen indicaciones sobre si el conjunto de elementos está conectado con otro y su relación con los usos bibliotecarios tradicionales. Por último, los casos recopilados por el Grupo Incubador se relacionan también bajo cada entrada como ejemplos apropiados de uso.
A modo de ilustración, se añade una representación de la nube de etiquetas de los conjuntos de elementos de metadatos presentados en esta sección, adaptada del sitio web creado por Paul Walk:
Téngase en cuenta que esta nube de etiquetas es una instantánea del uso de conjuntos de metadatos en un contexto específico. En particular, el tamaño de cada etiqueta está en relación directa con el número de casos individuales que utilizan un vocabulario, según la recopilación del Grupo Incubador de los Datos Vinculados de Bibliotecas. Después de este análisis, basado en los casos del Grupo Incubador, los miembros de la comunidad de los Datos Vinculados de Bibliotecas deberían considerar el mantenimiento de listados de conjuntos de datos y vocabularios controlados precisos y actualizados, como el Data Hub Library Linked Data group [Grupo de Datos Vinculados de Bibliotecas del Concentrador de Datos], de forma tal que se pudiera medir el uso de los conjuntos de elementos de metadatos. Una versión refinada, específica del campo de las bibliotecas, sobre las estadísticas de uso de la Nube de Datos Abiertos Vinculados ayudaría a la comunidad a obtener una idea más nítida sobre los conjuntos de elementos de metadatos que se utilizan más, así como los que son menos frecuentes.
La representación de enlaces entre conjuntos de elementos de metadatos sería también de gran valor para los profesionales que quieran reutilizar datos de vocabularios, o que quieran extender la utilización de sus datos a una comunidad más amplia. La constelación "Upper Mapping and Binding Exchange Layer" (UMBEL) [Capa superior de intercambio de mapeos y vínculos] ha sido la primera en ilustrar las conexiones entre clases procedentes de conocidos vocabularios de los Datos Vinculados. El trabajo realizado por la iniciativa Linked Open Vocabulary [Vocabularios Abiertos Vinculados] generaliza y automatiza la recopilación de esta información. Linked Open Vocabulary ofrece una visión detallada de las relaciones con otros conjuntos de elementos basada en definiciones legibles por ordenador (ontologías) para una amplia variedad de conjuntos de elementos de metadatos, como por ejemplo Dublin Core.
Esta subsección relaciona las ontologías apropiadas (tanto OWL como RDFS) disponibles en el momento de la elaboración de este informe. Como orientación al lector de esta selección, se han introducido primero los conjuntos de elementos de metadatos originados en el ámbito de las bibliotecas, archivos, museos y otras comunidades de información. A continuación, se presentan otros conjuntos de elementos apropiados que han surgido de otras comunidades. Esta categorización es en algunos casos arbitraria, ya que muchos vocabularios son el resultado de trabajos intercomunitarios. No obstante, esto muestra el gran potencial del enfoque de los Datos Vinculados en el que la norma es la facilidad de compartir, de reutilizar o de extender los diversos conjuntos de elementos, independientemente de su origen.
Con origen en Bibliotecas, Archivos, Museos y otras Comunidades de Información
Las propiedades originales del Dublin Core Metadata Element Set [Conjunto de Elementos de Metadatos Dublin Core] —quince elementos de propiedad genéricos para la descripción de recursos de información— que se identifican por el espacio de nombres http://purl.org/dc/elements/1.1/. En el año 2000 se declararon como propiedades RDF, antes de la finalización de RDFS en 2004. Estas propiedades carecen de rangos definidos (rdfs:range), lo que permite que se utilicen tanto valores literales como recursos completamente RDF.
Un segundo espacio de nombres es el conjunto más amplio DCMI Metadata Terms [Términos de Metadatos DCMI] —http://purl.org/dc/terms/— que incluye 15 propiedades paralelas a las propiedades /elements/1.1/ "sin restricción", a las que añade restricciones rdfs:range, además de varias docenas de propiedades adicionales. La interoperabilidad de las propiedades "restringidas" /terms/ con las propiedades "sin restricción" /element/1.1/ se conserva mediante relaciones de subpropiedad (rdfs:subPropertyOf).
El modelo de Open Archives Initiative ﻟ Object Reuse and Exchange (OAI-ORE) define los elementos para la descripción de agregaciones de recursos web, cuya unión forma objetos digitales complejos, tales como los artículos de revista, sus diferentes variantes digitales y los materiales complementarios. Además, propone un mecanismo de "mapa de recursos" para indicar y describir la procedencia de los metadatos de estas agregaciones, así como "proxies" para la descripción de cualquier recurso dado desde la perspectiva de una agregación específica, cuando los recursos se incluyen en diferentes agregaciones.
SKOS ofrece un modelo para expresar la estructura básica y el contenido de esquemas de conceptos como los tesauros, las clasificaciones, las listas de encabezamientos de materia, las taxonomías, las folksonomías y otros tipos similares de vocabularios controlados [17]. SKOS no proporciona, de forma deliberada, rdfs:domains en algunas de sus propiedades (especialmente las propiedades de etiquetas y de notas), con lo que permite que se reutilicen por cualquier tipo de recurso.
SKOS-XL es una extensión de SKOS para dar soporte a la descripción de las entidades léxicas asociadas a los conceptos. "Reifica" las etiquetas de los skos:Concepts, tratándolas en todo como recursos RDF. De este modo es posible que sean anotadas posteriormente con más detalle , o que se enlace a ellas utilizando, digamos, una propiedad "isTranslationOf".
El vocabulario "MARC Relators" proporciona una lista de propiedades para la descripción de relaciones entre un nombre y un recurso bibliográfico.
El CIDOC Conceptual Reference Model orientado a objetos ha sido desarrollado por el Consejo Internacional de Museos (ICOM, por sus siglas en inglés) para representar y hacer interoperables las descripciones de objetos del sector cultural. Utiliza de forma intensiva los eventos para interconectar objetos, personas, lugares y otras nociones conceptuales.
Hay versiones alternativas (OWL 1 y 2) en OWL-Description Logic (OWL-DL) en http://erlangen-crm.org (espacio de nombres: http://erlangen-crm.org/current/) y en http://bloody-byte.net/rdf/cidoc-crm/ (espacio de nombres: http://purl.org/NET/cidoc-crm/core#).
El grupo de estudio de la DCMI Collection Description Community [Comunidad DCMI de Descripción de Colecciones] desarrolló un perfil de aplicación Dublin Core para colecciones y distintos vocabularios. Su trabajo se basó en el Research Support Libraries Programme (RSLP) Collection Description Schema [Esquema de Descripción de Colecciones del Programa de Investigación para Bibliotecas (RSLP)].
FRBR es un modelo de referencia conceptual desarrollado por IFLA (Federación Internacional de Asociaciones de Bibliotecarios y Bibliotecas) para "proporcionar un (...) marco que relacione los datos que se incorporan en los registros bibliográficos con las necesidades de los usuarios de esos registros" (Informe final FRBR, sec. 2.1) y para evaluar su adecuación al mundo actual. Puede verse más información aquí.
La "familia FRBR" de IFLA está formada por tres modelos conceptuales; cada de ellos abarca un aspecto de los datos de los registros bibliográficos y de los registros de autoridad. Las entidades, atributos y relaciones definidos se han incorporado al Open Metadata Registry [Registro de Metadatos Abiertos]:
El Informe Final FRBR describe el modelo entidad-relación que se ha utilizado como fuente en otras implementaciones de ontologías:
Se trata de un registro preliminar de las clases y propiedades de la Descripción Bibliográfica Internacional Normalizada (ISBD) en su edición consolidada. La ISBD (más información aquí) se utiliza y aplica en la descripción de recursos bibliográficos en cualquier tipo de catálogo.
MADS/RDF está diseñado para su uso conjunto con vocabularios de valores de nombres (personales, de instituciones, geográficos, etc.), tesauros, taxonomías, sistemas de encabezamientos de materia y otras listas de valores controladas. La ontología MADS/RDF está mapeada a SKOS.
La Biblioteca Nacional de Alemania (GND, por sus siglas en inglés) ha creado un espacio de nombres para su servicio de Datos Vinculados que contiene descripciones detalladas de recursos de autoridad (Gemeinsame NormDatei, GND). Este conjunto de clases y propiedades refina específicamente las posibilidades que ofrece SKOS y los vocabularios RDA.
Con origen en otras comunidades
FOAF es una ontología ampliamente utilizada en la descripción de personas, de las relaciones con otras personas y con los recursos Web.
VoID es un esquema basado en RDF para la descripción de conjuntos de datos vinculados. Con VoID la localización y utilización de los conjuntos de datos vinculados puede realizarse de una manera más eficaz y eficiente. Un conjunto de datos VoID es una colección de datos RDF publicada y gestionada por un único proveedor, y que está accesible, por ejemplo, por medio de URIs HTTP desreferenciables o a través de un punto de servicio SPARQL (SPARQL endpoint).
BIBO puede utilizarse como una ontología de citas o de clasificación de documentos, o como una forma de describir cualquier clase de objeto bibliográfico mediante RDF.
El conjunto de datos de conceptos de referencia "Upper Mapping and Binding Exchange Layer" (UMBEL) se deriva de la ontología OpenCyc. Incluye miles de conceptos coherentemente estructurados y vinculados y puede aplicarse, en términos generales. para ofrecer nodos de orientación en cualquier dominio del conocimiento. El Vocabulario UMBEL proporciona clases y propiedades para describir conocimiento conceptual. También está pensado para servir de base en la construcción de ontologías de dominio [18]. Reutiliza vocabularios externos siempre que es posible.
La ontología vCard permite representar los perfiles de tarjetas de empresa definidos en vCard (RFC2426).
El nombre Lexvo se deriva del griego antiguo λεξικόν (lexicon) y del latín vocabularium (vocabulario) [19]. La ontología proporciona un vocabulario para definir URIs globales para idiomas, palabras, caracteres y otros objetos del lenguaje humano.
Se trata de un Esquema RDF para EXIF, un estándar para imágenes que soporta principalmente metadatos técnicos, normalmente embebidos en un fichero de imagen (por ejemplo, un fichero JPEG) en el que cada clave de la especificación EXIF ha sido directamente mapeada a su propiedad correspondiente. Para conservar las agrupaciones de claves de metadatos de la especificación EXIF original (por ejemplo, la composición de píxeles y su posicionamiento) existen otras iniciativas, como la ontología OWL EXIF [20].
El Open Provenance Model es un modelo genérico para expresar y compartir información sobre la procedencia. Está formado por un Vocabulario Open Provenance Model ligero que permite una representación básica de los datos de procedencia y una especificación más expresiva, Especificación OWL Open Provenance Model, orientada a la inferencia.
La "Music Ontology Specification" proporciona los conceptos principales y las propiedades para la descripción de música (es decir, artistas, álbumes y pistas) en la Web Semántica. Aplica las distinciones FRBR al dominio de la música.
CC REL permite la descripción de licencias de derechos de autor mediante RDF.
CiTO, una de las ontologías SPAR, es una ontología mínima para describir referencias de citas en artículos de investigación.
Description of a Project (DOAP) es un vocabulario para la descripción de proyectos de software, especialmente los de código abierto.
Esta pequeña ontología está dirigida a representar la posición geográfica (latitud, longitud y altitud) de objetos espaciales conforme al estándar WGS84.
El núcleo de la ontología SIOC puede utilizarse en la descripción de comunidades en línea y de sus actividades (por ejemplo, tablones de mensajes, wikis, blogs, etc.).
Schema.org es un conjunto de construcciones que permiten a los diseñadores de sitios web la inclusión de metadatos estructurados en sus páginas Web para que puedan utilizarse en los grandes motores de búsqueda Bing, Google, y Yahoo! Schema.org está diseñado para representar los recursos de una gran diversidad de dominios. Por ello, duplica muchos elementos de otros conjuntos de elementos de metadatos y falla en la captura de la riqueza de los datos de bibliotecas. No obstante, se puede utilizar para el intercambio de información básica sobre bibliotecas y sobre los recursos que éstas poseen, como se demuestra en el entrada del blog de Eric Hellman.
El protocolo de Facebook "Open Graph" permite la descripción de recursos (películas, libros, etc.) que pueden ser de interés para los miembros de la red social. Su propósito principal es permitir que los sitios web incluyan el marcado RDFa, que en combinación con el botón "Me gusta" comunica al servicio Facebook datos sobre los objetos mencionados en las páginas web.
La Ontology for Media Resources define un conjunto básico de propiedades de metadatos para recursos multimedia, junto los mapeos a elementos de una serie de formatos de metadatos ya existentes. Está orientado sobre todo a los recursos multimedia disponibles en la web, en contraposición a los recursos que están sólo accesible en archivos o museos locales.
La Norma Internacional General de Descripción Archivística define los elementos que deben incluirse en los instrumentos de descripción de archivos.
El Europeana Data Model es un vocabulario centrado en la representación de metadatos de objetos culturales que dan acceso a las representaciones digitales de esos objetos. EDM se sitúa en un contexto de agregación de datos, donde los objetos pueden ser complejos y en el que diferentes proveedores de datos pueden aportar diferentes visiones de los mismos. EDM reutiliza, amplia y se ha inspirado en otros conjuntos de elementos, principalmente OAI-ORE, Dublin Core, SKOS y CIDOC CRM.
EAC-CPF tiene como objetivo representar información de autoridades acerca del contexto de los materiales de archivo, lo que incluye "la identificación y características de las personas, las organizaciones y las familias (agentes) que son productores, usuarios o el tema de los documentos, así como las relaciones entre ellos" [21]. Es una iniciativa paralela a la norma Encoded Archival Description (EAD) [Descripción Archivística Codificada] para la representación de instrumentos de descripción archivística.
El concepto central de EAC-CPF es la distinción entre agentes e identidades: un mismo agente puede tener diferentes identidades y una identidad puede corresponder a varios agentes.
MARC (MAchine-Readable Cataloging) ha desempeñado un papel crucial en la creación e intercambio de metadatos bibliotecarios. Se ha publicado la versión RDF de la totalidad de los elementos MARC21 en el Open Metadata Registry [Registro de Metadatos Abiertos] como un "camino de transición básico, sin pérdida de datos, de MARC 21 a RDF." Con anterioridad la Iniciativa MarcOnt creó una ontología OWL que incluía un pequeño subconjunto de los elementos MARC relacionados con otras ontologías.
PREMIS define un conjunto fundamental de elementos de metadatos de preservación, apoyado en su diccionario de datos, aplicable a un amplio espectro de actividades de preservación digital.
EAD es una norma para la codificación de instrumentos de descripción de archivos en Extensible Markup Language (XML) [Lenguaje Extensible de Marcado].
Nótese que el conjunto de elementos LOCAH sólo maneja parte de EAD e introduce otros elementos que los participantes en LOCAH encontraron adecuados para la publicación de colecciones archivísticas como Datos Vinculados. El lector puede estar interesado también en la propuesta, más sencilla y ligera, del vocabulario Archival que mantiene Aaron Rubinstein para la descripción de archivos y de los nombres de las entidades asociadas con ellos.
Categorías para la descripción de obras de arte (CDWA) incluye 532 categorías y subcategorías para la descripción y el acceso a la información sobre arte, arquitectura, otros materiales culturales, grupos y colecciones de obras, así como para las imágenes relacionadas. También se ha desarrollado un subconjunto simplificado de estos elementos denominado CDWA Lite.
Vocabulario normalizado para la información relacionada con programas de información en la industria de la radiotelevisión profesional.
SPECTRUM es una normativa originada en el Reino Unido para la gestión de colecciones museísticas que abarca desde los metadatos descriptivos a la información sobre el préstamo de obras.
MODS es un subconjunto de campos MARC que utiliza etiquetas textuales en lugar de numéricas y que en algunos casos reagrupa elementos del formato MARC 21 bibliográfico. MODS se expresa en XML.
Las "Guidelines for Electronic Text Encoding and Interchange" [Directrices para la Codificación e Intercambio de Textos Electrónicos Codificados] son una normativa para la representación de cualquier texto literario o lingüístico destinado a la enseñanza e investigación en línea.
Las Visual Resources Association Core Categories (VRA Core) especifican el conjunto de categorías fundamentales para la creación de registros de descripción de obras de la cultura visual, así como de las imágenes que las documentan.
PBCore es un estándar de metadatos diseñado para la descripción de documentos mediáticos, digitales o analógicos. El PBCore XML Schema Definition (XSD) [Esquema de Definición XML] define la estructura y contenido de PBCore. El conjunto de elementos y los vocabularios de valores relacionados están disponibles en Open Metadata Registry.
A los miembros del Grupo Incubador de Datos Vinculados de Bibliotecas Monica Duke, Ed Summers y Bernard Vatant que han revisado en detalle este documento.
En el momento de la publicación de este informe el LLD Data Hub group [Grupo de Datos Vinculados de Bibliotecas del Concentrador de Datos] lo mantienen Karen Coyle, Adrian Pohl, Ross Singer y Lars Svensson, además de otros participantes citados anteriormente.