Este documento es una traducción al español del "Library Linked Data Incubator Group Final Report", publicado el 25 de octubre de 2011. Los criterios seguidos pueden consultarse en Nota a esta traducción. Se concluyó el 21 de febrero de 2012.

La versión original en inglés es el único documento válido y se encuentra en: http://www.w3.org/2005/Incubator/lld/XGR-lld-20111025/. La última versión del documento original está disponible en: http://www.w3.org/2005/Incubator/lld/XGR-lld/

Se ha tratado de respetar al máximo el contenido del documento original en inglés. Esta traducción puede contener errores, en ningún caso achacables a sus autores. Cualquier sugerencia de corrección, duda o comentario sobre la misma puede realizarse dirigiéndose a: Xavier Agenjo o a Francisca Hernández.

W3C W3C Incubator Report

Informe Final del Grupo Incubador de Datos Vinculados de Bibliotecas

Informe de Grupo Incubador del W3C de 25 de octubre de 2011

Versión original en inglés:
http://www.w3.org/2005/Incubator/lld/XGR-lld-20111025/
Última versión publicada:
http://www.w3.org/2005/Incubator/lld/XGR-lld/
Autores
Thomas Baker, Dublin Core Metadata Initiative, US (Experto invitado por el W3C)
Emmanuelle Bermès, Centre Pompidou, France (Experto invitado por el W3C)
Karen Coyle, Consultant, US (Experto invitado por el W3C)
Gordon Dunsire, Consultant, UK (Experto invitado por el W3C)
Antoine Isaac, Europeana and Vrije Universiteit Amsterdam, Netherlands
Peter Murray, LYRASIS, US (Experto invitado por el W3C)
Michael Panzer, OCLC Online Computer Library Center, Inc., US
Jodi Schneider, DERI Galway at the National University of Ireland, Galway, Ireland
Ross Singer, Talis Group Ltd, UK
Ed Summers, Library of Congress, US
William Waites, University of Edinburgh (School of Informatics), UK
Jeff Young, OCLC Online Computer Library Center, Inc., US
Marcia Zeng, Kent State University, US (Experto invitado por el W3C)
Traducción al español
Xavier Agenjo, Fundación Ignacio Larramendi, España
Francisca Hernández, DIGIBÍS Producciones Digitales, España

Resumen

El objetivo del Grupo Incubador de Datos Vinculados de Bibliotecas del W3C, constituido desde mayo de 2010 hasta agosto de 2011, ha sido "contribuir a incrementar la interoperabilidad global de los datos de las bibliotecas en la Web, reuniendo a personas implicadas en actividades de la Web Semántica —centradas en los Datos Vinculados— en bibliotecas e instituciones afines, mediante el examen de las iniciativas en curso e identificando futuras vías de colaboración. Los Datos Vinculados se expresan según una normativa, como Resource Description Framework (RDF), que especifica las relaciones entre las cosas, y los Uniform Resource Identifiers (URIs o "direcciones Web"). [URI]. El informe final del Grupo Incubador examina cómo pueden utilizarse las normas de la Web Semántica y los principios de Datos Vinculados para que los valiosos activos de información que las bibliotecas crean y tratan — recursos tales como datos bibliográficos, autoridades y esquemas conceptuales — sean más visibles y reutilizables más allá de su contexto bibliotecario original, en toda la extensión de la Web.

El Grupo Incubador comenzó por obtener informes de las actividades desarrolladas por terceros, que abarcan desde proyectos pequeños o independientes hasta iniciativas de bibliotecas nacionales (véase el informe individual, Grupo Incubador de Datos Vinculados de Bibliotecas: Casos de Uso) [USECASE]. Estos casos de uso proporcionaron el punto de partida del trabajo que se resume en el informe: el análisis de las ventajas de Datos Vinculados de Bibliotecas, la discusión de temas relacionados con los datos bibliotecarios tradicionales, las iniciativas existentes de Datos Vinculados de bibliotecas y los derechos legales de los datos de las bibliotecas, así como una serie de recomendaciones para los siguientes pasos a dar. El informe compendia también las conclusiones de un estudio sobre las tecnologías actuales de Datos Vinculados y un inventario de los recursos disponibles en Datos Vinculados de bibliotecas (véase además el informe detallado, Grupo Incubador de Datos Vinculados de Bibliotecas: Conjuntos de datos, Vocabularios de valores y Conjuntos de Elementos de Metadatos) [VOCABDATASET].

Las recomendaciones clave del informe están dirigidas:

Estado del documento

En esta sección se describe el estado de este documento en el momento de su publicación. Este documento puede ser sustituido por otros documentos. Hay una lista de los Informes Finales de los Grupos Incubadores disponibles. Véase además el índice de informes técnicos del W3C en http://www.w3.org/TR/.

Este documento ha sido elaborado por el Grupo Incubador de Datos Vinculados de Bibliotecas.

La publicación de este documento por el W3C como parte de la Actividad Incubadora del W3C no indica respaldo alguno de su contenido por el W3C, ni que el W3C haya asignado, tenga asignado o vaya a asignar ningún recurso a los temas tratados en él. La participación en los Grupos Incubadores y la publicación de Informes de estos Grupos en el Sitio del W3C son algunas de las ventajas de ser Miembro del W3C.

Los Grupos Incubadores tienen como objetivo elaborar trabajos que puedan implementarse sobre la base de la gratuidad de los derechos, tal y como se define en la Política de Patentes del W3C. Los participantes en este Grupo Incubador han acordado proporcionar licencias, según los requisitos de la Política de Patentes del W3C, a aquellas partes de este Informe de Grupo Incubador que posteriormente puedan incorporarse a una Recomendación del W3C.

Se anima a que este documento se discuta en la lista pública de correo electrónico public-lld@w3.org (archivo).

Tabla de Contenido

1 Alcance del informe

El objetivo de este informe, los "Datos Vinculados de bibliotecas", se entiende como sigue:

Bibliotecas. La palabra "biblioteca" se usa en este informe abarcando la gama completa de las instituciones de memoria y de patrimonio cultural, lo que comprende a las bibliotecas, los museos y los archivos. El término hace referencia a tres conceptos distintos, pero relacionados: la colección de objetos físicos o abstractos (incluyendo potencialmente los "digitales"); el sitio donde se localizan las colecciones; y el agente que conserva la colección y administra el sitio. Las colecciones pueden ser públicas o privadas, grandes o pequeñas, y no se limitan a ningún tipo de recurso en particular.

Datos de Bibliotecas. El término "Datos de bibliotecas" se refiere a cualquier tipo de información digital producida o conservada por las bibliotecas y que describe recursos o sirve para su localización. Los datos cubiertos por las políticas de privacidad de las bibliotecas quedan, en general, fuera del ámbito de este informe. Este informe distingue, a efectos prácticos, tres tipos de datos de bibliotecas según su uso habitual: conjuntos de datos, conjuntos de elementos, y vocabularios de valores (véase el Apéndice A).

Datos Vinculados. "Datos Vinculados" son datos publicados según los principios establecidos para facilitar el enlace entre conjuntos de datos, conjuntos de elementos y vocabularios de valores [LINKEDDATA]. Los Datos Vinculados utilizan Uniform Resource Identifiers (URIs) [Identificadores Uniformes de Recursos] como identificadores únicos globales para cualquier clase de recurso, de forma análoga a como se utilizan los identificadores en el tradicional proceso biblioteconómico de control de autoridades [URI]. En Datos Vinculados, los URIs pueden ser Internationalized Resource Identifiers (IRIs) [Identificadores Internacionalizados de Recursos], es decir, Direcciones Web que utilizan el juego de caracteres extendido para el lenguaje natural soportado por Unicode. Los Datos Vinculados se expresan por medio de estándares como Resource Description Framework (RDF) [Marco para la Descripción de Recursos], que especifica las relaciones entre las cosas; relaciones que pueden utilizarse para navegar o para integrar información procedente de múltiples fuentes [RDF].

Los Datos Abiertos. Así como "Datos Vinculados" se refieren a la interoperabilidad técnica de los datos, "los Datos Abiertos" se centran en el aspecto legal de la interoperabilidad. Según las definiciones de Open Bibliographic Data [Datos Bibliográficos Abiertos], los Datos Abiertos son esencialmente algo utilizable libremente, reutilizables y redistribuibles, sujetos, como máximo, a los requisitos de reconocimiento y de compartir igual. Nótese que la tecnología de Datos Vinculados 'per se' no requiere que los datos sean Abiertos, aunque el potencial de esta tecnología se consigue mejor si los datos se publican como Datos Abiertos Vinculados.

Datos Vinculados de Bibliotecas. Los "Datos Vinculados de Bibliotecas" son cualquier tipo de datos de bibliotecas (como se ha definido antes) expresados en forma de Datos Vinculados.

2 Ventajas del enfoque de Datos Vinculados

El enfoque de Datos Vinculados ofrece ventajas significativas sobre las prácticas actuales de creación y distribución de datos de bibliotecas, ya que proporciona una extensión natural del modelo de colaboración e intercambio empleado históricamente por las bibliotecas. Los Datos Vinculados, y especialmente los Datos Abiertos Vinculados, se pueden compartir, extender y reutilizar fácilmente. Soportan funcionalidades multilingües, tanto para los datos como para los servicios a los usuarios, tales como el etiquetado de conceptos identificados por los URIs, que son independientes del idioma. Estas características son inherentes a los estándares de Datos Vinculados y se apoyan en el uso de identificadores Web para datos y conceptos. Los recursos pueden describirse en colaboración con otras bibliotecas y enlazarse a otros datos proporcionados por otras comunidades o, incluso, personas. Del mismo modo que en la actualidad se enlazan los documentos Web, los Datos Vinculados permiten que cualquiera aporte su conocimiento específico de forma tal que se puede reutilizar y recombinar con el conocimiento de otros. El uso de identificadores permite diferentes descripciones para referirse a la misma cosa. Por medio de esos abundantes vínculos a datos complementarios procedentes de fuentes autorizadas, las bibliotecas pueden incrementar el valor de sus datos más allá de la suma de las fuentes tomadas individualmente.

Con el uso de identificadores globlales únicos para designar obras, lugares, eventos, materias y otros objetos o conceptos de interés, las bibliotecas posibilitarán que sus recursos se citen en un amplio número de fuentes de datos, lo que hará que sus descripciones de metadatos sean mucho más accesibles. El Sistema de Nombres de Dominios de Internet proporciona estabilidad y exactitud, ya que estos identificadores forman parte de un marco regulado y bien conocido de propiedad y mantenimiento. Esta idea es totalmente compatible con el cometido a largo plazo de las bibliotecas. Las bibliotecas, y las instituciones de memoria en general, están en una posición excepcional para proporcionar metadatos fiables para los recursos que tienen una importancia cultural a largo plazo como son los datos en la Web.

Otro resultado impactante de la reutilización de identificadores únicos es que permite a los proveedores de datos aportar afirmaciones sobre parte de sus datos. En el actual ecosistema basado en el documento los datos se intercambian siempre en forma de registros, cada uno de los cuales se supone que es una descripción completa. En cambio, en un ecosistema basado en grafos una organización puede aportar afirmaciones individuales sobre un recurso y la suma de las afirmaciones sobre un recurso concreto, identificado unívocamente, se puede agregar en un grafo global. Por ejemplo, una biblioteca puede aportar el número de la bibliografía nacional de un recurso, mientras que otra puede proporcionar su título traducido. Los servicios bibliotecarios pueden aceptar las afirmaciones de fuentes externas, igual que cuando importan imágenes de cubiertas de libros. En el ecosistema de Datos Vinculados no hay, literalmente, contribución demasiado pequeña, un solo atributo puede dar lugar a que aparezcan conexiones importantes en fuentes desconocidas anteriormente.

Los datos de autoridades de nombres y materias de las bibliotecas contribuirán a reducir el número de descripciones bibliográficas redundantes existentes en la Web, al identificar claramente las entidades clave que se comparten en Datos Vinculados. También ayudará a reducir la redundancia en los metadatos que representan los fondos bibliográficos.

2.1 Ventajas para los investigadores, los estudiantes y los usuarios

Los Datos Vinculados pueden no ser evidentes para los usuarios de los servicios de bibliotecas e instituciones culturales porque los cambios están "bajo el capó". Sin embargo, a medida que la estructura de datos subyacente esté más interrelacionada, el usuario notará grandes mejoras en la localización y uso de los datos. La navegación entre los recursos de información de las bibliotecas o de cualquier otro tipo será más sofisticada. La búsqueda federada mejorará con el uso de enlaces que permitirán expandir los índices, y los usuarios dispondrán de una red más densa de caminos para explorar.

Los Datos Vinculados están construidos sobre la característica distintiva de la Web: los enlaces (URIs) que amplian la exploración a un espacio informativo continuo, sin límites. Del mismo modo que todas las páginas y sitios Web están disponibles como un todo, tanto para los usuarios como para las aplicaciones, la totalidad de los conjuntos de datos que usan RDF y URIs se presentan como un grafo global de información, que los usuarios y las aplicaciones pueden explorar sin límites, siguiendo las sendas de los enlaces URI a voluntad, una forma de "tURIsmo." de datos. El valor de Datos Vinculados para los usuarios de las bibliotecas se deriva de estos principios básicos de navegación. Los enlaces entre los servicios bibliotecarios y los no bibliotecarios como Wikipedia, GeoNames, MusicBrainz, la BBC o el New York Times permitirán conectar las colecciones locales con el amplio universo de información de la Web.

Los Datos Vinculados no tratan de crear una Web diferente, sino más bien de mejorarla, añadiéndole datos estructurados. Estos datos estructurados, expresados con tecnologías como RDF in Attributes (RDFa) [RDF en Atributos] o microdatos, cumplen una función en el rastreo de la Web, en los algoritmos de relevancia de los motores de búsqueda y en las redes sociales, y proporcionarán a las bibliotecas un mecanismo para mejorar su visibilidad a través de la optimización de los motores de búsqueda (por sus siglas en inglés, SEO). Igualmente, los datos estructurados embebidos en páginas HTML facilitarán que otros servicios de búsqueda de información reutilicen los datos bibliotecarios: la gestión de citas y referencias bibliográficas puede ser algo tan sencillo como copiar y pegar URIs. La recuperación automática de citas en Datos Vinculados o la creación de enlaces desde los recursos Web a los recursos bibliotecarios llevará a que los datos de las bibliotecas se integren plenamente en los documentos de investigación y en las bibliografías. Los Datos Vinculados favorecerán la investigación interdisciplinaria al enriquecer el conocimiento mediante la vinculación de bases de conocimiento especializadas.

La migración de los actuales datos de bibliotecas a Datos Vinculados es solo un primer paso; también pueden publicarse como Datos Vinculados los conjuntos de datos utilizados en un experimento reflejado en una comunicación y el modelo utilizado por los autores para procesar esos datos. Representar una comunicación, un conjunto de datos o un modelo por medio de los vocabularios y formalismos adecuados facilita que otros investigadores reproduzcan un experimento o que traten los mismos datos según otros modelos y con diferentes objetivos. Esta práctica puede mejorar el rigor de la investigación y hacer que la valoración de las investigaciones descritas en comunicaciones, ponencias y artículos sea más transparente y más fácil para los revisores científicos. (Véase, por ejemplo, el caso de uso Enhanced Publications.)

2.2 Ventajas para las organizaciones

El enfoque de abajo a arriba [bottom-up] para la publicación de datos en Datos Vinculados proporciona a las bibliotecas una oportunidad de incrementar la propuesta de valor con la descripción de sus activos. El enfoque jerárquico [top-down], tradicional en los datos de bibliotecas — por ejemplo, produciendo registros de descripciones bibliográficas aisladas — se ha visto limitado por las restricciones presupuestarias: las bibliotecas no disponen de los recursos necesarios para producir información con tan alto grado de detalle. En Datos Vinculados, los distintos actores pueden producir, de forma descentralizada, distintos tipos de datos para un mismo activo, que posteriormente pueden agregarse en un único grafo.

La tecnología de Datos Vinculados puede ayudar a las organizaciones para mejorar sus procesos internos de tratamiento de datos y para mantener mejores enlaces, por ejemplo, entre los objetos digitalizados y sus descripciones. También pueden mejorar los procesos de publicación, incluso en aquellas organizaciones cuyos datos no son totalmente abiertos. Mientras que la tecnología bibliotecaria actual está específicamente destinada a los formatos de datos bibliotecarios, que se gestionan por medio de Sistemas Bibliotecarios Integrados, desarrollados por una industria especialmente dirigida a las bibliotecas, éstas tienen a su disposición soluciones generalistas para la gestión de Datos Vinculados. La adopción de una tecnología general como Datos Vinculados proporciona a las bibliotecas una mayor capacidad de elección de proveedores, del mismo modo que el uso de los formatos normalizados de Datos Vinculados les permite contratar e interactuar con un mayor número de desarrolladores.

Los Datos Vinculados pueden ser un primer paso hacia la gestión de información cultural "en la nube", lo que puede ser más rentable que los sistemas independientes de cada institución. Este enfoque posibilitaría que las pequeñas instituciones o los proyectos individuales estuvieran más interconectados y fueran más visibles, reduciéndose, además, los costes de infraestructura.

Con Datos Vinculados Abiertos las bibliotecas pueden aumentar su presencia en la Web, que es dónde actúan la mayoría de quienes buscan información. Incidir en los identificadores permite que se puedan ajustar las descripciones a los usos específicos de los museos, los archivos, las galerías o los archivos audiovisuales. Los datos abiertos son, más que una amenaza, una oportunidad. La aclaración de las condiciones y de las licencias de los metadatos descriptivos facilita su reutilización y mejora la visibilidad de las instituciones que los producen. De esta manera, los datos se abren a usos imprevistos: "Lo más inteligente que puedes hacer con tus datos se le ocurrirá a otro"

2.3 Ventajas para los bibliotecarios, los archiveros y los conservadores de museos

Las ventajas para las instituciones y sus usuarios tendrán un impacto directo en los profesionales. Con Datos Vinculados Abiertos las bibliotecas crearán una fuente global de datos abiertos y compartidos que pueden utilizarse y reutilizarse para la descripción de recursos, reduciendo tareas redundantes, si se comparan con los actuales procesos de catalogación.

El uso de la Web y de los identificadores propios de ésta darán lugar a descripciones de recursos actualizadas que los catalogadores podrán citar directamente. La utilización de identificadores compartidos les permitirá reunir descripciones de recursos de otros campos, de todos los conjuntos de datos del patrimonio cultural, e incluso de la totalidad de la Web. Los catalogadores podrán concentrar su esfuerzo en su área local de especialidad, en lugar de volver a crear descripciones ya existentes que han sido elaboradas por otros.

La historia muestra que todas las tecnologías son pasajeras y, en concreto, la historia de la tecnología de la información enseña que los formatos específicos de datos tienen una vida especialmente corta. Los Datos Vinculados separan la descripción del significado de los datos ("semántica") de su estructura específica ("sintaxis" o "formato"), lo que da como resultado que los Datos Vinculados retienen su significado cuando cambian los formatos. En este sentido, los Datos Vinculados son más duraderos y robustos que los formatos de metadatos que dependen de una particular estructura de datos.

2.4 Ventajas para los desarrolladores y las firmas comerciales

Los desarrolladores y las firmas comerciales de bibliotecas se beneficiarán al no estar sujetos a un formato propio de las bibliotecas. El método de Datos Vinculados soporta la recuperación y mezcla de datos de una forma consistente para todos los proveedores de metadatos. Por contra, el acceso a los datos puede realizarse por otros procedimientos diferentes de los protocolos específicos de las bibliotecas (por ejemplo, el Protocolo para la Recuperación de Información Z39.50); los Datos Vinculados utilizan protocolos Web bien conocidos y normalizados como Hypertext Transport Protocol (HTTP) [Protocolo de Transferencia de Hipertexto].

Los desarrolladores no tendrán que trabajar ya con formatos de datos específicos de las bibliotecas como ISO 2709 y MAchine-Readable Cataloging (MARC) [Catalogación Legible por Ordenador], que requieren aplicaciones y herramientas a medida. Los métodos de Datos Vinculados implican el volcado de datos en la Web de una forma comúnmente comprensible. Las firmas comerciales que soporten Datos Vinculados podrán comercializar sus productos fuera del mercado bibliotecario, igual que las firmas ajenas a las bibliotecas podrán adaptar sus productos genéricos a los requisitos específicos de las bibliotecas. La acción de RDF y HTTP libera a los desarrolladores de la obligación de utilizar el software específico de un campo de actividad, lo que abre el rango de herramientas a otras más generales, muchas de las cuales son de código abierto. Les será más fácil construir nuevos servicios sobre los datos. Además, esto amplía la comunidad de desarrolladores en la que pueden apoyarse los profesionales de las tecnologías de la información de las bibliotecas. En un mar de tripletas RDF, ningún desarrollador es una isla.

3 Situación actual

3.1 Limitaciones de los datos tradicionales de bibliotecas

3.1.1 Los datos de las bibliotecas no están integrados con los recursos Web

Los actuales datos de bibliotecas residen en bases de datos que, aunque disponen de interfaces de búsqueda Web, no están muy integrados con otras fuentes de datos de la Web. Hay una considerable cantidad de datos bibliográficos y de otro tipo que tienen puntos en común con otros recursos de la Web como las fechas, la información geográfica, las personas y las organizaciones. En el futuro entorno de Datos Vinculados todos estos puntos podrían estar interconectados.

3.1.2 Las normas de las bibliotecas están diseñadas únicamente para la comunidad bibliotecaria

Muchas normas bibliotecarias, como el Formato MARC o el protocolo de recuperación de información Z39.50 se han desarrollado y se mantienen en un contexto específicamente bibliotecario. Con frecuencia la normalización en el mundo bibliotecario es asumida por organismos centrados exclusivamente en este dominio como la Federación Internacional de Asociaciones de Bibliotecarios y Bibliotecas (por sus siglas en inglés, IFLA) o el Joint Steering Committee for Development of RDA (JSC) [Comité Directivo Conjunto para el Desarrollo de RDA (JSC)]. Estas entidades pueden aumentar su influencia y extender la aplicación de su normativa a los datos creados y utilizados por otras comunidades, ampliando su ámbito de actividad y su relación con las iniciativas de normalización de Datos Vinculados.

3.1.3 Los datos de bibliotecas se expresan primordialmente en lenguaje natural textual

La mayor parte de la información de los datos de bibliotecas tiene una codificación orientada a su visualización como lenguaje natural textual. Algunos campos de los registros MARC utilizan valores codificados, como las cadenas de longitud fija para representar el idioma, pero no siempre se incluyen en todos los registros ni se favorece su uso, ya que muchos de estos campos de datos codificados no tienen una función definida en los sistemas bibliotecarios. Algunos identificadores incluidos en los registros MARC, como el ISBN para los libros, pueden utilizarse, en principio, para crear vínculos, pero es necesario extraerlos primero de los campos textuales y normalizarlos después.

Otros campos de datos, como los nombres y materias controlados por ficheros de autoridad, están relacionados con registros que forman parte de ficheros independientes que, a su vez, tienen identificadores que pueden utilizarse para representar esas entidades en los metadatos bibliotecarios. Sin embargo, los formatos de datos que se usan actualmente no siempre soportan la inclusión de estos identificadores en los registros y, por tanto, la mayoría de los sistemas bibliotecarios no soportan tampoco su uso de forma apropiada. Además, la tendencia es que esos identificadores se gestionen localmente, en lugar de globalmente y, en consecuencia, no están expresados como URIs, lo que sí permitiría su vinculación en la Web. La ausencia de enlaces, o una gestión insuficiente de los mismos por los sistemas bibliotecarios, suscita cuestiones muy importantes. La visualización de los cambios en las formas autorizadas requiere la recuperación de todos los registros bibliográficos relacionados para modificar las cadenas de textos, proceso prolijo y caro que con frecuencia impide que las bibliotecas implanten los cambios de forma rápida.

3.1.4 La comunidad bibliotecaria y la comunidad de la Web Semántica utilizan una terminología diferente para conceptos similares sobre metadatos

El trabajo con Datos Vinculados de bibliotecas se puede ver dificultado por la disparidad de conceptos y de terminología que existe entre las bibliotecas y la comunidad de la Web Semántica. Pocos bibliotecarios hablan de las "afirmaciones" de los metadatos, mientras que la comunidad de la Web Semántica carece de nociones equivalentes a los "encabezamientos" o al "control de autoridades". Cada comunidad tiene su propio vocabulario, lo que es reflejo de sus puntos de vista particulares. Es necesario impulsar la comprensión mutua para que ambos grupos aporten su pericia a la construcción de la Web de los Datos.

3.1.5 Los cambios tecnológicos en las bibliotecas dependen del desarrollo de sistemas comerciales

Gran parte del conocimiento en la comunidad bibliotecaria se concentra en un número pequeño de firmas comerciales que proporcionan los sistemas y el software que soporta tanto las funciones bibliotecarias, las adquisiciones, los datos de los usuarios o la circulación, como los servicios de recuperación de la información. Esto significa que, cuando las bibliotecas quieran adoptar Datos Vinculados en un entorno de producción, deberán apoyarse en la tecnología y en la planificación de los desarrollos de las firmas comerciales, más que en su propia iniciativa.

3.2 Datos Vinculados de Bibliotecas disponibles en el momento actual

El éxito de Datos Vinculados de bibliotecas dependerá de la capacidad de los profesionales para identificar, reutilizar o vincular los datos con otras fuentes disponibles de Datos Vinculados. Sin embargo, hasta la fecha ha sido difícil tener una visión general de los conjuntos de datos y de los vocabularios de bibliotecas que están disponibles en forma de Datos Vinculados. El Grupo Incubador emprendió un inventario de las fuentes disponibles de Datos Vinculados relacionadas con las bibliotecas (véase Apéndice A), del que extrajo las siguientes observaciones.

3.2.1 Se han publicado menos conjuntos de datos bibliográficos como Datos Vinculados que vocabularios de valores y conjuntos de elementos

En los últimos años se han publicado como Datos Vinculados muchos conjuntos de elementos de metadatos y vocabularios de valores, algunos de ellos tan señalados como los Library of Congress Subject Headings [Encabezamientos de Materia de la Library of Congress] o la Dewey Decimal Classification [Clasificación Decimal de Dewey]. También se han publicado como Datos Vinculados, o en una forma compatible, otros conjuntos de elementos clave, como DCMI Metadata Terms [Términos de Metadatos DCMI] y marcos de referencia como los Requisitos Funcionales de los Registros Bibliográficos (FRBR).

Se han publicado como Datos Vinculados un número relativamente pequeño de conjuntos de datos bibliográficos y se ha producido un número menor aún de metadatos para artículos de revistas, citas bibliográficas o datos de circulación, información que podría utilizarse de manera muy eficaz en entornos en los que los datos se integrasen de forma continuada a través de diferentes contextos. Algunas iniciativas pioneras como la publicación de la British National Bibliography [Bibliografía Nacional Británica] revelan el esfuerzo que exige afrontar retos como el modelado de datos, las licencias de uso, la gestión de los datos de origen o la colaboración con distintas comunidades de usuarios. Pero también muestran las ventajas considerables de publicar bases de datos bibliográficas como Datos Vinculados. A medida que aumenta la experiencia de las bibliotecas, el número de conjuntos de datos publicados como Datos Vinculados también crece rápidamente.

3.2.2 La calidad de los datos disponibles y el apoyo a su publicación varía enormemente

La madurez y la estabilidad de los recursos disponibles varía mucho. Muchos de los recursos existentes son el resultado de proyectos en curso o de iniciativas individuales y se describen a sí mismas como prototipos y no como resultados maduros. Pero también la abundancia de esfuerzos de este tipo es una señal de la actividad e interés en Datos Vinculados de bibliotecas y ejemplifica la rapidez para construir prototipos y la agilidad de los desarrollos que soportan Datos Vinculados. Al mismo tiempo, esta creatividad y dinamismo tiene su contrapeso en que los recursos de Datos Vinculados de Bibliotecas sean estables y estén disponibles a largo plazo.

Es alentador que instituciones sólidas se comprometan cada vez más en proyectos de Datos Vinculados, desde las bibliotecas nacionales de Suecia, Hungría, Alemania, Francia, la Library of Congress y la British Library, hasta la Organización de las Naciones Unidas para la Alimentación y la Agricultura o la OCLC Online Computer Library Center, Inc. Este tipo de instituciones proporcionan un fundamento estable para que los Datos Vinculados de bibliotecas crezcan con el tiempo.

3.2.3 La vinculación entre conjuntos de datos se ha iniciado ya, pero hace falta más esfuerzo y coordinación

La principal ventaja de la tecnología de Datos Vinculados se plasma en el establecimiento de conexiones entre conjuntos de datos. La clave de su éxito estará en llevar a cabo estas conexiones. El inventario de los datos disponibles (véase el Apéndice A) muestra que muchos enlaces semánticos se han creado entre vocabularios de valores ya publicados, lo que es un gran logro para la naciente comunidad de Datos Vinculados de bibliotecas en su conjunto. Se puede — y se debe — hacer más para resolver el problema de la redundancia entre los diferentes recursos de autoridad que mantienen las bibliotecas. Se necesitan también más vínculos entre los conjuntos de datos y entre los conjuntos de elementos de metadatos que se utilizan para estructurar las descripciones de Datos Vinculados. Los principales cuellos de botella están en el comparativamente bajo nivel de sostenimiento de los vocabularios a largo plazo, en la escasa comunicación entre los desarrolladores de vocabularios y en la falta de herramientas maduras que reduzcan el coste de producir las grandes cantidades de vínculos semánticos que se necesitan. En esta área hay ya iniciativas para que los participantes compartan tanto su conocimiento como la produción de vínculos pertinentes (véase el Apéndice C).

3.3. Cuestiones sobre derechos

3.3.1 La propiedad de los derechos es un tema complejo

Algunos datos de bibliotecas tienen un uso restringido, basado en políticas locales, contratos y otros condicionantes poco claros o difíciles de comprobar, que pueden entorpecer su edición como Datos Abiertos. Los temas relacionados con los derechos varían mucho de un país a otro y dificultan la colaboración para la publicación de Datos Abiertos.

La propiedad de los registros catalográficos se ha visto complicada por el alto grado de intercambio de datos entre bibliotecas en los últimos cincuenta años. Con frecuencia, los registros se copian y los catalogadores modifican o mejoran localmente esas copias. Estos registros pueden volverse a agregar posteriormente por otros catálogos de consorcios regionales, nacionales o internacionales. Es difícil atribuir correctamente los derechos de propiedad intelectual e identificar a los agentes y agencias derechohabientes; la falta de certeza dificulta el intercambio de datos en una comunidad que es necesariamente cautelosa en cuestiones legales.

3.3.2 Los derechos sobre los datos pueden considerarse activos de negocio

Como los datos de bibliotecas nunca se han intercambiado con terceras partes los derechos de estos datos pueden detentarse en exclusividad por las agencias que han agregado valor a su inversión, pasada, presente y futura con la creación, mantenimiento y colección de metadatos. Algunas agencias consideran que sus registros son activos de sus planes de negocio, lo que puede hacerles renuentes a publicarlos como Datos Abiertos Vinculados. Otros están sólo dispuestos a publicar sus datos de forma parcial o desprovistos de los detalles semánticos, lo que afectará gravemente a su utilidad.

4 Recomendaciones

Las bibliotecas deben incorporarse a la web de la información haciendo que sus datos estén disponibles como Datos Vinculados y utilizando la web de los datos en sus servicios bibliotecarios. Lo ideal sería que los datos de las bibliotecas se integraran completamente con otros recursos de la Web; de este modo aumentaría la visibilidad de las bibliotecas y se pondrían los servicios bibliotecarios a disposición de quienes buscan información. Las bibliotecas pueden tener una posición de liderazgo en la web de Datos Vinculados basada en su actividad tradicional: la gestión de recursos para su uso constante y para su preservación a largo plazo; la descripción de recursos según reglas previamente acordadas; y la atención a las necesidades de quienes buscan información.

4.1 A los directores de bibliotecas

4.1.1 Identificar los conjuntos de datos candidatos a exponerse inmediatamente como Datos Vinculados

El primer paso debe ser la identificación de los proyectos de Datos Vinculados con mayor prioridad y de menor coste. Por su propia naturaleza, los Datos Vinculados permiten que la aportación de datos para su utilización en la Web sea incremental. El entorno de los datos de bibliotecas es complejo e intentar trasladar esta complejidad a Datos Vinculados de una sola vez puede reducir las garantías de éxito. Sin embargo, algunos recursos de bibliotecas se han prestado a su publicación como Datos Vinculados sin perturbar los sistemas y servicios actuales. Entre ellos, pueden mencionarse los ficheros de autoridad (cuyos componentes identifican cosas) y las listas de términos controlados. Identificar estas "frutas maduras" contribuirá a que las bibliotecas expandan su presencia en la nube de Datos Vinculados, sin cambiar sus flujos de trabajo en ningún aspecto.

4.1.2 Fomentar el debate sobre Datos Abiertos y los derechos de propiedad

Los derechohabientes deben valorar, cuando definan los derechos asociados a sus datos, el impacto que tendrán las restricciones de uso, ya que complican la reutilización de los datos en el entorno de Datos Vinculados. Podría tener mucho más sentido que los directores de las bibliotecas acordaran con los derechohabientes los derechos concretos y las licencias asociadas valiéndose de consorcios de bibliotecas o promoviendo acuerdos de nivel nacional o internacional. (Véase como ejemplo la sección Derechos y Licencias de la Open Bibliographic Data Guide [Guía de Datos Bibliográficos Abiertos] de las bibliotecas universitarias del Reino Unido.)

4.2 A los organismos de normalización y sus miembros

4.2.1 Incrementar la participación de las bibliotecas en la estandarización de la Web Semántica

Si las normas de la Web Semántica no soportaran la traducción de los datos de las bibliotecas con la suficiente expresividad, se deberían ampliar. Por ejemplo, si el Simple Knowledge Organization System (SKOS) [Sistema Sencillo de Organización del Conocimiento], norma utilizada para publicar los sistemas de organización del conocimiento como Datos Vinculados, no incluye mecanismos para representar los componentes de los encabezamientos de materia pre-coordinados; quienes lo implementen deben considerar soluciones que amplíen esos elementos básicos, por ejemplo por medio de OWL Web Ontology Language [Lenguaje de Ontologías Web]. Para asegurar que estas nuevas estructuras sean entendidas por la generalidad de los consumidores de Datos Vinculados, los implementadores deberán colaborar con la comunidad de la Web Semántica, tanto para asegurar que las soluciones propuestas sean compatibles con las buenas prácticas, como para maximizar la aplicación de su trabajo fuera del entorno bibliotecario. Los miembros de la comunidad bibliotecaria deben, por su parte, contribuir a los esfuerzos de normalización relacionados con las bibliotecas, como las extensiones que promueve el W3C para abarcar el concepto de procedencia en RDF, formando grupos técnicos de trabajo o participando en los procesos públicos de revisión. También podría jugar un importante papel en este área un Grupo de Comunidad del W3C.

4.2.2. Desarrollar normas sobre datos de bibliotecas compatibles con Datos Vinculados

Las tecnologías de la Web Semántica conceptualizan datos de un modo que difiere fundamentalmente de la conceptualización que subyace a los formatos de datos del siglo XX. Los Datos Vinculados son, ante todo, significados y relaciones significativas entre las cosas, mientras que los datos tradicionales de bibliotecas son una combinación de significado y estructura, en un único paquete. Que el significado sea indisoluble de la codificación tiene como consecuencia una menor flexibilidad a la hora de recuperar el valor de lo invertido en los datos. Desde la aparición del formato MARC, en los años sesenta del pasado siglo, los datos de las bibliotecas se han gestionado predominantemente en forma de "registros" que se agrupan en conjuntos de información almacenados en ficheros con una estructura precisa. Por el contrario, en la Web Semántica y en Datos Vinculados, los datos se estructuran como grafos, construcciones que, en principio, pueden ser ilimitadas. La diferencia entre estos dos enfoques hace que el proceso de trasladar las normas y los datos de las bibliotecas a Datos Vinculados no sea trivial y que se deba emprender conociendo los nuevos principios del diseño de datos. Se necesitan pautas y documentar las buenas prácticas para que sirvan de guía en la construcción de ontologías y de vocabularios estructurados para datos de bibliotecas.

4.2.3 Desarrollar y difundir mejores prácticas en el diseño de modelos ajustadas a Datos Vinculados de bibliotecas

Los diseños de modelos permiten que los implementadores puedan construir sobre la experiencia de sus predecesores. Una práctica tradicional como la catalogación ha sido documentada en una gran variedad de modelos y ejemplos; del mismo modo se están empezando a documentar buenas prácticas en el ámbito de Datos Vinculados. Ejemplos de ello son Linked Data: Evolving the Web into a Global Data Space y Linked Data Patterns. Los Perfiles de aplicación proporcionan la metodología para documentar y compartir los modelos y las restricciones en el uso de vocabularios para la descripción de tipos concretos de recursos. Lo que se necesita son modelos diseñados y ajustados específicamente a los requisitos de Datos Vinculados de bibliotecas. Estos diseños de modelos podrían cubrir mejor las necesidades de los desarrolladores, que son quienes están en la mejor disposición para comprender nuevas técnicas por medio de modelos y ejemplos, así como podrían incrementar la coherencia de conjunto de Datos Vinculados de bibliotecas.

4.3 A los ingenieros de datos y de sistemas

4.3.1 Diseñar y probar servicios para los usuarios basados en las capacidades de Datos Vinculados

En último término los Datos Vinculados llevarán a nuevos y mejores servicios para los usuarios, del mismo modo que permitirán que los implementadores fuera del mundo de las bibliotecas creen aplicaciones y servicios basados en los datos de las bibliotecas. Es demasiado pronto para predecir qué nuevos tipos de servicios se desarrollarán para la localización y uso de la información. Se debe emprender el desarrollo de servicios experimentales que utilicen Datos Vinculados de bibliotecas para explorar potenciales casos de uso e informar de la orientación que tomen los desarrollos más significativos.

4.3.2 Crear URIs para los ítems de los conjuntos de datos de bibliotecas

Los datos de las bibliotecas no pueden utilizarse en el entorno de Datos Vinculados sin que tengan Identificadores Uniformes de Recursos (URIs), ya sea para los recursos específicos, ya sea para los conceptos de la normativa bibliotecaria Los propietarios oficiales de los datos o de las normas deben asignar los URIs lo antes posible, ya que los desarrolladores de aplicaciones u otros usuarios de estos datos no van a posponer su actividad y es mucho más probable que creen ellos mismos los URIs al margen de la institución propietaria. Si los propietarios no están en disposición de asignar los URIs a tiempo deben buscar socios que lo hagan o delegar la asignación y mantenimiento de URIs en otros, con el objetivo de evitar la proliferación de URIs para la misma cosa y fomentar la reutilización de los URIs ya asignados.

Las agencias responsables de la creación de registros catalográficos y de otros metadatos, como las bibliografías nacionales, son las instituciones que lógicamente deberán adoptar un papel protagonista en la creación de los URIs para los recursos que describen.

4.3.3 Desarrollar políticas de gestión de vocabularios de Datos Vinculados y de sus URIs

Las organizaciones e individuos que crean y mantienen los URIs, tanto para recursos como para normas, saldrán beneficiados con el desarrollo de políticas específicas para los espacios de nombres de los que se derivan esos URIs. Estas "políticas de espacios de nombres" fomentan que el problema se aborde de una forma consistente, coherente y estable, lo que mejora la eficacia y proporciona a los usuarios de los URIs y de sus espacios de nombres un control de calidad. Estas directrices deben abarcar:

4.3.4 Expresar los datos de bibliotecas por medio de la reutilización o del mapeo de vocabularios de Datos Vinculados

Para maximizar las posibilidades de vinculación a otros conjuntos de datos, los datos de las bibliotecas se deben expresar en los términos de Datos Vinculados — propiedades, clases e instancias — que ya tengan relaciones claramente definidas con otros que se estén utilizando en el amplio espectro de Datos Vinculados. Esto se puede hacer de dos maneras: utilizando los vocabularios de Datos Vinculados basados en la normativa existente o definiendo relaciones explícitas (alineamientos) entre los términos de Datos Vinculados del mundo bibliotecario con los de otras comunidades. (Más información en el Apéndice C.)

4.4 A los bibliotecarios y los archiveros

4.4.1 Preservar los conjuntos de elementos y los vocabularios de valores de Datos Vinculados

Muchos de los vocabularios de Datos Vinculados son esencialmente obras de referencia culturales que proporcionan información autorizada sobre personas, lugares, eventos y conceptos de nivel regional, nacional o internacional. Por ello, la preservación de los vocabularios de Datos Vinculados es una ampliación natural, y esencial, de las actividades de las instituciones de memoria. Los Datos Vinculados permanecerán en uso durante una veintena de años sólo si sus URIs persisten en su función de resolver la documentación de su significado. Los conjuntos de elementos y los vocabularios de valores son cruciales para la interpretación correcta de los datos, ahora y en el futuro, y por tanto son objetos cuya preservación es especialmente importante. Esto da a las bibliotecas la oportunidad de asumir un papel clave en el sostenimiento del ecosistema de Datos Vinculados.

4.4.2 Aplicar la experiencia bibliotecaria en el tratamiento de los conjuntos de datos y su preservación a largo plazo en Datos Vinculados

Gran parte del contenido actual en la nube de Datos Vinculados es el resultado de conversiones ad hoc y excepcionales a RDF de conjuntos de datos que ya estaban disponibles públicamente y que, además, no están sujetas a revisiones periódicas de su exactitud o no tienen actualizaciones de mantenimiento. Los principios del control de calidad y el compromiso de la preservación a largo plazo que animan a las bibliotecas les proporciona una relevancia para desempeñar un papel crucial en la importante tarea, descuidada hasta el momento, de tratar Datos Vinculados como una función más de sus tareas. Al tratar y mantener los recursos descritos en los conjuntos de datos como objetos realmente enlazables, las bibliotecas pueden cosechar los frutos de abrir sus datos para que otras comunidades les añadan valor. Los biógrafos o los genealogistas, por ejemplo, pueden enriquecer las descripciones de los recursos de las bibliotecas, añadiendo vínculos a otros datos que habitualmente las bibliotecas no proporcionan, lo que puede mejorar enormemente la localización de las colecciones bibliográficas y la navegación por ellas.

Referencias

[LINKEDDATA]
Linked Data, Tim Berners-Lee, World Wide Web Consortium, consultado el 18 de octubre de 2011. Véase: http://www.w3.org/DesignIssues/LinkedData.html.
[RDF]
Resource Description Framework (RDF), World Wide Web Consortium, consultado el 18 de octubre de 2011. Véase: http://www.w3.org/RDF/.
[URI]
RFC 3986 — Uniform Resource Identifier (URI): Generic Syntax, T. Berners-Lee, R. Fielding, L. Masinter, The Internet Society, January 2005, consultado el 18 de octubre de 2011. Véase: http://tools.ietf.org/html/rfc3986.
[USECASE]
Grupo Incubador de Datos Vinculados de Bibliotecas: Casos de uso, Daniel Vila Suero, Editor, W3C Incubator Group Report, 25 October 2011. Véase: http://www.w3.org/2005/Incubator/lld/XGR-lld-usecase-20111025/. Última versión disponible en: http://www.w3.org/2005/Incubator/lld/XGR-lld-usecase/.
[VOCABDATASET]
Grupo Incubador de Datos Vinculados de Bibliotecas: Conjuntos de datos, Vocabularios de valores y Conjuntos de elementos de metadatos, Antoine Isaac, William Waites, Jeff Young, and Marcia Zeng, Informe de Grupo Incubador del W3C de 25 de octubre de 2011. Véase http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset-20111025/. Última versión disponible en: http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/.

Agradecimientos

Además de los editores, en Datos Vinculados de Bibliotecas han participado las siguientes personas sin las cuales este informe no hubiera existido: Alexander Haffner, Alexandru Constantin, András Micsik, Andrew Houghton, Anette Seiler, Asaf Bartov, Bernard Vatant, Brian Kelly, Carlo Meghini, Dan Brickley, Daniel Vila Suero, Dickson Lukose, Felix Sasaki, Fumihiro Kato, Glen Newton, Guenther Neher, Herbert Van De Sompel, Hideaki Takeda, Ikki Ohmukai, Joachim Neubert, Jon Phipps, Jonathan Rees, Kai Eckert, Kendall Clark, Kevin Ford, Kim Viljanen, Kosuke Tanabe, Lars Svensson, Laszlo Kovacs, Marcel Ruhl, Mark van Assem, Martin Malmsten, Michael Hausenblas, Mike Bergman, Monica Duke, Nicolas Delaforge, Oreste Signore, Ray Denenberg, Renato Iannella, Stu Weibel, Tod Matola, Uldis Bojars, Wolfgang Halb.

Un agradecimiento especial a quienes revisaron este informe y nos ayudaron a darle forma: Adrian Pohl, Alan Danskin, Catherine Jones, Ed Chamberlain, J. McRee Elrod, James Weinheimer, Jennifer Bowen, Jody DeRidder, Juha Hakala, Laura Krier, Laura Smart, Lukas Koster, Nicolas Chauvat, Patrick Danowski, René van der Ark, Romain Wenz, Roy Tennant, Teague Allen.

Apéndice A: Inventario de recursos existentes de Datos Vinculados de bibliotecas

La variedad y complejidad de los vocabularios disponibles, su solapamiento, las relaciones que se derivan de ellos y los alineamientos producen incertidumbre a la hora de su reutilización y vinculación, lo que es crucial para la implantación de Datos Vinculados en las bibliotecas. Muchos profesionales, especialmente los de las bibliotecas, no están familiarizados con los conjuntos de datos vinculados y los vocabularios que podrían aplicar porque, con frecuencia, éstos se han desarrollado en el marco de la comunidad de investigadores de la Web Semántica. Una visión general, fiable y actualizada puede ayudar tanto a los principiantes como a los expertos del campo de Datos Vinculados de bibliotecas que necesiten localizar o actualizar rápidamente un proyecto relacionado con Datos Vinculados de bibliotecas.

Para ello, el Grupo Incubador ha elaborado un inventario de recursos útiles para crear o consumir Datos Vinculados en el ámbito de las bibliotecas [VOCABDATASET]. Este inventario se presenta en forma de documento separado y muestra que hay muchas áreas dónde la adopción temprana de los principios y de las tecnologías de la Web Semántica y de Datos Vinculados ha llevado al desarrollo de conjuntos de datos y vocabularios bien formados. El inventario señala también las áreas en las que las bibliotecas y otras organizaciones similares aún pueden hacer contribuciones clave. Por último, el documento quiere contribuir a que la comunidad de Datos Vinculados comprenda el punto de vista, los recursos y la terminología que se utiliza en la comunidad bibliotecaria, y de igual modo, ayudar a que los profesionales de la Biblioteconomía y Ciencias de la Información incorporen a su tradición las nociones de Datos Vinculados correspondientes.

Aunque la tecnología de Datos Vinculados difiere del concepto tradicional de datos en las bibliotecas, se han clasificado los recursos disponibles en tres categorías no excluyentes que son reflejo de la práctica bibliotecaria:

Determinados conjuntos de datos pueden reutilizar elementos de diferentes vocabularios de valores y se estructuran según las especificaciones de conjuntos de elementos de metadatos concretos. Por ejemplo, el conjunto de datos de la British National Bibliography [Bibliografía Nacional Británica] reutiliza términos del vocabulario Library of Congress Subject Headings [Encabezamientos de Materia de la Library of Congress] y de DCMI Metadata Terms (Dublin Core). En cada categoría la relación de instancias contiene una descripción breve, los enlaces a las direcciones en línea y a los casos de uso que el Grupo ha reunido.

Nuestra intención es que el inventario cubra ampliamente los recursos de datos disponibles. Sin embargo, somos muy conscientes de que este informe no puede recoger la diversidad actual de conjuntos de datos, sobre todo si se tiene en cuenta la naturaleza dinámica de Datos Vinculados, dónde se añaden continuamente nuevos recursos y se actualizan con regularidad los existentes. Para poder dar una visión representativa basamos nuestro trabajo, de forma intencionada, en los casos de uso que recibimos a lo que se sumó la aportación de los expertos que participaron en el Grupo Incubador para asegurar que los principales recursos disponibles en el momento de la redacción no se pasaran por alto.

Hemos incluido también un buen número de enlaces a distintas herramientas y sitios Web que proporcionarán información actualizada una vez que el Grupo Incubador ha completado su trabajo y que ayudarán a que nuestro informe siga siendo útil. También por este motivo hemos creado el Library Linked Data group [Grupo de Datos Vinculados de Bibliotecas], sitio dónde se recoge información sobre los conjuntos de datos vinculados de bibliotecas. Este sitio está auspiciado por The Data Hub [El Concentrador de Datos], repositorio diseñado para ser un concentrador de descripciones de paquetes de datos con especial hincapié en los que se publican como Datos Abiertos. Esperamos que la comunidad de Datos Vinculados de Bibliotecas mantenga activo este grupo de The Data Hub [El Concentrador de Datos] tras la finalización las tareas encomendadas al Grupo Incubador.

Apéndice B: Tecnologías pertinentes

Los Datos Vinculados son una tecnología emergente por lo que la mayoría de las herramientas están en desarrollo. Los principios de Datos Vinculados no están ligados a ninguna herramienta en particular, sino que están relacionados directamente con la normativa de la Web. En muchas situaciones, la producción y consumo de Datos Vinculados puede descansar o estar entretejida con aplicaciones existentes, sin que requiera un desarrollo importante. La presente lista de herramientas y tecnologías no es exhaustiva; su objetivo es ilustrar algunas categorías amplias. Desde una perspectiva no técnica, estas tecnologías son importantes porque animan a la creación y localización de vocabularios reutilizables y proporcionan los mecanismos para combinar esos términos en declaraciones (sintácticas) reutilizables.

B.1 Utilizar URIs para identificar cosas que no están efectivamente en la Web

En los primeros momentos de la Web no estaba claro si los "URIs HTTP" (también conocidos por URLs) podrían usarse para identificar cosas que no estaban "alojadas" en la Web. Esta preocupación fue el origen de la definición de nuevos esquemas URI para URNs o para URIs "info". Finalmente se disipó la incertidumbre por medio de un informe del W3C Uniform Resource Identifier Interest Group (RFC 3305) [Grupo de Interés del W3C para el Identificador Uniforme de Recursos] y una resolución del W3C Technical Advisory Group [Grupo Técnico Asesor del W3C] sobre este tema, conocido como "HTTPRange-14". En el paradigma de Datos Vinculados se espera que los URIs HTTP sirvan también para identificar "objetos de la vida real". No obstante, muchas aplicaciones se han construido sobre otros esquemas de identificación. La propiedad owl:sameAs es una buena manera de dirigir esos esquemas URI no-resolubles a los URIs HTTP equivalentes. Aunque no se hiciera este mapeo, los URIs no-resolubles pueden utilizarse, al menos, en RDF y en SPARQL.

B.2 Acceso en cantidades discretas y acceso masivo a la información

Los principios de Datos Vinculados se introdujeron aproximadamente en 2006 y condujeron a la noción formal de "Cool URIs" en 2008. La característica especial de los identificadores de Datos Vinculados es su capacidad para ayudar tanto a las personas como a las máquinas a que entiendan, mejoren y enlacen información a través de un amplio conjunto de casos de uso; el recurso de la DBpedia sobre Jane Austen es un buen ejemplo de ello. Los URIs resolubles son útiles ocasionalmente, para el diagnóstico de datos y para descubrir recursos de forma fortuita, pero las peticiones GET de HTTP son poco prácticas para conjuntos de datos con un gran número de elementos. Afortunadamente, cada vez se publican más conjuntos de datos vinculados como depósitos RDF y se describen de forma consistente con el Vocabulary of Interlinked Datasets (VoID) [Vocabulario de Conjuntos de Datos Intervinculados].

B.3 Front ends para el mapeo desde almacenes existentes de datos a Datos Vinculados y a RDF

Agrupación de Casos de Uso Alineamiento de vocabularios

A diferencia de los documentos XML en los que habitualmente se representa la información de una forma jerárquica, los recursos publicados en Datos Vinculados están libres de las jerarquías propias de un uso concreto y, por tanto, no anticipan una reutilización determinada. Esto permite que la información sea más fácil de mezclar, pero también que sea más fácil combinar herramientas y servicios. Y esto es así tanto para los productores como para los consumidores de Datos Vinculados. Por ejemplo, se puede publicar una base de datos relacional existente como Datos Vinculados, en SPARQL utilizando D2R Server. El W3C RDB2RDF Working Group trabaja actualmente en la normalización de estos mapeos. Del mismo modo, pueden producirse Datos Vinculados a partir de bases de datos SRU con unas cuantas reglas de reescritura. Si los recursos ya están descritos en un SPARQL Endpoint [Punto de acceso SPARQL], se puede utilizar un front end para Datos Vinculados como Pubby para automatizar para cada individuo el comportamiento del Cool URI de contenido negociable. También el Extensible Stylesheet Language Transformations (XSLT) [Lenguaje de transformación basado en hojas de estilo] es muy útil para convertir XML genérico a RDF/XML.

B.4 Herramientas para ingenieros de datos

Grupo de Casos de Uso: Alineamiento de vocabularios

Los perfiles de aplicación proporcionan una forma integral de documentar cómo una comunidad define un modelo de dominio y un patrón para reutilizar vocabularios junto con las restricciones para describir determinados tipos de recursos. La versión actual de OWL Web Ontology Language [Lenguaje de Ontologías Web] aporta las propiedades para representar alineamientos entre vocabularios (mapeos de ontologías), lo que permite que los expertos describan sus dominios con los términos característicos de su comunidad, al mismo tiempo que los hacen interoperables con otras terminologías relacionadas o más comunes. En las wikis del W3C de RDF y de OWL se encuentran diferentes herramientas para OWL que pueden ser útiles para que los ingenieros de datos representen y manipulen visualmente modelos de dominio. La especificación Ontology Definition Metamodel (ODM) [Metamodelo para la Definición de Ontologías] puede ayudar a salvar algunos de los huecos entre UML y OWL.

B.5 SKOS y herramientas relacionadas con SKOS

Grupo de Casos de Uso: Alineamiento de vocabularios

Otra tecnología crucial es Simple Knowledge Organization System (SKOS) que consiste en una ontología OWL para expresar un amplio abanico de esquemas conceptuales y tesauros y que admite relaciones de términos más generales y más específicos y etiquetas aceptadas y alternativas. Muchas de las herramientas SKOS están relacionadas en la wiki del W3C para la comunidad SKOS.

B.6 Microformatos, Microdatos, y RDFa

Grupo de Casos de Uso: Usos sociales y usos innovadores

Los Microformatos, los Microdatos y RDFa proporcionan distintos procedimientos para embeber datos estructurados en las páginas Web. Dado que históricamente la publicación de información en la Web ha hecho hincapié en la creación de páginas Web, estas tecnologías son un mecanismo para mejorar lo que ya existe en lugar de desplegar una infraestructura adicional. RDFa soporta la expresión de datos RDF embebidos directamente en las páginas Web y, por tanto, es de las tres tecnologías la que puede interoperar de forma más directa con la infraestructura de Datos Vinculados.

Los Microdatos, que se definen en la nueva especificación HTML5, que aún está en desarrollo, aportan una forma distinta para la misma función. Los Microdatos han adquirido una notable prominencia en los procesos de Optimización de Motores de Búsqueda (SEO, por sus siglas en inglés) con el anuncio de Schema.org hecho conjuntamente por Google, Microsoft y Yahoo. Este tipo concreto de microdatos no parece estar dirigido a la representación arbitraria de datos complejos; el vocabulario que se ha publicado se centra en el comercio y el turismo. Aunque, en principio, Microdata es un esquema extensible habría que ampliarlo mucho para pudiera expresar la información de las bibliotecas, pues carece de la mayor parte del vocabulario que sería necesario. Gracias a la labor de Schema.RDFS.org hay un cierto grado de interoperabilidad con Datos Vinculados, pero en la actualidad parece que con este enfoque será difícil alcanzar el alto grado de interconexión entre los conjuntos de datos de las bibliotecas y otros conjuntos de datos que puede obtenerse de Datos Vinculados.

Hay que mencionar que los defensores de Schema.org también apoyan la recolección de datos RDFa y se han comprometido a continuar en esta línea por lo que parece que con la publicación de páginas HTML marcadas conforme a RDFa no se perderá ninguna de las oportunidades que permiten los microdatos. Si excluimos los errores de los analizadores de los motores de búsqueda, sería también posible utilizar ambas tecnologías de metadatos en una misma página Web. En último término, la conclusión es que es mucho mejor que los datos tengan algun tipo de estructura a que no tengan ninguna.

B.7 Frameworks de Aplicaciones Web

Grupo de Casos de Uso: Archivos y datos heterogéneos

A medida que la Web ha ido creciendo en popularidad, la comunidad de desarrolladores de software ha creado diferentes librerías de software que facilitan la creación, mantenimiento y reutilización de aplicaciones Web. Estas librerías se denominan habitualmente Frameworks de aplicaciones Web y suelen implementar de alguna manera las pautas del Model-View-Controller (MVC) [Modelo Vista Controlador]. Además, en el ámbito de los frameworks de aplicaciones Web se han codificado y recomendado normas de buenas prácticas respecto a Representational State Transfer (REST) Architectural Style [Estilo de Arquitectura de Transferencia de Estado Representacional] y la Resource Oriented Architecture [Arquitectura Orientada a Recursos] que han conformado gran parte de la normalización llevada a cabo en las tecnologías Web.

Uno de los componentes comunes de los Frameworks de Aplicaciones Web es el mecanismo de enrutado de los URI, lo que permite a los desarrolladores de software definir modelos de URIs HTTP y dirigirlos a controladores que a su vez generan respuestas HTTP por medio de vistas y modelos apropiados. Esta labor favorece las buenas prácticas respecto a los Cool URIs y obliga a los desarrolladores a pensar en los recursos que están disponibles en la Web. Dado que los Datos Vinculados se centran en el nombrado de recursos con URIs HTTP y en la devolución de representaciones de esos recursos — en HTML para las personas y en RDF para las máquinas — encaja de forma natural en los Frameworks de Aplicaciones Web, los cuales ya proporcionaban parte del andamiaje para estas acciones. La amplia disponibilidad de Frameworks de Aplicaciones Web en diferentes lenguajes de programación y entornos de sistemas operativos ha extendido su uso en el sector del patrimonio cultural.

A los desarrolladores Web a veces rechazan las tecnologías de la Web Semántica (Datos Vinculados) porque se sienten obligados a desechar sus aplicaciones, a cambiar sus bases de datos relacionales por bases de datos de tripletas [triplestore] y sus lenguajes de búsqueda en bases de datos por SPARQL. Sencillamente esto no es así ya que pueden generarse serializaciones sobre la marcha justo como hacen los Framework de Aplicaciones Web con las representaciones HTML, XML o JSON. El uso de URIs HTTP para identificar y vincular recursos conforme al modelo de datos RDF se convierte en una elección natural para serializar y compartir el estado de las entidades de una forma independiente de la base de datos, uno de los objetivos tradicionales y de mayor interés para las instituciones de patrimonio cultural y para la preservación digital.

B.8 Sistemas de Gestión de Contenido

Grupo de Casos de Uso: Usos sociales y usos innovadores, Objetos digitales, Archivos y datos heterogéneos

Al igual que los Frameworks de Aplicaciones Web han evolucionado con la extensión de la Web, también lo han hecho otro tipo de aplicaciones Web conocidas como Content Management Systems (CMS) [Sistemas de Gestión de Contenido]. Los CMS se construyen a menudo con un Framework de aplicaciones Web, pero proporcionan funcionalidades listas para usar en la creación, edición y presentación de contenidos, tales como textos, imágenes o vídeo en la Web, así como para gestionar flujos de trabajo asociados al contenido. Y como los CMS se construyen con Frameworks Web siguen las mismas buenas prácticas para el nombrado de recursos con URIs HTTP. La amplia disponibilidad de los Sistemas de Gestión de Contenidos ha conducido a que su uso esté muy extendido en el sector del patrimonio cultural. Algunos sistemas de gestión de contenidos como Drupal han empezado a exponer información estructurada en bases de datos a las máquinas cliente transformándola en HTML por medio de RDFa. Los consumidores de datos como Google Scholar, Google Maps o Facebook han potenciado el uso de estos metadatos estructurados en sus propias ofertas de servicios. Por el contrario, Drupal también ha comenzado a proporcionar plug-ins para consumir RDF como VARQL o SPARQL Views.

B.9 Servicios Web para Datos Vinculados de bibliotecas

Grupo de Casos de Uso: Datos bibliográficos, Datos de autoridades

En teoría, la mayor parte de las capacidades de las APIs de los Servicios Web propios de un dominio pueden recomponerse como URIs de Datos Vinculados, OWL, SPARQL y SPARQL/Update. Pero incluso aunque sea posible añadir una capa front end de URI de Datos Vinculados sobre un back end de almacén de datos, no es tan fácil que el back end soporte un acceso SPARQL o SPARQL/Update. Otras consideraciones como la seguridad, robustez y el rendimiento pueden descartar el uso de SPARQL en condiciones de producción. Los SPARQL endpoints y la descarga masiva de RDF pueden facilitar mucho la localización y reutilización de Datos Vinculados publicados. La mayoría de los desarrolladores Web deben afrontar un fuerte aprendizaje para ser capaces de explotar estas posibilidades, lo que es una carga demasiado pesada para los requisitos de muchas aplicaciones.

Como alternativa, se deberían ofrecer Servicios Web para los usos más comunes. Sin embargo, la mayoría de las APIs de los Servicios Web tienden a ser propias de un dominio y requieren agentes de consulta personalizados para ellas. Esto significa que deben estar bien documentadas. Otros enfoques más generales a las interfaces de Servicios Web son OpenSearch (que se puede documentar mediante el Documento de Descripción), la API de Datos Vinculados y el trabajo que desarrolla el W3C RDF Web Applications Working Group [Grupo de Trabajo del W3C sobre Aplicaciones Web RDF] sobre RDF y APIs RDFa. Algunos Conjuntos de Datos Vinculados podrían beneficiarse también del acceso sindicado utilizando el Atom Syndication Format o RSS.

Algunas implementaciones de Datos Vinculados han tratado de desarrollar Servicios Web para mejorar la localización y reutilización de recursos, a menudo por medio de algún tipo de API. Así, AGROVOC y el STW Thesurus for Economics [Tesauro STW de Economía] proporcionan APIs para la recuperación de recursos basándose en las relaciones de los datos. VIAF, el servicio de la Library of Congress ID.LOC.GOV, y STW autosugieren servicios para los recursos devolviendo respuestas JSON listas para ser utilizadas por aplicaciones AJAX de los navegadores. (Sin embargo, en teoría, se podría realizar negociación de contenido para obtener respuestas JSON usando las URIs de Datos Vinculados, como en los casos de HTML y RDF.) AGROVOC y STITCH/CATCH incluyen además soporte para respuestas RDF. Algunos servicios proporcionan APIs totalmente SOAP, mientras que otros soportan el enfoque RESTful.

Al centrarse en los parámetros de peticiones y en los formatos de respuesta para proporcionar una mejor recuperación de la información, los Servicios Web de Datos Vinculados disminuyen, si no ya eliminan, el requisito de que los datos estén almacenados en una base de datos de tripletas o de que sean buscables vía SPARQL. Y dado que las APIs de los Servicios Web son de uso común, éstos pueden reducir las barreras a la adopción del enfoque de Datos Vinculados.

Apéndice C: Alineamiento semántico

Los "Alineamientos" son enlaces entre entidades semánticamente equivalentes, similares o relacionadas, de diferentes vocabularios de valores, conjuntos de elementos de metadatos o conjuntos de datos. Ya hay disponibles muchos enlaces entre vocabularios de valores, algunos de los cuales han sido el resultado de un proceso manual de mucha calidad como se hizo en los proyectos MACS y CRISSCROSS. Muchos editores de vocabularios de valores luchan por establecer y mantener enlaces semánticos a recursos cercanos a los suyos. VIAF, por ejemplo, fusiona registros de autoridad procedentes de una docena de agencias nacionales y regionales. AGROVOC ha sido publicado con vínculos a otros seis grandes tesauros y listas de encabezamientos de materia. Aunque la evaluación cuantitativa está fuera del ámbito de nuestro trabajo notamos que se deberían crear más vínculos de este estilo. Queda mucho trabajo por hacer para aumentar los alineamientos entre vocabularios de valores en la "nube de los datos de bibliotecas".

Los alineamientos son igualmente importantes para los conjuntos de elementos de metadatos. Como se ha puesto de manifiesto en el inventario Linked Open Vocabularies [Vocabularios de los Datos Abiertos Vinculados] los profesionales siguen generalmente la buena práctica de reutilizar conjuntos de elementos existentes o los construyen con perfiles de aplicación que reutilizan elementos de múltiples conjuntos. Proyectos como Vocabulary Mapping Framework [Marco de Mapeo de Vocabularios] tienen como objetivo apoyar este alineamiento.

La falta de apoyo institucional a los conjuntos de elementos puede amenazar la persistencia a largo plazo de los significados compartidos. Es más, algunos marcos de referencia, y de forma notoria los Requisitos Funcionales de los Registros Bibliográficos (FRBR), se han expresado según diferentes ontologías y estas diferentes expresiones no están siempre explícitamente alineadas — situación que limita la interoperabilidad semántica de los conjuntos de datos para los que se han utilizado vocabularios RDF. La comunidad de Datos Vinculados de Bibliotecas debe promover la reutilización coordinada o la extensión de los conjuntos de elementos por encima de la creación de nuevos conjuntos desde cero. Se debe favorecer, cuando haya solapamiento, el alineamiento de los conjuntos de elementos que ya existen utilizando las relaciones semánticas de RDF Vocabulary Description Language (RDF Schema) [Lenguaje para la Descripción de Vocabularios] y de OWL Web Ontology Language [Lenguaje de Ontologías Web]. Esperamos que una mayor comunicación entre los que crean y mantienen estos recursos, como recomienda la iniciativa LOD-LAM, el proyecto Dublin Core Metadata Initiative [Iniciativa de Metadatos Dublin Core] y FOAF y nosotros mismos como Grupo Incubador, lleve a unas conexiones conceptuales más explícitas entre los conjuntos de elementos.

Los conjuntos de datos también pueden alinearse. Por ejemplo, la Open Library [La Biblioteca Abierta] añade los números de la OCLC a sus registros bibliográficos. Puede aducirse que la reutilización de las descripciones de libros individuales o de algunos otros recursos relacionados con las bibliotecas no es un tema tan crucial como los conjuntos de elementos de metadatos y los vocabularios de valores; los catálogos colectivos, por ejemplo, ya efectúan una fusión de datos significativa al nivel de los datos de los libros. Aún así es crucial — y en efecto, uno de los resultados esperados de la aplicación de Datos Vinculados a nuestro dominio — que los conjuntos de datos de las bibliotecas se publiquen y se interconecten, en lugar de permanecer aislados en sus propios silos. Por su experiencia, la comunidad bibliotecaria es muy consciente de los retos que suponen cuestiones como la "eliminación de duplicados."

También hemos apreciado que se están creando vínculos entre los recursos bibliotecarios y recursos originados en otras organizaciones o dominios. Por ejemplo, VIAF agrega registros de autoridad de diferentes agencias bibliográficas, identifica las entidades básicas y, cuando es posible, las vincula con la DBpedia, una extracción de Datos Vinculados de la Wikipedia. El alineamiento semántico para Jane Austen en VIAF, la Wikipedia, y la DBpedia ilustra uno de los resultados esperados de Datos Vinculados como es que los datos puedan formar fácilmente redes independientemente de su origen. De esta forma el ámbito bibliotecario se beneficiará de reutilizar datos procedentes de otros campos, al mismo tiempo que los datos de las bibliotecas pueden contribuir a iniciativas que no tienen su origen en la comunidad bibliotecaria.

La creación de alineamientos se beneficiará de la disponibilidad de mejores herramientas para la vinculación. Se han hecho muchos esfuerzos en algunas áreas de investigación de las ciencias de la computación como Ontology Matching [Correspondencia de ontologías]. Esto ha permitido implementaciones basadas, por ejemplo, en técnicas estadísticas y de correspondencia de cadenas de caracteres. Las investigaciones se han centrado en los conjuntos de elementos de metadatos y no están preparadas para aplicarse de una forma más general a conjuntos de datos, a veces enormes, o a vocabularios de valores del ámbito de las bibliotecas. Algunas de las más recientes y generales herramientas para datos vinculados son Silk - Link Discovery Framework, Google Refine, y Google Refine Reconciliation Service API. . No obstante, la comunidad tiene todavía que adquirir experiencia en su uso para compartir los resultados y para construir herramientas más ajustadas a Datos Vinculados de bibliotecas.

Una salvedad final: los consumidores de datos deberían tener presente, en contraste con los tradicionales sistemas TI cerrados, que los Datos Vinculados se basan en la suposición de un mundo abierto: hay que asumir que los datos no estarán completos nunca y que, en principio, cada vez habrá más datos disponibles sobre cualquier entidad dada. Esperamos que en las bibliotecas se vinculen cada vez más datos como ocurre en los proyectos mencionados aquí.