Bibliotecas Digitales: criterios y planteamientos preliminares

Diego Antona, 1999 [ dantona@servidor.unam.mx ] 


Abstract *

Introducción *

Tecnologías *

SGML *

Estructura para la elaboración de documentos *

Procesos *

Trabajo en paralelo *

Esquema de desarrollo. Primera Fase *

Software *

SGML *

Creación *

Indexación *

Catalogación *

Bibliografía *

ESTÁNDARES DE INFORMACIÓN RELACIONADOS CON LENGUAJES DE MARCAS *

ESTÁNDARES/RECOMENDACIONES DE DESARROLLO EN LA WEB *

SGML * 


Abstract

El papel de una Biblioteca Digital no es cambiar de formato materiales: físicos a digitales. Los cometidos fundamentales de las bibliotecas -digitales o no- son el compendio de información y una cómoda disposición de ésta para el usuario. Las BDs acometen algunas tareas que las Tecnologías de la Información han arrebatado al antiguo oficio de impresor. No sólo no cuentan con materiales cómodos de manipular, como los libros, sino que deben crear o adaptar desde lo existente hacia un etéreo formato digital que permita llevar a cabo su segunda función: la disposición. Creación, entonces, más que simple compendio, que no puede sustraerse a la disposición: indexación y catalogación de unos fondos. Al contrario que en las bibliotecas tradicionales, todavía no existe una máxima preocupación por los estándares; o se llega a confundir BD con la adquisición de bases de datos comerciales y su disposición en línea a través de herramientas comerciales también. En este documento se plantean las directrices de creación y disposición de materiales para una BD.

Introducción

No cabe en este documento la necesidad de plantearse el cuerpo de textos que conformarán una BD, ni los fines perseguidos. Por ello no nos ocupamos aquí de los criterios de selección documental. Véase un ejemplo de dichos criterios, para el proyecto Gallica de la Biblioteca Nacional de Francia, en http://gallica.bnf.fr/presente/gallicafoyer.htm .

Tecnologías

El manejo digital de materiales, es decir, el equivalente al armario y el fichero, no deja de plantear dificultades. Precisamente el éxito de la computadora, que radica en su versatilidad, tiene que adaptarse al problema. En resumen, se han planteado dos sistemas, que no dejan de estar imbricados el uno con el otro: las bases de datos (no entramos en la polémica de las relacionales vs. orientadas a objetos, o las mixtas de última generación) y los estándares para la documentación electrónica. Viejo problema del ajedrez: al igual que la táctica no puede estar sin estrategia, ninguna de las dos aproximaciones "puras" tiene la razón. El documento digital debe estar realizado bajo un formato que permita realizar sobre él las búsquedas, clasificación, y en definitiva, poder ofrecer todo tipo de formatos al usuario, independientemente de la plataforma, para que pueda ser operativo en un sistema de bases de datos en linea. De otra forma, estaríamos creando "documentos", no información. No es el papel de las BD ser impresores –aunque las nuevas tecnologías empleadas deberían aprovecharse para cambiar el trabajo de estos-, sino precisamente Bibliotecas.

Se hace necesario un Documento de Especificación de Requerimientos.

SGML

El SGML [1] , sigla de Standard Generalized Mark-up Language, no es un lenguaje de programación, es un estándar orientado al tratamiento estructurado de texto; permite mantener el sentido de dicha estructura sobre otros elementos (gráficos, sonidos, vídeos) que pueden acompañar a textos multimediales, y es la llave de una tecnología que:

  1. Permite realizar un trabajo semejante al llevado a cabo por las bases de datos, pues crea nuevas formas de acercarse a los contenidos y de navegar entre ellos.
  2. Crea documentos, cartas, descripciones, informes; y gestiona su publicación electrónica física (editorial, CD-ROM), o en la red Internet. Además, elimina el formato redundante de la información, que ocurre cuando trabajos impresos son publicados en línea o en CD-ROM.
  3. Reduce el costo de publicación de "textos sobre demanda" (reducida y personalizada) e igualmente sobre la publicación de CD-ROMs multimedia dirigidos a una audiencia masiva. Un texto marcado con SGML está listo para ser reutilizado, dispuesto a cambiar de medio comunicativo (libro, CD-ROM, página web), y a ser incrementado y/o modificado, de forma automática.
  4. Permite la publicación inmediata de trabajos de colaboración de diferentes científicos o investigadores, directamente sobre Internet.
  5. Separa el trabajo de escribir y crear la información, del trabajo de diseño y apariencia de la misma, aportando eficiencia a ambos lados del proceso.
  6. Consigue que los manuales electrónicos interactivos, o los módulos de contenido de CD-ROMs multimedia, proporcionen toda la información necesaria, y sólo la necesaria, para complejos y continuos procesos de mantenimiento y puesta al día de la información. Con la tecnología SGML, el contenido de un CD-ROM, o el de un sitio WWW está llamado a ser un inherentemente actualizable.
  7. Está abierto para explotar todas las potencialidades de la WWW. La existencia real de navegadores orientados a documentos SGML, es una de dichas potencialidades. XML, un primo del SGML, va a suplantar al HTML. La pregunta no es cuándo, sino de qué manera están preparados los desarrolladores para afrontar el cambio.

No sólo es la opción mejor: es la que han elegido los proyectos líderes en tecnologías de la información [2] , las agencias gubernamentales (sobre todo en EE. UU. y Canadá), e instituciones académicas (también para realizar sus BDs [3] ). Véase sólo un ejemplo de las mismas en http://www.oasis-open.org/cover/acadapps.html

Estructura para la elaboración de documentos

Procesos

Entrando en harina.

Suele confundirse diseño gráfico con Multimedia; afortunadamente esto es menos cierto en Internet. Todo Webmaster sabe que, sin contenido, no importa el diseño. Así, comprendemos como la labor más importante de una BD el Diseño de la Información. Las tecnologías empleadas nos permiten dejar aparte el diseño gráfico, incluso hasta el final, permitiendo a la vez una mejor integración de los recursos y un mejor mantenimiento del mismo diseño gráfico.

Deberíamos tener presente unas preguntas, y no comenzar un proyecto Multimedia-Internet [4]  hasta tener respuestas del usuario, con todo detalle, acerca de:

Podemos adelantar las consecuencias técnicas. Empezamos por el final: lleva a plantearnos el trabajo de Jerarquías y el de Categorías. Las soluciones que apuntamos pasan por los metadatos y la elección de marcas de contenido del DTD. [Dejamos para otro documento las dificultades de la implantacion de nuevas IT (Tecnologias de la Información) en el seno de un equipo pre-existente].

La solución a las búsquedas, en cuanto indexación, parece cumplirla con creces la herramienta ht://Dig. Y más que eso. En conjunción con el marcado SGML, hace innecesario el uso de otras bases de datos [5] . Si se configura y utiliza bien, puede ahorrar el trabajo de diseñar una base de datos extra y servirla en internet; pues necesariamente tendría que correr en paralelo a creación documental y/o multimedia para cumplir idénticas labores [6] . Apunto como arduo trabajo referenciar los distintos items multimedia que pueda contener la Biblioteca Digital, y su actualización, si se opta por el desarrollo: Base de datos+SGML+indexación ht://Dig. Algo estaría de más. Con todo, puede optarse por disponer de una base de datos ocupada exclusivamente de los elementos multimedia, su descripción y clasificación; pero, esto también podría resolverse con un DTD [7] .

El árbol del conocimiento por el que suponemos desea navegar el usuario, es una decisión que también pertenece a las labores de análisis. Se logra a través del diseño de una estructura lógica de directorios y uso de las potencialidades de las marcas de SGML, sin descontar las virtudes del mismo ht://Dig.

Trabajo en paralelo

SGML permite realizar las actividades necesarias para la realización del proyecto sin necesidad de tener "milestones". Es decir, puntos que es necesario terminar antes de dedicarse a otros.

Debe existir un equipo que trabaje sobre las Jerarquías, Categorías, Metadatos y Elección de marcas SGML pertinentes: esta es una labor de análisis de sentido / contenido. Mientras, los documentos pueden estar siendo marcados a través de un DTD muy simple que refleje estructura: títulos, capítulos y secciones. Es muy fácil retomar en cualquier momento los documentos, que pueden estar ya siendo servidos -mejor que como una simple página de internet-, para añadir las marcas necesarias de sentido. Basta añadir elementos al DTD, marcar en los documentos aquellos términos que se juzguen necesarios (p. ej.: nombres de lugar, nombres propios, recursos multimedia asociados, etc.: esta es una de las estrategias de Encarta.): las preguntas del usuario se transforman y obtinenen respuesta: Qué y Cómo quiere encontrar.

El equipo de diseño gráfico tendrá claro qué tiene que hacer con la interfaz, qué botones se necesitan, etc. y para qué [8] .

Esquema de desarrollo. Primera Fase

Se supone que existe una lista con los materiales necesarios, y más que nada, con la relación entre sí de los materiales, para poder diseñar -si se opta por ello- la base de datos multimedia.

Creación de elementos multimedia

Debe decidirse el tipo de formato a emplear: de entrada, para audio/video, el formato MP3 en internet es lo más adecuado. En cuanto a los formatos gráficos, no cabe duda sobre la opción: GIF y JPEG [9] (SGML en internet permite un abanico mayor de formatos, añádase TIFF, BMP, etc.). Con todo, es un tema que no puede quedar desligado de la misma interfaz, del equipo de creación de medios, del de diseño gráfico, y de la toma de decisiones sobre el software a emplear. Contando que, dado el caso, han de ser ítems de una base de datos.

Estructura sugerida para la elaboración de documentos [10]

Separada la parte correspondiente al diseño de la información del diseño gráfico, este es el plan previsto:

  1. Captura de materiales enfocada a SGML: a través de OCR con escáner, o de documentos ya electrónicos (HTML, Bases de Datos). La idea es que la creación de nuevos documentos electrónicos por los mismos especialistas [11]  o por el equipo que capture los mismos, pueda hacerse directamente con un editor de SGML (haga click aquí para poder bajar los archivos comprimidos de Technical Wiriting). Si esto no es así, se podrán emplear macros que transformen documentos estructurados (del tipo Documento maestro, en Microsoft Word, por ejemplo) a SGML . Así podrían re-constituirse los materiales existentes (HTML, RTF, etc.), y en el futuro aplicar la filosofía de desarrollo apuntada. Esto implica utilizar un DTD sencillo, orientado a soportar la estructura (secciones o capítulos, referencias internas y externas, etc.). El DTD DocBook parece demasiado complejo, de entrada, para ello. Los DTDs Report o Manual [12] , son muy fáciles de comprender y aplicar. Contamos con el editor, y herramientas de conversión. Se impone la creación de manuales de estilo (si se trabaja con Word, para que se automaticen las macros necesarias; si se trabaja con el documento SGML, para saber qué y no qué, marcar y cómo) y capacitación de los responsables. El equipo de programadores deberá desarrollar macros para la conversión entre formatos existentes hacia el mínimo marcado de estructura SGML. Con un mínimo apoyo de diseño gráfico (botones de navegación, sobre todo, etc.; ya está listo el sitio para poder ser servido en internet. Véase ejemplo http://sgml.dgsca2.unam.mx/abcd/a/index.htm
  2. Análisis del sentido / contenido: estudio y elección de Jerarquías, Categorías, Metadatos y Elección de marcas SGML pertinentes. Como decimos, estas marcas (nuevos elementos y atributos) son fáciles de incrustar en los documentos previamente marcados sólo con estructura. Un equipo de programación debe seguir atentamente los sistemas de marcas propuestos para poder ir desarrollando CGIs y aplicaciones en el servidor que puedan sacar partido de ello -véase punto (4)-
  3. Publicación preliminar: desde el punto (1), es ya posible publicar los documentos. HTML, SGML, PDF, RTF, XML..., realizar el indexado, y permitir las búsquedas. El diseño gráfico HTML, sobre todo el tipográfico, se basará en CSS [12b]; al estar separado de los contenidos, puede ser fácilmente actualizado en otra fase, o cambiado a conveniencia.
  4. Publicación avanzada [13] : el DTD se actualiza con la producción del punto (2). Se siguen usando las herramientas de indexado, etc., pero se perfecciona la localización de la información. Tablas e índices más complejos y específicos son posibles, así como las búsquedas, ordenamiento y generación de nuevos documentos (incluso bases de datos [14] ). El equipo de programadores ha venido realizando, o implementando las existentes, aplicaciones que gestionen eficazmente la documentación SGML de la BD.

Documento ejemplo

Correspondería a la fase (1) del apartado anterior.

NOTA: Está previsto realizarlo con algún material ya digitalizado ex profeso para la BD.

Disponible en las versiónes:

Indexación a través de ht://Dig http://sgml.dgsca2.unam.mx/search.html

Software

SGML

Afortunadamente el desarrollo de herramientas GNU para Linux es extraordinario. Consúltese la página de Robin Cover en OASIS (Organization for the Advancement of Structured Information Standards)

http://www.oasis-open.org/cover/publicSW.html

A pesar de ser un estándar no propietario, y dado que ninguna empresa de software podía obtener ningún pago de licencias sobre los documentos obtenidos (de hecho pueden construirse con cualquier editor de texto, lo que no significa que sea fácil de esa manera el marcado), la política comercial ha ido por un derrotero muy lógico:

  1. Software de edición y visualización (del tipo Author/Editor, o browsers de SGML como Panorama Free -versión gratuita y limitada de Panorama Pro- de SoftQuad). No han faltado las versiones SGML de WordPerfect o Microsoft Word.
  2. Software de servidor de documentos SGML. La combinación comercial de INSO: DynaText y DynaWeb.

La irrupción de XML –subset de SGML- en el desarrollo de la web, ha ocasionado que ya los navegadores de Interenet de Microsoft y Netscape no vayan a necesitar de plug-in. De hecho SoftQuad ya vendió sus productos comerciales de edición SGML.

Del proyecto Medieval Miniaturæ Compendium, primer servidor de documentos SGML/XML en español, hemos adquirido una gran experiencia en la selección y uso de la mayoría de los programas editores y visualizadores de SGML, y otras herramientas [15] , sobre todo difíciles de encontrar para Windows. De hecho, se adaptan herramientas de dominio público para una herramienta de autor SGML compatible, y con Fujitsu se trabaja en un visor de SGML/XML en español. Lo sentimos, no se caracteriza nuestra lengua por estar extendida en el mundo de aplicaciones/resultados con SGML.

En la descripción de los procesos se menciona el software conocido más adecuado. Se hará constar si ha sido probado ya con éxito en el MMC.

Creación

Véase la sección PROCESOS para tener una idea más adecuada de su uso. Technical Writing soporta tres DTDs: ha sido modificado para poder 'entender' cualquiera (es decir puede ser incluso un editor de HTML) y será el editor de SGML empleado para plataforma Windows. Incluye un conversor a RTF y HTML, que también, desde la edición de código, hemos adaptado al español.

Otras herramientas como XML Notepad, Panorama Pro (gestión de estilos y navegadores del plug-in SGML), editores de CSS para HTML, etc., están en el apartado de software empleado por el proyecto CMM (véase, cuando sea posible, http://mmc.unam.mx )

Indexación

Existen preciosos programas, hoy ya reliquias, como SARA, creado para el British National Corpus, que servían para distribuir documentos SGML, con el comportamiento de una base de datos. La solución comercial ya ha sido apuntada: Dynaweb, de INSO. Más recientemente, con el auge que nunca tuvo su papá, el XML entrá en la misma filosofía: ColdFushion trabaja con objetos XML de esa manera.

Debemos referirnos a la posibilidad interna de indexación que de por sí ya tiene todo documento SGML que utilice un DTD con posibilidades de marcado de atributo y de marcas. Xlink/Xpointer está implementado igualmente para XML, lo que permite realizar ligas a múltiples puntos/áreas y viceversa; elemento no soportado por HTML.

La ventaja de trabajo con SGML radica en no tener que pensar en la gasolina antes de obtener el petróleo. El paso más simple, para poder disponer cuanto antes de materiales en la BD, es realizar la conversión de documentos SGML (véase PROCESO) a HTML y realizar búsquedas muy potentes en ellos, con las ventajas añadidas de las marcas SGML conservadas en la conversión. Al mismo tiempo se podría disponer de la versión en línea XML, RTF, PDF (o Postcript), y por supuesto de la SGML con plug-in o conversiones on-the-fly a HTML, a través de CGI o JavaServer.

A través de la herramienta GNU, ht://Dig http://www.htdig.org de la Universidad de San Diego, recién testada por primera vez en un sistema Caldera OpenLinux 1.3 [16] , es posible realizarlo. En este momento nos ocupan detalles propios del castellano, más que del funcionamiento de la CGI.

Catalogación

En parte contemplado por el punto anterior, aquí debemos referirnos a la estructura de árbol de conocimiento sugerida por la UNESCO, y que muy bien puede ser soportada con el juego de marcas reservado por la herramienta ht://Dig, o de otras presentes en los documentos SGML.

Bibliografía

ESTÁNDARES DE INFORMACIÓN RELACIONADOS CON LENGUAJES DE MARCAS

http://www.oasis-open.org

ESTÁNDARES/RECOMENDACIONES DE DESARROLLO EN LA WEB

http://www.w3c.org

SGML

En castellano, véase alguna aportación en congresos:

http://www.gca.org/conf/europe97/suneur.htm
Como era de esperar, ya no está disponible

La mejor fuente es Intemet. Se hace referencia a las más importantes, se presentan documentos SGML en español y herramientas en funcionamiento en el módulo del proyecto MMC:

http://mmc.unam.mx/hlpctr

SOFTWARE SGML (GRATUITO)

http://www.oasis-open.org/cover/publicSW.html

BIBLIOGRAFÍA SGML EXHAUSTIVA

SGML/XML Web Page http://www.oasis-open.org/cover/biblio.html

INTRODUCCIONES A SGML

Más de una docena de introducciones a SGML están disponibles en Intemet. Las tres siguientes han sido particularmente influyentes en el progreso del estándar ISO 8879:1986 y en sus implicaciones:

• Coombs, James H.; Rencar, Allen H.; DeRose, Steven J. "Markup Systems and the Future of Scholarly Text Processing." Communications of the Association for Computing Machinery 30/11 (1987) 933-947. Un artículo pionero (versión intemet http://www.oasis-open.org/cover/coombs.html )

• "A Gentle Introduction to SGML." Pages 13-36 (Chapter 2) in Guidelines for Electronic Text Encoding and Interchange (TEI P3). Editado by C.M. SperbergMcQueen y Lou Bumard. Chicago: ACH/ACL/ALLC [Association for Computers and the Humanities, Association for Computational Linguistics, Association for Literary and Linguistic Computing], Abril 8, 1994. El capítulo 2 es una excelente introducción a SGML ( http://sable.ox.ac.uk/ota/teip3sg/ ).

• SoftQuad, Inc. Tbe SGML Primer. SoftQuads Quick Reference Guide to the Essentials of the Standard: The SGML Needed for Reading a DTD and Marked-up Documents and Discussing tbem Reasonably. Version 3.0. Toronto: SoftQuad Inc., Diciembre, 1991. 36 páginas. http://www.softquad.com.

(El documento ya no está disponible en SoftQuad, pero no es difícil encontrar una copia mirror)

MANUALES Y GUÍAS (clásicos y fundamentales)

COMPENDIOS BIBLIOGRÁFICOS

• Cover, Robin; Duncan, Nicholas; Bamard, David. "The Progress of SGML (Standard Generahzed Markup Language): Extracts from a Comprehensive Bibiography." Literary and Linguistic Computing 6/3 (1991) 200-212. Incluye secciones de ensayos introductorios con los conceptos fundamentales, subrayando los beneficios que el SGML supone para los sectores académicos, la industria y las agencias gubernamentales.

• Cover, Robin; Duncan, Nicholas; Bamard, David. Bibliograpby on SGML (Standard Generalized Markup Language) and Related Issues. Technical Report 91-299. Queen's University, Kingston, Ontario. Febrero, 1991. Versión impresa de una base de datos, precisamente realizada con SGML.

• Cover, Robin. "SGML: Annotated Bibliography and List of Resources." < TAG 5/3 (Marzo 1992) 4, [1-121; 5/4 (Abril 1992) 4, [13-24]; 5/5 (Mayo 1992) 4, [25-36 1. Bibliografía y recursos organizados en diez categorías, incluyendo software SGML disponible en Internet.

• Cover, Robin. "SGML/TEI Bibliography." Páginas 233-242 en The Text Encoding Initiative: Background and Context. Dordrecht/Boston/London: Kluwer Academic Publishers, 1995. En especial para publicaciones académicas. Extraído del número especial de Computers and the Humanities (CHUM volumen 29, números 1-3, 1995).