Diego Antona, 1999 [ dantona@servidor.unam.mx ]
Abstract *
Introducción *
Tecnologías *
SGML *
Estructura para la elaboración de documentos *
Procesos *
Trabajo en paralelo *
Esquema de desarrollo. Primera Fase *
Software *
SGML *
Creación *
Indexación *
Catalogación *
Bibliografía *
ESTÁNDARES DE INFORMACIÓN RELACIONADOS CON LENGUAJES DE MARCAS *
ESTÁNDARES/RECOMENDACIONES DE DESARROLLO EN LA WEB *
SGML *
El papel de una Biblioteca Digital no es cambiar de formato materiales: físicos a digitales. Los cometidos fundamentales de las bibliotecas -digitales o no- son el compendio de información y una cómoda disposición de ésta para el usuario. Las BDs acometen algunas tareas que las Tecnologías de la Información han arrebatado al antiguo oficio de impresor. No sólo no cuentan con materiales cómodos de manipular, como los libros, sino que deben crear o adaptar desde lo existente hacia un etéreo formato digital que permita llevar a cabo su segunda función: la disposición. Creación, entonces, más que simple compendio, que no puede sustraerse a la disposición: indexación y catalogación de unos fondos. Al contrario que en las bibliotecas tradicionales, todavía no existe una máxima preocupación por los estándares; o se llega a confundir BD con la adquisición de bases de datos comerciales y su disposición en línea a través de herramientas comerciales también. En este documento se plantean las directrices de creación y disposición de materiales para una BD.
No cabe en este documento la necesidad de plantearse el cuerpo de textos que conformarán una BD, ni los fines perseguidos. Por ello no nos ocupamos aquí de los criterios de selección documental. Véase un ejemplo de dichos criterios, para el proyecto Gallica de la Biblioteca Nacional de Francia, en http://gallica.bnf.fr/presente/gallicafoyer.htm .
El manejo digital de materiales, es decir, el equivalente al armario y el fichero, no deja de plantear dificultades. Precisamente el éxito de la computadora, que radica en su versatilidad, tiene que adaptarse al problema. En resumen, se han planteado dos sistemas, que no dejan de estar imbricados el uno con el otro: las bases de datos (no entramos en la polémica de las relacionales vs. orientadas a objetos, o las mixtas de última generación) y los estándares para la documentación electrónica. Viejo problema del ajedrez: al igual que la táctica no puede estar sin estrategia, ninguna de las dos aproximaciones "puras" tiene la razón. El documento digital debe estar realizado bajo un formato que permita realizar sobre él las búsquedas, clasificación, y en definitiva, poder ofrecer todo tipo de formatos al usuario, independientemente de la plataforma, para que pueda ser operativo en un sistema de bases de datos en linea. De otra forma, estaríamos creando "documentos", no información. No es el papel de las BD ser impresores –aunque las nuevas tecnologías empleadas deberían aprovecharse para cambiar el trabajo de estos-, sino precisamente Bibliotecas.
Se hace necesario un Documento de Especificación de Requerimientos.
El SGML [1] , sigla de Standard Generalized Mark-up Language, no es un lenguaje de programación, es un estándar orientado al tratamiento estructurado de texto; permite mantener el sentido de dicha estructura sobre otros elementos (gráficos, sonidos, vídeos) que pueden acompañar a textos multimediales, y es la llave de una tecnología que:
No sólo es la opción mejor: es la que han elegido los proyectos líderes en tecnologías de la información [2] , las agencias gubernamentales (sobre todo en EE. UU. y Canadá), e instituciones académicas (también para realizar sus BDs [3] ). Véase sólo un ejemplo de las mismas en http://www.oasis-open.org/cover/acadapps.html
Entrando en harina.
Suele confundirse diseño gráfico con Multimedia; afortunadamente esto es menos cierto en Internet. Todo Webmaster sabe que, sin contenido, no importa el diseño. Así, comprendemos como la labor más importante de una BD el Diseño de la Información. Las tecnologías empleadas nos permiten dejar aparte el diseño gráfico, incluso hasta el final, permitiendo a la vez una mejor integración de los recursos y un mejor mantenimiento del mismo diseño gráfico.
Deberíamos tener presente unas preguntas, y no comenzar un proyecto Multimedia-Internet [4] hasta tener respuestas del usuario, con todo detalle, acerca de:
Podemos adelantar las consecuencias técnicas. Empezamos por el final: lleva a plantearnos el trabajo de Jerarquías y el de Categorías. Las soluciones que apuntamos pasan por los metadatos y la elección de marcas de contenido del DTD. [Dejamos para otro documento las dificultades de la implantacion de nuevas IT (Tecnologias de la Información) en el seno de un equipo pre-existente].
La solución a las búsquedas, en cuanto indexación, parece cumplirla con creces la herramienta ht://Dig. Y más que eso. En conjunción con el marcado SGML, hace innecesario el uso de otras bases de datos [5] . Si se configura y utiliza bien, puede ahorrar el trabajo de diseñar una base de datos extra y servirla en internet; pues necesariamente tendría que correr en paralelo a creación documental y/o multimedia para cumplir idénticas labores [6] . Apunto como arduo trabajo referenciar los distintos items multimedia que pueda contener la Biblioteca Digital, y su actualización, si se opta por el desarrollo: Base de datos+SGML+indexación ht://Dig. Algo estaría de más. Con todo, puede optarse por disponer de una base de datos ocupada exclusivamente de los elementos multimedia, su descripción y clasificación; pero, esto también podría resolverse con un DTD [7] .
El árbol del conocimiento por el que suponemos desea navegar el usuario, es una decisión que también pertenece a las labores de análisis. Se logra a través del diseño de una estructura lógica de directorios y uso de las potencialidades de las marcas de SGML, sin descontar las virtudes del mismo ht://Dig.
SGML permite realizar las actividades necesarias para la realización del proyecto sin necesidad de tener "milestones". Es decir, puntos que es necesario terminar antes de dedicarse a otros.
Debe existir un equipo que trabaje sobre las Jerarquías, Categorías, Metadatos y Elección de marcas SGML pertinentes: esta es una labor de análisis de sentido / contenido. Mientras, los documentos pueden estar siendo marcados a través de un DTD muy simple que refleje estructura: títulos, capítulos y secciones. Es muy fácil retomar en cualquier momento los documentos, que pueden estar ya siendo servidos -mejor que como una simple página de internet-, para añadir las marcas necesarias de sentido. Basta añadir elementos al DTD, marcar en los documentos aquellos términos que se juzguen necesarios (p. ej.: nombres de lugar, nombres propios, recursos multimedia asociados, etc.: esta es una de las estrategias de Encarta.): las preguntas del usuario se transforman y obtinenen respuesta: Qué y Cómo quiere encontrar.
El equipo de diseño gráfico tendrá claro qué tiene que hacer con la interfaz, qué botones se necesitan, etc. y para qué [8] .
Se supone que existe una lista con los materiales necesarios, y más que nada, con la relación entre sí de los materiales, para poder diseñar -si se opta por ello- la base de datos multimedia.
Debe decidirse el tipo de formato a emplear: de entrada, para audio/video, el formato MP3 en internet es lo más adecuado. En cuanto a los formatos gráficos, no cabe duda sobre la opción: GIF y JPEG [9] (SGML en internet permite un abanico mayor de formatos, añádase TIFF, BMP, etc.). Con todo, es un tema que no puede quedar desligado de la misma interfaz, del equipo de creación de medios, del de diseño gráfico, y de la toma de decisiones sobre el software a emplear. Contando que, dado el caso, han de ser ítems de una base de datos.
Separada la parte correspondiente al diseño de la información del diseño gráfico, este es el plan previsto:
Correspondería a la fase (1) del apartado anterior.
NOTA: Está previsto realizarlo con algún material ya digitalizado ex profeso para la BD.
Disponible en las versiónes:
Indexación a través de ht://Dig http://sgml.dgsca2.unam.mx/search.html
Afortunadamente el desarrollo de herramientas GNU para Linux es extraordinario. Consúltese la página de Robin Cover en OASIS (Organization for the Advancement of Structured Information Standards)
http://www.oasis-open.org/cover/publicSW.html
A pesar de ser un estándar no propietario, y dado que ninguna empresa de software podía obtener ningún pago de licencias sobre los documentos obtenidos (de hecho pueden construirse con cualquier editor de texto, lo que no significa que sea fácil de esa manera el marcado), la política comercial ha ido por un derrotero muy lógico:
La irrupción de XML –subset de SGML- en el desarrollo de la web, ha ocasionado que ya los navegadores de Interenet de Microsoft y Netscape no vayan a necesitar de plug-in. De hecho SoftQuad ya vendió sus productos comerciales de edición SGML.
Del proyecto Medieval Miniaturæ Compendium, primer servidor de documentos SGML/XML en español, hemos adquirido una gran experiencia en la selección y uso de la mayoría de los programas editores y visualizadores de SGML, y otras herramientas [15] , sobre todo difíciles de encontrar para Windows. De hecho, se adaptan herramientas de dominio público para una herramienta de autor SGML compatible, y con Fujitsu se trabaja en un visor de SGML/XML en español. Lo sentimos, no se caracteriza nuestra lengua por estar extendida en el mundo de aplicaciones/resultados con SGML.
En la descripción de los procesos se menciona el software conocido más adecuado. Se hará constar si ha sido probado ya con éxito en el MMC.
Véase la sección PROCESOS para tener una idea más adecuada de su uso. Technical Writing soporta tres DTDs: ha sido modificado para poder 'entender' cualquiera (es decir puede ser incluso un editor de HTML) y será el editor de SGML empleado para plataforma Windows. Incluye un conversor a RTF y HTML, que también, desde la edición de código, hemos adaptado al español.
Otras herramientas como XML Notepad, Panorama Pro (gestión de estilos y navegadores del plug-in SGML), editores de CSS para HTML, etc., están en el apartado de software empleado por el proyecto CMM (véase, cuando sea posible, http://mmc.unam.mx )
Existen preciosos programas, hoy ya reliquias, como SARA, creado para el British National Corpus, que servían para distribuir documentos SGML, con el comportamiento de una base de datos. La solución comercial ya ha sido apuntada: Dynaweb, de INSO. Más recientemente, con el auge que nunca tuvo su papá, el XML entrá en la misma filosofía: ColdFushion trabaja con objetos XML de esa manera.
Debemos referirnos a la posibilidad interna de indexación que de por sí ya tiene todo documento SGML que utilice un DTD con posibilidades de marcado de atributo y de marcas. Xlink/Xpointer está implementado igualmente para XML, lo que permite realizar ligas a múltiples puntos/áreas y viceversa; elemento no soportado por HTML.
La ventaja de trabajo con SGML radica en no tener que pensar en la gasolina antes de obtener el petróleo. El paso más simple, para poder disponer cuanto antes de materiales en la BD, es realizar la conversión de documentos SGML (véase PROCESO) a HTML y realizar búsquedas muy potentes en ellos, con las ventajas añadidas de las marcas SGML conservadas en la conversión. Al mismo tiempo se podría disponer de la versión en línea XML, RTF, PDF (o Postcript), y por supuesto de la SGML con plug-in o conversiones on-the-fly a HTML, a través de CGI o JavaServer.
A través de la herramienta GNU, ht://Dig http://www.htdig.org de la Universidad de San Diego, recién testada por primera vez en un sistema Caldera OpenLinux 1.3 [16] , es posible realizarlo. En este momento nos ocupan detalles propios del castellano, más que del funcionamiento de la CGI.
En parte contemplado por el punto anterior, aquí debemos referirnos a la estructura de árbol de conocimiento sugerida por la UNESCO, y que muy bien puede ser soportada con el juego de marcas reservado por la herramienta ht://Dig, o de otras presentes en los documentos SGML.
ESTÁNDARES DE INFORMACIÓN RELACIONADOS CON LENGUAJES DE MARCAS
ESTÁNDARES/RECOMENDACIONES DE DESARROLLO EN LA WEB
En castellano, véase alguna aportación en congresos:
http://www.gca.org/conf/europe97/suneur.htm
Como era de esperar, ya no está disponible
La mejor fuente es Intemet. Se hace referencia a las más importantes, se presentan documentos SGML en español y herramientas en funcionamiento en el módulo del proyecto MMC:
SOFTWARE SGML (GRATUITO)
http://www.oasis-open.org/cover/publicSW.html
BIBLIOGRAFÍA SGML EXHAUSTIVA
SGML/XML Web Page http://www.oasis-open.org/cover/biblio.html
INTRODUCCIONES A SGML
Más de una docena de introducciones a SGML están disponibles en Intemet. Las tres siguientes han sido particularmente influyentes en el progreso del estándar ISO 8879:1986 y en sus implicaciones:
• Coombs, James H.; Rencar, Allen H.; DeRose, Steven J. "Markup Systems and the Future of Scholarly Text Processing." Communications of the Association for Computing Machinery 30/11 (1987) 933-947. Un artículo pionero (versión intemet http://www.oasis-open.org/cover/coombs.html )
• "A Gentle Introduction to SGML." Pages 13-36 (Chapter 2) in Guidelines for Electronic Text Encoding and Interchange (TEI P3). Editado by C.M. SperbergMcQueen y Lou Bumard. Chicago: ACH/ACL/ALLC [Association for Computers and the Humanities, Association for Computational Linguistics, Association for Literary and Linguistic Computing], Abril 8, 1994. El capítulo 2 es una excelente introducción a SGML ( http://sable.ox.ac.uk/ota/teip3sg/ ).
• SoftQuad, Inc. Tbe SGML Primer. SoftQuads Quick Reference Guide to the Essentials of the Standard: The SGML Needed for Reading a DTD and Marked-up Documents and Discussing tbem Reasonably. Version 3.0. Toronto: SoftQuad Inc., Diciembre, 1991. 36 páginas. http://www.softquad.com.
(El documento ya no está disponible en SoftQuad, pero no es difícil encontrar una copia mirror)
MANUALES Y GUÍAS (clásicos y fundamentales)
COMPENDIOS BIBLIOGRÁFICOS
• Cover, Robin; Duncan, Nicholas; Bamard, David. "The Progress of SGML (Standard Generahzed Markup Language): Extracts from a Comprehensive Bibiography." Literary and Linguistic Computing 6/3 (1991) 200-212. Incluye secciones de ensayos introductorios con los conceptos fundamentales, subrayando los beneficios que el SGML supone para los sectores académicos, la industria y las agencias gubernamentales.
• Cover, Robin; Duncan, Nicholas; Bamard, David. Bibliograpby on SGML (Standard Generalized Markup Language) and Related Issues. Technical Report 91-299. Queen's University, Kingston, Ontario. Febrero, 1991. Versión impresa de una base de datos, precisamente realizada con SGML.
• Cover, Robin. "SGML: Annotated Bibliography and List of Resources." < TAG 5/3 (Marzo 1992) 4, [1-121; 5/4 (Abril 1992) 4, [13-24]; 5/5 (Mayo 1992) 4, [25-36 1. Bibliografía y recursos organizados en diez categorías, incluyendo software SGML disponible en Internet.
• Cover, Robin. "SGML/TEI Bibliography." Páginas 233-242 en The Text Encoding Initiative: Background and Context. Dordrecht/Boston/London: Kluwer Academic Publishers, 1995. En especial para publicaciones académicas. Extraído del número especial de Computers and the Humanities (CHUM volumen 29, números 1-3, 1995).