Fundamentos y Estrategias en Información y Documentación Digital

Sistemas de Clasificación Documental

Clasificación Decimal Dewey (CDD)

El sistema de clasificación de Melvin Dewey, conocido como CDD, es un método de ordenamiento lógico del conocimiento que distribuye los documentos en grupos temáticos comunes. Consta de tres etapas principales:

  • Clasificación física: Agrupación de materiales en conjuntos temáticos.
  • Clasificación propiamente dicha: Asignación de la notación decimal.
  • Asignación de encabezamiento de materia: Descripción del contenido temático.

Clasificación Decimal Universal (CDU)

La CDU fue ampliada y mejorada por Paul Otlet y Henri La Fontaine. Existen dos versiones principales de la CDU que se diferencian en la distribución de ciertos contenidos (especialmente el grupo 8, que en una versión se divide entre el grupo 4 y el 8 de la otra). Ambas versiones buscan dividir todo el conocimiento en diez grandes campos. En el contexto de la CDU, destacan conceptos como la URL (directorio donde se encuentra el recurso) y el DOI (identificador de objeto digital).

Herramientas de Organización del Conocimiento

Taxonomías

Las taxonomías se ocupan de los principios, métodos y fines de la clasificación sistemática del conocimiento.

Tesauros

Los tesauros cubren diversas áreas, desde disciplinas científicas como la astronomía, física o medicina, hasta campos vinculados con las ciencias sociales, proporcionando un vocabulario controlado para la indización y recuperación de información.

Ontologías

Al igual que los tesauros, las ontologías buscan organizar de manera sistemática el conocimiento a partir de un conjunto de términos, conceptos y las relaciones semánticas entre ellos, ofreciendo una representación más rica y estructurada.

Análisis Documental de Contenido

El proceso de análisis documental de contenido se divide en tres subfases esenciales:

  1. Clasificación: Asignación de documentos a categorías predefinidas.
  2. Indización: Representación del contenido mediante términos o descriptores.
  3. Resumen: Elaboración de una representación concisa del documento original.

Almacenamiento y Preservación de la Información

Condiciones Generales de Conservación

Cualquier proyecto de construcción o adecuación de un equipamiento de archivos debe considerar una serie de medidas preventivas como parte de un programa general de conservación. Este programa comprende:

  • La conservación directa (que incluye restauración y desacidificación).
  • La preservación indirecta.
  • La preservación por sustitución del uso de los documentos originales.

Según Wolf Buchmann, las medidas preventivas clave son: la conservación directa, la preservación indirecta y la preservación por sustitución.

Condiciones Ambientales para Documentos en Papel

Los documentos en papel deben conservarse en oscuridad, lejos de la luz solar directa, y con una humedad relativa entre el 10% y el 20% como máximo. Para la limpieza de hongos y parásitos, se recomienda el contacto con una hoja de papel impregnada con fungicida.

Técnicas de Recuperación de Información

Clustering

El clustering es un modelo probabilístico que permite analizar la frecuencia de los términos de búsqueda en los documentos recuperados, agrupando documentos similares.

Stemming

El stemming (o lematización) busca eliminar las posibles confusiones semánticas que puedan surgir en la búsqueda de un concepto, reduciendo las palabras a su raíz o lema.

Documentación Comunicativa

La documentación comunicativa se divide en dos subdisciplinas principales:

  • Documentación para Comunicadores: También designada como Documentación Periodística, esta rama da apoyo a los profesionales de la información. Se trabaja con información y documentación pluritemática, generada a menudo dentro de la propia empresa informativa.
  • Documentación de las Ciencias de la Información: Ofrece a profesores e investigadores los fundamentos de las distintas especialidades de la Comunicación, proporcionando el marco teórico y metodológico.

Funciones de la Documentación Comunicativa para Comunicadores

El profesional de la documentación comunicativa debe conocer a fondo las particularidades físicas y formales de los medios que custodia, conserva y sirve. Este conocimiento es fundamental para realizar correctamente las tareas de preservación, análisis documental y contextualización.

Etapas del Proceso de Documentación Comunicativa

  1. Origen y Propósito (Fuentes):
    • Clasificación de la tipología de las unidades documentales.
    • Modelos de sistemas de búsqueda, recuperación y servicio de documentos.
    • Valoración de las respuestas obtenidas.
  2. Análisis (Tratamiento):
    • Evaluación del contenido.
    • Descripción de aspectos semánticos.
    • Cumplimiento de los campos de registro.
  3. Configuración (Preservación):
    • Estandarización del análisis documental.
    • Parametrización de las variables de los soportes.
    • Cualificación de los ratios de los formatos.
  4. Finalidad y Destino (Digitalización):
    • Procesos back-end y front-end.
    • Creación de masters nativos.
    • Estrategias de recuperación, restauración o reciclaje.

Fases de la Técnica de Parametrización en la Documentación Comunicativa

  1. Configuración de la Entrada de Datos: Se produce su normalización hasta generar un archivo o documento intermedio.
  2. Recursos a Encontrar y Evaluar: Es el fin de todas las búsquedas, permitiendo trabajar con operadores de búsqueda.
  3. Respuestas: Se evalúa la relevancia teórica y la rentabilidad técnica como producto del valor documental del dato o archivo.
  4. Disponibilidad y Resultados: Incluye información accesoria como subtítulos, capítulos y metadatos.

Buscadores Online y Estrategias de Posicionamiento

¿Qué es un Buscador Online?

Un buscador es una página web que ofrece la consulta de una base de datos de recursos web. Aunque existen diversos tipos según su construcción y acceso a la base de datos, todos permiten una consulta que devuelve una lista de direcciones de páginas web relevantes. El concepto de buscador nació en abril de 1994, cuando David Filo y Jerry Yang decidieron crear una página web que ofreciera un directorio de páginas interesantes clasificadas por temas, dando origen a Yahoo!.

Tipos de Buscadores

  • Índices de Búsqueda: La base de datos de direcciones es construida por un equipo humano que rastrea la red en busca de páginas. El primer índice de búsqueda en aparecer fue Yahoo!.
  • Motores de Búsqueda: El rastreo de la web lo realiza un programa automatizado, conocido como araña o robot. Este programa visita las páginas y, simultáneamente, crea una base de datos que relaciona la dirección de la página con las primeras 100 palabras que aparecen en ella. El motor de búsqueda por antonomasia es Google.
  • Metabuscadores: Son páginas web que ofrecen un servicio de búsqueda sin disponer de una base de datos propia; en su lugar, utilizan las bases de datos de varios buscadores simultáneamente. Un ejemplo es Metacrawler.

Descriptores Online (Palabras Clave)

Las palabras clave son el tema o motivo central del contenido de una página web. Permiten conectar el sitio con un público objetivo que no tiene por qué conocerlo de antemano, facilitando su descubrimiento a través de los buscadores.

Algoritmos de Búsqueda

Un algoritmo es una secuencia de instrucciones o indicaciones destinadas a ser utilizadas, directa o indirectamente, en un sistema informático para realizar una función o tarea; puede ser expresada mediante un diagrama de flujo. Los buscadores, como Google, utilizan algoritmos para clasificar, indexar y ordenar sus resultados. Aunque cada buscador tiene sus propios algoritmos, que cambian constantemente, son conceptualmente similares.

Google, por ejemplo, utiliza el algoritmo PageRank para valorar la autoridad y relevancia de las páginas. El algoritmo de relevancia, para decidir si una página está relacionada con el tema de búsqueda, analiza cuántas veces y en qué sitio de la página aparece la palabra clave o palabra de búsqueda. Este análisis se realiza estudiando la densidad de palabras clave, que se expresa en porcentaje y se calcula dividiendo el número de veces que aparece la palabra clave en la página por el número total de palabras de la página. A mayor densidad, mejor posicionamiento (valorado en una escala del 1 al 10).

SEO (Search Engine Optimization)

El SEO es la práctica de utilizar un conjunto de técnicas con el fin de mejorar la posición de un sitio web en los resultados orgánicos de los buscadores para términos de búsqueda específicos.

Consejos para Aumentar el PageRank mediante SEO:

  • Conseguir enlaces de calidad desde páginas con un PageRank alto.
  • No es recomendable incluir más de 50 enlaces salientes en una misma página.
  • Dar de alta el sitio en directorios web y buscadores relevantes. (Nota: Open Directory Project fue un directorio utilizado por Google para su búsqueda.)

Factores que Empeoran el PageRank:

  • Comprar enlaces.
  • Intercambio excesivo de enlaces.
  • Duplicar contenido.

Accesibilidad y Calidad del Código HTML para SEO:

Todas las páginas deben ser accesibles, lo que implica:

  • Diseños web correctos y responsivos.
  • Páginas con un tamaño de archivo razonable. Si es una página de texto HTML sin imágenes, no debe sobrepasar los 30kb.
  • Para que el código HTML sea correcto, todas las etiquetas deben estar cerradas y todos los vínculos deben funcionar.
  • Utilizar etiquetas <META> de forma adecuada.

SEM (Search Engine Marketing)

El SEM es la posibilidad de crear campañas de anuncios de pago por clic en internet. Se trata de un servicio de promoción a través del pago de inserciones publicitarias. Las campañas SEM han permitido dar a conocer rápidamente productos, servicios o marcas a través de la red, aumentando el tráfico de páginas mediante lo que se denomina tráfico pagado.

Estrategias de Motores de Búsqueda Online

Muchas páginas web no disponen de etiquetas <META>, a pesar de que con esa información el buscador es capaz de indizar palabras clave como título, idioma, autor, propietario, localización, temas, etc. Existen búsquedas que mezclan la información de las etiquetas <META> con el contenido HTML. Además, los formularios de búsqueda deben ofrecer tanto búsquedas sencillas como complejas, y los sistemas de búsqueda deben presentar los resultados de una forma flexible y organizada.