Desarrollo Web: CMS, WordPress, Metadatos, SEO y Recuperación de Información
Fases del Ciclo de Vida de la Gestión de Contenido
Definición de CMS
Un CMS (Content Management System) es un conjunto de procesos que automatizan las tareas de gestión de contenidos.
¿Qué es la Gestión de Contenidos?
La gestión de contenidos es el conjunto de tareas relacionadas con la recopilación, archivo y uso de la información durante su tiempo de vigencia. Este conjunto de tareas normalmente se conoce como el ciclo de vida del contenido.
Archivos Imprescindibles en un Tema de WordPress
Los archivos imprescindibles en un tema de WordPress son:
- style.css: Contiene la hoja de estilos principal del tema y la información del encabezado del tema.
- index.php: Es la plantilla principal del tema.
Estos archivos son esenciales porque style.css proporciona la identidad y el estilo del tema, mientras que index.php actúa como la plantilla base para mostrar el contenido si no se encuentran plantillas más específicas.
Características Básicas de un CMS
Características Principales
- Creación y edición de contenido: Permite a los usuarios crear, editar y publicar contenido fácilmente.
- Gestión de usuarios y permisos: Controla el acceso y los roles de los usuarios.
- Flujo de trabajo: Define procesos para la revisión y aprobación del contenido.
- Publicación: Programa y publica contenido en diferentes canales.
- Almacenamiento y organización: Organiza y almacena el contenido de manera estructurada.
- Búsqueda: Facilita la búsqueda de contenido dentro del CMS.
Función del Archivo functions.php en un Tema de WordPress
El archivo functions.php en un tema de WordPress se utiliza para:
- Añadir funcionalidades al tema.
- Definir funciones personalizadas que pueden ser utilizadas en las plantillas del tema.
- Modificar el comportamiento predeterminado de WordPress.
- Registrar menús de navegación, widgets, y otras características.
Tema Hijo en WordPress: Definición y Creación
¿Qué es un Tema Hijo?
Un tema hijo en WordPress es un tema que hereda la funcionalidad y el estilo de otro tema, llamado tema padre. Permite modificar o ampliar la funcionalidad del tema padre sin editar directamente sus archivos.
¿Cómo se Crea un Tema Hijo?
- Crear una nueva carpeta en el directorio wp-content/themes.
- Dentro de la nueva carpeta, crear un archivo style.css con la información del encabezado del tema hijo, incluyendo la línea Template que indica el nombre del tema padre.
- Opcionalmente, crear un archivo functions.php para añadir funcionalidades específicas del tema hijo.
- Activar el tema hijo desde el panel de administración de WordPress.
Hooks Imprescindibles para Conectar un Tema a WordPress
- wp_head(): Se coloca en la sección <head> del archivo header.php. Permite a WordPress y a los plugins añadir código en la cabecera del sitio, como scripts, estilos y metadatos.
- wp_footer(): Se coloca justo antes del cierre de la etiqueta </body> en el archivo footer.php. Permite añadir scripts y otros elementos al final del documento.
- wp_meta(): Se utiliza en la barra lateral (sidebar.php) para añadir enlaces de metadatos, como el enlace de administración del sitio.
- comment_form(): Se coloca en el archivo comments.php para mostrar el formulario de comentarios.
Jerarquía de Plantillas de WordPress: Funcionamiento y Ejemplo
WordPress utiliza la cadena de consulta (Query String) para determinar qué plantilla o conjunto de plantillas se utiliza para mostrar la página. Primero, WordPress relaciona cada cadena de consulta con el tipo de consulta, es decir, decide qué tipo de página se está solicitando. Las plantillas (templates) son elegidas entonces en el orden de la jerarquía.
WordPress busca archivos de plantilla con nombres específicos en el directorio del tema actual y utiliza la primera coincidencia con el archivo de plantilla pertinente.
Ejemplo
Si tu blog está en http://domain.com/wp/ y se accede a una categoría http://domain.com/wp/category/your-cat/, WordPress busca un archivo de plantilla en el directorio del tema actual que coincida con el ID de la categoría. Si el ID de la categoría es 4, WordPress busca un archivo de plantilla llamado category-4.php. Si no lo encuentra, buscará category.php, luego archive.php y finalmente index.php.
Tipos de Post por Defecto en WordPress
- Entradas: Tipo predeterminado para alojar nuevas entradas de tipo blog, ordenadas cronológicamente.
- Páginas: Páginas estáticas, fuera de la estructura cronológica de los posts.
- Adjuntos: Corresponde a la página que hay disponible para cada fichero adjuntado (imagen, PDF, etc.).
- Revisiones: Una revisión es una versión antigua de otro documento, es decir, un borrador.
- Menús de navegación: Menús creados desde el panel de control de WordPress.
Taxonomías en WordPress: Definición y Tipos por Defecto
WordPress ofrece funcionalidades para clasificar el contenido de acuerdo a nuestras necesidades: taxonomías.
Hay 3 taxonomías por defecto:
- Categoría (category): Jerárquica y definida al crear un post. Un post puede estar asociado a múltiples categorías.
- Etiqueta (tag): No jerárquica y definida al crear un post.
- Categoría de enlaces (link category): No jerárquica y definida para agrupar enlaces similares.
Cada categoría o etiqueta creada es un término de esa taxonomía.
Por ejemplo:
- Una categoría denominada «música» es un término de la taxonomía «categoría».
- Una etiqueta llamada «Ketchup» es un término de la taxonomía «etiqueta».
Se puede clasificar un post en una o más taxonomías y utilizar dicha clasificación (los términos) para recuperar la información de una manera organizada.
Acciones (Action Hooks) en WordPress: Definición, Uso y Activación
Las acciones son términos genéricos que permiten ejecutar las funciones propias del usuario en un lugar específico dentro de la línea de ejecución de WordPress para poder agregar nuevas funcionalidades. Se activan con el comando add_action($hook, $funcion).
Ejemplos de Acciones
- comment_post: Se activa cuando se crea un nuevo comentario.
- publish_post: Actúa cuando se publica un nuevo post.
- switch_theme: Se activa al cambiar de tema.
Filtros (Filter Hooks) en WordPress: Definición, Uso y Activación
Los filtros son funciones a las cuales WordPress pasa información en un cierto punto de ejecución. De este modo, un filtro te permite manipular textos y contenidos antes de que sean utilizados. Se activan con add_filter($tag, $funcion).
Ejemplos de Filtros
- has_filter: Comprueba si un filtro ha sido registrado.
- add_filter: Registra una función de filtro.
- apply_filters: Aplica un filtro a un valor.
Añadir un Nuevo Tipo de Dato (Post Type) en WordPress
Funciones Empleadas
Para añadir un nuevo tipo de dato en WordPress, se utiliza la función register_post_type(). Esta función permite definir las características del nuevo tipo de dato, como su nombre, etiquetas, soporte para características (título, editor, imagen destacada, etc.), visibilidad y más.
Definir una Nueva Acción (Custom Hook) en WordPress
Los custom hooks son términos genéricos que permiten ejecutar las funciones propias del usuario en un lugar específico del código de WordPress. Se activan con el comando add_action($hook, $function). Sirven para extender la funcionalidad de WordPress o de un tema, permitiendo a los desarrolladores ejecutar su propio código en puntos específicos de la ejecución de WordPress.
Añadir una Nueva Taxonomía en WordPress
Funciones Empleadas
Se usa la siguiente función:
register_taxonomy($taxonomy, $object_type, $args)
Para asegurarnos de que la taxonomía se asocia correctamente con el tipo de objeto deseado, también utilizamos:
register_taxonomy_for_object_type($taxonomy, $object_type)
En «Entradas», debajo de «Etiquetas», tendremos las taxonomías.
Shortcodes en WordPress: Definición, Uso e Integración
¿Qué es un Shortcode?
Un shortcode es una pequeña etiqueta o código que puedes introducir en el editor de WordPress y que llama a un script o parte de un script que inserta un elemento en la página o post que se está editando.
Puede necesitar etiqueta de cierre.
¿Cómo Integrar un Shortcode en WordPress?
Para integrar un shortcode, hay que añadir en el código PHP pertinente:
add_shortcode(‘clave’, ‘funcion’)
Y en la entrada o página:
[clave]contenido[/clave]
Donde ‘clave’ es el nombre del shortcode y ‘función’ es la función PHP que se ejecutará cuando se encuentre el shortcode.
Internacionalizar Correctamente un Plugin en WordPress
- Preparar el archivo etiquetando todo el texto con las funciones __() o _e().
- Extraer el archivo de la plantilla de localización (POT).
- Traducir el archivo de la plantilla a la lengua pertinente, resultando un archivo PO.
- Compilar el archivo PO para producir un archivo MO de alta velocidad.
- Cargar el archivo de localización para realizar la traducción.
- Ejecutar la función load_plugin_textdomain().
Funciones para Instalar, Activar, Desactivar y Desinstalar un Plugin en WordPress
- Instalación: plugin_dir_path() y plugins_url() para rutas absolutas y URL dentro del código PHP.
- Activación: register_activation_hook
- Desactivación: register_deactivation_hook
- Desinstalar: register_uninstall_hook
Área de Widgets en WordPress: Definición y Declaración
Las áreas de widgets son las zonas en las que los widgets personalizan elementos. Suelen tratarse de las barras laterales. Los temas definen las diferentes áreas de widget, pero el usuario puede establecer las suyas propias usando una función personalizada con hook en functions.php.
Roles y Capacidades en WordPress: Definición y Uso
Cada Rol tiene asignadas ciertas capacidades (o permisos).
Roles Predeterminados en WordPress
- SuperAdmin: Acceso a las funciones de administración de todos los sitios bajo una instalación WordPress multisitio.
- Administrador: Acceso a todas las funciones de administración dentro de un sitio web.
- Editor: Puede publicar y gestionar sus posts y los de otras personas.
- Autor: Puede publicar y gestionar sus propios posts.
- Contribuyente: Puede escribir y gestionar sus mensajes, pero no publicar los mensajes.
- Suscriptor: Solo puede leer los posts y comentar.
Las capacidades son el conjunto de tareas asignadas a cada rol.
Metadatos: Definición, Uso y Esquemas
Definición
Los metadatos son datos o información que describen un objeto denominado recurso.
Esquemas de Metadatos
Los esquemas de metadatos son agrupaciones de metadatos diseñados para un propósito específico (un dominio específico o un tipo particular de fuente de información). Un esquema es un plan lógico que describe elementos de los metadatos y sus relaciones. Establece reglas para su especificación, su significado, su sintaxis y las opciones de sus valores. También son conocidos como conjunto de elementos.
Clasificación de Metadatos según su Utilidad
Tipos de Metadatos
- Descriptivos: Facilitan el descubrimiento y la identificación de recursos (títulos, autores, etc.).
- Estructurales: Describen cómo se relacionan los elementos (control de versiones, capítulos de libro, etc.).
- Administrativos: Ayudan a gestionar el recurso (derechos, formato de los datos, compresión, etc.).
Esquema de Metadatos: Definición
Los esquemas de metadatos son agrupaciones de metadatos diseñados para un propósito específico (un dominio específico o un tipo particular de fuente de información). Un esquema es un plano lógico que describe elementos de los metadatos y sus relaciones. Establece reglas para su especificación, su significado, su sintaxis y las opciones de sus valores. También son conocidos como conjunto de elementos.
Application Profile: Definición y Uso
Los Perfiles de Aplicación son conceptos clave que describen el uso de los metadatos seleccionados para un entorno específico o aplicación. Son más que un esquema de metadatos, añadiendo reglas de empresa y directrices sobre el uso de los elementos. Definen las obligaciones y prohibiciones de los elementos y proporcionan comentarios y ejemplos para facilitar la comprensión de éstos.
Pueden incluir elementos que estén integrados en uno o más esquemas de metadatos permitiendo así que una aplicación determinada cumpla sus requerimientos funcionales.
Estándar de Metadatos: Definición y Uso
Son un intento de establecer un consenso de los significados y semántica de los datos para asegurar un correcto uso de compartición e interpretación de los datos por los usuarios. Son mantenidos por organizaciones de estándares. Los estándares también son usados como guías a la hora de escribir un esquema de metadatos. Facilitan la interoperabilidad y la reutilización más amplia del almacenamiento de recursos.
Estándares de Metadatos: Ejemplos y Descripción
- Dublin Core: Es el más usado y el que todo archivo descrito con metadatos debe incorporar.
- PREMIS: Para preservar objetos digitales a largo plazo.
- IEEE-LOM: Para describir objetos de aprendizaje.
- MARCXML: Para representar datos MARC en lenguaje XML.
Dublin Core: Definición, Elementos y Uso
Definición
Es un estándar de metadatos, el más usado.
Uso
Su misión es facilitar la búsqueda de recursos a través de Internet mediante estándares para metadatos y frameworks para gestionar conjuntos de metadatos. Dublin Core es un sistema de 15 definiciones semánticas descriptivas.
Elementos
Dublin Core tiene 15 elementos.
7 Elementos del Dublin Core
- Título: Representa el nombre dado al recurso. Etiqueta DC.Title.
- Claves: Los temas del recurso (de qué va). Etiqueta DC.Subject.
- Descripción: Descripción textual del recurso. Etiqueta DC.Description.
- Fuente: Para identificar de dónde viene el recurso. Etiqueta DC.Source.
- Tipo del recurso: La categoría del recurso (página principal, romance, poema). Etiqueta DC.Type.
- Relación: Identificador de un segundo recurso y la relación con el anterior. Etiqueta DC.Relation.
- Derechos: Referencia sobre los derechos de autor. Da información sobre los términos y condiciones de acceso y uso de un recurso. Etiqueta DC.Rights.
Dublin Core y Qualified Dublin Core: Diferencias
Dublin Core es un conjunto de 15 elementos genéricos que describen recursos. Es el estándar de metadatos más usado y básico del OAI-PMH.
Qualified Dublin Core es una extensión del DC simple, añadiendo expresividad y extendiendo su uso.
Se añadieron dos formas de calificación:
- Refinamiento del elemento: fechaDisponible, fechaCreación.
- Esquemas de codificación: Permite que los elementos tengan rangos de admisión.
Dublin Core y Qualified Dublin Core pueden coexistir pacíficamente.
Extensión del Dublin Core al Qualified Dublin Core
El Qualified Dublin Core consistía en acompañar algunos de los elementos de Dublin Core con algunas restricciones, como por ejemplo Date.created o Date.available.
Repositorio Digital: Definición
Un repositorio digital es un medio para obtener, gestionar, almacenar, conservar y proporcionar acceso a contenido digital.
Requerimientos Básicos Funcionales de un Repositorio Institucional
Gestionados por instituciones, organismos, organizaciones. Por ejemplo http://www.cervantesvirtual.com
Requerimientos Funcionales
- Acceso abierto:
- Disponibilidad online de recursos y metadatos.
- Metadatos:
- Los recursos han de incluir los metadatos descriptivos, administrativos y estructurales necesarios (título, nombre de los autores, etc.).
- Los metadatos deben ser almacenados junto al dato o contenido principal del recurso, en un esquema estándar de metadatos como Dublin Core.
- Es muy importante también la capacidad de presentar los recursos empleando diferentes esquemas de metadatos.
- Recolección de metadatos (Metadata harvesting):
- Permitir la exposición de recursos con sus metadatos.
- Se requiere para ello al menos una interfaz OAI-PMH.
- Indexación por motores de búsqueda:
- Los sitios deben ser accesibles para los bots rastreadores a fin de que los motores de búsqueda convencionales puedan encontrar e indexar los recursos disponibles.
- Identificación Persistente:
- Los repositorios utilizan herramientas para asignar identificadores persistentes a los recursos. (Ej. DOI: document object identification) http://www.doi.org/
- Algunas plataformas de repositorios hacen uso de servicios externos de resolución de identificadores para asegurar los identificadores persistan incluso si cambia el nombre del dominio del servidor o de la institución.
Plataformas de Software de Repositorios Digitales
Cuatro de las más empleadas son Digital Commons, DigiTool, DSpace y EPrints. Otras son: Fedora, Open Repository y CONTENTdm.
Diferencias entre Harvesting y Crawling
Crawling
- Proceso realizado por motores de búsqueda externos (p.ej. Google).
- Siguen los enlaces en las páginas web para acceder a todos los contenidos web y poder indexar su contenido.
- Carecen de la capacidad de emplear los metadatos estructurados para realizar búsquedas especializadas basadas en ellos.
Harvesting
- Supone la realización de consultas a los repositorios para recibir respuestas estructuradas que contienen listas de recursos que incluyen sus metadatos.
- OAI-PMH es la interfaz más utilizada para la recolección de metadatos en repositorios digitales.
OAI-PMH: Definición y Uso
OAI-PMH es una interfaz común, la más utilizada para la recolección de metadatos en repositorios digitales.
Los repositorios que proporcionan una interfaz OAI-PMH se llaman ‘OAI-compliant‘.
- Disponen de una URL base OAI además de la URL de uso común para usuarios humanos.
- Esta URL base OAI se utiliza para la interactuar con los repositorios.
- Las instrucciones de recolección tienen la siguiente forma: OAI base URL + OAI Verb + OAI Arguments.
OAI URL Base: Definición y Uso
Es un recurso que utilizan los repositorios con interfaz OAI para agregarlo a la URL de usuarios humanos. Se usa para indexar dichos repositorios.
Identificación Persistente: Definición, Uso y Obtención
Definición
Un identificador persistente es una referencia de larga duración a un recurso (documento, archivo, página web, u otro objeto).
Importante
«La persistencia es una cuestión de servicio«.
- Eso significa que los identificadores persistentes sólo son persistentes en la medida en que alguien se compromete a resolverlas para los usuarios. Ningún identificador puede ser inherentemente persistente.
Redirigen a los clientes mediante códigos de estado. Tienen dos componentes: el identificador único y un servicio que ubica el recurso a lo largo del tiempo, incluso cuando cambia su ubicación. Los identificadores persistentes suelen ser creados por los sistemas administrativos de diferentes instituciones con repositorios digitales.
Verbos de Comunicación del Protocolo OAI-PMH
- Identify: Devuelve información sobre el repositorio.
- ListSets: Lista las categorías proporcionadas por el repositorio.
- ListMetadataFormats: Lista los formatos de metadatos soportados por el repositorio (Dublin Core como mínimo).
- ListIdentifiers: Lista los identificadores para los elementos depositados.
- ListRecords: Cosecha los metadatos del repositorio.
- GetRecord: Obtiene un metadato individual del repositorio.
Ventajas de la Representación de Información en la Web Semántica
- Vocabulario de metadatos enriquecido.
- El contenido es indexable.
- Fácil compartición y mezcla de datos. Interoperabilidad con otros sistemas.
- Sistemas de navegación y búsqueda más fáciles de usar y robustos.
- Inferencia (hechos explícitos e implícitos).
- Usa SPARQL para el acceso público.
Tripletas RDF: Definición, Uso y Ejemplo
Definición
Es una forma de representar los hechos que sigue la estructura de:
Sujeto + Predicado (propiedad) + Objeto
Ejemplos
- Una mesa es un mueble.
- Una mesilla es un tipo de mesa.
- Esta mesa está hecha de madera.
RDF en la Web Semántica: Definición y Uso
Es un lenguaje para describir los recursos (Resource Description Format) que representa los hechos mediante tripletas. RDF es, por tanto, una forma de representar los datos de los recursos (metadatos). Sirve para permitir la interoperabilidad entre aplicaciones que intercambian información comprensible por la página web.
RDFS en la Web Semántica: Definición y Uso
RDFS (Resource Description Format Schema) otorga un uso de vocabularios concretos para describir todo tipo de recursos. RDFS permite modelar metadatos con una representación explícita de su semántica y permite especificar restricciones de tipos de datos para los sujetos y objetos de las tripletas de RDF introduciendo unas primitivas de modelado orientado a objetos:
Rdfs:Class, rdfs:Property, rdfs:subClassOf.
OWL en la Web Semántica: Definición y Uso
Es un lenguaje de ontologías (Web Ontology Language) escrito en XML y diseñado para las aplicaciones que necesitan un procesado de la información en vez de tan solo mostrarla a humanos. OWL facilita una mejor interpretabilidad de la web para las máquinas que XML, RDF y RDFS, añadiendo vocabulario adicional a la semántica formal. Sirve para procesar información en la web. Este vocabulario adicional es para describir propiedades y clases:
- EquivalentClass: Coches EquivalentClass a automóvil.
- sameAs: Bécquer sameAs Gustavo Adolfo Bécquer.
- EquivalentProperty, differentFrom, inverseOf…
Wikidata: Definición y Uso
Es una base de datos secundaria, libre, colaborativa y multilingüe que recopila datos estructurados para dar soporte a Wikipedia.
Información Almacenada por Wikidata sobre Entidades
Se permite almacenar elementos. Cada uno de ellos con una etiqueta, una descripción y un número de alias. Los elementos se identifican de forma unívoca con el identificador Q. Las declaraciones describen características de cada elemento y constan de una propiedad y un valor.
Propiedades de Wikidata para Relaciones entre Clases
Las propiedades que usa Wikidata para establecer relaciones entre clases se identifican con una P seguida de un identificador numérico y representan nombres de atributos como ocupación, causa, etc.
Propiedades «instance_of» y «subclass_of» en Wikidata
instance_of: A es una instancia de B. (La más usada).
subclass_of: Todas las instancias de A son también instancias de B.
Sirven para que las máquinas entiendan la herencia conceptual.
SPARQL: Definición y Uso
Es el lenguaje (similar a SQL) que usamos para hacer consultas a la web semántica (que hace uso de RDF).
Estructura de una Consulta SPARQL
Al igual que SQL, usa SELECT y WHERE. En el SELECT escribimos las variables ?name que queremos que nos devuelva el query. WHERE define graph patterns para encontrar coincidencia en los datos a consultar. Un graph pattern consiste en el sujeto, predicado y objeto (tripleta) del recurso que buscamos.
Uso de OPTIONAL en una Sentencia SPARQL
Para añadir una condición más a la consulta que no restrinja los resultados de ésta. Es decir, para que la consulta devuelva los recursos que cumplan la tripleta en el caso de que cumplan la condición. Si no la cumplen, pero sí cumplen las que están fuera del OPTIONAL (de la condición), entonces no serán excluidos del resultado de la consulta.
Uso de FILTER en una Sentencia SPARQL
Para filtrar los resultados. Una vez obtenemos las variables, podemos filtrar los resultados con alguna de ellas.
Indexación de Documentos: Uso, Preprocesamiento y Ventajas
Uso
La indexación sirve para hacer las búsquedas más eficientes. Los documentos se indexan fuera de línea y NO en tiempo real.
Preprocesamiento
El preproceso de los textos consiste en: normalizar el texto, eliminación de las stopwords (palabras paradas) y cálculo de su raíz o lema.
Ventajas
Aumenta la cobertura y disminuye el tamaño de los ficheros de indexación. Dos tipos de índices: Índice directo e indirecto.
Índice Invertido: Definición y Uso
Definición
Es un método de indexación que permite explorar los documentos de la web.
Uso
Se emplea durante la búsqueda de documentos. Permite encontrar qué documentos contienen qué términos.
Ventajas
- Se optimiza el espacio necesario para la búsqueda.
- Tratamiento casi directo de la raíz.
- No se trata a los sinónimos como palabras diferentes.
Relevancia e Importancia en un Sistema de Recuperación de Documentos
Hablamos de un documento relevante cuando es candidato a contener la información que pide la consulta.
Una vez recuperados los documentos relevantes, debemos ordenarlos para el usuario. Y los ordenamos por nivel de importancia, la cual se calcula con funciones de ordenación o ranking.
Modelo Booleano de Recuperación de Información: Representación y Procesamiento
Representación
Sólo se tiene en cuenta si el término aparece o no y todos los términos tienen la misma importancia. Los documentos y consultas son representados como vectores de ceros (0) y unos (1).
Procesamiento
Las consultas son procesadas mediante el coeficiente Jaccard que mide el grado de solapamiento de dos conjuntos en el que ambos conjuntos A y B han de ser de diferente tamaño. Siempre devolverá un valor entre 0 y 1. Asigna a cada documento recuperado (B) su grado de solapamiento con la consulta (A) y se ordenan los documentos siguiendo este criterio de forma ascendente.
Problemas
Los mayores inconvenientes son que o aparecen demasiados resultados o demasiado pocos y que es imposible ordenar los resultados sin un procesado.
Problemas en una Búsqueda Booleana
Sólo se tiene en cuenta si el término aparece o no y todos tienen la misma relevancia. Entonces, o aparecen muchos resultados o muy pocos y es imposible ordenarlos. Para solventar estos problemas se hace uso del coeficiente de Jaccard.
Modelo Vectorial de Recuperación de Información: Representación y Procesamiento
Representación
La representación de documentos y preguntas se lleva a cabo como vectores con pesos reales (∈ R|V|) que determinan el valor de cada término en cada documento.
Procesamiento
La consulta se procesa hallando la similitud entre un documento y una consulta realizando el cálculo del coseno de sus vectores.
Tipos de Índices en un Sistema de Recuperación de Información
- Índice directo: No intervienen en el proceso de búsqueda de documentos. Se utilizan para gestión y visualización.
- Índice invertido: Se emplean en la búsqueda de documentos. Permite encontrar qué documentos tienen qué términos. Optimizan el espacio necesario.
TF-IDF: Definición
Es un criterio de ordenación interno que hace uso de los valores de discriminación de términos en un conjunto de documentos. Este valor se calcula para un término multiplicando la frecuencia del término en un documento por la inversa de su frecuencia en el conjunto de documentos:
TF-IDF = FrecDOC * (1/FrecCONJ)
TF: Term Frequency
IDF: Inverse Document Frequency
Criterios para Ordenar Documentos en un Sistema de Recuperación de Información
Distinguimos entre criterios internos y criterios externos.
Internos
Relativos al contenido. Las palabras tienen peso (valor discriminatorio) en el documento. Pueden ser:
- Booleano: El término aparece o no.
- Frecuencia: Número de veces que aparece un término en un documento.
- TF-IDF: Valor de discriminación de un término en un conjunto de documentos.
Externos
Se dan principalmente en páginas web y se trata de enlaces que entran y salen de ellas. El más importante es el PageRank, el algoritmo que usaba Google en sus inicios que entendía la red como un grafo dirigido.
PageRank: Definición, Uso y Fundamento
Es el algoritmo de ordenación de documentos que usaba Google en sus inicios, siendo un criterio de ordenación externo. Se basa en entender la red como un grafo dirigido en el que las páginas tienen pesos y enlaces que entran y salen de ellas. Actualmente es una de las partes del criterio que usa Google.
Factores que Motivan la Ordenación de Documentos en Google
- Normalización del texto: Eliminación de signos de puntuación, caracteres no alfanuméricos, mayúsculas y etiquetas.
- Eliminación de palabras de parada (Stopwords): Artículos, preposiciones, pronombres y verbos auxiliares. Existen listas fijas de palabras de parada en numerosos idiomas.
- Cálculo de la raíz o lema: Lema: entrada de diccionario de la palabra (casa). Raíz: fonema que comparten varias palabras (cas-). Aumenta la cobertura y disminuye el tamaño de los ficheros de indexación. Todas las formas de una palabra se reducen a una misma raíz o lema.
Pirámide SEO: Fases
- Crawling: Accesibilidad para que los motores de búsqueda puedan leer tu sitio web.
- Contenido: Debe responder a la consulta del buscador.
- Keyword Research: Optimización de palabras clave para atraer a los buscadores y usuarios.
- Experiencia de usuario: Incluye una carga rápida y un diseño atractivo.
Cloaking en SEO: Definición
Es una técnica de Black Hat SEO, es decir, cuyo objetivo es engañar a los motores de búsqueda y mejorar la posición de sus páginas. Consiste en preparar dos versiones del contenido, una para humanos y otra para bots. Se apuntan las IP de los bots (pueden cambiar) y se observa si ellos, al contrario que el humano en su versión, entienden el contenido.
Keyword Research en SEO: Definición y Uso
La búsqueda de palabras clave (keywords) debe ser la base del SEO de cualquier web, es la palabra con la que el usuario encuentra la web.
Link Building en SEO: Definición y Uso
El Link Building es uno de los fundamentos del posicionamiento web o SEO, que busca aumentar la autoridad de una página el máximo posible mediante la generación de enlaces hacia la misma.