Conceptos Fundamentales de Minería de Datos y Modelos de Regresión

1. Conceptos Básicos de Minería de Datos

¿Qué es el Aprendizaje Automático?

  • El Aprendizaje Automático (Machine Learning) consiste en un conjunto de técnicas que tienen el objetivo de obtener un conjunto de reglas o modelos a partir de unos datos proporcionados, de tal modo que aplicando esas reglas y modelos a casos nuevos obtengamos resultados satisfactorios.

¿Cuáles son los Elementos Fundamentales para Realizar Minería de Datos?

  • Vista Minable (tabla con datos)
  • Tipo de Tarea (predictiva, descriptiva)
  • Sesgos
  • Técnicas
  • Patrones

¿Qué es la Vista Minable?

  • La Vista Minable es una tabla con datos. Cada fila es un ejemplo, cada columna es un atributo y, además, puede haber una columna que etiqueta a cada ejemplo.

¿Qué Tipos de Tareas se Realizan en Minería de Datos? ¿En Qué se Diferencian?

  • Clasificación: Los atributos son características de diferentes contratos, que están clasificados como buenos o malos. El objetivo es predecir la clase (bueno/malo).
  • Agrupamiento (Clustering): Los atributos son características de diferentes computadores. El objetivo es agrupar ejemplos similares sin una etiqueta predefinida.
  • Predicción (Regresión): También denominada regresión. El objetivo es predecir un valor numérico continuo.

¿Qué Diferencia Hay entre Técnica de Minería y Tarea de Minería?

  • Son distintos porque una tarea se puede realizar mediante varias técnicas o métodos; sin embargo, cada técnica tiene una expresividad diferente.

¿Qué son los Patrones?

  • Un patrón es un conjunto de reglas o modelos que identifican relaciones o estructuras en un subconjunto de datos.

¿Qué es el Subajuste y el Sobreajuste?

  • Subajuste: Modelo demasiado simple, excesivamente generalista. No captura la complejidad de los datos.
  • Sobreajuste: Modelo demasiado complejo, poco generalista. Se ajusta demasiado al ruido de los datos de entrenamiento y no generaliza bien a datos nuevos.

¿Qué es la Comprensibilidad? ¿Toda Técnica Genera un Modelo Comprensible? ¿Por Qué?

  • La Comprensibilidad se refiere a la facilidad con la que un ser humano puede entender cómo funciona un modelo y por qué hace una predicción particular. No toda técnica genera un modelo comprensible.
  • Tipos de modelos (relacionado con la comprensibilidad):
    1. Anticipativos: Impacientes. Una vez construido el modelo (ej. árbol de decisión, reglas), ya no necesitamos los ejemplos originales para predecir. La respuesta es muy rápida y el modelo suele ser más comprensible.
    2. Retardados: Perezosos. No se construye un modelo explícito; se usan siempre todos o un subconjunto de los ejemplos originales para hacer una predicción (ej. k-NN). Cuantos más ejemplos, más lento. Suelen ser menos comprensibles.

¿En Cuántos Subconjuntos se Divide el Conjunto de Datos para el Aprendizaje? ¿Cuál es la Función de Cada Uno?

  • Conjunto de Entrenamiento: Son los datos que se utilizan para aprender el modelo.
  • Conjunto de Test: Sirven para medir la eficiencia final de nuestro sistema entrenado en datos no vistos durante el entrenamiento.
  • Conjunto de Validación: El conjunto de validación ayuda a decidir si debemos parar la iteración durante el entrenamiento (por ejemplo, para ajustar hiperparámetros o evitar sobreajuste).

2. Regresión con Modelos Lineales

¿Qué es una Variable Explicativa y una Variable Dependiente?

  • La Variable Explicativa (o Independiente) es el atributo que se utiliza para explicar o predecir la variable dependiente.
  • La Variable Dependiente es el atributo cuyo valor se desea predecir o explicar. Existe una relación matemática (función `f`) entre la explicativa (`x`) y la dependiente (`y`), expresada como `y = f(x)`.

¿Qué es un Modelo de Regresión?

  • Es una técnica estadística para investigar y modelar la relación entre una variable dependiente y una o más variables explicativas.

¿Cuál es la Expresión Matemática de las Predicciones de un Modelo Lineal Simple (una variable explicativa)?

  • La expresión es: Ŷ = β₀ + β₁ * Xᵢ, donde es la predicción de la variable dependiente, Xᵢ es el valor de la variable explicativa para el ejemplo i, β₀ es el intercepto y β₁ es la pendiente.

¿Cuál es la Interpretación de los Parámetros en un Modelo Lineal Simple?

  • La interpretación del parámetro β₁ (pendiente) es que, por cada incremento de una unidad en la variable explicativa (X), la variable dependiente (Y) se espera que incremente (o disminuya) en β₁ unidades, manteniendo todo lo demás constante.
  • El parámetro β₀ (intercepto) representa el valor esperado de Y cuando X es cero.

3. Regresión con Modelos No Lineales

¿Qué es un Modelo No Lineal?

  • Mientras que un modelo lineal representa una recta (en 2D) o un plano/hiperplano (en dimensiones superiores), un modelo no lineal puede representar una superficie curva o cualquier otra forma que no sea lineal. Existen infinitas posibilidades de modelos no lineales.

¿Cómo se Pueden Abordar Relaciones No Lineales en Regresión?

  • Mediante el uso de transformaciones de las variables originales, como:
    • Doble logaritmo
    • Exponencial
    • Logística
  • Mediante el uso de modelos intrínsecamente no lineales.

¿Qué es un Modelo Lineal por Tramos (Piecewise Linear Model)?

  • Consiste en dividir el rango de la variable explicativa en segmentos (tramos) disjuntos y ajustar un modelo lineal diferente en cada segmento.
  • Puede ser más comprensible si los tramos tienen un significado práctico.
  • A menudo, el modelo resultante presenta discontinuidades (saltos) en los puntos de unión de los tramos.

¿Qué Ventajas e Inconvenientes Tienen los Modelos Lineales por Tramos? ¿Por Qué se Consideran No Lineales?

  • Ventaja: Puede ser más comprensible que otros modelos no lineales si los puntos de división de los tramos tienen un significado contextual.
  • Desventaja: Generalmente presenta discontinuidades (saltos) en los puntos de unión de los tramos.
  • Se considera no lineal porque la combinación de los diferentes segmentos lineales puede aproximar una relación global no lineal.

¿Los Modelos Lineales por Tramos con Muchos Segmentos Tienden al Subajuste o al Sobreajuste?

  • Tienden al sobreajuste, ya que un gran número de tramos permite que el modelo se ajuste de forma muy específica a las fluctuaciones de los datos de entrenamiento, perdiendo capacidad de generalización.

¿Cómo Funciona el Suavizado con Kernel (Sin Formulación Matemática)?

  • Para predecir el valor en un punto específico, se considera una ‘ventana’ de datos cercanos a ese punto.
  • Los puntos dentro de la ventana se consideran ‘activos’ y se les asigna un peso que generalmente disminuye a medida que se alejan del punto central.
  • Se ajusta un modelo local (a menudo lineal) a estos puntos ponderados (por ejemplo, usando mínimos cuadrados ponderados).
  • Este proceso se repite para cada punto donde se desea una predicción, moviendo la ventana.

¿Qué Ventajas e Inconvenientes Tiene el Suavizado con Kernel?

  • Ventaja: El modelo resultante es continuo y suave, sin los saltos de los modelos por tramos.
  • Desventaja: El modelo resultante es a menudo una ‘caja negra’; no proporciona una fórmula simple o parámetros interpretables.

¿El Suavizado con Kernel es un Método Paramétrico o No Paramétrico? ¿Por Qué?

  • Es no paramétrico.
  • Es no paramétrico porque la complejidad del modelo no está fijada de antemano por un número fijo de parámetros (como en la regresión lineal), sino que depende de los datos y del tamaño de la ventana utilizada.

¿De Qué Manera se Puede Producir Subajuste o Sobreajuste con el Suavizado con Kernel?

  • Se produce sobreajuste cuando la anchura de la ventana es muy estrecha, ya que el modelo se ajusta demasiado a las variaciones locales de los datos de entrenamiento.
  • Se produce subajuste cuando la anchura de la ventana es muy ancha, ya que el modelo se vuelve demasiado suave y no captura las tendencias locales de los datos.