Conceptos Fundamentales de Minería de Datos y Modelos de Regresión

1. Conceptos Básicos de Minería de Datos

¿Qué es el Aprendizaje Automático?

El Aprendizaje Automático (Machine Learning) consiste en un conjunto de técnicas que tienen el objetivo de obtener un conjunto de reglas o modelos a partir de unos datos proporcionados, de tal modo que aplicando esas reglas y modelos a casos nuevos obtengamos resultados satisfactorios.

¿Cuáles son los Elementos Fundamentales para Realizar Minería de Datos?

Vista Minable (tabla con datos)
Tipo de Tarea (predictiva, descriptiva)
Sesgos
Técnicas
Patrones

¿Qué es la Vista Minable?

La Vista Minable es una tabla con datos. Cada fila es un ejemplo, cada columna es un atributo y, además, puede haber una columna que etiqueta a cada ejemplo.

¿Qué Tipos de Tareas se Realizan en Minería de Datos? ¿En Qué se Diferencian?

Clasificación: Los atributos son características de diferentes contratos, que están clasificados como buenos o malos. El objetivo es predecir la clase (bueno/malo).
Agrupamiento (Clustering): Los atributos son características de diferentes computadores. El objetivo es agrupar ejemplos similares sin una etiqueta predefinida.
Predicción (Regresión): También denominada regresión. El objetivo es predecir un valor numérico continuo.

¿Qué Diferencia Hay entre Técnica de Minería y Tarea de Minería?

Son distintos porque una tarea se puede realizar mediante varias técnicas o métodos; sin embargo, cada técnica tiene una expresividad diferente.

¿Qué son los Patrones?

Un patrón es un conjunto de reglas o modelos que identifican relaciones o estructuras en un subconjunto de datos.

¿Qué es el Subajuste y el Sobreajuste?

Subajuste: Modelo demasiado simple, excesivamente generalista. No captura la complejidad de los datos.
Sobreajuste: Modelo demasiado complejo, poco generalista. Se ajusta demasiado al ruido de los datos de entrenamiento y no generaliza bien a datos nuevos.

¿Qué es la Comprensibilidad? ¿Toda Técnica Genera un Modelo Comprensible? ¿Por Qué?

La Comprensibilidad se refiere a la facilidad con la que un ser humano puede entender cómo funciona un modelo y por qué hace una predicción particular. No toda técnica genera un modelo comprensible.
Tipos de modelos (relacionado con la comprensibilidad):
1. Anticipativos: Impacientes. Una vez construido el modelo (ej. árbol de decisión, reglas), ya no necesitamos los ejemplos originales para predecir. La respuesta es muy rápida y el modelo suele ser más comprensible.
2. Retardados: Perezosos. No se construye un modelo explícito; se usan siempre todos o un subconjunto de los ejemplos originales para hacer una predicción (ej. k-NN). Cuantos más ejemplos, más lento. Suelen ser menos comprensibles.

¿En Cuántos Subconjuntos se Divide el Conjunto de Datos para el Aprendizaje? ¿Cuál es la Función de Cada Uno?

Conjunto de Entrenamiento: Son los datos que se utilizan para aprender el modelo.
Conjunto de Test: Sirven para medir la eficiencia final de nuestro sistema entrenado en datos no vistos durante el entrenamiento.
Conjunto de Validación: El conjunto de validación ayuda a decidir si debemos parar la iteración durante el entrenamiento (por ejemplo, para ajustar hiperparámetros o evitar sobreajuste).

2. Regresión con Modelos Lineales

¿Qué es una Variable Explicativa y una Variable Dependiente?

La Variable Explicativa (o Independiente) es el atributo que se utiliza para explicar o predecir la variable dependiente.
La Variable Dependiente es el atributo cuyo valor se desea predecir o explicar. Existe una relación matemática (función `f`) entre la explicativa (`x`) y la dependiente (`y`), expresada como `y = f(x)`.

¿Qué es un Modelo de Regresión?

Es una técnica estadística para investigar y modelar la relación entre una variable dependiente y una o más variables explicativas.

¿Cuál es la Expresión Matemática de las Predicciones de un Modelo Lineal Simple (una variable explicativa)?

La expresión es: Ŷ = β₀ + β₁ * Xᵢ, donde Ŷ es la predicción de la variable dependiente, Xᵢ es el valor de la variable explicativa para el ejemplo i, β₀ es el intercepto y β₁ es la pendiente.

¿Cuál es la Interpretación de los Parámetros en un Modelo Lineal Simple?

La interpretación del parámetro β₁ (pendiente) es que, por cada incremento de una unidad en la variable explicativa (X), la variable dependiente (Y) se espera que incremente (o disminuya) en β₁ unidades, manteniendo todo lo demás constante.
El parámetro β₀ (intercepto) representa el valor esperado de Y cuando X es cero.

3. Regresión con Modelos No Lineales

¿Qué es un Modelo No Lineal?

Mientras que un modelo lineal representa una recta (en 2D) o un plano/hiperplano (en dimensiones superiores), un modelo no lineal puede representar una superficie curva o cualquier otra forma que no sea lineal. Existen infinitas posibilidades de modelos no lineales.

¿Cómo se Pueden Abordar Relaciones No Lineales en Regresión?

Mediante el uso de transformaciones de las variables originales, como:
- Doble logaritmo
- Exponencial
- Logística
Mediante el uso de modelos intrínsecamente no lineales.

¿Qué es un Modelo Lineal por Tramos (Piecewise Linear Model)?

Consiste en dividir el rango de la variable explicativa en segmentos (tramos) disjuntos y ajustar un modelo lineal diferente en cada segmento.
Puede ser más comprensible si los tramos tienen un significado práctico.
A menudo, el modelo resultante presenta discontinuidades (saltos) en los puntos de unión de los tramos.

¿Qué Ventajas e Inconvenientes Tienen los Modelos Lineales por Tramos? ¿Por Qué se Consideran No Lineales?

Ventaja: Puede ser más comprensible que otros modelos no lineales si los puntos de división de los tramos tienen un significado contextual.
Desventaja: Generalmente presenta discontinuidades (saltos) en los puntos de unión de los tramos.
Se considera no lineal porque la combinación de los diferentes segmentos lineales puede aproximar una relación global no lineal.

¿Los Modelos Lineales por Tramos con Muchos Segmentos Tienden al Subajuste o al Sobreajuste?

Tienden al sobreajuste, ya que un gran número de tramos permite que el modelo se ajuste de forma muy específica a las fluctuaciones de los datos de entrenamiento, perdiendo capacidad de generalización.

¿Cómo Funciona el Suavizado con Kernel (Sin Formulación Matemática)?

Para predecir el valor en un punto específico, se considera una ‘ventana’ de datos cercanos a ese punto.
Los puntos dentro de la ventana se consideran ‘activos’ y se les asigna un peso que generalmente disminuye a medida que se alejan del punto central.
Se ajusta un modelo local (a menudo lineal) a estos puntos ponderados (por ejemplo, usando mínimos cuadrados ponderados).
Este proceso se repite para cada punto donde se desea una predicción, moviendo la ventana.

¿Qué Ventajas e Inconvenientes Tiene el Suavizado con Kernel?

Ventaja: El modelo resultante es continuo y suave, sin los saltos de los modelos por tramos.
Desventaja: El modelo resultante es a menudo una ‘caja negra’; no proporciona una fórmula simple o parámetros interpretables.

¿El Suavizado con Kernel es un Método Paramétrico o No Paramétrico? ¿Por Qué?

Es no paramétrico.
Es no paramétrico porque la complejidad del modelo no está fijada de antemano por un número fijo de parámetros (como en la regresión lineal), sino que depende de los datos y del tamaño de la ventana utilizada.

¿De Qué Manera se Puede Producir Subajuste o Sobreajuste con el Suavizado con Kernel?

Se produce sobreajuste cuando la anchura de la ventana es muy estrecha, ya que el modelo se ajusta demasiado a las variaciones locales de los datos de entrenamiento.
Se produce subajuste cuando la anchura de la ventana es muy ancha, ya que el modelo se vuelve demasiado suave y no captura las tendencias locales de los datos.