Conceptos Fundamentales de Minería de Datos y Modelos de Regresión
1. Conceptos Básicos de Minería de Datos
¿Qué es el Aprendizaje Automático?
- El Aprendizaje Automático (Machine Learning) consiste en un conjunto de técnicas que tienen el objetivo de obtener un conjunto de reglas o modelos a partir de unos datos proporcionados, de tal modo que aplicando esas reglas y modelos a casos nuevos obtengamos resultados satisfactorios.
¿Cuáles son los Elementos Fundamentales para Realizar Minería de Datos?
- Vista Minable (tabla con datos)
- Tipo de Tarea (predictiva, descriptiva)
- Sesgos
- Técnicas
- Patrones
¿Qué es la Vista Minable?
- La Vista Minable es una tabla con datos. Cada fila es un ejemplo, cada columna es un atributo y, además, puede haber una columna que etiqueta a cada ejemplo.
¿Qué Tipos de Tareas se Realizan en Minería de Datos? ¿En Qué se Diferencian?
- Clasificación: Los atributos son características de diferentes contratos, que están clasificados como buenos o malos. El objetivo es predecir la clase (bueno/malo).
- Agrupamiento (Clustering): Los atributos son características de diferentes computadores. El objetivo es agrupar ejemplos similares sin una etiqueta predefinida.
- Predicción (Regresión): También denominada regresión. El objetivo es predecir un valor numérico continuo.
¿Qué Diferencia Hay entre Técnica de Minería y Tarea de Minería?
- Son distintos porque una tarea se puede realizar mediante varias técnicas o métodos; sin embargo, cada técnica tiene una expresividad diferente.
¿Qué son los Patrones?
- Un patrón es un conjunto de reglas o modelos que identifican relaciones o estructuras en un subconjunto de datos.
¿Qué es el Subajuste y el Sobreajuste?
- Subajuste: Modelo demasiado simple, excesivamente generalista. No captura la complejidad de los datos.
- Sobreajuste: Modelo demasiado complejo, poco generalista. Se ajusta demasiado al ruido de los datos de entrenamiento y no generaliza bien a datos nuevos.
¿Qué es la Comprensibilidad? ¿Toda Técnica Genera un Modelo Comprensible? ¿Por Qué?
- La Comprensibilidad se refiere a la facilidad con la que un ser humano puede entender cómo funciona un modelo y por qué hace una predicción particular. No toda técnica genera un modelo comprensible.
- Tipos de modelos (relacionado con la comprensibilidad):
- Anticipativos: Impacientes. Una vez construido el modelo (ej. árbol de decisión, reglas), ya no necesitamos los ejemplos originales para predecir. La respuesta es muy rápida y el modelo suele ser más comprensible.
- Retardados: Perezosos. No se construye un modelo explícito; se usan siempre todos o un subconjunto de los ejemplos originales para hacer una predicción (ej. k-NN). Cuantos más ejemplos, más lento. Suelen ser menos comprensibles.
¿En Cuántos Subconjuntos se Divide el Conjunto de Datos para el Aprendizaje? ¿Cuál es la Función de Cada Uno?
- Conjunto de Entrenamiento: Son los datos que se utilizan para aprender el modelo.
- Conjunto de Test: Sirven para medir la eficiencia final de nuestro sistema entrenado en datos no vistos durante el entrenamiento.
- Conjunto de Validación: El conjunto de validación ayuda a decidir si debemos parar la iteración durante el entrenamiento (por ejemplo, para ajustar hiperparámetros o evitar sobreajuste).
2. Regresión con Modelos Lineales
¿Qué es una Variable Explicativa y una Variable Dependiente?
- La Variable Explicativa (o Independiente) es el atributo que se utiliza para explicar o predecir la variable dependiente.
- La Variable Dependiente es el atributo cuyo valor se desea predecir o explicar. Existe una relación matemática (función `f`) entre la explicativa (`x`) y la dependiente (`y`), expresada como `y = f(x)`.
¿Qué es un Modelo de Regresión?
- Es una técnica estadística para investigar y modelar la relación entre una variable dependiente y una o más variables explicativas.
¿Cuál es la Expresión Matemática de las Predicciones de un Modelo Lineal Simple (una variable explicativa)?
- La expresión es:
Ŷ = β₀ + β₁ * Xᵢ
, dondeŶ
es la predicción de la variable dependiente,Xᵢ
es el valor de la variable explicativa para el ejemploi
,β₀
es el intercepto yβ₁
es la pendiente.
¿Cuál es la Interpretación de los Parámetros en un Modelo Lineal Simple?
- La interpretación del parámetro β₁ (pendiente) es que, por cada incremento de una unidad en la variable explicativa (
X
), la variable dependiente (Y
) se espera que incremente (o disminuya) en β₁ unidades, manteniendo todo lo demás constante. - El parámetro β₀ (intercepto) representa el valor esperado de
Y
cuandoX
es cero.
3. Regresión con Modelos No Lineales
¿Qué es un Modelo No Lineal?
- Mientras que un modelo lineal representa una recta (en 2D) o un plano/hiperplano (en dimensiones superiores), un modelo no lineal puede representar una superficie curva o cualquier otra forma que no sea lineal. Existen infinitas posibilidades de modelos no lineales.
¿Cómo se Pueden Abordar Relaciones No Lineales en Regresión?
- Mediante el uso de transformaciones de las variables originales, como:
- Doble logaritmo
- Exponencial
- Logística
- Mediante el uso de modelos intrínsecamente no lineales.
¿Qué es un Modelo Lineal por Tramos (Piecewise Linear Model)?
- Consiste en dividir el rango de la variable explicativa en segmentos (tramos) disjuntos y ajustar un modelo lineal diferente en cada segmento.
- Puede ser más comprensible si los tramos tienen un significado práctico.
- A menudo, el modelo resultante presenta discontinuidades (saltos) en los puntos de unión de los tramos.
¿Qué Ventajas e Inconvenientes Tienen los Modelos Lineales por Tramos? ¿Por Qué se Consideran No Lineales?
- Ventaja: Puede ser más comprensible que otros modelos no lineales si los puntos de división de los tramos tienen un significado contextual.
- Desventaja: Generalmente presenta discontinuidades (saltos) en los puntos de unión de los tramos.
- Se considera no lineal porque la combinación de los diferentes segmentos lineales puede aproximar una relación global no lineal.
¿Los Modelos Lineales por Tramos con Muchos Segmentos Tienden al Subajuste o al Sobreajuste?
- Tienden al sobreajuste, ya que un gran número de tramos permite que el modelo se ajuste de forma muy específica a las fluctuaciones de los datos de entrenamiento, perdiendo capacidad de generalización.
¿Cómo Funciona el Suavizado con Kernel (Sin Formulación Matemática)?
- Para predecir el valor en un punto específico, se considera una ‘ventana’ de datos cercanos a ese punto.
- Los puntos dentro de la ventana se consideran ‘activos’ y se les asigna un peso que generalmente disminuye a medida que se alejan del punto central.
- Se ajusta un modelo local (a menudo lineal) a estos puntos ponderados (por ejemplo, usando mínimos cuadrados ponderados).
- Este proceso se repite para cada punto donde se desea una predicción, moviendo la ventana.
¿Qué Ventajas e Inconvenientes Tiene el Suavizado con Kernel?
- Ventaja: El modelo resultante es continuo y suave, sin los saltos de los modelos por tramos.
- Desventaja: El modelo resultante es a menudo una ‘caja negra’; no proporciona una fórmula simple o parámetros interpretables.
¿El Suavizado con Kernel es un Método Paramétrico o No Paramétrico? ¿Por Qué?
- Es no paramétrico.
- Es no paramétrico porque la complejidad del modelo no está fijada de antemano por un número fijo de parámetros (como en la regresión lineal), sino que depende de los datos y del tamaño de la ventana utilizada.
¿De Qué Manera se Puede Producir Subajuste o Sobreajuste con el Suavizado con Kernel?
- Se produce sobreajuste cuando la anchura de la ventana es muy estrecha, ya que el modelo se ajusta demasiado a las variaciones locales de los datos de entrenamiento.
- Se produce subajuste cuando la anchura de la ventana es muy ancha, ya que el modelo se vuelve demasiado suave y no captura las tendencias locales de los datos.