Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Regresión Logística

Explora los fundamentos de la regresión logística para la clasificación binaria. Aprende sobre la función sigmoide, las puntuaciones de probabilidad y cómo se compara con YOLO26.

La regresión logística es un método estadístico fundamental y un algoritmo de aprendizaje automático que se utiliza principalmente para tareas de clasificación binaria . A pesar de que su nombre contiene la palabra «regresión», que normalmente implica la predicción de valores continuos (como la temperatura o los precios de las acciones), la regresión logística está diseñada para predecir la probabilidad de que una entrada determinada pertenezca a una categoría específica. Esto la convierte en una herramienta crucial para problemas en los que el resultado es dicotómico, como determinar si un correo electrónico es «spam» o «no spam», o si un tumor médico es «benigno» o «maligno». Sirve de puente entre la estadística tradicional y el moderno aprendizaje supervisado, ofreciendo un equilibrio entre simplicidad e interpretabilidad que a menudo se utiliza como referencia antes de implementar modelos más complejos, como las redes neuronales .

Mecanismos básicos y probabilidad

A diferencia de la regresión lineal, que ajusta una línea recta a los puntos de datos para predecir un resultado continuo, la regresión logística ajusta una curva en forma de «S» a los datos. Esta curva se genera utilizando la función sigmoide, una transformación matemática que mapea cualquier número de valor real en un valor entre 0 y 1. Este resultado representa una puntuación de probabilidad, que indica la confianza de que una instancia pertenece a la clase positiva.

Durante el proceso de entrenamiento, el algoritmo aprende weights and biases para minimizar el error. Esto se consigue normalmente utilizando un algoritmo de optimización como el descenso de gradiente, que ajusta iterativamente los parámetros del modelo para reducir la diferencia entre las probabilidades previstas y las etiquetas de clase reales. El rendimiento se evalúa a menudo utilizando una función de pérdida específica denominada pérdida logarítmica o entropía binaria entropía cruzada binaria. Una vez que el modelo genera una probabilidad, un límite de decisión (a menudo establecido en 0,5) clasifica la entrada: los valores por encima del umbral se convierten en la clase positiva y los valores por debajo se convierten en la clase negativa.

Distinción de términos afines

Es importante distinguir la regresión logística de conceptos similares para evitar confusiones:

  • Regresión lineal frente a regresión logística: mientras que la regresión lineal predice resultados numéricos continuos (por ejemplo, los precios de la vivienda), la regresión logística predice resultados categóricos a través de probabilidades.
  • Clasificación frente a regresión: en el aprendizaje automático, las tareas de clasificación implican predecir etiquetas discretas, mientras que las tareas de regresión predicen cantidades continuas. La regresión logística es un algoritmo de clasificación a pesar de su nombre.
  • Percep trón: un perceptrón simple utiliza una función escalonada para generar directamente un 0 o un 1 binario, mientras que la regresión logística utiliza la función sigmoide suave para generar una probabilidad, lo que ofrece más matices.

Aplicaciones en el mundo real

La regresión logística sigue siendo ampliamente utilizada en diversas industrias debido a su eficiencia y a la facilidad con la que se pueden interpretar sus resultados.

  • Asistencia sanitaria y diagnóstico médico: Los profesionales médicos utilizan estos modelos para predecir la probabilidad de que un paciente desarrolle una enfermedad específica, como diabetes o cardiopatías, basándose en factores como la edad, el IMC y la presión arterial. Esto ayuda en el análisis de imágenes médicas y la toma de decisiones tempranas.
  • Puntuación crediticia y finanzas: Los bancos utilizan la regresión logística para evaluar el riesgo de conceder un préstamo a un cliente. Mediante el análisis de características como el historial crediticio y los ingresos, el modelo predice la probabilidad de que un prestatario incumpla el pago de un préstamo, automatizando así el modelo predictivo para la seguridad financiera.
  • Marketing y predicción de la pérdida de clientes: Las empresas analizan el comportamiento de los clientes para predecir si un usuario se suscribirá a un servicio o dejará de utilizar un producto (pérdida de clientes). Esta información ayuda a perfeccionar las estrategias de retención de clientes y a orientar las campañas de marketing de forma eficaz.

Implementación moderna

Mientras que los modelos de aprendizaje profundo como YOLO26 son los preferidos para tareas complejas como la detección de objetos, la regresión logística suele ser la capa final en las redes de clasificación de imágenes binarias . Por ejemplo, una red neuronal convolucional puede extraer características, y la capa final actúa como un clasificador de regresión logística para determinar si una imagen contiene un «gato» o un «perro».

Herramientas como la Ultralytics simplifican el flujo de trabajo para entrenar modelos de clasificación complejos que utilizan estos principios subyacentes. Sin embargo, para comprender el concepto básico, las bibliotecas simples pueden demostrar la mecánica.

Aquí hay un ejemplo básico utilizando torch para definir una estructura de modelo de regresión logística de una sola capa:

import torch
import torch.nn as nn


# Define a simple Logistic Regression model class
class LogisticRegression(nn.Module):
    def __init__(self, input_dim):
        super().__init__()
        # A single linear layer maps input features to a single output
        self.linear = nn.Linear(input_dim, 1)

    def forward(self, x):
        # The sigmoid function transforms the linear output to a probability (0 to 1)
        return torch.sigmoid(self.linear(x))


# Example usage: Initialize model for 10 input features
model = LogisticRegression(input_dim=10)
print(model)

Ventajas y limitaciones

Comprender las fortalezas y debilidades de este algoritmo ayuda a seleccionar la herramienta adecuada para cada tarea.

  • Interpretabilidad: Los coeficientes del modelo (ponderaciones) indican directamente la relación entre las características de entrada y la variable objetivo. Una ponderación positiva implica que, a medida que aumenta la característica, aumenta la probabilidad de que el resultado sea positivo. Esta transparencia es vital para la ética de la IA y para explicar las decisiones a las partes interesadas.
  • Eficiencia: Requiere menos potencia computacional en comparación con las complejas arquitecturas de aprendizaje profundo, lo que lo hace adecuado para aplicaciones con requisitos de baja latencia o hardware limitado.
  • Linealidad de los datos: una limitación clave es que asume una relación lineal entre las variables de entrada y la probabilidad logarítmica del resultado. Puede tener dificultades con patrones de datos muy complejos y no lineales, en los que técnicas avanzadas como las máquinas de vectores de soporte (SVM) o los bosques aleatorios pueden destacar.
  • Sobreajuste: en conjuntos de datos de alta dimensión con pocos ejemplos de entrenamiento, la regresión logística puede ser propensa al sobreajuste, aunque esto se puede mitigar utilizando técnicas de regularización.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora