CatBoost

Explora CatBoost, un potente algoritmo de "gradient boosting" para datos categóricos. Aprende cómo mejora el modelado predictivo junto con YOLO26 de Ultralytics para los flujos de trabajo de IA.

CatBoost (Categorical Boosting) es un algoritmo de aprendizaje automático de código abierto basado en gradient boosting sobre árboles de decisión. Desarrollado por Yandex, está diseñado para ofrecer un alto rendimiento con una preparación mínima de los datos, destacando específicamente en el manejo de datos categóricos: variables que representan grupos o etiquetas distintos en lugar de valores numéricos. Mientras que los algoritmos tradicionales a menudo requieren técnicas de preprocesamiento complejas como one-hot encoding para convertir categorías en números, CatBoost puede procesar estas características directamente durante el entrenamiento. Esta capacidad, combinada con su aptitud para reducir el sobreajuste mediante el boosting ordenado, lo convierte en una opción robusta para una amplia gama de tareas de predictive modeling en ciencia de datos.

Link to this sectionPrincipales ventajas y mecanismo#

CatBoost se distingue de otros métodos de ensemble a través de varias decisiones arquitectónicas que priorizan la precisión y la facilidad de uso.

Soporte nativo para datos categóricos: El algoritmo utiliza una técnica llamada estadísticas de objetivo ordenado para convertir valores categóricos en números durante el entrenamiento. Esto evita la fuga de datos del objetivo que a menudo se observa con métodos de codificación estándar, preservando la integridad del proceso de validación.
Ordered Boosting: Los métodos de gradient boosting estándar pueden sufrir de desplazamiento de predicción, un tipo de bias in AI. CatBoost aborda esto utilizando un enfoque basado en permutaciones para entrenar el modelo, asegurando que este no se sobreajuste a la distribución específica de los datos de entrenamiento.
Árboles simétricos: A diferencia de muchas otras librerías de boosting que desarrollan árboles en profundidad o por hojas, CatBoost construye árboles simétricos (equilibrados). Esta estructura permite velocidades de inferencia extremadamente rápidas, lo cual es crucial para aplicaciones de real-time inference.

Link to this sectionCatBoost frente a XGBoost y LightGBM#

CatBoost es evaluado frecuentemente junto a otras librerías de boosting populares. Aunque comparten el mismo marco de trabajo subyacente, poseen características distintas.

XGBoost: Una librería altamente flexible y ampliamente utilizada, conocida por su rendimiento en data science competitions. Por lo general, requiere una cuidadosa hyperparameter tuning y la codificación manual de variables categóricas para alcanzar su máximo rendimiento.
LightGBM: Esta librería utiliza una estrategia de crecimiento basada en hojas, lo que la hace excepcionalmente rápida para el entrenamiento en conjuntos de datos masivos. Sin embargo, sin una regularización cuidadosa, puede ser propensa al overfitting en conjuntos de datos más pequeños en comparación con los árboles simétricos estables de CatBoost.
CatBoost: A menudo proporciona la mejor precisión "lista para usar" con parámetros predeterminados. Generalmente es la opción preferida cuando los conjuntos de datos contienen una cantidad significativa de características categóricas, reduciendo la necesidad de una amplia feature engineering.

Link to this sectionAplicaciones en el mundo real#

La robustez de CatBoost lo convierte en una herramienta versátil en diversas industrias que manejan datos estructurados.

Evaluación de riesgo financiero: Los bancos y las empresas de tecnología financiera utilizan CatBoost para evaluar la elegibilidad de préstamos y predecir impagos de crédito. El modelo puede integrar perfectamente diversos tipos de datos, como la profesión de un solicitante (categórico) y su nivel de ingresos (numérico), para crear perfiles de riesgo precisos. Esta capacidad es una piedra angular de la moderna AI in finance.
Recomendaciones de comercio electrónico: Los minoristas en línea aprovechan CatBoost para potenciar recommendation systems personalizados. Al analizar registros de comportamiento del usuario, categorías de productos e historial de compras, el algoritmo predice la probabilidad de que un usuario haga clic o compre un artículo, contribuyendo directamente a la optimización de la AI in retail.

Link to this sectionIntegración con la visión artificial#

Aunque CatBoost es principalmente una herramienta para datos tabulares, desempeña un papel vital en flujos de trabajo de multi-modal model donde los datos visuales se combinan con metadatos estructurados. Un flujo de trabajo común implica utilizar un modelo de visión artificial para extraer características de las imágenes y luego introducir esas características en un clasificador CatBoost.

Por ejemplo, un sistema de valoración inmobiliaria podría utilizar Ultralytics YOLO26 para realizar object detection en fotos de propiedades, contabilizando comodidades como piscinas o paneles solares. Los conteos de estos objetos se pasan luego como características numéricas a un modelo CatBoost, junto con los datos de ubicación y metros cuadrados, para predecir el valor de la vivienda. Los desarrolladores pueden gestionar el componente de visión de estos pipelines utilizando la Ultralytics Platform, que simplifica la gestión de conjuntos de datos y el despliegue de modelos.

El siguiente ejemplo demuestra cómo cargar un modelo YOLO preentrenado para extraer conteos de objetos de una imagen, los cuales podrían servir posteriormente como características de entrada para un modelo CatBoost.

from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("path/to/property_image.jpg")

# Extract class counts (e.g., counting 'cars' or 'pools')
# This dictionary can be converted to a feature vector for CatBoost
class_counts = {}
for result in results:
    for cls in result.boxes.cls:
        class_name = model.names[int(cls)]
        class_counts[class_name] = class_counts.get(class_name, 0) + 1

print(f"Features for CatBoost: {class_counts}")

Explore solutions

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

CatBoost

Link to this sectionPrincipales ventajas y mecanismo#

Link to this sectionCatBoost frente a XGBoost y LightGBM#

Link to this sectionAplicaciones en el mundo real#

Link to this sectionIntegración con la visión artificial#

Explore solutions

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

¡Construyamos juntos el futuro de la IA!