Glossário

CatBoost

Impulsiona os teus projectos de aprendizagem automática com o CatBoost, uma poderosa biblioteca de gradiente de reforço que se destaca no tratamento de dados categóricos e em aplicações do mundo real.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A CatBoost é uma biblioteca sofisticada e de código aberto de reforço de gradiente desenvolvida pela Yandex. Ganhou uma popularidade significativa na comunidade de aprendizagem automática (ML) devido à sua capacidade excecional de lidar diretamente com caraterísticas categóricas, o que muitas vezes leva a uma maior precisão do modelo e reduz a necessidade de um pré-processamento de dados extensivo. Baseado nos princípios do gradient boosting, o CatBoost emprega métodos de conjunto usando árvores de decisão, mas incorpora técnicas exclusivas para gerenciar dados de forma eficaz, particularmente dados estruturados ou tabulares comuns em muitas aplicações comerciais.

Conceitos e técnicas fundamentais

A base do CatBoost está no gradient boosting, em que os modelos são construídos sequencialmente, com cada novo modelo a tentar corrigir os erros cometidos pelos anteriores. O CatBoost apresenta várias inovações importantes:

  • Tratamento optimizado de caraterísticas categóricas: Ao contrário de muitos algoritmos que requerem a conversão manual de caraterísticas categóricas (como nomes de cidades ou tipos de produtos) em formatos numéricos (por exemplo, por meio de codificação de um ponto), o CatBoost implementa novas estratégias, como boosting ordenado e estatísticas de destino. Isto permite-lhe utilizar diretamente caraterísticas categóricas e capturar eficazmente dependências complexas sem engenharia extensiva de caraterísticas.
  • Reforço ordenado: Uma técnica concebida para combater a fuga de objectivos (em que a informação da variável-alvo influencia inadvertidamente o tratamento das caraterísticas durante o treino) e reduzir o sobreajuste. Isto ajuda a melhorar a generalização do modelo para dados não vistos.
  • Árvores Simétricas: O CatBoost usa árvores de decisão simétricas (ou oblivious), onde o mesmo critério de divisão é aplicado em todo um nível da árvore. Essa estrutura atua como uma forma de regularização, acelera a execução e ajuda a evitar o overfitting.

Distingue o CatBoost de algoritmos semelhantes

O CatBoost é muitas vezes comparado com outras bibliotecas populares de gradient boosting, como o XGBoost e o LightGBM. Embora as três sejam ferramentas poderosas para tarefas de aprendizagem supervisionada em dados tabulares, a principal vantagem do CatBoost reside no seu tratamento nativo e avançado de caraterísticas categóricas. Isso geralmente simplifica o pipeline de modelagem, exigindo menos ajuste manual de hiperparâmetros e pré-processamento em comparação com o XGBoost ou o LightGBM, especialmente ao lidar com conjuntos de dados ricos em variáveis categóricas. É importante lembrar que essas máquinas de gradiente boosting são excelentes principalmente com dados estruturados e tabulares. Para tarefas que envolvem dados não estruturados, como imagens ou vídeos, típicas da visão computacional (CV), são necessárias arquitecturas especializadas, como as redes neurais convolucionais (CNN) e modelos como o Ultralytics YOLO são geralmente preferidos. Esses modelos de CV lidam com tarefas como classificação de imagens, deteção de objetos e segmentação de imagens, muitas vezes gerenciadas e implantadas usando plataformas como o Ultralytics HUB.

Aplicações no mundo real

Os pontos fortes do CatBoost tornam-no adequado para uma vasta gama de aplicações, particularmente quando os dados incluem uma mistura de tipos numéricos e categóricos:

  • Deteção de fraudes financeiras: No sector bancário e financeiro(IA em finanças), o CatBoost pode utilizar eficazmente caraterísticas categóricas como o tipo de transação, a categoria do comerciante, a localização do utilizador e a hora do dia para criar modelos robustos para identificar actividades fraudulentas. A sua capacidade de lidar com estas caraterísticas sem um pré-processamento extensivo é altamente valiosa. Sabe mais sobre o ML na deteção de fraudes.
  • Sistemas de Recomendação de Comércio Eletrônico: O CatBoost pode alimentar os sistemas de recomendação, aprendendo com os dados de comportamento do utilizador, que muitas vezes incluem informações categóricas como categorias de produtos, marcas, dados demográficos do utilizador e histórico de navegação. Isso ajuda a fornecer sugestões personalizadas de produtos. Explora o Manual de Sistemas de Recomendação para obter mais contexto.
  • Previsão da rotatividade de clientes: As empresas utilizam o CatBoost para prever quais os clientes que provavelmente deixarão de utilizar o seu serviço, aproveitando dados categóricos como planos de subscrição, tipos de interação com o apoio ao cliente e informações demográficas.
  • Previsão do tempo: A previsão de padrões meteorológicos envolve inúmeras variáveis categóricas (como tipos de nuvens ou tipos de precipitação) juntamente com dados numéricos, tornando o CatBoost uma opção viável.
  • Apoio ao diagnóstico médico: Enquanto a análise de imagens médicas geralmente se baseia em modelos CV, o CatBoost pode ser usado com dados estruturados de pacientes (incluindo campos categóricos como sintomas ou códigos de histórico médico) para ajudar nas previsões de diagnóstico.

Ferramentas e integração

O CatBoost está disponível como uma biblioteca de código aberto com APIs de fácil utilização, principalmente para Pythonmas também suporta R e interfaces de linha de comando. Integra-se bem com estruturas comuns de ciência de dados, como Pandas e Scikit-learn, facilitando a incorporação em pipelines MLOps existentes. Os cientistas de dados utilizam-no frequentemente em ambientes como os notebooks Jupyter e em plataformas como o Kaggle para competições e investigação. Embora o CatBoost seja diferente de estruturas de aprendizagem profunda como PyTorch e TensorFlowrepresenta uma alternativa poderosa para tipos específicos de dados e problemas, particularmente no domínio da modelagem preditiva tabular. Podes encontrar documentação detalhada e tutoriais no site oficial do CatBoost. Para obter informações sobre a avaliação do desempenho do modelo, consulta os guias sobre métricas de desempenhoYOLO , que abrangem conceitos aplicáveis à modelação de ML.

Lê tudo