Glossário

LuzGBM

Descobre o LightGBM, a estrutura de reforço de gradiente rápida e eficiente para grandes conjuntos de dados, proporcionando uma elevada precisão em aplicações de aprendizagem automática.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O LightGBM, abreviatura de Light Gradient Boosting Machine, é uma estrutura de reforço de gradiente de alto desempenho e de código aberto desenvolvida pela Microsoft Research. É amplamente utilizado na aprendizagem automática (ML) para tarefas como classificação, regressão e classificação, especialmente quando lida com grandes conjuntos de dados(Big Data). O LightGBM é conhecido pela sua velocidade e eficiência, atingindo frequentemente uma elevada precisão e consumindo menos memória em comparação com outros algoritmos de reforço. Baseia-se em conceitos encontrados em algoritmos de árvore de decisão e faz parte da família de métodos de reforço de gradiente, construindo iterativamente um conjunto de aprendizes fracos para criar um modelo preditivo forte.

Como o LightGBM alcança velocidade e eficiência

O LightGBM utiliza várias técnicas inovadoras para otimizar o desempenho e tratar eficazmente os dados em grande escala:

  • Amostragem de um lado baseada em gradiente (GOSS): Este método concentra-se nas instâncias de dados com gradientes maiores (aqueles que são atualmente mal previstos) enquanto elimina aleatoriamente as instâncias com gradientes pequenos. Mantém a precisão e reduz significativamente a quantidade de dados necessários para treinar cada árvore.
  • Agrupamento de caraterísticas exclusivas (EFB): Esta técnica agrupa caraterísticas mutuamente exclusivas (caraterísticas que raramente assumem valores diferentes de zero em simultâneo), reduzindo efetivamente o número de caraterísticas(redução da dimensionalidade) sem perder informação significativa. Isto acelera o treino, reduzindo a complexidade de encontrar os melhores pontos de separação.
  • Crescimento da árvore folha a folha: Ao contrário do crescimento tradicional por níveis, que expande as árvores camada a camada, o LightGBM cresce as árvores folha a folha. Escolhe a folha com a redução máxima de perda para dividir, levando a uma convergência mais rápida e árvores potencialmente mais complexas, embora às vezes possa levar a um ajuste excessivo se não for devidamente restringido. Podes aprender mais sobre o crescimento folha a folha na documentação oficial.

Estas optimizações, combinadas com implementações eficientes que utilizam técnicas como algoritmos baseados em histogramas, tornam o LightGBM excecionalmente rápido e eficiente em termos de memória, permitindo o treino em conjuntos de dados maciços que podem ser proibitivos para outras estruturas que utilizam algoritmos de otimização padrão.

Principais caraterísticas do LightGBM

O LightGBM oferece várias vantagens para os profissionais de ML:

  • Velocidade e eficiência: Velocidade de treino significativamente mais rápida e menor utilização de memória em comparação com muitas outras estruturas de reforço.
  • Elevada precisão: Apresenta frequentemente resultados de ponta em tarefas de dados tabulares.
  • Suporte paraGPU : Suporta treinamento em GPUs para maior aceleração.
  • Formação paralela e distribuída: Capaz de lidar com conjuntos de dados extremamente grandes através de treinamento distribuído em várias máquinas.
  • Tratamento de caraterísticas categóricas: Pode tratar diretamente caraterísticas categóricas, eliminando frequentemente a necessidade de engenharia extensiva de caraterísticas, como a codificação de uma só vez.
  • Regularização: Inclui parâmetros para regularização (como L1 e L2) para evitar o sobreajuste.
  • Manipulação de dados em grande escala: Concebido para trabalhar eficientemente com conjuntos de dados muito grandes que podem não caber na memória.
  • Afinação de hiperparâmetros: Oferece vários parâmetros que podem ser ajustados através da afinação de hiperparâmetros para otimizar o desempenho de tarefas específicas.

Consulta a documentação oficial do LightGBM e o seu repositório GitHub para uma utilização detalhada e funcionalidades avançadas. O pré-processamento adequado dos dados continua a ser importante para obter os melhores resultados.

Comparação com outras estruturas de reforço

O LightGBM é muitas vezes comparado com outras bibliotecas populares de aumento de gradiente como o XGBoost e o CatBoost. As principais diferenças incluem:

  • Velocidade: O LightGBM é geralmente considerado mais rápido que o XGBoost, especialmente em grandes conjuntos de dados, devido às suas técnicas GOSS e EFB. A velocidade do CatBoost pode ser competitiva, particularmente com caraterísticas categóricas.
  • Uso de Memória: O LightGBM normalmente usa menos memória do que o XGBoost.
  • Caraterísticas Categóricas: O CatBoost tem um sofisticado tratamento integrado para caraterísticas categóricas, muitas vezes superando o LightGBM e o XGBoost (que requer pré-processamento como a codificação one-hot) em conjuntos de dados com muitas variáveis categóricas. O LightGBM oferece um tratamento direto, mas pode ser menos robusto do que a abordagem do CatBoost.
  • Crescimento da árvore: O LightGBM usa o crescimento em forma de folha, enquanto o XGBoost e o CatBoost normalmente usam o crescimento em forma de nível (embora o XGBoost também ofereça uma opção em forma de folha).
  • Hiperparâmetros: Cada biblioteca tem seu próprio conjunto de hiperparâmetros que requerem ajuste. O CatBoost geralmente requer menos ajustes para obter bons resultados.

A escolha entre eles depende frequentemente das caraterísticas específicas do conjunto de dados (tamanho, tipos de caraterísticas) e dos requisitos do projeto. Recursos como este artigo de comparação oferecem mais informações.

Aplicações no mundo real

Os pontos fortes do LightGBM tornam-no adequado para várias aplicações que envolvem dados estruturados ou tabulares:

  1. Deteção de fraudes: No sector financeiro(IA nas finanças), o LightGBM pode processar rapidamente milhões de registos de transacções(modelação preditiva) para identificar padrões subtis indicativos de atividade fraudulenta quase em tempo real. A sua velocidade é crucial para uma intervenção atempada. Os sistemas de deteção de fraudes beneficiam muito da sua eficácia.
  2. Manutenção Preditiva: Os fabricantes(IA no fabrico) utilizam o LightGBM para analisar os dados dos sensores das máquinas. Ao treinar com dados históricos de desempenho e falhas de equipamentos, o modelo pode prever possíveis avarias antes que elas ocorram, permitindo a manutenção proativa e reduzindo o tempo de inatividade. Sabe mais sobre os conceitos de manutenção preditiva.

Outras aplicações comuns incluem a previsão da rotatividade de clientes, sistemas de recomendação, previsão da taxa de cliques, pontuação de crédito e previsão da procura. O seu desempenho tornou-o uma escolha popular em competições de ciência de dados, como as organizadas no Kaggle.

Embora o LightGBM seja excelente com dados tabulares para tarefas clássicas de ML, é diferente de modelos como o Ultralytics YOLO. Os modelos YOLO são arquitecturas especializadas de aprendizagem profunda (DL) concebidas para tarefas de visão computacional (CV), como a deteção de objectos, a classificação de imagens e a segmentação de imagens em dados de imagem ou vídeo não estruturados. Plataformas como o Ultralytics HUB facilitam o desenvolvimento e a implantação de tais modelos de CV. O LightGBM continua a ser uma ferramenta vital para problemas de dados estruturados em que a velocidade e a eficiência em grandes conjuntos de dados são fundamentais. Podes explorar o artigo de investigação original do LightGBM para obteres mais detalhes técnicos.

Lê tudo