Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Modelo de Linguagem Grande (LLM)

Explore os fundamentos dos Modelos de Linguagem de Grande Porte (LLMs). Aprenda sobre a arquitetura Transformer, tokenização e como combinar LLMs com Ultralytics .

Um Modelo de Linguagem Grande (LLM) é um tipo sofisticado de Inteligência Artificial (IA) treinado em conjuntos de dados massivos para compreender, gerar e manipular a linguagem humana. Esses modelos representam uma evolução significativa no Deep Learning (DL), utilizando redes neurais com bilhões de parâmetros para capturar padrões linguísticos complexos, gramática e relações semânticas. Em sua essência, a maioria dos LLMs modernos depende da arquitetura Transformer, que lhes permite processar sequências de dados em paralelo, em vez de sequencialmente. Esta arquitetura emprega um mecanismo de autoatenção, permitindo que o modelo pondera a importância de diferentes palavras numa frase em relação umas às outras, independentemente da sua distância no texto.

Mecanismos centrais dos LLMs

A funcionalidade de um LLM começa com a tokenização, um processo em que o texto bruto é dividido em unidades menores chamadas tokens (palavras ou subpalavras). Durante a fase de treino do modelo, o sistema analisa petabytes de texto da Internet, livros e artigos. Ele se envolve em aprendizagem não supervisionada para prever o próximo token em uma sequência, aprendendo efetivamente a estrutura estatística da linguagem.

Após este treino inicial, os programadores frequentemente aplicam ajustes para especializar o modelo para tarefas distintas, como análise médica ou assistência à codificação. Esta adaptabilidade é a razão pela qual organizações como o Centro de Investigação em Modelos Fundamentais de Stanford classify como «modelos fundamentais» — bases amplas sobre as quais são construídas aplicações específicas.

Aplicações no Mundo Real

Os LLMs foram além da pesquisa teórica e passaram a ser aplicados de forma prática e com grande impacto em vários setores:

  • Assistentes virtuais inteligentes: O atendimento ao cliente moderno depende muito de chatbots alimentados por LLMs. Ao contrário dos sistemas mais antigos baseados em regras, esses agentes podem lidar com consultas mais complexas. Para melhorar a precisão e reduzir alucinações, os desenvolvedores integram Retrieval Augmented Generation (RAG), permitindo que o modelo consulte documentação externa e atualizada da empresa antes de responder.
  • Sistemas multimodais de visão-linguagem: a fronteira da IA conecta texto com dados visuais. Modelos de visão-linguagem (VLMs) permitem que os utilizadores pesquisem imagens usando linguagem natural. Por exemplo, combinar uma interface linguística com um detetor robusto como o YOLO26 permite que os sistemas identifiquem e descrevam objetos em transmissões de vídeo em tempo real com base em comandos falados.

Unindo texto e visão com código

Enquanto os LLMs padrão processam texto, a indústria está a mudar para a IA multimodal. O exemplo a seguir demonstra como prompts linguísticos podem controlar tarefas de visão computacional usando o YOLO, um modelo que compreende descritores de texto para deteção de vocabulário aberto.

from ultralytics import YOLOWorld

# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])

# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

Distinguir conceitos relacionados

É importante diferenciar LLMs de termos mais amplos ou paralelos:

  • LLM vs. Processamento de Linguagem Natural (NLP): NLP é o campo académico abrangente que se ocupa da interação entre computadores e a linguagem humana. Um LLM é uma ferramenta ou tecnologia específica utilizada nesse campo para alcançar resultados de ponta.
  • LLM vs. IA generativa: A IA generativa é uma categoria que abrange qualquer IA capaz de criar novos conteúdos. Os LLMs são o subconjunto baseado em texto desta categoria, enquanto modelos como o Stable Diffusion representam o subconjunto de geração de imagens .

Desafios e perspectivas futuras

Apesar das suas capacidades, os LLMs enfrentam desafios relacionados com o viés na IA, pois podem reproduzir inadvertidamente preconceitos encontrados nos seus dados de treino. Além disso, o enorme poder computacional necessário para treinar modelos como o GPT-4 ou o Google levanta preocupações sobre o consumo de energia. A investigação está atualmente focada na quantização de modelos para tornar esses sistemas eficientes o suficiente para serem executados em hardware de ponta.

Para obter informações técnicas mais aprofundadas, o artigo original Attention Is All You Need fornece a teoria fundamental para Transformers. Também pode explorar como NVIDIA está a otimizar o hardware para essas enormes cargas de trabalho.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora