Glossário

Modelo de Linguagem Grande (LLM)

Descubra como os Modelos de Linguagem Grandes (LLMs) revolucionam a IA com PNL avançada, alimentando chatbots, criação de conteúdo e muito mais. Aprenda os conceitos-chave!

Um modelo de língua de grande porte (LLM) é um tipo sofisticado de algoritmo de Inteligência Artificial (IA) que aplica técnicas de aprendizagem profunda para compreender, resumir, gerar e prever novos conteúdos. Estes modelos são treinados em conjuntos de dados maciços que incluem milhares de milhões de palavras de livros, artigos e sítios Web, o que lhes permite compreender as nuances da linguagem humana. No centro da função de um LLM é a arquitetura Transformer, que utiliza um mecanismo de auto-atenção para ponderar importância de diferentes palavras numa sequência, facilitando a compreensão contextual de frases longas e parágrafos. Esta capacidade torna-os uma pedra angular do moderno Processamento de Linguagem Natural (NLP).

Mecanismos principais e formação

O desenvolvimento de um LLM passa por duas fases principais: a pré-treino e o afinação. Durante o pré-treinamento, o modelo envolve aprendizagem não supervisionada num vasto corpus de texto não etiquetado para aprender gramática, factos e capacidades de raciocínio. Este processo baseia-se fortemente na tokenização, em que o texto é dividido em unidades unidades mais pequenas chamadas tokens. Em seguida, os programadores aplicam o ajuste fino utilizando dados de treino dados de treino rotulados para adaptar o modelo a tarefas específicas, como o diagnóstico médico ou a análise jurídica. Organizações como o Stanford Center for Research on Foundation Models (CRFM) classify estes classificam estes sistemas adaptáveis como modelos de base devido à devido à sua ampla aplicabilidade.

Aplicações no Mundo Real

Os LLMs passaram dos laboratórios de investigação para ferramentas práticas que alimentam inúmeras aplicações em todos os sectores. A sua capacidade para gerar texto coerente e processar informação levou à sua adoção generalizada.

Agentes de conversação e chatbots: Avançados chatbots avançados alimentados por modelos como GPT-4 ou Meta Llama fornecem apoio ao cliente, redigem e-mails e actuam como assistentes pessoais. assistentes pessoais. Estes sistemas utilizam frequentemente Geração Aumentada de Recuperação (RAG) para aceder a informação externa actualizada, reduzindo o risco de alucinações.
Geração de código e depuração: Ferramentas como o GitHub Copilot aproveitam os LLMs para ajudar os programadores autocompletar trechos de código, converter comentários em código funcional e explicar lógicas complexas, acelerando assim acelerando assim o ciclo de vida do desenvolvimento de software.

LLMs em IA multimodal

Embora os LLM se especializem em texto, o campo está a evoluir para IA multimodal, que integra texto com outros tipos de dados outros tipos de dados, como imagens e áudio. Isto faz a ponte entre a modelação da linguagem e a Visão por Computador (CV). Por exemplo, Modelos de Linguagem Visual (VLMs) podem analisar uma imagem e responder a perguntas sobre ela.

Neste contexto, os modelos de deteção de objectos como Ultralytics YOLO11 fornecem a compreensão visual que complementa o raciocínio textual de um LLM. Modelos especializados como o YOLO permitem aos utilizadores detect objectos utilizando objectos através de instruções de texto de vocabulário aberto, combinando eficazmente conceitos linguísticos com reconhecimento visual.

from ultralytics import YOLOWorld

# Load a YOLO-World model capable of understanding text prompts
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text
model.set_classes(["person wearing a hat", "red backpack"])

# Run inference to detect these specific text-defined objects
results = model("path/to/image.jpg")

# Display the detection results
results[0].show()

Desafios e Considerações

Apesar do seu poder, os LLM enfrentam desafios significativos. Podem apresentar podem apresentar enviesamento na IA derivada dos seus dados de treino, levando a resultados injustos ou enviesados. Além disso, o imenso custo computacional da execução destes modelos estimulou a investigação sobre quantização e otimização de modelos para os tornar mais eficientes em hardware como os da NVIDIA. Compreender estas limitações é é crucial para implementar a IA generativa de forma responsável.

Conceitos Relacionados

Processamento de linguagem natural (PNL): O domínio mais vasto da IA centrado na interação entre os computadores e a linguagem humana. Os LLM são uma ferramenta específica e e poderosa ferramenta neste domínio.
Visão computacional: Ao contrário dos LLM que processam texto, a CV permite que as máquinas interpretem informações visuais. Modelos como YOLO11 são excelentes neste domínio, embora se sobreponham cada vez mais aos LLMs em aplicações multimodais.
Tokenização: O processo de conversão de texto em entradas numéricas que o modelo pode processar. Esta é uma etapa fundamental etapa de pré-processamento fundamental para qualquer modelo de linguagem de aprendizagem profunda.

Para uma leitura mais aprofundada sobre a arquitetura fundamental dos LLM, o documento Atenção é tudo o que você precisa fornece a definição original do modelo modelo Transformer. Recursos adicionais sobre modelos de nível empresarial podem ser encontrados em IBM Research e Google DeepMind.

Modelo de Linguagem Grande (LLM)

Treine os modelosYOLO Ultralytics para simplificar os fluxos de trabalho em todos os sectores

Solução de licenciamento empresarial flexível para impulsionar sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

Mecanismos principais e formação

Aplicações no Mundo Real

LLMs em IA multimodal

Desafios e Considerações

Conceitos Relacionados

Leia mais nesta categoria

Compreender por que a anotação humana no ciclo é fundamental

O que é destilação de conjuntos de dados? Uma rápida visão geral

Os óculos Oakley Meta AI estão a redefinir os óculos com a Vision AI

Junte-se à comunidade Ultralytics