Glossário

Modelos de sequência para sequência

Descubra como os modelos sequência-a-sequência transformam as sequências de entrada em sequências de saída, potenciando tarefas de IA como tradução, chatbots e reconhecimento de voz.

Os modelos Sequence-to-Sequence (Seq2Seq) são uma classe de modelos de aprendizagem profunda concebidos para transformar uma sequência de entrada numa sequência de saída, em que os comprimentos da entrada e da saída podem ser diferentes. Esta flexibilidade torna-os excecionalmente poderosos para uma vasta gama de tarefas no Processamento de Linguagem Natural (PLN) e não só. A ideia central foi introduzida em artigos de investigadores da Google e do laboratório de Yoshua Bengio, revolucionando domínios como a tradução automática.

Como funcionam os modelos Seq2Seq

Os modelos Seq2Seq são construídos com base numa arquitetura codificador-descodificador. Esta estrutura permite ao modelo tratar eficazmente sequências de comprimento variável.

  • O codificador: Este componente processa toda a sequência de entrada, como uma frase em inglês. Lê a sequência um elemento de cada vez (por exemplo, palavra a palavra) e comprime a informação numa representação numérica de comprimento fixo chamada vetor de contexto ou "vetor de pensamento". Tradicionalmente, o codificador é uma Rede Neuronal Recorrente (RNN) ou uma variante mais avançada, como a Memória de Curto Prazo Longo (LSTM), que é capaz de captar informação sequencial.

  • O descodificador: Este componente recebe o vetor de contexto do codificador como entrada inicial. A sua função é gerar a sequência de saída um elemento de cada vez. Por exemplo, numa tarefa de tradução, geraria a frase traduzida palavra a palavra. A saída de cada etapa é devolvida ao descodificador na etapa seguinte, permitindo-lhe gerar uma sequência coerente. Este processo continua até ser produzido um token especial de fim de sequência. Uma inovação fundamental que melhorou significativamente o desempenho do Seq2Seq é o mecanismo de atenção, que permite ao descodificador olhar para diferentes partes da sequência de entrada original enquanto gera a saída.

Aplicações dos modelos Seq2Seq

A capacidade de mapear entradas de comprimento variável para saídas de comprimento variável torna os modelos Seq2Seq altamente versáteis.

  • Tradução automática: Esta é a aplicação por excelência. Um modelo pode pegar numa frase numa língua (por exemplo, "How are you?") e traduzi-la para outra (por exemplo, "Wie geht es Ihnen?"). Serviços como o Google Translate têm utilizado fortemente estes princípios.
  • Sumarização de texto: Um modelo Seq2Seq pode ler um artigo ou documento longo (sequência de entrada) e gerar um resumo conciso (sequência de saída). Isso é útil para condensar grandes volumes de texto em informações digeríveis.
  • Chatbots e IA de conversação: Os modelos podem ser treinados para gerar uma resposta relevante e contextual (sequência de saída) a uma pergunta ou afirmação de um utilizador (sequência de entrada).
  • Legendagem de imagens: Embora isto envolva visão computacional, o princípio é semelhante. Uma CNN actua como codificador para processar uma imagem e criar um vetor de contexto, que um descodificador utiliza depois para gerar uma sequência de texto descritivo. Este é um exemplo de um modelo multimodal.

Seq2Seq vs. Outras Arquitecturas

Embora os modelos Seq2Seq baseados em RNNs tenham sido inovadores, o domínio evoluiu:

  • RNNs padrão: Normalmente mapeiam sequências para sequências do mesmo comprimento ou classificam sequências inteiras, não tendo a flexibilidade da estrutura codificador-descodificador para comprimentos de saída variáveis.
  • Transformadores: Agora dominam muitas tarefas de PNL anteriormente tratadas por modelos Seq2Seq baseados em RNN. Utilizam auto-atenção e codificações posicionais em vez de recorrência, permitindo uma melhor paralelização e capturando dependências de longo alcance de forma mais eficaz. O conceito subjacente de codificador-decodificador, no entanto, continua a ser central para muitos modelos baseados em Transformadores. Modelos como o RT-DETR da Baidu, apoiado pelo Ultralytics, incorporam componentes do Transformer para deteção de objectos.
  • CNNs: Utilizadas principalmente para dados em grelha, como imagens (por exemplo, nos modelos Ultralytics YOLO para deteção e segmentação), embora por vezes sejam adaptadas para tarefas de sequência.

Embora Seq2Seq se refira frequentemente à estrutura codificador-descodificador baseada em RNN, o princípio geral de mapeamento de sequências de entrada para sequências de saída utilizando uma representação intermédia continua a ser central para muitas arquitecturas modernas. Ferramentas como PyTorch e TensorFlow fornecem blocos de construção para implementar modelos de sequência tradicionais e modernos. A gestão do processo de formação pode ser optimizada utilizando plataformas como o Ultralytics HUB, que simplifica todo o pipeline de implementação do modelo.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência