Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Mô Hình Dãy-Sang-Dãy

Tìm hiểu cách các mô hình Sequence-to-Sequence (Seq2Seq) hỗ trợ dịch thuật và xử lý ngôn ngữ tự nhiên (NLP). Khám phá kiến ​​trúc bộ mã hóa-giải mã, Transformer và sự tích hợp với... Ultralytics YOLO26.

Mô hình chuyển đổi chuỗi sang chuỗi (Seq2Seq) là một lớp kiến ​​trúc máy học mạnh mẽ được thiết kế để chuyển đổi các chuỗi từ một lĩnh vực này sang các chuỗi trong một lĩnh vực khác. Không giống như các tác vụ phân loại hình ảnh tiêu chuẩn, nơi kích thước đầu vào và đầu ra là cố định, các mô hình Seq2Seq vượt trội trong việc xử lý đầu vào và đầu ra có độ dài thay đổi. Tính linh hoạt này khiến chúng trở thành xương sống của nhiều ứng dụng xử lý ngôn ngữ tự nhiên (NLP) hiện đại, chẳng hạn như dịch thuật và tóm tắt, nơi độ dài của câu đầu vào không nhất thiết quyết định độ dài của câu đầu ra.

Kiến trúc và chức năng cốt lõi

Cấu trúc cơ bản của mô hình Seq2Seq dựa trên khung mã hóa-giải mã. Kiến trúc này chia mô hình thành hai thành phần chính hoạt động song song để xử lý dữ liệu tuần tự.

  • Bộ mã hóa: Thành phần này xử lý chuỗi đầu vào (ví dụ: một câu trong...) English (hoặc một chuỗi các khung âm thanh) từng phần tử một. Nó nén thông tin thành một vectơ ngữ cảnh có độ dài cố định, còn được gọi là trạng thái ẩn. Trong các kiến ​​trúc truyền thống, bộ mã hóa thường được xây dựng bằng Mạng thần kinh hồi quy (RNN) hoặc mạng bộ nhớ dài hạn ngắn hạn (LSTM) , được thiết kế để lưu giữ thông tin qua các bước thời gian.
  • Bộ giải mã: Sau khi dữ liệu đầu vào được mã hóa, bộ giải mã sẽ sử dụng vectơ ngữ cảnh và dự đoán chuỗi đầu ra (ví dụ: câu tương ứng trong tiếng Pháp) từng bước một. Nó sử dụng dự đoán trước đó để tác động đến dự đoán tiếp theo, đảm bảo tính liên tục về ngữ pháp và ngữ cảnh.

Trong khi các phiên bản ban đầu chủ yếu dựa vào mạng nơ-ron hồi quy (RNN), các mô hình Seq2Seq hiện đại chủ yếu sử dụng kiến ​​trúc Transformer . Transformer sử dụng cơ chế chú ý (attention mechanism ), cho phép mô hình "chú ý" đến các phần cụ thể của chuỗi đầu vào bất kể khoảng cách của chúng so với bước hiện tại, cải thiện đáng kể hiệu suất trên các chuỗi dài như đã được trình bày chi tiết trong bài báo kinh điển " Attention Is All You Need" .

Các Ứng dụng Thực tế

Tính linh hoạt của các mô hình Seq2Seq cho phép chúng thu hẹp khoảng cách giữa phân tích văn bản và thị giác máy tính , tạo điều kiện cho các tương tác đa phương thức phức tạp.

  • Dịch máy : Có lẽ là ứng dụng nổi tiếng nhất, mô hình Seq2Seq cung cấp sức mạnh cho các công cụ như Google Translate . Mô hình này nhận một câu bằng ngôn ngữ nguồn và xuất ra một câu bằng ngôn ngữ đích, xử lý các khác biệt về ngữ pháp và cấu trúc câu một cách trôi chảy.
  • Tóm tắt văn bản : Các mô hình này có thể tiếp nhận các tài liệu hoặc bài viết dài và tạo ra các bản tóm tắt ngắn gọn. Bằng cách hiểu được ý nghĩa cốt lõi của văn bản đầu vào, bộ giải mã tạo ra một chuỗi ngắn hơn nhưng vẫn giữ được thông tin chính, một kỹ thuật thiết yếu cho việc tổng hợp tin tức tự động.
  • Chú thích ảnh: Bằng cách kết hợp thị giác và ngôn ngữ, mô hình Seq2Seq có thể mô tả nội dung của một hình ảnh. Mạng nơ-ron tích chập (CNN) đóng vai trò là bộ mã hóa để trích xuất các đặc điểm hình ảnh, trong khi mạng nơ -ron hồi quy (RNN) đóng vai trò là bộ giải mã để tạo ra câu mô tả. Đây là một ví dụ điển hình của mô hình đa phương thức .
  • Nhận dạng giọng nói : Trong các hệ thống này, đầu vào là một chuỗi các khung tín hiệu âm thanh và đầu ra là một chuỗi các ký tự văn bản hoặc từ. Công nghệ này hỗ trợ các trợ lý ảo như Siri và Alexa.

Ví dụ mã: Khối xây dựng cơ bản

Mặc dù các framework cấp cao giúp đơn giản hóa phần lớn sự phức tạp, việc hiểu cơ chế hoạt động bên dưới vẫn rất hữu ích. Đoạn mã sau đây minh họa một lớp LSTM cơ bản trong PyTorch , thường đóng vai trò là đơn vị lặp lại trong bộ mã hóa hoặc giải mã của mô hình Seq2Seq truyền thống.

import torch
import torch.nn as nn

# Initialize an LSTM layer (common in Seq2Seq encoders)
# input_size: number of features per time step (e.g., word embedding size)
# hidden_size: size of the context vector/hidden state
lstm_layer = nn.LSTM(input_size=10, hidden_size=20, batch_first=True)

# Create a dummy input sequence: Batch size 3, Sequence length 5, Features 10
input_seq = torch.randn(3, 5, 10)

# Pass the sequence through the LSTM
# output contains features for each time step; hn is the final hidden state
output, (hn, cn) = lstm_layer(input_seq)

print(f"Output shape: {output.shape}")  # Shape: [3, 5, 20]
print(f"Final Hidden State shape: {hn.shape}")  # Shape: [1, 3, 20]

So sánh với các khái niệm liên quan

Điều quan trọng là phải phân biệt các mô hình Seq2Seq với các kiến trúc khác để hiểu được tiện ích cụ thể của chúng.

  • So với Phân loại Chuẩn: Các bộ phân loại chuẩn, chẳng hạn như các bộ phân loại được sử dụng trong phân loại hình ảnh cơ bản, ánh xạ một đầu vào duy nhất (như hình ảnh) thành một nhãn lớp duy nhất. Ngược lại, các mô hình Seq2Seq ánh xạ các chuỗi thành các chuỗi, cho phép độ dài đầu ra thay đổi.
  • So với phát hiện đối tượng: Các mô hình như Ultralytics YOLO26 tập trung vào phát hiện không gian trong một khung hình duy nhất, xác định các đối tượng và vị trí của chúng. Trong khi đó, YOLO Mô hình Seq2Seq xử lý hình ảnh theo cấu trúc, trong khi mô hình Seq2Seq xử lý dữ liệu theo thời gian. Tuy nhiên, hai lĩnh vực này chồng chéo nhau trong các tác vụ như theo dõi đối tượng , nơi việc xác định quỹ đạo của đối tượng trên các khung hình video liên quan đến phân tích dữ liệu tuần tự.
  • So với Transformer: Kiến trúc Transformer là sự phát triển hiện đại của Seq2Seq. Trong khi các mô hình Seq2Seq ban đầu chủ yếu dựa vào RNN và Gated Recurrent Unit (GRU) , Transformer sử dụng khả năng tự động xử lý các chuỗi song song, mang lại những cải tiến đáng kể về tốc độ và độ chính xác.

Tầm quan trọng trong hệ sinh thái AI

Các mô hình Seq2Seq đã thay đổi căn bản cách máy móc tương tác với ngôn ngữ con người và dữ liệu thời gian. Khả năng xử lý dữ liệu phụ thuộc vào trình tự của chúng đã cho phép tạo ra các chatbot tinh vi, các công cụ dịch tự động và các công cụ tạo mã. Đối với các nhà phát triển làm việc với các tập dữ liệu lớn cần thiết để huấn luyện các mô hình này, việc sử dụng Nền tảng Ultralytics có thể giúp đơn giản hóa quy trình quản lý dữ liệu và triển khai mô hình. Khi nghiên cứu về Trí tuệ nhân tạo tạo sinh ( Generative AI ) tiến triển, các nguyên tắc mô hình hóa trình tự vẫn là trọng tâm trong việc phát triển các Mô hình Ngôn ngữ Lớn (LLM) và các hệ thống hiểu video tiên tiến.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay