Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Quay lại Bảng thuật ngữ Ultralytics

Sequence-to-Sequence Models

Tìm hiểu cách các mô hình Sequence-to-Sequence (Seq2Seq) hỗ trợ dịch thuật và NLP. Khám phá các kiến trúc encoder-decoder, Transformer và tích hợp với Ultralytics YOLO26.

Các mô hình Sequence-to-Sequence (Seq2Seq) là một nhóm các kiến trúc học máy mạnh mẽ, được thiết kế để chuyển đổi các chuỗi từ miền này sang miền khác. Khác với các tác vụ phân loại hình ảnh tiêu chuẩn nơi kích thước đầu vào và đầu ra là cố định, các mô hình Seq2Seq vượt trội trong việc xử lý các đầu vào và đầu ra có độ dài thay đổi. Sự linh hoạt này biến chúng thành xương sống của nhiều ứng dụng xử lý ngôn ngữ tự nhiên (NLP) hiện đại, chẳng hạn như dịch thuật và tóm tắt, nơi độ dài của câu đầu vào không nhất thiết quyết định độ dài của câu đầu ra.

Link to this sectionKiến trúc cốt lõi và chức năng#

Cấu trúc cơ bản của một mô hình Seq2Seq dựa trên khung encoder-decoder (bộ mã hóa-bộ giải mã). Kiến trúc này chia mô hình thành hai thành phần chính hoạt động song song để xử lý dữ liệu tuần tự.

  • Bộ mã hóa (Encoder): Thành phần này xử lý chuỗi đầu vào (ví dụ: một câu bằng tiếng Anh hoặc một chuỗi các khung hình âm thanh) theo từng phần tử một. Nó nén thông tin thành một vector ngữ cảnh có độ dài cố định, còn được gọi là trạng thái ẩn. Trong các kiến trúc truyền thống, encoder thường được xây dựng bằng cách sử dụng các Mạng thần kinh tái phát (RNN) hoặc mạng Bộ nhớ dài-ngắn (LSTM), được thiết kế để lưu giữ thông tin qua các bước thời gian.
  • Bộ giải mã (Decoder): Khi đầu vào đã được mã hóa, decoder lấy vector ngữ cảnh và dự đoán chuỗi đầu ra (ví dụ: câu tương ứng bằng tiếng Pháp) từng bước một. Nó sử dụng kết quả dự đoán trước đó để ảnh hưởng đến bước dự đoán tiếp theo, đảm bảo tính liên tục về ngữ pháp và ngữ cảnh.

Mặc dù các phiên bản đầu tiên dựa nhiều vào RNN, các mô hình Seq2Seq hiện đại chủ yếu sử dụng kiến trúc Transformer. Transformers sử dụng cơ chế chú ý (attention mechanism), cho phép mô hình "chú ý" đến các phần cụ thể của chuỗi đầu vào bất kể khoảng cách của chúng từ bước hiện tại, giúp cải thiện đáng kể hiệu suất trên các chuỗi dài như được trình bày chi tiết trong bài báo nền tảng Attention Is All You Need.

Link to this sectionCác ứng dụng trong thực tế#

Sự linh hoạt của các mô hình Seq2Seq cho phép chúng thu hẹp khoảng cách giữa phân tích văn bản và thị giác máy tính (computer vision), tạo điều kiện cho các tương tác đa phương thức phức tạp.

  • Dịch máy (Machine Translation): Có lẽ là ứng dụng nổi tiếng nhất, các mô hình Seq2Seq cung cấp sức mạnh cho các công cụ như Google Translate. Mô hình tiếp nhận một câu trong ngôn ngữ nguồn và xuất ra một câu trong ngôn ngữ đích, xử lý sự khác biệt về ngữ pháp và cấu trúc câu một cách trôi chảy.
  • Tóm tắt văn bản (Text Summarization): Những mô hình này có thể tiếp nhận các tài liệu hoặc bài báo dài và tạo ra các bản tóm tắt ngắn gọn. Bằng cách hiểu ý nghĩa cốt lõi của văn bản đầu vào, decoder tạo ra một chuỗi ngắn hơn giữ lại được thông tin chính, một kỹ thuật quan trọng đối với việc tổng hợp tin tức tự động.
  • Chú thích hình ảnh (Image Captioning): Bằng cách kết hợp thị giác và ngôn ngữ, một mô hình Seq2Seq có thể mô tả nội dung của một hình ảnh. Mạng thần kinh tích chập (CNN) đóng vai trò là encoder để trích xuất các đặc trưng hình ảnh, trong khi RNN đóng vai trò là decoder để tạo ra một câu mô tả. Đây là một ví dụ điển hình của mô hình đa phương thức (multi-modal model).
  • Nhận dạng giọng nói (Speech Recognition): Trong các hệ thống này, đầu vào là một chuỗi các khung tín hiệu âm thanh và đầu ra là một chuỗi các ký tự văn bản hoặc từ ngữ. Công nghệ này là nền tảng cho các trợ lý ảo (virtual assistant) như Siri và Alexa.

Link to this sectionVí dụ mã nguồn: Thành phần xây dựng cơ bản#

Mặc dù các framework cấp cao trừu tượng hóa phần lớn sự phức tạp, việc hiểu cơ chế bên dưới vẫn rất hữu ích. Mã dưới đây minh họa một lớp LSTM cơ bản trong PyTorch, lớp này thường đóng vai trò là đơn vị tái phát trong encoder hoặc decoder của một mô hình Seq2Seq truyền thống.

import torch
import torch.nn as nn

# Initialize an LSTM layer (common in Seq2Seq encoders)
# input_size: number of features per time step (e.g., word embedding size)
# hidden_size: size of the context vector/hidden state
lstm_layer = nn.LSTM(input_size=10, hidden_size=20, batch_first=True)

# Create a dummy input sequence: Batch size 3, Sequence length 5, Features 10
input_seq = torch.randn(3, 5, 10)

# Pass the sequence through the LSTM
# output contains features for each time step; hn is the final hidden state
output, (hn, cn) = lstm_layer(input_seq)

print(f"Output shape: {output.shape}")  # Shape: [3, 5, 20]
print(f"Final Hidden State shape: {hn.shape}")  # Shape: [1, 3, 20]

Link to this sectionSo sánh với các khái niệm liên quan#

Việc phân biệt các mô hình Seq2Seq với các kiến trúc khác là rất quan trọng để hiểu rõ tính hữu dụng cụ thể của chúng.

  • So với Phân loại chuẩn: Các bộ phân loại chuẩn, chẳng hạn như những bộ được sử dụng trong phân loại hình ảnh cơ bản, ánh xạ một đầu vào duy nhất (như một hình ảnh) thành một nhãn lớp duy nhất. Ngược lại, các mô hình Seq2Seq ánh xạ chuỗi này sang chuỗi kia, cho phép độ dài đầu ra thay đổi.
  • So với Phát hiện đối tượng (Object Detection): Các mô hình như Ultralytics YOLO26 tập trung vào phát hiện không gian trong một khung hình duy nhất, xác định các đối tượng và vị trí của chúng. Trong khi YOLO xử lý hình ảnh theo cấu trúc, các mô hình Seq2Seq xử lý dữ liệu theo thời gian. Tuy nhiên, các lĩnh vực này chồng chéo trong các tác vụ như theo dõi đối tượng (object tracking), nơi việc xác định quỹ đạo đối tượng qua các khung hình video liên quan đến phân tích dữ liệu tuần tự.
  • So với Transformers: Kiến trúc Transformer là sự tiến hóa hiện đại của Seq2Seq. Trong khi các mô hình Seq2Seq gốc dựa nhiều vào RNN và Đơn vị tái phát có cổng (GRU), Transformers sử dụng cơ chế tự chú ý (self-attention) để xử lý các chuỗi song song, mang lại sự cải thiện đáng kể về tốc độ và độ chính xác.

Link to this sectionTầm quan trọng trong hệ sinh thái AI#

Các mô hình Seq2Seq đã thay đổi về cơ bản cách máy móc tương tác với ngôn ngữ con người và dữ liệu thời gian. Khả năng xử lý dữ liệu phụ thuộc vào chuỗi (sequence-dependent data) của chúng đã cho phép tạo ra các chatbot phức tạp, trình biên dịch tự động và các công cụ tạo mã. Đối với các nhà phát triển làm việc với các tập dữ liệu lớn cần thiết để huấn luyện các mô hình này, việc sử dụng Ultralytics Platform có thể tinh giản quy trình quản lý dữ liệu và triển khai mô hình. Khi nghiên cứu tiến triển sang AI tạo sinh (Generative AI), các nguyên tắc của mô hình hóa chuỗi vẫn là trọng tâm cho sự phát triển của Mô hình ngôn ngữ lớn (LLM) và các hệ thống hiểu video (video understanding) tiên tiến.

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning