Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Mô Hình Dãy-Sang-Dãy

Khám phá cách các mô hình dãy-sang-dãy (sequence-to-sequence) chuyển đổi đầu vào thành các dãy đầu ra, cung cấp năng lượng cho các tác vụ AI như dịch thuật, chatbot và nhận dạng giọng nói.

Các mô hình Sequence-to-Sequence (Seq2Seq) là một lớp các mô hình học sâu được thiết kế để chuyển đổi một chuỗi đầu vào thành một chuỗi đầu ra, trong đó độ dài của đầu vào và đầu ra có thể khác nhau. Sự linh hoạt này làm cho chúng đặc biệt mạnh mẽ cho một loạt các tác vụ trong Xử lý Ngôn ngữ Tự nhiên (NLP) và hơn thế nữa. Ý tưởng cốt lõi được giới thiệu trong các bài báo của các nhà nghiên cứu tại Googlephòng thí nghiệm của Yoshua Bengio, đã cách mạng hóa các lĩnh vực như dịch máy.

Cách thức hoạt động của các mô hình Seq2Seq

Các mô hình Seq2Seq được xây dựng dựa trên kiến trúc encoder-decoder. Cấu trúc này cho phép mô hình xử lý hiệu quả các chuỗi có độ dài khác nhau.

  • Bộ mã hóa: Thành phần này xử lý toàn bộ chuỗi đầu vào, chẳng hạn như một câu tiếng Anh. Nó đọc chuỗi từng phần tử một (ví dụ: từng từ một) và nén thông tin thành một biểu diễn số có độ dài cố định được gọi là vectơ ngữ cảnh hoặc "vectơ tư duy". Theo truyền thống, bộ mã hóa là một Mạng nơ-ron hồi quy (RNN) hoặc một biến thể nâng cao hơn như Bộ nhớ ngắn hạn dài (LSTM), có khả năng nắm bắt thông tin tuần tự.

  • Bộ giải mã: Thành phần này lấy vectơ ngữ cảnh từ bộ mã hóa làm đầu vào ban đầu. Công việc của nó là tạo ra chuỗi đầu ra từng phần tử một. Ví dụ: trong một tác vụ dịch, nó sẽ tạo ra câu đã dịch từng từ một. Đầu ra từ mỗi bước được đưa trở lại bộ giải mã trong bước tiếp theo, cho phép nó tạo ra một chuỗi mạch lạc. Quá trình này tiếp tục cho đến khi một mã thông báo kết thúc chuỗi đặc biệt được tạo ra. Một cải tiến quan trọng giúp cải thiện đáng kể hiệu suất của Seq2Seq là cơ chế attention, cho phép bộ giải mã nhìn lại các phần khác nhau của chuỗi đầu vào ban đầu trong khi tạo ra đầu ra.

Ứng dụng của Mô hình Seq2Seq

Khả năng ánh xạ các đầu vào có độ dài thay đổi thành các đầu ra có độ dài thay đổi làm cho các mô hình Seq2Seq trở nên cực kỳ linh hoạt.

  • Dịch Máy (Machine Translation): Đây là ứng dụng tinh túy. Một mô hình có thể lấy một câu trong một ngôn ngữ (ví dụ: "How are you?") và dịch nó sang một ngôn ngữ khác (ví dụ: "Wie geht es Ihnen?"). Các dịch vụ như Google Dịch đã sử dụng rất nhiều các nguyên tắc này.
  • Tóm Tắt Văn Bản (Text Summarization): Một mô hình Seq2Seq có thể đọc một bài báo hoặc tài liệu dài (chuỗi đầu vào) và tạo ra một bản tóm tắt ngắn gọn (chuỗi đầu ra). Điều này hữu ích để cô đọng một lượng lớn văn bản thành những hiểu biết dễ tiêu hóa.
  • Chatbot và AI đàm thoại (Conversational AI): Các mô hình có thể được huấn luyện để tạo ra phản hồi (chuỗi đầu ra) phù hợp và theo ngữ cảnh cho truy vấn hoặc tuyên bố (chuỗi đầu vào) của người dùng.
  • Chú thích Ảnh: Mặc dù điều này liên quan đến thị giác máy tính, nhưng nguyên tắc là tương tự. Một CNN hoạt động như bộ mã hóa để xử lý hình ảnh và tạo ra một vectơ ngữ cảnh, sau đó bộ giải mã sử dụng để tạo ra một chuỗi văn bản mô tả. Đây là một ví dụ về mô hình đa phương thức.

So sánh Seq2Seq với các kiến trúc khác

Mặc dù các mô hình Seq2Seq dựa trên RNN đã có những đột phá, lĩnh vực này vẫn không ngừng phát triển:

  • Mạng RNN tiêu chuẩn: Thường ánh xạ các chuỗi thành các chuỗi có độ dài giống nhau hoặc phân loại toàn bộ chuỗi, thiếu tính linh hoạt của cấu trúc bộ mã hóa-giải mã cho độ dài đầu ra thay đổi.
  • Transformers: Hiện nay chi phối nhiều tác vụ NLP trước đây được xử lý bởi các mô hình Seq2Seq dựa trên RNN. Chúng sử dụng self-attention và mã hóa vị trí thay vì lặp lại, cho phép song song hóa tốt hơn và nắm bắt các phụ thuộc tầm xa hiệu quả hơn. Tuy nhiên, khái niệm encoder-decoder cơ bản vẫn là trung tâm của nhiều mô hình dựa trên Transformer. Các mô hình như RT-DETR của Baidu, được hỗ trợ bởi Ultralytics, kết hợp các thành phần Transformer để phát hiện đối tượng.
  • CNN: Chủ yếu được sử dụng cho dữ liệu dạng lưới như hình ảnh (ví dụ: trong các mô hình Ultralytics YOLO để phát hiện và phân vùng (segmentation)), mặc dù đôi khi được điều chỉnh cho các tác vụ chuỗi.

Mặc dù Seq2Seq thường đề cập đến cấu trúc encoder-decoder dựa trên RNN, nguyên tắc chung về việc ánh xạ chuỗi đầu vào thành chuỗi đầu ra bằng cách sử dụng biểu diễn trung gian vẫn là trung tâm của nhiều kiến trúc hiện đại. Các công cụ như PyTorchTensorFlow cung cấp các khối xây dựng để triển khai cả các mô hình chuỗi truyền thống và hiện đại. Việc quản lý quá trình huấn luyện có thể được sắp xếp hợp lý bằng cách sử dụng các nền tảng như Ultralytics HUB, giúp đơn giản hóa toàn bộ quy trình triển khai mô hình (model deployment).

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard