Thuật ngữ

Mô hình trình tự sang trình tự

Khám phá cách các mô hình trình tự chuyển đổi chuỗi đầu vào thành chuỗi đầu ra, hỗ trợ các tác vụ AI như dịch thuật, chatbot và nhận dạng giọng nói.

Mô hình Sequence-to-Sequence (Seq2Seq) là một lớp mô hình học sâu được thiết kế để chuyển đổi chuỗi đầu vào thành chuỗi đầu ra, trong đó độ dài của đầu vào và đầu ra có thể khác nhau. Tính linh hoạt này khiến chúng trở nên cực kỳ mạnh mẽ cho nhiều tác vụ trong Xử lý Ngôn ngữ Tự nhiên (NLP) và hơn thế nữa. Ý tưởng cốt lõi đã được giới thiệu trong các bài báo của các nhà nghiên cứu tại Googlephòng thí nghiệm của Yoshua Bengio , tạo nên cuộc cách mạng trong các lĩnh vực như dịch máy.

Mô hình Seq2Seq hoạt động như thế nào

Các mô hình Seq2Seq được xây dựng trên kiến trúc mã hóa-giải mã. Cấu trúc này cho phép mô hình xử lý hiệu quả các chuỗi có độ dài thay đổi.

  • Bộ mã hóa: Thành phần này xử lý toàn bộ chuỗi đầu vào, chẳng hạn như một câu tiếng Anh. Nó đọc chuỗi từng phần tử một (ví dụ, từng từ một) và nén thông tin thành một biểu diễn số có độ dài cố định gọi là vectơ ngữ cảnh hoặc "vectơ tư duy". Theo truyền thống, bộ mã hóa là Mạng Nơ-ron Hồi quy (RNN) hoặc một biến thể tiên tiến hơn như Bộ nhớ Dài Ngắn hạn (LSTM) , rất thành thạo trong việc ghi lại thông tin tuần tự.

  • Bộ giải mã: Thành phần này lấy vectơ ngữ cảnh từ bộ mã hóa làm đầu vào ban đầu. Nhiệm vụ của nó là tạo chuỗi đầu ra theo từng phần tử một. Ví dụ, trong một tác vụ dịch thuật, nó sẽ tạo ra câu đã dịch theo từng từ một. Đầu ra từ mỗi bước được đưa trở lại bộ giải mã ở bước tiếp theo, cho phép nó tạo ra một chuỗi mạch lạc. Quá trình này tiếp tục cho đến khi một mã thông báo kết thúc chuỗi đặc biệt được tạo ra. Một cải tiến quan trọng giúp cải thiện đáng kể hiệu suất Seq2Seq là cơ chế chú ý , cho phép bộ giải mã xem lại các phần khác nhau của chuỗi đầu vào ban đầu trong khi tạo ra đầu ra.

Ứng dụng của mô hình Seq2Seq

Khả năng ánh xạ các đầu vào có độ dài thay đổi thành các đầu ra có độ dài thay đổi giúp các mô hình Seq2Seq trở nên rất linh hoạt.

  • Dịch máy : Đây là ứng dụng cốt lõi. Một mô hình có thể lấy một câu bằng một ngôn ngữ (ví dụ: "Bạn khỏe không?") và dịch nó sang ngôn ngữ khác (ví dụ: "Tôi có khỏe không?"). Các dịch vụ như Google Dịch đã áp dụng rất nhiều nguyên tắc này.
  • Tóm tắt văn bản : Mô hình Seq2Seq có thể đọc một bài viết hoặc tài liệu dài (chuỗi đầu vào) và tạo ra một bản tóm tắt ngắn gọn (chuỗi đầu ra). Điều này hữu ích để cô đọng khối lượng lớn văn bản thành những thông tin chi tiết dễ hiểu.
  • Chatbot và AI đàm thoại: Các mô hình có thể được đào tạo để tạo ra phản hồi phù hợp và theo ngữ cảnh (chuỗi đầu ra) cho truy vấn hoặc câu lệnh của người dùng (chuỗi đầu vào).
  • Chú thích hình ảnh: Mặc dù liên quan đến thị giác máy tính , nguyên lý hoạt động cũng tương tự. CNN đóng vai trò là bộ mã hóa để xử lý hình ảnh và tạo ra một vectơ ngữ cảnh, sau đó bộ giải mã sẽ sử dụng vectơ này để tạo ra chuỗi văn bản mô tả. Đây là một ví dụ về mô hình đa phương thức .

Seq2Seq so với các kiến trúc khác

Trong khi các mô hình Seq2Seq dựa trên RNN là bước đột phá, lĩnh vực này đã phát triển:

  • RNN chuẩn: Thông thường ánh xạ các chuỗi thành các chuỗi có cùng độ dài hoặc phân loại toàn bộ chuỗi, thiếu tính linh hoạt của cấu trúc mã hóa-giải mã cho các độ dài đầu ra thay đổi.
  • Transformers : Hiện đang thống trị nhiều tác vụ NLP trước đây được xử lý bởi các mô hình Seq2Seq dựa trên RNN. Chúng sử dụng mã hóa tự chú ý và mã hóa vị trí thay vì mã hóa lặp lại, cho phép song song hóa tốt hơn và nắm bắt các phụ thuộc tầm xa hiệu quả hơn. Tuy nhiên, khái niệm bộ mã hóa-giải mã cơ bản vẫn là trọng tâm của nhiều mô hình dựa trên Transformer. Các mô hình như RT-DETR của Baidu , được Ultralytics hỗ trợ, tích hợp các thành phần Transformer để phát hiện đối tượng .
  • CNN : Chủ yếu được sử dụng cho dữ liệu dạng lưới như hình ảnh (ví dụ, trong các mô hình YOLO của Ultralytics để phát hiện và phân đoạn ), mặc dù đôi khi được điều chỉnh cho các tác vụ trình tự.

Mặc dù Seq2Seq thường đề cập đến cấu trúc mã hóa-giải mã dựa trên RNN, nguyên tắc chung về việc ánh xạ chuỗi đầu vào thành chuỗi đầu ra bằng cách sử dụng biểu diễn trung gian vẫn là trọng tâm của nhiều kiến trúc hiện đại. Các công cụ như PyTorchTensorFlow cung cấp các khối xây dựng để triển khai cả mô hình chuỗi truyền thống và hiện đại. Việc quản lý quy trình đào tạo có thể được tinh giản bằng các nền tảng như Ultralytics HUB , giúp đơn giản hóa toàn bộ quy trình triển khai mô hình .

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard