Khám phá cách các mô hình trình tự chuyển đổi chuỗi đầu vào thành chuỗi đầu ra, hỗ trợ các tác vụ AI như dịch thuật, chatbot và nhận dạng giọng nói.
Mô hình Sequence-to-Sequence (Seq2Seq) là một lớp mô hình học sâu được thiết kế để chuyển đổi chuỗi đầu vào thành chuỗi đầu ra, trong đó độ dài của đầu vào và đầu ra có thể khác nhau. Tính linh hoạt này khiến chúng trở nên cực kỳ mạnh mẽ cho nhiều tác vụ trong Xử lý Ngôn ngữ Tự nhiên (NLP) và hơn thế nữa. Ý tưởng cốt lõi đã được giới thiệu trong các bài báo của các nhà nghiên cứu tại Google và phòng thí nghiệm của Yoshua Bengio , tạo nên cuộc cách mạng trong các lĩnh vực như dịch máy.
Các mô hình Seq2Seq được xây dựng trên kiến trúc mã hóa-giải mã. Cấu trúc này cho phép mô hình xử lý hiệu quả các chuỗi có độ dài thay đổi.
Bộ mã hóa: Thành phần này xử lý toàn bộ chuỗi đầu vào, chẳng hạn như một câu tiếng Anh. Nó đọc chuỗi từng phần tử một (ví dụ, từng từ một) và nén thông tin thành một biểu diễn số có độ dài cố định gọi là vectơ ngữ cảnh hoặc "vectơ tư duy". Theo truyền thống, bộ mã hóa là Mạng Nơ-ron Hồi quy (RNN) hoặc một biến thể tiên tiến hơn như Bộ nhớ Dài Ngắn hạn (LSTM) , rất thành thạo trong việc ghi lại thông tin tuần tự.
Bộ giải mã: Thành phần này lấy vectơ ngữ cảnh từ bộ mã hóa làm đầu vào ban đầu. Nhiệm vụ của nó là tạo chuỗi đầu ra theo từng phần tử một. Ví dụ, trong một tác vụ dịch thuật, nó sẽ tạo ra câu đã dịch theo từng từ một. Đầu ra từ mỗi bước được đưa trở lại bộ giải mã ở bước tiếp theo, cho phép nó tạo ra một chuỗi mạch lạc. Quá trình này tiếp tục cho đến khi một mã thông báo kết thúc chuỗi đặc biệt được tạo ra. Một cải tiến quan trọng giúp cải thiện đáng kể hiệu suất Seq2Seq là cơ chế chú ý , cho phép bộ giải mã xem lại các phần khác nhau của chuỗi đầu vào ban đầu trong khi tạo ra đầu ra.
Khả năng ánh xạ các đầu vào có độ dài thay đổi thành các đầu ra có độ dài thay đổi giúp các mô hình Seq2Seq trở nên rất linh hoạt.
Trong khi các mô hình Seq2Seq dựa trên RNN là bước đột phá, lĩnh vực này đã phát triển:
Mặc dù Seq2Seq thường đề cập đến cấu trúc mã hóa-giải mã dựa trên RNN, nguyên tắc chung về việc ánh xạ chuỗi đầu vào thành chuỗi đầu ra bằng cách sử dụng biểu diễn trung gian vẫn là trọng tâm của nhiều kiến trúc hiện đại. Các công cụ như PyTorch và TensorFlow cung cấp các khối xây dựng để triển khai cả mô hình chuỗi truyền thống và hiện đại. Việc quản lý quy trình đào tạo có thể được tinh giản bằng các nền tảng như Ultralytics HUB , giúp đơn giản hóa toàn bộ quy trình triển khai mô hình .