Thuật ngữ

Máy biến áp

Khám phá cách kiến trúc Transformer cách mạng hóa AI, thúc đẩy đột phá trong NLP, thị giác máy tính và các tác vụ ML tiên tiến.

Transformer là một kiến trúc mạng nơ-ron mang tính cách mạng, đã trở thành nền tảng của Trí tuệ Nhân tạo (AI) hiện đại, đặc biệt là trong Xử lý Ngôn ngữ Tự nhiên (NLP) và gần đây hơn là Thị giác Máy tính (CV) . Được các nhà nghiên cứu Google giới thiệu trong bài báo "Attention Is All You Need" năm 2017, cải tiến quan trọng nhất của nó là cơ chế tự chú ý , cho phép mô hình cân nhắc tầm quan trọng của các từ hoặc các phần khác nhau của chuỗi đầu vào. Điều này cho phép nó nắm bắt các mối quan hệ phụ thuộc tầm xa và ngữ cảnh hiệu quả hơn so với các kiến trúc trước đây. Thiết kế này cũng cho phép song song hóa quy mô lớn, giúp huấn luyện các mô hình lớn hơn nhiều trên các tập dữ liệu khổng lồ, dẫn đến sự ra đời của các Mô hình Ngôn ngữ Lớn (LLM) .

Máy biến áp hoạt động như thế nào

Không giống như các mô hình tuần tự như Mạng Nơ-ron Hồi quy (RNN) , Transformer xử lý toàn bộ chuỗi dữ liệu cùng một lúc. Ý tưởng cốt lõi là xử lý tất cả các phần tử song song, giúp tăng tốc đáng kể quá trình đào tạo trên phần cứng hiện đại như GPU .

Để hiểu thứ tự chuỗi mà không cần lặp lại, Transformers sử dụng một kỹ thuật gọi là mã hóa vị trí, kỹ thuật này bổ sung thông tin về vị trí của từng phần tử (ví dụ: một từ trong câu) vào phần nhúng của nó. Các lớp tự chú ý sau đó xử lý các phần nhúng này, cho phép mỗi phần tử "nhìn" vào mọi phần tử khác trong chuỗi và xác định phần tử nào có liên quan nhất đến việc hiểu ý nghĩa của nó. Nhận thức ngữ cảnh toàn cục này là một lợi thế lớn cho các tác vụ phức tạp. Các nền tảng như PyTorchTensorFlow cung cấp hỗ trợ toàn diện cho việc xây dựng các mô hình dựa trên Transformer.

Ứng dụng của máy biến áp

Tác động của Transformers trải dài trên nhiều lĩnh vực, thúc đẩy sự tiến bộ trong cả nhiệm vụ ngôn ngữ và thị giác.

  1. Dịch và Tạo Ngôn ngữ : Các dịch vụ như Google Dịch sử dụng các mô hình dựa trên Transformer để dịch máy chất lượng cao. Mô hình này có thể xem xét toàn bộ câu gốc để tạo ra bản dịch trôi chảy và chính xác hơn. Tương tự, các mô hình như GPT-4 vượt trội trong việc tạo văn bản bằng cách hiểu ngữ cảnh để tạo ra các đoạn văn mạch lạc, viết bài hoặc hỗ trợ các chatbot tiên tiến.
  2. Thị giác Máy tính : Bộ chuyển đổi Thị giác (ViT) điều chỉnh kiến trúc cho các tác vụ dựa trên hình ảnh. Nó xử lý hình ảnh như một chuỗi các mảng và sử dụng kỹ thuật tự chú ý để mô hình hóa mối quan hệ giữa chúng. Phương pháp này được sử dụng trong các mô hình như RT-DETR để phát hiện đối tượng , trong đó việc hiểu bối cảnh tổng thể của một cảnh có thể giúp xác định đối tượng chính xác hơn, đặc biệt là trong môi trường phức tạp. Bạn có thể xem so sánh RT-DETR và YOLOv8 để hiểu rõ sự khác biệt về kiến trúc của chúng.

Máy biến áp so với các kiến trúc khác

Sẽ rất hữu ích khi phân biệt Transformers với các kiến trúc mạng nơ-ron phổ biến khác:

  • Transformers so với RNN: RNN xử lý dữ liệu tuần tự, khiến chúng chậm hơn và dễ gặp phải vấn đề gradient biến mất , khiến chúng quên thông tin trước đó trong các chuỗi dài. Transformers khắc phục điều này bằng cách xử lý song song và tự động chú ý, nắm bắt các phụ thuộc tầm xa hiệu quả hơn nhiều.
  • Transformers so với CNN: Mạng nơ-ron tích chập (CNN) cực kỳ hiệu quả cho các tác vụ thị giác, sử dụng các bộ lọc tích chập để xác định các mẫu cục bộ trong dữ liệu dạng lưới như pixel. Chúng là nền tảng cho các mô hình như dòng Ultralytics YOLO . Ngược lại, Transformers nắm bắt các mối quan hệ toàn cục nhưng thường yêu cầu nhiều dữ liệu và tài nguyên tính toán hơn. Các mô hình lai, kết hợp xương sống CNN với các lớp Transformer, hướng đến việc tận dụng tối đa cả hai.

Các biến thể máy biến áp hiệu quả

Chi phí tính toán cho khả năng tự động hoàn toàn của Transformer ban đầu tăng theo cấp số nhân với độ dài chuỗi, gây khó khăn cho các chuỗi rất dài. Điều này đã dẫn đến sự phát triển của các biến thể hiệu quả hơn.

  • Longformer : Sử dụng cơ chế chú ý cửa sổ trượt kết hợp với sự chú ý toàn cục trên các mã thông báo cụ thể để giảm độ phức tạp về mặt tính toán.
  • Reformer : Sử dụng các kỹ thuật như băm theo vị trí để đạt được sự chú ý đầy đủ, giúp tiết kiệm bộ nhớ hơn.
  • Transformer-XL : Giới thiệu cơ chế lặp lại cho phép mô hình học các mối phụ thuộc vượt quá độ dài cố định, đặc biệt hữu ích cho mô hình ngôn ngữ hồi quy tự động.

Những tiến bộ này tiếp tục mở rộng khả năng ứng dụng của Transformers vào các vấn đề mới. Các công cụ và nền tảng như Hugging FaceUltralytics HUB giúp các nhà phát triển dễ dàng truy cập và triển khai các mô hình mạnh mẽ này.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard