Khám phá sức mạnh của Vision Transformer (ViT) trong thị giác máy tính. Tìm hiểu cách chúng vượt trội hơn CNN bằng cách nắm bắt ngữ cảnh hình ảnh toàn cục.
Vision Transformer (ViT) là một kiến trúc mô hình học sâu áp dụng trực tiếp cơ chế tự chú ý của Xử lý Ngôn ngữ Tự nhiên (NLP) vào các tác vụ thị giác máy tính. Trong khi các phương pháp truyền thống như Mạng nơ-ron tích chập (CNN) xử lý hình ảnh bằng cách sử dụng lưới pixel cục bộ, ViT coi hình ảnh như một chuỗi các mảng nhỏ, tương tự như cách một mô hình ngôn ngữ xử lý một câu như một chuỗi các từ. Được giới thiệu bởi Google Theo nghiên cứu trong bài báo "Một hình ảnh đáng giá 16x16 từ" , kiến trúc này cho phép mô hình nắm bắt ngữ cảnh toàn cục và các mối quan hệ phụ thuộc tầm xa trên toàn bộ hình ảnh ngay từ lớp xử lý đầu tiên, thay vì xây dựng ngữ cảnh một cách chậm rãi thông qua nhiều lớp tích chập.
Điểm đột phá cốt lõi của Vision Transformer nằm ở cách nó cấu trúc dữ liệu hình ảnh để xử lý. Thay vì quét hình ảnh từng pixel một, ViT chia hình ảnh đầu vào thành các ô vuông có kích thước cố định, được gọi là các mảng (ví dụ: 16x16 pixel).
Điều quan trọng là phải phân biệt giữa ViT (Virtual Invariance) và CNN (Cyber Networks), vì chúng đại diện cho hai triết lý khác nhau trong lĩnh vực thị giác máy tính (CV) . CNN dựa trên một "thiên kiến quy nạp" được gọi là tính bất biến dịch chuyển, nghĩa là chúng giả định các đặc điểm cục bộ (như cạnh) là quan trọng bất kể vị trí xuất hiện của chúng. Điều này làm cho CNN hoạt động hiệu quả cao trên các tập dữ liệu nhỏ.
Ngược lại, Vision Transformers ít bị ảnh hưởng bởi định kiến về hình ảnh cụ thể. Chúng dựa vào lượng dữ liệu huấn luyện khổng lồ, chẳng hạn như tập dữ liệu ImageNet -21k hoặc JFT-300M , để học các mối quan hệ không gian này từ đầu. Mặc dù Vision Transformers có thể vượt trội hơn CNN trên dữ liệu quy mô lớn, nhưng chúng thường tốn kém hơn về mặt tính toán và yêu cầu nhiều tài nguyên hơn để huấn luyện . Các kiến trúc hiện đại thường sử dụng các phương pháp lai, chẳng hạn như RT-DETR , kết hợp hiệu quả của kiến trúc CNN với khả năng xử lý ngữ cảnh toàn cục của Transformer.
Khả năng nắm bắt "bức tranh tổng thể" của một hình ảnh khiến ViTs trở nên phù hợp với các nhiệm vụ thị giác phức tạp, nơi ngữ cảnh đóng vai trò rất quan trọng.
Các ultralytics Thư viện hỗ trợ các mô hình dựa trên Transformer như... RT-DETR (Bộ chuyển đổi phát hiện thời gian thực). Trong khi phiên bản mới nhất YOLO26 Các mẫu máy được khuyến nghị để đạt được sự cân bằng tốt nhất giữa tốc độ và độ chính xác. RT-DETR Nó rất phù hợp cho các trường hợp mà ngữ cảnh toàn cầu được ưu tiên hơn tốc độ suy luận thô.
Ví dụ sau đây minh họa cách tải một mô hình dựa trên Transformer đã được huấn luyện trước và chạy suy luận trên một hình ảnh.
from ultralytics import RTDETR
# Load a pretrained RT-DETR model (Vision Transformer-based architecture)
model = RTDETR("rtdetr-l.pt")
# Perform object detection on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
Nghiên cứu về Vision Transformers đang phát triển nhanh chóng để giải quyết vấn đề chi phí tính toán. Các kỹ thuật như FlashAttention đang giúp các mô hình này hoạt động nhanh hơn và tiết kiệm bộ nhớ hơn. Ngoài ra, sự trỗi dậy của trí tuệ nhân tạo đa phương thức đang chứng kiến sự kết hợp giữa Vision Transformers với bộ mã hóa văn bản để tạo ra các mô hình ngôn ngữ-hình ảnh (Vision-Language Models - VLMs) mạnh mẽ, có khả năng trả lời các câu hỏi về hình ảnh hoặc tạo chú thích. Nền tảng Ultralytics sắp ra mắt sẽ cung cấp một môi trường thống nhất để quản lý các quy trình làm việc tiên tiến này, từ quản lý tập dữ liệu đến triển khai mô hình.