Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Vision Transformer (ViT)

Khám phá sức mạnh của Vision Transformer (ViT) trong thị giác máy tính. Tìm hiểu cách chúng vượt trội hơn CNN bằng cách nắm bắt ngữ cảnh hình ảnh toàn cục.

Vision Transformer (ViT) là một kiến trúc mô hình học sâu áp dụng trực tiếp cơ chế tự chú ý của Xử lý Ngôn ngữ Tự nhiên (NLP) vào các tác vụ thị giác máy tính. Trong khi các phương pháp truyền thống như Mạng nơ-ron tích chập (CNN) xử lý hình ảnh bằng cách sử dụng lưới pixel cục bộ, ViT coi hình ảnh như một chuỗi các mảng nhỏ, tương tự như cách một mô hình ngôn ngữ xử lý một câu như một chuỗi các từ. Được giới thiệu bởi Google Theo nghiên cứu trong bài báo "Một hình ảnh đáng giá 16x16 từ" , kiến trúc này cho phép mô hình nắm bắt ngữ cảnh toàn cục và các mối quan hệ phụ thuộc tầm xa trên toàn bộ hình ảnh ngay từ lớp xử lý đầu tiên, thay vì xây dựng ngữ cảnh một cách chậm rãi thông qua nhiều lớp tích chập.

Cách Vision Transformer hoạt động

Điểm đột phá cốt lõi của Vision Transformer nằm ở cách nó cấu trúc dữ liệu hình ảnh để xử lý. Thay vì quét hình ảnh từng pixel một, ViT chia hình ảnh đầu vào thành các ô vuông có kích thước cố định, được gọi là các mảng (ví dụ: 16x16 pixel).

  1. Phân tách hình ảnh thành các mảnh nhỏ (Patch Tokenization): Hình ảnh được chia thành một lưới các mảnh nhỏ. Mỗi mảnh nhỏ sau đó được làm phẳng thành một vectơ, tạo ra một chuỗi "từ ngữ hình ảnh" hay các token .
  2. Phép chiếu tuyến tính: Các mảng dữ liệu đã được làm phẳng này trải qua phép chiếu tuyến tính để tạo ra các vector nhúng biểu diễn thông tin đặc trưng của khu vực cụ thể đó.
  3. Mã hóa vị trí: Vì kiến trúc Transformer xử lý các chuỗi song song và không có khái niệm về thứ tự vốn có (không giống như RNN), nên các nhúng vị trí có thể học được được thêm vào các token của mảng ảnh để mô hình biết vị trí không gian của mỗi mảng ảnh trong hình ảnh gốc.
  4. Cơ chế tự chú ý: Chuỗi hình ảnh được đưa vào bộ mã hóa Transformer. Tại đây, cơ chế tự chú ý cho phép mỗi mảng hình ảnh tương tác đồng thời với mọi mảng hình ảnh khác. Điều này có nghĩa là mô hình có thể học được rằng bánh xe ô tô ở góc dưới bên trái có liên quan đến cửa sổ ô tô ở góc trên bên phải, từ đó nắm bắt ngữ cảnh tổng thể ngay lập tức.
  5. Phân loại: Đối với các tác vụ như phân loại hình ảnh , một "mã lớp" đặc biệt được thêm vào chuỗi. Trạng thái cuối cùng của mã này đóng vai trò là biểu diễn tổng hợp của toàn bộ hình ảnh, sau đó được chuyển đến bộ xử lý phân loại để dự đoán nhãn.

Vision Transformers so với CNNs

Điều quan trọng là phải phân biệt giữa ViT (Virtual Invariance) và CNN (Cyber Networks), vì chúng đại diện cho hai triết lý khác nhau trong lĩnh vực thị giác máy tính (CV) . CNN dựa trên một "thiên kiến quy nạp" được gọi là tính bất biến dịch chuyển, nghĩa là chúng giả định các đặc điểm cục bộ (như cạnh) là quan trọng bất kể vị trí xuất hiện của chúng. Điều này làm cho CNN hoạt động hiệu quả cao trên các tập dữ liệu nhỏ.

Ngược lại, Vision Transformers ít bị ảnh hưởng bởi định kiến về hình ảnh cụ thể. Chúng dựa vào lượng dữ liệu huấn luyện khổng lồ, chẳng hạn như tập dữ liệu ImageNet -21k hoặc JFT-300M , để học các mối quan hệ không gian này từ đầu. Mặc dù Vision Transformers có thể vượt trội hơn CNN trên dữ liệu quy mô lớn, nhưng chúng thường tốn kém hơn về mặt tính toán và yêu cầu nhiều tài nguyên hơn để huấn luyện . Các kiến trúc hiện đại thường sử dụng các phương pháp lai, chẳng hạn như RT-DETR , kết hợp hiệu quả của kiến trúc CNN với khả năng xử lý ngữ cảnh toàn cục của Transformer.

Các Ứng dụng Thực tế

Khả năng nắm bắt "bức tranh tổng thể" của một hình ảnh khiến ViTs trở nên phù hợp với các nhiệm vụ thị giác phức tạp, nơi ngữ cảnh đóng vai trò rất quan trọng.

  • Phân tích hình ảnh y tế: Trong lĩnh vực trí tuệ nhân tạo y tế , ViT (Visual Technology) được sử dụng để phân tích các hình ảnh quét độ phân giải cao như MRI hoặc các tiêu bản mô học. Ví dụ, trong phát hiện khối u , ViT có thể liên hệ những thay đổi nhỏ về cấu trúc ở một phần của mẫu mô với những bất thường ở một phần xa hơn, xác định các mô hình ác tính mà thoạt nhìn có vẻ lành tính.
  • Ảnh vệ tinh và viễn thám: ViTs là những công cụ mạnh mẽ để phân tích ảnh vệ tinh . Vì ảnh vệ tinh bao phủ các khu vực rộng lớn, mối quan hệ giữa các đối tượng (ví dụ: một con đường nối với một nhà máy) có thể trải dài trên khoảng cách lớn trong ảnh. ViTs tận dụng sự chú ý toàn cầu để lập bản đồ sử dụng đất một cách chính xác. track nạn phá rừng , hoặc theo dõi sức khỏe cây trồng trên các vùng nông nghiệp rộng lớn.

Sử dụng Vision Transformers với Ultralytics

Các ultralytics Thư viện hỗ trợ các mô hình dựa trên Transformer như... RT-DETR (Bộ chuyển đổi phát hiện thời gian thực). Trong khi phiên bản mới nhất YOLO26 Các mẫu máy được khuyến nghị để đạt được sự cân bằng tốt nhất giữa tốc độ và độ chính xác. RT-DETR Nó rất phù hợp cho các trường hợp mà ngữ cảnh toàn cầu được ưu tiên hơn tốc độ suy luận thô.

Ví dụ sau đây minh họa cách tải một mô hình dựa trên Transformer đã được huấn luyện trước và chạy suy luận trên một hình ảnh.

from ultralytics import RTDETR

# Load a pretrained RT-DETR model (Vision Transformer-based architecture)
model = RTDETR("rtdetr-l.pt")

# Perform object detection on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Triển vọng tương lai

Nghiên cứu về Vision Transformers đang phát triển nhanh chóng để giải quyết vấn đề chi phí tính toán. Các kỹ thuật như FlashAttention đang giúp các mô hình này hoạt động nhanh hơn và tiết kiệm bộ nhớ hơn. Ngoài ra, sự trỗi dậy của trí tuệ nhân tạo đa phương thức đang chứng kiến sự kết hợp giữa Vision Transformers với bộ mã hóa văn bản để tạo ra các mô hình ngôn ngữ-hình ảnh (Vision-Language Models - VLMs) mạnh mẽ, có khả năng trả lời các câu hỏi về hình ảnh hoặc tạo chú thích. Nền tảng Ultralytics sắp ra mắt sẽ cung cấp một môi trường thống nhất để quản lý các quy trình làm việc tiên tiến này, từ quản lý tập dữ liệu đến triển khai mô hình.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay