Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Quay lại Bảng thuật ngữ Ultralytics

Vision Transformer (ViT)

Khám phá sức mạnh của Vision Transformers (ViT). Tìm hiểu cách self-attention và patch tokenization cách mạng hóa thị giác máy tính vượt ra ngoài CNN với Ultralytics.

Vision Transformer (ViT) là một kiến trúc deep learning giúp điều chỉnh cơ chế self-attention vốn được thiết kế cho Xử lý ngôn ngữ tự nhiên (NLP) để giải quyết các tác vụ thị giác. Khác với Convolutional Neural Network (CNN) truyền thống, vốn xử lý hình ảnh thông qua hệ thống phân cấp các lưới pixel cục bộ, ViT coi hình ảnh như một chuỗi các patch rời rạc. Cách tiếp cận này trở nên phổ biến nhờ bài báo nghiên cứu mang tính bước ngoặt "An Image is Worth 16x16 Words", trong đó chứng minh rằng các kiến trúc Transformer thuần túy có thể đạt được hiệu suất tiên tiến trong computer vision (CV) mà không cần dựa vào các lớp convolution. Bằng cách tận dụng global attention, ViT có thể nắm bắt các phụ thuộc tầm xa trên toàn bộ hình ảnh ngay từ lớp đầu tiên.

Link to this sectionVision Transformers hoạt động như thế nào#

Đổi mới cơ bản của ViT là cách cấu trúc dữ liệu đầu vào. Để làm cho một hình ảnh tương thích với Transformer tiêu chuẩn, mô hình chia thông tin thị giác thành một chuỗi các vector, bắt chước cách một mô hình ngôn ngữ xử lý một câu từ.

  1. Patch Tokenization: Hình ảnh đầu vào được chia thành một lưới các hình vuông có kích thước cố định, thường là 16x16 pixel. Mỗi hình vuông được làm phẳng thành một vector, về cơ bản trở thành một token thị giác.

  2. Linear Projection: Các patch đã được làm phẳng này được truyền qua một lớp tuyến tính có thể huấn luyện để tạo ra các embeddings dày đặc. Bước này ánh xạ các giá trị pixel thô vào một không gian chiều cao mà mô hình có thể xử lý.

  3. Positional Encoding: Vì kiến trúc này xử lý các chuỗi song song và thiếu sự hiểu biết vốn có về thứ tự hoặc không gian, các positional encodings có thể học được được thêm vào các patch embeddings. Điều này cho phép mô hình giữ lại thông tin không gian về vị trí của từng patch trong hình ảnh gốc.

  4. Self-Attention Mechanism: Chuỗi đi vào bộ mã hóa Transformer, nơi self-attention cho phép mọi patch tương tác với mọi patch khác cùng một lúc. Điều này cho phép mạng học ngữ cảnh toàn cầu, hiểu cách một pixel ở góc trên bên trái liên quan đến một pixel ở góc dưới bên phải.

  5. Classification Head: Đối với các tác vụ như image classification, một "class token" đặc biệt thường được đặt ở đầu chuỗi. Trạng thái đầu ra cuối cùng của token này đóng vai trò là biểu diễn tổng hợp của hình ảnh, sau đó được đưa vào bộ phân loại, chẳng hạn như multilayer perceptron (MLP).

Link to this sectionVision Transformers so với CNNs#

Mặc dù cả hai kiến trúc đều nhằm mục đích hiểu dữ liệu thị giác, chúng khác biệt đáng kể về triết lý vận hành. CNN sở hữu "inductive bias" mạnh mẽ được gọi là bất biến tịnh tiến (translation invariance), nghĩa là chúng mặc định giả định rằng các đặc trưng cục bộ (như cạnh và kết cấu) là quan trọng bất kể vị trí của chúng. Điều này làm cho CNN có hiệu quả dữ liệu cao và hiệu quả trên các datasets nhỏ hơn.

Ngược lại, Vision Transformers có ít bias cụ thể về hình ảnh hơn. Chúng phải học các mối quan hệ không gian từ đầu bằng cách sử dụng một lượng lớn training data, chẳng hạn như các dataset JFT-300M hoặc ImageNet đầy đủ. Mặc dù điều này làm cho quá trình huấn luyện tốn kém hơn về mặt tính toán, nhưng nó cho phép ViT mở rộng quy mô cực kỳ tốt; với đủ dữ liệu và compute power, chúng có thể vượt trội hơn CNN bằng cách nắm bắt các cấu trúc toàn cầu phức tạp mà các phép convolution cục bộ có thể bỏ lỡ.

Link to this sectionCác ứng dụng trong thực tế#

Khả năng hiểu ngữ cảnh toàn cầu làm cho ViT đặc biệt hữu ích cho các môi trường phức tạp, có rủi ro cao.

  • Medical Image Analysis: Trong healthcare AI, ViT được sử dụng để phân tích các bản quét độ phân giải cao như MRI hoặc tiêu bản mô bệnh học. Ví dụ, trong tumor detection, một ViT có thể tương quan các bất thường kết cấu tinh vi trong mô với các thay đổi cấu trúc rộng hơn trên toàn bộ tiêu bản, xác định các mẫu ác tính mà quá trình xử lý cục bộ có thể bỏ qua.
  • Satellite Imagery and Remote Sensing: ViT vượt trội trong satellite image analysis nơi các mối quan hệ giữa các đối tượng trải dài trên khoảng cách lớn. Ví dụ, việc kết nối một địa điểm phá rừng với một con đường khai thác gỗ ở xa đòi hỏi phải hiểu "bức tranh lớn" của một cảnh quan, một tác vụ mà global attention của ViT vượt trội hơn so với trường tiếp nhận hạn chế của các CNN tiêu chuẩn.

Link to this sectionSử dụng Transformers với Ultralytics#

Thư viện ultralytics hỗ trợ các kiến trúc dựa trên Transformer, đáng chú ý nhất là RT-DETR (Real-Time Detection Transformer). Trong khi YOLO26 chủ lực thường được ưa chuộng vì sự cân bằng giữa tốc độ và độ chính xác trên các thiết bị biên, RT-DETR cung cấp một giải pháp thay thế mạnh mẽ cho các kịch bản ưu tiên ngữ cảnh toàn cầu.

Ví dụ Python sau đây minh họa cách tải một mô hình dựa trên Transformer đã được huấn luyện trước và thực hiện inference:

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model (Vision Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Run inference on an image source
# The model uses self-attention to detect objects globally
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Link to this sectionTriển vọng tương lai#

Nghiên cứu đang phát triển nhanh chóng để giải quyết chi phí tính toán cao của ViT. Các kỹ thuật như FlashAttention đang làm cho các mô hình này nhanh hơn và tiết kiệm bộ nhớ hơn. Hơn nữa, các kiến trúc lai kết hợp hiệu suất của CNN với cơ chế attention của Transformer đang trở nên phổ biến. Đối với các đội ngũ đang tìm cách quản lý các luồng công việc nâng cao này, Ultralytics Platform cung cấp một môi trường thống nhất để chú thích dữ liệu, huấn luyện các mô hình phức tạp thông qua đám mây và triển khai chúng tới các điểm cuối đa dạng.

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning