Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Thị giác AI

YOLO12 được giải thích: Ứng dụng thực tế và các trường hợp sử dụng

Khám phá YOLO12, model thị giác máy tính mới nhất! Tìm hiểu cách kiến trúc tập trung vào cơ chế chú ý (attention-centric) và công nghệ FlashAttention nâng cao các tác vụ nhận diện đối tượng trong nhiều ngành.

ABAbirami Vina
5 min read
Nhận diện đối tượng bằng YOLO12 trong các ứng dụng thực tế

Computer vision là một nhánh của trí tuệ nhân tạo (AI) giúp máy tính hiểu được hình ảnh và video. Đây là một lĩnh vực đang phát triển với tốc độ đáng kinh ngạc vì các nhà nghiên cứu và kỹ sư AI liên tục phá vỡ các giới hạn. Cộng đồng AI luôn hướng tới việc tạo ra các model nhanh hơn, thông minh hơn và hiệu quả hơn. Một trong những đột phá mới nhất là YOLO12, thành viên mới nhất trong dòng model YOLO (You Only Look Once), được phát hành vào ngày 18 tháng 2 năm 2025.

YOLO12 được phát triển bởi các nhà nghiên cứu từ Đại học Buffalo, SUNY (Đại học Bang New York) và Đại học Viện Hàn lâm Khoa học Trung Quốc. Với một cách tiếp cận mới độc đáo, YOLO12 giới thiệu các cơ chế attention, cho phép model tập trung vào những phần quan trọng nhất của hình ảnh thay vì xử lý mọi thứ một cách bình đẳng.

Nó cũng sở hữu FlashAttention, một kỹ thuật giúp tăng tốc xử lý trong khi sử dụng ít bộ nhớ hơn, và cơ chế area attention, được thiết kế để bắt chước cách con người tập trung tự nhiên vào các vật thể ở trung tâm.

Những cải tiến này giúp YOLO12n chính xác hơn 2,1% so với YOLOv10n và YOLO12m chính xác hơn 1,0% so với YOLO11m. Tuy nhiên, điều này đi kèm với một sự đánh đổi - YOLO12n chậm hơn 9% so với YOLOv10n, và YOLO12m chậm hơn 3% so với YOLO11m.

YOLO12 đang được sử dụng để phát hiện đối tượng

Hình 1. Ví dụ về YOLO12 đang được sử dụng để phát hiện vật thể.

Trong bài viết này, chúng ta sẽ khám phá điều gì làm cho YOLO12 trở nên khác biệt, cách nó so sánh với các phiên bản tiền nhiệm và những nơi nó có thể được áp dụng.

Link to this sectionHành trình đến với sự ra đời của YOLO12#

Dòng YOLO model series là tập hợp các model computer vision được thiết kế để phát hiện vật thể theo thời gian thực, nghĩa là chúng có thể xác định và định vị nhanh chóng các vật thể trong hình ảnh và video. Theo thời gian, mỗi phiên bản đều được cải thiện về tốc độ, độ chính xác và hiệu suất.

Ví dụ, Ultralytics YOLOv5, được phát hành năm 2020, đã trở nên phổ biến rộng rãi vì nó nhanh và dễ dàng để tùy chỉnh huấn luyện và triển khai. Sau đó, Ultralytics YOLOv8 đã cải thiện điều này bằng cách cung cấp thêm hỗ trợ cho các tác vụ computer vision như instance segmentation và object tracking.

Gần đây hơn, Ultralytics YOLO11 tập trung vào việc cải thiện xử lý thời gian thực trong khi vẫn duy trì sự cân bằng giữa tốc độ và độ chính xác. Ví dụ, YOLO11m có ít hơn 22% tham số so với YOLOv8m, nhưng vẫn mang lại hiệu suất phát hiện tốt hơn trên tập dữ liệu COCO, một benchmark được sử dụng rộng rãi để đánh giá các model phát hiện vật thể.

Dựa trên những tiến bộ này, YOLO12 giới thiệu một bước chuyển dịch trong cách xử lý thông tin thị giác. Thay vì coi mọi phần của hình ảnh như nhau, nó ưu tiên các khu vực quan trọng nhất, từ đó cải thiện độ chính xác khi phát hiện. Nói một cách đơn giản, YOLO12 xây dựng dựa trên những cải tiến trước đó trong khi hướng tới sự chính xác cao hơn.

Link to this sectionCác tính năng chính của YOLO12#

YOLO12 giới thiệu một số cải tiến giúp nâng cao các computer vision tasks trong khi vẫn giữ nguyên tốc độ xử lý thời gian thực. Dưới đây là tổng quan về các tính năng chính của YOLO12:

  • Kiến trúc tập trung vào attention: Thay vì đối xử bình đẳng với mọi phần của hình ảnh, YOLO12 tập trung vào những khu vực quan trọng nhất. Điều này cải thiện độ chính xác và giảm bớt các xử lý không cần thiết, giúp việc phát hiện trở nên sắc nét và hiệu quả hơn, ngay cả trong những hình ảnh có nhiều chi tiết gây nhiễu.
  • FlashAttention: YOLO12 tăng tốc quá trình phân tích hình ảnh trong khi sử dụng ít bộ nhớ hơn. Với FlashAttention (một thuật toán tiết kiệm bộ nhớ), nó tối ưu hóa việc xử lý dữ liệu, giảm tải cho phần cứng và làm cho các tác vụ thời gian thực trở nên mượt mà và đáng tin cậy hơn.
  • Residual Efficient Layer Aggregation Networks (R-ELAN): YOLO12 tổ chức các lớp của nó hiệu quả hơn bằng cách sử dụng R-ELAN, giúp cải thiện cách model xử lý và học hỏi từ dữ liệu. Điều này giúp quá trình huấn luyện ổn định hơn, nhận diện vật thể sắc nét hơn và yêu cầu tính toán thấp hơn, giúp nó chạy hiệu quả trong nhiều môi trường khác nhau.

Để hiểu cách các tính năng này hoạt động trong thực tế, hãy xem xét một trung tâm thương mại. YOLO12 có thể giúp theo dõi khách hàng, nhận diện các vật dụng trang trí trong cửa hàng như chậu cây hoặc bảng hiệu quảng cáo, và phát hiện các vật thể bị bỏ quên hoặc để sai chỗ.

Kiến trúc tập trung vào attention giúp nó chú trọng vào các chi tiết quan trọng nhất, trong khi FlashAttention đảm bảo nó xử lý mọi thứ nhanh chóng mà không làm quá tải hệ thống. Điều này giúp các nhà vận hành trung tâm thương mại dễ dàng cải thiện an ninh, tổ chức bố trí cửa hàng và nâng cao trải nghiệm mua sắm tổng thể.

Phát hiện đối tượng trong trung tâm mua sắm bằng YOLO12

Hình 2. Phát hiện vật thể trong trung tâm thương mại bằng YOLO12.

Tuy nhiên, YOLO12 cũng đi kèm với một số hạn chế cần cân nhắc:

  • Thời gian huấn luyện lâu hơn: Do kiến trúc của mình, YOLO12 đòi hỏi thời gian huấn luyện lâu hơn so với YOLO11.
  • Thử thách khi export: Một số người dùng có thể gặp khó khăn khi export các model YOLO12, đặc biệt là khi tích hợp chúng vào các môi trường triển khai cụ thể.

Link to this sectionHiểu về các benchmark hiệu suất của YOLO12#

YOLO12 có nhiều phiên bản, mỗi phiên bản được tối ưu hóa cho các nhu cầu khác nhau. Các phiên bản nhỏ hơn (nano và small) ưu tiên tốc độ và hiệu suất, khiến chúng trở nên lý tưởng cho các thiết bị di động và điện toán biên (edge computing). Các phiên bản medium và large tạo ra sự cân bằng giữa tốc độ và độ chính xác, trong khi YOLO12x (extra large) được thiết kế cho các ứng dụng yêu cầu độ chính xác cao, như tự động hóa công nghiệp, chẩn đoán hình ảnh y tế và các hệ thống giám sát tiên tiến.

Với những biến thể này, YOLO12 mang lại các cấp độ hiệu suất khác nhau tùy thuộc vào kích thước model. Các bài kiểm tra benchmark cho thấy một số biến thể của YOLO12 vượt trội hơn YOLOv10 và YOLO11 về độ chính xác, đạt được mAP (mean average precision) cao hơn.

Tuy nhiên, một số model như YOLO12m, YOLO12l và YOLO12x xử lý hình ảnh chậm hơn YOLO11, cho thấy một sự đánh đổi giữa độ chính xác phát hiện và tốc độ. Mặc dù vậy, YOLO12 vẫn hiệu quả, đòi hỏi ít tham số hơn so với nhiều model khác, mặc dù nó vẫn sử dụng nhiều hơn YOLO11. Điều này biến nó thành lựa chọn tuyệt vời cho các ứng dụng mà độ chính xác quan trọng hơn tốc độ thô.

So sánh Ultralytics YOLO11 và YOLO12

Hình 3. So sánh Ultralytics YOLO11 và YOLO12.

Link to this sectionSử dụng YOLO12 thông qua gói Ultralytics Python#

YOLO12 được hỗ trợ bởi Ultralytics Python package và rất dễ sử dụng, giúp cả người mới bắt đầu và các chuyên gia đều có thể tiếp cận. Chỉ với vài dòng code, người dùng có thể tải các model đã được huấn luyện sẵn, chạy nhiều tác vụ computer vision trên hình ảnh và video, cũng như huấn luyện YOLO12 trên các tập dữ liệu tùy chỉnh. Gói Ultralytics Python giúp tinh giản quy trình, loại bỏ nhu cầu về các bước thiết lập phức tạp.

Ví dụ, dưới đây là các bước bạn sẽ thực hiện để sử dụng YOLO12 cho việc phát hiện vật thể:

  • Cài đặt gói Ultralytics: Trước tiên, hãy cài đặt gói Ultralytics Python, gói này cung cấp các công cụ cần thiết để chạy YOLO12 một cách hiệu quả. Điều này đảm bảo rằng tất cả các phụ thuộc được thiết lập chính xác.
  • Tải model YOLO12 đã được huấn luyện sẵn: Chọn biến thể YOLO12 phù hợp (nano, small, medium, large, hoặc extra large) dựa trên mức độ chính xác và tốc độ yêu cầu cho tác vụ của bạn.
  • Cung cấp hình ảnh hoặc video: Nhập một tệp hình ảnh hoặc video mà bạn muốn phân tích. YOLO12 cũng có thể xử lý các luồng video trực tiếp để phát hiện theo thời gian thực.
  • Chạy quy trình phát hiện: Model sẽ quét dữ liệu thị giác, xác định các vật thể và đặt các bounding box xung quanh chúng. Nó dán nhãn cho từng vật thể được phát hiện với class dự đoán và điểm số tin cậy (confidence score).
  • Điều chỉnh các cài đặt phát hiện: Bạn cũng có thể sửa đổi các tham số như ngưỡng confidence threshold để tinh chỉnh độ chính xác phát hiện và hiệu suất.
  • Lưu hoặc sử dụng đầu ra: Hình ảnh hoặc video đã xử lý, hiện đã chứa các vật thể được phát hiện, có thể được lưu lại hoặc tích hợp vào một ứng dụng để phân tích thêm, tự động hóa hoặc đưa ra quyết định.

Những bước này giúp YOLO12 dễ dàng sử dụng cho nhiều ứng dụng, từ giám sát và theo dõi bán lẻ đến chẩn đoán hình ảnh y tế và xe tự lái.

Link to this sectionCác ứng dụng thực tế của YOLO12#

YOLO12 có thể được sử dụng trong nhiều ứng dụng thực tế nhờ sự hỗ trợ cho việc phát hiện vật thể, instance segmentation, phân loại hình ảnh, ước tính tư thế (pose estimation) và phát hiện vật thể định hướng (OBB).

YOLO12 hỗ trợ các tác vụ như phát hiện đối tượng và phân đoạn cá thể

Hình 4. YOLO12 hỗ trợ các tác vụ như phát hiện vật thể và instance segmentation.

Tuy nhiên, như chúng ta đã thảo luận trước đó, các model YOLO12 ưu tiên độ chính xác hơn tốc độ, nghĩa là chúng mất nhiều thời gian hơn một chút để xử lý hình ảnh so với các phiên bản trước. Sự đánh đổi này khiến YOLO12 trở nên lý tưởng cho các ứng dụng nơi sự chính xác quan trọng hơn tốc độ thời gian thực, chẳng hạn như:

  • Medical imaging: YOLO12 có thể được huấn luyện tùy chỉnh để phát hiện các khối u hoặc bất thường trong ảnh X-quang và MRI với độ chính xác cao, khiến nó trở thành một công cụ hữu ích cho các bác sĩ và bác sĩ chẩn đoán hình ảnh, những người cần phân tích hình ảnh chính xác để đưa ra chẩn đoán.
  • Quality control in manufacturing: Nó có thể giúp xác định các lỗi sản phẩm trong quá trình sản xuất, đảm bảo rằng chỉ những mặt hàng chất lượng cao mới được đưa ra thị trường đồng thời giảm thiểu lãng phí và cải thiện hiệu suất.
  • Phân tích pháp y: Các cơ quan thực thi pháp luật có thể tinh chỉnh YOLO12 để phân tích các đoạn phim giám sát và thu thập bằng chứng. Trong các cuộc điều tra tội phạm, độ chính xác là yếu tố sống còn để xác định các chi tiết quan trọng.
  • Nông nghiệp chính xác: Nông dân có thể sử dụng YOLO12 để phân tích sức khỏe cây trồng, phát hiện dịch bệnh hoặc sự xâm nhập của sâu bệnh, và theo dõi điều kiện đất đai. Những đánh giá chính xác giúp tối ưu hóa chiến lược canh tác, dẫn đến năng suất và quản lý tài nguyên tốt hơn.

Link to this sectionBắt đầu với YOLO12#

Trước khi chạy YOLO12, điều quan trọng là phải đảm bảo hệ thống của bạn đáp ứng các yêu cầu cần thiết.

Về mặt kỹ thuật, YOLO12 có thể chạy trên bất kỳ GPU (Graphics Processing Unit) chuyên dụng nào. Theo mặc định, nó không yêu cầu FlashAttention, vì vậy nó có thể hoạt động trên hầu hết các hệ thống GPU mà không cần nó. Tuy nhiên, việc kích hoạt FlashAttention có thể đặc biệt hữu ích khi làm việc với các tập dữ liệu lớn hoặc hình ảnh có độ phân giải cao, vì nó giúp ngăn chặn sự chậm trễ, giảm sử dụng bộ nhớ và cải thiện hiệu suất xử lý.

Để sử dụng FlashAttention, bạn sẽ cần một GPU NVIDIA thuộc một trong các dòng sau: Turing (T4, Quadro RTX), Ampere (RTX 30 series, A30, A40, A100), Ada Lovelace (RTX 40 series), hoặc Hopper (H100, H200).

Với mục tiêu ưu tiên tính khả dụng và khả năng tiếp cận, gói Ultralytics Python hiện chưa hỗ trợ inference FlashAttention, do quá trình cài đặt có thể khá phức tạp về mặt kỹ thuật. Để tìm hiểu thêm về cách bắt đầu với YOLO12 và tối ưu hóa hiệu suất của nó, hãy xem tài liệu chính thức của Ultralytics.

Link to this sectionCác điểm chính cần lưu ý#

Khi computer vision tiến bộ, các model đang trở nên chính xác và hiệu quả hơn. YOLO12 cải thiện các tác vụ computer vision như phát hiện vật thể, instance segmentation và phân loại hình ảnh với xử lý tập trung vào attention và FlashAttention, nâng cao độ chính xác trong khi tối ưu hóa việc sử dụng bộ nhớ.

Đồng thời, computer vision ngày càng dễ tiếp cận hơn bao giờ hết. YOLO12 rất dễ sử dụng thông qua gói Ultralytics Python và với sự chú trọng vào độ chính xác hơn tốc độ, nó rất phù hợp cho chẩn đoán hình ảnh y tế, kiểm tra công nghiệp và robotics - những ứng dụng mà độ chính xác là chìa khóa.

Bạn tò mò về AI? Hãy ghé thăm GitHub repository của chúng tôi và kết nối với cộng đồng của chúng tôi. Khám phá các đổi mới trong các lĩnh vực như AI trong xe tự láicomputer vision trong nông nghiệp trên các trang giải pháp của chúng tôi. Hãy xem các tùy chọn cấp phép của chúng tôi và hiện thực hóa các dự án AI thị giác của bạn. 🚀

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning