Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay

YOLO12 được giải thích: Các ứng dụng và trường hợp sử dụng trong thế giới thực

Khám phá YOLO12, mô hình computer vision mới nhất! Tìm hiểu cách kiến trúc tập trung vào sự chú ý và công nghệ FlashAttention của nó nâng cao các tác vụ object detection trong các ngành công nghiệp.

Thị giác máy tính là một nhánh của trí tuệ nhân tạo (AI) giúp máy móc hiểu được hình ảnh và video. Đây là một lĩnh vực đang phát triển với tốc độ đáng kinh ngạc bởi các nhà nghiên cứu và phát triển AI không ngừng vượt qua giới hạn. Cộng đồng AI luôn hướng đến việc tạo ra các mô hình nhanh hơn, thông minh hơn và hiệu quả hơn. Một trong những đột phá mới nhất là YOLO12 , phiên bản mới nhất của... YOLO Dòng sản phẩm (You Only Look Once), ra mắt ngày 18 tháng 2 năm 2025.

YOLO12 được phát triển bởi các nhà nghiên cứu từ Đại học Buffalo, SUNY (Đại học Bang New York) và Đại học thuộc Học viện Khoa học Trung Quốc. Trong một phương pháp mới độc đáo, YOLO12 giới thiệu các cơ chế chú ý, cho phép mô hình tập trung vào các phần quan trọng nhất của hình ảnh thay vì xử lý mọi thứ một cách bình đẳng. 

Nó cũng có FlashAttention, một kỹ thuật giúp tăng tốc xử lý trong khi sử dụng ít bộ nhớ hơn và một cơ chế chú ý vùng, được thiết kế để bắt chước cách con người tự nhiên tập trung vào các đối tượng trung tâm.

Những cải tiến này giúp YOLO12n chính xác hơn 2.1% so với YOLOv10n và YOLO12m chính xác hơn 1.0% so với YOLO11m. Tuy nhiên, điều này đi kèm với sự đánh đổi - YOLO12n chậm hơn 9% so với YOLOv10n và YOLO12m chậm hơn 3% so với YOLO11m.

__wf_reserved_inherit
Hình 1. Một ví dụ về YOLO12 được sử dụng để detect các vật thể.

Trong bài viết này, chúng ta sẽ khám phá những điểm khác biệt của YOLO12, so sánh nó với các phiên bản trước và các lĩnh vực ứng dụng của nó.

Lộ trình phát hành YOLO12

Dòng mô hình YOLO là tập hợp các mô hình thị giác máy tính được thiết kế để phát hiện đối tượng theo thời gian thực, nghĩa là chúng có thể nhanh chóng nhận dạng và định vị đối tượng trong hình ảnh và video. Theo thời gian, mỗi phiên bản đều được cải thiện về tốc độ, độ chính xác và hiệu quả.

Ví dụ, Ultralytics YOLOv5 , được phát hành năm 2020, đã được sử dụng rộng rãi vì nó nhanh chóng và dễ dàng để tùy chỉnh và triển khai. Sau đó, Ultralytics YOLOv8 đã cải thiện điều này bằng cách cung cấp hỗ trợ bổ sung cho các tác vụ thị giác máy tính như phân đoạn thể hiện và theo dõi đối tượng. 

Gần đây hơn, Ultralytics YOLO11 tập trung vào việc cải thiện khả năng xử lý thời gian thực trong khi vẫn duy trì sự cân bằng giữa tốc độ và độ chính xác. Ví dụ, YOLO11m có số lượng tham số ít hơn 22% so với YOLOv8m , nhưng vẫn mang lại hiệu suất phát hiện tốt hơn trên COCO tập dữ liệu, một chuẩn mực được sử dụng rộng rãi để đánh giá các mô hình phát hiện đối tượng.

Dựa trên những tiến bộ này, YOLO12 giới thiệu một sự thay đổi trong cách nó xử lý thông tin trực quan. Thay vì xử lý tất cả các phần của hình ảnh một cách bình đẳng, nó ưu tiên các khu vực liên quan nhất, cải thiện độ chính xác phát hiện. Nói một cách đơn giản, YOLO12 xây dựng dựa trên những cải tiến trước đó đồng thời hướng đến sự chính xác hơn.

Các tính năng chính của YOLO12

YOLO12 giới thiệu một số cải tiến giúp tăng cường các tác vụ thị giác máy tính trong khi vẫn giữ nguyên tốc độ xử lý theo thời gian thực. Dưới đây là tổng quan về các tính năng chính của YOLO12:

  • Kiến trúc tập trung vào Attention: Thay vì xử lý mọi phần của hình ảnh một cách bình đẳng, YOLO12 tập trung vào các khu vực quan trọng nhất. Điều này cải thiện độ chính xác và cắt giảm quá trình xử lý không cần thiết, giúp phát hiện sắc nét hơn và hiệu quả hơn, ngay cả trong hình ảnh lộn xộn.
  • FlashAttention: YOLO12 tăng tốc độ phân tích hình ảnh trong khi sử dụng ít bộ nhớ hơn. Với FlashAttention (một thuật toán tiết kiệm bộ nhớ), nó tối ưu hóa việc xử lý dữ liệu, giảm áp lực phần cứng và làm cho các tác vụ thời gian thực trở nên mượt mà và đáng tin cậy hơn.
  • Mạng tổng hợp lớp hiệu quả dư (R-ELAN): YOLO12 tổ chức các lớp hiệu quả hơn bằng cách sử dụng R-ELAN, giúp cải thiện cách mô hình xử lý và học hỏi từ dữ liệu. Điều này làm cho quá trình huấn luyện ổn định hơn, khả năng nhận dạng đối tượng sắc nét hơn và yêu cầu tính toán thấp hơn, do đó nó chạy hiệu quả trên các môi trường khác nhau.

Để hiểu cách các tính năng này hoạt động trong thực tế, hãy xem xét một trung tâm mua sắm. YOLO12 có thể giúp bạn track người mua sắm, xác định đồ trang trí cửa hàng như cây trồng trong chậu hoặc biển quảng cáo, và phát hiện những món đồ bị thất lạc hoặc bị bỏ lại. 

Kiến trúc tập trung vào sự chú ý của nó giúp nó tập trung vào các chi tiết quan trọng nhất, trong khi FlashAttention đảm bảo nó xử lý mọi thứ nhanh chóng mà không làm quá tải hệ thống. Điều này giúp các nhà điều hành trung tâm thương mại dễ dàng cải thiện an ninh, tổ chức bố cục cửa hàng và nâng cao trải nghiệm mua sắm tổng thể.

__wf_reserved_inherit
Hình 2. Phát hiện các đối tượng trong một trung tâm mua sắm bằng YOLO12.

Tuy nhiên, YOLO12 cũng đi kèm với một số hạn chế cần xem xét:

  • Thời gian đào tạo chậm hơn: Do kiến trúc của nó, YOLO12 yêu cầu nhiều thời gian đào tạo hơn so với YOLO11 .
  • Thách thức xuất: Một số người dùng có thể gặp khó khăn khi xuất các mô hình YOLO12, đặc biệt là khi tích hợp chúng vào các môi trường triển khai cụ thể.

Tìm hiểu các chuẩn mực hiệu suất của YOLO12

YOLO12 có nhiều biến thể, mỗi biến thể được tối ưu hóa cho các nhu cầu khác nhau. Các phiên bản nhỏ hơn (nano và small) ưu tiên tốc độ và hiệu quả, khiến chúng trở nên lý tưởng cho thiết bị di động và điện toán biên. Các phiên bản medium và large đạt được sự cân bằng giữa tốc độ và độ chính xác, trong khi YOLO12x (extra large) được thiết kế cho các ứng dụng có độ chính xác cao, chẳng hạn như tự động hóa công nghiệp, chẩn đoán hình ảnh y tế và hệ thống giám sát tiên tiến.

Với những biến thể này, YOLO12 mang lại các mức hiệu suất khác nhau tùy thuộc vào kích thước mô hình. Các bài kiểm tra chuẩn cho thấy một số biến thể của YOLO12 có hiệu suất vượt trội hơn YOLOv10 Và YOLO11 về độ chính xác, đạt được độ chính xác trung bình cao hơn ( mAP ). 

Tuy nhiên, một số mẫu máy như YOLO12m, YOLO12l và YOLO12x xử lý hình ảnh chậm hơn YOLO11 , cho thấy sự đánh đổi giữa độ chính xác phát hiện và tốc độ. Mặc dù vậy, YOLO12 vẫn hiệu quả, yêu cầu ít tham số hơn nhiều mô hình khác, mặc dù nó vẫn sử dụng nhiều hơn YOLO11 . Điều này làm cho nó trở thành lựa chọn tuyệt vời cho các ứng dụng mà độ chính xác quan trọng hơn tốc độ thô.

__wf_reserved_inherit
Hình 3. So sánh Ultralytics YOLO11 và YOLO12.

Sử dụng YOLO12 thông qua Ultralytics Python bưu kiện

YOLO12 được hỗ trợ bởi gói Ultralytics Python và rất dễ sử dụng, phù hợp cho cả người mới bắt đầu và chuyên gia. Chỉ với vài dòng mã, người dùng có thể tải các mô hình được đào tạo sẵn, chạy nhiều tác vụ thị giác máy tính khác nhau trên hình ảnh và video, đồng thời đào tạo YOLO12 trên các tập dữ liệu tùy chỉnh. Ultralytics Python gói này đơn giản hóa quy trình, loại bỏ nhu cầu thực hiện các bước thiết lập phức tạp.

Ví dụ: đây là các bước bạn cần thực hiện để sử dụng YOLO12 để phát hiện đối tượng:

  • Cài đặt gói Ultralytics : Đầu tiên, cài đặt Ultralytics Python Gói này cung cấp các công cụ cần thiết để chạy YOLO12 hiệu quả. Điều này đảm bảo tất cả các phụ thuộc được thiết lập chính xác.
  • Tải mô hình YOLO12 đã được huấn luyện trước: Chọn biến thể YOLO12 phù hợp (nano, small, medium, large hoặc extra large) dựa trên mức độ chính xác và tốc độ cần thiết cho tác vụ của bạn.
  • Cung cấp một hình ảnh hoặc video: Nhập một tệp hình ảnh hoặc video mà bạn muốn phân tích. YOLO12 cũng có thể xử lý các nguồn cấp video trực tiếp để phát hiện theo thời gian thực.
  • Chạy quy trình phát hiện: Mô hình quét dữ liệu trực quan, xác định các đối tượng và đặt các hộp giới hạn xung quanh chúng. Nó gắn nhãn cho mỗi đối tượng được phát hiện với lớp dự đoán và điểm tin cậy của nó.
  • Điều chỉnh cài đặt phát hiện (Adjust detection settings): Bạn cũng có thể sửa đổi các tham số như ngưỡng tin cậy để tinh chỉnh độ chính xác và hiệu suất phát hiện.
  • Lưu hoặc sử dụng đầu ra: Hình ảnh hoặc video đã xử lý, hiện chứa các đối tượng được phát hiện, có thể được lưu hoặc tích hợp vào một ứng dụng để phân tích, tự động hóa hoặc ra quyết định thêm.

Các bước này giúp YOLO12 dễ sử dụng cho nhiều ứng dụng khác nhau, từ giám sát và theo dõi bán lẻ đến hình ảnh y tế và xe tự hành.

Các ứng dụng thực tế của YOLO12

YOLO12 có thể được sử dụng trong nhiều ứng dụng thực tế nhờ hỗ trợ phát hiện đối tượng, phân đoạn thể hiện, phân loại hình ảnh, ước tính tư thế và phát hiện đối tượng theo hướng (OBB). 

__wf_reserved_inherit
Hình 4. YOLO12 hỗ trợ các tác vụ như phát hiện đối tượng (object detection) và phân vùng thực thể (instance segmentation).

Tuy nhiên, như chúng ta đã thảo luận trước đó, các mô hình YOLO12 ưu tiên độ chính xác hơn tốc độ, có nghĩa là chúng mất nhiều thời gian hơn một chút để xử lý hình ảnh so với các phiên bản trước. Sự đánh đổi này làm cho YOLO12 trở nên lý tưởng cho các ứng dụng mà độ chính xác quan trọng hơn tốc độ thời gian thực, chẳng hạn như:

  • Hình ảnh y tế : YOLO12 có thể được đào tạo tùy chỉnh để detect khối u hoặc bất thường trong phim X-quang và MRI với độ chính xác cao, khiến nó trở thành công cụ hữu ích cho các bác sĩ và bác sĩ X-quang cần phân tích hình ảnh chính xác để chẩn đoán.
  • Kiểm soát chất lượng trong sản xuất: Nó có thể giúp xác định các lỗi sản phẩm trong quá trình sản xuất, đảm bảo rằng chỉ những mặt hàng chất lượng cao mới được đưa ra thị trường, đồng thời giảm lãng phí và nâng cao hiệu quả.
  • Phân tích pháp y: Các cơ quan thực thi pháp luật có thể tinh chỉnh YOLO12 để phân tích cảnh quay giám sát và thu thập bằng chứng. Trong các cuộc điều tra hình sự, độ chính xác là rất quan trọng để xác định các chi tiết quan trọng.
  • Nông nghiệp chính xác : Nông dân có thể sử dụng YOLO12 để phân tích sức khỏe cây trồng, detect tình trạng nhiễm bệnh hoặc sâu bệnh, đồng thời theo dõi tình trạng đất. Đánh giá chính xác giúp tối ưu hóa các chiến lược canh tác, dẫn đến năng suất và quản lý tài nguyên tốt hơn.

Bắt đầu với YOLO12

Trước khi chạy YOLO12, điều quan trọng là phải đảm bảo hệ thống của bạn đáp ứng các yêu cầu cần thiết.

Về mặt kỹ thuật, YOLO12 có thể chạy trên bất kỳ GPU (Bộ xử lý đồ họa) chuyên dụng nào. Theo mặc định, nó không yêu cầu FlashAttention, vì vậy nó có thể hoạt động trên hầu hết GPU các hệ thống không có tính năng này. Tuy nhiên, việc bật FlashAttention có thể đặc biệt hữu ích khi làm việc với các tập dữ liệu lớn hoặc hình ảnh có độ phân giải cao, vì nó giúp ngăn ngừa tình trạng chậm máy, giảm mức sử dụng bộ nhớ và cải thiện hiệu quả xử lý. 

Để sử dụng FlashAttention, bạn sẽ cần một NVIDIA GPU từ một trong các dòng sau: Turing (T4, Quadro RTX), Ampere (dòng RTX 30, A30, A40, A100), Ada Lovelace (dòng RTX 40) hoặc Hopper (H100, H200).

Giữ khả năng sử dụng và khả năng truy cập trong tâm trí, Ultralytics Python Gói này hiện chưa hỗ trợ suy luận FlashAttention, vì việc cài đặt có thể khá phức tạp về mặt kỹ thuật. Để tìm hiểu thêm về cách bắt đầu sử dụng YOLO12 và tối ưu hóa hiệu suất, hãy xem tài liệu chính thức Ultralytics .

Những điều cần nhớ

Khi computer vision tiến bộ, các mô hình ngày càng trở nên chính xác và hiệu quả hơn. YOLO12 cải thiện các tác vụ computer vision như phát hiện đối tượng, phân đoạn thể hiện và phân loại hình ảnh với khả năng xử lý tập trung vào sự chú ý và FlashAttention, tăng cường độ chính xác đồng thời tối ưu hóa việc sử dụng bộ nhớ.

Đồng thời, thị giác máy tính dễ tiếp cận hơn bao giờ hết. YOLO12 dễ sử dụng thông qua Ultralytics Python gói và tập trung vào độ chính xác hơn tốc độ, rất phù hợp cho chụp ảnh y tế, kiểm tra công nghiệp và robot - những ứng dụng đòi hỏi độ chính xác cao.

Bạn tò mò về AI? Hãy truy cập kho lưu trữ GitHub của chúng tôi và tương tác với cộng đồng của chúng tôi. Khám phá những đổi mới trong các lĩnh vực như AI trong xe tự láithị giác máy tính trong nông nghiệp trên các trang giải pháp của chúng tôi. Hãy xem các tùy chọn cấp phép của chúng tôi và biến các dự án Vision AI của bạn thành hiện thực. 🚀

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí