Bằng cách nhấp vào “Chấp nhận tất cả cookie”, bạn đồng ý lưu trữ cookie trên thiết bị của mình để cải thiện khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thông tin thêm
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả cookie”, bạn đồng ý lưu trữ cookie trên thiết bị của mình để cải thiện khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thông tin thêm
Khám phá YOLO12, mô hình thị giác máy tính mới nhất! Tìm hiểu cách kiến trúc tập trung vào sự chú ý và công nghệ FlashAttention của nó cải thiện các tác vụ phát hiện đối tượng trong nhiều ngành công nghiệp
Thị giác máy tính là một nhánh của trí tuệ nhân tạo (AI) giúp máy móc hiểu được hình ảnh và video. Đây là một lĩnh vực đang phát triển với tốc độ đáng kinh ngạc vì các nhà nghiên cứu và phát triển AI liên tục đẩy mạnh các giới hạn. Cộng đồng AI luôn hướng đến mục tiêu tạo ra các mô hình nhanh hơn, thông minh hơn và hiệu quả hơn. Một trong những đột phá mới nhất là YOLO12 , phiên bản mới nhất của loạt mô hình YOLO (You Only Look Once), được phát hành vào ngày 18 tháng 2 năm 2025.
YOLO12 được phát triển bởi các nhà nghiên cứu từ Đại học Buffalo, SUNY (Đại học Tiểu bang New York) và Viện Hàn lâm Khoa học Trung Quốc. Theo cách tiếp cận mới độc đáo, YOLO12 giới thiệu các cơ chế chú ý, cho phép mô hình tập trung vào các phần thiết yếu nhất của hình ảnh thay vì xử lý mọi thứ như nhau.
Nó cũng có FlashAttention, một kỹ thuật giúp tăng tốc xử lý trong khi sử dụng ít bộ nhớ hơn, và cơ chế chú ý theo khu vực, được thiết kế để mô phỏng cách con người tự nhiên tập trung vào các vật thể ở trung tâm.
Những cải tiến này làm cho YOLO12n chính xác hơn 2,1% so với YOLOv10n và YOLO12m chính xác hơn 1,0% so với YOLO11m. Tuy nhiên, điều này đi kèm với sự đánh đổi - YOLO12n chậm hơn YOLOv10n 9% và YOLO12m chậm hơn YOLO11m 3%.
Hình 1. Một ví dụ về việc sử dụng YOLO12 để phát hiện vật thể.
Trong bài viết này, chúng ta sẽ khám phá điều gì làm cho YOLO12 khác biệt, cách so sánh với các phiên bản trước và nơi có thể áp dụng.
Con đường đến với sự ra mắt của YOLO12
Chuỗi mô hình YOLO là tập hợp các mô hình thị giác máy tính được thiết kế để phát hiện đối tượng theo thời gian thực, nghĩa là chúng có thể nhanh chóng xác định và định vị các đối tượng trong hình ảnh và video. Theo thời gian, mỗi phiên bản đều được cải thiện về tốc độ, độ chính xác và hiệu quả.
Ví dụ, Ultralytics YOLOv5 , phát hành năm 2020, được sử dụng rộng rãi vì nó nhanh chóng và dễ dàng để đào tạo và triển khai tùy chỉnh. Sau đó, Ultralytics YOLOv8 đã cải thiện điều này bằng cách cung cấp hỗ trợ bổ sung cho các tác vụ thị giác máy tính như phân đoạn thể hiện và theo dõi đối tượng.
Gần đây hơn, Ultralytics YOLO11 tập trung vào việc cải thiện xử lý thời gian thực trong khi vẫn duy trì sự cân bằng giữa tốc độ và độ chính xác. Ví dụ, YOLO11m có ít hơn 22% tham số so với YOLOv8m, nhưng vẫn mang lại hiệu suất phát hiện tốt hơn trên tập dữ liệu COCO, một chuẩn mực được sử dụng rộng rãi để đánh giá các mô hình phát hiện đối tượng.
Dựa trên những tiến bộ này, YOLO12 giới thiệu một sự thay đổi trong cách xử lý thông tin hình ảnh. Thay vì xử lý tất cả các phần của hình ảnh một cách bình đẳng, nó ưu tiên các khu vực có liên quan nhất, cải thiện độ chính xác phát hiện. Nói một cách đơn giản, YOLO12 xây dựng dựa trên những cải tiến trước đó trong khi hướng đến mục tiêu chính xác hơn.
Các tính năng chính của YOLO12
YOLO12 giới thiệu một số cải tiến giúp tăng cường các tác vụ thị giác máy tính trong khi vẫn giữ nguyên tốc độ xử lý thời gian thực. Sau đây là tổng quan về các tính năng chính của YOLO12:
Kiến trúc tập trung vào sự chú ý : Thay vì xử lý mọi phần của hình ảnh một cách bình đẳng, YOLO12 tập trung vào các khu vực quan trọng nhất. Điều này cải thiện độ chính xác và cắt giảm quá trình xử lý không cần thiết, giúp phát hiện sắc nét hơn và hiệu quả hơn, ngay cả trong hình ảnh lộn xộn.
FlashAttention: YOLO12 tăng tốc độ phân tích hình ảnh trong khi sử dụng ít bộ nhớ hơn. Với FlashAttention (một thuật toán tiết kiệm bộ nhớ), nó tối ưu hóa việc xử lý dữ liệu, giảm tải cho phần cứng và giúp các tác vụ thời gian thực mượt mà và đáng tin cậy hơn.
Residual Efficient Layer Aggregation Networks (R-ELAN) : YOLO12 tổ chức các lớp của mình hiệu quả hơn bằng cách sử dụng R-ELAN, giúp cải thiện cách mô hình xử lý và học hỏi từ dữ liệu. Điều này giúp đào tạo ổn định hơn, nhận dạng đối tượng sắc nét hơn và yêu cầu tính toán thấp hơn, do đó, nó chạy hiệu quả trên các môi trường khác nhau.
Để hiểu cách các tính năng này hoạt động trong thực tế, hãy xem xét một trung tâm mua sắm. YOLO12 có thể giúp theo dõi người mua sắm, xác định đồ trang trí cửa hàng như cây trồng trong chậu hoặc biển quảng cáo và phát hiện các mặt hàng bị thất lạc hoặc bị bỏ lại.
Kiến trúc tập trung vào sự chú ý giúp tập trung vào các chi tiết quan trọng nhất, trong khi FlashAttention đảm bảo xử lý mọi thứ nhanh chóng mà không làm quá tải hệ thống. Điều này giúp người điều hành trung tâm thương mại dễ dàng cải thiện bảo mật, sắp xếp bố cục cửa hàng và nâng cao trải nghiệm mua sắm tổng thể.
Hình 2. Phát hiện các đối tượng trong trung tâm mua sắm bằng YOLO12.
Tuy nhiên, YOLO12 cũng có một số hạn chế cần lưu ý:
Thời gian đào tạo chậm hơn: Do cấu trúc của nó, YOLO12 cần nhiều thời gian đào tạo hơn so với YOLO11.
Thách thức khi xuất : Một số người dùng có thể gặp khó khăn khi xuất mô hình YOLO12, đặc biệt là khi tích hợp chúng vào các môi trường triển khai cụ thể.
Hiểu về các chuẩn hiệu suất của YOLO12
YOLO12 có nhiều biến thể, mỗi biến thể được tối ưu hóa cho các nhu cầu khác nhau. Các phiên bản nhỏ hơn (nano và nhỏ) ưu tiên tốc độ và hiệu quả, khiến chúng trở nên lý tưởng cho các thiết bị di động và điện toán biên. Các phiên bản trung bình và lớn tạo sự cân bằng giữa tốc độ và độ chính xác , trong khi YOLO12x (cực lớn) được thiết kế cho các ứng dụng có độ chính xác cao, chẳng hạn như tự động hóa công nghiệp, hình ảnh y tế và hệ thống giám sát tiên tiến.
Với những biến thể này, YOLO12 cung cấp các mức hiệu suất khác nhau tùy thuộc vào kích thước mô hình. Các thử nghiệm chuẩn cho thấy một số biến thể của YOLO12 vượt trội hơn YOLOv10 và YOLO11 về độ chính xác, đạt được độ chính xác trung bình (mAP) cao hơn.
Tuy nhiên, một số mô hình, như YOLO12m, YOLO12l và YOLO12x, xử lý hình ảnh chậm hơn YOLO11, cho thấy sự đánh đổi giữa độ chính xác phát hiện và tốc độ. Mặc dù vậy, YOLO12 vẫn hiệu quả, yêu cầu ít tham số hơn nhiều mô hình khác, mặc dù nó vẫn sử dụng nhiều hơn YOLO11. Điều này làm cho nó trở thành lựa chọn tuyệt vời cho các ứng dụng mà độ chính xác quan trọng hơn tốc độ thô.
YOLO12 được hỗ trợ bởi gói Ultralytics Python và dễ sử dụng, giúp cả người mới bắt đầu và chuyên gia đều có thể sử dụng. Chỉ với một vài dòng mã, người dùng có thể tải các mô hình được đào tạo trước, chạy nhiều tác vụ thị giác máy tính trên hình ảnh và video, đồng thời đào tạo YOLO12 trên các tập dữ liệu tùy chỉnh. Gói Ultralytics Python hợp lý hóa quy trình, loại bỏ nhu cầu về các bước thiết lập phức tạp.
Cài đặt gói Ultralytics: Trước tiên, hãy cài đặt gói Ultralytics Python, cung cấp các công cụ cần thiết để chạy YOLO12 hiệu quả. Điều này đảm bảo rằng tất cả các phụ thuộc được thiết lập chính xác.
Tải mô hình YOLO12 đã được đào tạo trước: Chọn biến thể YOLO12 phù hợp (nano, nhỏ, trung bình, lớn hoặc cực lớn) dựa trên mức độ chính xác và tốc độ cần thiết cho nhiệm vụ của bạn.
Cung cấp hình ảnh hoặc video: Nhập tệp hình ảnh hoặc video mà bạn muốn phân tích. YOLO12 cũng có thể xử lý nguồn cấp video trực tiếp để phát hiện theo thời gian thực.
Chạy quy trình phát hiện: Mô hình quét dữ liệu trực quan, xác định các đối tượng và đặt các hộp giới hạn xung quanh chúng. Nó dán nhãn cho từng đối tượng được phát hiện bằng lớp dự đoán và điểm tin cậy.
Điều chỉnh cài đặt phát hiện: Bạn cũng có thể sửa đổi các thông số như ngưỡng tin cậy để tinh chỉnh độ chính xác và hiệu suất phát hiện.
Lưu hoặc sử dụng đầu ra: Hình ảnh hoặc video đã xử lý, hiện chứa các đối tượng được phát hiện, có thể được lưu hoặc tích hợp vào ứng dụng để phân tích, tự động hóa hoặc ra quyết định thêm.
Các bước này giúp YOLO12 dễ sử dụng cho nhiều ứng dụng khác nhau, từ giám sát và theo dõi bán lẻ đến hình ảnh y tế và xe tự hành.
Ứng dụng YOLO12 thực tế
YOLO12 có thể được sử dụng trong nhiều ứng dụng thực tế nhờ khả năng hỗ trợ phát hiện đối tượng, phân đoạn thực thể, phân loại hình ảnh, ước tính tư thế và phát hiện đối tượng theo hướng (OBB).
Hình 4. YOLO12 hỗ trợ các tác vụ như phát hiện đối tượng và phân đoạn thể hiện.
Tuy nhiên, như chúng ta đã thảo luận trước đó, các mô hình YOLO12 ưu tiên độ chính xác hơn tốc độ, nghĩa là chúng mất nhiều thời gian hơn một chút để xử lý hình ảnh so với các phiên bản trước đó. Sự đánh đổi này khiến YOLO12 trở nên lý tưởng cho các ứng dụng mà độ chính xác quan trọng hơn tốc độ thời gian thực, chẳng hạn như:
Chụp ảnh y tế : YOLO12 có thể được đào tạo tùy chỉnh để phát hiện khối u hoặc bất thường trong ảnh X-quang và MRI với độ chính xác cao, khiến nó trở thành công cụ hữu ích cho các bác sĩ và bác sĩ X-quang cần phân tích hình ảnh chính xác để chẩn đoán.
Kiểm soát chất lượng trong sản xuất : Có thể giúp xác định lỗi sản phẩm trong quá trình sản xuất, đảm bảo chỉ những sản phẩm chất lượng cao mới được đưa ra thị trường đồng thời giảm thiểu lãng phí và nâng cao hiệu quả.
Phân tích pháp y : Các cơ quan thực thi pháp luật có thể tinh chỉnh YOLO12 để phân tích cảnh quay giám sát và thu thập bằng chứng. Trong các cuộc điều tra tội phạm, độ chính xác là rất quan trọng để xác định các chi tiết quan trọng.
Nông nghiệp chính xác : Nông dân có thể sử dụng YOLO12 để phân tích sức khỏe cây trồng, phát hiện bệnh tật hoặc sâu bệnh và theo dõi tình trạng đất. Đánh giá chính xác giúp tối ưu hóa các chiến lược canh tác, dẫn đến năng suất và quản lý tài nguyên tốt hơn.
Bắt đầu với YOLO12
Trước khi chạy YOLO12, điều quan trọng là phải đảm bảo hệ thống của bạn đáp ứng các yêu cầu cần thiết.
Về mặt kỹ thuật, YOLO12 có thể chạy trên bất kỳ GPU (Bộ xử lý đồ họa) chuyên dụng nào. Theo mặc định, nó không yêu cầu FlashAttention, do đó nó có thể hoạt động trên hầu hết các hệ thống GPU không có nó. Tuy nhiên, việc bật FlashAttention có thể đặc biệt hữu ích khi làm việc với các tập dữ liệu lớn hoặc hình ảnh có độ phân giải cao, vì nó giúp ngăn ngừa tình trạng chậm lại, giảm mức sử dụng bộ nhớ và cải thiện hiệu quả xử lý.
Để sử dụng FlashAttention, bạn sẽ cần GPU NVIDIA thuộc một trong các dòng sau: Turing (T4, Quadro RTX), Ampere (dòng RTX 30, A30, A40, A100), Ada Lovelace (dòng RTX 40) hoặc Hopper (H100, H200).
Lưu ý đến khả năng sử dụng và khả năng truy cập, gói Ultralytics Python hiện chưa hỗ trợ suy luận FlashAttention vì việc cài đặt có thể khá phức tạp về mặt kỹ thuật. Để tìm hiểu thêm về cách bắt đầu với YOLO12 và tối ưu hóa hiệu suất của nó, hãy xem tài liệu chính thức của Ultralytics .
Những điểm chính
Khi thị giác máy tính tiến bộ, các mô hình trở nên chính xác và hiệu quả hơn. YOLO12 cải thiện các tác vụ thị giác máy tính như phát hiện đối tượng, phân đoạn thể hiện và phân loại hình ảnh với xử lý tập trung vào sự chú ý và FlashAttention, tăng cường độ chính xác đồng thời tối ưu hóa việc sử dụng bộ nhớ.
Đồng thời, thị giác máy tính dễ tiếp cận hơn bao giờ hết. YOLO12 dễ sử dụng thông qua gói Ultralytics Python và tập trung vào độ chính xác hơn tốc độ, rất phù hợp cho hình ảnh y tế, kiểm tra công nghiệp và robot - các ứng dụng mà độ chính xác là chìa khóa.