Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Khám phá YOLO12, mô hình computer vision mới nhất! Tìm hiểu cách kiến trúc tập trung vào sự chú ý và công nghệ FlashAttention của nó nâng cao các tác vụ object detection trong các ngành công nghiệp.
Thị giác máy tính là một nhánh của trí tuệ nhân tạo (AI) giúp máy móc hiểu được hình ảnh và video. Đây là một lĩnh vực đang phát triển với tốc độ đáng kinh ngạc vì các nhà nghiên cứu và phát triển AI liên tục vượt qua các giới hạn. Cộng đồng AI luôn hướng đến việc tạo ra các mô hình nhanh hơn, thông minh hơn và hiệu quả hơn. Một trong những đột phá mới nhất là YOLO12, phiên bản mới nhất của dòng mô hình YOLO (You Only Look Once), được phát hành vào ngày 18 tháng 2 năm 2025.
YOLO12 được phát triển bởi các nhà nghiên cứu từ Đại học Buffalo, SUNY (Đại học Bang New York) và Đại học thuộc Học viện Khoa học Trung Quốc. Trong một phương pháp mới độc đáo, YOLO12 giới thiệu các cơ chế chú ý, cho phép mô hình tập trung vào các phần quan trọng nhất của hình ảnh thay vì xử lý mọi thứ một cách bình đẳng.
Nó cũng có FlashAttention, một kỹ thuật giúp tăng tốc xử lý trong khi sử dụng ít bộ nhớ hơn và một cơ chế chú ý vùng, được thiết kế để bắt chước cách con người tự nhiên tập trung vào các đối tượng trung tâm.
Những cải tiến này giúp YOLO12n chính xác hơn 2.1% so với YOLOv10n và YOLO12m chính xác hơn 1.0% so với YOLO11m. Tuy nhiên, điều này đi kèm với sự đánh đổi - YOLO12n chậm hơn 9% so với YOLOv10n và YOLO12m chậm hơn 3% so với YOLO11m.
Hình 1. Một ví dụ về YOLO12 được sử dụng để phát hiện vật thể.
Trong bài viết này, chúng ta sẽ khám phá những điểm khác biệt của YOLO12, so sánh nó với các phiên bản trước và các lĩnh vực ứng dụng của nó.
Lộ trình phát hành YOLO12
Dòng mô hình YOLO là một tập hợp các mô hình thị giác máy tính được thiết kế để phát hiện đối tượng theo thời gian thực, có nghĩa là chúng có thể nhanh chóng xác định và định vị các đối tượng trong hình ảnh và video. Theo thời gian, mỗi phiên bản đã được cải thiện về tốc độ, độ chính xác và hiệu quả.
Ví dụ: Ultralytics YOLOv5, được phát hành vào năm 2020, đã được sử dụng rộng rãi vì nó nhanh chóng và dễ dàng để huấn luyện tùy chỉnh và triển khai. Sau đó, Ultralytics YOLOv8 đã cải thiện điều này bằng cách cung cấp hỗ trợ bổ sung cho các tác vụ thị giác máy tính như phân vùng thể hiện và theo dõi đối tượng.
Gần đây hơn, Ultralytics YOLO11 tập trung vào việc cải thiện khả năng xử lý theo thời gian thực đồng thời duy trì sự cân bằng giữa tốc độ và độ chính xác. Ví dụ: YOLO11m có số lượng tham số ít hơn 22% so với YOLOv8m, nhưng vẫn mang lại hiệu suất phát hiện tốt hơn trên bộ dữ liệu COCO, một chuẩn mực được sử dụng rộng rãi để đánh giá các mô hình phát hiện đối tượng.
Dựa trên những tiến bộ này, YOLO12 giới thiệu một sự thay đổi trong cách nó xử lý thông tin trực quan. Thay vì xử lý tất cả các phần của hình ảnh một cách bình đẳng, nó ưu tiên các khu vực liên quan nhất, cải thiện độ chính xác phát hiện. Nói một cách đơn giản, YOLO12 xây dựng dựa trên những cải tiến trước đó đồng thời hướng đến sự chính xác hơn.
Các tính năng chính của YOLO12
YOLO12 giới thiệu một số cải tiến giúp tăng cường các tác vụ thị giác máy tính trong khi vẫn giữ nguyên tốc độ xử lý theo thời gian thực. Dưới đây là tổng quan về các tính năng chính của YOLO12:
Kiến trúc tập trung vào Attention: Thay vì xử lý mọi phần của hình ảnh một cách bình đẳng, YOLO12 tập trung vào các khu vực quan trọng nhất. Điều này cải thiện độ chính xác và cắt giảm quá trình xử lý không cần thiết, giúp phát hiện sắc nét hơn và hiệu quả hơn, ngay cả trong hình ảnh lộn xộn.
FlashAttention: YOLO12 tăng tốc độ phân tích hình ảnh trong khi sử dụng ít bộ nhớ hơn. Với FlashAttention (một thuật toán tiết kiệm bộ nhớ), nó tối ưu hóa việc xử lý dữ liệu, giảm áp lực phần cứng và làm cho các tác vụ thời gian thực trở nên mượt mà và đáng tin cậy hơn.
Mạng tổng hợp lớp hiệu quả dư (R-ELAN): YOLO12 tổ chức các lớp hiệu quả hơn bằng cách sử dụng R-ELAN, giúp cải thiện cách mô hình xử lý và học hỏi từ dữ liệu. Điều này làm cho quá trình huấn luyện ổn định hơn, khả năng nhận dạng đối tượng sắc nét hơn và yêu cầu tính toán thấp hơn, do đó nó chạy hiệu quả trên các môi trường khác nhau.
Để hiểu cách các tính năng này hoạt động trong thực tế, hãy xem xét một trung tâm mua sắm. YOLO12 có thể giúp theo dõi người mua sắm, xác định các vật trang trí cửa hàng như cây cảnh hoặc biển quảng cáo và phát hiện các vật phẩm bị thất lạc hoặc bị bỏ quên.
Kiến trúc tập trung vào sự chú ý của nó giúp nó tập trung vào các chi tiết quan trọng nhất, trong khi FlashAttention đảm bảo nó xử lý mọi thứ nhanh chóng mà không làm quá tải hệ thống. Điều này giúp các nhà điều hành trung tâm thương mại dễ dàng cải thiện an ninh, tổ chức bố cục cửa hàng và nâng cao trải nghiệm mua sắm tổng thể.
Hình 2. Phát hiện các đối tượng trong một trung tâm mua sắm bằng YOLO12.
Tuy nhiên, YOLO12 cũng đi kèm với một số hạn chế cần xem xét:
Thời gian huấn luyện chậm hơn: Do kiến trúc của nó, YOLO12 đòi hỏi nhiều thời gian huấn luyện hơn so với YOLO11.
Thách thức xuất: Một số người dùng có thể gặp khó khăn khi xuất các mô hình YOLO12, đặc biệt là khi tích hợp chúng vào các môi trường triển khai cụ thể.
Tìm hiểu các chuẩn mực hiệu suất của YOLO12
YOLO12 có nhiều biến thể, mỗi biến thể được tối ưu hóa cho các nhu cầu khác nhau. Các phiên bản nhỏ hơn (nano và small) ưu tiên tốc độ và hiệu quả, khiến chúng trở nên lý tưởng cho thiết bị di động và điện toán biên. Các phiên bản medium và large đạt được sự cân bằng giữa tốc độ và độ chính xác, trong khi YOLO12x (extra large) được thiết kế cho các ứng dụng có độ chính xác cao, chẳng hạn như tự động hóa công nghiệp, chẩn đoán hình ảnh y tế và hệ thống giám sát tiên tiến.
Với những biến thể này, YOLO12 mang lại các mức hiệu suất khác nhau tùy thuộc vào kích thước mô hình. Các thử nghiệm điểm chuẩn cho thấy một số biến thể nhất định của YOLO12 vượt trội hơn YOLOv10 và YOLO11 về độ chính xác, đạt được độ chính xác trung bình (mAP) cao hơn.
Tuy nhiên, một số mô hình, như YOLO12m, YOLO12l và YOLO12x, xử lý hình ảnh chậm hơn YOLO11, cho thấy sự đánh đổi giữa độ chính xác và tốc độ phát hiện. Mặc dù vậy, YOLO12 vẫn hiệu quả, đòi hỏi ít tham số hơn so với nhiều mô hình khác, mặc dù vẫn sử dụng nhiều hơn YOLO11. Điều này làm cho nó trở thành một lựa chọn tuyệt vời cho các ứng dụng mà độ chính xác quan trọng hơn tốc độ thô.
YOLO12 được hỗ trợ bởi gói Ultralytics Python và rất dễ sử dụng, giúp cả người mới bắt đầu và chuyên gia đều có thể tiếp cận được. Chỉ với một vài dòng mã, người dùng có thể tải các mô hình được đào tạo trước, chạy các tác vụ thị giác máy tính khác nhau trên hình ảnh và video, đồng thời đào tạo YOLO12 trên các bộ dữ liệu tùy chỉnh. Gói Ultralytics Python giúp đơn giản hóa quy trình, loại bỏ nhu cầu thiết lập phức tạp.
Cài đặt gói Ultralytics: Đầu tiên, hãy cài đặt gói Ultralytics Python, cung cấp các công cụ cần thiết để chạy YOLO12 một cách hiệu quả. Điều này đảm bảo rằng tất cả các phụ thuộc được thiết lập chính xác.
Tải mô hình YOLO12 đã được huấn luyện trước: Chọn biến thể YOLO12 phù hợp (nano, small, medium, large hoặc extra large) dựa trên mức độ chính xác và tốc độ cần thiết cho tác vụ của bạn.
Cung cấp một hình ảnh hoặc video: Nhập một tệp hình ảnh hoặc video mà bạn muốn phân tích. YOLO12 cũng có thể xử lý các nguồn cấp video trực tiếp để phát hiện theo thời gian thực.
Chạy quy trình phát hiện: Mô hình quét dữ liệu trực quan, xác định các đối tượng và đặt các hộp giới hạn xung quanh chúng. Nó gắn nhãn cho mỗi đối tượng được phát hiện với lớp dự đoán và điểm tin cậy của nó.
Điều chỉnh cài đặt phát hiện (Adjust detection settings): Bạn cũng có thể sửa đổi các tham số như ngưỡng tin cậy để tinh chỉnh độ chính xác và hiệu suất phát hiện.
Lưu hoặc sử dụng đầu ra: Hình ảnh hoặc video đã xử lý, hiện chứa các đối tượng được phát hiện, có thể được lưu hoặc tích hợp vào một ứng dụng để phân tích, tự động hóa hoặc ra quyết định thêm.
Các bước này giúp YOLO12 dễ sử dụng cho nhiều ứng dụng khác nhau, từ giám sát và theo dõi bán lẻ đến hình ảnh y tế và xe tự hành.
Các ứng dụng thực tế của YOLO12
YOLO12 có thể được sử dụng trong nhiều ứng dụng thực tế nhờ hỗ trợ phát hiện đối tượng, phân đoạn thể hiện, phân loại hình ảnh, ước tính tư thế và phát hiện đối tượng theo hướng (OBB).
Hình 4. YOLO12 hỗ trợ các tác vụ như phát hiện đối tượng (object detection) và phân vùng thực thể (instance segmentation).
Tuy nhiên, như chúng ta đã thảo luận trước đó, các mô hình YOLO12 ưu tiên độ chính xác hơn tốc độ, có nghĩa là chúng mất nhiều thời gian hơn một chút để xử lý hình ảnh so với các phiên bản trước. Sự đánh đổi này làm cho YOLO12 trở nên lý tưởng cho các ứng dụng mà độ chính xác quan trọng hơn tốc độ thời gian thực, chẳng hạn như:
Chẩn đoán hình ảnh y tế: YOLO12 có thể được tùy chỉnh huấn luyện để phát hiện khối u hoặc các bất thường trong phim chụp X-quang và MRI với độ chính xác cao, khiến nó trở thành một công cụ hữu ích cho các bác sĩ và chuyên gia радиологи cần phân tích hình ảnh chính xác để chẩn đoán.
Kiểm soát chất lượng trong sản xuất: Nó có thể giúp xác định các lỗi sản phẩm trong quá trình sản xuất, đảm bảo rằng chỉ những mặt hàng chất lượng cao mới được đưa ra thị trường, đồng thời giảm lãng phí và nâng cao hiệu quả.
Phân tích pháp y: Các cơ quan thực thi pháp luật có thể tinh chỉnh YOLO12 để phân tích cảnh quay giám sát và thu thập bằng chứng. Trong các cuộc điều tra hình sự, độ chính xác là rất quan trọng để xác định các chi tiết quan trọng.
Nông nghiệp chính xác: Nông dân có thể sử dụng YOLO12 để phân tích sức khỏe cây trồng, phát hiện bệnh tật hoặc sự phá hoại của dịch hại và theo dõi điều kiện đất. Đánh giá chính xác giúp tối ưu hóa các chiến lược canh tác, dẫn đến năng suất và quản lý tài nguyên tốt hơn.
Bắt đầu với YOLO12
Trước khi chạy YOLO12, điều quan trọng là phải đảm bảo hệ thống của bạn đáp ứng các yêu cầu cần thiết.
Về mặt kỹ thuật, YOLO12 có thể chạy trên bất kỳ GPU (Bộ xử lý đồ họa) chuyên dụng nào. Theo mặc định, nó không yêu cầu FlashAttention, vì vậy nó có thể hoạt động trên hầu hết các hệ thống GPU mà không cần nó. Tuy nhiên, việc bật FlashAttention có thể đặc biệt hữu ích khi làm việc với các tập dữ liệu lớn hoặc hình ảnh có độ phân giải cao, vì nó giúp ngăn ngừa tình trạng chậm, giảm mức sử dụng bộ nhớ và cải thiện hiệu quả xử lý.
Để sử dụng FlashAttention, bạn sẽ cần một GPU NVIDIA từ một trong các dòng sau: Turing (T4, Quadro RTX), Ampere (RTX 30 series, A30, A40, A100), Ada Lovelace (RTX 40 series) hoặc Hopper (H100, H200).
Để đảm bảo tính khả dụng và khả năng truy cập, gói Ultralytics Python hiện chưa hỗ trợ suy luận FlashAttention, vì việc cài đặt có thể khá phức tạp về mặt kỹ thuật. Để tìm hiểu thêm về cách bắt đầu với YOLO12 và tối ưu hóa hiệu suất của nó, hãy xem tài liệu chính thức của Ultralytics.
Những điều cần nhớ
Khi computer vision tiến bộ, các mô hình ngày càng trở nên chính xác và hiệu quả hơn. YOLO12 cải thiện các tác vụ computer vision như phát hiện đối tượng, phân đoạn thể hiện và phân loại hình ảnh với khả năng xử lý tập trung vào sự chú ý và FlashAttention, tăng cường độ chính xác đồng thời tối ưu hóa việc sử dụng bộ nhớ.
Đồng thời, thị giác máy tính trở nên dễ tiếp cận hơn bao giờ hết. YOLO12 rất dễ sử dụng thông qua gói Ultralytics Python và, với trọng tâm là độ chính xác hơn tốc độ, nó rất phù hợp cho hình ảnh y tế, kiểm tra công nghiệp và robot - các ứng dụng mà độ chính xác là chìa khóa.