Sự phát triển của phát hiện đối tượng và mô hình YOLO của Ultralytics

Abirami Vina

4 phút đọc

Ngày 18 tháng 10 năm 2024

Hãy cùng chúng tôi nhìn lại quá trình phát triển của phát hiện đối tượng. Chúng tôi sẽ tập trung vào cách các mô hình YOLO (Bạn chỉ nhìn một lần) đã phát triển như thế nào trong những năm gần đây.

Thị giác máy tính là một lĩnh vực con của trí tuệ nhân tạo (AI) tập trung vào việc dạy máy móc cách nhìn và hiểu hình ảnh và video, tương tự như cách con người cảm nhận thế giới thực. Mặc dù nhận dạng vật thể hoặc xác định hành động là bản chất thứ hai của con người, nhưng những nhiệm vụ này đòi hỏi các kỹ thuật thị giác máy tính cụ thể và chuyên biệt khi nói đến máy móc. Ví dụ, một nhiệm vụ chính trong thị giác máy tính là phát hiện vật thể , bao gồm việc xác định và định vị các vật thể trong hình ảnh hoặc video. 

Từ những năm 1960, các nhà nghiên cứu đã làm việc để cải thiện cách máy tính có thể phát hiện các vật thể . Các phương pháp ban đầu, như khớp mẫu , liên quan đến việc trượt một mẫu được xác định trước trên một hình ảnh để tìm các kết quả khớp. Mặc dù mang tính sáng tạo, nhưng các phương pháp này gặp khó khăn với những thay đổi về kích thước, hướng và ánh sáng của vật thể . Ngày nay, chúng ta có các mô hình tiên tiến như Ultralytics YOLO11 có thể phát hiện ngay cả những vật thể nhỏ và ẩn một phần, được gọi là vật thể bị che khuất, với độ chính xác ấn tượng.

Khi thị giác máy tính tiếp tục phát triển, điều quan trọng là phải nhìn lại cách các công nghệ này đã phát triển. Trong bài viết này, chúng ta sẽ khám phá sự phát triển của phát hiện đối tượng và làm sáng tỏ sự chuyển đổi của các mô hình YOLO (Bạn chỉ nhìn một lần) . Hãy bắt đầu!

Nguồn gốc của thị giác máy tính

Trước khi đi sâu vào phát hiện đối tượng , chúng ta hãy xem xét cách thị giác máy tính bắt đầu. Nguồn gốc của thị giác máy tính bắt nguồn từ cuối những năm 1950 và đầu những năm 1960 khi các nhà khoa học bắt đầu khám phá cách não bộ xử lý thông tin thị giác. Trong các thí nghiệm với mèo , các nhà nghiên cứu David Hubel và Torsten Wiesel đã phát hiện ra rằng não bộ phản ứng với các mẫu đơn giản như cạnh và đường. Điều này hình thành cơ sở cho ý tưởng đằng sau việc trích xuất đặc điểm - khái niệm rằng các hệ thống thị giác phát hiện và nhận dạng các đặc điểm cơ bản trong hình ảnh, chẳng hạn như cạnh, trước khi chuyển sang các mẫu phức tạp hơn.

Hình 1. Việc tìm hiểu cách não mèo phản ứng với các thanh ánh sáng đã giúp phát triển khả năng trích xuất đặc điểm trong thị giác máy tính.

Cùng thời điểm đó, công nghệ mới xuất hiện có thể biến hình ảnh vật lý thành định dạng kỹ thuật số, khơi dậy sự quan tâm đến cách máy móc có thể xử lý thông tin trực quan. Năm 1966, Dự án Summer Vision của Viện Công nghệ Massachusetts (MIT) đã thúc đẩy mọi thứ tiến xa hơn. Mặc dù dự án không hoàn toàn thành công, nhưng nó hướng đến mục tiêu tạo ra một hệ thống có thể tách biệt tiền cảnh khỏi hậu cảnh trong hình ảnh . Đối với nhiều người trong cộng đồng Vision AI , dự án này đánh dấu sự khởi đầu chính thức của thị giác máy tính như một lĩnh vực khoa học.

Hiểu về lịch sử phát hiện đối tượng

Khi thị giác máy tính phát triển vào cuối những năm 1990 và đầu những năm 2000, các phương pháp phát hiện đối tượng đã chuyển từ các kỹ thuật cơ bản như khớp mẫu sang các phương pháp tiên tiến hơn. Một phương pháp phổ biến là Haar Cascade, được sử dụng rộng rãi cho các tác vụ như phát hiện khuôn mặt . Nó hoạt động bằng cách quét hình ảnh bằng cửa sổ trượt, kiểm tra các đặc điểm cụ thể như cạnh hoặc kết cấu trong từng phần của hình ảnh, sau đó kết hợp các đặc điểm này để phát hiện các đối tượng như khuôn mặt. Haar Cascade nhanh hơn nhiều so với các phương pháp trước đó.

Hình 2. Sử dụng Haar Cascade để phát hiện khuôn mặt.

Bên cạnh đó, các phương pháp như Histogram of Oriented Gradients (HOG) và Support Vector Machines (SVM) cũng được giới thiệu. HOG sử dụng kỹ thuật cửa sổ trượt để phân tích cách ánh sáng và bóng tối thay đổi trong các phần nhỏ của hình ảnh, giúp xác định các đối tượng dựa trên hình dạng của chúng. Sau đó, SVM phân loại các đặc điểm này để xác định danh tính của đối tượng. Các phương pháp này cải thiện độ chính xác nhưng vẫn gặp khó khăn trong môi trường thực tế và chậm hơn so với các kỹ thuật hiện nay.

Nhu cầu phát hiện đối tượng theo thời gian thực

Vào những năm 2010, sự phát triển của học sâuMạng nơ-ron tích chập (CNN) đã mang đến sự thay đổi lớn trong việc phát hiện đối tượng . CNN giúp máy tính có thể tự động học các tính năng quan trọng từ lượng dữ liệu lớn, giúp việc phát hiện trở nên chính xác hơn nhiều. 

Các mô hình ban đầu như R-CNN (Mạng nơ-ron tích chập theo vùng) đã có sự cải thiện lớn về độ chính xác , giúp xác định đối tượng chính xác hơn so với các phương pháp cũ. 

Tuy nhiên, các mô hình này chậm vì chúng xử lý hình ảnh theo nhiều giai đoạn, khiến chúng không thực tế cho các ứng dụng thời gian thực trong các lĩnh vực như xe tự lái hoặc giám sát video .

Tập trung vào việc tăng tốc mọi thứ, các mô hình hiệu quả hơn đã được phát triển. Các mô hình như Fast R-CNN và Faster R-CNN đã giúp tinh chỉnh cách các vùng quan tâm được chọn và cắt giảm số bước cần thiết để phát hiện. Mặc dù điều này giúp phát hiện đối tượng nhanh hơn, nhưng vẫn chưa đủ nhanh đối với nhiều ứng dụng trong thế giới thực cần kết quả ngay lập tức. Nhu cầu ngày càng tăng đối với phát hiện thời gian thực đã thúc đẩy sự phát triển của các giải pháp thậm chí còn nhanh hơn và hiệu quả hơn, có thể cân bằng cả tốc độ và độ chính xác.

Hình 3. So sánh tốc độ của R-CNN, Fast R-CNN và Faster R-CNN.

Các mô hình YOLO (Bạn chỉ nhìn một lần): Một cột mốc quan trọng

YOLO là một mô hình phát hiện đối tượng định nghĩa lại thị giác máy tính bằng cách cho phép phát hiện nhiều đối tượng trong hình ảnh và video theo thời gian thực, khiến nó trở nên khá độc đáo so với các phương pháp phát hiện trước đây. Thay vì phân tích từng đối tượng được phát hiện riêng lẻ, kiến trúc của YOLO coi việc phát hiện đối tượng là một nhiệm vụ duy nhất, dự đoán cả vị trí và loại đối tượng cùng một lúc bằng cách sử dụng CNN. 

Mô hình hoạt động bằng cách chia hình ảnh thành lưới, mỗi phần chịu trách nhiệm phát hiện các đối tượng trong khu vực tương ứng của nó. Nó đưa ra nhiều dự đoán cho mỗi phần và lọc ra các kết quả kém tin cậy hơn, chỉ giữ lại những kết quả chính xác. 

Hình 4. Tổng quan về cách thức hoạt động của YOLO.

Việc giới thiệu YOLO vào các ứng dụng thị giác máy tính giúp phát hiện đối tượng nhanh hơn và hiệu quả hơn nhiều so với các mô hình trước đó. Nhờ tốc độ và độ chính xác, YOLO nhanh chóng trở thành lựa chọn phổ biến cho các giải pháp thời gian thực trong các ngành công nghiệp như sản xuất, chăm sóc sức khỏe và robot.

Một điểm quan trọng khác cần lưu ý là vì YOLO là mã nguồn mở nên các nhà phát triển và nhà nghiên cứu có thể liên tục cải tiến nó, tạo ra các phiên bản tiên tiến hơn nữa.

Con đường từ YOLO đến YOLO11

Các mô hình YOLO đã được cải thiện đều đặn theo thời gian, dựa trên những tiến bộ của từng phiên bản. Cùng với hiệu suất tốt hơn, những cải tiến này đã giúp các mô hình dễ sử dụng hơn đối với những người có trình độ kỹ thuật khác nhau.

Ví dụ, khi Ultralytics YOLOv5 được giới thiệu, việc triển khai các mô hình trở nên đơn giản hơn với PyTorch , cho phép nhiều người dùng hơn làm việc với AI tiên tiến. Nó kết hợp độ chính xác và khả năng sử dụng, giúp nhiều người có khả năng triển khai phát hiện đối tượng mà không cần phải là chuyên gia lập trình.

Hình 5. Sự phát triển của mô hình YOLO.

Ultralytics YOLOv8 tiếp tục tiến trình này bằng cách thêm hỗ trợ cho các tác vụ như phân đoạn phiên bản và làm cho các mô hình linh hoạt hơn. Việc sử dụng YOLO trở nên dễ dàng hơn cho cả các ứng dụng cơ bản và phức tạp hơn, khiến nó hữu ích trong nhiều tình huống.

Với mô hình mới nhất, Ultralytics YOLO11 , các tối ưu hóa hơn nữa đã được thực hiện. Bằng cách giảm số lượng tham số trong khi cải thiện độ chính xác, giờ đây nó hiệu quả hơn đối với các tác vụ thời gian thực. Cho dù bạn là nhà phát triển có kinh nghiệm hay mới làm quen với AI, YOLO11 cung cấp một phương pháp tiếp cận tiên tiến để phát hiện đối tượng dễ tiếp cận.

Làm quen với YOLO11: Các tính năng và cải tiến mới

YOLO11, được ra mắt tại sự kiện kết hợp thường niên của Ultralytics, YOLO Vision 2024 (YV24) , hỗ trợ các tác vụ thị giác máy tính giống như YOLOv8, như phát hiện đối tượng, phân đoạn thể hiện, phân loại hình ảnh và ước tính tư thế . Vì vậy, người dùng có thể dễ dàng chuyển sang mô hình mới này mà không cần phải điều chỉnh quy trình làm việc của họ. Ngoài ra, kiến trúc nâng cấp của YOLO11 giúp dự đoán chính xác hơn nữa. Trên thực tế, YOLO11m đạt được độ chính xác trung bình (mAP) cao hơn trên tập dữ liệu COCO với ít hơn 22% tham số so với YOLOv8m.

YOLO11 cũng được xây dựng để chạy hiệu quả trên nhiều nền tảng , từ điện thoại thông minh và các thiết bị biên khác đến các hệ thống đám mây mạnh mẽ hơn. Tính linh hoạt này đảm bảo hiệu suất mượt mà trên các thiết lập phần cứng khác nhau cho các ứng dụng thời gian thực. Trên hết, YOLO11 nhanh hơn và hiệu quả hơn, cắt giảm chi phí tính toán và tăng tốc thời gian suy luận. Cho dù bạn đang sử dụng gói Ultralytics Python hay Ultralytics HUB không cần mã , bạn đều có thể dễ dàng tích hợp YOLO11 vào quy trình làm việc hiện tại của mình.

Tương lai của mô hình YOLO và phát hiện đối tượng

Tác động của phát hiện đối tượng tiên tiến đối với các ứng dụng thời gian thực và AI biên đã được cảm nhận trên khắp các ngành công nghiệp. Khi các ngành như dầu khí, chăm sóc sức khỏe và bán lẻ ngày càng phụ thuộc vào AI, nhu cầu phát hiện đối tượng nhanh và chính xác tiếp tục tăng. YOLO11 hướng đến mục tiêu đáp ứng nhu cầu này bằng cách cho phép phát hiện hiệu suất cao ngay cả trên các thiết bị có công suất tính toán hạn chế. 

Khi AI biên phát triển, có khả năng các mô hình phát hiện đối tượng như YOLO11 sẽ trở nên thiết yếu hơn nữa đối với việc ra quyết định theo thời gian thực trong các môi trường mà tốc độ và độ chính xác là rất quan trọng. Với những cải tiến liên tục về thiết kế và khả năng thích ứng, tương lai của phát hiện đối tượng có vẻ sẽ mang lại nhiều cải tiến hơn nữa trên nhiều ứng dụng khác nhau.

Những điểm chính

Phát hiện đối tượng đã đi một chặng đường dài, phát triển từ các phương pháp đơn giản đến các kỹ thuật học sâu tiên tiến mà chúng ta thấy ngày nay. Các mô hình YOLO là trọng tâm của tiến trình này, cung cấp khả năng phát hiện thời gian thực nhanh hơn và chính xác hơn trên nhiều ngành công nghiệp khác nhau. YOLO11 xây dựng trên di sản này, cải thiện hiệu quả, cắt giảm chi phí tính toán và tăng cường độ chính xác, khiến nó trở thành lựa chọn đáng tin cậy cho nhiều ứng dụng thời gian thực. Với những tiến bộ liên tục trong AI và thị giác máy tính, tương lai của phát hiện đối tượng có vẻ tươi sáng, với nhiều chỗ để cải thiện hơn nữa về tốc độ, độ chính xác và khả năng thích ứng.

Bạn có tò mò về AI không? Hãy kết nối với cộng đồng của chúng tôi để tiếp tục học hỏi! Hãy xem kho lưu trữ GitHub của chúng tôi để khám phá cách chúng tôi sử dụng AI để tạo ra các giải pháp sáng tạo trong các ngành công nghiệp như sản xuấtchăm sóc sức khỏe . 🚀

Hãy cùng xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của máy học

Bắt đầu miễn phí
Liên kết đã được sao chép vào clipboard