Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Hãy cùng chúng tôi nhìn lại sự phát triển của phát hiện đối tượng. Chúng ta sẽ tập trung vào cách các mô hình YOLO (You Only Look Once) đã phát triển trong những năm gần đây.
Thị giác máy tính (Computer vision) là một lĩnh vực con của trí tuệ nhân tạo (AI) tập trung vào việc dạy máy móc nhìn và hiểu hình ảnh và video, tương tự như cách con người nhận thức thế giới thực. Trong khi nhận dạng đối tượng hoặc xác định hành động là bản năng thứ hai của con người, thì những tác vụ này đòi hỏi các kỹ thuật thị giác máy tính cụ thể và chuyên biệt khi nói đến máy móc. Ví dụ: một nhiệm vụ quan trọng trong thị giác máy tính là nhận diện đối tượng (object detection), bao gồm xác định và định vị các đối tượng trong hình ảnh hoặc video.
Kể từ những năm 1960, các nhà nghiên cứu đã nỗ lực cải thiện khả năng phát hiện đối tượng của máy tính. Các phương pháp ban đầu, như so khớp mẫu (template matching), liên quan đến việc trượt một mẫu được xác định trước trên một hình ảnh để tìm các kết quả phù hợp. Mặc dù mang tính đột phá, nhưng những phương pháp này gặp khó khăn với những thay đổi về kích thước, hướng và ánh sáng của đối tượng. Ngày nay, chúng ta có các mô hình tiên tiến như Ultralytics YOLO11, có thể phát hiện ngay cả những đối tượng nhỏ và bị che khuất một phần, được gọi là đối tượng bị che khuất, với độ chính xác ấn tượng.
Trước khi đi sâu vào phát hiện đối tượng, hãy xem thị giác máy tính đã bắt đầu như thế nào. Nguồn gốc của thị giác máy tính bắt nguồn từ cuối những năm 1950 và đầu những năm 1960 khi các nhà khoa học bắt đầu khám phá cách bộ não xử lý thông tin thị giác. Trong các thí nghiệm với mèo, các nhà nghiên cứu David Hubel và Torsten Wiesel đã phát hiện ra rằng bộ não phản ứng với các mẫu đơn giản như cạnh và đường thẳng. Điều này tạo thành cơ sở cho ý tưởng đằng sau trích xuất đặc trưng - khái niệm rằng các hệ thống thị giác phát hiện và nhận ra các đặc trưng cơ bản trong hình ảnh, chẳng hạn như các cạnh, trước khi chuyển sang các mẫu phức tạp hơn.
Hình 1. Nghiên cứu cách não mèo phản ứng với các thanh ánh sáng đã giúp phát triển trích xuất đặc trưng trong thị giác máy tính.
Cùng thời điểm đó, công nghệ mới nổi lên có thể biến hình ảnh vật lý thành định dạng kỹ thuật số, khơi dậy sự quan tâm về cách máy móc có thể xử lý thông tin trực quan. Vào năm 1966, Dự án Thị giác Mùa hè của Viện Công nghệ Massachusetts (MIT) đã thúc đẩy mọi thứ hơn nữa. Mặc dù dự án không thành công hoàn toàn, nhưng nó nhằm mục đích tạo ra một hệ thống có thể tách tiền cảnh khỏi hậu cảnh trong hình ảnh. Đối với nhiều người trong cộng đồng Vision AI, dự án này đánh dấu sự khởi đầu chính thức của thị giác máy tính như một lĩnh vực khoa học.
Tìm hiểu về lịch sử của object detection
Khi thị giác máy tính phát triển vào cuối những năm 1990 và đầu những năm 2000, các phương pháp phát hiện đối tượng đã chuyển từ các kỹ thuật cơ bản như so khớp mẫu sang các phương pháp tiếp cận tiên tiến hơn. Một phương pháp phổ biến là Haar Cascade, đã được sử dụng rộng rãi cho các tác vụ như nhận diện khuôn mặt. Nó hoạt động bằng cách quét hình ảnh bằng một cửa sổ trượt, kiểm tra các đặc điểm cụ thể như cạnh hoặc kết cấu trong mỗi phần của hình ảnh, và sau đó kết hợp các đặc điểm này để phát hiện các đối tượng như khuôn mặt. Haar Cascade nhanh hơn nhiều so với các phương pháp trước đây.
Hình 2. Sử dụng Haar Cascade để Nhận diện khuôn mặt.
Bên cạnh đó, các phương pháp như Biểu đồ các Gradient Định hướng (HOG) và Máy vectơ hỗ trợ (SVM) cũng đã được giới thiệu. HOG sử dụng kỹ thuật cửa sổ trượt để phân tích cách ánh sáng và bóng tối thay đổi trong các phần nhỏ của hình ảnh, giúp xác định các đối tượng dựa trên hình dạng của chúng. Sau đó, SVM phân loại các tính năng này để xác định danh tính của đối tượng. Các phương pháp này cải thiện độ chính xác nhưng vẫn gặp khó khăn trong môi trường thực tế và chậm hơn so với các kỹ thuật ngày nay.
Nhu cầu về phát hiện đối tượng theo thời gian thực
Trong những năm 2010, sự trỗi dậy của deep learning và Mạng nơ-ron tích chập (CNN) đã mang lại một sự thay đổi lớn trong phát hiện đối tượng. CNN giúp máy tính có thể tự động học các đặc trưng quan trọng từ một lượng lớn dữ liệu, giúp việc phát hiện trở nên chính xác hơn nhiều.
Tuy nhiên, các mô hình này hoạt động chậm vì chúng xử lý hình ảnh qua nhiều giai đoạn, khiến chúng không thực tế cho các ứng dụng thời gian thực trong các lĩnh vực như xe tự lái hoặc giám sát video.
Với trọng tâm là tăng tốc mọi thứ, các mô hình hiệu quả hơn đã được phát triển. Các mô hình như Fast R-CNN và Faster R-CNN đã giúp cải thiện cách chọn các vùng quan tâm và giảm số lượng các bước cần thiết để phát hiện. Mặc dù điều này làm cho việc phát hiện đối tượng nhanh hơn, nhưng nó vẫn chưa đủ nhanh cho nhiều ứng dụng thực tế cần kết quả tức thì. Nhu cầu ngày càng tăng về phát hiện theo thời gian thực đã thúc đẩy sự phát triển của các giải pháp nhanh hơn và hiệu quả hơn nữa, có thể cân bằng cả tốc độ và độ chính xác.
Hình 3. So sánh tốc độ của R-CNN, Fast R-CNN và Faster R-CNN.
Các mô hình YOLO (You Only Look Once): Một cột mốc quan trọng
YOLO là một mô hình phát hiện đối tượng đã định nghĩa lại thị giác máy tính bằng cách cho phép phát hiện thời gian thực nhiều đối tượng trong hình ảnh và video, khiến nó trở nên khá độc đáo so với các phương pháp phát hiện trước đây. Thay vì phân tích từng đối tượng được phát hiện riêng lẻ, kiến trúc của YOLO coi việc phát hiện đối tượng như một tác vụ duy nhất, dự đoán cả vị trí và lớp của các đối tượng cùng một lúc bằng cách sử dụng CNN.
Mô hình hoạt động bằng cách chia một hình ảnh thành một lưới, với mỗi phần chịu trách nhiệm phát hiện các đối tượng trong khu vực tương ứng của nó. Nó đưa ra nhiều dự đoán cho mỗi phần và lọc ra các kết quả kém tin cậy hơn, chỉ giữ lại những kết quả chính xác.
Việc giới thiệu YOLO vào các ứng dụng thị giác máy tính đã làm cho việc phát hiện đối tượng nhanh hơn và hiệu quả hơn nhiều so với các mô hình trước đó. Do tốc độ và độ chính xác của nó, YOLO nhanh chóng trở thành một lựa chọn phổ biến cho các giải pháp thời gian thực trong các ngành như sản xuất, chăm sóc sức khỏe và robot học.
Một điểm quan trọng khác cần lưu ý là vì YOLO là mã nguồn mở, các nhà phát triển và nhà nghiên cứu đã có thể liên tục cải thiện nó, dẫn đến các phiên bản thậm chí còn tiên tiến hơn.
Con đường từ YOLO đến YOLO11
Các mô hình YOLO đã không ngừng được cải tiến theo thời gian, xây dựng dựa trên những tiến bộ của mỗi phiên bản. Cùng với hiệu suất tốt hơn, những cải tiến này đã giúp các mô hình dễ sử dụng hơn cho những người có trình độ kỹ thuật khác nhau.
Ví dụ: khi Ultralytics YOLOv5 được giới thiệu, việc triển khai các mô hình trở nên đơn giản hơn với PyTorch, cho phép nhiều người dùng hơn làm việc với AI tiên tiến. Nó kết hợp độ chính xác và khả năng sử dụng, giúp nhiều người có khả năng triển khai object detection mà không cần phải là chuyên gia về coding.
Hình 5. Quá trình phát triển của các mô hình YOLO.
Ultralytics YOLOv8 tiếp tục sự tiến bộ này bằng cách thêm hỗ trợ cho các tác vụ như phân đoạn thể hiện và làm cho các mô hình linh hoạt hơn. Việc sử dụng YOLO cho cả các ứng dụng cơ bản và phức tạp hơn trở nên dễ dàng hơn, làm cho nó hữu ích trong một loạt các tình huống.
Với mô hình mới nhất, Ultralytics YOLO11, các tối ưu hóa hơn nữa đã được thực hiện. Bằng cách giảm số lượng tham số đồng thời cải thiện độ chính xác, giờ đây nó hiệu quả hơn cho các tác vụ theo thời gian thực. Cho dù bạn là một nhà phát triển có kinh nghiệm hay mới làm quen với AI, YOLO11 cung cấp một phương pháp tiếp cận nâng cao để phát hiện đối tượng, dễ dàng truy cập.
Tìm hiểu về YOLO11: Các tính năng và cải tiến mới
YOLO11, được ra mắt tại sự kiện kết hợp hàng năm của Ultralytics, YOLO Vision 2024 (YV24), hỗ trợ các tác vụ thị giác máy tính tương tự như YOLOv8, như phát hiện đối tượng, phân đoạn thể hiện, phân loại hình ảnh và ước tính tư thế. Vì vậy, người dùng có thể dễ dàng chuyển sang mô hình mới này mà không cần điều chỉnh quy trình làm việc của họ. Ngoài ra, kiến trúc được nâng cấp của YOLO11 giúp đưa ra các dự đoán chính xác hơn. Trên thực tế, YOLO11m đạt được độ chính xác trung bình (mAP) cao hơn trên bộ dữ liệu COCO với số lượng tham số ít hơn 22% so với YOLOv8m.
YOLO11 cũng được xây dựng để chạy hiệu quả trên nhiều nền tảng, từ điện thoại thông minh và các thiết bị biên khác đến các hệ thống đám mây mạnh mẽ hơn. Tính linh hoạt này đảm bảo hiệu suất mượt mà trên các thiết lập phần cứng khác nhau cho các ứng dụng thời gian thực. Hơn nữa, YOLO11 nhanh hơn và hiệu quả hơn, giảm chi phí tính toán và tăng tốc thời gian suy luận. Cho dù bạn đang sử dụng gói Ultralytics Python hay Ultralytics HUB không cần code, việc tích hợp YOLO11 vào quy trình làm việc hiện có của bạn rất dễ dàng.
Tương lai của các mô hình YOLO và phát hiện đối tượng
Tác động của tính năng phát hiện đối tượng nâng cao đối với các ứng dụng thời gian thực và AI biên đã được cảm nhận trên khắp các ngành. Khi các lĩnh vực như dầu khí, chăm sóc sức khỏe và bán lẻ ngày càng dựa vào AI, nhu cầu về tính năng phát hiện đối tượng nhanh chóng và chính xác tiếp tục tăng lên. YOLO11 nhằm mục đích đáp ứng nhu cầu này bằng cách cho phép phát hiện hiệu suất cao ngay cả trên các thiết bị có sức mạnh tính toán hạn chế.
Khi edge AI phát triển, có khả năng các mô hình phát hiện đối tượng như YOLO11 sẽ trở nên cần thiết hơn nữa để đưa ra quyết định theo thời gian thực trong các môi trường mà tốc độ và độ chính xác là rất quan trọng. Với những cải tiến liên tục trong thiết kế và khả năng thích ứng, tương lai của phát hiện đối tượng có vẻ sẽ mang lại nhiều đổi mới hơn nữa trong nhiều ứng dụng khác nhau.
Những điều cần nhớ
Công nghệ phát hiện đối tượng đã có một bước tiến dài, phát triển từ các phương pháp đơn giản đến các kỹ thuật deep learning tiên tiến mà chúng ta thấy ngày nay. Các mô hình YOLO luôn là trọng tâm của sự phát triển này, mang lại khả năng phát hiện theo thời gian thực nhanh hơn và chính xác hơn trong các ngành công nghiệp khác nhau. YOLO11 được xây dựng dựa trên nền tảng này, cải thiện hiệu quả, giảm chi phí tính toán và nâng cao độ chính xác, khiến nó trở thành một lựa chọn đáng tin cậy cho nhiều ứng dụng thời gian thực. Với những tiến bộ không ngừng trong lĩnh vực AI và thị giác máy tính, tương lai của công nghệ phát hiện đối tượng có vẻ tươi sáng, với nhiều dư địa để cải thiện hơn nữa về tốc độ, độ chính xác và khả năng thích ứng.
Bạn tò mò về AI? Hãy kết nối với cộng đồng của chúng tôi để tiếp tục học hỏi! Hãy xem kho lưu trữ GitHub của chúng tôi để khám phá cách chúng tôi đang sử dụng AI để tạo ra các giải pháp sáng tạo trong các ngành như sản xuất và chăm sóc sức khỏe. 🚀