Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Hãy cùng chúng tôi nhìn lại quá trình phát triển của công nghệ phát hiện đối tượng. Chúng tôi sẽ tập trung vào cách YOLO (Bạn chỉ nhìn một lần) các mô hình đã có những tiến bộ trong những năm gần đây.
Thị giác máy tính (Computer vision) là một lĩnh vực con của trí tuệ nhân tạo (AI) tập trung vào việc dạy máy móc nhìn và hiểu hình ảnh và video, tương tự như cách con người nhận thức thế giới thực. Trong khi nhận dạng đối tượng hoặc xác định hành động là bản năng thứ hai của con người, thì những tác vụ này đòi hỏi các kỹ thuật thị giác máy tính cụ thể và chuyên biệt khi nói đến máy móc. Ví dụ: một nhiệm vụ quan trọng trong thị giác máy tính là nhận diện đối tượng (object detection), bao gồm xác định và định vị các đối tượng trong hình ảnh hoặc video.
Từ những năm 1960, các nhà nghiên cứu đã nỗ lực cải thiện khả năng detect vật thể của máy tính. Các phương pháp ban đầu, chẳng hạn như so khớp mẫu , liên quan đến việc trượt một mẫu được xác định trước trên ảnh để tìm kiếm sự trùng khớp. Mặc dù mang tính đột phá, những phương pháp này gặp khó khăn khi thay đổi kích thước, hướng và ánh sáng của vật thể . Ngày nay, chúng ta có các mô hình tiên tiến như Ultralytics YOLO11 có thể detect thậm chí cả những vật thể nhỏ và bị che khuất một phần, được gọi là vật thể bị che khuất, với độ chính xác ấn tượng.
Khi thị giác máy tính tiếp tục phát triển, việc nhìn lại quá trình phát triển của những công nghệ này là rất quan trọng. Trong bài viết này, chúng ta sẽ khám phá sự phát triển của nhận dạng đối tượng và làm sáng tỏ sự chuyển đổi của mô hình YOLO (Bạn chỉ nhìn một lần) . Hãy bắt đầu thôi!
Nguồn gốc của thị giác máy tính
Trước khi đi sâu vào phát hiện đối tượng , hãy cùng xem xét sự ra đời của thị giác máy tính . Nguồn gốc của thị giác máy tính bắt nguồn từ cuối những năm 1950 và đầu những năm 1960, khi các nhà khoa học bắt đầu khám phá cách não bộ xử lý thông tin thị giác. Trong các thí nghiệm với mèo , các nhà nghiên cứu David Hubel và Torsten Wiesel đã phát hiện ra rằng não bộ phản ứng với các mẫu đơn giản như cạnh và đường thẳng. Điều này đã hình thành cơ sở cho ý tưởng đằng sau việc trích xuất đặc điểm - khái niệm mà các hệ thống thị giác detect và nhận dạng các đặc điểm cơ bản trong hình ảnh, chẳng hạn như các cạnh, trước khi chuyển sang các mẫu phức tạp hơn.
Hình 1. Nghiên cứu cách não mèo phản ứng với các thanh ánh sáng đã giúp phát triển trích xuất đặc trưng trong thị giác máy tính.
Cùng thời điểm đó, công nghệ mới nổi lên có thể biến hình ảnh vật lý thành định dạng kỹ thuật số, khơi dậy sự quan tâm về cách máy móc có thể xử lý thông tin trực quan. Vào năm 1966, Dự án Thị giác Mùa hè của Viện Công nghệ Massachusetts (MIT) đã thúc đẩy mọi thứ hơn nữa. Mặc dù dự án không thành công hoàn toàn, nhưng nó nhằm mục đích tạo ra một hệ thống có thể tách tiền cảnh khỏi hậu cảnh trong hình ảnh. Đối với nhiều người trong cộng đồng Vision AI, dự án này đánh dấu sự khởi đầu chính thức của thị giác máy tính như một lĩnh vực khoa học.
Tìm hiểu về lịch sử của object detection
Khi thị giác máy tính phát triển vào cuối những năm 1990 và đầu những năm 2000, các phương pháp phát hiện vật thể đã chuyển từ các kỹ thuật cơ bản như so khớp mẫu sang các phương pháp tiên tiến hơn. Một phương pháp phổ biến là Haar Cascade, được sử dụng rộng rãi cho các tác vụ như phát hiện khuôn mặt . Phương pháp này hoạt động bằng cách quét hình ảnh bằng một cửa sổ trượt, kiểm tra các đặc điểm cụ thể như cạnh hoặc kết cấu trong từng phần của hình ảnh, sau đó kết hợp các đặc điểm này để detect các vật thể như khuôn mặt. Haar Cascade nhanh hơn nhiều so với các phương pháp trước đây.
Hình 2. Sử dụng Haar Cascade để Nhận diện khuôn mặt.
Bên cạnh đó, các phương pháp như Biểu đồ các Gradient Định hướng (HOG) và Máy vectơ hỗ trợ (SVM) cũng đã được giới thiệu. HOG sử dụng kỹ thuật cửa sổ trượt để phân tích cách ánh sáng và bóng tối thay đổi trong các phần nhỏ của hình ảnh, giúp xác định các đối tượng dựa trên hình dạng của chúng. Sau đó, SVM phân loại các tính năng này để xác định danh tính của đối tượng. Các phương pháp này cải thiện độ chính xác nhưng vẫn gặp khó khăn trong môi trường thực tế và chậm hơn so với các kỹ thuật ngày nay.
Nhu cầu về phát hiện đối tượng theo thời gian thực
Trong những năm 2010, sự trỗi dậy của deep learning và Mạng nơ-ron tích chập (CNN) đã mang lại một sự thay đổi lớn trong phát hiện đối tượng. CNN giúp máy tính có thể tự động học các đặc trưng quan trọng từ một lượng lớn dữ liệu, giúp việc phát hiện trở nên chính xác hơn nhiều.
Tuy nhiên, các mô hình này hoạt động chậm vì chúng xử lý hình ảnh qua nhiều giai đoạn, khiến chúng không thực tế cho các ứng dụng thời gian thực trong các lĩnh vực như xe tự lái hoặc giám sát video.
Với trọng tâm là tăng tốc mọi thứ, các mô hình hiệu quả hơn đã được phát triển. Các mô hình như Fast R-CNN và Faster R-CNN đã giúp cải thiện cách chọn các vùng quan tâm và giảm số lượng các bước cần thiết để phát hiện. Mặc dù điều này làm cho việc phát hiện đối tượng nhanh hơn, nhưng nó vẫn chưa đủ nhanh cho nhiều ứng dụng thực tế cần kết quả tức thì. Nhu cầu ngày càng tăng về phát hiện theo thời gian thực đã thúc đẩy sự phát triển của các giải pháp nhanh hơn và hiệu quả hơn nữa, có thể cân bằng cả tốc độ và độ chính xác.
Hình 3. So sánh tốc độ của R-CNN, Fast R-CNN và Faster R-CNN.
YOLO (Bạn chỉ nhìn một lần) người mẫu: Một cột mốc quan trọng
YOLO là một mô hình phát hiện đối tượng đã định nghĩa lại thị giác máy tính bằng cách cho phép phát hiện nhiều đối tượng trong hình ảnh và video theo thời gian thực, tạo nên sự khác biệt so với các phương pháp phát hiện trước đây. Thay vì phân tích từng đối tượng được phát hiện riêng lẻ, kiến trúc của YOLO xử lý việc phát hiện đối tượng như một nhiệm vụ duy nhất, dự đoán cả vị trí và loại đối tượng cùng một lúc bằng cách sử dụng CNN.
Mô hình hoạt động bằng cách chia một hình ảnh thành một lưới, với mỗi phần chịu trách nhiệm phát hiện các đối tượng trong khu vực tương ứng của nó. Nó đưa ra nhiều dự đoán cho mỗi phần và lọc ra các kết quả kém tin cậy hơn, chỉ giữ lại những kết quả chính xác.
Sự giới thiệu của YOLO cho các ứng dụng thị giác máy tính giúp phát hiện vật thể nhanh hơn và hiệu quả hơn nhiều so với các mô hình trước đó. Nhờ tốc độ và độ chính xác của nó, YOLO nhanh chóng trở thành lựa chọn phổ biến cho các giải pháp thời gian thực trong các ngành công nghiệp như sản xuất, chăm sóc sức khỏe và robot.
Một điểm quan trọng khác cần lưu ý là vì YOLO là mã nguồn mở, các nhà phát triển và nhà nghiên cứu có thể liên tục cải tiến nó, dẫn đến các phiên bản tiên tiến hơn nữa.
Con đường từ YOLO ĐẾN YOLO11
YOLO Các mô hình đã được cải tiến liên tục theo thời gian, dựa trên những cải tiến của từng phiên bản. Cùng với hiệu suất tốt hơn, những cải tiến này đã giúp các mô hình dễ sử dụng hơn đối với những người có trình độ kỹ thuật khác nhau.
Ví dụ, khi Ultralytics YOLOv5 ra mắt, việc triển khai các mô hình trở nên đơn giản hơn với PyTorch , cho phép nhiều người dùng hơn làm việc với AI tiên tiến. Nó kết hợp độ chính xác và khả năng sử dụng, giúp nhiều người có thể triển khai phát hiện đối tượng mà không cần phải là chuyên gia lập trình.
Hình 5. Sự tiến hóa của YOLO các mô hình.
Ultralytics YOLOv8 tiếp tục tiến trình này bằng cách bổ sung hỗ trợ cho các tác vụ như phân đoạn phiên bản và làm cho các mô hình linh hoạt hơn. Nó trở nên dễ sử dụng hơn YOLO cho cả các ứng dụng cơ bản và phức tạp hơn, giúp ứng dụng này hữu ích trong nhiều tình huống khác nhau.
Với mô hình mới nhất, Ultralytics YOLO11 , những tối ưu hóa sâu hơn đã được thực hiện. Bằng cách giảm số lượng tham số đồng thời cải thiện độ chính xác, giờ đây nó hiệu quả hơn cho các tác vụ thời gian thực. Cho dù bạn là nhà phát triển giàu kinh nghiệm hay người mới làm quen với AI, YOLO11 cung cấp phương pháp tiếp cận tiên tiến để phát hiện đối tượng và dễ tiếp cận.
Làm quen YOLO11 : Các tính năng mới và cải tiến
YOLO11 , ra mắt tại Ultralytics 'sự kiện kết hợp thường niên, YOLO Vision 2024 (YV24) , hỗ trợ các tác vụ thị giác máy tính giống như YOLOv8 , chẳng hạn như phát hiện đối tượng, phân đoạn thực thể, phân loại hình ảnh và ước tính tư thế . Vì vậy, người dùng có thể dễ dàng chuyển sang mô hình mới này mà không cần phải điều chỉnh quy trình làm việc. Ngoài ra, YOLO11 Kiến trúc nâng cấp của YOLO11m giúp dự đoán chính xác hơn nữa. Trên thực tế, YOLO11m đạt được độ chính xác trung bình cao hơn ( mAP ) trên tập dữ liệu COCO với ít hơn 22% tham số so với YOLOv8m .
YOLO11 cũng được thiết kế để chạy hiệu quả trên nhiều nền tảng , từ điện thoại thông minh và các thiết bị biên khác đến các hệ thống đám mây mạnh mẽ hơn. Tính linh hoạt này đảm bảo hiệu suất mượt mà trên các thiết lập phần cứng khác nhau cho các ứng dụng thời gian thực. Hơn nữa, YOLO11 nhanh hơn và hiệu quả hơn, giảm chi phí tính toán và tăng tốc thời gian suy luận. Cho dù bạn đang sử dụng gói Ultralytics Python hay Ultralytics HUB không cần mã , việc tích hợp đều rất dễ dàng. YOLO11 vào quy trình làm việc hiện tại của bạn.
Tương lai của YOLO mô hình và phát hiện đối tượng
Tác động của công nghệ phát hiện đối tượng tiên tiến lên các ứng dụng thời gian thực và AI biên đã được cảm nhận trên khắp các ngành công nghiệp. Khi các lĩnh vực như dầu khí, chăm sóc sức khỏe và bán lẻ ngày càng phụ thuộc vào AI, nhu cầu phát hiện đối tượng nhanh chóng và chính xác tiếp tục tăng. YOLO11 nhằm mục đích đáp ứng nhu cầu này bằng cách cho phép phát hiện hiệu suất cao ngay cả trên các thiết bị có công suất tính toán hạn chế.
Khi AI biên phát triển, có khả năng các mô hình phát hiện đối tượng như YOLO11 sẽ trở nên thiết yếu hơn nữa đối với việc ra quyết định theo thời gian thực trong các môi trường đòi hỏi tốc độ và độ chính xác cao. Với những cải tiến liên tục về thiết kế và khả năng thích ứng, tương lai của công nghệ phát hiện đối tượng hứa hẹn sẽ mang đến nhiều đổi mới hơn nữa trên nhiều ứng dụng khác nhau.
Những điều cần nhớ
Công nghệ phát hiện đối tượng đã có nhiều tiến bộ, từ những phương pháp đơn giản đến các kỹ thuật học sâu tiên tiến mà chúng ta thấy ngày nay. YOLO Các mô hình đóng vai trò cốt lõi trong tiến trình này, mang lại khả năng phát hiện nhanh hơn và chính xác hơn theo thời gian thực trên nhiều ngành công nghiệp khác nhau. YOLO11 dựa trên nền tảng này, cải thiện hiệu quả, giảm chi phí tính toán và nâng cao độ chính xác, biến nó thành lựa chọn đáng tin cậy cho nhiều ứng dụng thời gian thực. Với những tiến bộ không ngừng trong AI và thị giác máy tính, tương lai của phát hiện đối tượng đang rất tươi sáng, với nhiều tiềm năng cải thiện hơn nữa về tốc độ, độ chính xác và khả năng thích ứng.
Bạn tò mò về AI? Hãy kết nối với cộng đồng của chúng tôi để tiếp tục học hỏi! Hãy xem kho lưu trữ GitHub của chúng tôi để khám phá cách chúng tôi đang sử dụng AI để tạo ra các giải pháp sáng tạo trong các ngành như sản xuất và chăm sóc sức khỏe. 🚀