Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Ultralytics YOLO

Sự phát triển của phát hiện đối tượng và các mô hình YOLO của Ultralytics

Hãy cùng chúng tôi nhìn lại sự phát triển của công nghệ phát hiện đối tượng. Chúng ta sẽ tập trung vào cách các mô hình YOLO (You Only Look Once) đã tiến bộ trong những năm qua.

ABAbirami Vina
4 min read
Sự phát triển của phát hiện đối tượng và các mô hình YOLO

Computer vision là một lĩnh vực con của trí tuệ nhân tạo (AI), tập trung vào việc dạy cho máy móc cách quan sát và hiểu hình ảnh, video, tương tự như cách con người cảm nhận thế giới thực. Mặc dù nhận diện đối tượng hay xác định hành động là bản năng tự nhiên của con người, nhưng các tác vụ này đòi hỏi các kỹ thuật computer vision cụ thể và chuyên biệt khi áp dụng trên máy móc. Ví dụ, một tác vụ then chốt trong computer vision là object detection, bao gồm việc xác định và định vị đối tượng trong hình ảnh hoặc video.

Kể từ những năm 1960, các nhà nghiên cứu đã làm việc để cải thiện cách máy tính có thể detect objects. Các phương pháp sơ khai, như template matching, liên quan đến việc trượt một mẫu xác định trước trên hình ảnh để tìm các điểm trùng khớp. Mặc dù sáng tạo, các cách tiếp cận này gặp khó khăn với những thay đổi về kích thước đối tượng, hướng và ánh sáng. Ngày nay, chúng ta có các advanced models như Ultralytics YOLO11 có khả năng phát hiện ngay cả những đối tượng nhỏ và bị che khuất một phần, được gọi là occluded objects, với độ chính xác ấn tượng.

Khi computer vision tiếp tục phát triển, việc nhìn lại quá trình hình thành của các công nghệ này là rất quan trọng. Trong bài viết này, chúng ta sẽ khám phá sự tiến hóa của object detection và làm sáng tỏ sự chuyển đổi của các YOLO (You Only Look Once) models. Hãy cùng bắt đầu nào!

Link to this sectionNguồn gốc của computer vision#

Trước khi đi sâu vào object detection, hãy cùng xem xét cách computer vision ra đời. Nguồn gốc của computer vision bắt nguồn từ cuối những năm 1950 và đầu những năm 1960 khi các nhà khoa học bắt đầu khám phá cách não bộ xử lý thông tin thị giác. Trong các thí nghiệm với mèo, các nhà nghiên cứu David Hubel và Torsten Wiesel đã phát hiện ra rằng não bộ phản ứng với các mẫu đơn giản như cạnh và đường thẳng. Điều này hình thành nền tảng cho ý tưởng về feature extraction - khái niệm rằng các hệ thống thị giác phát hiện và nhận diện các đặc trưng cơ bản trong hình ảnh, chẳng hạn như các cạnh, trước khi chuyển sang các mẫu phức tạp hơn.

Thí nghiệm não mèo đã truyền cảm hứng cho việc trích xuất đặc trưng trong thị giác máy tính

Fig 1. Việc tìm hiểu cách não bộ của một con mèo phản ứng với các vạch sáng đã giúp phát triển feature extraction trong computer vision.

Cùng thời điểm đó, công nghệ mới xuất hiện có khả năng chuyển đổi hình ảnh vật lý sang định dạng kỹ thuật số, khơi dậy sự quan tâm đến việc máy móc có thể xử lý thông tin thị giác như thế nào. Vào năm 1966, dự án Summer Vision Project của Viện Công nghệ Massachusetts (MIT) đã thúc đẩy mọi thứ tiến xa hơn. Mặc dù dự án không hoàn toàn thành công, nhưng nó nhắm tới mục tiêu tạo ra một hệ thống có thể tách biệt tiền cảnh khỏi hậu cảnh trong hình ảnh. Đối với nhiều người trong cộng đồng vision AI, dự án này đánh dấu sự khởi đầu chính thức của computer vision với tư cách là một lĩnh vực khoa học.

Link to this sectionTìm hiểu lịch sử của object detection#

Khi computer vision tiến bộ vào cuối những năm 1990 và đầu những năm 2000, các phương pháp object detection đã chuyển dịch từ các kỹ thuật cơ bản như template matching sang các cách tiếp cận tiên tiến hơn. Một phương pháp phổ biến là Haar Cascade, vốn được sử dụng rộng rãi cho các tác vụ như face detection. Nó hoạt động bằng cách quét hình ảnh với một cửa sổ trượt, kiểm tra các đặc trưng cụ thể như cạnh hoặc kết cấu trong từng phần của hình ảnh, và sau đó kết hợp các đặc trưng này để detect objects như khuôn mặt. Haar Cascade nhanh hơn nhiều so với các phương pháp trước đó.

Sử dụng Haar Cascade để phát hiện khuôn mặt

Fig 2. Sử dụng Haar Cascade để phát hiện khuôn mặt.

Song song với đó, các phương pháp như Histogram of Oriented Gradients (HOG) và Support Vector Machines (SVMs) cũng được giới thiệu. HOG sử dụng kỹ thuật cửa sổ trượt để phân tích sự thay đổi của ánh sáng và bóng đổ trong các phần nhỏ của hình ảnh, giúp identify objects dựa trên hình dạng của chúng. Sau đó, SVMs classified các đặc trưng này để xác định danh tính của đối tượng. Những phương pháp này đã cải thiện độ chính xác nhưng vẫn gặp khó khăn trong môi trường thực tế và chậm hơn so với các kỹ thuật ngày nay.

Link to this sectionNhu cầu về object detection thời gian thực#

Trong những năm 2010, sự trỗi dậy của deep learningConvolutional Neural Networks (CNNs) đã mang lại bước chuyển lớn trong object detection. CNNs cho phép máy tính tự động học các đặc trưng quan trọng từ một lượng lớn data, giúp việc phát hiện trở nên chính xác hơn nhiều.

Các model sơ khai như R-CNN (Region-based Convolutional Neural Networks) là một cải tiến lớn về precision, giúp nhận diện đối tượng chính xác hơn so với các phương pháp cũ.

Tuy nhiên, các model này lại chậm vì chúng xử lý hình ảnh theo nhiều giai đoạn, khiến chúng không thực tế cho các ứng dụng thời gian thực trong các lĩnh vực như xe tự lái hoặc giám sát video.

Với trọng tâm là tăng tốc độ, nhiều model hiệu quả hơn đã được phát triển. Các model như Fast R-CNN và Faster R-CNN đã giúp ích bằng cách cải tiến cách chọn vùng quan tâm và giảm số lượng bước cần thiết để phát hiện. Mặc dù điều này làm cho việc phát hiện đối tượng nhanh hơn, nó vẫn chưa đủ nhanh cho nhiều real-world applications cần kết quả ngay lập tức. Nhu cầu ngày càng tăng về phát hiện thời gian thực đã thúc đẩy sự phát triển của các giải pháp nhanh và hiệu quả hơn, có thể cân bằng giữa cả tốc độ và độ chính xác.

So sánh tốc độ của R-CNN, Fast R-CNN và Faster R-CNN

Fig 3. So sánh tốc độ của R-CNN, Fast R-CNN và Faster R-CNN.

Link to this sectionYOLO (You Only Look Once) models: Một cột mốc quan trọng#

YOLO là một model object detection đã tái định nghĩa computer vision bằng cách cho phép phát hiện thời gian thực nhiều đối tượng trong hình ảnh và video, khiến nó trở nên rất khác biệt so với các phương pháp trước đó. Thay vì phân tích từng đối tượng được phát hiện một cách riêng biệt, kiến trúc của YOLO xử lý object detection như một tác vụ đơn nhất, dự đoán cả vị trí và lớp của đối tượng trong một lần thực hiện bằng cách sử dụng CNNs.

Model hoạt động bằng cách chia hình ảnh thành một lưới, với mỗi phần chịu trách nhiệm phát hiện các đối tượng trong khu vực tương ứng của nó. Nó thực hiện nhiều dự đoán cho mỗi phần và lọc bỏ các kết quả có độ tin cậy thấp hơn, chỉ giữ lại những kết quả chính xác.

Tổng quan về cách hoạt động của YOLO

Fig 4. Tổng quan về cách YOLO hoạt động.

Việc giới thiệu YOLO vào các ứng dụng computer vision đã làm cho object detection trở nên nhanh chóng và hiệu quả hơn nhiều so với các model trước đó. Nhờ tốc độ và độ chính xác của nó, YOLO nhanh chóng trở thành lựa chọn phổ biến cho các giải pháp thời gian thực trong các ngành công nghiệp như sản xuất, chăm sóc sức khỏe và robot.

Một điểm quan trọng khác cần lưu ý là vì YOLO là mã nguồn mở, các nhà phát triển và nghiên cứu có thể liên tục cải tiến nó, dẫn đến các phiên bản thậm chí còn tiên tiến hơn.

Link to this sectionHành trình từ YOLO đến YOLO11#

Các YOLO models đã cải thiện ổn định theo thời gian, dựa trên những tiến bộ của từng phiên bản. Cùng với hiệu suất tốt hơn, những cải tiến này đã giúp các model dễ sử dụng hơn cho những người có trình độ kỹ thuật khác nhau.

Ví dụ, khi Ultralytics YOLOv5 được giới thiệu, deploying models đã trở nên đơn giản hơn với PyTorch, cho phép nhiều đối tượng người dùng hơn làm việc với AI tiên tiến. Nó kết hợp sự chính xác và khả năng sử dụng, mang lại cho nhiều người khả năng thực hiện object detection mà không cần phải là chuyên gia lập trình.

Sự tiến hóa của các model YOLO

Fig 5. Sự tiến hóa của các YOLO models.

Ultralytics YOLOv8 tiếp tục sự tiến bộ này bằng cách thêm hỗ trợ cho các tác vụ như instance segmentation và làm cho các model linh hoạt hơn. Việc sử dụng YOLO cho cả các ứng dụng cơ bản và phức tạp hơn trở nên dễ dàng hơn, giúp nó hữu ích trên nhiều kịch bản khác nhau.

Với model mới nhất, Ultralytics YOLO11, các tối ưu hóa bổ sung đã được thực hiện. Bằng cách giảm số lượng parameters trong khi vẫn cải thiện độ chính xác, giờ đây nó hiệu quả hơn cho các tác vụ thời gian thực. Cho dù bạn là một lập trình viên giàu kinh nghiệm hay mới làm quen với AI, YOLO11 cung cấp một cách tiếp cận tiên tiến cho object detection mà vẫn dễ dàng tiếp cận.

Link to this sectionTìm hiểu YOLO11: Các tính năng và cải tiến mới#

YOLO11, được ra mắt tại sự kiện hybrid thường niên của Ultralytics, YOLO Vision 2024 (YV24), hỗ trợ các computer vision tasks tương tự như YOLOv8, chẳng hạn như object detection, instance segmentation, image classification, và pose estimation. Vì vậy, người dùng có thể dễ dàng chuyển sang model mới này mà không cần phải điều chỉnh quy trình công việc. Ngoài ra, kiến trúc được nâng cấp của YOLO11 giúp các dự đoán trở nên chính xác hơn. Trên thực tế, YOLO11m đạt được mean average precision (mAP) cao hơn trên COCO dataset với số lượng tham số ít hơn 22% so với YOLOv8m.

YOLO11 cũng được xây dựng để chạy hiệu quả trên nhiều nền tảng, từ điện thoại thông minh và các thiết bị biên khác đến các hệ thống đám mây mạnh mẽ hơn. Sự linh hoạt này đảm bảo hiệu suất mượt mà trên các hardware setups khác nhau cho các ứng dụng thời gian thực. Trên hết, YOLO11 nhanh hơn và hiệu quả hơn, cắt giảm chi phí tính toán và tăng tốc thời gian inference. Cho dù bạn đang sử dụng Ultralytics Python package hay no-code Ultralytics HUB, việc tích hợp YOLO11 vào quy trình công việc hiện tại của bạn đều rất dễ dàng.

Link to this sectionTương lai của các YOLO models và object detection#

Tác động của object detection tiên tiến đối với các ứng dụng thời gian thực và Edge AI đang được cảm nhận rõ rệt trên khắp các ngành công nghiệp. Khi các lĩnh vực như dầu khí, chăm sóc sức khỏe và bán lẻ ngày càng dựa vào AI, nhu cầu về object detection nhanh và chính xác vẫn tiếp tục tăng cao. YOLO11 hướng tới việc đáp ứng nhu cầu này bằng cách cho phép phát hiện hiệu suất cao ngay cả trên các thiết bị có sức mạnh tính toán hạn chế.

Khi edge AI phát triển, có khả năng là các model object detection như YOLO11 sẽ trở nên thiết yếu hơn nữa cho việc ra quyết định thời gian thực trong các môi trường mà tốc độ và độ chính xác là yếu tố quan trọng. Với những cải tiến liên tục về thiết kế và khả năng thích ứng, tương lai của object detection hứa hẹn sẽ mang lại nhiều đổi mới hơn nữa trên nhiều ứng dụng khác nhau.

Link to this sectionCác điểm chính cần lưu ý#

Object detection đã trải qua một chặng đường dài, phát triển từ các phương pháp đơn giản đến các kỹ thuật deep learning tiên tiến mà chúng ta thấy ngày nay. Các YOLO models đã là trung tâm của sự tiến bộ này, mang lại khả năng phát hiện thời gian thực nhanh hơn và chính xác hơn trên nhiều ngành công nghiệp. YOLO11 tiếp nối di sản này, cải thiện hiệu suất, cắt giảm chi phí tính toán và tăng cường độ chính xác, biến nó thành lựa chọn đáng tin cậy cho nhiều ứng dụng thời gian thực. Với những tiến bộ không ngừng trong AI và computer vision, tương lai của object detection có vẻ rất tươi sáng, với tiềm năng cho nhiều cải tiến hơn nữa về tốc độ, độ chính xác và khả năng thích ứng.

Bạn tò mò về AI? Hãy giữ kết nối với cộng đồng của chúng tôi để tiếp tục học hỏi! Hãy xem kho lưu trữ GitHub của chúng tôi để khám phá cách chúng tôi đang sử dụng AI để tạo ra các giải pháp sáng tạo trong các ngành như sản xuấty tế. 🚀

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning