Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Sự kiện

Generative AI đang thay đổi con đường phía trước cho computer vision

Khám phá những thông tin thú vị từ buổi tọa đàm tại YOLO Vision 2024. Tìm hiểu cách generative AI đang định hình con đường phía trước cho các model Vision AI thời gian thực.

ABAbirami Vina
5 min read
Thảo luận nhóm về generative AI và Vision AI tại YOLO Vision 2024

Generative AI là một nhánh của trí tuệ nhân tạo (AI) giúp tạo ra nội dung mới như hình ảnh, văn bản hoặc âm thanh bằng cách học các mô hình từ dữ liệu có sẵn. Nhờ những tiến bộ gần đây, công nghệ này giờ đây có thể được sử dụng để sản xuất nội dung cực kỳ chân thực, thường mô phỏng khả năng sáng tạo của con người.

Tuy nhiên, tầm ảnh hưởng của generative AI không chỉ dừng lại ở việc tạo ra nội dung. Khi các model thị giác máy tính thời gian thực như Ultralytics YOLO models tiếp tục phát triển, generative AI cũng đang định nghĩa lại cách thức dữ liệu hình ảnh được xử lý và tăng cường, mở đường cho những ứng dụng đổi mới trong các kịch bản thực tế.

Sự chuyển dịch công nghệ mới này là một chủ đề thảo luận thú vị tại YOLO Vision 2024 (YV24), một sự kiện hybrid hàng năm do Ultralytics tổ chức. YV24 chứng kiến các tín đồ AI và các nhà lãnh đạo trong ngành cùng hội tụ để thảo luận về những bước đột phá mới nhất trong lĩnh vực computer vision. Sự kiện tập trung vào đổi mới, hiệu quả và tương lai của các giải pháp AI thời gian thực.

Một trong những điểm nhấn quan trọng của sự kiện là phiên thảo luận về YOLO in the Age of Generative AI. Hội thảo có sự tham gia của Glenn Jocher, Founder & CEO của Ultralytics, Jing Qiu, Kỹ sư Machine Learning cấp cao tại Ultralytics, và Ao Wang từ Đại học Thanh Hoa. Họ đã cùng khám phá cách generative AI đang tác động đến computer vision và những thách thức khi xây dựng các model AI thực tế.

Trong bài viết này, chúng ta sẽ nhìn lại những thông tin chi tiết từ cuộc thảo luận của họ và xem xét kỹ hơn cách generative AI đang chuyển đổi Vision AI.

Link to this sectionPhát triển các Ultralytics YOLO models#

Bên cạnh Glenn Jocher, nhiều kỹ sư tài năng đã đóng vai trò quan trọng trong việc phát triển các Ultralytics YOLO models. Một trong số đó, Jing Qiu, đã kể lại khởi đầu bất ngờ của mình với YOLO. Anh giải thích rằng niềm đam mê AI của mình bắt đầu từ những năm đại học. Anh đã dành rất nhiều thời gian để khám phá và học hỏi về lĩnh vực này. Jing Qiu nhớ lại cách anh kết nối với Glenn Jocher trên GitHub và tham gia vào nhiều dự án AI khác nhau.

Bổ sung thêm ý kiến của Jing Qiu, Glenn Jocher mô tả GitHub là "một cách tuyệt vời để chia sẻ - nơi những người bạn chưa từng gặp cùng đến với nhau để giúp đỡ lẫn nhau, đóng góp vào công việc của người khác. Đó là một cộng đồng tuyệt vời và thực sự là một khởi đầu tốt trong lĩnh vực AI."

Glenn Jocher và Jing Qiu phát biểu trên sân khấu tại YV24

Hình 1. Glenn Jocher và Jing Qiu phát biểu trên sân khấu tại YV24.

Sự quan tâm của Jing Qiu đối với AI và công việc của anh với Ultralytics YOLOv5 đã giúp tinh chỉnh model này. Sau đó, anh đóng vai trò chủ chốt trong việc phát triển Ultralytics YOLOv8, phiên bản mang lại những cải tiến đáng kể. Anh mô tả đó là một hành trình đáng kinh ngạc. Ngày nay, Jing Qiu vẫn tiếp tục cải thiện và làm việc trên các model như Ultralytics YOLO11.

Link to this sectionYOLOv10: Tối ưu hóa cho hiệu suất thực tế#

Tham gia phiên thảo luận từ xa từ Trung Quốc, Ao Wang giới thiệu bản thân là một nghiên cứu sinh tiến sĩ. Ban đầu, anh theo học ngành kỹ thuật phần mềm, nhưng niềm đam mê với AI đã dẫn dắt anh chuyển hướng sang lĩnh vực computer vision và deep learning.

Lần đầu tiên anh tiếp xúc với model YOLO nổi tiếng là khi đang thử nghiệm với nhiều kỹ thuật và model AI khác nhau. Anh ấn tượng với tốc độ và độ chính xác của nó, điều này truyền cảm hứng cho anh đào sâu hơn vào các computer vision tasks như phát hiện đối tượng. Gần đây, Ao Wang đã đóng góp cho YOLOv10, một phiên bản mới của model YOLO. Nghiên cứu của anh tập trung vào việc tối ưu hóa model để đạt tốc độ nhanh hơn và độ chính xác cao hơn.

Link to this sectionSự khác biệt chính giữa generative AI và Vision AI#

Sau đó, hội thảo bắt đầu thảo luận về generative AI, và Jing Qiu chỉ ra rằng generative AI và Vision AI có mục đích rất khác nhau. Generative AI tạo ra hoặc sản sinh ra những thứ như văn bản, hình ảnh và video, trong khi Vision AI phân tích những thứ đã tồn tại, chủ yếu là hình ảnh.

Glenn Jocher nhấn mạnh rằng quy mô cũng là một khác biệt lớn. Các model generative AI rất khổng lồ, thường chứa hàng tỷ tham số - các cài đặt nội bộ giúp model học từ dữ liệu. Các model computer vision lại nhỏ hơn nhiều. Anh cho biết: “Model YOLO nhỏ nhất mà chúng tôi có nhỏ hơn khoảng một nghìn lần so với LLM [Large Language Model] nhỏ nhất. Tức là 3 triệu tham số so với ba tỷ.”

Phiên thảo luận nhóm về Generative AI và Vision AI tại YV24

Hình 2. Phiên thảo luận về generative AI và Vision AI tại YV24.

Jing Qiu bổ sung rằng các quy trình training và triển khai của generative AI và computer vision cũng rất khác nhau. Generative AI cần các máy chủ khổng lồ và mạnh mẽ để vận hành. Mặt khác, các model như YOLO được xây dựng vì hiệu suất và có thể được huấn luyện cũng như triển khai trên phần cứng tiêu chuẩn. Điều đó giúp các Ultralytics YOLO models trở nên thực tiễn hơn cho các ứng dụng thực tế.

Mặc dù khác biệt, hai lĩnh vực này đang bắt đầu đan xen với nhau. Glenn Jocher giải thích rằng generative AI đang mang lại những tiến bộ mới cho Vision AI, giúp các model trở nên thông minh hơn và hiệu quả hơn.

Link to this sectionTác động của generative AI đối với computer vision#

Generative AI đã tiến triển nhanh chóng, và những đột phá này đang ảnh hưởng đến nhiều lĩnh vực khác của trí tuệ nhân tạo, bao gồm cả computer vision. Tiếp theo, hãy cùng điểm qua một số thông tin chuyên sâu từ hội thảo về vấn đề này.

Link to this sectionNhững tiến bộ về phần cứng đang thúc đẩy các đổi mới AI#

Ngay từ đầu phiên thảo luận, Glenn Jocher giải thích rằng các ý tưởng machine learning đã có từ rất lâu, nhưng máy tính thời đó chưa đủ mạnh để hiện thực hóa chúng. Các ý tưởng AI cần phần cứng mạnh mẽ hơn để trở thành hiện thực.

Sự trỗi dậy của GPU (Graphics Processing Units) trong 20 năm qua với khả năng xử lý song song đã thay đổi mọi thứ. Chúng giúp quá trình huấn luyện model AI nhanh hơn và hiệu quả hơn nhiều, cho phép deep learning phát triển với tốc độ chóng mặt.

Ngày nay, các chip AI như TPUs (Tensor Processing Units) và các GPU được tối ưu hóa tiêu thụ ít điện năng hơn trong khi xử lý được các model lớn và phức tạp hơn. Điều này giúp AI trở nên dễ tiếp cận và hữu ích hơn trong các ứng dụng thực tế.

Với mỗi cải tiến phần cứng mới, cả ứng dụng generative AI và computer vision đều trở nên mạnh mẽ hơn. Những tiến bộ này đang làm cho AI thời gian thực trở nên nhanh hơn, hiệu quả hơn và sẵn sàng để ứng dụng trong nhiều ngành công nghiệp hơn.

Link to this sectionCách generative AI định hình các model phát hiện đối tượng#

Khi được hỏi về cách generative AI đang ảnh hưởng đến computer vision, Jing Qiu cho biết các transformers - các model giúp AI tập trung vào những phần quan trọng nhất của hình ảnh - đã thay đổi cách AI hiểu và xử lý hình ảnh. Bước tiến lớn đầu tiên là DETR (Detection Transformer), sử dụng phương pháp mới này cho việc phát hiện đối tượng. Nó cải thiện độ chính xác nhưng lại gặp các vấn đề về hiệu năng khiến nó chậm hơn trong một số trường hợp.

Để giải quyết điều này, các nhà nghiên cứu đã tạo ra các model lai như RT-DETR. Các model này kết hợp Convolutional Neural Networks (CNNs, là các model deep learning tự động học và trích xuất đặc trưng từ hình ảnh) và transformers, cân bằng giữa tốc độ và độ chính xác. Phương pháp này tận dụng lợi thế của transformers trong khi làm cho việc phát hiện đối tượng trở nên nhanh hơn.

Thật thú vị, YOLOv10 sử dụng các lớp chú ý (attention layers) dựa trên transformer (các phần của model hoạt động giống như đèn chiếu để làm nổi bật các khu vực quan trọng nhất trong hình ảnh trong khi bỏ qua các chi tiết ít liên quan hơn) để tăng cường hiệu suất.

Ao Wang cũng đề cập đến cách generative AI đang thay đổi cách các model được huấn luyện. Các kỹ thuật như masked image modeling giúp AI học từ hình ảnh hiệu quả hơn, giảm bớt nhu cầu về các bộ dữ liệu lớn được dán nhãn thủ công. Điều này làm cho việc huấn luyện computer vision nhanh hơn và ít tốn tài nguyên hơn.

Link to this sectionTương lai của generative AI và Vision AI#

Một ý tưởng quan trọng khác mà hội thảo đã thảo luận là cách generative AI và Vision AI có thể kết hợp với nhau để xây dựng các model có khả năng cao hơn. Glenn Jocher giải thích rằng mặc dù hai phương pháp này có những điểm mạnh khác nhau, việc kết hợp chúng có thể mở ra những khả năng mới.

Ví dụ, các model Vision AI như YOLO thường chia hình ảnh thành một lưới để nhận diện đối tượng. Phương pháp dựa trên lưới này có thể giúp các ngôn ngữ mô hình cải thiện khả năng vừa định vị chi tiết vừa mô tả chúng - một thách thức mà nhiều ngôn ngữ mô hình hiện nay đang đối mặt. Về bản chất, việc hợp nhất các kỹ thuật này có thể dẫn đến các hệ thống có khả năng phát hiện chính xác và giải thích rõ ràng những gì chúng thấy.

Tương lai của Generative AI và Vision AI

Hình 3. Tương lai của generative và Vision AI. Ảnh do tác giả cung cấp.

Link to this sectionCác điểm chính cần lưu ý#

Generative AI và computer vision đang cùng nhau tiến bộ. Trong khi generative AI tạo ra hình ảnh và video, nó cũng cải thiện việc phân tích hình ảnh và video bằng cách đưa ra những ý tưởng đổi mới mới có thể làm cho các model Vision AI trở nên chính xác và hiệu quả hơn.

Trong phiên thảo luận YV24 sâu sắc này, Glenn Jocher, Jing Qiu và Ao Wang đã chia sẻ suy nghĩ của họ về cách các công nghệ này đang định hình tương lai. Với phần cứng AI tốt hơn, generative AI và Vision AI sẽ tiếp tục phát triển, dẫn đến những đổi mới lớn hơn nữa. Hai lĩnh vực này đang hợp tác để tạo ra AI thông minh hơn, nhanh hơn và hữu ích hơn cho cuộc sống hàng ngày.

Hãy tham gia cộng đồng của chúng tôi và khám phá kho lưu trữ GitHub để tìm hiểu thêm về Vision AI. Kiểm tra các tùy chọn cấp phép của chúng tôi để bắt đầu các dự án computer vision của bạn. Bạn quan tâm đến các đổi mới như AI trong sản xuất hay computer vision trong xe tự lái? Hãy ghé thăm các trang giải pháp của chúng tôi để khám phá thêm.

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning