Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay

AI tạo sinh đang thay đổi con đường phía trước cho thị giác máy tính

Abirami Vina

5 phút đọc

24 tháng 3, 2025

Khám phá những hiểu biết thú vị từ một cuộc thảo luận nhóm tại YOLO Tầm nhìn 2024. Khám phá cách AI tạo sinh đang định hình con đường phía trước cho các mô hình AI tầm nhìn thời gian thực.

AI tạo sinh là một nhánh của trí tuệ nhân tạo (AI) tạo ra nội dung mới, chẳng hạn như hình ảnh, văn bản hoặc âm thanh, bằng cách học các mẫu từ dữ liệu hiện có. Nhờ những tiến bộ gần đây, nó hiện có thể được sử dụng để tạo ra nội dung có độ chân thực cao, thường bắt chước sự sáng tạo của con người.

Tuy nhiên, tác động của AI tạo sinh không chỉ dừng lại ở việc tạo ra nội dung. Khi các mô hình thị giác máy tính thời gian thực như mô hình YOLO Ultralytics tiếp tục phát triển, AI tạo sinh cũng đang định nghĩa lại cách dữ liệu trực quan được xử lý và tăng cường, mở đường cho các ứng dụng sáng tạo trong các tình huống thực tế. 

Sự thay đổi công nghệ mới này là một chủ đề thảo luận thú vị tại YOLO Vision 2024 (YV24), một sự kiện kết hợp thường niên do Ultralytics YV24 chứng kiến sự hội tụ của những người đam mê AI và các nhà lãnh đạo trong ngành để thảo luận về những đột phá mới nhất trong lĩnh vực thị giác máy tính . Sự kiện tập trung vào đổi mới, hiệu quả và tương lai của các giải pháp AI thời gian thực.

Một trong những điểm nhấn chính của sự kiện là buổi tọa đàm về YOLO trong Kỷ nguyên Trí tuệ Nhân tạo (AI ) với sự tham gia của Glenn Jocher , Nhà sáng lập & Giám đốc Điều hành của Ultralytics , Jing Qiu , Kỹ sư học máy cao cấp tại Ultralytics và Ao Wang từ Đại học Thanh Hoa. Họ đã khám phá cách AI tạo sinh đang ảnh hưởng đến thị giác máy tính và những thách thức trong việc xây dựng các mô hình AI thực tế.

Trong bài viết này, chúng ta sẽ xem lại những hiểu biết chính từ cuộc thảo luận của họ và xem xét kỹ hơn cách generative AI đang chuyển đổi Vision AI.

Phát triển Ultralytics YOLO các mô hình

Cùng với Glenn Jocher, nhiều kỹ sư lành nghề đã đóng vai trò quan trọng trong việc phát triển Ultralytics YOLO người mẫu. Một trong số họ, Jing Qiu, kể lại sự khởi đầu bất ngờ của mình với YOLO Anh chia sẻ rằng niềm đam mê AI của anh bắt đầu từ những năm đại học. Anh đã dành rất nhiều thời gian để khám phá và tìm hiểu về lĩnh vực này. Jing Qiu nhớ lại cách anh kết nối với Glenn Jocher trên GitHub và tham gia vào nhiều dự án AI khác nhau.

Tiếp nối những gì Jing Qiu đã nói, Glenn Jocher mô tả GitHub là "một cách tuyệt vời để chia sẻ - nơi những người bạn chưa từng gặp gỡ cùng nhau giúp đỡ lẫn nhau, đóng góp vào công việc của nhau. Đó là một cộng đồng tuyệt vời và là một cách thực sự tuyệt vời để bắt đầu với AI."

__wf_reserved_inherit
Hình 1. Glenn Jocher và Jing Qiu phát biểu trên sân khấu tại YV24.

Niềm đam mê AI và công trình nghiên cứu của Jing Qiu về Ultralytics YOLOv5 đã giúp hoàn thiện mô hình. Sau đó, anh đóng vai trò chủ chốt trong việc phát triển Ultralytics YOLOv8 , mang đến những cải tiến vượt bậc. Anh mô tả đó là một hành trình đáng kinh ngạc. Hiện nay, Jing Qiu tiếp tục cải tiến và nghiên cứu các mô hình như Ultralytics YOLO11

YOLOv10 : Được tối ưu hóa cho hiệu suất thực tế

Ao Wang, tham gia buổi thảo luận nhóm từ xa từ Trung Quốc, tự giới thiệu mình là một nghiên cứu sinh tiến sĩ. Ban đầu, anh học kỹ thuật phần mềm, nhưng niềm đam mê với AI đã dẫn anh đến với lĩnh vực thị giác máy tính và học sâu.

Cuộc gặp gỡ đầu tiên của anh với người nổi tiếng YOLO Ông đã thử nghiệm mô hình này với nhiều kỹ thuật và mô hình AI khác nhau. Ông rất ấn tượng với tốc độ và độ chính xác của nó, điều này đã truyền cảm hứng cho ông nghiên cứu sâu hơn về các tác vụ thị giác máy tính như phát hiện vật thể. Gần đây, Ao Wang đã đóng góp YOLOv10 , một phiên bản gần đây của YOLO mô hình. Nghiên cứu của ông tập trung vào việc tối ưu hóa mô hình để nhanh hơn và chính xác hơn.

Sự khác biệt chính giữa AI tạo sinh (generative AI) và Vision AI

Sau đó, hội đồng bắt đầu thảo luận về AI tạo sinh và Jing Qiu chỉ ra rằng AI tạo sinh và Vision AI có những mục đích rất khác nhau. AI tạo sinh tạo ra những thứ như văn bản, hình ảnh và video, trong khi Vision AI phân tích những gì đã tồn tại, chủ yếu là hình ảnh.

Glenn Jocher nhấn mạnh rằng kích thước cũng là một sự khác biệt lớn. Các mô hình AI tạo sinh rất lớn, thường chứa hàng tỷ tham số - các thiết lập nội bộ giúp mô hình học hỏi từ dữ liệu. Các mô hình thị giác máy tính nhỏ hơn nhiều. Ông nói: "Những mô hình nhỏ nhất YOLO Mô hình chúng tôi có nhỏ hơn khoảng một nghìn lần so với LLM [Mô hình ngôn ngữ lớn] nhỏ nhất. Vì vậy, 3 triệu tham số so với ba tỷ.”

__wf_reserved_inherit
Hình 3. Phiên thảo luận về AI tạo sinh và Vision AI tại YV24.

Jing Qiu nói thêm rằng quy trình đào tạo và triển khai AI tạo sinh và thị giác máy tính cũng rất khác nhau. AI tạo sinh cần các máy chủ lớn và mạnh mẽ để vận hành. Các mô hình như YOLO Mặt khác, được xây dựng để đạt hiệu quả và có thể được đào tạo và triển khai trên phần cứng tiêu chuẩn. Điều đó làm cho Ultralytics YOLO các mô hình thực tế hơn để sử dụng trong thế giới thực.

Mặc dù khác nhau, hai lĩnh vực này đang bắt đầu đan xen vào nhau. Glenn Jocher giải thích rằng AI tạo sinh đang mang lại những tiến bộ mới cho AI thị giác, làm cho các mô hình thông minh hơn và hiệu quả hơn. 

Tác động của AI tạo sinh đối với thị giác máy tính

AI tạo sinh đã phát triển nhanh chóng và những đột phá này đang ảnh hưởng đến nhiều lĩnh vực khác của trí tuệ nhân tạo, bao gồm cả thị giác máy tính. Tiếp theo, hãy cùng xem qua một số thông tin chi tiết hấp dẫn từ hội thảo về vấn đề này.

Những tiến bộ về phần cứng đang tạo điều kiện cho những đổi mới AI

Ngay từ đầu phiên thảo luận, Glenn Jocher đã giải thích rằng các ý tưởng về máy học đã xuất hiện từ lâu, nhưng máy tính không đủ mạnh để chúng hoạt động. Các ý tưởng AI cần phần cứng mạnh hơn để biến chúng thành hiện thực.

Sự trỗi dậy của GPU (Bộ xử lý đồ họa) trong 20 năm qua với khả năng xử lý song song đã thay đổi mọi thứ. Chúng giúp việc huấn luyện các mô hình AI nhanh hơn và hiệu quả hơn nhiều, điều này cho phép học sâu phát triển với tốc độ nhanh chóng.

Ngày nay, các chip AI như TPU (Bộ xử lý Tensor ) và GPU được tối ưu hóa sử dụng ít năng lượng hơn trong khi xử lý các mô hình lớn và phức tạp hơn. Điều này giúp AI dễ tiếp cận và hữu ích hơn trong các ứng dụng thực tế.

Với mỗi cải tiến phần cứng mới, cả ứng dụng AI tạo sinh và thị giác máy tính đều trở nên mạnh mẽ hơn. Những tiến bộ này đang làm cho AI thời gian thực nhanh hơn, hiệu quả hơn và sẵn sàng để sử dụng trong nhiều ngành công nghiệp hơn.

AI tạo sinh đang định hình các mô hình phát hiện đối tượng như thế nào

Khi được hỏi về ảnh hưởng của AI tạo sinh đến thị giác máy tính, Jing Qiu cho biết transformers - các mô hình giúp AI tập trung vào các phần quan trọng nhất của hình ảnh - đã thay đổi cách AI hiểu và xử lý hình ảnh. Bước tiến lớn đầu tiên là DETR (Detection Transformer), sử dụng phương pháp mới này để phát hiện đối tượng. Nó đã cải thiện độ chính xác nhưng có các vấn đề về hiệu suất khiến nó chậm hơn trong một số trường hợp.

Để giải quyết vấn đề này, các nhà nghiên cứu đã tạo ra các mô hình lai như RT-DETR Các mô hình này kết hợp Mạng Nơ-ron Tích chập (CNN, là các mô hình học sâu tự động học và trích xuất các đặc điểm từ hình ảnh) và bộ biến đổi, cân bằng giữa tốc độ và độ chính xác. Phương pháp này tận dụng lợi thế của bộ biến đổi đồng thời giúp phát hiện đối tượng nhanh hơn.

Điều thú vị là YOLOv10 sử dụng các lớp chú ý dựa trên bộ biến đổi (các phần của mô hình hoạt động như đèn chiếu để làm nổi bật các khu vực quan trọng nhất trong hình ảnh đồng thời bỏ qua các chi tiết ít liên quan hơn) để tăng hiệu suất. 

Ao Wang cũng đề cập đến cách generative AI đang thay đổi cách các mô hình được training. Các kỹ thuật như masked image modeling giúp AI học hỏi từ hình ảnh hiệu quả hơn, giảm nhu cầu về bộ dữ liệu lớn được gắn nhãn thủ công. Điều này làm cho computer vision training nhanh hơn và ít tốn tài nguyên hơn.

Tương lai của AI tạo sinh và Vision AI 

Một ý tưởng quan trọng khác mà hội đồng thảo luận là cách AI tạo sinh và Vision AI có thể kết hợp với nhau để xây dựng các mô hình có khả năng hơn. Glenn Jocher giải thích rằng mặc dù hai phương pháp này có những thế mạnh khác nhau, nhưng việc kết hợp chúng có thể mở ra những khả năng mới. 

Ví dụ, các mô hình Vision AI như YOLO thường chia nhỏ hình ảnh thành dạng lưới để nhận dạng đối tượng. Phương pháp dựa trên lưới này có thể giúp các mô hình ngôn ngữ cải thiện khả năng xác định chi tiết và mô tả chúng - một thách thức mà nhiều mô hình ngôn ngữ đang phải đối mặt hiện nay. Về bản chất, việc kết hợp các kỹ thuật này có thể dẫn đến các hệ thống có thể nhận dạng chính xác detect và giải thích rõ ràng những gì họ nhìn thấy.

__wf_reserved_inherit
Hình 4. Tương lai của AI tạo sinh và AI thị giác. Ảnh của tác giả.

Những điều cần nhớ

AI tạo sinh và thị giác máy tính đang phát triển cùng nhau. Trong khi AI tạo sinh tạo ra hình ảnh và video, nó cũng cải thiện khả năng phân tích hình ảnh và video bằng cách đưa ra những ý tưởng sáng tạo mới có thể làm cho các mô hình Vision AI chính xác và hiệu quả hơn. 

Trong buổi thảo luận nhóm YV24 đầy thông tin này, Glenn Jocher, Jing Qiu và Ao Wang đã chia sẻ suy nghĩ của họ về cách các công nghệ này đang định hình tương lai. Với phần cứng AI tốt hơn, AI tạo sinh và Vision AI sẽ tiếp tục phát triển, dẫn đến những đổi mới lớn hơn nữa. Hai lĩnh vực này đang làm việc cùng nhau để tạo ra AI thông minh hơn, nhanh hơn và hữu ích hơn cho cuộc sống hàng ngày.

Tham gia cộng đồng của chúng tôi và khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về Vision AI. Xem các tùy chọn cấp phép của chúng tôi để khởi động các dự án computer vision của bạn. Bạn quan tâm đến những đổi mới như AI trong sản xuất hoặc computer vision trong xe tự lái? Hãy truy cập các trang giải pháp của chúng tôi để khám phá thêm. 

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí