Yolo Vision Thâm Quyến
Thâm Quyến
Tham gia ngay

AI tạo sinh đang thay đổi con đường phía trước cho thị giác máy tính

Abirami Vina

5 phút đọc

24 tháng 3, 2025

Khám phá những thông tin chi tiết thú vị từ một buổi thảo luận tại YOLO Vision 2024. Tìm hiểu cách AI tạo sinh đang định hình con đường phía trước cho các mô hình Vision AI thời gian thực.

AI tạo sinh là một nhánh của trí tuệ nhân tạo (AI) tạo ra nội dung mới, chẳng hạn như hình ảnh, văn bản hoặc âm thanh, bằng cách học các mẫu từ dữ liệu hiện có. Nhờ những tiến bộ gần đây, nó hiện có thể được sử dụng để tạo ra nội dung có độ chân thực cao, thường bắt chước sự sáng tạo của con người.

Tuy nhiên, tác động của AI tạo sinh không chỉ dừng lại ở việc tạo nội dung. Khi các mô hình thị giác máy tính thời gian thực như các mô hình Ultralytics YOLO tiếp tục phát triển, AI tạo sinh cũng đang định hình lại cách xử lý và tăng cường dữ liệu trực quan, mở đường cho các ứng dụng sáng tạo trong các tình huống thực tế. 

Sự thay đổi công nghệ mới này là một chủ đề trò chuyện thú vị tại YOLO Vision 2024 (YV24), một sự kiện kết hợp thường niên do Ultralytics tổ chức. YV24 đã chứng kiến những người đam mê AI và các nhà lãnh đạo ngành cùng nhau thảo luận về những đột phá mới nhất trong thị giác máy tính. Sự kiện tập trung vào sự đổi mới, hiệu quả và tương lai của các giải pháp AI thời gian thực.

Một trong những điểm nổi bật chính của sự kiện là buổi nói chuyện nhóm về YOLO trong kỷ nguyên AI tạo sinh. Hội đồng bao gồm Glenn Jocher, Người sáng lập & Giám đốc điều hành của Ultralytics, Jing Qiu, Kỹ sư học máy cấp cao tại Ultralytics và Ao Wang từ Đại học Thanh Hoa. Họ đã khám phá cách AI tạo sinh đang ảnh hưởng đến thị giác máy tính và những thách thức trong việc xây dựng các mô hình AI thực tế.

Trong bài viết này, chúng ta sẽ xem lại những hiểu biết chính từ cuộc thảo luận của họ và xem xét kỹ hơn cách generative AI đang chuyển đổi Vision AI.

Phát triển các mô hình Ultralytics YOLO

Cùng với Glenn Jocher, nhiều kỹ sư lành nghề đã đóng một vai trò quan trọng trong việc phát triển các mô hình Ultralytics YOLO. Một trong số đó, Jing Qiu, đã kể lại sự khởi đầu bất ngờ của mình với YOLO. Ông giải thích rằng niềm đam mê của ông với AI bắt đầu từ những năm đại học. Ông đã dành một khoảng thời gian đáng kể để khám phá và tìm hiểu về lĩnh vực này. Jing Qiu nhớ lại cách ông kết nối với Glenn Jocher trên GitHub và tham gia vào nhiều dự án AI khác nhau.

Tiếp nối những gì Jing Qiu đã nói, Glenn Jocher mô tả GitHub là "một cách tuyệt vời để chia sẻ - nơi những người bạn chưa từng gặp gỡ cùng nhau giúp đỡ lẫn nhau, đóng góp vào công việc của nhau. Đó là một cộng đồng tuyệt vời và là một cách thực sự tuyệt vời để bắt đầu với AI."

__wf_reserved_inherit
Hình 1. Glenn Jocher và Jing Qiu phát biểu trên sân khấu tại YV24.

Sự quan tâm của Jing Qiu đối với AI và công việc của ông trên Ultralytics YOLOv5 đã giúp tinh chỉnh mô hình. Sau đó, ông đóng một vai trò quan trọng trong việc phát triển Ultralytics YOLOv8, giới thiệu những cải tiến hơn nữa. Ông mô tả đó là một hành trình đáng kinh ngạc. Ngày nay, Jing Qiu tiếp tục cải thiện và làm việc trên các mô hình như Ultralytics YOLO11

YOLOv10: Tối ưu hóa cho hiệu suất thực tế

Ao Wang, tham gia buổi thảo luận nhóm từ xa từ Trung Quốc, tự giới thiệu mình là một nghiên cứu sinh tiến sĩ. Ban đầu, anh học kỹ thuật phần mềm, nhưng niềm đam mê với AI đã dẫn anh đến với lĩnh vực thị giác máy tính và học sâu.

Lần đầu tiên anh ấy tiếp xúc với mô hình YOLO nổi tiếng là khi thử nghiệm các kỹ thuật và mô hình AI khác nhau. Anh ấy rất ấn tượng với tốc độ và độ chính xác của nó, điều này đã truyền cảm hứng cho anh ấy đi sâu hơn vào các tác vụ thị giác máy tính như phát hiện đối tượng. Gần đây, Ao Wang đã đóng góp vào YOLOv10, một phiên bản gần đây của mô hình YOLO. Nghiên cứu của anh tập trung vào việc tối ưu hóa mô hình để nhanh hơn và chính xác hơn.

Sự khác biệt chính giữa AI tạo sinh (generative AI) và Vision AI

Sau đó, hội đồng bắt đầu thảo luận về AI tạo sinh và Jing Qiu chỉ ra rằng AI tạo sinh và Vision AI có những mục đích rất khác nhau. AI tạo sinh tạo ra những thứ như văn bản, hình ảnh và video, trong khi Vision AI phân tích những gì đã tồn tại, chủ yếu là hình ảnh.

Glenn Jocher cũng nhấn mạnh rằng kích thước là một sự khác biệt lớn. Các mô hình AI tạo sinh rất lớn, thường chứa hàng tỷ tham số - các cài đặt bên trong giúp mô hình học hỏi từ dữ liệu. Các mô hình thị giác máy tính nhỏ hơn nhiều. Ông nói: “Mô hình YOLO nhỏ nhất mà chúng tôi có nhỏ hơn khoảng một nghìn lần so với LLM [Mô hình ngôn ngữ lớn] nhỏ nhất. Vì vậy, 3 triệu tham số so với ba tỷ.”

__wf_reserved_inherit
Hình 3. Phiên thảo luận về AI tạo sinh và Vision AI tại YV24.

Jing Qiu nói thêm rằng các quy trình huấn luyện và triển khai AI tạo sinh và computer vision cũng rất khác nhau. AI tạo sinh cần các máy chủ khổng lồ, mạnh mẽ để chạy. Mặt khác, các mô hình như YOLO được xây dựng để đạt hiệu quả và có thể được huấn luyện và triển khai trên phần cứng tiêu chuẩn. Điều đó làm cho các mô hình Ultralytics YOLO trở nên thiết thực hơn cho việc sử dụng trong thế giới thực.

Mặc dù khác nhau, hai lĩnh vực này đang bắt đầu đan xen vào nhau. Glenn Jocher giải thích rằng AI tạo sinh đang mang lại những tiến bộ mới cho AI thị giác, làm cho các mô hình thông minh hơn và hiệu quả hơn. 

Tác động của AI tạo sinh đối với thị giác máy tính

AI tạo sinh đã phát triển nhanh chóng và những đột phá này đang ảnh hưởng đến nhiều lĩnh vực khác của trí tuệ nhân tạo, bao gồm cả thị giác máy tính. Tiếp theo, hãy cùng xem qua một số thông tin chi tiết hấp dẫn từ hội thảo về vấn đề này.

Những tiến bộ về phần cứng đang tạo điều kiện cho những đổi mới AI

Ngay từ đầu phiên thảo luận, Glenn Jocher đã giải thích rằng các ý tưởng về máy học đã xuất hiện từ lâu, nhưng máy tính không đủ mạnh để chúng hoạt động. Các ý tưởng AI cần phần cứng mạnh hơn để biến chúng thành hiện thực.

Sự trỗi dậy của GPU (Bộ xử lý đồ họa) trong 20 năm qua với khả năng xử lý song song đã thay đổi mọi thứ. Chúng giúp việc huấn luyện các mô hình AI nhanh hơn và hiệu quả hơn nhiều, điều này cho phép học sâu phát triển với tốc độ nhanh chóng.

Ngày nay, các chip AI như TPU (Bộ xử lý Tensor) và GPU được tối ưu hóa sử dụng ít năng lượng hơn trong khi xử lý các mô hình lớn hơn và phức tạp hơn. Điều này đã làm cho AI trở nên dễ tiếp cận và hữu ích hơn trong các ứng dụng thực tế.

Với mỗi cải tiến phần cứng mới, cả ứng dụng AI tạo sinh và thị giác máy tính đều trở nên mạnh mẽ hơn. Những tiến bộ này đang làm cho AI thời gian thực nhanh hơn, hiệu quả hơn và sẵn sàng để sử dụng trong nhiều ngành công nghiệp hơn.

AI tạo sinh đang định hình các mô hình phát hiện đối tượng như thế nào

Khi được hỏi về ảnh hưởng của AI tạo sinh đến thị giác máy tính, Jing Qiu cho biết transformers - các mô hình giúp AI tập trung vào các phần quan trọng nhất của hình ảnh - đã thay đổi cách AI hiểu và xử lý hình ảnh. Bước tiến lớn đầu tiên là DETR (Detection Transformer), sử dụng phương pháp mới này để phát hiện đối tượng. Nó đã cải thiện độ chính xác nhưng có các vấn đề về hiệu suất khiến nó chậm hơn trong một số trường hợp.

Để giải quyết vấn đề này, các nhà nghiên cứu đã tạo ra các mô hình lai như RT-DETR. Các mô hình này kết hợp Mạng nơ-ron tích chập (CNN, là các mô hình học sâu tự động học và trích xuất các đặc trưng từ hình ảnh) và bộ biến đổi, cân bằng giữa tốc độ và độ chính xác. Cách tiếp cận này tận dụng những lợi ích của bộ biến đổi đồng thời làm cho việc phát hiện đối tượng nhanh hơn.

Điều thú vị là, YOLOv10 sử dụng các lớp attention dựa trên transformer (các phần của mô hình hoạt động như một điểm nhấn để làm nổi bật các khu vực quan trọng nhất trong một hình ảnh trong khi bỏ qua các chi tiết ít liên quan hơn) để tăng hiệu suất của nó. 

Ao Wang cũng đề cập đến cách generative AI đang thay đổi cách các mô hình được training. Các kỹ thuật như masked image modeling giúp AI học hỏi từ hình ảnh hiệu quả hơn, giảm nhu cầu về bộ dữ liệu lớn được gắn nhãn thủ công. Điều này làm cho computer vision training nhanh hơn và ít tốn tài nguyên hơn.

Tương lai của AI tạo sinh và Vision AI 

Một ý tưởng quan trọng khác mà hội đồng thảo luận là cách AI tạo sinh và Vision AI có thể kết hợp với nhau để xây dựng các mô hình có khả năng hơn. Glenn Jocher giải thích rằng mặc dù hai phương pháp này có những thế mạnh khác nhau, nhưng việc kết hợp chúng có thể mở ra những khả năng mới. 

Ví dụ: các mô hình Vision AI như YOLO thường chia một hình ảnh thành một lưới để xác định các đối tượng. Phương pháp dựa trên lưới này có thể giúp các mô hình ngôn ngữ cải thiện khả năng xác định chi tiết và mô tả chúng - một thách thức mà nhiều mô hình ngôn ngữ đang phải đối mặt hiện nay. Về bản chất, việc hợp nhất các kỹ thuật này có thể dẫn đến các hệ thống có thể phát hiện chính xác và giải thích rõ ràng những gì chúng nhìn thấy.

__wf_reserved_inherit
Hình 4. Tương lai của AI tạo sinh và AI thị giác. Ảnh của tác giả.

Những điều cần nhớ

AI tạo sinh và thị giác máy tính đang phát triển cùng nhau. Trong khi AI tạo sinh tạo ra hình ảnh và video, nó cũng cải thiện khả năng phân tích hình ảnh và video bằng cách đưa ra những ý tưởng sáng tạo mới có thể làm cho các mô hình Vision AI chính xác và hiệu quả hơn. 

Trong buổi thảo luận nhóm YV24 đầy thông tin này, Glenn Jocher, Jing Qiu và Ao Wang đã chia sẻ suy nghĩ của họ về cách các công nghệ này đang định hình tương lai. Với phần cứng AI tốt hơn, AI tạo sinh và Vision AI sẽ tiếp tục phát triển, dẫn đến những đổi mới lớn hơn nữa. Hai lĩnh vực này đang làm việc cùng nhau để tạo ra AI thông minh hơn, nhanh hơn và hữu ích hơn cho cuộc sống hàng ngày.

Tham gia cộng đồng của chúng tôi và khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về Vision AI. Xem các tùy chọn cấp phép của chúng tôi để khởi động các dự án computer vision của bạn. Bạn quan tâm đến những đổi mới như AI trong sản xuất hoặc computer vision trong xe tự lái? Hãy truy cập các trang giải pháp của chúng tôi để khám phá thêm. 

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard