Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Cùng nhìn lại những khoảnh khắc quan trọng từ YOLO Vision 2025 Thâm Quyến, nơi Ultralytics tập hợp những nhà đổi mới, đối tác và cộng đồng AI trong một ngày đầy cảm hứng.
Vào ngày 26 tháng 10, YOLO Vision 2025 (YV25) đã ra mắt tại Trung Quốc tại Tòa nhà B10 thuộc Công viên Văn hóa Sáng tạo OCT ở Thâm Quyến. Sự kiện Vision AI kết hợp của Ultralytics đã quy tụ hơn 200 người tham dự trực tiếp, cùng với nhiều người khác tham gia trực tuyến qua YouTube và Bilibili.
Buổi phát trực tiếp YV25 Thâm Quyến đã đạt hơn 3.500 lượt xem trên YouTube và tiếp tục thu hút sự chú ý khi những điểm nổi bật của sự kiện được chia sẻ rộng rãi trong cộng đồng. Đó là một ngày tràn ngập ý tưởng, thảo luận và khám phá thực tế về hướng đi tiếp theo của Vision AI.
Ngày hội bắt đầu với lời chào đón nồng nhiệt từ chủ nhà, cô Huang Xueying, người đã mời mọi người kết nối, học hỏi và tham gia thảo luận trong suốt sự kiện. Cô chia sẻ rằng đây là sự kiện YOLO Vision thứ hai trong năm, sau sự kiện London diễn ra vào tháng 9, và chia sẻ niềm vui khi được quy tụ cộng đồng Vision AI tại Thâm Quyến.
Trong bài viết này, chúng ta sẽ cùng điểm lại những điểm nổi bật trong ngày, bao gồm các bản cập nhật mô hình, các buổi diễn thuyết, buổi demo trực tiếp và những khoảnh khắc cộng đồng đã gắn kết mọi người lại với nhau. Cùng bắt đầu thôi!
Hành trình của các mô hình Ultralytics YOLO cho đến nay
Bài phát biểu quan trọng đầu tiên trong ngày được dẫn dắt bởi Glenn Jocher , Nhà sáng lập kiêm Tổng giám đốc điều hành của Ultralytics, người đã chia sẻ về quá trình phát triển các mô hình YOLO của Ultralytics từ một bước đột phá trong nghiên cứu thành một số mô hình Vision AI được sử dụng rộng rãi nhất trên thế giới. Glenn giải thích rằng công trình ban đầu của ông tập trung vào việc giúp YOLO dễ sử dụng hơn.
Anh ấy đã chuyển các mô hình sang PyTorch, cải thiện tài liệu hướng dẫn và chia sẻ mọi thứ một cách công khai để các nhà phát triển ở khắp mọi nơi có thể xây dựng dựa trên đó. Như anh nhớ lại, "Tôi đã lao vào ngay từ năm 2018. Tôi quyết định đây chính là tương lai của mình." Khởi đầu từ một nỗ lực cá nhân, phong trào nguồn mở này đã nhanh chóng trở thành một phong trào toàn cầu.
Hình 1. Glenn Jocher phát biểu trên sân khấu tại YOLO Vision 2025 Thâm Quyến.
Ngày nay, các mô hình YOLO của Ultralytics hỗ trợ hàng tỷ suy luận mỗi ngày, và Glenn nhấn mạnh rằng quy mô này chỉ có thể đạt được nhờ những người đã góp phần xây dựng nó. Các nhà nghiên cứu, kỹ sư, sinh viên, người đam mê và những người đóng góp mã nguồn mở từ khắp nơi trên thế giới đã định hình YOLO thành như ngày nay.
Như Glenn đã nói, "Có gần một ngàn người [đóng góp] ngoài kia và chúng tôi vô cùng biết ơn vì điều đó. Chúng tôi sẽ không thể có được ngày hôm nay nếu không có những người này."
Cập nhật về Ultralytics YOLO26
Cái nhìn đầu tiên về Ultralytics YOLO26 đã được chia sẻ vào đầu năm nay tại sự kiện YOLO Vision 2025 London , nơi nó được giới thiệu là bước tiến lớn tiếp theo trong dòng mô hình Ultralytics YOLO. Tại YV25 Thâm Quyến, Glenn đã cập nhật tiến độ kể từ thông báo đó và cung cấp cho cộng đồng AI cái nhìn sâu sắc hơn về sự phát triển của mô hình này.
YOLO26 được thiết kế để nhỏ gọn hơn, nhanh hơn và chính xác hơn, đồng thời vẫn đảm bảo tính thực tiễn khi sử dụng. Glenn giải thích rằng nhóm đã dành cả năm qua để tinh chỉnh kiến trúc, đánh giá hiệu năng trên nhiều thiết bị và kết hợp những hiểu biết sâu sắc từ nghiên cứu và phản hồi của cộng đồng. Mục tiêu là mang lại hiệu năng tiên tiến mà không làm cho việc triển khai các mô hình trở nên khó khăn hơn.
Những gì mong đợi từ Ultralytics YOLO26
Một trong những cập nhật cốt lõi mà Glenn nhấn mạnh là YOLO26 được kết hợp với một chiến dịch tinh chỉnh siêu tham số chuyên dụng, chuyển từ đào tạo hoàn toàn từ đầu sang tinh chỉnh trên các tập dữ liệu lớn hơn. Ông giải thích thêm rằng phương pháp này phù hợp hơn nhiều với các trường hợp sử dụng thực tế.
Sau đây là một số cải tiến quan trọng khác được chia sẻ tại sự kiện:
Kiến trúc đơn giản hóa : Lớp Phân phối Tiêu cự (DFL) đã bị loại bỏ. Điều này giúp các mô hình chạy đơn giản hơn và nhanh hơn, đồng thời vẫn duy trì cùng mức độ chính xác.
Hỗ trợ suy luận đầu cuối : YOLO26 có sẵn tính năng đầu cuối, nghĩa là nó có thể chạy mà không cần lớp NMS riêng biệt. Điều này giúp việc xuất sang các định dạng như ONNX và TensorRT và triển khai trên phần cứng biên dễ dàng hơn nhiều.
Hiệu suất đối tượng nhỏ tốt hơn : Các chiến lược mất mát được cập nhật giúp mô hình phát hiện các đối tượng nhỏ đáng tin cậy hơn, đây vốn là thách thức lâu nay trong lĩnh vực thị giác máy tính.
Trình tối ưu hóa lai mới : YOLO26 bao gồm một trình tối ưu hóa mới lấy cảm hứng từ nghiên cứu đào tạo mô hình ngôn ngữ lớn gần đây, giúp cải thiện độ chính xác của mô hình và hiện được tích hợp trực tiếp vào gói Python Ultralytics.
Ultralytics YOLO26 là bước tiếp theo trong AI thị giác thực tế
Kết hợp lại, những bản cập nhật này tạo ra các mô hình nhanh hơn tới 43% trên CPU đồng thời cũng chính xác hơn Ultralytics YOLO11 , khiến YOLO26 đặc biệt có tác động đến các thiết bị nhúng, robot và hệ thống biên.
YOLO26 sẽ hỗ trợ tất cả các tác vụ và kích thước mô hình tương tự hiện có trong YOLO11, mang đến 25 biến thể mô hình trên toàn bộ hệ thống. Điều này bao gồm các mô hình phát hiện, phân đoạn, ước tính tư thế, hộp giới hạn định hướng và phân loại, từ nano đến cực lớn.
Nhóm cũng đang phát triển năm biến thể có thể nhắc nhở. Đây là những mô hình có thể nhận lời nhắc văn bản và trả về hộp giới hạn trực tiếp mà không cần đào tạo.
Đây là bước đầu tiên hướng tới quy trình làm việc thị giác dựa trên hướng dẫn linh hoạt hơn, dễ dàng thích ứng với các trường hợp sử dụng khác nhau. Các mô hình YOLO26 vẫn đang được phát triển tích cực, nhưng kết quả hiệu suất ban đầu rất khả quan và nhóm đang nỗ lực để sớm ra mắt chúng.
Một cái nhìn về nền tảng Utralytics
Sau bản cập nhật YOLO26, Glenn đã chào đón Prateek Bhatnagar , Trưởng bộ phận Kỹ thuật Sản phẩm của chúng tôi, đến trình diễn trực tiếp Nền tảng Ultralytics. Nền tảng này được xây dựng để kết nối các thành phần chính của quy trình làm việc thị giác máy tính, bao gồm khám phá tập dữ liệu, chú thích hình ảnh, đào tạo mô hình và so sánh kết quả.
Hình 2. Prateek Bhatnagar đang giới thiệu nền tảng Ultralytics.
Prateek chỉ ra rằng nền tảng này vẫn trung thành với nguồn gốc mã nguồn mở của Ultralytics, giới thiệu hai không gian cộng đồng: cộng đồng dữ liệu và cộng đồng dự án, nơi các nhà phát triển có thể đóng góp, tái sử dụng và cải thiện công việc của nhau. Trong buổi demo, ông đã giới thiệu tính năng chú thích hỗ trợ AI, đào tạo đám mây dễ dàng và khả năng tinh chỉnh mô hình trực tiếp từ cộng đồng mà không cần tài nguyên GPU cục bộ.
Nền tảng này hiện đang trong quá trình phát triển. Prateek khuyến khích khán giả chú ý theo dõi thông báo và lưu ý rằng nhóm đang phát triển tại Trung Quốc để hỗ trợ việc ra mắt.
Những tiếng nói đằng sau YOLO: Hội đồng tác giả
Với đà phát triển, sự kiện đã chuyển sang phần thảo luận nhóm với sự góp mặt của một số nhà nghiên cứu đứng sau các mô hình YOLO khác nhau. Nhóm thảo luận bao gồm Glenn Jocher, Jing Qiu , Kỹ sư Học máy Cấp cao của chúng tôi; Chen Hui , Kỹ sư Học máy tại Meta và là một trong những tác giả của YOLOv10; và Bo Zhang , Chuyên gia Chiến lược Thuật toán tại Meituan và là một trong những tác giả của YOLOv6.
Hình 3. Bảng thảo luận về sự phát triển của mô hình YOLO có sự góp mặt của Huang Xueying, Chen Hui, Bo Zhang, Jing Qiu và Glenn Jocher.
Buổi thảo luận tập trung vào cách YOLO tiếp tục phát triển thông qua ứng dụng thực tế. Các diễn giả đã đề cập đến việc tiến độ thường được thúc đẩy bởi những thách thức triển khai thực tế, chẳng hạn như chạy hiệu quả trên các thiết bị biên, cải thiện khả năng phát hiện vật thể nhỏ và đơn giản hóa việc xuất mô hình.
Thay vì chỉ tập trung vào độ chính xác, hội thảo đã lưu ý tầm quan trọng của việc cân bằng tốc độ, khả năng sử dụng và độ tin cậy trong môi trường sản xuất. Một điểm chung khác là giá trị của việc lặp lại và phản hồi từ cộng đồng.
Sau đây là một số thông tin thú vị khác từ cuộc trò chuyện:
Phát hiện từ vựng mở đang ngày càng được chú ý trong hệ sinh thái YOLO: Các mô hình mới hơn cho thấy cách căn chỉnh ngôn ngữ thị giác và quy trình làm việc dựa trên lời nhắc có thể phát hiện các đối tượng ngoài các danh mục cố định.
Sự chú ý nhẹ đang gia tăng: Hội thảo thảo luận về cách sử dụng các cơ chế chú ý hiệu quả, thay vì chú ý hoàn toàn ở mọi nơi, có thể tăng độ chính xác trong khi vẫn duy trì suy luận đủ nhẹ cho các thiết bị biên.
Lặp lại sớm và thường xuyên với cộng đồng: Các thành viên hội thảo đã củng cố tư duy xây dựng-thử nghiệm-cải thiện, trong đó việc phát hành mô hình sớm hơn và học hỏi từ người dùng sẽ mang lại kết quả tốt hơn so với các chu kỳ phát triển riêng tư kéo dài.
Những nhà lãnh đạo tư tưởng định hình tương lai của AI và tầm nhìn
Tiếp theo, chúng ta hãy cùng xem xét kỹ hơn một số bài phát biểu quan trọng tại YV25 Thâm Quyến, nơi các nhà lãnh đạo trong cộng đồng AI đã chia sẻ về sự phát triển của AI thị giác, từ con người và robot kỹ thuật số đến lý luận đa phương thức và triển khai hiệu quả tại biên.
Dạy AI hiểu được trải nghiệm của con người
Trong một buổi chia sẻ sâu sắc, Tiến sĩ Peng Zhang từ Alibaba Qwen Lab đã chia sẻ về cách nhóm của ông đang phát triển các mô hình video lớn có thể tạo ra những con người kỹ thuật số biểu cảm với chuyển động và khả năng điều khiển tự nhiên hơn. Ông đã giới thiệu về Wan S2V và Wan Animate, hai công nghệ sử dụng tham chiếu âm thanh hoặc chuyển động để tạo ra lời nói, cử chỉ và hoạt hình chân thực, giải quyết những hạn chế của việc tạo ra các mô hình chỉ dựa trên văn bản.
Hình 4. Peng Zhang giải thích cách các mô hình video lớn có thể cung cấp năng lượng cho con người kỹ thuật số.
Tiến sĩ Zhang cũng nói về tiến trình đang được thực hiện đối với các avatar tương tác thời gian thực, bao gồm cả việc sao chép ngoại hình và chuyển động mà không cần chụp và các mô hình nhẹ có thể hoạt hình hóa khuôn mặt trực tiếp từ nguồn cấp dữ liệu camera trực tiếp, giúp con người kỹ thuật số giống người thật có thể hoạt động mượt mà hơn trên các thiết bị hàng ngày.
Từ nhận thức đến hành động: Thời đại của trí thông minh thể hiện
Một trong những chủ đề chính tại YV25 Thâm Quyến là sự chuyển đổi từ các mô hình thị giác chỉ đơn thuần nhìn nhận thế giới sang các hệ thống có thể hoạt động trong đó. Nói cách khác, nhận thức không còn là điểm cuối của đường ống nữa; nó đang trở thành điểm khởi đầu của hành động.
Ví dụ, trong bài phát biểu quan trọng của mình, Hu Chunxu từ D-Robotics đã mô tả cách các bộ công cụ phát triển và giải pháp SoC (hệ thống trên chip) của họ tích hợp cảm biến, điều khiển chuyển động thời gian thực và ra quyết định trên một nền tảng phần cứng và phần mềm thống nhất. Bằng cách coi nhận thức và hành động như một vòng phản hồi liên tục, thay vì các giai đoạn riêng biệt, phương pháp của họ hỗ trợ robot có thể di chuyển, thích nghi và tương tác đáng tin cậy hơn trong môi trường thực tế.
Hình 5. Bản demo của D-Robotics tại YOLO Vision 2025 ở Thâm Quyến, Trung Quốc.
Alex Zhang từ Baidu Paddle đã lặp lại ý tưởng này trong bài phát biểu của mình, giải thích cách YOLO và PaddleOCR phối hợp với nhau để phát hiện các đối tượng, sau đó diễn giải văn bản và cấu trúc xung quanh chúng. Điều này cho phép các hệ thống chuyển đổi hình ảnh và tài liệu thành thông tin có cấu trúc, hữu ích cho các nhiệm vụ như hậu cần, kiểm tra và xử lý tự động.
Trí tuệ nhân tạo tại biên giới: AI hiệu quả cho mọi thiết bị
Một chủ đề thú vị khác tại YV25 Thâm Quyến là cách Vision AI đang trở nên hiệu quả và có khả năng hơn trên các thiết bị biên .
Paul Jung từ DEEPX đã chia sẻ về việc triển khai mô hình YOLO trực tiếp trên phần cứng nhúng, giảm sự phụ thuộc vào đám mây. Bằng cách tập trung vào mức tiêu thụ điện năng thấp, suy luận tối ưu và điều chỉnh mô hình dựa trên phần cứng, DEEPX cho phép nhận thức thời gian thực cho máy bay không người lái, robot di động và các hệ thống công nghiệp hoạt động trong môi trường năng động.
Tương tự, Liu Lingfei từ Moore Threads đã chia sẻ cách nền tảng Moore Threads E300 tích hợp bộ xử lý trung tâm (CPU), bộ xử lý đồ họa (GPU) và bộ xử lý thần kinh (NPU) để cung cấp khả năng suy luận thị giác tốc độ cao trên các thiết bị nhỏ gọn.
Nền tảng này có thể chạy nhiều luồng YOLO ở tốc độ khung hình cao, và chuỗi công cụ của nó giúp đơn giản hóa các bước như lượng tử hóa, biên dịch tĩnh và điều chỉnh hiệu suất. Moore Threads cũng đã mã nguồn mở một bộ lớn các mô hình thị giác máy tính và ví dụ triển khai để giảm bớt rào cản cho các nhà phát triển.
Kết hợp tầm nhìn và ngôn ngữ để tạo ra hệ thống AI thông minh hơn
Cho đến gần đây, việc xây dựng một mô hình duy nhất vừa có thể hiểu hình ảnh vừa diễn giải ngôn ngữ đòi hỏi những kiến trúc máy biến áp lớn, tốn kém chi phí vận hành. Tại YV25 Thâm Quyến, Yue Ziyin từ Yuanshi Intelligence đã trình bày tổng quan về RWKV, một kiến trúc kết hợp khả năng suy luận ngữ cảnh dài của máy biến áp với hiệu quả của các mô hình hồi quy.
Ông giải thích cách Vision-RWKV áp dụng thiết kế này vào thị giác máy tính bằng cách xử lý hình ảnh theo cách tuyến tính với độ phân giải. Điều này làm cho nó phù hợp với các đầu vào có độ phân giải cao và các thiết bị biên nơi khả năng tính toán bị hạn chế.
Yue cũng cho thấy cách RWKV được sử dụng trong các hệ thống ngôn ngữ thị giác, trong đó các đặc điểm hình ảnh được ghép nối với khả năng hiểu văn bản để vượt ra ngoài phạm vi phát hiện đối tượng và chuyển sang diễn giải các cảnh, tài liệu và bối cảnh thế giới thực.
Hình 6. Nhạc Tử Âm đang nói về ứng dụng của RWKV.
Các gian hàng và bản demo trực tiếp đã đưa Vision AI vào cuộc sống
Trong khi các buổi tọa đàm trên sân khấu hướng đến tương lai của AI thị giác, các gian hàng trên sàn trưng bày cho thấy công nghệ này đã và đang được ứng dụng như thế nào. Người tham dự được xem các mô hình vận hành thực tế, so sánh các tùy chọn phần cứng và trao đổi trực tiếp với các nhóm xây dựng hệ thống này.
Sau đây là cái nhìn thoáng qua về công nghệ được trưng bày:
Nền tảng dành cho nhà phát triển và tạo mẫu: Seeed, M5Stack và Infermove giới thiệu các bo mạch phát triển và bộ khởi động nhỏ gọn giúp dễ dàng thử nghiệm các ứng dụng dựa trên YOLO và nhanh chóng chuyển từ ý tưởng sang bản demo hoạt động.
Phần cứng biên hiệu suất cao: Hailo, DEEPX, Intel và Moore Threads đã trình diễn các chip và mô-đun được chế tạo để suy luận nhanh chóng và hiệu quả.
Quy trình làm việc về thị giác và ngôn ngữ: Baidu Paddle và RWKV đã nêu bật các ngăn xếp phần mềm có thể phát hiện vật thể, cũng như đọc, diễn giải và suy luận về những gì xuất hiện trong hình ảnh hoặc tài liệu.
Công cụ nguồn mởvà cộng đồng: Ultralytics và Datawhale thu hút các nhà phát triển bằng bản demo mô hình trực tiếp, mẹo đào tạo và hướng dẫn thực hành, củng cố cách kiến thức được chia sẻ thúc đẩy sự đổi mới.
Hình 6. Gian hàng của M5Stack tại YV25 Thâm Quyến.
Kết nối với cộng đồng Vision AI
Bên cạnh tất cả những công nghệ thú vị, một trong những điểm hấp dẫn nhất của YV25 Thâm Quyến là việc cộng đồng thị giác máy tính và đội ngũ Ultralytics lại được gặp gỡ trực tiếp. Suốt cả ngày, mọi người tụ tập bên các bản demo, chia sẻ ý tưởng trong giờ nghỉ giải lao và tiếp tục trò chuyện rất lâu sau khi các buổi hội thảo kết thúc.
Các nhà nghiên cứu, kỹ sư, sinh viên và thợ xây đã so sánh ghi chú, đặt câu hỏi và trao đổi kinh nghiệm thực tế từ khâu triển khai đến đào tạo mô hình. Và nhờ Cinco Jotas từ Grupo Osborne , chúng tôi thậm chí còn mang đến một chút văn hóa Tây Ban Nha cho sự kiện với món thịt nguội jamón mới thái, tạo nên một khoảnh khắc kết nối ấm áp. Một địa điểm tuyệt đẹp, một đám đông cuồng nhiệt và một cảm giác chung về động lực đã làm cho ngày hôm đó thực sự đặc biệt.
Những điều cần nhớ
Từ những bài phát biểu quan trọng đầy cảm hứng đến các buổi demo thực hành, YOLO Vision 2025 Thâm Quyến đã nắm bắt được tinh thần đổi mới, vốn là đặc trưng của cộng đồng Ultralytics. Suốt cả ngày, các diễn giả và người tham dự đã cùng nhau trao đổi ý tưởng, khám phá các công nghệ mới và kết nối thông qua tầm nhìn chung về tương lai của AI. Cùng nhau, họ ra về với nguồn năng lượng tràn đầy và sẵn sàng cho những điều sắp tới cùng Ultralytics YOLO.