Những điểm nổi bật từ Ultralytics tại YOLO Vision 2025 Shenzhen!
Nhìn lại những khoảnh khắc chính từ YOLO Vision 2025 Shenzhen, nơi Ultralytics đã quy tụ những nhà đổi mới, đối tác và cộng đồng AI cho một ngày đầy cảm hứng.

Vào ngày 26 tháng 10, YOLO Vision 2025 (YV25) đã có màn ra mắt tại Trung Quốc tại Tòa nhà B10 trong Công viên Văn hóa Sáng tạo OCT ở Thâm Quyến. Sự kiện AI thị giác lai của Ultralytics đã quy tụ hơn 200 người tham dự trực tiếp, cùng nhiều người khác tham gia trực tuyến qua YouTube và Bilibili.
Sự kiện livestream YV25 Thâm Quyến đã đạt hơn 3.500 lượt xem trên YouTube và tiếp tục thu hút sự chú ý khi các điểm nhấn của sự kiện được chia sẻ rộng rãi trong cộng đồng. Đó là một ngày tràn đầy ý tưởng, những cuộc trò chuyện và sự khám phá thực tế về tương lai của AI thị giác.
Ngày sự kiện bắt đầu bằng lời chào mừng nồng nhiệt từ người dẫn chương trình của chúng tôi, Huang Xueying, người đã mời mọi người kết nối, học hỏi và tham gia vào các cuộc thảo luận trong suốt sự kiện. Cô giải thích rằng đây là sự kiện YOLO Vision thứ hai trong năm, tiếp nối phiên bản tại London vào tháng 9, và chia sẻ sự phấn khích khi được một lần nữa kết nối cộng đồng AI thị giác tại đây, ở Thâm Quyến.
Trong bài viết này, chúng ta sẽ nhìn lại những điểm nhấn từ sự kiện, bao gồm các bản cập nhật mô hình, các phiên chia sẻ từ diễn giả, các bản demo trực tiếp và những khoảnh khắc cộng đồng đã gắn kết mọi người lại với nhau. Hãy bắt đầu nhé!
Link to this sectionHành trình của các mô hình Ultralytics YOLO cho đến nay#
Bài phát biểu chính đầu tiên của ngày được dẫn dắt bởi Nhà sáng lập & CEO của Ultralytics, Glenn Jocher, người đã chia sẻ cách các mô hình Ultralytics YOLO đã phát triển từ một đột phá nghiên cứu thành một trong những mô hình AI thị giác được sử dụng rộng rãi nhất trên thế giới. Glenn giải thích rằng công việc ban đầu của ông tập trung vào việc làm cho YOLO trở nên dễ sử dụng hơn.
Ông đã chuyển đổi các mô hình sang PyTorch, cải thiện tài liệu và chia sẻ mọi thứ một cách công khai để các lập trình viên ở khắp mọi nơi có thể xây dựng dựa trên đó. Như ông nhớ lại, “Tôi đã lao vào làm ngay vào năm 2018. Tôi quyết định đây chính là tương lai của mình.” Những gì bắt đầu như một nỗ lực cá nhân đã nhanh chóng trở thành một phong trào mã nguồn mở toàn cầu.

Hình 1. Glenn Jocher phát biểu trên sân khấu tại YOLO Vision 2025 Thâm Quyến.
Ngày nay, các mô hình Ultralytics YOLO cung cấp năng lượng cho hàng tỷ lượt suy luận mỗi ngày, và Glenn nhấn mạnh rằng quy mô này chỉ có thể đạt được nhờ những người đã giúp xây dựng nó. Các nhà nghiên cứu, kỹ sư, sinh viên, người đam mê và những người đóng góp mã nguồn mở từ khắp nơi trên thế giới đã tạo nên một YOLO như ngày nay.
Như Glenn đã nói, “Có gần một nghìn người trong số họ [những người đóng góp] ngoài kia và chúng tôi vô cùng biết ơn vì điều đó. Chúng tôi sẽ không thể có được vị trí như ngày hôm nay nếu không có những con người này.”
Link to this sectionCập nhật về Ultralytics YOLO26#
Cái nhìn đầu tiên về Ultralytics YOLO26 đã được chia sẻ đầu năm nay tại sự kiện YOLO Vision 2025 London, nơi nó được giới thiệu là bước tiến lớn tiếp theo trong gia đình mô hình Ultralytics YOLO. Tại YV25 Thâm Quyến, Glenn đã cung cấp bản cập nhật về tiến trình kể từ thông báo đó và mang đến cho cộng đồng AI cái nhìn cận cảnh hơn về cách mô hình đang tiến hóa.
YOLO26 được thiết kế để nhỏ hơn, nhanh hơn và chính xác hơn, đồng thời vẫn giữ được tính thực tiễn cho việc sử dụng trong thế giới thực. Glenn giải thích rằng đội ngũ đã dành cả năm qua để tinh chỉnh kiến trúc, đánh giá hiệu suất trên các thiết bị và kết hợp các hiểu biết từ nghiên cứu và phản hồi của cộng đồng. Mục tiêu là mang lại hiệu suất tiên tiến mà không làm cho các mô hình trở nên khó triển khai hơn.
Link to this sectionNhững điều cần mong đợi từ Ultralytics YOLO26#
Một trong những cập nhật cốt lõi mà Glenn nhấn mạnh là YOLO26 đi kèm với một chiến dịch tinh chỉnh siêu tham số chuyên dụng, chuyển từ việc training hoàn toàn từ đầu sang tinh chỉnh trên các tập dữ liệu lớn hơn. Ông giải thích chi tiết rằng cách tiếp cận này phù hợp hơn nhiều với các trường hợp sử dụng thực tế.
Dưới đây là một số cải tiến quan trọng khác được chia sẻ tại sự kiện:
- Kiến trúc được đơn giản hóa: Lớp Distribution Focal Loss (DFL) đã bị loại bỏ. Điều này giúp các mô hình trở nên đơn giản và chạy nhanh hơn, trong khi vẫn duy trì mức độ chính xác tương đương.
- Hỗ trợ suy luận end-to-end: YOLO26 hỗ trợ natively end-to-end, nghĩa là nó có thể chạy mà không cần lớp NMS riêng biệt. Điều này giúp việc xuất (export) sang các định dạng như ONNX và TensorRT và triển khai trên phần cứng biên trở nên dễ dàng hơn nhiều.
- Hiệu suất đối tượng nhỏ tốt hơn: Các chiến lược loss được cập nhật giúp mô hình phát hiện các đối tượng nhỏ đáng tin cậy hơn, đây vốn là một thách thức lâu nay trong lĩnh vực AI thị giác.
- Trình tối ưu hóa lai mới: YOLO26 bao gồm một trình tối ưu hóa mới lấy cảm hứng từ nghiên cứu đào tạo mô hình ngôn ngữ lớn gần đây, giúp cải thiện độ chính xác của mô hình và hiện đã được tích hợp trực tiếp vào gói Ultralytics Python.
Link to this sectionUltralytics YOLO26 là bước tiếp theo trong AI thị giác thực tiễn#
Tổng hợp lại, những cập nhật này giúp các mô hình nhanh hơn tới 43% trên CPU trong khi vẫn chính xác hơn Ultralytics YOLO11, giúp YOLO26 đặc biệt có tác động mạnh mẽ đến các thiết bị nhúng, robot và các hệ thống biên.
YOLO26 sẽ hỗ trợ tất cả các tác vụ và kích thước mô hình hiện đang có trong YOLO11, tạo ra 25 biến thể mô hình trong gia đình này. Điều này bao gồm các mô hình cho phát hiện, phân đoạn, ước tính tư thế, hộp bao định hướng (oriented bounding boxes) và phân loại, từ kích thước nano cho đến extra large.
Đội ngũ cũng đang phát triển năm biến thể promptable. Đây là các mô hình có thể nhận đầu vào là một đoạn văn bản (text prompt) và trả về các hộp bao (bounding box) trực tiếp mà không cần đào tạo.
Đây là bước đi sớm hướng tới các quy trình làm việc bằng AI thị giác linh hoạt hơn dựa trên chỉ dẫn, dễ dàng thích nghi với các trường hợp sử dụng khác nhau. Các mô hình YOLO26 vẫn đang được phát triển tích cực, nhưng kết quả hiệu suất ban đầu rất mạnh mẽ và đội ngũ đang nỗ lực để sớm phát hành chúng.
Link to this sectionCái nhìn về Nền tảng Ultralytics#
Sau bản cập nhật YOLO26, Glenn chào đón Prateek Bhatnagar, Giám đốc Kỹ thuật Sản phẩm của chúng tôi, để trình diễn trực tiếp về Nền tảng Ultralytics. Nền tảng này đang được xây dựng để mang các thành phần chính của quy trình AI thị giác lại với nhau, bao gồm khám phá tập dữ liệu, gán nhãn hình ảnh, đào tạo mô hình và so sánh kết quả.

Hình 2. Prateek Bhatnagar giới thiệu Nền tảng Ultralytics.
Prateek chỉ ra rằng nền tảng này vẫn trung thành với gốc rễ mã nguồn mở của Ultralytics, giới thiệu hai không gian cộng đồng, một cộng đồng tập dữ liệu và một cộng đồng dự án, nơi các lập trình viên có thể đóng góp, tái sử dụng và cải thiện công việc của nhau. Trong buổi demo, ông đã trình diễn tính năng gán nhãn (annotation) hỗ trợ bởi AI, đào tạo trên đám mây dễ dàng và khả năng tinh chỉnh mô hình trực tiếp từ cộng đồng mà không cần tài nguyên GPU cục bộ.
Nền tảng này hiện đang trong quá trình phát triển. Prateek khuyến khích khán giả theo dõi các thông báo và lưu ý rằng đội ngũ đang mở rộng tại Trung Quốc để hỗ trợ cho việc ra mắt.
Link to this sectionNhững tiếng nói đằng sau YOLO: Tọa đàm của các tác giả#
Với động lực đang tăng cao, sự kiện đã chuyển sang một phiên thảo luận nhóm với sự góp mặt của nhiều nhà nghiên cứu đứng sau các mô hình YOLO khác nhau. Nhóm thảo luận bao gồm Glenn Jocher, cùng với Jing Qiu, Kỹ sư Học máy Cao cấp của chúng tôi; Chen Hui, Kỹ sư Học máy tại Meta và là một trong những tác giả của YOLOv10; và Bo Zhang, Chiến lược gia Thuật toán tại Meituan và là một trong những tác giả của YOLOv6.

Hình 3. Phiên thảo luận về sự phát triển của các mô hình YOLO với sự tham gia của Huang Xueying, Chen Hui, Bo Zhang, Jing Qiu và Glenn Jocher.
Cuộc thảo luận tập trung vào cách YOLO tiếp tục phát triển thông qua việc sử dụng trong thế giới thực. Các diễn giả đã chia sẻ cách tiến bộ thường được thúc đẩy bởi các thách thức triển khai thực tế, chẳng hạn như chạy hiệu quả trên thiết bị biên, cải thiện khả năng phát hiện đối tượng nhỏ và đơn giản hóa việc xuất mô hình.
Thay vì chỉ theo đuổi độ chính xác, nhóm thảo luận lưu ý tầm quan trọng của việc cân bằng giữa tốc độ, khả năng sử dụng và độ tin cậy trong môi trường sản xuất. Một điểm chung khác được rút ra là giá trị của sự lặp lại và phản hồi từ cộng đồng.
Dưới đây là một số hiểu biết thú vị khác từ cuộc trò chuyện:
- Phát hiện theo từ vựng mở (Open-vocabulary detection) đang trở nên phổ biến trong hệ sinh thái YOLO: Các mô hình mới hơn cho thấy cách căn chỉnh thị giác-ngôn ngữ và quy trình làm việc dựa trên chỉ dẫn có thể phát hiện các đối tượng ngoài các danh mục cố định.
- Cơ chế chú ý (attention) nhẹ đang gia tăng: Nhóm thảo luận đã trao đổi về cách sử dụng cơ chế chú ý (attention mechanisms) hiệu quả, thay vì áp dụng chú ý đầy đủ ở mọi nơi, có thể thúc đẩy độ chính xác trong khi vẫn giữ suy luận đủ nhẹ cho các thiết bị biên.
- Lặp lại sớm và thường xuyên với cộng đồng: Các diễn giả củng cố tư duy xây dựng-kiểm tra-cải tiến, nơi việc phát hành mô hình sớm hơn và học hỏi từ người dùng thúc đẩy kết quả tốt hơn so với các chu kỳ phát triển kín kéo dài.
Link to this sectionCác nhà lãnh đạo tư tưởng định hình tương lai của AI và thị giác#
Tiếp theo, hãy cùng nhìn kỹ hơn vào một số bài phát biểu chính tại YV25 Thâm Quyến, nơi các nhà lãnh đạo trong cộng đồng AI đã chia sẻ cách AI thị giác đang phát triển, từ con người kỹ thuật số và robot đến lập luận đa phương thức và triển khai biên hiệu quả.
Link to this sectionDạy AI hiểu trải nghiệm con người#
Trong một phiên thảo luận sâu sắc, Tiến sĩ Peng Zhang từ Alibaba Qwen Lab đã chia sẻ cách nhóm của ông đang phát triển các mô hình video lớn có thể tạo ra con người kỹ thuật số biểu cảm với sự chuyển động và điều khiển tự nhiên hơn. Ông đã giới thiệu về Wan S2V và Wan Animate, sử dụng các tham chiếu âm thanh hoặc chuyển động để tạo ra lời nói, cử chỉ và hoạt ảnh chân thực, giải quyết những hạn chế của việc tạo hình ảnh thuần túy dựa trên văn bản.

Hình 4. Peng Zhang giải thích cách các mô hình video lớn có thể hỗ trợ con người kỹ thuật số.
Tiến sĩ Zhang cũng đã nói về những tiến bộ đang đạt được hướng tới các avatar tương tác thời gian thực, bao gồm zero-shot nhân bản ngoại hình và chuyển động cùng các mô hình nhẹ có thể hoạt họa khuôn mặt trực tiếp từ nguồn cấp dữ liệu camera trực tiếp, đưa con người kỹ thuật số sống động đến gần hơn với việc chạy mượt mà trên các thiết bị hàng ngày.
Link to this sectionTừ nhận thức đến hành động: Kỷ nguyên của trí tuệ hiện thân#
Một trong những chủ đề chính tại YV25 Thâm Quyến là sự chuyển dịch từ các mô hình thị giác chỉ đơn thuần nhìn thế giới sang các hệ thống có thể hành động trong đó. Nói cách khác, nhận thức không còn là điểm kết thúc của đường ống dẫn nữa; nó đang trở thành điểm khởi đầu của hành động.
Ví dụ, trong bài phát biểu chính của mình, Hu Chunxu từ D-Robotics đã mô tả cách các bộ kit phát triển và giải pháp SoC (system on a chip) của họ tích hợp cảm biến, điều khiển chuyển động thời gian thực và ra quyết định trên một ngăn xếp phần cứng và phần mềm thống nhất. Bằng cách coi nhận thức và hành động là một vòng lặp phản hồi liên tục, thay vì các giai đoạn riêng biệt, phương pháp của họ hỗ trợ các robot có thể di chuyển, thích nghi và tương tác đáng tin cậy hơn trong môi trường thực tế.

Hình 5. Bản demo của D-Robotics tại YOLO Vision 2025 ở Thâm Quyến, Trung Quốc.
Alex Zhang từ Baidu Paddle đã lặp lại ý tưởng này trong bài nói của mình, giải thích cách YOLO và PaddleOCR phối hợp cùng nhau để phát hiện đối tượng và sau đó giải thích văn bản và cấu trúc xung quanh chúng. Điều này cho phép các hệ thống chuyển đổi hình ảnh và tài liệu thành thông tin có cấu trúc, hữu ích cho các tác vụ như logistics, kiểm tra và xử lý tự động.
Link to this sectionTrí tuệ tại biên: AI hiệu quả cho mọi thiết bị#
Một chủ đề thú vị khác tại YV25 Thâm Quyến là cách AI Thị giác đang trở nên hiệu quả và có năng lực hơn trên các thiết bị biên.
Paul Jung từ DEEPX đã nói về việc triển khai các mô hình YOLO trực tiếp trên phần cứng nhúng, giảm bớt sự phụ thuộc vào đám mây. Bằng cách tập trung vào tiêu thụ điện năng thấp, suy luận tối ưu hóa và tinh chỉnh mô hình nhận biết phần cứng, DEEPX cho phép nhận thức thời gian thực cho máy bay không người lái, robot di động và các hệ thống công nghiệp hoạt động trong môi trường năng động.
Tương tự, Liu Lingfei từ Moore Threads đã chia sẻ cách nền tảng Moore Threads E300 tích hợp tính toán từ CPU, GPU và NPU để mang lại khả năng suy luận thị giác tốc độ cao trên các thiết bị nhỏ gọn.
Nền tảng này có thể chạy nhiều luồng YOLO ở tốc độ khung hình cao, và chuỗi công cụ của nó đơn giản hóa các bước như lượng tử hóa, biên dịch tĩnh và tinh chỉnh hiệu suất. Moore Threads cũng đã mở nguồn một tập hợp rộng lớn các mô hình thị giác máy tính và các ví dụ triển khai để giảm bớt rào cản cho các lập trình viên.
Link to this sectionKết hợp thị giác và ngôn ngữ cho các hệ thống AI thông minh hơn#
Cho đến gần đây, việc xây dựng một mô hình duy nhất có khả năng hiểu hình ảnh và diễn giải ngôn ngữ đòi hỏi các kiến trúc transformer lớn rất tốn kém để vận hành. Tại YV25 Thâm Quyến, Yue Ziyin từ Yuanshi Intelligence đã cung cấp cái nhìn tổng quan về RWKV, một kiến trúc pha trộn khả năng lập luận ngữ cảnh dài của các transformer với hiệu quả của các mô hình tái hồi.
Anh giải thích cách Vision-RWKV áp dụng thiết kế này vào thị giác máy tính bằng cách xử lý hình ảnh theo cách mở rộng tuyến tính với độ phân giải. Điều này làm cho nó phù hợp với các đầu vào độ phân giải cao và cho các thiết bị biên nơi năng lực tính toán còn hạn chế.
Yue cũng cho thấy cách RWKV đang được sử dụng trong các hệ thống thị giác-ngôn ngữ, nơi các đặc trưng hình ảnh được kết hợp với khả năng hiểu văn bản để vượt ra ngoài việc phát hiện đối tượng, tiến tới việc giải thích các cảnh quay, tài liệu và ngữ cảnh trong thế giới thực.

Hình 6. Yue Ziyin nói về các ứng dụng của RWKV.
Link to this sectionCác gian hàng và bản demo trực tiếp làm cho AI thị giác trở nên sống động#
Trong khi các bài phát biểu trên sân khấu hướng tới tương lai của AI thị giác, các gian hàng trên sàn sự kiện đã cho thấy cách nó đang được sử dụng ngay hôm nay. Người tham dự đã được chứng kiến các mô hình chạy trực tiếp, so sánh các lựa chọn phần cứng và trò chuyện trực tiếp với các đội ngũ đang xây dựng các hệ thống này.
Dưới đây là thoáng qua về công nghệ đang được trưng bày:
- Nền tảng phát triển và tạo mẫu: Seeed, M5Stack và Infermove đã giới thiệu các bo mạch phát triển nhỏ gọn và bộ kit khởi đầu giúp dễ dàng thử nghiệm với các ứng dụng dựa trên YOLO và nhanh chóng chuyển từ ý tưởng sang các bản demo hoạt động được.
- Phần cứng biên hiệu suất cao: Hailo, DEEPX, Intel và Moore Threads đã trình diễn các chip và module được xây dựng cho suy luận nhanh, hiệu quả.
- Quy trình làm việc thị giác và ngôn ngữ: Baidu Paddle và RWKV đã nêu bật các ngăn xếp phần mềm có thể phát hiện đối tượng, đồng thời đọc, diễn giải và lập luận về những gì xuất hiện trong hình ảnh hoặc tài liệu.
- Mã nguồn mở và công cụ cộng đồng: Ultralytics và Datawhale đã gắn kết các lập trình viên với các bản demo mô hình trực tiếp, mẹo đào tạo và hướng dẫn thực hành, củng cố cách kiến thức được chia sẻ thúc đẩy đổi mới.

Hình 7. Một cái nhìn về gian hàng của M5Stack tại YV25 Thâm Quyến.
Link to this sectionKết nối với cộng đồng AI thị giác#
Ngoài tất cả các công nghệ thú vị, một trong những phần tuyệt vời nhất của YV25 Thâm Quyến là việc đưa cộng đồng thị giác máy tính và đội ngũ Ultralytics gặp mặt trực tiếp một lần nữa. Trong suốt cả ngày, mọi người đã tụ tập xung quanh các bản demo, chia sẻ ý tưởng trong các giờ giải lao cà phê và tiếp tục các cuộc trò chuyện rất lâu sau khi các bài phát biểu kết thúc.
Các nhà nghiên cứu, kỹ sư, sinh viên và người xây dựng đã so sánh các ghi chú, đặt câu hỏi và trao đổi kinh nghiệm thực tế từ việc triển khai đến đào tạo mô hình. Và nhờ Cinco Jotas từ Grupo Osborne, chúng tôi thậm chí đã mang một chút văn hóa Tây Ban Nha vào sự kiện với món jamón được cắt lát tươi mới, tạo nên một khoảnh khắc kết nối ấm áp. Một địa điểm tuyệt đẹp, một đám đông nhiệt tình và cảm giác chia sẻ về động lực đã làm cho ngày hôm đó thực sự đặc biệt.
Link to this sectionCác điểm chính cần lưu ý#
Từ những bài phát biểu chính đầy cảm hứng đến các bản demo thực hành, YOLO Vision 2025 Thâm Quyến đã ghi lại tinh thần đổi mới định hình nên cộng đồng Ultralytics. Trong suốt cả ngày, các diễn giả và người tham dự đã trao đổi ý tưởng, khám phá các công nghệ mới và kết nối qua tầm nhìn chung về tương lai của AI. Cùng nhau, họ đã rời đi với đầy năng lượng và sẵn sàng cho những gì tiếp theo với Ultralytics YOLO.
Hãy hình dung lại những gì có thể với AI và thị giác máy tính. Tham gia cộng đồng và kho lưu trữ GitHub của chúng tôi để khám phá thêm. Tìm hiểu thêm về các ứng dụng như thị giác máy tính trong nông nghiệp và AI trong bán lẻ. Khám phá các tùy chọn cấp phép của chúng tôi và bắt đầu với thị giác máy tính ngay hôm nay!






