Cải thiện dự đoán va chạm với các model Ultralytics YOLO
Tìm hiểu cách những hiểu biết từ các model Ultralytics YOLO giúp các hệ thống dự đoán va chạm đưa ra quyết định an toàn hơn, nhanh hơn trong môi trường động.

Mặc dù luôn cẩn thận khi lưu thông trên đường, tai nạn vẫn có thể xảy ra. Một chiếc xe chuyển làn, người đi bộ băng qua đường sai quy định, hoặc người đi xe đạp tăng tốc bất ngờ. Những khoảnh khắc thường nhật này là ví dụ điển hình cho thấy hệ thống dự đoán va chạm có thể tạo ra sự khác biệt thực sự và giúp đảm bảo an toàn cho mọi người.
Trước đây, chúng ta đã xem xét dự đoán quỹ đạo bóng và thấy việc dự báo đường đi của một quả bóng đang di chuyển nhanh giúp phân tích thể thao hiểu được sự chuyển động và dự đoán điều gì sẽ xảy ra tiếp theo. Dự đoán va chạm hoạt động theo cách tương tự.
Các hệ thống dự đoán này về cơ bản là nhìn vào tương lai. Bằng cách quan sát cách các phương tiện và người đi bộ di chuyển, chúng có thể phát hiện rủi ro sớm và điều chỉnh lộ trình hoặc hành vi trước khi mọi thứ trở nên nguy hiểm (còn được gọi là lập kế hoạch chuyển động hoặc lập kế hoạch lộ trình).
Các công nghệ khoa học máy tính then chốt đằng sau hệ thống dự đoán va chạm là trí tuệ nhân tạo (AI) và các lĩnh vực con của nó, chẳng hạn như computer vision và các phương pháp dự báo giúp dự đoán cách mọi vật thể sẽ di chuyển. Ví dụ, các model computer vision như Ultralytics YOLO11 và Ultralytics YOLO26 sắp ra mắt có thể được sử dụng để phát hiện và theo dõi các đối tượng như phương tiện và người đi bộ trong thời gian thực, đồng thời các model dự báo sẽ sử dụng những thông tin đó để ước tính chuyển động tiếp theo của chúng.

Hình 1. Ví dụ về việc YOLO11 được sử dụng để phát hiện đối tượng trên đường (Nguồn).
Kết quả là một hệ thống AI hiểu được những gì đang xảy ra xung quanh nó và hỗ trợ việc đưa ra quyết định thông minh hơn trong môi trường năng động. Trong bài viết này, chúng ta sẽ khám phá cách thức hoạt động của dự đoán va chạm, các phương pháp đằng sau nó, và vai trò của computer vision cũng như các model YOLO của Ultralytics trong quy trình này. Hãy bắt đầu ngay!
Link to this sectionDự đoán va chạm là gì?#
Dự đoán va chạm là khả năng của hệ thống AI trong việc hiểu cách các đối tượng đang di chuyển và dự đoán thời điểm chúng có thể tiến lại rất gần hoặc xảy ra tiếp xúc. Các hệ thống khác nhau có thể sử dụng thông tin này theo nhiều cách, bao gồm hỗ trợ các tính năng an toàn, tối ưu hóa chuyển động hoặc phối hợp hành động trong không gian chung.
Bất cứ nơi nào các đối tượng di chuyển qua không gian chung, cho dù là ô tô trên đường cao tốc, xe nâng trong lối đi nhà kho, hay người đi bộ băng qua đường, dự đoán va chạm đều giúp các hệ thống hiểu được cách những tương tác này có thể diễn ra. Trong các ứng dụng tập trung vào an toàn, sự dự báo này có thể được sử dụng để giảm thiểu rủi ro, trong khi ở những bối cảnh khác, nó có thể hỗ trợ các tác vụ như lập kế hoạch lộ trình, quản lý thời gian hoặc phối hợp chuyển động.
Ví dụ, trên nhiều phương tiện mới được trang bị các hệ thống hỗ trợ lái xe tiên tiến (ADAS), camera và cảm biến theo dõi con đường phía trước và ước tính tốc độ phương tiện đang tiến gần đến các đối tượng lân cận. Nếu hệ thống phát hiện tình huống có thể trở nên mất an toàn, nó sẽ cảnh báo người lái xe, và trong một số trường hợp, hệ thống phanh tự động có thể giúp giảm thiểu va chạm.
Link to this sectionKhám phá bốn giai đoạn của dự đoán va chạm#
Dự đoán va chạm liên quan đến một quy trình phối hợp trong đó các thành phần AI khác nhau hoạt động cùng nhau để nhận diện đối tượng, theo dõi chuyển động của chúng và ước tính điều gì có thể xảy ra tiếp theo. Các hệ thống này thường hoạt động thông qua bốn giai đoạn kết nối với nhau: phát hiện đối tượng, theo dõi đối tượng, dự báo quỹ đạo và cuối cùng là dự đoán va chạm, với mỗi giai đoạn đều dựa trên độ chính xác của giai đoạn trước đó.
Tiếp theo, hãy cùng tìm hiểu kỹ hơn về cách hoạt động của từng giai đoạn.
Link to this sectionTìm hiểu về phát hiện đối tượng#
Object detection là một tác vụ cốt lõi của computer vision, trong đó các model AI thị giác nhận diện và định vị đối tượng trong hình ảnh hoặc khung hình video. Bằng cách phân tích dữ liệu pixel, model object detection có thể tạo ra ba đầu ra chính: bounding box, lớp đối tượng và điểm số tin cậy (confidence score). Bounding box hiển thị vị trí của đối tượng, lớp đối tượng cho biết đó là gì (ví dụ: ô tô, người đi bộ, người đi xe đạp), và điểm số tin cậy phản ánh mức độ chắc chắn của model về dự đoán đó.
Các model AI thị giác như YOLO11 và YOLO26 được xây dựng trên nền tảng này và hỗ trợ một số tác vụ liên quan, bao gồm phát hiện đối tượng, theo dõi đối tượng và phát hiện oriented bounding box (OBB). Phát hiện đối tượng cho hệ thống dự đoán biết những gì có trong mỗi khung hình, theo dõi sẽ bám theo các đối tượng đó khi chúng di chuyển, và OBB cung cấp hình dạng chính xác hơn cho các đối tượng xuất hiện ở các góc độ khác nhau.
Ở giai đoạn này, hệ thống dự đoán va chạm chỉ tập trung vào việc hiểu những gì hiện diện trong dữ liệu hình ảnh. Nó hình thành lớp thông tin cơ sở mà tất cả các bước sau đó đều phụ thuộc vào, nhưng nó chưa xem xét đến cách các đối tượng sẽ di chuyển hoặc tương tác.
Link to this sectionTổng quan về theo dõi đối tượng#
Sau khi các đối tượng được phát hiện, bước tiếp theo là theo dõi chúng trên các khung hình để hệ thống có thể hiểu cách chúng di chuyển theo thời gian. Trong khi việc phát hiện cung cấp các bounding box mới trong mỗi khung hình, object tracking bổ sung tính liên tục bằng cách liên kết các kết quả phát hiện đó theo thời gian.
Các thuật toán theo dõi được hỗ trợ bởi Ultralytics Python package, chẳng hạn như ByteTrack hoặc BoT-SORT, hoạt động với các model như YOLO11 bằng cách sử dụng dữ liệu phát hiện từ mỗi khung hình để theo dõi đối tượng khi chúng di chuyển. Các thuật toán này gán một ID duy nhất cho mỗi đối tượng và sử dụng nó để duy trì danh tính đó ngay cả khi đối tượng di chuyển nhanh hoặc bị che khuất một phần. Điều này tạo ra một lịch sử theo dõi mượt mà nắm bắt được cách đối tượng di chuyển.

Hình 2. Gán các ID duy nhất cho các đối tượng được phát hiện bằng YOLO (Nguồn)
Dưới đây là sơ lược về cách hoạt động của hai phương pháp theo dõi này:
- ByteTrack: Sử dụng cả dữ liệu phát hiện có độ tin cậy cao và thấp để duy trì các ID đối tượng nhất quán, với các dự đoán chuyển động từ Kalman Filter giúp bộ theo dõi duy trì ổn định khi đối tượng di chuyển nhanh hoặc khó phát hiện trong thời gian ngắn.
- BoT-SORT: Thuật toán này mở rộng SORT bằng cách kết hợp các dự đoán chuyển động từ Kalman Filter với các gợi ý về ngoại hình, cho phép bộ theo dõi bám theo đối tượng đáng tin cậy hơn trong các cảnh đông đúc hoặc khi bị che khuất một phần.
Để đo lường hiệu suất của các phương pháp theo dõi này, các nhà nghiên cứu đánh giá chúng trên các tập dữ liệu và benchmark theo dõi đa đối tượng (MOT) tiêu chuẩn. Ngoài ra, các chỉ số phổ biến bao gồm độ chính xác theo dõi đa đối tượng (MOTA), phản ánh chất lượng theo dõi tổng thể; điểm F1 định danh (IDF1), đo lường mức độ duy trì danh tính đối tượng; và độ chính xác theo dõi bậc cao (HOTA), cung cấp cái nhìn cân bằng về cả hiệu suất phát hiện và độ chính xác liên kết.
Link to this sectionTìm hiểu về dự báo quỹ đạo#
Sau khi theo dõi một đối tượng qua nhiều khung hình, bước tiếp theo là dự đoán nơi nó sẽ đi đến. Đây được gọi là dự báo quỹ đạo. Trong khi phát hiện tìm thấy đối tượng và theo dõi bám theo cách chúng di chuyển, dự báo nhìn về phía trước và ước tính các vị trí tương lai của chúng.
Thông tin từ phát hiện và theo dõi, chẳng hạn như bounding box, vị trí qua các khung hình và ID của đối tượng, có thể được sử dụng để tính toán các đặc trưng chuyển động như tốc độ, hướng và mô hình di chuyển. Những hiểu biết sâu sắc này cung cấp cho model dự báo dữ liệu cần thiết để ước tính vị trí của đối tượng trong vài giây tới.
Trong trường hợp dữ liệu theo dõi có khoảng trống hoặc bước nhảy đột ngột, các kỹ thuật nội suy giúp tái tạo các quỹ đạo mượt mà và nhất quán hơn. Điều này đảm bảo model dự báo nhận được đầu vào chuyển động chất lượng cao thay vì dữ liệu vị trí bị nhiễu hoặc không đầy đủ.

Hình 3. Hình ảnh trực quan hóa việc dự đoán quỹ đạo của một chiếc xe. (Nguồn)
Để thực hiện các dự đoán này, nhiều hệ thống dựa vào các model deep learning được thiết kế để hiểu cách chuyển động của một đối tượng thay đổi theo thời gian. Bằng cách phân tích chuỗi các vị trí trong quá khứ và các đặc trưng chuyển động, các model này học được các mô hình di chuyển phổ biến và sử dụng kiến thức đó để dự báo các lộ trình tương lai.
Dưới đây là một số phương pháp deep learning và machine learning thường được sử dụng để dự báo quỹ đạo:
-
Recurrent Neural Networks (RNNs): RNNs là các model deep learning được thiết kế để xử lý chuỗi dữ liệu, chẳng hạn như chuỗi khung hình video. Chúng có thể ghi nhớ các vị trí trước đó và sử dụng thông tin đó để hiểu cách đối tượng đã di chuyển. Điều này giúp hệ thống nhận diện các mô hình chuyển động đơn giản như tăng tốc, giảm tốc hoặc đi theo đường thẳng.
-
Long Short-Term Memory Networks (LSTMs): LSTMs là một loại RNN nâng cao hơn có khả năng ghi nhớ thông tin trong thời gian dài hơn. Điều này cho phép chúng nắm bắt các chuyển động phức tạp hơn, chẳng hạn như một phương tiện đang chuẩn bị rẽ hoặc người đi bộ thay đổi hướng. Vì có thể theo dõi các xu hướng dài hơn, chúng thường tạo ra các dự đoán đáng tin cậy hơn trong môi trường bận rộn.
-
Transformers: Transformers xử lý các chuỗi chuyển động hoàn chỉnh và sử dụng cơ chế chú ý (attention) để tập trung vào những chi tiết quan trọng nhất của các chuỗi này. Điều này làm cho chúng đặc biệt hiệu quả trong các cảnh mà nhiều đối tượng tương tác với nhau, chẳng hạn như các xe đang nhập làn hoặc người đi bộ đang băng qua đường.
Các model này có thể dự đoán cả lộ trình ngắn hạn và dài hạn. Dự báo ngắn hạn, thường là dưới hai giây, có xu hướng chính xác nhất, trong khi các dự đoán trên khoảng thời gian dài hơn, như hai đến sáu giây, cung cấp cái nhìn dự báo xa hơn nhưng đi kèm với sự không chắc chắn lớn hơn.
Link to this sectionKết hợp mọi thứ lại với nhau: Các thuật toán phát hiện va chạm#
Trong giai đoạn cuối cùng, dự đoán va chạm, hệ thống sử dụng tất cả những gì đã học được cho đến nay: đối tượng là gì (phát hiện), nó đã di chuyển như thế nào (theo dõi) và nó có khả năng đi đâu tiếp theo (dự báo). Bước này kiểm tra xem liệu bất kỳ lộ trình dự đoán nào có thể giao nhau theo cách dẫn đến va chạm hay không.

Hình 4. Cách hệ thống dự đoán va chạm hoạt động (Nguồn)
Đối với xe tự hành, hệ thống kiểm tra va chạm so sánh quỹ đạo tương lai của các đối tượng lân cận như ô tô, người đi bộ và người đi xe đạp. Nếu hai lộ trình dự đoán chồng lấp lên nhau hoặc tiến đến gần nhau một cách nguy hiểm, hệ thống sẽ đánh dấu tình huống này là va chạm phương tiện tiềm ẩn. Để hiểu mức độ khẩn cấp của nguy cơ va chạm, hệ thống cũng tính toán một giá trị được gọi là thời gian đến khi va chạm (TTC).
Thời gian đến khi va chạm (TTC) là một thước đo quan trọng trong môi trường di chuyển nhanh. Nó ước tính thời gian còn lại trước khi hai đối tượng va chạm nếu chúng duy trì tốc độ và hướng di chuyển hiện tại. Khi TTC giảm xuống dưới một ngưỡng nhất định, hệ thống có thể phản hồi bằng cách phát cảnh báo, áp dụng phanh hoặc điều chỉnh lộ trình đã lập kế hoạch.
Link to this sectionCác ứng dụng thực tế của dự đoán va chạm#
Dự đoán va chạm đang trở nên quan trọng trong nhiều ngành công nghiệp, bao gồm quản lý giao thông, cơ sở hạ tầng thành phố thông minh, tự động hóa công nghiệp và robot di động. Khi các model computer vision và dự báo hiện đại tiếp tục phát triển, các hệ thống này ngày càng có khả năng dự đoán chuyển động tốt hơn.
Giờ đây, khi chúng ta đã hiểu rõ hơn về cách dự đoán va chạm và dự báo quỹ đạo hoạt động, hãy cùng xem xét một số nghiên cứu thú vị minh họa cách các phương pháp này có thể được sử dụng trong nhiều môi trường thực tế khác nhau.
Link to this sectionDự đoán va chạm hỗ trợ bởi YOLO cho xe tự hành khẩn cấp#
Điều hướng trong môi trường đông đúc, khó đoán là một trong những thách thức khó khăn nhất đối với các hệ thống tự hành, đặc biệt là khi người đi bộ di chuyển theo những cách không tuân theo các quy luật rõ ràng. Xe cứu hộ phải đối mặt với vấn đề này thường xuyên hơn, vì chúng cần di chuyển nhanh ở tốc độ cao qua các không gian công cộng đông đúc mà không dựa vào các con đường có cấu trúc, vạch kẻ làn đường hoặc hành vi người đi bộ có thể dự đoán được.
Trong những loại tình huống này, việc hiểu rõ vị trí của mọi người và cách họ có thể di chuyển trong vài giây tới là điều cần thiết để tránh tai nạn. Ví dụ, một nghiên cứu gần đây đã khám phá thách thức này bằng cách xây dựng một pipeline dự đoán va chạm hoàn chỉnh cho Xe tự hành khẩn cấp (EAV) hoạt động trong các môi trường đông người đi bộ.
Link to this sectionCách thức hoạt động của pipeline dự đoán va chạm hỗ trợ bởi YOLO#
Dưới đây là cái nhìn thoáng qua về cách thức hoạt động của phương pháp này:
- Phát hiện người đi bộ bằng YOLO: Một bộ phát hiện dựa trên YOLO xác định người đi bộ trong mỗi khung hình camera và tạo ra các bounding box cho mỗi người nhìn thấy được.
- Theo dõi chuyển động với ByteTrack: Thuật toán ByteTrack liên kết các kết quả phát hiện này trên các khung hình, cung cấp cho mỗi người đi bộ một ID nhất quán và tạo lịch sử chuyển động cho thấy cách họ di chuyển theo thời gian.
- Ước tính vị trí thực tế: Inverse Perspective Mapping (IPM) chuyển đổi tọa độ pixel 2D thành các vị trí gần đúng trên mặt đất, giúp hệ thống hiểu vị trí của người đi bộ trong không gian thực tế tương đối với xe.
- Tạo góc nhìn từ trên cao (bird’s-eye-view) bằng cGAN: Một GAN có điều kiện (conditional GAN), một model AI chuyển đổi một định dạng hình ảnh này sang định dạng khác, tạo ra hình ảnh đại diện từ trên cao của cảnh quay. Bố cục nhìn từ trên xuống này giúp dễ dàng diễn giải vị trí của người đi bộ và môi trường xung quanh họ hơn.
- Dự đoán quỹ đạo với model LSTM: Sử dụng các vị trí và mô hình chuyển động trong quá khứ của mỗi người đi bộ, model LSTM dự đoán nơi họ có khả năng di chuyển trong vài giây tới.
- Phát hiện va chạm hiệu quả bằng hình nón va chạm (collision cones): Các quỹ đạo dự đoán được so sánh bằng phương pháp hình nón va chạm, giúp xác định liệu lộ trình của phương tiện và bất kỳ người đi bộ nào có đang trong hướng va chạm hay không.
- Tránh va chạm thông qua tín hiệu: Nếu hệ thống dự đoán một vụ va chạm, nó sẽ kích hoạt tín hiệu âm thanh (như còi hoặc chuông) vào thời điểm tối ưu. Thời điểm này được chọn để gây ảnh hưởng đến hành vi của người đi bộ và cho họ cơ hội tăng tốc hoặc chậm lại để giữ an toàn.
Link to this sectionĐảm bảo an toàn cho người đi bộ trong thành phố bằng edge vision và YOLO#
Tương tự, một phương pháp phòng ngừa va chạm khác vượt ra ngoài phương tiện và tập trung vào chính cơ sở hạ tầng. Thay vì dựa vào các cảm biến bên trong ô tô, phương pháp này sử dụng camera thông minh được lắp đặt tại các lối băng qua đường và nút giao thông để theo dõi cách người đi bộ và phương tiện di chuyển trong thời gian thực. Những vị trí này thường khó đoán; người ta có thể bước xuống đường đột ngột, người đi xe đạp có thể len lỏi qua dòng xe cộ, và người lái xe có thể không luôn luôn giảm tốc độ, vì vậy việc phát hiện rủi ro sớm là rất quan trọng.
Một nghiên cứu thú vị đã khám phá ý tưởng này thông qua một hệ thống được gọi là NAVIBox, một thiết bị edge-vision được thiết kế để dự đoán các rủi ro giữa phương tiện và người đi bộ ngay tại nút giao thông. Hệ thống sử dụng model Ultralytics YOLOv8 để phát hiện người đi bộ và phương tiện, cùng với một bộ theo dõi tâm (Centroid tracker) hạng nhẹ để bám theo họ trên các khung hình. Điều này tạo ra các lịch sử chuyển động ngắn, đáng tin cậy, sau đó được tinh chỉnh bằng phép biến đổi phối cảnh chuyển đổi góc nhìn CCTV bị nghiêng thành bố cục nhìn từ trên cao rõ ràng hơn của con đường.
Với các quỹ đạo đã được tinh chỉnh này, NAVIBox có thể ước tính cách người tham gia giao thông có khả năng di chuyển trong vài giây tới và kiểm tra xem lộ trình của họ có thể giao nhau hay không (còn gọi là kiểm tra giao điểm). Khi hệ thống phát hiện một tương tác rủi ro, nó ngay lập tức gửi cảnh báo qua màn hình cho tài xế và loa cho người đi bộ - mà không cần dựa vào máy chủ từ xa hoặc kết nối mạng. Thử nghiệm tại các địa điểm đô thị thực tế cho thấy NAVIBox chạy đủ nhanh để phản hồi thời gian thực và có thể xác định chính xác các kịch bản va chạm tiềm ẩn, khiến nó trở thành một công cụ an toàn thiết thực cho các nút giao thông đô thị đông đúc.

Hình 5. Dự đoán nguy cơ va chạm giữa phương tiện và người đi bộ. (Nguồn)
Link to this sectionƯu điểm và nhược điểm của phát hiện và dự đoán va chạm#
Dưới đây là một số lợi ích của việc sử dụng các hệ thống dự đoán va chạm dựa trên AI:
-
Cải thiện nhận thức tình huống: Các hệ thống AI liên tục lập bản đồ cách các đối tượng di chuyển trong môi trường, cung cấp sự hiểu biết phong phú hơn về dòng người quy mô lớn, hành vi giao thông hoặc lộ trình máy móc.
-
Thông tin chi tiết dựa trên dữ liệu cho việc lập kế hoạch dài hạn: Bằng cách ghi lại các kết quả phát hiện, các tình huống suýt va chạm và mô hình di chuyển, các hệ thống AI cung cấp dữ liệu phân tích mà các nhà quy hoạch đô thị, đội ngũ an toàn và các nhà điều hành đội xe có thể sử dụng để thiết kế lại các nút giao thông, cải thiện biển báo hoặc tinh chỉnh chính sách vận hành.
-
Phòng ngừa rủi ro hiệu quả về chi phí: Bằng cách phát hiện rủi ro trước khi chúng leo thang, các hệ thống này có thể giúp tránh được các tai nạn tốn kém, các yêu cầu bồi thường bảo hiểm hoặc sửa chữa thiết bị.
Mặc dù có nhiều lợi ích, các hệ thống không va chạm cũng phải đối mặt với một số hạn chế nhất định. Dưới đây là một vài thách thức cần xem xét:
- Hạn chế về vị trí lắp đặt cảm biến và camera: Camera được đặt hoặc điều chỉnh góc không tốt có thể làm biến dạng kích thước hoặc khoảng cách của đối tượng, khiến việc ước tính chiều sâu và dự báo quỹ đạo kém tin cậy hơn.
- Che khuất (Occlusion): Các đối tượng có thể bị che khuất một phần hoặc hoàn toàn phía sau các đối tượng khác. Điều này gây khó khăn cho việc theo dõi đối tượng vì model bị mất tính liên tục về thị giác.
- Điều kiện môi trường: Ánh sáng yếu, ánh nắng gay gắt, mưa, sương mù hoặc chất lượng camera kém có thể làm giảm khả năng quan sát cảnh quay rõ ràng của model, ảnh hưởng đến độ chính xác.
Link to this sectionCác điểm chính cần lưu ý#
Dự đoán va chạm kết hợp hai khả năng mạnh mẽ: computer vision, cho phép các hệ thống hiểu được những gì đang xảy ra trong môi trường hiện tại và dự báo quỹ đạo, giúp chúng dự đoán những gì có khả năng xảy ra tiếp theo.
Bằng cách kết hợp những thế mạnh này, máy móc có thể phát hiện các đối tượng di chuyển trong thời gian thực và dự đoán cách các đối tượng đó có thể tương tác trong những giây sắp tới. Khi các kỹ thuật computer vision và dự báo tiếp tục phát triển, dự đoán va chạm có khả năng trở thành chìa khóa để xây dựng các hệ thống tự hành an toàn, đáng tin cậy và có khả năng mở rộng hơn.
Hãy xem qua cộng đồng và GitHub repository của chúng tôi để tìm hiểu thêm về AI. Khám phá các ứng dụng như AI trong chăm sóc sức khỏe và computer vision trong sản xuất trên các trang giải pháp của chúng tôi. Khám phá các tùy chọn cấp phép của chúng tôi và bắt đầu xây dựng ngay hôm nay!






