Cải thiện dự đoán va chạm với Ultralytics YOLO

Dù cẩn thận trên đường, tai nạn vẫn có thể xảy ra. Xe ô tô chuyển làn, người đi bộ băng qua đường bất cẩn, hay người đi xe đạp tăng tốc bất ngờ. Những khoảnh khắc đời thường này là ví dụ cho thấy hệ thống dự đoán va chạm có thể tạo ra sự khác biệt thực sự và giúp mọi người an toàn.

Trước đây, chúng ta đã xem xét dự đoán quỹ đạo bóng và thấy cách dự đoán đường đi của một quả bóng di chuyển nhanh giúp phân tích thể thao hiểu được chuyển động và dự đoán điều gì sẽ xảy ra tiếp theo. Dự đoán va chạm hoạt động theo cách tương tự.

Các hệ thống dự đoán này về cơ bản là nhìn vào tương lai. Bằng cách quan sát cách di chuyển của xe cộ và người đi bộ, họ có thể phát hiện sớm rủi ro và điều chỉnh lộ trình hoặc hành vi của mình trước khi (hay còn gọi là lập kế hoạch chuyển động hoặc lập kế hoạch đường đi) mọi thứ trở nên nguy hiểm.

Các công nghệ khoa học máy tính chủ chốt đằng sau các hệ thống dự đoán va chạm là trí tuệ nhân tạo và các lĩnh vực phụ của nó, chẳng hạn như thị giác máy tính và các phương pháp dự báo giúp dự đoán chuyển động của vật thể. Ví dụ, các mô hình thị giác máy tính như Ultralytics YOLO11 và Ultralytics YOLO26 sắp ra mắt có thể được sử dụng để detect Và track các đối tượng như xe cộ và người đi bộ theo thời gian thực, và các mô hình dự báo sử dụng những thông tin chi tiết đó để ước tính chuyển động tiếp theo của chúng.

Hình 1. Một ví dụ về YOLO11 được sử dụng để detect các vật thể trên đường ( Nguồn ).

‍

Kết quả là một hệ thống AI có khả năng hiểu những gì đang diễn ra xung quanh và hỗ trợ việc ra quyết định thông minh hơn trong các môi trường năng động. Trong bài viết này, chúng ta sẽ tìm hiểu cách thức hoạt động của dự đoán va chạm, các phương pháp đằng sau nó và vai trò của thị giác máy tính và Ultralytics YOLO Các mô hình có thể tham gia vào quá trình này. Hãy bắt đầu thôi!

Dự đoán va chạm là gì?

Dự đoán va chạm là khả năng của một hệ thống AI trong việc hiểu cách các vật thể di chuyển và dự đoán thời điểm chúng có thể đến rất gần hoặc va chạm. Các hệ thống khác nhau có thể sử dụng thông tin này theo nhiều cách, bao gồm hỗ trợ các tính năng an toàn, tối ưu hóa chuyển động hoặc phối hợp hành động trong không gian chung.

Bất cứ khi nào vật thể di chuyển qua không gian chung, dù là ô tô trên đường cao tốc, xe nâng trong lối đi trong kho hay người đi bộ băng qua đường, dự đoán va chạm giúp hệ thống hiểu được cách thức tương tác này diễn ra. Trong các ứng dụng tập trung vào an toàn, khả năng dự đoán này có thể được sử dụng để giảm thiểu rủi ro, trong khi ở các bối cảnh khác, nó có thể hỗ trợ các tác vụ như lập kế hoạch tuyến đường, tính toán thời gian hoặc phối hợp di chuyển.

Ví dụ, trên nhiều xe mới được trang bị hệ thống hỗ trợ người lái tiên tiến (ADAS), camera và cảm biến sẽ theo dõi đường phía trước và ước tính tốc độ xe đang tiếp cận các vật thể gần đó. Nếu hệ thống phát hiện tình huống có thể trở nên không an toàn, nó sẽ cảnh báo người lái, và trong một số trường hợp, phanh tự động có thể giúp giảm thiểu tác động.

Khám phá bốn giai đoạn dự đoán va chạm

Dự đoán va chạm là một quá trình phối hợp, trong đó các thành phần AI khác nhau phối hợp với nhau để nhận dạng vật thể, theo dõi chuyển động của chúng và ước tính những gì có thể xảy ra tiếp theo. Các hệ thống này thường hoạt động qua bốn giai đoạn liên kết: phát hiện vật thể, theo dõi vật thể, dự báo quỹ đạo và cuối cùng là dự đoán va chạm, mỗi giai đoạn đều dựa trên độ chính xác của giai đoạn trước đó.

Tiếp theo, chúng ta hãy xem xét kỹ hơn cách thức hoạt động của từng giai đoạn.

Một cái nhìn về phát hiện đối tượng

Phát hiện đối tượng là một nhiệm vụ cốt lõi của thị giác máy tính, trong đó các mô hình Vision AI xác định và định vị các đối tượng trong một khung hình ảnh hoặc video. Bằng cách phân tích dữ liệu pixel, một mô hình phát hiện đối tượng có thể tạo ra ba kết quả đầu ra chính: hộp giới hạn, lớp đối tượng và điểm tin cậy. Hộp giới hạn hiển thị vị trí của đối tượng, lớp đối tượng cho biết đó là gì, chẳng hạn như ô tô, người đi bộ hoặc người đi xe đạp, và điểm tin cậy phản ánh mức độ chắc chắn của mô hình về dự đoán.

Các mô hình AI tầm nhìn như YOLO11 và YOLO26 được xây dựng trên nền tảng này và hỗ trợ một số tác vụ liên quan, bao gồm phát hiện vật thể, theo dõi vật thể và phát hiện hộp giới hạn định hướng (OBB). Phát hiện vật thể có thể cho hệ thống dự đoán biết nội dung trong mỗi khung hình, theo dõi vật thể khi chúng di chuyển, và hộp giới hạn định hướng cung cấp hình dạng chính xác hơn cho các vật thể xuất hiện ở các góc độ khác nhau.

Ở giai đoạn này, hệ thống dự đoán va chạm chỉ tập trung vào việc hiểu những gì hiện diện trong dữ liệu trực quan. Nó hình thành lớp thông tin cơ bản mà tất cả các bước sau đều phụ thuộc vào, nhưng vẫn chưa xem xét cách các vật thể sẽ di chuyển hoặc tương tác.

Tổng quan về theo dõi đối tượng

Sau khi phát hiện các đối tượng, bước tiếp theo là track Chúng được phân tích qua các khung hình để hệ thống có thể hiểu cách chúng di chuyển theo thời gian. Trong khi phát hiện cung cấp các khung giới hạn mới cho mỗi khung hình, theo dõi đối tượng bổ sung tính liên tục bằng cách liên kết các phát hiện đó theo thời gian.

Các thuật toán theo dõi được hỗ trợ bởi gói Python Ultralytics , chẳng hạn như ByteTrack hoặc BoT-SORT, hoạt động với các mô hình như YOLO11 bằng cách sử dụng dữ liệu phát hiện từ mỗi khung hình để theo dõi các đối tượng khi chúng di chuyển. Các thuật toán này gán một ID duy nhất cho mỗi đối tượng và sử dụng nó để duy trì danh tính đó ngay cả khi đối tượng di chuyển nhanh hoặc bị ẩn một phần. Điều này tạo ra một lịch sử theo dõi mượt mà, ghi lại cách đối tượng di chuyển.

Hình 2. Một cái nhìn về việc chỉ định ID duy nhất cho các phát hiện khác nhau bằng cách sử dụng YOLO ( Nguồn )

‍

Sau đây là cái nhìn tổng quan về cách thức hoạt động của hai phương pháp theo dõi này:

ByteTrack: Nó sử dụng cả phát hiện độ tin cậy cao và thấp để duy trì ID đối tượng nhất quán, với dự đoán chuyển động từ Bộ lọc Kalman giúp trình theo dõi ổn định khi các đối tượng di chuyển nhanh hoặc khó phát hiện trong thời gian ngắn. detect .
BoT-SORT: Thuật toán này mở rộng SORT bằng cách kết hợp các dự đoán chuyển động của Bộ lọc Kalman với các tín hiệu xuất hiện, cho phép trình theo dõi theo dõi các đối tượng đáng tin cậy hơn trong các cảnh đông đúc hoặc trong trường hợp che khuất một phần.

Để đo lường hiệu quả của các phương pháp theo dõi này, các nhà nghiên cứu đánh giá chúng trên các tập dữ liệu và chuẩn theo dõi đa đối tượng (MOT) đã được thiết lập. Ngoài ra, các chỉ số thường được sử dụng bao gồm độ chính xác theo dõi đa đối tượng (MOTA), phản ánh chất lượng theo dõi tổng thể; điểm số nhận dạng F1 (IDF1), đo lường mức độ duy trì nhất quán danh tính đối tượng; và độ chính xác theo dõi bậc cao (HOTA), cung cấp cái nhìn cân bằng về cả hiệu suất phát hiện và độ chính xác liên kết.

Hiểu về dự báo quỹ đạo

Sau khi theo dõi một vật thể qua nhiều khung hình, bước tiếp theo là dự đoán vị trí tiếp theo của nó. Quá trình này được gọi là dự báo quỹ đạo. Trong khi phát hiện tìm thấy vật thể và theo dõi chuyển động của chúng, dự báo nhìn về phía trước và ước tính vị trí tương lai của chúng.

Thông tin từ phát hiện và theo dõi, chẳng hạn như hộp giới hạn của vật thể, vị trí trên các khung hình và ID được gán, có thể được sử dụng để tính toán các đặc điểm chuyển động như tốc độ, hướng và kiểu chuyển động. Những thông tin chi tiết này cung cấp cho mô hình dự báo dữ liệu cần thiết để ước tính vị trí của vật thể trong vài giây tiếp theo.

Trong trường hợp dữ liệu theo dõi có khoảng trống hoặc đột biến, các kỹ thuật nội suy giúp tái tạo quỹ đạo mượt mà và nhất quán hơn. Điều này đảm bảo mô hình dự báo nhận được dữ liệu chuyển động chất lượng cao thay vì dữ liệu vị trí nhiễu hoặc không đầy đủ.

Hình 3. Hình ảnh minh họa dự đoán quỹ đạo của ô tô. ( Nguồn )

‍

Để đưa ra những dự đoán này, nhiều hệ thống dựa vào các mô hình học sâu được thiết kế để hiểu cách chuyển động của một vật thể thay đổi theo thời gian. Bằng cách phân tích chuỗi vị trí trong quá khứ và các đặc điểm chuyển động được suy ra từ chúng, các mô hình này học các mẫu chuyển động phổ biến và sử dụng kiến thức đó để dự báo các đường đi trong tương lai.

Sau đây là một số phương pháp học sâu và học máy thường được sử dụng để dự báo quỹ đạo:

Mạng nơ-ron hồi quy (RNN): RNN là các mô hình học sâu được thiết kế để hoạt động với các chuỗi, chẳng hạn như một chuỗi khung hình video. Chúng có thể lưu giữ thông tin về các vị trí trước đó và sử dụng thông tin đó để hiểu cách một vật thể di chuyển. Điều này giúp hệ thống nhận dạng các mẫu chuyển động đơn giản như tăng tốc, giảm tốc hoặc di chuyển theo đường thẳng.

Mạng bộ nhớ dài hạn ngắn hạn (LSTM): LSTM là một loại RNN tiên tiến hơn, có khả năng ghi nhớ thông tin trong thời gian dài hơn. Điều này cho phép chúng nắm bắt các chuyển động phức tạp hơn, chẳng hạn như xe chuẩn bị rẽ hoặc người đi bộ đổi hướng. Bởi vì chúng có thể track xu hướng dài hơn, chúng thường đưa ra những dự đoán đáng tin cậy hơn trong môi trường bận rộn.

Transformers : Transformers xử lý các chuỗi chuyển động đầy đủ và tập trung vào những chi tiết quan trọng nhất của chuỗi chuyển động đó. Điều này đặc biệt hiệu quả trong các cảnh có nhiều vật thể tương tác, chẳng hạn như xe cộ nhập vào nhau hoặc người đi bộ băng qua đường.

Các mô hình này có thể dự đoán cả đường đi ngắn hạn và dài hạn. Dự báo ngắn hạn, thường dưới hai giây, có xu hướng chính xác nhất, trong khi dự báo trong khung thời gian dài hơn, chẳng hạn như từ hai đến sáu giây, mang lại tầm nhìn xa hơn nhưng đi kèm với độ không chắc chắn cao hơn.

Kết hợp tất cả lại với nhau: Thuật toán phát hiện va chạm

Ở giai đoạn cuối cùng, dự đoán va chạm, hệ thống sử dụng mọi thông tin đã học được cho đến nay: từng đối tượng là gì (phát hiện), cách nó di chuyển (theo dõi) và nơi nó có khả năng đi tiếp theo (dự báo). Bước này kiểm tra xem có bất kỳ đường đi nào được dự đoán có thể giao nhau theo cách dẫn đến va chạm hay không.

Hình 4. Hệ thống dự đoán va chạm hoạt động như thế nào ( Nguồn )

‍

Trong trường hợp xe tự hành, hệ thống kiểm tra va chạm sẽ so sánh quỹ đạo tương lai của các vật thể gần đó như ô tô, người đi bộ và người đi xe đạp. Nếu hai đường đi dự đoán chồng lên nhau hoặc đến gần nhau một cách nguy hiểm, hệ thống sẽ đánh dấu tình huống là có khả năng xảy ra va chạm xe. Để hiểu mức độ nguy hiểm của nguy cơ va chạm, hệ thống cũng tính toán một giá trị được gọi là thời gian va chạm.

Thời gian va chạm (TTC) là một phép đo quan trọng trong môi trường chuyển động nhanh. Nó ước tính thời gian còn lại trước khi hai vật thể va chạm nếu chúng tiếp tục di chuyển với tốc độ và hướng hiện tại. Khi TTC giảm xuống dưới một ngưỡng nhất định, hệ thống có thể phản ứng bằng cách đưa ra cảnh báo, phanh hoặc điều chỉnh đường đi đã định.

Ứng dụng thực tế của dự đoán va chạm

Dự đoán va chạm đang trở nên quan trọng trong nhiều ngành công nghiệp, bao gồm quản lý giao thông, cơ sở hạ tầng thành phố thông minh, tự động hóa công nghiệp và robot di động. Khi các mô hình dự báo và thị giác máy tính tiên tiến tiếp tục phát triển, các hệ thống này ngày càng có khả năng dự đoán chuyển động tốt hơn.

Bây giờ chúng ta đã hiểu rõ hơn về cách thức hoạt động của dự đoán va chạm và dự báo quỹ đạo, hãy cùng xem xét một số nghiên cứu thú vị cho thấy các phương pháp này có thể được sử dụng như thế nào trong nhiều môi trường thực tế khác nhau.

YOLO -dự đoán va chạm được hỗ trợ cho xe tự hành khẩn cấp

Việc di chuyển trong môi trường đông đúc, khó lường là một trong những thách thức khó khăn nhất đối với các hệ thống tự hành, đặc biệt là khi người đi bộ di chuyển không theo một khuôn mẫu nhất định. Xe cứu thương còn gặp phải vấn đề này thường xuyên hơn, vì chúng cần di chuyển nhanh với tốc độ cao qua các không gian công cộng đông đúc mà không dựa vào đường xá có cấu trúc, vạch kẻ đường, hoặc hành vi của người đi bộ có thể dự đoán được.

Trong những tình huống như thế này, việc hiểu rõ vị trí của mọi người và cách họ có thể di chuyển trong vài giây tiếp theo trở nên thiết yếu để tránh tai nạn. Ví dụ, một nghiên cứu gần đây đã khám phá thách thức này bằng cách xây dựng một hệ thống dự đoán va chạm hoàn chỉnh cho Xe Tự Hành Khẩn Cấp (EAV) hoạt động trong môi trường đông người đi bộ.

Làm thế nào YOLO -đường ống dự đoán va chạm được cung cấp năng lượng

Sau đây là cái nhìn tổng quan về cách thức hoạt động của phương pháp này:

Phát hiện người đi bộ bằng YOLO : A YOLO -máy dò dựa trên nhận dạng người đi bộ trong mỗi khung hình camera và đưa ra các hộp giới hạn cho mỗi người có thể nhìn thấy.
‍
Theo dõi chuyển động với ByteTrack: Thuật toán ByteTrack liên kết các phát hiện này trên nhiều khung hình, cung cấp cho mỗi người đi bộ một ID nhất quán và tạo ra lịch sử chuyển động cho thấy cách họ di chuyển theo thời gian.
‍
Ước tính vị trí trong thế giới thực: Bản đồ phối cảnh ngược (IPM) chuyển đổi tọa độ pixel 2D thành vị trí gần đúng trên mặt đất, giúp hệ thống hiểu được vị trí của người đi bộ trong không gian thực tế so với phương tiện.
‍
Tạo ảnh toàn cảnh bằng cGAN: GAN có điều kiện, một mô hình AI chuyển đổi định dạng hình ảnh này sang định dạng khác, tạo ra ảnh toàn cảnh từ trên xuống. Bố cục từ trên xuống này giúp dễ dàng diễn giải vị trí của người đi bộ và môi trường xung quanh.
‍
Dự đoán quỹ đạo bằng mô hình LSTM: Sử dụng vị trí và kiểu di chuyển trước đây của từng người đi bộ, mô hình LSTM dự đoán nơi họ có khả năng di chuyển trong vài giây tiếp theo.
‍
Phát hiện va chạm hiệu quả bằng cách sử dụng hình nón va chạm: Các quỹ đạo dự đoán được so sánh bằng phương pháp hình nón va chạm, phương pháp này xác định xem đường đi của xe và người đi bộ có đi đúng hướng để giao nhau hay không.
‍
Tránh va chạm thông qua tín hiệu: Nếu hệ thống dự đoán va chạm, nó sẽ kích hoạt tín hiệu âm thanh (như còi hoặc chuông) vào thời điểm tối ưu. Thời điểm được chọn để tác động đến hành vi của người đi bộ và cho họ cơ hội tăng tốc hoặc giảm tốc độ để đến nơi an toàn.

Đảm bảo an toàn cho người đi bộ trong thành phố bằng cách sử dụng tầm nhìn cạnh và YOLO

Tương tự, một phương pháp phòng ngừa va chạm khác không chỉ tập trung vào phương tiện mà còn vào chính cơ sở hạ tầng. Thay vì dựa vào các cảm biến bên trong xe, phương pháp này sử dụng camera thông minh được lắp đặt tại các vạch kẻ đường dành cho người đi bộ và giao lộ để theo dõi chuyển động của người đi bộ và phương tiện theo thời gian thực. Những vị trí này thường không thể đoán trước; người đi bộ có thể đột ngột bước xuống đường, người đi xe đạp có thể len lỏi qua các phương tiện giao thông, và tài xế không phải lúc nào cũng giảm tốc độ, vì vậy việc phát hiện sớm các rủi ro là rất quan trọng.

Một nghiên cứu thú vị đã khám phá ý tưởng này thông qua hệ thống NAVIBox , một thiết bị quan sát cạnh đường được thiết kế để dự đoán trực tiếp rủi ro giao thông giữa xe và người đi bộ tại giao lộ. Hệ thống sử dụng mô hình YOLOv8 Ultralytics để detect Người đi bộ và phương tiện, cùng với bộ theo dõi Centroid nhẹ để theo dõi họ qua các khung hình. Điều này tạo ra lịch sử chuyển động ngắn gọn, đáng tin cậy, sau đó được tinh chỉnh bằng cách sử dụng phép biến đổi góc nhìn, chuyển đổi góc nhìn camera quan sát thành bố cục đường phố trực quan rõ nét hơn.

Với những quỹ đạo được tinh chỉnh này, NAVIBox có thể ước tính khả năng di chuyển của người tham gia giao thông trong vài giây tiếp theo và kiểm tra xem đường đi của họ có thể giao nhau hay không (còn được gọi là kiểm tra giao lộ). Khi phát hiện tương tác nguy hiểm, hệ thống sẽ ngay lập tức gửi cảnh báo qua màn hình cho tài xế và loa cho người đi bộ - mà không cần dựa vào máy chủ từ xa hoặc kết nối mạng. Thử nghiệm tại các địa điểm đô thị thực tế cho thấy NAVIBox chạy đủ nhanh để phản hồi theo thời gian thực và có thể xác định chính xác các tình huống va chạm tiềm ẩn, biến nó thành một công cụ an toàn thiết thực cho các giao lộ đông đúc trong thành phố.

Hình 5. Dự đoán nguy cơ va chạm giữa xe cộ và người đi bộ. ( Nguồn )

‍

Ưu và nhược điểm của việc phát hiện và dự đoán va chạm

Sau đây là một số lợi ích khi sử dụng hệ thống dự đoán va chạm được hỗ trợ bởi AI:

Cải thiện nhận thức tình huống: Hệ thống AI liên tục lập bản đồ về cách các vật thể di chuyển trong môi trường, cung cấp hiểu biết sâu sắc hơn về dòng người di chuyển trên quy mô lớn, hành vi giao thông hoặc đường đi của máy móc.
‍
Thông tin chi tiết dựa trên dữ liệu cho kế hoạch dài hạn: Bằng cách ghi lại các phát hiện, tình huống suýt va chạm và mô hình di chuyển, hệ thống AI cung cấp các phân tích mà các nhà quy hoạch thành phố, nhóm an toàn và người điều hành đội xe có thể sử dụng để thiết kế lại giao lộ, cải thiện biển báo hoặc tinh chỉnh các chính sách vận hành.

Phòng ngừa rủi ro hiệu quả về mặt chi phí: Bằng cách phát hiện rủi ro trước khi chúng leo thang, các hệ thống này có thể giúp tránh được các tai nạn tốn kém, yêu cầu bồi thường bảo hiểm hoặc sửa chữa thiết bị.

Bên cạnh những lợi ích, hệ thống không va chạm cũng gặp phải một số hạn chế nhất định. Dưới đây là một số thách thức cần cân nhắc:

Hạn chế về vị trí đặt cảm biến và camera: Camera đặt ở vị trí hoặc góc không phù hợp có thể làm biến dạng kích thước hoặc khoảng cách của vật thể, khiến việc ước tính độ sâu và dự đoán quỹ đạo kém tin cậy hơn.
‍
Che khuất : Đối tượng có thể bị che khuất một phần hoặc toàn bộ sau các đối tượng khác. Điều này làm cho việc theo dõi đối tượng trở nên khó khăn vì mô hình mất đi tính liên tục về mặt thị giác.
‍
Điều kiện môi trường : Ánh sáng yếu, ánh nắng gay gắt, mưa, sương mù hoặc chất lượng camera kém có thể làm giảm khả năng quan sát cảnh rõ ràng của người mẫu, ảnh hưởng đến độ chính xác.

Những điều cần nhớ

Dự đoán va chạm kết hợp hai khả năng mạnh mẽ: thị giác máy tính, cho phép hệ thống hiểu những gì đang xảy ra trong môi trường ngay lúc này, và dự báo quỹ đạo, giúp chúng dự đoán những gì có thể xảy ra tiếp theo.

Bằng cách kết hợp những điểm mạnh này, máy móc có thể detect Các vật thể chuyển động theo thời gian thực và dự đoán cách chúng có thể tương tác trong những giây tiếp theo. Khi thị giác máy tính và các kỹ thuật dự báo tiếp tục phát triển, dự đoán va chạm có thể sẽ trở thành chìa khóa để xây dựng các hệ thống tự động an toàn hơn, đáng tin cậy hơn và có khả năng mở rộng.

Hãy tham gia cộng đồng và kho lưu trữ GitHub của chúng tôi để tìm hiểu thêm về AI. Khám phá các ứng dụng như AI trong chăm sóc sức khỏe và thị giác máy tính trong sản xuất trên các trang giải pháp của chúng tôi. Khám phá các tùy chọn cấp phép của chúng tôi và bắt đầu xây dựng ngay hôm nay!

Cải thiện dự đoán va chạm với Ultralytics YOLO các mô hình

Dự đoán va chạm là gì?