AI hành vi đang làm cho thị giác máy tính trở nên hiệu quả hơn
Hãy tham gia cùng chúng tôi để nhìn lại bài phát biểu chính của David Scott tại YOLO Vision 2024 về phân tích hành vi dựa trên AI và các ứng dụng thực tế trong các lĩnh vực như chăn nuôi.

Trong nhiều năm, các cải tiến về thị giác máy tính chủ yếu tập trung vào các tác vụ như object detection - xác định các đối tượng như chó hoặc ô tô trong hình ảnh và video. Những phương pháp này đã tạo điều kiện cho các ứng dụng trong nhiều lĩnh vực như xe tự lái, sản xuất và chăm sóc sức khỏe.
Tuy nhiên, các tác vụ này thường chỉ tập trung vào việc xác định đối tượng là gì. Điều gì sẽ xảy ra nếu các hệ thống AI thị giác có thể tiến xa hơn một bước? Ví dụ, thay vì chỉ đơn thuần phát hiện một con chó, hãy hình dung hệ thống có thể hiểu rằng con chó đó đang đuổi theo một quả bóng, hoặc một chiếc ô tô đang phanh gấp vì có người đi bộ đang băng qua đường. Sự chuyển dịch từ nhận diện cơ bản sang hiểu biết theo ngữ cảnh thể hiện một bước tiến lớn hướng tới AI hành vi thông minh và có nhận thức về bối cảnh.
Tại YOLO Vision 2024 (YV24), sự kiện kết hợp thường niên của Ultralytics nhằm tôn vinh những tiến bộ trong vision AI, khái niệm phân tích hành vi dựa trên AI đã trở thành tâm điểm trong bài phát biểu thú vị của David Scott, CEO của The Main Branch.
Trong bài thuyết trình, David đã khám phá quá trình chuyển đổi từ các tác vụ thị giác máy tính cơ bản sang theo dõi hành vi. Với hơn 25 năm kinh nghiệm xây dựng các ứng dụng công nghệ tiên tiến, ông đã trình bày tác động của bước nhảy vọt này. Ông nhấn mạnh việc giải mã các mô hình và hành vi đang định hình lại các ngành công nghiệp như nông nghiệp và phúc lợi động vật như thế nào.
Trong bài viết này, chúng ta sẽ điểm qua những nội dung chính trong bài nói chuyện của David và khám phá cách theo dõi hành vi giúp AI trở nên thực dụng hơn.
Link to this sectionHiểu về những thách thức trong việc áp dụng AI#
David Scott bắt đầu bài phát biểu chính của mình bằng một cái nhìn thực tế táo bạo: “Một đồng nghiệp của tôi thường nói rằng ‘Khoa học không thể bán được hàng’, điều này khiến nhiều người trong chúng ta cảm thấy hơi khó chịu vì chúng ta thực sự yêu thích khoa học. AI rất tuyệt vời - tại sao mọi người không mua nó? Nhưng thực tế là, người ta không muốn mua nó chỉ vì chúng ta thấy nó hay ho; họ cần một lý do để mua nó.”
Ông giải thích rằng tại công ty của mình, The Main Branch, trọng tâm luôn là giải quyết các vấn đề thực tế bằng AI, thay vì chỉ khoe khoang các khả năng của nó. Rất nhiều khách hàng đến và muốn thảo luận về cách họ có thể sử dụng AI nói chung, nhưng ông coi đó là một cách tiếp cận ngược - giống như việc có một giải pháp mà không có vấn đề cần giải quyết. Thay vào đó, họ làm việc với những khách hàng mang đến các thách thức cụ thể để có thể tạo ra các AI solutions thực sự tạo ra sự khác biệt.

Hình 1. David Scott trên sân khấu tại YV24.
David cũng chia sẻ rằng công việc của họ thường vượt xa việc chỉ nhận dạng các đối tượng trong một khung hình. Việc phát hiện cái gì ở đó chỉ là bước đầu tiên. Giá trị thực sự đến từ việc tìm ra cách xử lý thông tin đó và làm cho nó trở nên hữu ích trong chuỗi giá trị lớn hơn.
Link to this sectionCông nghệ theo dõi hành vi: chìa khóa cho AI có khả năng thực thi#
Một bước quan trọng để làm cho AI thực sự hữu ích là vượt ra khỏi các computer vision tasks cơ bản như object detection và sử dụng những hiểu biết đó cho việc theo dõi hành vi. David nhấn mạnh rằng AI hành vi tập trung vào việc hiểu các hành động và mô hình, chứ không chỉ xác định đối tượng. Điều này giúp AI có khả năng nhận ra các sự kiện có ý nghĩa và cung cấp những hiểu biết có thể thực thi được.
Ông đưa ra ví dụ về một con vật lăn lộn trên sàn, điều này có thể là dấu hiệu của bệnh tật. Trong khi con người không thể theo dõi một con vật suốt ngày đêm, AI-driven surveillance systems với khả năng theo dõi hành vi có thể làm được điều đó. Các giải pháp như vậy có thể giám sát đối tượng liên tục, phát hiện các hành vi cụ thể, gửi cảnh báo và cho phép xử lý kịp thời. Điều này biến dữ liệu thô thành thứ gì đó thực tế và có giá trị.
David cũng cho thấy cách tiếp cận này làm cho AI không chỉ thú vị mà còn thực sự có tác động mạnh mẽ. Bằng cách giải quyết các vấn đề thực tế, như giám sát hành vi và hành động dựa trên chúng, theo dõi hành vi có thể trở thành một phần quan trọng của các giải pháp AI hiệu quả trong nhiều ngành công nghiệp khác nhau.
Link to this sectionHiện thực hóa AI hành vi#
David Scott sau đó minh họa cách Ultralytics YOLOv8, một model thị giác máy tính, là bước đột phá cho các dự án theo dõi hành vi của nhóm ông. Nó cung cấp cho họ một nền tảng vững chắc để phát hiện, phân loại và theo dõi đối tượng. Nhóm của ông cũng tiến thêm một bước và custom-trained YOLOv8 để tập trung vào việc giám sát các hành vi theo thời gian, giúp nó trở nên thiết thực và hữu ích hơn cho các tình huống thực tế.
Thú vị thay, với sự ra mắt của Ultralytics YOLO11, các giải pháp như những gì The Main Branch đã tạo ra có thể trở nên đáng tin cậy và chính xác hơn nữa. Model mới nhất này cung cấp các tính năng như độ chính xác được cải thiện và xử lý nhanh hơn, giúp nâng cao khả năng theo dõi hành vi. Chúng ta sẽ thảo luận chi tiết hơn sau khi hiểu rõ hơn về các ứng dụng mà AI hành vi có thể được sử dụng.
Tiếp theo, hãy cùng khám phá các giải pháp mà David đã nói đến và cách công nghệ theo dõi hành vi đang được sử dụng trong các ứng dụng thực tế để giải quyết những thách thức hàng ngày và tạo ra tác động có ý nghĩa.
Link to this sectionHerdSense với phân tích hành vi dựa trên AI#
Đầu tiên, David chia sẻ một thách thức thú vị mà họ đã giải quyết với dự án có tên là HerdSense, liên quan đến việc giám sát sức khỏe của hàng nghìn con bò trên một khu nuôi vỗ béo quy mô lớn. Mục tiêu là theo dõi hành vi của từng con bò để xác định các vấn đề sức khỏe tiềm ẩn. Điều này đồng nghĩa với việc phải để mắt đến hàng chục nghìn con vật cùng một lúc, và đó không phải là một nhiệm vụ đơn giản.

Fig 2. HerdSense tập trung vào việc giám sát và nhận dạng bò bằng AI hành vi.
Để bắt đầu giải quyết vấn đề nhận dạng từng con bò và theo dõi hành vi của chúng, nhóm của David đã thực hiện một buổi hội thảo kéo dài hai ngày để phác thảo mọi hành vi có thể cần phải giám sát. Họ đã xác định tổng cộng hơn 200 hành vi.
Mỗi hành vi trong số 200 hành vi đó đều phụ thuộc vào khả năng nhận dạng chính xác từng con bò, vì tất cả dữ liệu phải được gắn với từng con vật cụ thể. Một mối lo ngại lớn là việc theo dõi bò khi chúng tụ tập lại thành đàn, điều này gây khó khăn cho việc quan sát từng con vật riêng lẻ.
Nhóm của David đã phát triển một hệ thống thị giác máy tính để đảm bảo mỗi con bò được nhận dạng nhất quán, ngay cả trong những tình huống phức tạp. Họ đã có thể xác nhận rằng cùng một con bò sẽ luôn được gán cùng một ID, ngay cả khi nó biến mất khỏi tầm nhìn, lẫn vào những con khác hoặc xuất hiện trở lại sau đó.
Link to this sectionGiám sát sức khỏe ngựa bằng thị giác máy tính#
Chuyển sang phần tiếp theo, David giới thiệu một dự án hấp dẫn khác, nơi họ áp dụng các kỹ thuật theo dõi hành vi tương tự để giám sát ngựa. Trong dự án này, nhóm của David không cần track ID của từng con ngựa sát sao như với bò. Thay vào đó, họ tập trung vào các hành vi cụ thể và theo dõi các chi tiết như thói quen ăn uống và mức độ hoạt động chung để phát hiện sớm các vấn đề sức khỏe. Việc xác định những thay đổi nhỏ trong hành vi có thể dẫn đến các can thiệp nhanh chóng hơn để chăm sóc tốt hơn và ngăn ngừa các vấn đề trước khi chúng trở nên nghiêm trọng.

Fig 3. Giám sát ngựa với sự trợ giúp của AI hành vi.
Link to this sectionTại sao AI hành vi không đơn giản như vẻ ngoài của nó#
David cũng thảo luận về sự phức tạp của việc theo dõi hành vi thông qua một ví dụ thú vị. Trong khi nghiên cứu các cách cải thiện phân tích hành vi, nhóm của ông đã bắt gặp một công ty tuyên bố có thể detect shoplifting bằng cách phân tích các tư thế cụ thể, chẳng hạn như ai đó bỏ tay vào túi. Lúc đầu, điều này có vẻ là một ý tưởng thông minh - một số chuyển động nhất định có thể gợi ý hành vi đáng ngờ, phải không?

Fig 4. Hiểu về những thách thức của công nghệ theo dõi hành vi.
Tuy nhiên, khi David tìm hiểu sâu hơn, ông nhận ra những hạn chế của phương pháp này. Một tư thế đơn lẻ, chẳng hạn như tay bỏ trong túi, không nhất thiết có nghĩa là ai đó đang ăn cắp. Nó chỉ có thể cho thấy họ đang thư giãn, suy nghĩ hoặc thậm chí là thấy lạnh. Vấn đề của việc tập trung vào các tư thế cô lập là nó bỏ qua ngữ cảnh rộng hơn. Hành vi không chỉ là một hành động đơn lẻ - đó là một mô hình các hành động theo thời gian, được định hình bởi bối cảnh và ý định.
David nhấn mạnh rằng theo dõi hành vi thực sự phức tạp hơn nhiều và đòi hỏi một cách tiếp cận toàn diện. Đó là việc phân tích các chuỗi hành động và hiểu ý nghĩa của chúng trong bức tranh tổng thể. Trong khi ngành công nghiệp AI đang có những bước tiến, ông lưu ý rằng vẫn còn nhiều việc phải làm để thúc đẩy theo dõi hành vi nhằm mang lại những hiểu biết có ý nghĩa và chính xác.
Link to this sectionTạo ra các model AI thị giác thông minh hơn hiểu được các hành động#
Tiếp theo, David đã đưa khán giả đi vào hậu trường để chỉ cho họ cách nhóm của ông đã xây dựng một giải pháp thị giác máy tính để giám sát sức khỏe bò với sự trợ giúp của YOLOv8 và các khả năng pose estimation của nó.
Họ bắt đầu bằng việc tạo một dataset tùy chỉnh để ước tính tư thế của một con bò, tăng số lượng điểm chính tiêu chuẩn từ 17 lên 145 để giúp model phân tích chuyển động tốt hơn. Sau đó, model được huấn luyện trên một dataset khổng lồ với hơn 2 triệu hình ảnh và 110 triệu ví dụ về hành vi.
Sử dụng cơ sở hạ tầng phần cứng tiên tiến, nhóm của David đã có thể huấn luyện model chỉ trong hai ngày thay vì hàng tuần như khi thực hiện trên phần cứng thông thường. Model đã huấn luyện sau đó được tích hợp với một trình theo dõi hành vi tùy chỉnh, phân tích đồng thời nhiều khung hình video để phát hiện các mô hình trong hành động của bò.
Kết quả là một giải pháp dựa trên AI thị giác có thể phát hiện và theo dõi tám hành vi khác nhau của bò như ăn, uống và nằm xuống để phát hiện những thay đổi hành vi nhỏ có thể báo hiệu các vấn đề sức khỏe. Điều này cho phép nông dân hành động nhanh chóng và cải thiện việc quản lý đàn gia súc.
Link to this sectionLộ trình phía trước cho AI hành vi#
David kết thúc bài nói chuyện của mình bằng cách chia sẻ một bài học quan trọng với khán giả: "Nếu bạn không cho phép AI có không gian để thất bại, bạn đang tự đặt mình vào thế thất bại vì suy cho cùng, đó là thống kê." Ông chỉ ra rằng AI, bất chấp những thế mạnh của nó, không phải là hoàn hảo. Đó là một công cụ học hỏi từ các mô hình, và sẽ luôn có những lúc nó không làm đúng mọi thứ. Thay vì sợ hãi những sai lầm đó, chìa khóa là xây dựng các hệ thống có thể xử lý chúng và tiếp tục cải thiện theo thời gian.
Điều này cũng đúng khi nói đến chính các computer vision models. Ví dụ, Ultralytics YOLO11, phiên bản mới nhất của các model Ultralytics YOLO, đã được xây dựng với tâm thế cần phải đưa mọi thứ lên một tầm cao mới so với YOLOv8.

Fig 5. Các tác vụ thị giác máy tính được YOLO11 hỗ trợ.
Đặc biệt, YOLO11 mang lại hiệu suất tốt hơn, đặc biệt là đối với các ứng dụng thời gian thực nơi độ chính xác là yếu tố then chốt, như nông nghiệp và chăm sóc sức khỏe. Với các tính năng tiên tiến, YOLO11 đang định nghĩa lại cách các ngành công nghiệp sử dụng AI bằng cách cung cấp những hiểu biết thời gian thực sáng tạo và giúp họ giải quyết các thách thức hiệu quả hơn.
Link to this sectionCác điểm chính cần lưu ý#
Bài phát biểu của David tại YV24 là lời nhắc nhở rằng AI không chỉ là một sự đổi mới thú vị - nó là một công cụ mạnh mẽ để giải quyết các vấn đề thực tế và cải thiện cách chúng ta sống và làm việc. Bằng cách tập trung vào hành vi, AI đã và đang tạo ra tác động trong các lĩnh vực như theo dõi sức khỏe động vật và nhận diện các mô hình có ý nghĩa trong các hành động hàng ngày.
Tiềm năng cho AI hành vi là rất thú vị, và chúng ta mới chỉ ở giai đoạn bắt đầu. Bằng cách chuyển đổi dữ liệu thô thành những hiểu biết có khả năng thực thi, AI hành vi chuyển từ giám sát thụ động sang giải quyết vấn đề chủ động. Khi phát triển hơn nữa, AI hành vi sẽ thúc đẩy các quyết định thông minh hơn, hợp lý hóa các quy trình và mang lại những cải tiến có ý nghĩa cho cuộc sống của chúng ta.
Hãy kết nối với cộng đồng của chúng tôi để tìm hiểu thêm về AI và các ứng dụng thực tế của nó. Truy cập kho lưu trữ GitHub của chúng tôi để khám phá những đổi mới trong các lĩnh vực như AI trong nông nghiệp và thị giác máy tính trong sản xuất.






