Yolo Vision Thâm Quyến
Thâm Quyến
Tham gia ngay

SharkEye sử dụng Ultralytics YOLOv8 để phát hiện đối tượng

Abirami Vina

5 phút đọc

Ngày 28 tháng 1, 2025

Tìm hiểu cách SharkEye, được giới thiệu tại YOLO Vision 2024, tận dụng Ultralytics YOLOv8 để phát hiện đối tượng theo thời gian thực và đảm bảo an toàn bãi biển.

Việc theo dõi động vật trong môi trường sống tự nhiên của chúng, cho dù đó là gia súc gặm cỏ trên trang trại hay cá mập di chuyển gần bờ biển, luôn rất quan trọng đối với sự an toàn và hạnh phúc của chúng. Tuy nhiên, việc quan sát chúng thủ công không hề dễ dàng. Nó thường đòi hỏi hàng giờ kiên nhẫn và tập trung cẩn thận, vì người quan sát phải theo dõi chặt chẽ mọi thay đổi trong hành vi hoặc chuyển động. Ngay cả khi đó, rất dễ bỏ lỡ những dấu hiệu tinh tế nhưng quan trọng.

Nhờ có sự can thiệp của trí tuệ nhân tạo (AI), quy trình này đang trở nên nhanh hơn, thông minh hơn và hiệu quả hơn nhiều, giảm bớt gánh nặng cho người quan sát đồng thời cải thiện độ chính xác. Đặc biệt, thị giác máy tính có thể được sử dụng để theo dõi động vật, phát hiện nguy hiểm và đưa ra quyết định trong thời gian thực. Các tác vụ từng mất hàng giờ giờ có thể được thực hiện trong vài phút, mở ra những cách thức mới để hiểu hành vi của động vật.

Tại YOLO Vision 2024 (YV24), một sự kiện kết hợp thường niên do Ultralytics tổ chức, các chuyên gia và nhà đổi mới đã tập hợp để khám phá cách AI giải quyết các thách thức hàng ngày. Một số chủ đề được giới thiệu bao gồm những tiến bộ trong lĩnh vực phát hiện đối tượng theo thời gian thực và giám sát động vật, cho thấy cách AI đang nâng cao tính an toàn và hiệu quả trong nhiều lĩnh vực khác nhau.

Một trong những điểm nổi bật của sự kiện là bài nói chuyện của Jim Griffin, Người sáng lập AI Master Group, nơi ông đã chứng minh cách Vision AI đang làm cho các bãi biển an toàn hơn bằng cách phát hiện cá mập trước khi chúng đến quá gần bờ. Ông giải thích cách họ đã sử dụng Ultralytics YOLOv8, một mô hình thị giác máy tính tiên tiến, để xác định chính xác cá mập trong thời gian thực, ngay cả trong các điều kiện khó khăn như sóng lớn, ánh sáng chói và các chướng ngại vật dưới nước.

Trong bài viết này, chúng ta sẽ xem xét kỹ hơn về dự án SharkEye và chia sẻ những thông tin chi tiết thú vị từ buổi nói chuyện của Jim.

Tìm hiểu về SharkEye: Một ứng dụng thị giác máy tính

Jim bắt đầu bài nói của mình bằng cách giới thiệu Bãi biển Padaro, một địa điểm lướt sóng nổi tiếng ở California, nơi những người lướt sóng và cá mập thường chia sẻ cùng một vùng biển. Nhấn mạnh thách thức thực sự của việc phát hiện cá mập, ông chia sẻ: "Tất nhiên, rất dễ phát hiện một con cá mập nếu nó cắn bạn, vì vậy những gì chúng tôi muốn làm là xác định cá mập trước đó."

__wf_reserved_inherit
Hình 1. Jim trên sân khấu tại YOLO Vision 2024.

SharkEye được tạo ra để giải quyết vấn đề này, với sự hỗ trợ từ Đại học California, Santa Barbara. Jim mô tả cách máy bay không người lái với camera AI độ phân giải cao được sử dụng để bay khoảng 200 feet trên mặt nước, quét đại dương trong thời gian thực.

Nếu phát hiện thấy cá mập, tin nhắn SMS sẽ được gửi đến khoảng 80 người, bao gồm nhân viên cứu hộ, chủ cửa hàng lướt sóng và bất kỳ ai đã đăng ký nhận thông tin cập nhật. Jim chỉ ra cách những thông báo tức thời này cho phép phản ứng nhanh chóng, giúp người đi biển an toàn hơn khi có cá mập ở gần bờ.

Jim cũng đề cập rằng SharkEye có một bảng điều khiển trực tiếp, nơi người dùng có thể xem số liệu thống kê phát hiện cá mập. Ví dụ: trong hơn 12 tuần, hệ thống đã xác định được hai con cá mập lớn và 15 con nhỏ hơn, trung bình hơn một con cá mập mỗi tuần.

Sau đó, ông giới thiệu Neil Nathan, nhà khoa học dẫn đầu các nỗ lực đằng sau SharkEye. Mặc dù có nền tảng về nghiên cứu môi trường hơn là khoa học máy tính, Nathan đã dẫn đầu thành công dự án. Jim nhấn mạnh cách các công cụ AI hiện đại, như những công cụ được sử dụng trong SharkEye, được thiết kế để dễ tiếp cận, cho phép các cá nhân từ các nền tảng phi kỹ thuật phát triển các giải pháp có tác động.

Sử dụng Ultralytics YOLOv8 để phát hiện cá mập

Đi sâu hơn vào chi tiết, Jim giải thích chi tiết về những gì bên trong SharkEye và cách giải pháp phát hiện cá mập không chỉ liên quan đến một nhiệm vụ phát hiện đối tượng đơn giản. Nó phải đối phó với các điều kiện động, khó đoán như rong biển trôi nổi có thể dễ dàng bị nhầm lẫn với cá mập. Không giống như việc phát hiện một vật thể đứng yên, việc xác định một con cá mập đòi hỏi sự chính xác và khả năng thích ứng, khiến YOLOv8 trở thành một lựa chọn lý tưởng.

Một ưu điểm khác của YOLOv8 là nó có thể được triển khai trên máy bay không người lái mà không cần dựa vào máy chủ đám mây. Jim giải thích cách tiếp cận này giúp SharkEye có thể gửi cảnh báo ngay lập tức - một phần thiết yếu để đảm bảo phản ứng kịp thời trong các điều kiện đại dương khó lường.

Phát hiện đối tượng chỉ với sáu dòng code

Sau khi nêu bật cách SharkEye hoạt động và nỗ lực hợp tác đằng sau nó, Jim đã trình bày một bản demo trực tiếp.

Jim Griffin bắt đầu bản demo trực tiếp của mình bằng cách hướng dẫn khán giả thông qua một ví dụ quen thuộc - một đoạn mã "hello world" cho các mô hình Ultralytics YOLO. Chỉ với sáu dòng mã Python, ông đã trình bày cách một mô hình Ultralytics YOLOv8 được huấn luyện trước có thể dễ dàng phát hiện một chiếc xe buýt trong một hình ảnh. 

__wf_reserved_inherit
Hình 2. Một bản demo của Jim tại YOLO Vision 2024.

Bản demo của anh ấy đã sử dụng mô hình YOLOv8 Nano, một phiên bản gọn nhẹ cho các thiết bị tiêu thụ điện năng thấp như máy bay không người lái. Mô hình tương tự đã được sử dụng trong SharkEye để phát hiện cá mập theo thời gian thực. 

Để cung cấp thêm ngữ cảnh, Jim đã đề cập rằng mô hình trong bản demo đang được huấn luyện trên COCO128, một tập hợp con nhỏ hơn của bộ dữ liệu COCO được sử dụng rộng rãi. Bộ dữ liệu COCO chứa hơn 20.000 hình ảnh trên 80 danh mục đối tượng khác nhau. Mặc dù COCO128 hoạt động tốt cho các bản trình diễn nhanh, nhưng ông chỉ ra rằng SharkEye cần một thứ gì đó mạnh mẽ hơn - một bộ dữ liệu phát hiện cá mập dành riêng cho ứng dụng có thể xử lý sự phức tạp của các tình huống thực tế.

Huấn luyện tùy chỉnh YOLOv8 cho SharkEye 

Theo Jim, phần khó nhất của dự án SharkEye không phải là huấn luyện mô hình AI mà là thu thập đúng dữ liệu. Ông nhận xét: “Công việc chính của dự án này không phải là AI. Công việc chính của dự án này là bay những chiếc máy bay không người lái đó trong năm năm, loại bỏ hình ảnh khỏi những video đó và gắn thẻ chúng một cách thích hợp.”

Ông mô tả cách nhóm đã thu thập 15.000 hình ảnh tại Bãi biển Padaro. Mỗi hình ảnh phải được gắn nhãn thủ công để phân biệt giữa cá mập, rong biển và các vật thể khác trong nước. Mặc dù quá trình này diễn ra chậm và đòi hỏi khắt khe, nhưng nó đã đặt nền móng cho mọi thứ sau đó.

__wf_reserved_inherit
Hình 3. Sử dụng máy bay không người lái để chụp ảnh cá mập để phát hiện đối tượng theo thời gian thực.

Sau khi tập dữ liệu đã sẵn sàng, Ultralytics YOLOV8 đã được huấn luyện tùy chỉnh trên đó. Jim nói, "Công đoạn huấn luyện thực tế không phải là phần khó - nó chỉ mất 20 giờ trên GPU T4 [Bộ xử lý đồ họa]." Ông cũng nói thêm rằng thời gian có thể giảm xuống chỉ còn năm giờ với phần cứng mạnh hơn, chẳng hạn như GPU A100.

Đánh giá SharkEye: Độ chính xác hơn độ phủ

Sau đó, Jim đã thảo luận về cách đánh giá hiệu suất của SharkEye. Ông minh họa rằng thước đo chính là độ chính xác - hệ thống xác định cá mập thực tế chính xác như thế nào. Với việc SharkEye đạt được độ chính xác ấn tượng 92%, mô hình này đã chứng tỏ hiệu quả cao trong việc xác định chính xác cá mập giữa môi trường đại dương phức tạp.

Đi sâu hơn vào tầm quan trọng của độ chính xác, Jim đã làm rõ lý do tại sao độ chính xác lại quan trọng hơn độ thu hồi trong trường hợp này. Ông giải thích: “Thông thường, mọi người quan tâm đến độ thu hồi, đặc biệt là trong các lĩnh vực như chăm sóc sức khỏe, nơi việc bỏ sót một ca dương tính có thể gây hậu quả nghiêm trọng. Nhưng trong trường hợp này, chúng tôi không biết có bao nhiêu con cá mập ở ngoài đó, vì vậy điều chúng tôi quan tâm là độ chính xác”. SharkEye đảm bảo rằng các báo động sai được giảm thiểu bằng cách tập trung vào độ chính xác, giúp nhân viên cứu hộ và những người ứng cứu khác hành động nhanh chóng hơn.

__wf_reserved_inherit
Hình 4. Jim giới thiệu SharkEye tại YOLO Vision 2024.

Ông kết thúc bài nói chuyện của mình bằng cách so sánh AI với hiệu suất của con người, lưu ý rằng độ chính xác 92% của SharkEye vượt xa độ chính xác 60% của các chuyên gia là con người. Ông nhấn mạnh sự khác biệt này, nói rằng, “Đó là vì chúng ta là con người. Cho dù bạn hay tôi có là chuyên gia đến đâu, nếu chúng ta phải ngồi trước màn hình cả ngày để tìm kiếm cá mập, cuối cùng, tâm trí của chúng ta cũng sẽ xao nhãng.” Không giống như con người, các mô hình AI không mệt mỏi hoặc mất tập trung, khiến nó trở thành một giải pháp đáng tin cậy cho các tác vụ đòi hỏi giám sát liên tục.

Ultralytics YOLO11: YOLO mới nhất

Một câu nói hấp dẫn từ bài nói chuyện của Jim Griffin, “Sáu dòng mã có thể cứu mạng bạn một ngày nào đó,” thể hiện một cách hoàn hảo mức độ tiên tiến nhưng dễ tiếp cận của AI hiện nay. Các mô hình Ultralytics YOLO đã được tạo ra với mục đích này, giúp các nhà phát triển và doanh nghiệp thuộc mọi quy mô có thể tiếp cận công nghệ thị giác máy tính tiên tiến. Ultralytics YOLO11 xây dựng trên điều này với suy luận nhanh hơn và độ chính xác cao hơn. 

Sau đây là cái nhìn tổng quan về những điểm khác biệt của YOLO11:

  • Kiến trúc được thiết kế lại: Kiến trúc backbone và neck được tăng cường của nó cho phép trích xuất đặc trưng tốt hơn và cải thiện độ chính xác.
  • Dễ sử dụng: Có thể truy cập thông qua mã hóa Python hoặc các công cụ no-code như Ultralytics HUB.
  • Tính linh hoạt trên các tác vụ: YOLO11 hỗ trợ các tác vụ thị giác máy tính như phát hiện đối tượng, phân đoạn thể hiện, phân loại hình ảnh, theo dõi, ước tính tư thế và hộp giới hạn định hướng (OBB).
  • Cải thiện độ chính xác: YOLO11 đạt được độ chính xác trung bình (mAP) cao hơn 22% so với YOLOv8m trên tập dữ liệu COCO, mang lại khả năng phát hiện chính xác hơn.

Những tính năng này làm cho YOLO11 trở nên phù hợp tuyệt vời để theo dõi hành vi của động vật trong môi trường động, cho dù là trong trang trại hay trong tự nhiên.

Những điều cần nhớ

Những tiến bộ trong Vision AI đang giúp giải quyết các thách thức thực tế dễ dàng hơn bằng cách cung cấp các công cụ thiết thực cho nhiều lĩnh vực khác nhau. Ví dụ: các mô hình computer vision như YOLO11 có thể được sử dụng để giám sát và theo dõi động vật theo thời gian thực, ngay cả trong điều kiện khó khăn. 

Bài phát biểu quan trọng của Jim Griffin tại YV24 đã minh họa cách YOLOv8 có thể được sử dụng để giải quyết các vấn đề phức tạp với mã hóa tối thiểu. Dự án SharkEye, kết hợp máy bay không người lái với AI để phát hiện cá mập theo thời gian thực, đã thể hiện cách công nghệ có thể cải thiện sự an toàn cho bãi biển. 

Đó là một nghiên cứu điển hình hấp dẫn về cách AI dễ tiếp cận trao quyền cho mọi người từ các nền tảng khác nhau để tạo ra các giải pháp hiệu quả. Khi AI tiếp tục phát triển, nó đang chuyển đổi các ngành công nghiệp và giúp các cá nhân có thể khai thác tiềm năng của nó để làm cho thế giới trở nên an toàn hơn, thông minh hơn và hiệu quả hơn.

Hãy trở thành một phần của cộng đồng của chúng tôi và khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu sâu hơn về AI. Từ thị giác máy tính trong nông nghiệp đến AI trong xe tự lái, hãy xem những công nghệ này đang thúc đẩy sự đổi mới như thế nào. Kiểm tra các tùy chọn cấp phép của chúng tôi để bắt đầu các dự án AI của bạn ngay hôm nay!

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard