SharkEye sử dụng Ultralytics YOLOv8 để phát hiện đối tượng
Tìm hiểu cách SharkEye, được trình bày tại YOLO Vision 2024, tận dụng Ultralytics YOLOv8 để phát hiện đối tượng theo thời gian thực và đảm bảo an toàn bãi biển.

Việc theo dõi động vật trong môi trường sống tự nhiên của chúng, cho dù là gia súc đang gặm cỏ trên trang trại hay cá mập di chuyển gần bờ biển, luôn đóng vai trò quan trọng đối với sự an toàn và phúc lợi của chúng. Tuy nhiên, quan sát thủ công không phải là việc dễ dàng. Công việc này thường đòi hỏi nhiều giờ kiên nhẫn và sự tập trung cao độ, vì người quan sát phải theo dõi sát sao bất kỳ thay đổi nào về hành vi hoặc chuyển động. Ngay cả khi đó, người ta vẫn rất dễ bỏ lỡ những dấu hiệu tinh vi nhưng quan trọng.
Nhờ sự can thiệp của trí tuệ nhân tạo (AI), quy trình này đang trở nên nhanh hơn, thông minh hơn và hiệu quả hơn nhiều, giảm bớt áp lực cho con người trong khi cải thiện độ chính xác. Cụ thể, computer vision có thể được sử dụng để theo dõi động vật, phát hiện nguy hiểm và đưa ra quyết định trong thời gian thực. Những tác vụ từng mất hàng giờ giờ đây có thể thực hiện trong vài phút, mở ra những cách thức mới để hiểu về hành vi động vật.
Tại sự kiện YOLO Vision 2024 (YV24), một sự kiện kết hợp thường niên do Ultralytics tổ chức, các chuyên gia và nhà đổi mới đã cùng tụ họp để khám phá cách AI giải quyết các thách thức hàng ngày. Một số chủ đề được trình bày bao gồm các tiến bộ trong phát hiện đối tượng thời gian thực và animal monitoring, cho thấy cách AI đang tăng cường sự an toàn và hiệu quả trong nhiều lĩnh vực khác nhau.
Một trong những điểm nhấn của sự kiện là bài phát biểu của Jim Griffin, nhà sáng lập AI Master Group, nơi ông minh họa cách vision AI đang làm cho các bãi biển trở nên an toàn hơn bằng việc phát hiện cá mập trước khi chúng tiến quá gần bờ. Ông giải thích cách họ sử dụng Ultralytics YOLOv8, một model computer vision tiên tiến, để nhận diện chính xác cá mập trong thời gian thực, ngay cả trong những điều kiện khó khăn như sóng vỗ, ánh sáng chói và các vật cản dưới nước.
Trong bài viết này, chúng ta sẽ tìm hiểu kỹ hơn về dự án SharkEye và chia sẻ những thông tin thú vị từ bài thuyết trình của Jim.
Link to this sectionTìm hiểu về SharkEye: Một ứng dụng computer vision#
Jim bắt đầu bài phát biểu của mình bằng cách giới thiệu Padaro Beach, một điểm đến nổi tiếng dành cho môn lướt sóng ở California, nơi người lướt sóng và cá mập thường chia sẻ cùng một vùng nước. Nhấn mạnh vào thách thức thực tế của việc phát hiện cá mập, ông chia sẻ: “Tất nhiên, rất dễ để phát hiện cá mập nếu nó cắn bạn, vì vậy điều chúng tôi muốn làm là nhận diện cá mập từ trước.”

Hình 1. Jim trên sân khấu tại YOLO Vision 2024.
SharkEye được tạo ra để giải quyết vấn đề này với sự hỗ trợ từ Đại học California, Santa Barbara. Jim mô tả cách các drone trang bị AI cameras độ phân giải cao được sử dụng để bay ở độ cao khoảng 200 feet phía trên mặt nước, quét đại dương trong thời gian thực.
Nếu phát hiện cá mập, tin nhắn SMS cảnh báo sẽ được gửi tới khoảng 80 người, bao gồm nhân viên cứu hộ, chủ cửa hàng lướt sóng và bất kỳ ai đã đăng ký nhận thông báo. Jim chỉ ra rằng những thông báo tức thì này cho phép phản ứng nhanh chóng, giữ an toàn hơn cho người đi biển khi có cá mập gần bờ.
Jim cũng đề cập rằng SharkEye có bảng điều khiển trực tiếp (dashboard) nơi người dùng có thể xem số liệu thống kê về việc phát hiện cá mập. Ví dụ, trong hơn 12 tuần, hệ thống đã xác định được hai con cá mập lớn và 15 con nhỏ hơn, trung bình hơn một con cá mập mỗi tuần.
Sau đó, ông giới thiệu Neil Nathan, nhà khoa học dẫn đầu các nỗ lực phía sau SharkEye. Mặc dù có nền tảng về nghiên cứu môi trường thay vì khoa học máy tính, Nathan đã dẫn dắt dự án thành công. Jim nhấn mạnh cách các công cụ AI hiện đại, giống như những công cụ được sử dụng trong SharkEye, được thiết kế để dễ tiếp cận, cho phép các cá nhân từ nền tảng phi kỹ thuật phát triển các giải pháp có tác động mạnh mẽ.
Link to this sectionSử dụng Ultralytics YOLOv8 để phát hiện cá mập#
Đi sâu vào chi tiết, Jim giải thích những gì diễn ra bên trong SharkEye và cách giải pháp phát hiện cá mập không chỉ bao gồm một tác vụ object detection đơn giản. Nó phải đối phó với các điều kiện năng động, khó dự đoán như rong biển trôi nổi, thứ có thể dễ dàng bị nhầm là cá mập. Không giống như việc phát hiện một vật thể đứng yên, việc nhận diện cá mập đòi hỏi sự chính xác và khả năng thích ứng, khiến YOLOv8 trở thành lựa chọn lý tưởng.
Một ưu điểm khác của YOLOv8 là nó có thể được triển khai trên drone mà không cần phụ thuộc vào máy chủ đám mây. Jim giải thích cách tiếp cận này giúp SharkEye có thể gửi cảnh báo ngay lập tức - một phần thiết yếu để đảm bảo phản hồi kịp thời trong các điều kiện đại dương khó dự đoán.
Link to this sectionPhát hiện đối tượng chỉ với sáu dòng code#
Sau khi nêu bật cách SharkEye hoạt động và nỗ lực hợp tác đằng sau nó, Jim đã thực hiện một buổi trình diễn trực tiếp.
Jim Griffin bắt đầu buổi trình diễn trực tiếp bằng cách hướng dẫn khán giả qua một ví dụ quen thuộc - đoạn code "hello world" cho Ultralytics YOLO models. Chỉ với sáu dòng code Python, ông đã trình diễn cách một model Ultralytics YOLOv8 được đào tạo trước có thể dễ dàng phát hiện một chiếc xe buýt trong ảnh.

Hình 2. Một buổi trình diễn của Jim tại YOLO Vision 2024.
Buổi trình diễn của ông sử dụng model YOLOv8 Nano, một phiên bản nhẹ dành cho các thiết bị công suất thấp như drone. Cùng model đó đã được sử dụng trong SharkEye để phát hiện cá mập trong thời gian thực.
Để cung cấp thêm ngữ cảnh, Jim đề cập rằng model trong buổi trình diễn được huấn luyện trên COCO128, một tập hợp con nhỏ hơn của tập dữ liệu COCO phổ biến. Tập dữ liệu COCO chứa hơn 20.000 hình ảnh trên 80 danh mục đối tượng khác nhau. Mặc dù COCO128 hoạt động tốt cho các minh họa nhanh, ông chỉ ra rằng SharkEye cần thứ gì đó mạnh mẽ hơn - một tập dữ liệu phát hiện cá mập dành riêng cho ứng dụng có thể xử lý sự phức tạp của các kịch bản thực tế.
Link to this sectionHuấn luyện tùy chỉnh YOLOv8 cho SharkEye#
Theo Jim, phần khó nhất của dự án SharkEye không phải là huấn luyện model AI mà là thu thập dữ liệu phù hợp. Ông nhận xét: “Công việc chính của dự án này không phải là AI. Công việc chính là bay những chiếc drone đó trong suốt năm năm, lọc hình ảnh từ những video đó và gắn nhãn chúng một cách phù hợp.”
Ông mô tả cách nhóm thu thập 15.000 hình ảnh tại Padaro Beach. Mỗi hình ảnh phải được gắn nhãn thủ công để phân biệt giữa cá mập, rong biển và các đối tượng khác trong nước. Mặc dù quy trình diễn ra chậm chạp và đòi hỏi cao, nó đã đặt nền móng cho mọi thứ theo sau.

Hình 3. Sử dụng drone để chụp ảnh cá mập cho việc phát hiện đối tượng thời gian thực.
Khi tập dữ liệu đã sẵn sàng, Ultralytics YOLOv8 được custom-trained trên đó. Jim cho biết: "Việc huấn luyện thực tế không phải là phần khó - nó chỉ mất 20 giờ trên GPU T4 [Đơn vị xử lý đồ họa]." Ông cũng nói thêm rằng thời gian này có thể giảm xuống chỉ còn năm giờ với phần cứng mạnh mẽ hơn, chẳng hạn như GPU A100.
Link to this sectionĐánh giá SharkEye: Độ chính xác (precision) quan trọng hơn độ bao phủ (recall)#
Sau đó, Jim thảo luận về cách hiệu suất của SharkEye được đánh giá. Ông minh họa rằng thước đo chính là độ chính xác - khả năng hệ thống nhận diện chính xác cá mập thực tế. Với việc SharkEye đạt được độ chính xác ấn tượng 92%, model đã chứng minh hiệu quả cao trong việc xác định chính xác cá mập giữa môi trường đại dương phức tạp.
Đi sâu hơn vào tầm quan trọng của độ chính xác, Jim làm rõ tại sao độ chính xác lại quan trọng hơn recall trong trường hợp này. “Hầu hết thời gian, mọi người quan tâm đến recall, đặc biệt là trong các lĩnh vực như chăm sóc sức khỏe, nơi việc bỏ sót một trường hợp dương tính có thể rất nghiêm trọng. Nhưng trong trường hợp này, chúng tôi không biết có bao nhiêu cá mập ngoài đó, vì vậy điều chúng tôi quan tâm là độ chính xác,” ông giải thích. SharkEye đảm bảo giảm thiểu các báo động giả bằng cách tập trung vào độ chính xác, giúp nhân viên cứu hộ và những người ứng phó khác hành động nhanh hơn.

Hình 4. Jim giới thiệu SharkEye tại YOLO Vision 2024.
Ông kết thúc bài phát biểu bằng cách so sánh AI với hiệu suất của con người, lưu ý rằng độ chính xác 92% của SharkEye vượt xa độ chính xác 60% của các chuyên gia là con người. Ông nhấn mạnh khoảng cách này, nói rằng: “Đó là vì chúng ta là con người. Dù bạn hay tôi có là chuyên gia đến đâu, nếu phải ngồi trước màn hình cả ngày để tìm cá mập, cuối cùng chúng ta cũng sẽ mất tập trung.” Không giống như con người, các model AI không bị mệt mỏi hay mất tập trung, biến nó thành một giải pháp đáng tin cậy cho các tác vụ đòi hỏi sự giám sát liên tục.
Link to this sectionUltralytics YOLO11: YOLO mới nhất#
Một trích dẫn thú vị từ bài phát biểu của Jim Griffin, “Sáu dòng code có thể cứu mạng bạn một ngày nào đó,” nắm bắt hoàn hảo sự tiên tiến nhưng dễ tiếp cận của AI ngày nay. Các model Ultralytics YOLO đã được tạo ra với tư duy đó, giúp công nghệ computer vision tiên tiến có thể tiếp cận được với các nhà phát triển và doanh nghiệp ở mọi quy mô. Ultralytics YOLO11 xây dựng dựa trên nền tảng này với suy luận (inference) nhanh hơn và độ chính xác cao hơn.
Dưới đây là cái nhìn nhanh về những điểm khác biệt của YOLO11:
- Kiến trúc được thiết kế lại: Kiến trúc backbone và neck nâng cao của nó cho phép trích xuất đặc trưng tốt hơn và cải thiện độ chính xác.
- Dễ sử dụng: Có thể truy cập thông qua lập trình Python hoặc các công cụ không cần code như Ultralytics HUB.
- Tính linh hoạt giữa các tác vụ: YOLO11 hỗ trợ các computer vision tasks như phát hiện đối tượng, phân đoạn thực thể (instance segmentation), phân loại hình ảnh, theo dõi, ước tính tư thế (pose estimation) và hộp bao định hướng (OBB).
- Độ chính xác được cải thiện: YOLO11 đạt được độ chính xác trung bình trung bình (mAP) cao hơn 22% so với YOLOv8m trên tập dữ liệu COCO, mang lại các kết quả phát hiện chính xác hơn.
Những tính năng này khiến YOLO11 trở nên phù hợp tuyệt vời cho việc theo dõi hành vi động vật trong các môi trường năng động, dù là ở trang trại hay trong tự nhiên.
Link to this sectionCác điểm chính cần lưu ý#
Các tiến bộ trong vision AI đang giúp việc giải quyết các thách thức thực tế trở nên dễ dàng hơn bằng cách cung cấp các công cụ thiết thực cho nhiều lĩnh vực. Ví dụ, các model computer vision như YOLO11 có thể được sử dụng để theo dõi và giám sát động vật theo thời gian thực, ngay cả trong những điều kiện khắc nghiệt.
Bài phát biểu chính của Jim Griffin tại YV24 đã minh họa cách YOLOv8 có thể được sử dụng để giải quyết các vấn đề phức tạp với tối thiểu mã hóa. Dự án SharkEye, kết hợp drone với AI để phát hiện cá mập thời gian thực, đã cho thấy công nghệ có thể cải thiện sự an toàn trên bãi biển như thế nào.
Đây là một nghiên cứu tình huống hấp dẫn về cách AI dễ tiếp cận trao quyền cho mọi người từ các nền tảng khác nhau tạo ra các giải pháp hiệu quả. Khi AI tiếp tục phát triển, nó đang thay đổi các ngành công nghiệp và giúp các cá nhân khai thác tiềm năng của nó để biến thế giới thành một nơi an toàn hơn, thông minh hơn và hiệu quả hơn.
Hãy trở thành một phần của cộng đồng của chúng tôi và khám phá GitHub repository để tìm hiểu sâu hơn về AI. Từ computer vision trong nông nghiệp đến AI trong xe tự lái, hãy xem cách các công nghệ này thúc đẩy đổi mới. Kiểm tra các tùy chọn cấp phép của chúng tôi để bắt đầu các dự án AI của bạn ngay hôm nay!






