Yolo Vision Shenzhen
Shenzhen
Únete ahora

SharkEye utiliza Ultralytics YOLOv8 para la detección de objetos

Abirami Vina

5 minutos de lectura

28 de enero de 2025

Comprenda cómo SharkEye, presentado en YOLO Vision 2024, aprovecha Ultralytics YOLOv8 para la detección de objetos en tiempo real y la seguridad en las playas.

La supervisión de los animales en sus hábitats naturales, ya se trate de ganado pastando en una granja o de tiburones moviéndose cerca de la costa, siempre ha sido importante para su seguridad y bienestar. Sin embargo, observarlos manualmente no es fácil. A menudo requiere horas de paciencia y atención, ya que los observadores tienen que vigilar de cerca cualquier cambio en el comportamiento o el movimiento. Incluso entonces, es fácil pasar por alto signos sutiles pero importantes.

Gracias a la intervención de la inteligencia artificial (IA), este proceso se está volviendo más rápido, inteligente y mucho más eficiente, lo que reduce la presión sobre los observadores humanos al tiempo que mejora la precisión. En particular, la visión artificial se puede utilizar para rastrear animales, detectar peligros y tomar decisiones en tiempo real. Las tareas que antes tardaban horas ahora se pueden realizar en minutos, lo que abre nuevas formas de comprender el comportamiento animal.

En YOLO Vision 2024 (YV24), un evento híbrido anual organizado por Ultralytics, expertos e innovadores se reunieron para explorar cómo la IA está abordando los desafíos cotidianos. Algunos de los temas presentados incluyeron avances en la detección de objetos en tiempo real y el monitoreo de animales, lo que demuestra cómo la IA está mejorando la seguridad y la eficiencia en varios campos.

Uno de los aspectos más destacados del evento fue una charla de Jim Griffin, fundador de AI Master Group, donde demostró cómo la IA de visión está haciendo que las playas sean más seguras al detectar tiburones antes de que se acerquen demasiado a la costa. Explicó cómo utilizaron Ultralytics YOLOv8, un modelo de visión artificial de vanguardia, para identificar con precisión a los tiburones en tiempo real, incluso en condiciones difíciles como olas agitadas, reflejos y obstáculos submarinos.

En este artículo, analizaremos más de cerca el proyecto SharkEye y compartiremos información interesante de la charla de Jim.

Conociendo SharkEye: Una aplicación de visión artificial

Jim comenzó su charla presentando Padaro Beach, un destino de surf muy conocido en California, donde surfistas y tiburones a menudo comparten las mismas aguas. Destacando el verdadero desafío de la detección de tiburones, compartió: "Por supuesto, es fácil detectar un tiburón si te muerde, así que lo que queríamos hacer es identificar a los tiburones de antemano".

__wf_reserved_inherit
Fig. 1. Jim en el escenario en YOLO Vision 2024.

SharkEye se creó para abordar este problema, con el apoyo de la Universidad de California, Santa Bárbara. Jim describió cómo se utilizaron drones con cámaras de IA de alta resolución para volar a unos 60 metros sobre el agua, escaneando el océano en tiempo real.

Si se detecta un tiburón, las alertas SMS llegan a unas 80 personas, incluidos socorristas, propietarios de tiendas de surf y cualquier persona que se haya suscrito a las actualizaciones. Jim señaló cómo estas notificaciones instantáneas permiten respuestas rápidas, manteniendo a los bañistas más seguros cuando hay un tiburón cerca de la costa.

Jim también mencionó que SharkEye cuenta con un panel de control en vivo donde los usuarios pueden ver las estadísticas de detección de tiburones. Por ejemplo, durante 12 semanas, el sistema identificó dos tiburones grandes y 15 más pequeños, con un promedio de poco más de un tiburón por semana.

A continuación, presentó a Neil Nathan, el científico que dirigió los esfuerzos detrás de SharkEye. A pesar de tener una formación en estudios medioambientales en lugar de en informática, Nathan dirigió con éxito el proyecto. Jim destacó cómo las herramientas modernas de IA, como las utilizadas en SharkEye, están diseñadas para ser accesibles, permitiendo a personas sin conocimientos técnicos desarrollar soluciones impactantes.

Usando Ultralytics YOLOv8 para detectar tiburones

Profundizando en los detalles, Jim explicó lo que hay bajo el capó de SharkEye y cómo la solución de detección de tiburones no implicaba simplemente una simple tarea de detección de objetos. Tenía que lidiar con condiciones dinámicas e impredecibles como algas flotantes que podían confundirse fácilmente con tiburones. A diferencia de la detección de un objeto estacionario, la identificación de un tiburón requiere precisión y adaptabilidad, lo que convierte a YOLOv8 en una opción ideal.

Otra ventaja de YOLOv8 es que podía implementarse en un dron sin depender de servidores en la nube. Jim explicó cómo este enfoque permitía a SharkEye enviar alertas inmediatas, una parte esencial para garantizar respuestas oportunas en condiciones oceánicas impredecibles.

Detección de objetos con solo seis líneas de código

Después de destacar cómo funciona SharkEye y el esfuerzo de colaboración que hay detrás, Jim mostró una demostración en vivo.

Jim Griffin comenzó su demostración en vivo guiando a la audiencia a través de un ejemplo familiar: un fragmento de código "hola mundo" para modelos YOLO de Ultralytics. Con solo seis líneas de código Python, mostró cómo un modelo YOLOv8 de Ultralytics pre-entrenado podía detectar sin esfuerzo un autobús en una imagen. 

__wf_reserved_inherit
Fig. 2. Una demostración de Jim en YOLO Vision 2024.

Su demostración utilizó el modelo YOLOv8 Nano, una versión ligera para dispositivos de baja potencia como drones. El mismo modelo se utilizó en SharkEye para la detección de tiburones en tiempo real. 

Para proporcionar más contexto, Jim mencionó que el modelo en la demostración estaba siendo entrenado en COCO128, un subconjunto más pequeño del conjunto de datos COCO, ampliamente utilizado. El conjunto de datos COCO contiene más de 20.000 imágenes en 80 categorías de objetos diferentes. Si bien COCO128 funciona bien para demostraciones rápidas, señaló que SharkEye necesitaba algo más robusto: un conjunto de datos de detección de tiburones específico para la aplicación que pudiera manejar las complejidades de los escenarios del mundo real.

Entrenamiento personalizado de YOLOv8 para SharkEye 

Según Jim, la parte más difícil del proyecto SharkEye no fue entrenar el modelo de IA, sino recopilar los datos correctos. Comentó: "El trabajo principal de este proyecto no fue la IA. El trabajo principal de este proyecto fue volar esos drones durante cinco años, seleccionar las imágenes de esos videos y etiquetarlas adecuadamente".

Describió cómo el equipo recogió 15.000 imágenes en Padaro Beach. Cada imagen tuvo que ser etiquetada manualmente para diferenciar entre tiburones, algas y otros objetos en el agua. Aunque el proceso fue lento y exigente, sentó las bases de todo lo que siguió.

__wf_reserved_inherit
Fig 3. Uso de drones para capturar imágenes de tiburones para la detección de objetos en tiempo real.

Una vez que el conjunto de datos estuvo listo, Ultralytics YOLOV8 fue entrenado a medida en él. Jim dijo: "El entrenamiento real no fue la parte difícil, solo tomó 20 horas en GPUs T4 [Unidades de procesamiento gráfico]". También añadió que el tiempo podría haberse reducido a tan solo cinco horas con un hardware más potente, como las GPUs A100.

Evaluación de SharkEye: Precisión sobre exhaustividad

Luego, Jim discutió cómo se evaluó el rendimiento de SharkEye. Ilustró que la métrica clave era la precisión: con qué exactitud el sistema identificaba a los tiburones reales. Con SharkEye logrando una impresionante precisión del 92%, el modelo demostró ser altamente efectivo para identificar con precisión a los tiburones en medio del complejo entorno oceánico.

Profundizando en la importancia de la precisión, Jim aclaró por qué la precisión importaba más que la exhaustividad en este caso. “La mayoría de las veces, la gente está interesada en la exhaustividad, especialmente en áreas como la atención médica, donde pasar por alto un caso positivo puede ser crítico. Pero en este caso, no sabíamos cuántos tiburones había por ahí, así que lo que nos importaba era la precisión”, explicó. SharkEye garantizaba que las falsas alarmas se minimizaban centrándose en la precisión, lo que facilitaba que los socorristas y otros equipos de respuesta actuaran con rapidez.

__wf_reserved_inherit
Fig. 4. Jim mostrando SharkEye en YOLO Vision 2024.

Concluyó su charla comparando el rendimiento de la IA con el rendimiento humano, señalando que la precisión del 92% de SharkEye superaba con creces la exactitud del 60% de los expertos humanos. Destacó esta diferencia, diciendo: "Es porque somos humanos. No importa lo experto que seas tú o yo, si tenemos que sentarnos frente a una pantalla todo el día buscando tiburones, al final, dejaremos que nuestra mente divague". A diferencia de las personas, los modelos de IA no se cansan ni se distraen, lo que los convierte en una solución fiable para tareas que requieren una supervisión continua.

Ultralytics YOLO11: El último YOLO

Una cita intrigante de la charla de Jim Griffin, “Seis líneas de código podrían salvarte la vida algún día”, captura perfectamente lo avanzada pero accesible que se ha vuelto la IA. Los modelos YOLO de Ultralytics se han creado teniendo esto en cuenta, haciendo que la tecnología de visión artificial de vanguardia sea accesible a desarrolladores y empresas de todos los tamaños. Ultralytics YOLO11 se basa en esto con inferencias más rápidas y mayor precisión. 

Aquí hay un vistazo rápido a lo que distingue a YOLO11:

  • Arquitectura rediseñada: Su arquitectura mejorada de backbone y cuello permite una mejor extracción de características y una mayor precisión.
  • Facilidad de uso: Se puede acceder a través de la codificación de Python o de herramientas sin código como Ultralytics HUB.
  • Flexibilidad entre tareas: YOLO11 admite tareas de visión artificial como la detección de objetos, la segmentación de instancias, la clasificación de imágenes, el seguimiento, la estimación de la pose y los cuadros delimitadores orientados (OBB).
  • Precisión mejorada: YOLO11 alcanza un 22% más de precisión media promedio (mAP) en comparación con YOLOv8m en el conjunto de datos COCO, ofreciendo detecciones más precisas.

Estas características hacen que YOLO11 sea una excelente opción para el seguimiento del comportamiento animal en entornos dinámicos, ya sea en una granja o en la naturaleza.

Conclusiones clave

Los avances en la IA de visión están facilitando la superación de los retos del mundo real al proporcionar herramientas prácticas para diversos campos. Por ejemplo, los modelos de visión artificial como YOLO11 pueden utilizarse para la supervisión y el seguimiento en tiempo real de animales, incluso en condiciones difíciles. 

La presentación de Jim Griffin en YV24 ilustró cómo YOLOv8 puede utilizarse para resolver problemas complejos con una mínima codificación. El proyecto SharkEye, que combina drones con IA para la detección de tiburones en tiempo real, demostró cómo la tecnología puede mejorar la seguridad en las playas. 

Fue un caso de estudio fascinante de cómo la IA accesible empodera a personas de diferentes orígenes para crear soluciones eficaces. A medida que la IA continúa evolucionando, está transformando industrias y permitiendo a las personas aprovechar su potencial para hacer del mundo un lugar más seguro, inteligente y eficiente.

Forme parte de nuestra comunidad y explore nuestro repositorio de GitHub para profundizar en la IA. Desde la visión artificial en la agricultura hasta la IA en los coches autónomos, vea cómo estas tecnologías están impulsando la innovación. Consulte nuestras opciones de licencia para comenzar hoy mismo sus proyectos de IA.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Comienza gratis
Enlace copiado al portapapeles