Yolo Vision Shenzhen
Shenzhen
Únete ahora

Todo lo que necesita saber sobre la visión artificial en 2025

Abirami Vina

5 minutos de lectura

15 de enero de 2025

Descubra cómo la visión artificial está transformando industrias con tareas impulsadas por la IA, como la detección de objetos, la clasificación de imágenes y la estimación de poses.

Hace veinte años, la idea de que las máquinas y los ordenadores pudieran ver y comprender el mundo era pura ciencia ficción. Hoy, gracias a los avances en inteligencia artificial (IA), ese concepto se ha hecho realidad. En particular, la visión artificial (VA), una rama de la IA, permite a las máquinas comprender y analizar imágenes y vídeos. Ya sea identificando objetos en tiempo real, mejorando los sistemas de seguridad o automatizando tareas complejas, su potencial está superando los límites de lo posible. 

La visión artificial está configurando rápidamente el futuro de la tecnología a medida que varias industrias exploran diferentes formas de adoptar sus capacidades únicas. El tamaño del mercado global de la tecnología de visión artificial alcanzó los 19.830 millones de dólares en 2024 y se prevé que crezca un 19,8% anual en los próximos años.

__wf_reserved_inherit
Fig. 1. Tamaño del mercado global de la visión artificial.

En este artículo, analizaremos más de cerca la visión artificial, cubriendo qué es, cómo ha evolucionado y cómo funciona hoy en día. También exploraremos algunas de sus aplicaciones más interesantes. ¡Empecemos!

¿Qué es la visión artificial?

La visión artificial es un subcampo de la IA que aprovecha el aprendizaje automático y las redes neuronales para enseñar a los ordenadores a comprender el contenido de los datos visuales, como imágenes o archivos de vídeo. Los conocimientos obtenidos de las imágenes procesadas pueden utilizarse para tomar mejores decisiones. Por ejemplo, la visión artificial puede utilizarse en el comercio minorista para realizar un seguimiento de los niveles de inventario mediante el análisis de imágenes de estanterías o para mejorar la experiencia de compra con sistemas de pago automatizados. Muchas empresas ya están utilizando la tecnología de visión artificial para diferentes aplicaciones que van desde tareas como añadir filtros a las fotos de los teléfonos inteligentes hasta el control de calidad en la fabricación. 

Puede que se pregunte: ¿por qué existe tal necesidad de soluciones de visión artificial? Las tareas que requieren atención constante, como la detección de defectos o el reconocimiento de patrones, pueden ser difíciles para los humanos. Los ojos pueden cansarse y pueden pasarse por alto detalles, especialmente en entornos complejos o de ritmo rápido. 

Si bien las personas son buenas reconociendo objetos en diferentes tamaños, colores, iluminación o ángulos, a menudo tienen dificultades para mantener la coherencia bajo presión. Las soluciones de visión artificial, por otro lado, funcionan sin parar, procesando de forma rápida y precisa grandes cantidades de datos visuales. Por ejemplo, puede analizar el tráfico en tiempo real para detectar la congestión, optimizar la sincronización de las señales o incluso identificar accidentes más rápido de lo que podría hacerlo un observador humano.

Comprender la historia de la visión artificial

A lo largo de los años, la visión artificial ha evolucionado desde un concepto teórico hasta una tecnología fiable que impulsa la innovación en todas las industrias. Echemos un vistazo a algunos de los hitos clave que han definido su desarrollo:

  • Años 50 - 60: Los investigadores comenzaron a desarrollar algoritmos para procesar y analizar datos visuales, pero el progreso fue lento debido a la limitada potencia computacional.
  • Años 70: Esta década fue testigo de importantes mejoras en los algoritmos, como la transformada de Hough, que mejoró la detección de líneas y formas geométricas en las imágenes. También surgió el reconocimiento óptico de caracteres (OCR), que permitió a las máquinas leer texto impreso.
  • Años 80 - 90: El aprendizaje automático comenzó a desempeñar un papel en la visión artificial, allanando el camino para capacidades más avanzadas y futuros avances.
  • Años 2000 - 2010: El aprendizaje profundo aportó una nueva dimensión a la visión artificial, equipando a las máquinas para interpretar los datos visuales de forma más eficaz. Mejoró las capacidades como la identificación de objetos, el análisis de movimiento y la ejecución de tareas complejas.

Hoy en día, la visión artificial está avanzando rápidamente y transformando la forma en que resolvemos los problemas en áreas como la atención sanitaria, los vehículos autónomos y las ciudades inteligentes. Los modelos YOLO (You Only Look Once) de Ultralytics, diseñados para tareas de visión artificial en tiempo real, facilitan la implementación eficaz y precisa de la IA visual en diversas industrias. A medida que la IA y el hardware siguen mejorando, estos modelos están ayudando a las empresas a tomar decisiones más inteligentes y a agilizar las operaciones mediante el uso de análisis avanzados de datos visuales.

Desglosando cómo funciona la visión artificial

Los sistemas de visión artificial funcionan utilizando redes neuronales, que son algoritmos inspirados en el funcionamiento del cerebro humano, para analizar imágenes. Un tipo específico, llamado Redes Neuronales Convolucionales (CNN), es especialmente bueno para reconocer patrones, como bordes y formas en las imágenes. 

Para simplificar los datos visuales, técnicas como el pooling se centran en las partes más importantes de una imagen, mientras que las capas adicionales procesan esta información para realizar tareas como la identificación de características o la detección de objetos. Los modelos avanzados como Ultralytics YOLO11, diseñados para la velocidad y la precisión, hacen posible el procesamiento de imágenes en tiempo real.

__wf_reserved_inherit
Fig. 2. Un ejemplo del uso de Ultralytics YOLO11 para la detección de objetos.

Una aplicación típica de visión artificial implica varios pasos para transformar las imágenes sin procesar en información útil. Estas son las cuatro etapas principales:

  • Adquisición de imágenes: Los datos visuales se recogen mediante cámaras o sensores, y la calidad de las imágenes depende del tipo de sensor utilizado.
  • Procesamiento de imágenes: Los datos recogidos se mejoran mediante técnicas de preprocesamiento como la reducción del ruido y el resaltado de los bordes para facilitar su análisis.
  • Extracción de características: Se seleccionan los detalles importantes, como formas y texturas, centrándose en las partes de la imagen que más importan.  
  • Reconocimiento de patrones: Las características identificadas se analizan mediante aprendizaje automático para completar tareas como la detección de objetos, el seguimiento de movimientos o el reconocimiento de patrones.

Explorando las tareas de visión artificial

Es posible que haya notado que, al hablar sobre cómo funciona la visión artificial, mencionamos las tareas de visión artificial. Los modelos como Ultralytics YOLO11 están diseñados para admitir estas tareas, ofreciendo soluciones rápidas y precisas para aplicaciones del mundo real. Desde la detección de objetos hasta el seguimiento de su movimiento, YOLO11 gestiona estas tareas de forma eficiente. Exploremos algunas de las tareas clave de visión artificial que admite y cómo funcionan.

Detección de objetos

La detección de objetos es una tarea clave de la visión artificial y se utiliza para identificar objetos de interés en una imagen. El resultado de una tarea de detección de objetos es un conjunto de cuadros delimitadores (rectángulos dibujados alrededor de los objetos detectados en una imagen), junto con etiquetas de clase (la categoría o el tipo de cada objeto, como "coche" o "persona") y puntuaciones de confianza (un valor numérico que indica la certeza del modelo sobre cada detección). Por ejemplo, la detección de objetos se puede utilizar para identificar y señalar la ubicación de un peatón en una calle o de un coche en el tráfico.

__wf_reserved_inherit
Fig. 3. YOLO11 se utiliza para detectar objetos.

Clasificación de imágenes

El objetivo principal de la clasificación de imágenes es asignar una etiqueta o categoría predefinida a una imagen de entrada en función de su contenido general. Esta tarea normalmente implica la identificación del objeto o característica dominante dentro de la imagen. Por ejemplo, la clasificación de imágenes se puede utilizar para determinar si una imagen contiene un gato o un perro. Los modelos de visión artificial como YOLO11 pueden incluso entrenarse de forma personalizada para clasificar razas individuales de gatos o perros, como se muestra a continuación.

__wf_reserved_inherit
Fig. 4. Clasificación de diferentes razas de gatos mediante YOLO11.

Segmentación de instancias

La segmentación de instancias es otra tarea crucial de la visión artificial que se utiliza en diversas aplicaciones. Implica dividir una imagen en segmentos e identificar cada objeto individual, incluso si hay varios objetos del mismo tipo. A diferencia de la detección de objetos, la segmentación de instancias va un paso más allá al delinear los límites precisos de cada objeto. Por ejemplo, en la fabricación y reparación de automóviles, la segmentación de instancias puede ayudar a identificar y etiquetar cada pieza del coche por separado, lo que hace que el proceso sea más preciso y eficiente.

__wf_reserved_inherit
Fig. 5. Segmentación de piezas de automóviles mediante YOLO11.

Estimación de la pose

El objetivo de la estimación de la pose es determinar la posición y la orientación de una persona u objeto prediciendo la ubicación de puntos clave, como las manos, la cabeza y los codos. Esto es particularmente útil en aplicaciones donde es importante comprender las acciones físicas en tiempo real. La estimación de la pose humana se utiliza comúnmente en áreas como el análisis deportivo, la monitorización del comportamiento animal y la robótica.

__wf_reserved_inherit
Fig. 6. YOLO11 puede ayudar con la estimación de la pose humana.

Para explorar las otras tareas de visión artificial compatibles con YOLO11, puede consultar la documentación oficial de Ultralytics. Proporciona información detallada sobre cómo YOLO11 gestiona tareas como el seguimiento de objetos y la detección de objetos con cuadros delimitadores orientados (OBB).

Modelos populares de visión artificial en la actualidad

A pesar de la gran cantidad de modelos de visión artificial que existen, la serie Ultralytics YOLO destaca por su sólido rendimiento y versatilidad. Con el tiempo, los modelos Ultralytics YOLO han mejorado, volviéndose más rápidos, precisos y capaces de manejar más tareas. Cuando se introdujo Ultralytics YOLOv5, la implementación de modelos se hizo más fácil con marcos de Vision AI como PyTorch. Permitió que una gama más amplia de usuarios trabajara con Vision AI avanzada, combinando alta precisión con facilidad de uso.

A continuación, Ultralytics YOLOv8 fue un paso más allá al añadir nuevas capacidades como la segmentación de instancias, la estimación de la pose y la clasificación de imágenes. Mientras tanto, la última versión, YOLO11, ofrece el máximo rendimiento en múltiples tareas de visión artificial. Con un 22% menos de parámetros que YOLOv8m, YOLO11m alcanza una mayor precisión media promedio (mAP) en el conjunto de datos COCO, lo que significa que puede detectar objetos de forma más precisa y eficiente. Tanto si eres un desarrollador experimentado como si eres nuevo en la IA, YOLO11 ofrece una solución potente para tus necesidades de visión artificial.

El papel de la visión artificial en la vida cotidiana

Anteriormente, analizamos cómo los modelos de visión artificial como YOLO11 se pueden aplicar en una amplia gama de industrias. Ahora, exploremos más casos de uso que están cambiando nuestra vida diaria.

Visión artificial en la atención médica

Existe una amplia gama de aplicaciones para la visión artificial en la atención médica. Tareas como la detección y clasificación de objetos se utilizan en imágenes médicas para que la detección de enfermedades sea más rápida y precisa. En el análisis de rayos X, la visión artificial puede identificar patrones que podrían ser demasiado sutiles para el ojo humano. 

También se utiliza en la detección del cáncer para comparar las células cancerosas con las sanas. Del mismo modo, con respecto a las tomografías computarizadas y las resonancias magnéticas, la visión artificial se puede utilizar para analizar imágenes con una precisión casi humana. Ayuda a los médicos a tomar mejores decisiones y, en última instancia, salva más vidas.

__wf_reserved_inherit
Fig. 7. YOLO11 se utiliza para analizar exploraciones médicas.

IA en la industria automotriz

La visión artificial es fundamental para los coches autónomos, ya que les ayuda a detectar objetos como señales de tráfico y semáforos. Técnicas como el reconocimiento óptico de caracteres (OCR) permiten al coche leer texto de las señales de tráfico. También se utiliza para la detección de peatones, donde las tareas de detección de objetos identifican a las personas en tiempo real. 

Además de eso, la visión artificial puede incluso detectar grietas y baches en las superficies de las carreteras, lo que permite una mejor monitorización de las condiciones cambiantes de las carreteras. En general, la tecnología de visión artificial puede desempeñar un papel clave en la mejora de la gestión del tráfico, la mejora de la seguridad del transporte y el apoyo a la planificación de ciudades inteligentes.

__wf_reserved_inherit
Fig 8. Entendiendo el tráfico mediante YOLO11.

Visión artificial en la agricultura

Imaginemos que los agricultores pudieran sembrar, regar y cosechar sus cultivos automáticamente y a tiempo, sin preocupaciones. Eso es exactamente lo que la visión artificial aporta a la agricultura. Facilita la monitorización de cultivos en tiempo real, de modo que los agricultores puedan detectar problemas como enfermedades o deficiencias de nutrientes con mayor precisión que los humanos. 

Además de la monitorización, las máquinas de deshierbe automáticas impulsadas por IA e integradas con visión artificial pueden identificar y eliminar las malas hierbas, lo que reduce los costes de mano de obra y aumenta el rendimiento de los cultivos. Esta combinación de tecnología ayuda a los agricultores a optimizar sus recursos, mejorar la eficiencia y proteger sus cultivos.

__wf_reserved_inherit
Fig 9. Un ejemplo del uso de YOLO11 en la agricultura.

Automatización de los procesos de fabricación con IA

En la fabricación, la visión artificial ayuda a supervisar la producción, comprobar la calidad de los productos y realizar un seguimiento automático de los trabajadores. La IA de visión hace que el proceso sea más rápido y preciso, a la vez que reduce los errores, lo que conlleva una reducción de los costes. 

Específicamente, para el control de calidad, se utilizan comúnmente la detección de objetos y la segmentación de instancias. Los sistemas de detección de defectos realizan una comprobación final de los productos terminados para garantizar que solo los mejores lleguen a los clientes. Cualquier producto con abolladuras o grietas se identifica y rechaza automáticamente. Estos sistemas también rastrean y cuentan los productos en tiempo real, proporcionando una supervisión continua en la línea de montaje.

__wf_reserved_inherit
Fig 10. Monitorización de una línea de montaje mediante visión artificial.

Una educación más impactante gracias a la visión artificial

Una de las formas en que se utiliza la visión artificial en el aula es a través del reconocimiento de gestos: personaliza el aprendizaje detectando los movimientos de los alumnos. Los modelos como YOLO11 son excelentes para esta tarea. Pueden identificar con precisión gestos como manos levantadas o expresiones de confusión en tiempo real. 

Cuando se detectan tales gestos, una lección en curso puede ajustarse proporcionando ayuda adicional o modificando el contenido para que se adapte mejor a las necesidades del alumno. Esto crea un entorno de aprendizaje más dinámico y adaptativo, lo que ayuda a los profesores a centrarse en la enseñanza mientras el sistema apoya la experiencia de aprendizaje de cada alumno.

Tendencias recientes en visión artificial

Ahora que hemos explorado algunas de las aplicaciones de la visión artificial en diversos sectores, profundicemos en las tendencias clave que impulsan su progreso.

Una de las principales tendencias es el edge computing, un marco de computación distribuida que procesa los datos más cerca de su origen. Por ejemplo, el edge computing equipa dispositivos como cámaras y sensores para procesar datos visuales directamente, lo que se traduce en tiempos de respuesta más rápidos, retrasos reducidos y una mayor privacidad.

Otra tendencia clave en la visión artificial es el uso de la realidad combinada. Combina el mundo físico con elementos digitales, utilizando la visión artificial para que los objetos virtuales se mezclen a la perfección con el mundo real. Puede utilizarse para mejorar las experiencias en juegos, educación y formación. 

Pros y contras de la visión artificial

Estos son algunos de los principales beneficios que la visión artificial puede aportar a diversos sectores:

  • Ahorro de costes: La automatización de tareas con visión artificial ayuda a reducir los costes operativos, mejorar la productividad y minimizar los errores.
  • Escalabilidad: Una vez implementados, los sistemas de visión artificial pueden escalarse fácilmente para gestionar grandes cantidades de datos, lo que los hace adecuados para empresas en crecimiento u operaciones a gran escala.
  • Personalización específica de la aplicación: Los modelos de visión artificial pueden ajustarse con precisión utilizando su conjunto de datos, lo que le proporciona soluciones altamente especializadas que satisfacen los requisitos de su aplicación.

Si bien estos beneficios resaltan cómo la visión artificial puede impactar en varias industrias, también es importante considerar los desafíos involucrados en su implementación. Estos son algunos de los desafíos clave:

  • Preocupaciones sobre la privacidad de los datos: El uso de datos visuales, especialmente en áreas sensibles como la vigilancia o la atención médica, puede plantear problemas de privacidad y seguridad.
  • Limitaciones ambientales: Los sistemas de visión artificial pueden tener dificultades para funcionar correctamente en entornos difíciles, como iluminación deficiente, imágenes de baja calidad o fondos complejos.
  • Alto coste inicial: El desarrollo e implementación de sistemas de visión artificial puede ser costoso debido a la necesidad de hardware, software y experiencia especializados.

Conclusiones clave

La visión artificial está reinventando la forma en que las máquinas interactúan con el mundo, permitiéndoles ver y comprender el mundo como lo hacen los humanos. Ya se está utilizando en muchas áreas, como mejorar la seguridad en los coches autónomos, ayudar a los médicos a diagnosticar enfermedades más rápido, hacer que las compras sean más personalizadas e incluso ayudar a los agricultores con el monitoreo de cultivos. 

A medida que la tecnología sigue mejorando, nuevas tendencias como el edge computing y la realidad combinada están abriendo aún más posibilidades. Si bien existen algunos desafíos, como los sesgos y los altos costos, la visión artificial tiene el potencial de generar un gran impacto positivo en muchas industrias en el futuro.

Para obtener más información, visite nuestro repositorio de GitHub e interactúe con nuestra comunidad. Explore las innovaciones en sectores como la IA en coches autónomos y la visión artificial en la agricultura en nuestras páginas de soluciones. 🚀

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Comienza gratis
Enlace copiado al portapapeles