Glosario

Grandes datos

¡Descubre el poder de los Big Data en IA/ML! Aprende cómo los conjuntos de datos masivos alimentan el aprendizaje automático, las herramientas para su procesamiento y las aplicaciones en el mundo real.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Big Data se refiere a conjuntos de datos extremadamente grandes y complejos que crecen exponencialmente con el tiempo. Estos conjuntos de datos son tan voluminosos y se generan a velocidades tan altas que el software tradicional de procesamiento de datos y las herramientas de gestión de bases de datos son inadecuados para capturarlos, gestionarlos y procesarlos de forma eficiente. Comprender los Big Data es fundamental en la era moderna de la Inteligencia Artificial (IA) y el Aprendizaje Automático (AM), ya que estos conjuntos de datos masivos sirven como combustible esencial para entrenar sofisticados modelos de Aprendizaje Profundo (AD ) capaces de identificar patrones intrincados y hacer predicciones.

Las características de los Big Data (Los Vs)

Los Big Data suelen definirse por varias características clave, a menudo denominadas las "V", que ayudan a diferenciarlos de los datos tradicionales:

  • Volumen: Se refiere a la gran cantidad de datos generados y recopilados, a menudo medidos en terabytes, petabytes o incluso exabytes. Las fuentes incluyen datos de sensores, feeds de redes sociales, registros de transacciones y registros de máquinas. El procesamiento de este volumen requiere soluciones de almacenamiento escalables y marcos informáticos distribuidos.
  • Velocidad: Describe la velocidad a la que se generan nuevos datos y es necesario procesarlos. Muchas aplicaciones requieren inferencia y análisis en tiempo real, exigiendo capacidades de ingestión y procesamiento de datos a alta velocidad, a menudo facilitadas por herramientas como Apache Kafka.
  • Variedad: Los Big Data vienen en diversos formatos. Incluyen datos estructurados (como bases de datos relacionales), datos semiestructurados (como archivos JSON o XML ) y datos no estructurados (como documentos de texto, imágenes, vídeos y archivos de audio). Manejar esta variedad requiere un almacenamiento de datos flexible y herramientas analíticas capaces de procesar distintos tipos de datos.
  • Veracidad: Se refiere a la calidad, precisión y fiabilidad de los datos. Los Big Data suelen contener ruido, incoherencias y sesgos, por lo que necesitan técnicas sólidas de limpieza y preprocesamiento de datos para garantizar la fiabilidad de los análisis y los resultados de los modelos. El sesgo del conjunto de datos es una preocupación importante en este sentido.
  • Valor: En última instancia, el objetivo de recopilar y analizar Big Data es extraer ideas significativas y valor empresarial. Esto implica identificar patrones y tendencias relevantes que puedan informar la toma de decisiones, optimizar los procesos o impulsar la innovación.

Relevancia en IA y Aprendizaje Automático

Los Big Data son la piedra angular de muchos avances en IA y ML. Los conjuntos de datos grandes y diversos son cruciales para entrenar modelos potentes, en particular Redes Neuronales (NN), permitiéndoles aprender relaciones complejas dentro de los datos y alcanzar altos niveles de precisión. Por ejemplo, el entrenamiento de modelos de Visión por Computador (VC ) de última generación como Ultralytics YOLO para tareas como la detección de objetos o la segmentación de imágenes requiere grandes cantidades de datos visuales etiquetados. Del mismo modo, los modelos de Procesamiento del Lenguaje Natural (PLN ) como Transformers se basan en corpus de texto masivos.

El procesamiento eficiente de estos grandes conjuntos de datos requiere una potente infraestructura de hardware, que a menudo aprovecha las GPU (Unidades de Procesamiento Gráfico) o las TPU, y marcos de computación distribuida como Apache Spark. Plataformas como Ultralytics HUB proporcionan herramientas para gestionar estos flujos de trabajo de entrenamiento de modelos a gran escala, simplificando la gestión de conjuntos de datos, el seguimiento de experimentos y el despliegue de modelos.

Aplicaciones AI/ML en el mundo real

Los Big Data impulsan numerosas aplicaciones basadas en la IA en diversos sectores:

  • Sistemas de recomendación: Los servicios de streaming como Netflix y las plataformas de comercio electrónico analizan grandes cantidades de datos de interacción de los usuarios (historial de visionado, patrones de compra, clics) para entrenar sofisticados algoritmos de sistemas de recomendación. Estos algoritmos proporcionan sugerencias personalizadas, mejorando el compromiso del usuario y las ventas.
  • Vehículos autónomos: Los coches autónomos generan enormes cantidades de datos por segundo procedentes de sensores como cámaras, LiDAR y radares. Estos Big Data se procesan en tiempo real utilizando modelos de IA para tareas como la detección de objetos, la planificación de trayectorias y la toma de decisiones, como se detalla en La IA en los coches autónomos. Empresas como Waymo dependen en gran medida del análisis de Big Data para desarrollar y mejorar su tecnología de conducción autónoma.
  • Sanidad: El análisis de Big Data en sanidad permite aplicaciones como el diagnóstico predictivo, la medicina personalizada y el descubrimiento de fármacos. El análisis de grandes volúmenes de historias clínicas electrónicas (HCE), datos genómicos e imágenes médicas ayuda a identificar patrones de enfermedades y la eficacia de los tratamientos(Radiology: Artificial Intelligence Journal).
  • La agricultura: La agricultura de precisión aprovecha los Big Data de sensores, drones y satélites para optimizar el rendimiento de las cosechas, controlar la salud del suelo y gestionar los recursos con eficacia, contribuyendo a los avances de la IA en las soluciones agrícolas.

Big Data frente a conceptos relacionados

Es útil distinguir el Big Data de los términos relacionados:

  • Datos tradicionales: Normalmente de menor volumen, generados a menor velocidad, más estructurados y manejables con sistemas de bases de datos relacionales convencionales (por ejemplo, SQL). Los Big Data requieren herramientas especializadas como el ecosistema Hadoop o Spark para su procesamiento, debido a su escala y complejidad.
  • Minería de Datos: Es el proceso de descubrir patrones y conocimientos a partir de grandes conjuntos de datos , incluidos los Big Data. Las técnicas de Minería de Datos (como la agrupación, la clasificación) se aplican a los Big Data para extraer valor.
  • Lago de Datos: Un Lago de Datos es un repositorio centralizado diseñado para almacenar grandes cantidades de datos en bruto (estructurados, semiestructurados y no estructurados) en su formato nativo. A diferencia de los almacenes de datos tradicionales, que almacenan datos procesados y estructurados, los lagos de datos proporcionan flexibilidad para diversas tareas analíticas sobre Big Data. Las plataformas de computación en nube, como AWS y Google Cloud, ofrecen sólidas soluciones de lagos de datos.
  • Análisis de datos: Es el campo más amplio del examen de conjuntos de datos para extraer conclusiones. La Analítica de Datos en Big Data a menudo implica técnicas avanzadas, incluyendo ML y modelado estadístico, para manejar la escala y la complejidad.

Gestionar Big Data de forma eficaz presenta retos relacionados con la infraestructura de almacenamiento, los costes de procesamiento, garantizar la seguridad y privacidad de los datos, y mantener su calidad (Veracidad). Sin embargo, la superación de estos retos desbloquea un inmenso potencial para la innovación impulsada por la IA y el ML.

Leer todo