Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Большие данные

Откройте для себя мощь больших данных в AI/ML! Узнайте, как огромные наборы данных питают машинное обучение, инструменты для обработки и реальные приложения.

Большие данные - это чрезвычайно большие, сложные и быстрорастущие массивы данных, которые превышают возможности обработки традиционными средствами управления базами данных. традиционных средств управления базами данных. Для них характерны "пять V": Объем (огромное количество данных), скорость (скорость создания данных), разнообразие (разнообразие типов данных), достоверность (качество и Достоверность (качество и надежность) и ценность (полученные знания). В сфере искусственного интеллекта (ИИ), Большие данные служат основополагающим ресурсом, на котором базируются современные алгоритмы машинного обучения (ML), позволяя им выявлять закономерности, делать прогнозы и улучшать производительность с течением времени.

Критическая роль больших данных в глубоком обучении

Возрождение глубокого обучения (Deep Learning, DL) напрямую связано с доступностью Больших Данных. Нейронные сети, особенно Конволюционные нейронные сети (CNN), требуют огромного количества помеченной информации для эффективного обобщения. Например, современные модели такие как Ultralytics YOLO11 достигают высокой точности в задачи обнаружения объектов, поскольку они обучены на обширных эталонных наборах данных, таких как COCO и ImageNet. Эти наборы данных содержат миллионы изображений, обеспечивая разнообразие, необходимое моделям для распознавания объектов в различных условиях.

Для обработки такого объема информации часто требуется масштабируемая инфраструктура, такая как кластеры облачных вычислений и специализированное оборудование например, NVIDIA Data Center GPU. Это оборудование ускоряет математические операции, необходимые для обучения сложных моделей на терабайтах или петабайтах данных.

Чтобы проиллюстрировать, как разработчики взаимодействуют с данными для обучения модели, в следующем примере на Python демонстрируется загрузка предварительно обученной модели YOLO11 и ее обучение на небольшом подмножестве данных с помощью функции ultralytics пакет:

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset for 5 epochs
# COCO8 is a tiny dataset included for quick demonstration
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

# Display the results object details
print(results)

Приложения реального мира в искусственном интеллекте

Большие данные преобразуют отрасли, позволяя системам искусственного интеллекта решать сложные реальные задачи:

  • Автономные транспортные средства: Самостоятельно управляемые автомобили генерируют огромные потоки данных от LiDAR, радаров и камер. Такие компании, как Tesla используют данные автопарка для обучения систем восприятия, которые detect пешеходов, разметки и препятствий. Этот непрерывный цикл сбора данных и обучения необходим для достижения более безопасных ИИ в автомобильных решениях.
  • Медицинская диагностика: На сайте ИИ в здравоохранении, Большие данные охватывают огромные библиотеки анонимизированных записей пациентов и медицинских изображений. Исследователи используют такие репозитории, как NIH Imaging Data Commons для обучения моделей на тысячах МРТ и КТ-сканов. Эти модели помогают радиологам выявлять такие патологии, как опухоли, с большей скоростью и точностью. точности, чем при ручном просмотре.

Большие данные vs. Связанные концепции

Для понимания Больших Данных необходимо отличать их от тесно связанных между собой терминов в экосистеме данных:

  • Добыча данных: В то время как Большие Данные относятся к самим активам, Data Mining - это процесс изучения этих наборов данных для выявления закономерностей и взаимосвязей. взаимосвязей. Такие инструменты, как аналитический движок Apache Spark, часто используются для эффективной добычи Больших Данных.
  • Озеро данных: Озеро данных - это архитектура хранения архитектура, предназначенная для хранения необработанных данных в их родном формате до тех пор, пока они не понадобятся. Это противопоставляется Big Data, которая описывает характеристики данных (объем, скорость и т. д.), хранящихся в таких архитектурах. Современные решения часто используют Amazon S3 или аналогичные сервисы для создания таких озер.
  • Аналитика данных: Это Более широкая дисциплина, связанная с анализом данных для получения выводов. Применительно к большим данным она часто включает в себя продвинутое прогнозное моделирование для предсказания будущих тенденций на основе исторических закономерностей.

Эффективное использование Больших Данных также требует строгого внимания к конфиденциальности данных и управления ими, чтобы соответствовать нормативным требованиям таких как GDPR. Поскольку объем глобальных данных продолжает расти, синергия между Большими данными и искусственного интеллекта будет оставаться главной движущей силой технологических инноваций.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас