Глоссарий

Большие данные

Откройте для себя мощь больших данных в AI/ML! Узнайте, как огромные наборы данных питают машинное обучение, инструменты для обработки и реальные приложения.

Большие данные - это чрезвычайно большие, сложные и быстрорастущие массивы данных, которые превышают возможности обработки традиционными средствами управления базами данных. традиционных средств управления базами данных. Для них характерны "пять V": Объем (огромное количество данных), скорость (скорость создания данных), разнообразие (разнообразие типов данных), достоверность (качество и Достоверность (качество и надежность) и ценность (полученные знания). В сфере искусственного интеллекта (ИИ), Большие данные служат основополагающим ресурсом, на котором базируются современные алгоритмы машинного обучения (ML), позволяя им выявлять закономерности, делать прогнозы и улучшать производительность с течением времени.

Критическая роль больших данных в глубоком обучении

Возрождение глубокого обучения (Deep Learning, DL) напрямую связано с доступностью Больших Данных. Нейронные сети, особенно Конволюционные нейронные сети (CNN), требуют огромного количества помеченной информации для эффективного обобщения. Например, современные модели такие как Ultralytics YOLO11 достигают высокой точности в задачи обнаружения объектов, поскольку они обучены на обширных эталонных наборах данных, таких как COCO и ImageNet. Эти наборы данных содержат миллионы изображений, обеспечивая разнообразие, необходимое моделям для распознавания объектов в различных условиях.

Для обработки такого объема информации часто требуется масштабируемая инфраструктура, такая как кластеры облачных вычислений и специализированное оборудование например, NVIDIA Data Center GPU. Это оборудование ускоряет математические операции, необходимые для обучения сложных моделей на терабайтах или петабайтах данных.

Чтобы проиллюстрировать, как разработчики взаимодействуют с данными для обучения модели, в следующем примере на Python демонстрируется загрузка предварительно обученной модели YOLO11 и ее обучение на небольшом подмножестве данных с помощью функции ultralytics пакет:

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset for 5 epochs
# COCO8 is a tiny dataset included for quick demonstration
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

# Display the results object details
print(results)

Приложения реального мира в искусственном интеллекте

Большие данные преобразуют отрасли, позволяя системам искусственного интеллекта решать сложные реальные задачи:

Автономные транспортные средства: Самостоятельно управляемые автомобили генерируют огромные потоки данных от LiDAR, радаров и камер. Такие компании, как Tesla используют данные автопарка для обучения систем восприятия, которые detect пешеходов, разметки и препятствий. Этот непрерывный цикл сбора данных и обучения необходим для достижения более безопасных ИИ в автомобильных решениях.
Медицинская диагностика: На сайте ИИ в здравоохранении, Большие данные охватывают огромные библиотеки анонимизированных записей пациентов и медицинских изображений. Исследователи используют такие репозитории, как NIH Imaging Data Commons для обучения моделей на тысячах МРТ и КТ-сканов. Эти модели помогают радиологам выявлять такие патологии, как опухоли, с большей скоростью и точностью. точности, чем при ручном просмотре.