Глоссарий

Уменьшение размерности

Узнайте, как уменьшение размерности оптимизирует рабочие процессы машинного обучения. Изучите такие методы, как PCA и t-SNE, для улучшения производительности Ultralytics и визуализации данных.

Снижение размерности — это преобразующая техника в машинном обучении (ML) и науке о данных, используемая для уменьшения количества входных переменных — часто называемых признаками или измерениями — в наборе данных с сохранением наиболее важной информации. В эпоху больших данных наборы данных часто содержат тысячи переменных, что приводит к явлению, известному как проклятие размерности. Это явление может привести к тому, что обучение модели станет вычислительно затратным, склонным к переобучению и трудным для интерпретации. Проецируя высокоразмерные данные в пространство с меньшей размерностью, специалисты могут повысить эффективность, визуализацию и прогнозируемую производительность.

Основные преимущества в разработке ИИ

Упрощение данных является фундаментальным этапом в процессе предварительной обработки данных. Оно дает ряд ощутимых преимуществ для создания надежных систем искусственного интеллекта (ИИ):

Повышенная вычислительная эффективность: меньшее количество функций означает меньший объем данных для обработки. Это ускоряет время обучения алгоритмов, таких как YOLO26, делая их более подходящими для вывода в реальном времени и развертывания на периферийных устройствах искусственного интеллекта с ограниченными ресурсами.
Улучшенная визуализация данных: человеческая интуиция с трудом воспринимает данные, выходящие за пределы трех измерений. Снижение размерности сжимает сложные наборы данных в 2D- или 3D-пространства, что позволяет эффективно визуализировать данные для выявления кластеров, закономерностей и выбросов с помощью таких инструментов, как TensorFlow Projector.
Подавление шума: сосредоточиваясь на наиболее значимой дисперсии в данных, этот метод отфильтровывает шум и избыточные признаки. В результате получаются более чистые учебные данные, что помогает моделям лучше обобщать невиданные примеры.
Оптимизация хранения: хранение огромных массивов данных в облаке, например тех, которые управляются через Ultralytics , может быть дорогостоящим. Сжатие пространства признаков значительно снижает требования к хранению без ущерба для целостности важных данных.

Ключевые техники: линейные и нелинейные

Методы уменьшения размерности обычно классифицируются в зависимости от того, сохраняют ли они глобальную линейную структуру или локальное нелинейное многообразие данных.

Линейные методы

Наиболее распространенной линейной техникой является анализ главных компонент (PCA). PCA работает путем идентификации «главных компонент» — ортогональных осей, которые фиксируют максимальную дисперсию в данных. Он проецирует исходные данные на эти новые оси, эффективно отбрасывая измерения, которые вносят мало информации. Это основной элемент в рабочих процессах неконтролируемого обучения.

Нелинейные методы

Для сложных структур данных, таких как изображения или текстовые вложения, часто требуются нелинейные методы. Такие методы, как t-Distributed Stochastic Neighbor Embedding (t-SNE) и UMAP (Uniform Manifold Approximation and Projection), отлично сохраняют локальные соседства, что делает их идеальными для визуализации высокоразмерных кластеров. Кроме того, автокодировщики — это нейронные сети, обученные сжимать входы в представление латентного пространства и восстанавливать их, эффективно обучаясь компактному кодированию данных.

Применение в реальном мире

Снижение размерности имеет решающее значение в различных областях глубокого обучения (DL):

Компьютерное зрение: современные детекторы объектов, такие как YOLO26, обрабатывают изображения, содержащие тысячи пикселей. Внутренние слои используют такие методы, как пулинг и шаговые свертки, для постепенного уменьшения пространственных размеров карт признаков, преобразуя необработанные пиксели в высокоуровневые семантические концепции (например, «край», «глаз», «автомобиль»).
Геномика и здравоохранение: в медицинском анализе изображений и биоинформатике исследователи анализируют данные о генной экспрессии с десятками тысяч переменных. Снижение размерности помогает выявлять ключевые биомаркеры для классификации заболеваний, как показано в исследованиях по геномике рака.
Рекомендательные системы: Платформы, такие как Netflix или Spotify, используют матричную факторизацию (метод редукции) для прогнозирования предпочтений пользователей. Редуцируя разреженную матрицу взаимодействий между пользователями и элементами, они могут эффективно рекомендовать контент на основе скрытых характеристик.

Снижение размерности по сравнению с выбором признаков

Важно отличать это понятие от выбора признаков, поскольку они достигают подобных целей с помощью разных механизмов:

Выбор признаков включает в себя выбор подмножества исходных признаков (например, сохранение «Возраста» и удаление «Имени»). Он не изменяет значения выбранных признаков.
Снижение размерности (в частности, извлечение признаков) создает новые признаки, которые являются комбинациями исходных. Например, PCA может объединить «Рост» и «Вес» в один новый компонент, представляющий «Размер тела».

Python : сокращение встраивания изображений

Следующий пример иллюстрирует, как взять высокоразмерный вывод (имитирующий вектор вложения изображения) и уменьшить его с помощью PCA. Это обычный рабочий процесс при визуализации того, как модель типа YOLO26 группирует похожие классы.

import numpy as np
from sklearn.decomposition import PCA

# Simulate high-dimensional embeddings (e.g., 10 images, 512 features each)
# In a real workflow, these would come from a model like YOLO26n
embeddings = np.random.rand(10, 512)

# Initialize PCA to reduce from 512 dimensions to 2
pca = PCA(n_components=2)
reduced_data = pca.fit_transform(embeddings)

# Output shape is now (10, 2), ready for 2D plotting
print(f"Original shape: {embeddings.shape}")  # (10, 512)
print(f"Reduced shape: {reduced_data.shape}")  # (10, 2)

Уменьшение размерности

Обучение моделям Ultralytics YOLO для оптимизации рабочих процессов в разных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Основные преимущества в разработке ИИ

Ключевые техники: линейные и нелинейные

Линейные методы

Нелинейные методы

Применение в реальном мире

Снижение размерности по сравнению с выбором признаков

Python : сокращение встраивания изображений

Читать больше в этой категории

12 примеров использования аэрофотоснимков с помощью компьютерного зрения

Что такое монокулярная оценка глубины? Обзор

Обзор использованияYOLO Ultralytics YOLO для обнаружения угроз с помощью искусственного интеллекта

Присоединяйтесь к сообществу Ultralytics