Hidden Markov Model (HMM)
Изучи скрытые марковские модели (HMM) для статистического ИИ. Узнай, как HMM работают с Ultralytics YOLO26 для распознавания действий, анализа последовательностей и временной логики.
Скрытая марковская модель (HMM) — это статистическая структура, используемая для моделирования систем, в которых внутренний процесс не является непосредственно видимым — отсюда и «скрытый» — но может быть выведен через последовательность наблюдаемых событий. Хотя современное глубокое обучение развилось для работы со сложными последовательностями, HMM остается фундаментальной концепцией в статистическом ИИ и теории вероятностей. Она особенно эффективна для анализа данных анализа временных рядов, где порядок событий обеспечивает критически важный контекст, опираясь на основной принцип, что вероятность будущего состояния зависит только от текущего состояния, а не от истории, предшествовавшей ему.
Link to this sectionОсновные механизмы HMM#
Чтобы понять, как функционирует HMM, важно различать два отдельных уровня модели: невидимые состояния и видимые выходные данные. Модель предполагает, что система переходит между скрытыми состояниями в соответствии с определенными вероятностями, выдавая наблюдение на каждом шаге.
HMM определяется набором параметров, которые управляют этими переходами и излучениями:
- Скрытые состояния: Они представляют собой фундаментальную реальность системы в данное время. В модели речи скрытое состояние может представлять конкретную фонему или слово.
- Наблюдаемые события: Это точки данных, фактически собранные датчиками или входными данными. В примере с речью наблюдением будут данные аудиоволновой формы или спектрограммы.
- Вероятности переходов: Эта матрица описывает вероятность перехода из одного скрытого состояния в другое. Например, вероятность изменения погоды с «Дождливо» на «Солнечно».
- Вероятности излучения: Они определяют вероятность увидеть конкретное наблюдение при заданном текущем скрытом состоянии.
- Начальные вероятности: Распределение, которое определяет состояние, в котором система с наибольшей вероятностью начнет работу.
Обучение HMM обычно включает алгоритм Баума-Велша для оценки этих параметров на основе обучающих данных. После обучения алгоритм Витерби обычно используется для декодирования наиболее вероятной последовательности скрытых состояний из нового набора наблюдений.
Link to this sectionHMM в сравнении с другими моделями последовательностей#
Хотя HMM имеют сходства с другими инструментами обработки последовательностей, они значительно различаются по архитектуре и применению:
- HMM против рекуррентных нейронных сетей (RNN): RNN и сети с долгой краткосрочной памятью (LSTM) — это модели глубокого обучения, которые могут улавливать долгосрочные зависимости и нелинейные паттерны, тогда как HMM — это более простые вероятностные модели, ограниченные марковским предположением (краткосрочная память). Однако HMM требуют значительно меньше данных и гораздо более интерпретируемы.
- HMM против фильтра Калмана (KF): Оба используются для оценки состояния. Однако фильтры Калмана предназначены для непрерывных состояний (например, отслеживание точного местоположения движущегося автомобиля), в то время как HMM используются для дискретных состояний (например, определение того, «припаркован» ли автомобиль, «едет» или «остановился»).
Link to this sectionРеальные приложения#
Несмотря на рост глубокого обучения (DL), скрытые марковские модели по-прежнему широко используются в сценариях, требующих вероятностного вывода по последовательностям.
Link to this sectionРаспознавание речи и рукописного текста#
Исторически HMM были основой систем распознавания речи. В этом контексте произнесенные слова являются «скрытыми» состояниями, а аудиосигналы, записанные микрофоном, — это наблюдения. HMM помогают определить наиболее вероятную последовательность слов, которые создали аудиосигнал. Аналогичным образом они помогают расшифровывать рукописный текст, моделируя переход между штрихами символов.
Link to this sectionАнализ биологических последовательностей#
В области биоинформатики HMM имеют решающее значение для предсказания генов и выравнивания белков. Они анализируют последовательности ДНК или аминокислот для идентификации функциональных областей, таких как гены в геноме. «Скрытые» состояния могут представлять кодирующие или некодирующие области, тогда как специфические нуклеотиды (A, C, G, T) выступают в качестве наблюдений.
Link to this sectionРаспознавание действий в компьютерном зрении#
В современном компьютерном зрении HMM могут комбинироваться с такими моделями, как YOLO26, для выполнения распознавания действий. В то время как YOLO обнаруживает объекты или позы в отдельных кадрах, HMM может анализировать последовательность этих поз с течением времени для классификации действия, например «ходьба», «бег» или «падение».
Link to this sectionИнтеграция зрения и анализа состояний#
Для разработчиков, использующих Ultralytics Platform для управления наборами данных и моделями, понимание последовательной логики имеет жизненно важное значение. Модель зрения предоставляет необработанные наблюдения (детектирования), которые затем могут быть поданы в модель пространства состояний, такую как HMM, для вывода временного контекста.
Следующий пример демонстрирует, как генерировать последовательность наблюдений с использованием оценки поз YOLO26. Эти ключевые точки могут служить в качестве входных данных «наблюдаемых событий» для последующей HMM или аналогичной логики для классификации поведения во времени.
from ultralytics import YOLO
# Load the YOLO26n-pose model for efficient keypoint detection
model = YOLO("yolo26n-pose.pt")
# Run inference on a video source (the 'observable' sequence)
# stream=True creates a generator for memory efficiency
results = model.predict(source="path/to/video.mp4", stream=True)
# Iterate through frames to extract observations
for result in results:
# Each 'keypoints' object is an observation for a potential HMM
keypoints = result.keypoints.xyn.cpu().numpy()
if keypoints.size > 0:
print(f"Observation (Normalized Keypoints): {keypoints[0][:5]}...")
# In a full pipeline, these points would be fed into an HMM decoderLink to this sectionЗначение в современном ИИ#
Хотя трансформеры и большие языковые модели (LLM) превзошли HMM в задачах, таких как обработка естественного языка (NLP), HMM остаются актуальными в периферийных вычислениях и средах с низкой задержкой. Их вычислительная эффективность делает их идеальными для систем с ограниченными ресурсами, где интенсивное использование GPU невозможно. Кроме того, поскольку они основаны на прозрачных матрицах вероятностей, они предлагают более высокую наблюдаемость по сравнению с природой «черного ящика» многих нейронных сетей.






