Learn how a Hidden Markov Model (HMM) works in statistical AI. Explore its core mechanisms, use cases in sequence analysis, and integration with [YOLO26](https://docs.ultralytics.com/models/yolo26/) for advanced action recognition.
Mô hình Markov ẩn (HMM) là một khung thống kê được sử dụng để mô hình hóa các hệ thống mà quá trình bên trong không thể quan sát trực tiếp – do đó được gọi là "ẩn" – nhưng có thể được suy luận thông qua một chuỗi các sự kiện có thể quan sát được. Mặc dù học sâu hiện đại đã phát triển để xử lý các chuỗi phức tạp, HMM vẫn là một khái niệm nền tảng trong trí tuệ nhân tạo thống kê và lý thuyết xác suất. Nó đặc biệt hiệu quả trong việc phân tích dữ liệu chuỗi thời gian , nơi thứ tự các sự kiện cung cấp ngữ cảnh quan trọng, dựa trên nguyên tắc cốt lõi rằng xác suất của một trạng thái tương lai chỉ phụ thuộc vào trạng thái hiện tại, chứ không phải vào lịch sử đã xảy ra trước đó.
Để hiểu cách thức hoạt động của mô hình HMM, điều cần thiết là phải phân biệt giữa hai lớp riêng biệt của mô hình: các trạng thái ẩn và các đầu ra hiển thị. Mô hình giả định rằng hệ thống chuyển đổi giữa các trạng thái ẩn theo các xác suất cụ thể, phát ra một quan sát ở mỗi bước.
Mô hình HMM được định nghĩa bởi một tập hợp các tham số chi phối các quá trình chuyển đổi và phát xạ này:
Việc huấn luyện một mô hình HMM thường bao gồm thuật toán Baum-Welch để ước tính các tham số này từ dữ liệu huấn luyện . Sau khi được huấn luyện, thuật toán Viterbi thường được sử dụng để giải mã chuỗi trạng thái ẩn có khả năng xảy ra nhất từ một tập hợp quan sát mới.
Mặc dù HMM có những điểm tương đồng với các công cụ xử lý chuỗi khác, nhưng chúng khác biệt đáng kể về kiến trúc và ứng dụng:
Mặc dù sự phát triển mạnh mẽ của học sâu (DL) , mô hình Markov ẩn vẫn được sử dụng rộng rãi trong các trường hợp yêu cầu suy luận xác suất trên các chuỗi.
Trong lịch sử, mô hình HMM (Hidden Markov Model) là xương sống của các hệ thống nhận dạng giọng nói . Trong ngữ cảnh này, các từ được nói ra là các trạng thái "ẩn", và tín hiệu âm thanh được ghi lại bởi micro là các quan sát. HMM giúp xác định chuỗi từ có khả năng nhất đã tạo ra tín hiệu âm thanh. Tương tự, chúng hỗ trợ giải mã chữ viết tay bằng cách mô hình hóa sự chuyển tiếp giữa các nét chữ.
Trong lĩnh vực tin sinh học , mô hình HMM đóng vai trò quan trọng trong dự đoán gen và căn chỉnh protein. Chúng phân tích trình tự DNA hoặc axit amin để xác định các vùng chức năng, chẳng hạn như các gen trong bộ gen. Các trạng thái "ẩn" có thể đại diện cho các vùng mã hóa hoặc không mã hóa, trong khi các nucleotide cụ thể (A, C, G, T) đóng vai trò là các quan sát.
Trong thị giác máy tính hiện đại, HMM có thể được kết hợp với các mô hình như YOLO26 để thực hiện nhận dạng hành động . YOLO HMM phát hiện các đối tượng hoặc tư thế trong từng khung hình riêng lẻ, từ đó phân tích chuỗi các tư thế này theo thời gian để... classify Một hành động, chẳng hạn như "đi bộ", "chạy" hoặc "ngã".
Đối với các nhà phát triển sử dụng Nền tảng Ultralytics để quản lý tập dữ liệu và mô hình, việc hiểu logic tuần tự là rất quan trọng. Mô hình thị giác cung cấp các quan sát thô (phát hiện), sau đó có thể được đưa vào mô hình không gian trạng thái như HMM để suy ra ngữ cảnh thời gian.
Ví dụ sau đây minh họa cách tạo ra một chuỗi các quan sát bằng cách sử dụng ước tính tư thế YOLO26 . Các điểm mấu chốt này có thể được dùng làm đầu vào "sự kiện quan sát được" cho mô hình HMM hoặc logic tương tự ở các bước tiếp theo. classify hành vi thay đổi theo thời gian.
from ultralytics import YOLO
# Load the YOLO26n-pose model for efficient keypoint detection
model = YOLO("yolo26n-pose.pt")
# Run inference on a video source (the 'observable' sequence)
# stream=True creates a generator for memory efficiency
results = model.predict(source="path/to/video.mp4", stream=True)
# Iterate through frames to extract observations
for result in results:
# Each 'keypoints' object is an observation for a potential HMM
keypoints = result.keypoints.xyn.cpu().numpy()
if keypoints.size > 0:
print(f"Observation (Normalized Keypoints): {keypoints[0][:5]}...")
# In a full pipeline, these points would be fed into an HMM decoder
Mặc dù các mô hình Transformer và mô hình ngôn ngữ lớn (LLM) đã vượt trội hơn các mô hình HMM trong các tác vụ như xử lý ngôn ngữ tự nhiên (NLP) , nhưng HMM vẫn giữ vai trò quan trọng trong điện toán biên và môi trường độ trễ thấp. Hiệu quả tính toán của chúng khiến chúng trở nên lý tưởng cho các hệ thống có tài nguyên hạn chế, nơi việc sử dụng GPU mạnh mẽ là không khả thi. Hơn nữa, vì chúng dựa trên ma trận xác suất minh bạch, chúng cung cấp khả năng quan sát cao hơn so với bản chất "hộp đen" của nhiều mạng nơ-ron.