Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Mô hình Markov ẩn (HMM)

Learn how a Hidden Markov Model (HMM) works in statistical AI. Explore its core mechanisms, use cases in sequence analysis, and integration with [YOLO26](https://docs.ultralytics.com/models/yolo26/) for advanced action recognition.

Mô hình Markov ẩn (HMM) là một khung thống kê được sử dụng để mô hình hóa các hệ thống mà quá trình bên trong không thể quan sát trực tiếp – do đó được gọi là "ẩn" – nhưng có thể được suy luận thông qua một chuỗi các sự kiện có thể quan sát được. Mặc dù học sâu hiện đại đã phát triển để xử lý các chuỗi phức tạp, HMM vẫn là một khái niệm nền tảng trong trí tuệ nhân tạo thống kê và lý thuyết xác suất. Nó đặc biệt hiệu quả trong việc phân tích dữ liệu chuỗi thời gian , nơi thứ tự các sự kiện cung cấp ngữ cảnh quan trọng, dựa trên nguyên tắc cốt lõi rằng xác suất của một trạng thái tương lai chỉ phụ thuộc vào trạng thái hiện tại, chứ không phải vào lịch sử đã xảy ra trước đó.

Các cơ chế cốt lõi của HMM

Để hiểu cách thức hoạt động của mô hình HMM, điều cần thiết là phải phân biệt giữa hai lớp riêng biệt của mô hình: các trạng thái ẩn và các đầu ra hiển thị. Mô hình giả định rằng hệ thống chuyển đổi giữa các trạng thái ẩn theo các xác suất cụ thể, phát ra một quan sát ở mỗi bước.

Mô hình HMM được định nghĩa bởi một tập hợp các tham số chi phối các quá trình chuyển đổi và phát xạ này:

  • Trạng thái ẩn : Chúng thể hiện thực tại tiềm ẩn của hệ thống tại một thời điểm nhất định. Trong mô hình ngôn ngữ, trạng thái ẩn có thể đại diện cho một âm vị hoặc từ cụ thể.
  • Các sự kiện quan sát được : Đây là các điểm dữ liệu thực tế được thu thập bởi các cảm biến hoặc đầu vào. Trong ví dụ về giọng nói, dữ liệu quan sát được sẽ là dạng sóng âm thanh hoặc dữ liệu phổ tần.
  • Xác suất chuyển đổi : Ma trận này mô tả khả năng chuyển từ trạng thái ẩn này sang trạng thái ẩn khác. Ví dụ, xác suất thời tiết thay đổi từ "Mưa" sang "Nắng".
  • Xác suất phát xạ : Đây là các giá trị xác định khả năng quan sát được một dữ liệu cụ thể dựa trên trạng thái ẩn hiện tại.
  • Xác suất ban đầu : Phân bố xác định trạng thái mà hệ thống có nhiều khả năng bắt đầu nhất.

Việc huấn luyện một mô hình HMM thường bao gồm thuật toán Baum-Welch để ước tính các tham số này từ dữ liệu huấn luyện . Sau khi được huấn luyện, thuật toán Viterbi thường được sử dụng để giải mã chuỗi trạng thái ẩn có khả năng xảy ra nhất từ ​​một tập hợp quan sát mới.

So sánh HMM với các mô hình chuỗi khác

Mặc dù HMM có những điểm tương đồng với các công cụ xử lý chuỗi khác, nhưng chúng khác biệt đáng kể về kiến ​​trúc và ứng dụng:

  • So sánh HMM và Mạng thần kinh hồi quy (RNN) : RNN và mạng bộ nhớ dài hạn ngắn hạn (LSTM) là các mô hình học sâu có khả năng nắm bắt các mối quan hệ phụ thuộc tầm xa và các mẫu phi tuyến tính, trong khi HMM là các mô hình xác suất đơn giản hơn, bị giới hạn bởi giả định Markov (bộ nhớ ngắn hạn). Tuy nhiên, HMM yêu cầu lượng dữ liệu ít hơn đáng kể và dễ hiểu hơn nhiều.
  • HMM so với Bộ lọc Kalman (KF) : Cả hai đều được sử dụng để ước lượng trạng thái. Tuy nhiên, Bộ lọc Kalman được thiết kế cho các trạng thái liên tục (như theo dõi vị trí chính xác của một chiếc xe đang di chuyển), trong khi HMM được sử dụng cho các trạng thái rời rạc (như xác định xem xe đang "đỗ", "đang chạy" hay "dừng").

Các Ứng dụng Thực tế

Mặc dù sự phát triển mạnh mẽ của học sâu (DL) , mô hình Markov ẩn vẫn được sử dụng rộng rãi trong các trường hợp yêu cầu suy luận xác suất trên các chuỗi.

Nhận dạng giọng nói và chữ viết

Trong lịch sử, mô hình HMM (Hidden Markov Model) là xương sống của các hệ thống nhận dạng giọng nói . Trong ngữ cảnh này, các từ được nói ra là các trạng thái "ẩn", và tín hiệu âm thanh được ghi lại bởi micro là các quan sát. HMM giúp xác định chuỗi từ có khả năng nhất đã tạo ra tín hiệu âm thanh. Tương tự, chúng hỗ trợ giải mã chữ viết tay bằng cách mô hình hóa sự chuyển tiếp giữa các nét chữ.

Phân tích trình tự sinh học

Trong lĩnh vực tin sinh học , mô hình HMM đóng vai trò quan trọng trong dự đoán gen và căn chỉnh protein. Chúng phân tích trình tự DNA hoặc axit amin để xác định các vùng chức năng, chẳng hạn như các gen trong bộ gen. Các trạng thái "ẩn" có thể đại diện cho các vùng mã hóa hoặc không mã hóa, trong khi các nucleotide cụ thể (A, C, G, T) đóng vai trò là các quan sát.

Nhận dạng hành động trong thị giác máy tính

Trong thị giác máy tính hiện đại, HMM có thể được kết hợp với các mô hình như YOLO26 để thực hiện nhận dạng hành động . YOLO HMM phát hiện các đối tượng hoặc tư thế trong từng khung hình riêng lẻ, từ đó phân tích chuỗi các tư thế này theo thời gian để... classify Một hành động, chẳng hạn như "đi bộ", "chạy" hoặc "ngã".

Tích hợp tầm nhìn và phân tích trạng thái

Đối với các nhà phát triển sử dụng Nền tảng Ultralytics để quản lý tập dữ liệu và mô hình, việc hiểu logic tuần tự là rất quan trọng. Mô hình thị giác cung cấp các quan sát thô (phát hiện), sau đó có thể được đưa vào mô hình không gian trạng thái như HMM để suy ra ngữ cảnh thời gian.

Ví dụ sau đây minh họa cách tạo ra một chuỗi các quan sát bằng cách sử dụng ước tính tư thế YOLO26 . Các điểm mấu chốt này có thể được dùng làm đầu vào "sự kiện quan sát được" cho mô hình HMM hoặc logic tương tự ở các bước tiếp theo. classify hành vi thay đổi theo thời gian.

from ultralytics import YOLO

# Load the YOLO26n-pose model for efficient keypoint detection
model = YOLO("yolo26n-pose.pt")

# Run inference on a video source (the 'observable' sequence)
# stream=True creates a generator for memory efficiency
results = model.predict(source="path/to/video.mp4", stream=True)

# Iterate through frames to extract observations
for result in results:
    # Each 'keypoints' object is an observation for a potential HMM
    keypoints = result.keypoints.xyn.cpu().numpy()

    if keypoints.size > 0:
        print(f"Observation (Normalized Keypoints): {keypoints[0][:5]}...")
        # In a full pipeline, these points would be fed into an HMM decoder

Tầm quan trọng trong Trí tuệ nhân tạo hiện đại

Mặc dù các mô hình Transformer và mô hình ngôn ngữ lớn (LLM) đã vượt trội hơn các mô hình HMM trong các tác vụ như xử lý ngôn ngữ tự nhiên (NLP) , nhưng HMM vẫn giữ vai trò quan trọng trong điện toán biên và môi trường độ trễ thấp. Hiệu quả tính toán của chúng khiến chúng trở nên lý tưởng cho các hệ thống có tài nguyên hạn chế, nơi việc sử dụng GPU mạnh mẽ là không khả thi. Hơn nữa, vì chúng dựa trên ma trận xác suất minh bạch, chúng cung cấp khả năng quan sát cao hơn so với bản chất "hộp đen" của nhiều mạng nơ-ron.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay