Yolo Vision Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Mạng nơ-ron dài-ngắn hạn (LSTM)

Khám phá cách mạng Long Short-Term Memory (LSTM) vượt trội trong việc xử lý dữ liệu tuần tự, khắc phục các hạn chế của RNN và cung cấp sức mạnh cho các tác vụ AI như NLP và dự báo.

Bộ nhớ dài hạn (LSTM) là một loại kiến trúc Mạng nơ-ron hồi quy (RNN) chuyên biệt được thiết kế để học và ghi nhớ các mẫu trên các chuỗi dữ liệu dài. Không giống như các RNN tiêu chuẩn, vốn gặp khó khăn với các phụ thuộc dài hạn do vấn đề biến mất gradient, LSTM sử dụng một cơ chế cổng duy nhất để điều chỉnh luồng thông tin. Điều này cho phép mạng giữ lại có chọn lọc thông tin quan trọng trong thời gian dài đồng thời loại bỏ dữ liệu không liên quan, khiến nó trở thành nền tảng của học sâu hiện đại, đặc biệt là trong Xử lý ngôn ngữ tự nhiên (NLP). Bài báo LSTM nền tảng của Hochreiter và Schmidhuber đã đặt nền móng cho công nghệ mạnh mẽ này.

LSTM hoạt động như thế nào

Chìa khóa cho khả năng của LSTM là cấu trúc bên trong của nó, bao gồm một "trạng thái ô" và một số "cổng". Trạng thái ô hoạt động như một băng chuyền, mang thông tin liên quan thông qua chuỗi. Các cổng—đầu vào, quên và đầu ra—là các mạng nơ-ron kiểm soát những thông tin nào được thêm vào, xóa khỏi hoặc đọc từ trạng thái ô.

  • Cổng quên: Quyết định thông tin nào từ trạng thái ô trước đó nên bị loại bỏ.
  • Cổng đầu vào: Xác định thông tin mới nào từ đầu vào hiện tại sẽ được lưu trữ trong trạng thái ô.
  • Cổng đầu ra (Output Gate): Kiểm soát thông tin nào từ trạng thái ô nhớ được sử dụng để tạo ra đầu ra cho bước thời gian hiện tại.

Cấu trúc cổng này cho phép LSTM duy trì ngữ cảnh qua nhiều bước thời gian, một tính năng quan trọng để hiểu dữ liệu tuần tự như văn bản hoặc chuỗi thời gian. Bạn có thể tìm thấy hình ảnh trực quan chi tiết trong bài đăng trên blog Understanding LSTMs phổ biến này.

Các Ứng dụng Thực tế

LSTM đã được ứng dụng thành công trong nhiều lĩnh vực liên quan đến dữ liệu tuần tự.

  1. Dịch máy (Machine Translation): LSTM có thể xử lý một câu bằng một ngôn ngữ theo từng từ, xây dựng một biểu diễn nội bộ (hiểu) và sau đó tạo ra một bản dịch bằng một ngôn ngữ khác. Điều này đòi hỏi phải ghi nhớ ngữ cảnh từ đầu câu để tạo ra một bản dịch mạch lạc. Google Dịch (Google Translate) trước đây đã sử dụng các mô hình dựa trên LSTM cho mục đích này trước khi chuyển sang kiến trúc Transformer.
  2. Nhận dạng giọng nói (Speech Recognition): Trong các ứng dụng chuyển giọng nói thành văn bản (speech-to-text), LSTM có thể xử lý các chuỗi đặc trưng âm thanh để chuyển ngữ các từ được nói. Mô hình cần xem xét các âm thanh trước đó để diễn giải chính xác âm thanh hiện tại, thể hiện khả năng xử lý các phụ thuộc thời gian của nó. Nhiều trợ lý ảo hiện đại đã dựa vào công nghệ này.

So Sánh Với Các Mô Hình Chuỗi Khác

LSTM là một phần của một họ mô hình rộng lớn hơn cho dữ liệu tuần tự.

  • Gated Recurrent Unit (GRU): GRU là một phiên bản đơn giản hóa của LSTM. Nó kết hợp các cổng quên và cổng đầu vào thành một "cổng cập nhật" duy nhất và hợp nhất trạng thái ô và trạng thái ẩn. Điều này làm cho GRU hiệu quả hơn về mặt tính toán và nhanh hơn để huấn luyện, mặc dù chúng có thể kém biểu cảm hơn một chút so với LSTM trong một số tác vụ.
  • Mô hình Markov ẩn (Hidden Markov Models - HMMs): HMM là các mô hình xác suất ít phức tạp hơn LSTM. Mặc dù hữu ích cho các tác vụ chuỗi đơn giản hơn, nhưng chúng không thể nắm bắt các phụ thuộc tầm xa phức tạp mà LSTM và các mạng nơ-ron khác có thể.
  • Transformer: Kiến trúc Transformer, dựa trên cơ chế tự chú ý (self-attention mechanism), phần lớn đã vượt qua LSTM để trở thành công nghệ hiện đại nhất cho nhiều tác vụ NLP. Không giống như xử lý tuần tự của LSTM, Transformer có thể xử lý song song tất cả các phần tử của một chuỗi, làm cho chúng có hiệu quả cao trên phần cứng hiện đại như GPU và tốt hơn trong việc nắm bắt các phụ thuộc toàn cục.

Triển khai và Công cụ

LSTM có thể dễ dàng được triển khai bằng các framework học sâu phổ biến như PyTorch (xem tài liệu PyTorch LSTM) và TensorFlow (xem tài liệu TensorFlow LSTM). Mặc dù Ultralytics chủ yếu tập trung vào các mô hình Thị giác máy tính (CV) như Ultralytics YOLO cho các tác vụ như phát hiện đối tượngphân vùng thể hiện, nhưng việc hiểu các mô hình chuỗi là rất có giá trị, đặc biệt khi nghiên cứu khám phá kết nối NLP và CV cho các tác vụ như hiểu video hoặc chú thích ảnh. Bạn có thể khám phá thêm các mô hình và khái niệm ML khác nhau trong tài liệu Ultralytics. Việc quản lý quá trình huấn luyện và triển khai các mô hình khác nhau có thể được đơn giản hóa bằng cách sử dụng các nền tảng như Ultralytics HUB. Các tài nguyên như DeepLearning.AI cung cấp các khóa học bao gồm các mô hình chuỗi, bao gồm cả LSTM.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard