Thuật ngữ

Bộ nhớ dài hạn ngắn hạn (LSTM)

Khám phá cách mạng Bộ nhớ dài hạn ngắn hạn (LSTM) xử lý dữ liệu tuần tự, khắc phục hạn chế của RNN và hỗ trợ các tác vụ AI như NLP và dự báo.

Bộ nhớ dài hạn ngắn hạn (LSTM) là một loại kiến trúc Mạng nơ-ron hồi quy (RNN) chuyên biệt được thiết kế để học và ghi nhớ các mẫu trên các chuỗi dữ liệu dài. Không giống như RNN tiêu chuẩn, vốn gặp khó khăn với các phụ thuộc dài hạn do vấn đề gradient biến mất , LSTM sử dụng một cơ chế cổng độc đáo để điều chỉnh luồng thông tin. Điều này cho phép mạng lưu giữ thông tin quan trọng một cách có chọn lọc trong thời gian dài đồng thời loại bỏ dữ liệu không liên quan, biến nó thành nền tảng của học sâu hiện đại, đặc biệt là trong Xử lý ngôn ngữ tự nhiên (NLP) . Bài báo LSTM nền tảng của Hochreiter và Schmidhuber đã đặt nền móng cho công nghệ mạnh mẽ này.

LSTM hoạt động như thế nào

Chìa khóa cho khả năng của LSTM nằm ở cấu trúc bên trong, bao gồm một "trạng thái tế bào" và một số "cổng". Trạng thái tế bào hoạt động như một băng chuyền, mang thông tin liên quan qua chuỗi. Các cổng - đầu vào, quên và đầu ra - là các mạng nơ-ron điều khiển thông tin nào được thêm vào, loại bỏ hoặc đọc từ trạng thái tế bào.

  • Cổng quên: Quyết định thông tin nào từ trạng thái ô trước đó sẽ bị loại bỏ.
  • Cổng đầu vào: Xác định thông tin mới nào từ đầu vào hiện tại sẽ được lưu trữ trong trạng thái ô.
  • Cổng đầu ra: Kiểm soát thông tin nào từ trạng thái tế bào được sử dụng để tạo đầu ra cho bước thời gian hiện tại.

Cấu trúc cổng này cho phép LSTM duy trì ngữ cảnh qua nhiều bước thời gian, một tính năng quan trọng để hiểu dữ liệu tuần tự như văn bản hoặc chuỗi thời gian . Bạn có thể tìm thấy hình ảnh minh họa chi tiết trong bài đăng trên blog Understanding LSTMs phổ biến này.

Ứng dụng trong thế giới thực

LSTM đã được áp dụng thành công trên nhiều lĩnh vực liên quan đến dữ liệu tuần tự.

  1. Dịch máy : LSTM có thể xử lý từng từ một câu trong một ngôn ngữ, xây dựng biểu diễn nội bộ (hiểu biết), rồi tạo ra bản dịch sang ngôn ngữ khác. Điều này đòi hỏi phải ghi nhớ ngữ cảnh từ đầu câu để tạo ra bản dịch mạch lạc. Google Dịch trước đây đã sử dụng các mô hình dựa trên LSTM cho mục đích này trước khi chuyển sang kiến trúc Transformer .
  2. Nhận dạng giọng nói : Trong các ứng dụng chuyển giọng nói thành văn bản , LSTM có thể xử lý chuỗi các đặc điểm âm thanh để phiên âm lời nói. Mô hình cần xem xét các âm thanh trước đó để diễn giải chính xác âm thanh hiện tại, thể hiện khả năng xử lý các phụ thuộc thời gian. Nhiều trợ lý ảo hiện đại đã dựa vào công nghệ này.

So sánh với các mô hình trình tự khác

LSTM là một phần của họ mô hình rộng hơn dành cho dữ liệu tuần tự.

  • Đơn vị Hồi quy Có Cổng (GRU) : GRU là phiên bản đơn giản hóa của LSTM. Nó kết hợp các cổng quên và cổng nhập thành một "cổng cập nhật" duy nhất và hợp nhất trạng thái ô và trạng thái ẩn. Điều này giúp GRU hiệu quả hơn về mặt tính toán và đào tạo nhanh hơn, mặc dù chúng có thể kém biểu cảm hơn một chút so với LSTM trong một số tác vụ.
  • Mô hình Markov Ẩn (HMM) : HMM là mô hình xác suất ít phức tạp hơn LSTM. Mặc dù hữu ích cho các tác vụ chuỗi đơn giản hơn, chúng không thể nắm bắt được các phụ thuộc phức tạp, tầm xa mà LSTM và các mạng nơ-ron khác có thể làm được.
  • Transformer: Kiến trúc Transformer, dựa trên cơ chế tự chú ý , đã vượt trội hơn hẳn LSTM, trở thành công nghệ tiên tiến nhất cho nhiều tác vụ NLP. Không giống như xử lý tuần tự của LSTM, Transformer có thể xử lý tất cả các phần tử của một chuỗi song song, giúp chúng hiệu quả cao trên phần cứng hiện đại như GPU và nắm bắt các phụ thuộc toàn cục tốt hơn.

Triển khai và Công cụ

LSTM có thể được triển khai dễ dàng bằng các khuôn khổ học sâu phổ biến như PyTorch (xem tài liệu về PyTorch LSTM ) và TensorFlow (xem tài liệu về TensorFlow LSTM ). Trong khi Ultralytics chủ yếu tập trung vào các mô hình Thị giác máy tính (CV) như Ultralytics YOLO cho các tác vụ như phát hiện đối tượngphân đoạn thể hiện , thì việc hiểu các mô hình trình tự rất có giá trị, đặc biệt là khi nghiên cứu khám phá việc kết nối NLP và CV cho các tác vụ như hiểu video hoặc chú thích hình ảnh. Bạn có thể tìm hiểu thêm về các mô hình và khái niệm ML khác nhau trong tài liệu của Ultralytics . Việc quản lý đào tạo và triển khai các mô hình khác nhau có thể được hợp lý hóa bằng các nền tảng như Ultralytics HUB . Các nguồn như DeepLearning.AI cung cấp các khóa học về các mô hình trình tự, bao gồm LSTM.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard