Khám phá cách mạng Long Short-Term Memory (LSTM) vượt trội trong việc xử lý dữ liệu tuần tự, khắc phục các hạn chế của RNN và cung cấp sức mạnh cho các tác vụ AI như NLP và dự báo.
Bộ nhớ dài hạn (LSTM) là một loại kiến trúc Mạng nơ-ron hồi quy (RNN) chuyên biệt được thiết kế để học và ghi nhớ các mẫu trên các chuỗi dữ liệu dài. Không giống như các RNN tiêu chuẩn, vốn gặp khó khăn với các phụ thuộc dài hạn do vấn đề biến mất gradient, LSTM sử dụng một cơ chế cổng duy nhất để điều chỉnh luồng thông tin. Điều này cho phép mạng giữ lại có chọn lọc thông tin quan trọng trong thời gian dài đồng thời loại bỏ dữ liệu không liên quan, khiến nó trở thành nền tảng của học sâu hiện đại, đặc biệt là trong Xử lý ngôn ngữ tự nhiên (NLP). Bài báo LSTM nền tảng của Hochreiter và Schmidhuber đã đặt nền móng cho công nghệ mạnh mẽ này.
Chìa khóa cho khả năng của LSTM là cấu trúc bên trong của nó, bao gồm một "trạng thái ô" và một số "cổng". Trạng thái ô hoạt động như một băng chuyền, mang thông tin liên quan thông qua chuỗi. Các cổng—đầu vào, quên và đầu ra—là các mạng nơ-ron kiểm soát những thông tin nào được thêm vào, xóa khỏi hoặc đọc từ trạng thái ô.
Cấu trúc cổng này cho phép LSTM duy trì ngữ cảnh qua nhiều bước thời gian, một tính năng quan trọng để hiểu dữ liệu tuần tự như văn bản hoặc chuỗi thời gian. Bạn có thể tìm thấy hình ảnh trực quan chi tiết trong bài đăng trên blog Understanding LSTMs phổ biến này.
LSTM đã được ứng dụng thành công trong nhiều lĩnh vực liên quan đến dữ liệu tuần tự.
LSTM là một phần của một họ mô hình rộng lớn hơn cho dữ liệu tuần tự.
LSTM có thể dễ dàng được triển khai bằng các framework học sâu phổ biến như PyTorch (xem tài liệu PyTorch LSTM) và TensorFlow (xem tài liệu TensorFlow LSTM). Mặc dù Ultralytics chủ yếu tập trung vào các mô hình Thị giác máy tính (CV) như Ultralytics YOLO cho các tác vụ như phát hiện đối tượng và phân vùng thể hiện, nhưng việc hiểu các mô hình chuỗi là rất có giá trị, đặc biệt khi nghiên cứu khám phá kết nối NLP và CV cho các tác vụ như hiểu video hoặc chú thích ảnh. Bạn có thể khám phá thêm các mô hình và khái niệm ML khác nhau trong tài liệu Ultralytics. Việc quản lý quá trình huấn luyện và triển khai các mô hình khác nhau có thể được đơn giản hóa bằng cách sử dụng các nền tảng như Ultralytics HUB. Các tài nguyên như DeepLearning.AI cung cấp các khóa học bao gồm các mô hình chuỗi, bao gồm cả LSTM.