Bảng chú giải thuật ngữ

Mạng nơ-ron dài-ngắn hạn (LSTM)

Khám phá mạng nơ-ron bộ nhớ dài hạn ngắn hạn (LSTM). Tìm hiểu cách LSTM giải quyết vấn đề suy giảm độ dốc trong mạng nơ-ron hồi quy (RNN) cho các tác vụ xử lý chuỗi thời gian, xử lý ngôn ngữ tự nhiên (NLP) và phân tích video.

Mạng nơ-ron hồi quy (RNN) bộ nhớ dài hạn ngắn hạn (LSTM) là một loại kiến trúc RNN chuyên biệt có khả năng học sự phụ thuộc vào thứ tự trong các bài toán dự đoán chuỗi. Không giống như các mạng nơ-ron truyền thẳng thông thường, LSTM có các kết nối phản hồi cho phép chúng xử lý không chỉ các điểm dữ liệu đơn lẻ (như hình ảnh), mà cả toàn bộ chuỗi dữ liệu (như giọng nói hoặc video). Khả năng này làm cho chúng đặc biệt phù hợp với các nhiệm vụ mà ngữ cảnh từ các đầu vào trước đó rất quan trọng để hiểu dữ liệu hiện tại, khắc phục những hạn chế về "bộ nhớ ngắn hạn" của các RNN truyền thống.

Vấn đề với mạng RNN tiêu chuẩn

Để hiểu được sự đổi mới của LSTM, cần xem xét những thách thức mà các mạng nơ-ron hồi quy cơ bản (RNN) gặp phải. Mặc dù RNN được thiết kế để xử lý thông tin tuần tự, chúng lại gặp khó khăn với các chuỗi dữ liệu dài do vấn đề suy giảm gradient . Khi mạng lan truyền ngược theo thời gian, gradient—các giá trị được sử dụng để cập nhật trọng số của mạng—có thể giảm theo cấp số mũ, ngăn cản mạng học được các mối liên hệ giữa các sự kiện xa nhau. Điều này có nghĩa là một RNN tiêu chuẩn có thể nhớ một từ trong câu trước nhưng quên ngữ cảnh được thiết lập ba đoạn văn trước đó. LSTM được thiết kế đặc biệt để giải quyết vấn đề này bằng cách giới thiệu một cấu trúc nội bộ phức tạp hơn có thể duy trì cửa sổ ngữ cảnh trong thời gian dài hơn nhiều.

LSTM hoạt động như thế nào

Khái niệm cốt lõi đằng sau mạng LSTM là trạng thái ô (cell state), thường được mô tả như một băng chuyền chạy xuyên suốt toàn bộ chuỗi mạng. Trạng thái này cho phép thông tin truyền tải mà không bị thay đổi, bảo toàn các phụ thuộc dài hạn. Mạng đưa ra quyết định về việc lưu trữ, cập nhật hoặc loại bỏ thông tin nào từ trạng thái ô này bằng cách sử dụng các cấu trúc được gọi là cổng (gates).

Cổng quên: Cơ chế này quyết định thông tin nào không còn liên quan và cần được loại bỏ khỏi trạng thái ô nhớ. Ví dụ, nếu một mô hình ngôn ngữ gặp một chủ ngữ mới, nó có thể "quên" giới tính của chủ ngữ trước đó.
Cổng đầu vào: Cổng này xác định thông tin mới nào đủ quan trọng để được lưu trữ trong trạng thái ô nhớ.
Cổng đầu ra: Cuối cùng, cổng này điều khiển những phần nào của trạng thái nội bộ sẽ được xuất ra trạng thái ẩn tiếp theo và được sử dụng để dự đoán ngay lập tức.

Bằng cách điều chỉnh luồng thông tin này, LSTM có thể khắc phục độ trễ thời gian hơn 1.000 bước, vượt trội hơn hẳn các mạng RNN thông thường trong các tác vụ yêu cầu phân tích chuỗi thời gian .

Các Ứng dụng Thực tế

Mạng LSTM đã tạo nên nhiều bước đột phá lớn trong lĩnh vực học sâu trong thập kỷ qua. Dưới đây là hai ví dụ nổi bật về ứng dụng của chúng:

Mô hình hóa chuỗi-đến-chuỗi trong dịch thuật: Mạng LSTM là nền tảng của các hệ thống dịch máy . Trong kiến trúc này, một mạng LSTM (bộ mã hóa) xử lý một câu đầu vào trong một ngôn ngữ (ví dụ: English Mạng LSTM thứ nhất (bộ giải mã) sẽ xử lý chuỗi đầu vào và đầu ra, nén nó thành một vectơ ngữ cảnh. Sau đó, LSTM thứ hai sử dụng vectơ này để tạo ra bản dịch sang một ngôn ngữ khác (ví dụ: tiếng Pháp). Khả năng xử lý chuỗi đầu vào và đầu ra có độ dài khác nhau này rất quan trọng đối với xử lý ngôn ngữ tự nhiên (NLP) .
Phân tích video và nhận diện hoạt động: Mặc dù mạng nơ-ron tích chập (CNN) như ResNet-50 rất giỏi trong việc nhận diện đối tượng trong ảnh tĩnh, nhưng chúng lại thiếu khả năng nhận biết thời gian. Bằng cách kết hợp CNN với LSTM, hệ thống AI có thể thực hiện nhận diện hành động trong luồng video. CNN trích xuất các đặc trưng từ mỗi khung hình, và LSTM phân tích trình tự của các đặc trưng này để xác định xem một người đang đi bộ, chạy hay ngã.

Tích hợp mạng LSTM với thị giác máy tính

Trong lĩnh vực thị giác máy tính hiện đại, mạng LSTM thường được sử dụng cùng với các bộ trích xuất đặc trưng mạnh mẽ. Ví dụ, bạn có thể sử dụng một... YOLO mô hình tới detect các đối tượng trong từng khung hình riêng lẻ và một LSTM để track quỹ đạo của chúng hoặc dự đoán chuyển động trong tương lai.

Dưới đây là một ví dụ minh họa sử dụng torch Để định nghĩa một mạng LSTM đơn giản có thể xử lý một chuỗi các vectơ đặc trưng được trích xuất từ luồng video:

import torch
import torch.nn as nn

# Define an LSTM model for processing sequential video features
# Input size: 512 (e.g., features from a CNN), Hidden size: 128
lstm_model = nn.LSTM(input_size=512, hidden_size=128, num_layers=2, batch_first=True)

# Simulate a batch of video sequences: 8 videos, 10 frames each, 512 features per frame
video_features = torch.randn(8, 10, 512)

# Pass the sequence through the LSTM
output, (hidden_state, cell_state) = lstm_model(video_features)

print(f"Output shape: {output.shape}")  # Shape: [8, 10, 128]
print("LSTM successfully processed the temporal sequence.")

Các khái niệm liên quan và sự khác biệt

Việc phân biệt LSTM với các kiến trúc xử lý chuỗi khác là rất hữu ích:

LSTM so với GRU: Gated Recurrent Unit (GRU) là một biến thể đơn giản hóa của LSTM. GRU kết hợp cổng quên và cổng đầu vào thành một "cổng cập nhật" duy nhất và hợp nhất trạng thái ô nhớ và trạng thái ẩn. Điều này làm cho GRU hiệu quả hơn về mặt tính toán và huấn luyện nhanh hơn, mặc dù LSTM vẫn có thể vượt trội hơn trên các tập dữ liệu lớn hơn và phức tạp hơn.
LSTM so với Transformer: Kiến trúc Transformer , dựa trên cơ chế tự chú ý thay vì cơ chế lặp lại, đã phần nào thay thế LSTM trong các tác vụ xử lý ngôn ngữ tự nhiên như của GPT-4 . Transformer có thể xử lý toàn bộ chuỗi song song thay vì tuần tự, cho phép huấn luyện nhanh hơn nhiều trên các tập dữ liệu khổng lồ. Tuy nhiên, LSTM vẫn còn phù hợp trong các trường hợp dữ liệu hạn chế hoặc có các ràng buộc cụ thể về chuỗi thời gian, nơi mà chi phí của cơ chế chú ý là không cần thiết.

Sự tiến hóa và tương lai

Mặc dù cơ chế chú ý đã trở thành trọng tâm trong trí tuệ nhân tạo tạo sinh , mạng LSTM vẫn tiếp tục là lựa chọn mạnh mẽ cho các ứng dụng nhẹ hơn, đặc biệt là trong môi trường trí tuệ nhân tạo biên nơi tài nguyên tính toán bị hạn chế. Các nhà nghiên cứu tiếp tục khám phá các kiến trúc lai kết hợp hiệu quả bộ nhớ của mạng LSTM với sức mạnh biểu diễn của các hệ thống phát hiện đối tượng hiện đại.

Đối với những ai đang tìm cách quản lý tập dữ liệu để huấn luyện các mô hình chuỗi hoặc các tác vụ thị giác phức tạp, Nền tảng Ultralytics cung cấp các công cụ toàn diện để chú thích và quản lý tập dữ liệu. Hơn nữa, hiểu cách thức hoạt động của LSTM sẽ tạo nền tảng vững chắc để nắm bắt các mô hình thời gian tiên tiến hơn được sử dụng trong xe tự hành và robot.

Mạng nơ-ron dài-ngắn hạn (LSTM)

Xe lửa Ultralytics YOLO các mô hình để hợp lý hóa quy trình làm việc trên khắp các ngành công nghiệp

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Vấn đề với mạng RNN tiêu chuẩn

LSTM hoạt động như thế nào

Các Ứng dụng Thực tế

Tích hợp mạng LSTM với thị giác máy tính

Các khái niệm liên quan và sự khác biệt

Sự tiến hóa và tương lai

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Ước lượng độ sâu đơn ảnh là gì? Tổng quan

Một cái nhìn về việc sử dụng Ultralytics YOLO các mô hình để phát hiện mối đe dọa AI

Tham gia Ultralytics cộng đồng