Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Cửa sổ ngữ cảnh

Khám phá cách cửa sổ ngữ cảnh (context window) tăng cường các mô hình AI/ML trong NLP, phân tích chuỗi thời gian và AI thị giác, cải thiện khả năng dự đoán và độ chính xác.

Cửa sổ ngữ cảnh xác định lượng thông tin tối đa—chuỗi văn bản, mẫu âm thanh hoặc dữ liệu hình ảnh—mà một mô hình học máy (ML) có thể xử lý và xem xét tại bất kỳ thời điểm nào. Hoạt động hiệu quả như bộ nhớ ngắn hạn của mô hình, khoảng thời gian cố định này xác định lượng chuỗi đầu vào mà hệ thống có thể "nhìn thấy" để đưa ra dự đoán hiện tại. Trong các lĩnh vực từ Xử lý Ngôn ngữ Tự nhiên (NLP) đến hiểu biết về video , kích thước của cửa sổ ngữ cảnh là một tham số kiến trúc quan trọng ảnh hưởng trực tiếp đến khả năng duy trì tính mạch lạc, hiểu các mối phụ thuộc dài hạn và tạo ra kết quả đầu ra chính xác của mô hình.

Cơ chế của bối cảnh

Các kiến trúc học sâu được thiết kế cho dữ liệu tuần tự, chẳng hạn như Mạng Nơ-ron Hồi quy (RNN)Transformer phổ biến, phụ thuộc rất nhiều vào cơ chế cửa sổ ngữ cảnh. Khi Mô hình Ngôn ngữ Lớn (LLM) tạo văn bản, nó không phân tích từ hiện tại một cách riêng lẻ; thay vào đó, nó đánh giá các từ trước đó trong cửa sổ ngữ cảnh của nó để tính toán xác suất của mã thông báo tiếp theo.

Cơ chế tự chú ý cho phép các mô hình cân nhắc tầm quan trọng của các phần khác nhau của dữ liệu đầu vào trong cửa sổ này. Tuy nhiên, khả năng này đi kèm với chi phí tính toán. Các cơ chế chú ý tiêu chuẩn tỷ lệ thuận với độ dài chuỗi, nghĩa là việc tăng gấp đôi kích thước cửa sổ có thể tăng gấp bốn lần bộ nhớ cần thiết từ GPU . Các nhà nghiên cứu tại các tổ chức như Đại học Stanford đã phát triển các phương pháp tối ưu hóa như Flash Attention để giảm thiểu chi phí này, cho phép các cửa sổ ngữ cảnh dài hơn đáng kể, cho phép các mô hình xử lý toàn bộ tài liệu hoặc phân tích các chuỗi video dài chỉ trong một lần chạy.

Các Ứng dụng Thực tế

Tiện ích thực tế của cửa sổ ngữ cảnh mở rộng trên nhiều lĩnh vực khác nhau của trí tuệ nhân tạo (AI) :

  • AI đàm thoại và Chatbot: Chatbottrợ lý ảo hiện đại sử dụng cửa sổ ngữ cảnh để duy trì mạch hội thoại. Cửa sổ lớn hơn cho phép nhân viên nhớ lại các chi tiết đã đề cập trước đó trong cuộc trò chuyện, giảm sự lặp lại và cải thiện trải nghiệm người dùng.
  • Theo dõi Đối tượng Video: Trong thị giác máy tính , các thuật toán theo dõi phải nhận dạng đối tượng và duy trì danh tính của chúng qua nhiều khung hình. Ở đây, "bối cảnh" là thời gian; mô hình sử dụng thông tin từ các khung hình trước đó để dự đoán quỹ đạo của đối tượng và xử lý các điểm che khuất. Kiến trúc Ultralytics YOLO11 hỗ trợ các tính năng theo dõi đối tượng , tận dụng tính nhất quán về mặt thời gian này để theo dõi chính xác chuyển động trong nguồn cấp dữ liệu video thời gian thực.
  • Dự báo tài chính: Thuật toán đầu tư sử dụng mô hình dự đoán để phân tích xu hướng thị trường. Bằng cách thiết lập một khung ngữ cảnh cụ thể dựa trên giá cổ phiếu lịch sử, các mô hình này có thể xác định các mô hình và chu kỳ lặp lại liên quan đến biến động giá trong tương lai, một thành phần cốt lõi của chiến lược giao dịch thuật toán .

Ví dụ: Bối cảnh thời gian trong Phân tích video

Trong khi cửa sổ ngữ cảnh thường được thảo luận trong quá trình tạo văn bản, chúng lại rất quan trọng về mặt khái niệm trong phân tích video, trong đó ngữ cảnh là chuỗi các khung hình. Sau đây Python đoạn trích minh họa cách sử dụng Ultralytics YOLO11 mô hình theo dõi đối tượng, dựa vào bối cảnh thời gian để duy trì danh tính đối tượng trên luồng video.

from ultralytics import YOLO

# Load the YOLO11 model (nano version for speed)
model = YOLO("yolo11n.pt")

# Track objects in a video, using temporal context to maintain IDs
# The model processes frames sequentially, maintaining history
results = model.track(source="https://docs.ultralytics.com/modes/track/", show=True)

Phân biệt các khái niệm liên quan

Để nắm bắt đầy đủ khái niệm này, sẽ rất hữu ích khi phân biệt cửa sổ ngữ cảnh với các thuật ngữ tương tự có trong thuật ngữ học máy:

  • Cửa sổ ngữ cảnh so với Trường tiếp nhận : Mặc dù cả hai thuật ngữ đều đề cập đến phạm vi dữ liệu đầu vào mà mô hình nhận thức, "Trường tiếp nhận" thường được sử dụng trong Mạng nơ-ron tích chập (CNN) để mô tả vùng không gian của hình ảnh ảnh hưởng đến một nơ-ron cụ thể. Ngược lại, "Cửa sổ ngữ cảnh" thường ngụ ý một khoảng thời gian tuần tự hoặc thời gian, chẳng hạn như độ dài văn bản hoặc thời lượng video.
  • Cửa sổ ngữ cảnh so với Mã hóa : Mã hóa là quá trình chia nhỏ dữ liệu đầu vào thành các đơn vị nhỏ hơn (token). Giới hạn cửa sổ ngữ cảnh thường được thể hiện bằng các token này (ví dụ: "giới hạn token 128k"). Do đó, hiệu quả của bộ mã hóa ảnh hưởng trực tiếp đến lượng thông tin thực tế nằm trong cửa sổ ngữ cảnh cố định.
  • Cửa sổ ngữ cảnh so với Kích thước lô : Kích thước lô đề cập đến số lượng mẫu độc lập được xử lý song song trong quá trình đào tạo mô hình , trong khi cửa sổ ngữ cảnh đề cập đến kích thước hoặc độ dài của một mẫu duy nhất theo chiều tuần tự của nó.

Thách thức và Tối ưu hóa

Việc lựa chọn kích thước cửa sổ ngữ cảnh tối ưu đòi hỏi sự cân bằng giữa hiệu suất và mức tiêu thụ tài nguyên. Một cửa sổ ngắn có thể khiến mô hình bỏ lỡ các phụ thuộc tầm xa quan trọng, dẫn đến "mất trí nhớ" về các dữ liệu đầu vào trước đó. Ngược lại, một cửa sổ quá dài sẽ làm tăng độ trễ suy luận và đòi hỏi bộ nhớ lớn, điều này có thể làm phức tạp việc triển khai mô hình trên các thiết bị biên.

Các nền tảng như PyTorchTensorFlow cung cấp các công cụ để quản lý các chuỗi này, và các nhà nghiên cứu tiếp tục công bố các phương pháp để mở rộng khả năng xử lý ngữ cảnh một cách hiệu quả. Ví dụ, các kỹ thuật như Retrieval-Augmented Generation (RAG) cho phép các mô hình truy cập vào các cơ sở dữ liệu vector bên ngoài khổng lồ mà không cần một cửa sổ ngữ cảnh bên trong vô hạn, thu hẹp khoảng cách giữa kiến thức tĩnh và xử lý động. Nhìn về tương lai, các kiến trúc như YOLO26 sắp ra mắt hướng đến việc tối ưu hóa hơn nữa cách xử lý ngữ cảnh trực quan từ đầu đến cuối để đạt hiệu quả cao hơn nữa.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay