Khám phá cách các mô hình thế giới cho phép trí tuệ nhân tạo dự đoán trạng thái tương lai bằng cách sử dụng động lực môi trường. Tìm hiểu cách thức Ultralytics YOLO26 cung cấp khả năng nhận thức cho trí tuệ nhân tạo dự đoán.
"Mô hình thế giới" đề cập đến sự biểu diễn nội bộ của hệ thống AI về cách thức hoạt động của một môi trường, cho phép nó dự đoán các trạng thái hoặc kết quả trong tương lai dựa trên các quan sát hiện tại và các hành động tiềm năng. Không giống như các mô hình truyền thống ánh xạ trực tiếp đầu vào thành đầu ra (như phân loại hình ảnh), mô hình thế giới học hỏi các động lực, vật lý và mối quan hệ nhân quả cơ bản của một hệ thống. Khái niệm này rất quan trọng để thúc đẩy Trí tuệ Nhân tạo Tổng quát (AGI) vì nó cung cấp cho máy móc một dạng suy luận "thông thường", cho phép chúng mô phỏng các kịch bản trong tâm trí trước khi hành động trong thế giới thực.
Về bản chất, mô hình thế giới hoạt động tương tự như trực giác của con người. Khi bạn ném một quả bóng, bạn không tính toán các phương trình lực cản của gió; bộ não của bạn mô phỏng quỹ đạo dựa trên kinh nghiệm trong quá khứ. Tương tự, trong học máy (ML) , các mô hình này nén dữ liệu cảm giác đa chiều (như khung hình video) thành một trạng thái tiềm ẩn nhỏ gọn. Trạng thái được nén này cho phép tác nhân "mơ" hoặc tưởng tượng ra các tương lai tiềm năng một cách hiệu quả.
Các nghiên cứu hàng đầu, chẳng hạn như công trình về Mô hình Thế giới Lặp lại của Ha và Schmidhuber, chứng minh cách các tác nhân có thể học các chính sách hoàn toàn bên trong một môi trường giấc mơ được mô phỏng. Gần đây hơn, những tiến bộ về trí tuệ nhân tạo tạo sinh như Sora của OpenAI thể hiện một hình thức mô hình hóa thế giới trực quan, trong đó hệ thống hiểu được vật lý, ánh sáng và tính vĩnh cửu của đối tượng để tạo ra sự liên tục mạch lạc của video.
Các mô hình toàn cầu đặc biệt có tính đột phá trong các lĩnh vực đòi hỏi quá trình ra quyết định phức tạp.
Việc phân biệt giữa các mô hình toàn cầu và các phương pháp tiếp cận tiêu chuẩn là rất hữu ích:
Mặc dù việc xây dựng một mô hình thế giới hoàn chỉnh rất phức tạp, nhưng khái niệm nền tảng dựa trên việc dự đoán các trạng thái tương lai. Đối với các tác vụ thị giác máy tính, các mô hình phát hiện tốc độ cao như Ultralytics YOLO26 hoạt động như những "con mắt" cảm giác, cung cấp thông tin quan sát cho logic ra quyết định.
Sau đây Python Đoạn mã này minh họa cách bạn có thể sử dụng... YOLO Mô hình này dùng để trích xuất trạng thái hiện tại (vị trí các đối tượng), trạng thái này sẽ được sử dụng làm đầu vào cho bước dự đoán của mô hình thế giới.
from ultralytics import YOLO
# Load the Ultralytics YOLO26 model to act as the perception layer
model = YOLO("yolo26n.pt")
# Perform inference to get the current state of the environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract bounding boxes (xyxy) representing object states
for result in results:
boxes = result.boxes.xyxy.cpu().numpy()
print(f"Observed State (Object Positions): {boxes}")
# A World Model would take these 'boxes' to predict the NEXT frame's state
Sự phát triển của các mô hình thế giới đang hướng tới trí tuệ nhân tạo vật lý , nơi trí tuệ kỹ thuật số tương tác liền mạch với thế giới vật lý. Những đổi mới như JEPA (Joint Embedding Predictive Architecture) của Yann LeCun đề xuất học các biểu diễn trừu tượng thay vì dự đoán từng pixel, giúp các mô hình hiệu quả hơn đáng kể.
Khi các kiến trúc này hoàn thiện hơn, chúng tôi kỳ vọng sẽ thấy chúng được tích hợp vào Nền tảng Ultralytics , cho phép các nhà phát triển không chỉ detect Không chỉ phát hiện các đối tượng tĩnh mà còn dự đoán quỹ đạo và sự tương tác của chúng trong môi trường năng động. Sự chuyển đổi từ phát hiện tĩnh sang dự đoán động đánh dấu bước tiến lớn tiếp theo trong lĩnh vực thị giác máy tính (CV) .