Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Mô hình thế giới

Khám phá cách các mô hình thế giới cho phép trí tuệ nhân tạo dự đoán trạng thái tương lai bằng cách sử dụng động lực môi trường. Tìm hiểu cách thức Ultralytics YOLO26 cung cấp khả năng nhận thức cho trí tuệ nhân tạo dự đoán.

"Mô hình thế giới" đề cập đến sự biểu diễn nội bộ của hệ thống AI về cách thức hoạt động của một môi trường, cho phép nó dự đoán các trạng thái hoặc kết quả trong tương lai dựa trên các quan sát hiện tại và các hành động tiềm năng. Không giống như các mô hình truyền thống ánh xạ trực tiếp đầu vào thành đầu ra (như phân loại hình ảnh), mô hình thế giới học hỏi các động lực, vật lý và mối quan hệ nhân quả cơ bản của một hệ thống. Khái niệm này rất quan trọng để thúc đẩy Trí tuệ Nhân tạo Tổng quát (AGI) vì nó cung cấp cho máy móc một dạng suy luận "thông thường", cho phép chúng mô phỏng các kịch bản trong tâm trí trước khi hành động trong thế giới thực.

Cơ chế đằng sau các mô hình thế giới

Về bản chất, mô hình thế giới hoạt động tương tự như trực giác của con người. Khi bạn ném một quả bóng, bạn không tính toán các phương trình lực cản của gió; bộ não của bạn mô phỏng quỹ đạo dựa trên kinh nghiệm trong quá khứ. Tương tự, trong học máy (ML) , các mô hình này nén dữ liệu cảm giác đa chiều (như khung hình video) thành một trạng thái tiềm ẩn nhỏ gọn. Trạng thái được nén này cho phép tác nhân "mơ" hoặc tưởng tượng ra các tương lai tiềm năng một cách hiệu quả.

Các nghiên cứu hàng đầu, chẳng hạn như công trình về Mô hình Thế giới Lặp lại của Ha và Schmidhuber, chứng minh cách các tác nhân có thể học các chính sách hoàn toàn bên trong một môi trường giấc mơ được mô phỏng. Gần đây hơn, những tiến bộ về trí tuệ nhân tạo tạo sinh như Sora của OpenAI thể hiện một hình thức mô hình hóa thế giới trực quan, trong đó hệ thống hiểu được vật lý, ánh sáng và tính vĩnh cửu của đối tượng để tạo ra sự liên tục mạch lạc của video.

Ứng dụng trong Robot và Mô phỏng

Các mô hình toàn cầu đặc biệt có tính đột phá trong các lĩnh vực đòi hỏi quá trình ra quyết định phức tạp.

  • Xe tự lái: Xe tự lái sử dụng các mô hình thế giới thực để dự đoán hành vi của các tài xế và người đi bộ khác. Bằng cách mô phỏng hàng nghìn kịch bản giao thông tiềm năng mỗi giây, xe có thể chọn con đường an toàn nhất. Điều này liên quan chặt chẽ đến thị giác máy tính trong các giải pháp ô tô , nơi nhận thức chính xác là nền tảng cho việc dự đoán.
  • Robot học: Trong sản xuất robot , một cánh tay robot được huấn luyện bằng mô hình thế giới có thể thích nghi với các vật thể mới hoặc chướng ngại vật bất ngờ mà không cần huấn luyện lại. Nó hiểu được các định luật vật lý về nắm bắt và chuyển động, giúp cải thiện các giải pháp sản xuất thông minh .

Mô hình thế giới so với học tăng cường tiêu chuẩn

Việc phân biệt giữa các mô hình toàn cầu và các phương pháp tiếp cận tiêu chuẩn là rất hữu ích:

  • Mô hình thế giới so với Học tăng cường (RL) : Học tăng cường truyền thống thường "không dựa trên mô hình", nghĩa là tác nhân học hoàn toàn thông qua thử và sai trong môi trường. Phương pháp mô hình thế giới là "dựa trên mô hình", trong đó tác nhân xây dựng một trình mô phỏng để học hỏi, giảm đáng kể lượng tương tác với thế giới thực cần thiết.
  • Mô hình thế giới so với Mô hình ngôn ngữ lớn (LLM) : Trong khi LLM dự đoán từ ngữ văn bản tiếp theo, mô hình thế giới thường dự đoán khung hình hoặc trạng thái trực quan tiếp theo. Tuy nhiên, ranh giới đang mờ dần với sự trỗi dậy của học tập đa phương thức , nơi các mô hình tích hợp văn bản, thị giác và vật lý.

Khái niệm thực tiễn ứng dụng

Mặc dù việc xây dựng một mô hình thế giới hoàn chỉnh rất phức tạp, nhưng khái niệm nền tảng dựa trên việc dự đoán các trạng thái tương lai. Đối với các tác vụ thị giác máy tính, các mô hình phát hiện tốc độ cao như Ultralytics YOLO26 hoạt động như những "con mắt" cảm giác, cung cấp thông tin quan sát cho logic ra quyết định.

Sau đây Python Đoạn mã này minh họa cách bạn có thể sử dụng... YOLO Mô hình này dùng để trích xuất trạng thái hiện tại (vị trí các đối tượng), trạng thái này sẽ được sử dụng làm đầu vào cho bước dự đoán của mô hình thế giới.

from ultralytics import YOLO

# Load the Ultralytics YOLO26 model to act as the perception layer
model = YOLO("yolo26n.pt")

# Perform inference to get the current state of the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding boxes (xyxy) representing object states
for result in results:
    boxes = result.boxes.xyxy.cpu().numpy()
    print(f"Observed State (Object Positions): {boxes}")
    # A World Model would take these 'boxes' to predict the NEXT frame's state

Tương lai của Trí tuệ nhân tạo dự đoán

Sự phát triển của các mô hình thế giới đang hướng tới trí tuệ nhân tạo vật lý , nơi trí tuệ kỹ thuật số tương tác liền mạch với thế giới vật lý. Những đổi mới như JEPA (Joint Embedding Predictive Architecture) của Yann LeCun đề xuất học các biểu diễn trừu tượng thay vì dự đoán từng pixel, giúp các mô hình hiệu quả hơn đáng kể.

Khi các kiến ​​trúc này hoàn thiện hơn, chúng tôi kỳ vọng sẽ thấy chúng được tích hợp vào Nền tảng Ultralytics , cho phép các nhà phát triển không chỉ detect Không chỉ phát hiện các đối tượng tĩnh mà còn dự đoán quỹ đạo và sự tương tác của chúng trong môi trường năng động. Sự chuyển đổi từ phát hiện tĩnh sang dự đoán động đánh dấu bước tiến lớn tiếp theo trong lĩnh vực thị giác máy tính (CV) .

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay