Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Mô hình Thế giới

Khám phá cách các Mô hình Thế giới mô phỏng môi trường để dự đoán kết quả tương lai. Tìm hiểu cách chúng nâng cao hiệu quả hoạt động. Ultralytics YOLO26 dành cho lái xe tự hành và robot tiên tiến.

Mô hình Thế giới là một hệ thống trí tuệ nhân tạo tiên tiến được thiết kế để học một mô phỏng toàn diện về môi trường của nó, dự đoán thế giới sẽ phát triển như thế nào theo thời gian và hành động của chính nó ảnh hưởng đến tương lai đó ra sao. Không giống như mô hình dự đoán truyền thống thường tập trung vào việc ánh xạ các đầu vào tĩnh thành đầu ra—chẳng hạn như phân loại hình ảnh—Mô hình Thế giới tìm cách hiểu động lực nhân quả của một cảnh. Bằng cách nội hóa các quy luật vật lý, logic và trình tự thời gian của dữ liệu mà nó quan sát được, nó có thể mô phỏng các kết quả tiềm năng trước khi chúng xảy ra. Khả năng này tương tự như mô hình tư duy của con người, cho phép AI "mơ" hoặc hình dung các kịch bản tương lai để lập kế hoạch cho các nhiệm vụ phức tạp hoặc tạo ra nội dung video chân thực.

Vượt ra khỏi nhận thức tĩnh

Điểm đột phá cốt lõi của Mô hình Thế giới nằm ở khả năng suy luận về thời gian và mối quan hệ nhân quả. Trong các tác vụ thị giác máy tính tiêu chuẩn, các mô hình như Ultralytics YOLO26 hoạt động xuất sắc trong việc phát hiện các đối tượng trong một khung hình duy nhất. Tuy nhiên, Mô hình Thế giới còn tiến xa hơn bằng cách dự đoán vị trí của các đối tượng đó trong khung hình tiếp theo. Sự chuyển đổi từ nhận dạng tĩnh sang dự đoán động này rất quan trọng đối với việc phát triển các phương tiện tự hành và robot tiên tiến.

Những đột phá gần đây, chẳng hạn như mô hình chuyển văn bản thành video Sora của OpenAI, chứng minh sức mạnh tạo sinh của Mô hình Thế giới. Bằng cách hiểu cách ánh sáng, chuyển động và hình học tương tác, các hệ thống này có thể tạo ra những môi trường cực kỳ chân thực từ những lời nhắc văn bản đơn giản. Tương tự, trong lĩnh vực học tăng cường , các tác nhân sử dụng những mô phỏng nội bộ này để huấn luyện an toàn trong một tâm trí ảo trước khi thực hiện các nhiệm vụ nguy hiểm trong thế giới thực, từ đó cải thiện đáng kể sự an toàn và hiệu quả của AI .

Mô hình Thế giới so với Mô hình Nền tảng

Việc phân biệt các Mô hình Thế giới với các loại AI rộng khác là rất hữu ích.

  • Mô hình Thế giới so với Mô hình Nền tảng : Mô hình nền tảng là mô hình đa năng được huấn luyện trên lượng dữ liệu khổng lồ (như GPT-4). Mô hình Thế giới thường là một loại mô hình nền tảng cụ thể hoặc một thành phần trong đó, được thiết kế đặc biệt để mô phỏng động lực môi trường và tính nhất quán theo thời gian.
  • So sánh Mô hình Thế giới với Mô hình Ngôn ngữ Lớn (LLM) : Trong khi LLM dự đoán từ ngữ tiếp theo dựa trên các mẫu ngôn ngữ, Mô hình Thế giới dự đoán "trạng thái" tiếp theo của thế giới (thường là khung hình video hoặc dữ liệu cảm giác) dựa trên các quy tắc vật lý và không gian.

Các Ứng dụng Thực tế

Tính hữu ích của các mô hình thế giới vượt xa việc chỉ tạo ra các video giải trí. Chúng đang trở thành những thành phần thiết yếu trong các ngành công nghiệp đòi hỏi việc ra quyết định phức tạp.

  1. Lái xe tự hành: Các công ty sản xuất xe tự lái như Waymo sử dụng Mô hình Thế giới để mô phỏng hàng triệu kịch bản lái xe. Trí tuệ nhân tạo (AI) của xe có thể dự đoán quỹ đạo của người đi bộ và các phương tiện khác, lập kế hoạch các tuyến đường an toàn qua các giao lộ đông đúc mà không cần phải trải qua mọi tai nạn tiềm tàng trong thực tế.
  2. Robot và Sản xuất: Trong sản xuất thông minh , robot được trang bị Mô hình Thế giới có thể thao tác với các vật thể mà chúng chưa từng thấy trước đây. Bằng cách mô phỏng các quy luật vật lý của thao tác nắm hoặc nâng, robot dự đoán liệu vật thể có bị trượt hoặc vỡ hay không, điều chỉnh hành động của mình trong các vòng lặp suy luận thời gian thực để đảm bảo độ chính xác.

Ví dụ thực tế: Hình dung các trạng thái tương lai

Trong khi các mô hình thế giới quy mô đầy đủ đòi hỏi sức mạnh tính toán khổng lồ, khái niệm dự đoán các khung hình tương lai có thể được minh họa bằng các nguyên tắc hiểu video . Ví dụ sau đây minh họa cách thiết lập một môi trường mà trong đó một tác nhân (hoặc mô hình) có thể bắt đầu... track và dự đoán chuyển động của vật thể, một bước cơ bản trong việc xây dựng một thế giới quan có khả năng dự đoán.

import cv2
from ultralytics import YOLO26

# Load the Ultralytics YOLO26 model to act as the perception engine
model = YOLO26("yolo26n.pt")

# Open a video source (0 for webcam or a video file path)
cap = cv2.VideoCapture(0)

while cap.isOpened():
    success, frame = cap.read()
    if not success:
        break

    # The 'track' mode maintains object identity over time,
    # a prerequisite for learning object dynamics
    results = model.track(frame, persist=True)

    # Visualize the tracking, showing how the model follows movement
    annotated_frame = results[0].plot()

    cv2.imshow("Object Tracking Stream", annotated_frame)
    if cv2.waitKey(1) & 0xFF == ord("q"):
        break

cap.release()
cv2.destroyAllWindows()

Tương lai của Trí tuệ nhân tạo dự đoán

Sự phát triển của các Mô hình Thế giới đại diện cho một bước tiến hướng tới Trí tuệ Nhân tạo Tổng quát (AGI) . Bằng cách học cách mô hình hóa thế giới một cách hiệu quả, các hệ thống AI có được trí thông minh không gian và một dạng "lý lẽ thông thường" về các tương tác vật lý. Các nhà nghiên cứu hiện đang khám phá Kiến trúc Dự đoán Nhúng Chung (JEPA) để làm cho các mô hình này hiệu quả hơn, tránh chi phí tính toán nặng nề của việc tạo ra từng pixel và thay vào đó tập trung vào dự đoán các tính năng cấp cao. Khi các công nghệ này trưởng thành, chúng ta có thể kỳ vọng sự tích hợp sâu hơn với Nền tảng Ultralytics , cho phép các nhà phát triển đào tạo các tác nhân không chỉ nhìn thấy thế giới mà còn thực sự hiểu nó.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay