Visual Reasoning
Khám phá suy luận thị giác trong AI và tìm hiểu cách các model suy diễn logic không gian. Tìm hiểu cách xây dựng các pipeline suy luận nâng cao sử dụng Ultralytics YOLO26.
Suy luận thị giác trong trí tuệ nhân tạo đề cập đến khả năng của một model trong việc phân tích, diễn giải và rút ra các suy luận logic từ dữ liệu thị giác và không gian. Trong khi các hệ thống computer vision (CV) tiêu chuẩn vượt trội trong việc xác định các đối tượng nào đang hiện diện trong một khung cảnh, thì suy luận thị giác tiến thêm một bước để hiểu cách thức và lý do các đối tượng đó tương tác với nhau. Lấy cảm hứng từ khả năng nhận thức thị giác của con người và được đánh giá bởi các bài kiểm tra tâm lý học nhận thức tiêu chuẩn, khả năng này cho phép các AI model thực hiện phân tích hình ảnh phức tạp, suy luận các mối quan hệ không gian và giải quyết các bài toán nhiều bước dựa hoàn toàn trên ngữ cảnh thị giác. Đây là thành phần quan trọng để thu hẹp khoảng cách giữa nhận thức thô và trí tuệ có thể hành động được trong các hệ thống multimodal AI.
Link to this sectionCác khái niệm cốt lõi và mô hình "Tư duy bằng hình ảnh"#
Trong lịch sử, các machine learning model đã chuyển đổi dữ liệu hình ảnh thành văn bản trước khi áp dụng suy luận logic. Tuy nhiên, những phát triển gần đây trong năm 2024 và 2025 đã phổ biến một mô hình nơi các model vốn dĩ tư duy bằng hình ảnh. Bằng cách tận dụng suy luận thị giác tiềm ẩn, các vision-language models (VLMs) tiên tiến có thể tạo ra các biểu diễn thị giác trung gian—tương tự như cách một con người có thể hình dung ra một bản đồ tinh thần như được định nghĩa trong các tham số không gian của NIH Toolbox—trước khi đi đến kết luận.
Cách tiếp cận này thường sử dụng một cơ chế được gọi là Hình ảnh hóa tư duy đa phương thức (MVoT). Thay vì chỉ dựa vào chuỗi tư duy dựa trên văn bản, các hệ thống có thể khám phá suy luận hình ảnh hóa không gian để xác minh các thay đổi hình học, đánh giá các vật bị che khuất và theo dõi các chuyển động liên tục trong không gian 3D.
Link to this sectionSuy luận thị giác so với các khả năng liên quan#
Việc phân biệt suy luận thị giác với các thuật ngữ AI chồng chéo khác là rất hữu ích:
- Reasoning Models: Đây là một danh mục rộng hơn bao gồm các model được thiết kế cho suy luận logic nhiều bước, thường là bằng văn bản, toán học hoặc lập trình. Suy luận thị giác áp dụng các nguyên tắc suy luận này cụ thể vào dữ liệu thị giác và không gian.
- Visual Question Answering (VQA): VQA là một ứng dụng hoặc tác vụ cụ thể, nơi một AI cung cấp câu trả lời bằng ngôn ngữ tự nhiên cho lời nhắc của người dùng về một hình ảnh. Suy luận thị giác là khả năng nhận thức cơ bản hỗ trợ cho VQA, cho phép model suy luận ra câu trả lời chính xác dựa trên ngữ cảnh không gian.
Link to this sectionCác ứng dụng trong thực tế#
Khả năng diễn giải các ngữ cảnh không gian một cách linh hoạt đang mở ra các agentic workflows mang tính chuyển đổi trên các lĩnh vực vật lý và kỹ thuật số.
- AI trong robot học và trí tuệ hiện thân: Các tác nhân tự hành và cánh tay robot đòi hỏi trí tuệ không gian phức tạp để điều hướng trong các môi trường phức tạp. Bằng cách sử dụng suy luận thị giác, một robot có thể suy luận rằng một vật thể dễ vỡ đang được xếp chồng bên dưới một chiếc hộp nặng và lập kế hoạch logic cho một chuỗi các chuyển động để lấy nó mà không gây hư hại, dựa nhiều vào việc đánh giá các ràng buộc vật lý động.
- AI trong chẩn đoán y tế: Trong chẩn đoán hình ảnh y tế, các bác sĩ sử dụng các hệ thống suy luận thị giác để vượt ra ngoài phát hiện bất thường cơ bản. Các model có thể đánh giá các bản quét MRI 3D để suy luận về cấu trúc quỹ đạo phát triển của khối u so với các cơ quan xung quanh, cung cấp ngữ cảnh hình học quan trọng cho việc lập kế hoạch phẫu thuật.
Link to this sectionTriển khai nhận thức cho các đường ống suy luận#
Để xây dựng các hệ thống suy luận hiệu quả, các nhà phát triển dựa vào các model nhận thức tốc độ cao để trích xuất ngữ cảnh cấu trúc từ thế giới vật lý. Ultralytics YOLO26 đóng vai trò là một lớp nền tảng mạnh mẽ, chuyển đổi nhanh chóng các pixel thành tọa độ bounding box có cấu trúc và các lớp đối tượng. Dữ liệu có cấu trúc này sau đó được đưa vào các công cụ suy luận thị giác chuyên dụng được xây dựng với các framework như PyTorch hoặc TensorFlow để đánh giá logic không gian.
Nếu bạn đang so sánh YOLO26 và YOLO11 cho tác vụ này, kiến trúc end-to-end gốc của YOLO26 giúp giảm thiểu độ trễ suy luận, khiến nó trở nên lý tưởng cho các đường ống logic thời gian thực.
Đoạn mã Python sau đây minh họa cách sử dụng YOLO26 để trích xuất tọa độ không gian, cung cấp các đầu vào nhận thức cần thiết cho suy luận không gian ở giai đoạn sau:
from ultralytics import YOLO
# Load the Ultralytics YOLO26 model to act as the perception layer
model = YOLO("yolo26n.pt")
# Run inference to detect objects in a scene
results = model("https://ultralytics.com/images/bus.jpg")
# Extract structured spatial data for the visual reasoning engine
for result in results:
for box in result.boxes:
cls_name = model.names[int(box.cls)]
# xyxy provides exact spatial coordinates (left, top, right, bottom)
coords = box.xyxy[0].tolist()
print(f"Object: {cls_name}, Spatial Coordinates: {coords}")Việc mở rộng các ứng dụng đa phương thức phức tạp này đòi hỏi cơ sở hạ tầng mạnh mẽ. Ultralytics Platform cung cấp một môi trường thống nhất để chú thích liền mạch các tập dữ liệu spatial intelligence, huấn luyện model trên đám mây và triển khai các hệ thống nhận thức biên đáng tin cậy. Khi lĩnh vực này tiến tới các agentic frameworks cho các tác vụ không gian tiên tiến hơn và được hỗ trợ bởi nghiên cứu thị giác tiên tiến, việc kết hợp object detection độ chính xác cao với suy luận logic đại diện cho biên giới tiếp theo trong trí tuệ nhân tạo.






