Khám phá cách điều chỉnh hướng dẫn trực quan giúp các Mô hình Ngôn ngữ Thị giác tuân theo chỉ dẫn của con người. Tìm hiểu cách xây dựng quy trình làm việc AI tiên tiến bằng cách sử dụng Ultralytics YOLO26.
Điều chỉnh hướng dẫn hình ảnh là một kỹ thuật học máy mang tính đột phá, mở rộng các phương pháp xử lý ngôn ngữ tự nhiên truyền thống sang lĩnh vực đa phương thức. Bằng cách huấn luyện Mô hình Ngôn ngữ Hình ảnh (VLM) để tuân theo các chỉ dẫn rõ ràng của con người dựa trên đầu vào hình ảnh hoặc video, các nhà phát triển có thể tạo ra các trợ lý AI hiểu và suy luận về nội dung hình ảnh. Không giống như các mô hình phân loại hình ảnh tiêu chuẩn chỉ đưa ra một danh mục được xác định trước, điều chỉnh hướng dẫn hình ảnh cho phép các mô hình thực hiện các nhiệm vụ phức tạp, không giới hạn – chẳng hạn như mô tả một cảnh, đọc văn bản trong một hình ảnh hoặc trả lời các câu hỏi cụ thể về mối quan hệ không gian. Điều này thu hẹp khoảng cách giữa các mô hình ngôn ngữ lớn dựa trên văn bản (LLM) và các quy trình xử lý hình ảnh máy tính truyền thống.
Để nắm bắt được việc điều chỉnh hướng dẫn trực quan, cần phân biệt nó với các khái niệm có liên quan chặt chẽ trong hệ sinh thái AI:
Quá trình huấn luyện thường bao gồm việc tinh chỉnh một mô hình nền tảng đa phương thức đã được huấn luyện trước đó bằng cách sử dụng các tập dữ liệu mở rộng được định dạng dưới dạng bộ ba hình ảnh-văn bản-hướng dẫn. Nghiên cứu tiên phong trên arXiv về tinh chỉnh hướng dẫn trực quan , chẳng hạn như dự án LLaVA (Large Language-and-Vision Assistant) , đã chứng minh rằng các mô hình này có thể đạt được khả năng huấn luyện không cần dữ liệu huấn luyện (zero-shot) đáng kể. Ngày nay, các tổ chức AI lớn sử dụng kỹ thuật này để cung cấp năng lượng cho các mô hình tiên tiến, bao gồm OpenAI GPT-4o , Anthropic Claude 3.5 Sonnet và Google DeepMind Gemini .
Bằng cách kết hợp các kiến trúc học sâu đa phương thức với ý định của con người, việc điều chỉnh hướng dẫn trực quan mở ra các ứng dụng tương tác cao trong nhiều ngành công nghiệp khác nhau:
Để xây dựng các hệ thống tận dụng những khả năng này, các nhà phát triển thường dựa vào các mô hình phát hiện đối tượng mạnh mẽ để trích xuất ngữ cảnh cấu trúc từ hình ảnh trước khi chuyển dữ liệu đó đến mô hình thị giác máy tính (VLM). Sử dụng tài liệu đa phương thức PyTorch hoặc các mô hình thị giác TensorFlow , các nhà phát triển có thể tạo ra các quy trình kết hợp.
Ví dụ, bạn có thể sử dụng một Ultralytics YOLO mô hình để nhanh chóng nhận biết một khung cảnh và tạo ra lời nhắc ngôn ngữ có thông tin cho VLM tiếp theo:
from ultralytics import YOLO
# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")
# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")
# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"
print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...
Việc quản lý các tập dữ liệu đa phương thức phức tạp cần thiết cho các ứng dụng thế hệ tiếp theo này có thể rất khó khăn. Nền tảng Ultralytics đơn giản hóa quy trình này bằng cách cung cấp các công cụ toàn diện để chú thích tập dữ liệu, huấn luyện trên đám mây và triển khai mô hình liền mạch. Cho dù bạn đang đọc các bài báo tiên tiến trên thư viện số ACM hay kho lưu trữ thị giác máy tính IEEE Xplore , sự chuyển dịch sang các hệ thống thị giác được tinh chỉnh theo hướng dẫn và có khả năng cao đại diện cho đỉnh cao của trí tuệ nhân tạo. Bằng cách kết hợp khả năng nhận thức YOLO26 với các mô hình suy luận được tinh chỉnh, các tổ chức có thể triển khai các tác nhân AI cực kỳ mạnh mẽ.
Bắt đầu hành trình của bạn với tương lai của học máy