Visual Instruction Tuning
Khám phá cách tính năng tinh chỉnh hướng dẫn trực quan cho phép các Vision Language Model tuân theo các chỉ dẫn của con người. Tìm hiểu cách xây dựng các workflow AI nâng cao bằng Ultralytics YOLO26.
Tinh chỉnh hướng dẫn trực quan là một kỹ thuật học máy mang tính chuyển đổi, mở rộng các phương pháp xử lý ngôn ngữ tự nhiên truyền thống sang lĩnh vực đa phương thức. Bằng cách huấn luyện một Vision Language Model (VLM) để tuân theo các chỉ dẫn rõ ràng của con người dựa trên dữ liệu đầu vào là hình ảnh hoặc video, các nhà phát triển có thể tạo ra các trợ lý AI có khả năng hiểu và suy luận về nội dung hình ảnh. Không giống như các mô hình image classification tiêu chuẩn xuất ra một danh mục được xác định trước, tinh chỉnh hướng dẫn trực quan trao quyền cho các mô hình thực hiện các tác vụ phức tạp, mở rộng—chẳng hạn như mô tả cảnh quay, đọc văn bản trong hình ảnh hoặc trả lời các câu hỏi cụ thể về mối quan hệ không gian. Điều này thu hẹp khoảng cách giữa các large language models (LLMs) dựa trên văn bản và các pipeline computer vision truyền thống.
Link to this sectionHiểu về khái niệm và các điểm khác biệt#
Để nắm bắt tinh chỉnh hướng dẫn trực quan, sẽ rất hữu ích khi phân biệt nó với các khái niệm liên quan chặt chẽ trong hệ sinh thái AI:
- Instruction Tuning: Thường đề cập đến việc điều chỉnh các LLM chỉ có văn bản để tuân theo ý định của con người một cách an toàn và chính xác. Tinh chỉnh hướng dẫn trực quan áp dụng phương pháp tương tự nhưng kết hợp hình ảnh vào câu lệnh (prompt) và đầu ra mong đợi.
- Visual Prompting: Thường bao gồm việc tương tác với AI bằng các tín hiệu trực quan—chẳng hạn như vẽ một bbox, đặt một điểm hoặc che một vùng trên hình ảnh—để hướng dẫn sự tập trung của mô hình. Ngược lại, tinh chỉnh hướng dẫn trực quan dựa nhiều vào các lệnh ngôn ngữ tự nhiên được ghép nối với dữ liệu trực quan.
Quá trình huấn luyện thường bao gồm việc fine-tuning một mô hình nền tảng đa phương thức đã được huấn luyện trước bằng cách sử dụng các bộ dữ liệu mở rộng được định dạng dưới dạng bộ ba hình ảnh-văn bản-hướng dẫn. Các nghiên cứu arXiv tiên phong về tinh chỉnh hướng dẫn trực quan, chẳng hạn như dự án LLaVA (Large Language-and-Vision Assistant), đã chứng minh rằng các mô hình này có thể đạt được khả năng zero-shot đáng kinh ngạc. Ngày nay, các tổ chức AI lớn sử dụng kỹ thuật này để vận hành các mô hình tiên tiến, bao gồm OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet, và Google DeepMind Gemini.
Link to this sectionCác ứng dụng thực tế#
Bằng cách căn chỉnh các kiến trúc multimodal deep learning với ý định của con người, tinh chỉnh hướng dẫn trực quan mở ra các ứng dụng tương tác cao trong nhiều ngành công nghiệp khác nhau:
- AI in Healthcare Diagnostics: Các chuyên gia y tế có thể sử dụng các mô hình đã được tinh chỉnh hướng dẫn cho Visual Question Answering (VQA). Một bác sĩ chẩn đoán hình ảnh có thể đưa ra câu lệnh cho hệ thống với một hình ảnh X-quang và chỉ dẫn, "Làm nổi bật và giải thích bất kỳ dấu hiệu viêm phổi nào ở thùy dưới bên trái," cho phép AI đóng vai trò là một trợ lý chẩn đoán cộng tác.
- AI in Manufacturing Quality Control: Thay vì huấn luyện một mô hình phát hiện lỗi cứng nhắc từ đầu, người vận hành có thể hướng dẫn một hệ thống thị giác như Microsoft Florence-2 bằng cách nêu rõ, "Xác định bất kỳ vết trầy xước hoặc vết lõm siêu nhỏ nào trên vỏ kim loại mới được chế tạo này."
Link to this sectionXây dựng các workflow thị giác#
Để xây dựng các hệ thống tận dụng những khả năng này, các nhà phát triển thường dựa vào các mô hình object detection mạnh mẽ để trích xuất ngữ cảnh cấu trúc từ hình ảnh trước khi chuyển dữ liệu đó cho VLM. Sử dụng tài liệu đa phương thức PyTorch hoặc TensorFlow vision models, các nhà phát triển có thể tạo ra các pipeline lai.
Ví dụ, bạn có thể sử dụng mô hình Ultralytics YOLO để nhận thức nhanh chóng một cảnh quay và tạo ra một câu lệnh ngôn ngữ có thông tin cho một VLM ở giai đoạn sau:
from ultralytics import YOLO
# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")
# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")
# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"
print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...Việc quản lý các bộ dữ liệu đa phương thức phức tạp cần thiết cho các ứng dụng thế hệ tiếp theo này có thể là một thách thức. Ultralytics Platform đơn giản hóa quy trình này bằng cách cung cấp các công cụ end-to-end cho việc gán nhãn tập dữ liệu, huấn luyện trên đám mây và triển khai mô hình liền mạch. Cho dù bạn đang đọc các bài báo tiên tiến trên ACM digital library hay các kho lưu trữ IEEE Xplore computer vision, sự chuyển dịch sang các hệ thống thị giác có khả năng cao, được tinh chỉnh theo hướng dẫn đại diện cho sự tiên phong của trí tuệ nhân tạo. Bằng cách kết hợp khả năng nhận thức của YOLO26 với các mô hình suy luận đã được tinh chỉnh, các tổ chức có thể triển khai các tác nhân AI vô cùng mạnh mẽ.






