YOLO Vision Thâm Quyến
Thâm Quyến
Tham gia ngay
Thuật ngữ

Điều chỉnh hướng dẫn trực quan

Khám phá cách điều chỉnh hướng dẫn trực quan giúp các Mô hình Ngôn ngữ Thị giác tuân theo chỉ dẫn của con người. Tìm hiểu cách xây dựng quy trình làm việc AI tiên tiến bằng cách sử dụng Ultralytics YOLO26.

Điều chỉnh hướng dẫn hình ảnh là một kỹ thuật học máy mang tính đột phá, mở rộng các phương pháp xử lý ngôn ngữ tự nhiên truyền thống sang lĩnh vực đa phương thức. Bằng cách huấn luyện Mô hình Ngôn ngữ Hình ảnh (VLM) để tuân theo các chỉ dẫn rõ ràng của con người dựa trên đầu vào hình ảnh hoặc video, các nhà phát triển có thể tạo ra các trợ lý AI hiểu và suy luận về nội dung hình ảnh. Không giống như các mô hình phân loại hình ảnh tiêu chuẩn chỉ đưa ra một danh mục được xác định trước, điều chỉnh hướng dẫn hình ảnh cho phép các mô hình thực hiện các nhiệm vụ phức tạp, không giới hạn – chẳng hạn như mô tả một cảnh, đọc văn bản trong một hình ảnh hoặc trả lời các câu hỏi cụ thể về mối quan hệ không gian. Điều này thu hẹp khoảng cách giữa các mô hình ngôn ngữ lớn dựa trên văn bản (LLM) và các quy trình xử lý hình ảnh máy tính truyền thống.

Hiểu rõ khái niệm và sự khác biệt

Để nắm bắt được việc điều chỉnh hướng dẫn trực quan, cần phân biệt nó với các khái niệm có liên quan chặt chẽ trong hệ sinh thái AI:

  • Điều chỉnh hướng dẫn : Thường đề cập đến việc căn chỉnh các mô hình học tập chỉ chứa văn bản để tuân theo ý định của người dùng một cách an toàn và chính xác. Điều chỉnh hướng dẫn trực quan áp dụng phương pháp tương tự nhưng kết hợp hình ảnh vào lời nhắc và kết quả mong muốn.
  • Hướng dẫn bằng hình ảnh : Thường liên quan đến việc tương tác với AI bằng các tín hiệu trực quan—chẳng hạn như vẽ một khung bao quanh, đặt một điểm hoặc che một khu vực trên hình ảnh—để hướng sự tập trung của mô hình. Ngược lại, điều chỉnh hướng dẫn trực quan dựa nhiều vào các lệnh ngôn ngữ tự nhiên được kết hợp với dữ liệu hình ảnh.

Quá trình huấn luyện thường bao gồm việc tinh chỉnh một mô hình nền tảng đa phương thức đã được huấn luyện trước đó bằng cách sử dụng các tập dữ liệu mở rộng được định dạng dưới dạng bộ ba hình ảnh-văn bản-hướng dẫn. Nghiên cứu tiên phong trên arXiv về tinh chỉnh hướng dẫn trực quan , chẳng hạn như dự án LLaVA (Large Language-and-Vision Assistant) , đã chứng minh rằng các mô hình này có thể đạt được khả năng huấn luyện không cần dữ liệu huấn luyện (zero-shot) đáng kể. Ngày nay, các tổ chức AI lớn sử dụng kỹ thuật này để cung cấp năng lượng cho các mô hình tiên tiến, bao gồm OpenAI GPT-4o , Anthropic Claude 3.5 SonnetGoogle DeepMind Gemini .

Các Ứng dụng Thực tế

Bằng cách kết hợp các kiến ​​trúc học sâu đa phương thức với ý định của con người, việc điều chỉnh hướng dẫn trực quan mở ra các ứng dụng tương tác cao trong nhiều ngành công nghiệp khác nhau:

  • Ứng dụng AI trong chẩn đoán y tế : Các chuyên gia y tế có thể sử dụng các mô hình được tinh chỉnh theo hướng dẫn để trả lời câu hỏi trực quan (VQA) . Một bác sĩ X-quang có thể cung cấp cho hệ thống hình ảnh X-quang và hướng dẫn, "Hãy làm nổi bật và giải thích bất kỳ dấu hiệu nào của viêm phổi ở thùy dưới bên trái", cho phép AI hoạt động như một trợ lý chẩn đoán cộng tác.
  • Ứng dụng AI trong kiểm soát chất lượng sản xuất : Thay vì phải tự xây dựng một mô hình phát hiện lỗi cứng nhắc từ đầu, người vận hành có thể hướng dẫn hệ thống thị giác như Microsoft Florence-2 bằng cách nói, "Hãy xác định bất kỳ vết xước hoặc vết lõm siêu nhỏ nào trên vỏ kim loại mới chế tạo này."

Xây dựng quy trình làm việc về tầm nhìn

Để xây dựng các hệ thống tận dụng những khả năng này, các nhà phát triển thường dựa vào các mô hình phát hiện đối tượng mạnh mẽ để trích xuất ngữ cảnh cấu trúc từ hình ảnh trước khi chuyển dữ liệu đó đến mô hình thị giác máy tính (VLM). Sử dụng tài liệu đa phương thức PyTorch hoặc các mô hình thị giác TensorFlow , các nhà phát triển có thể tạo ra các quy trình kết hợp.

Ví dụ, bạn có thể sử dụng một Ultralytics YOLO mô hình để nhanh chóng nhận biết một khung cảnh và tạo ra lời nhắc ngôn ngữ có thông tin cho VLM tiếp theo:

from ultralytics import YOLO

# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")

# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")

# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"

print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...

Việc quản lý các tập dữ liệu đa phương thức phức tạp cần thiết cho các ứng dụng thế hệ tiếp theo này có thể rất khó khăn. Nền tảng Ultralytics đơn giản hóa quy trình này bằng cách cung cấp các công cụ toàn diện để chú thích tập dữ liệu, huấn luyện trên đám mây và triển khai mô hình liền mạch. Cho dù bạn đang đọc các bài báo tiên tiến trên thư viện số ACM hay kho lưu trữ thị giác máy tính IEEE Xplore , sự chuyển dịch sang các hệ thống thị giác được tinh chỉnh theo hướng dẫn và có khả năng cao đại diện cho đỉnh cao của trí tuệ nhân tạo. Bằng cách kết hợp khả năng nhận thức YOLO26 với các mô hình suy luận được tinh chỉnh, các tổ chức có thể triển khai các tác nhân AI cực kỳ mạnh mẽ.

Hãy cùng nhau xây dựng tương lai của trí tuệ nhân tạo!

Bắt đầu hành trình của bạn với tương lai của học máy