Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Gợi ý trực quan

Khám phá cách sử dụng gợi ý trực quan để hướng dẫn các mô hình AI bằng các điểm và hình hộp. Tìm hiểu cách thực hiện. Ultralytics YOLO Và SAM Giúp phân đoạn chính xác hơn và chú thích dữ liệu nhanh hơn.

Gợi ý trực quan là một kỹ thuật mới nổi trong thị giác máy tính, trong đó người dùng cung cấp các tín hiệu không gian hoặc hình ảnh—chẳng hạn như điểm, hộp giới hạn hoặc hình vẽ nguệch ngoạc—để hướng sự tập trung của mô hình AI vào các đối tượng hoặc vùng cụ thể trong hình ảnh. Không giống như kỹ thuật gợi ý truyền thống chủ yếu dựa vào mô tả bằng văn bản, gợi ý trực quan cho phép tương tác chính xác và trực quan hơn với các hệ thống Trí tuệ Nhân tạo (AI) . Phương pháp này tận dụng khả năng của các mô hình nền tảng hiện đại để thực hiện các tác vụ như phân đoạn và phát hiện mà không cần đào tạo lại rộng rãi hoặc các tập dữ liệu được gắn nhãn lớn. Bằng cách "chỉ" vào những gì quan trọng một cách hiệu quả, người dùng có thể điều chỉnh các mô hình đa năng cho các tác vụ mới ngay lập tức, thu hẹp khoảng cách giữa ý định của con người và nhận thức của máy móc.

Cơ chế gợi ý bằng hình ảnh

Về bản chất, phương pháp gợi ý trực quan hoạt động bằng cách đưa thông tin không gian trực tiếp vào quy trình xử lý của mô hình. Khi người dùng nhấp vào một đối tượng hoặc vẽ một hình chữ nhật, các đầu vào này được chuyển đổi thành các nhúng dựa trên tọa độ mà mạng nơ-ron tích hợp với các đặc trưng hình ảnh. Quá trình này là trọng tâm của các kiến ​​trúc tương tác như Mô hình Phân đoạn Bất kỳ ( SAM ) , nơi mô hình dự đoán mặt nạ dựa trên các gợi ý hình học.

Tính linh hoạt của việc hướng dẫn bằng hình ảnh cho phép nhiều hình thức tương tác khác nhau:

  • Gợi ý điểm: Người dùng nhấp vào một pixel cụ thể để chỉ ra đối tượng cần quan tâm. Sau đó, mô hình sẽ mở rộng vùng chọn này ra toàn bộ ranh giới của đối tượng.
  • Gợi ý bằng khung: Vẽ một khung bao quanh cung cấp khả năng định vị sơ bộ, báo hiệu cho mô hình biết cần phải làm gì. segment hoặc classify Mọi thứ nằm trong khu vực đó.
  • Gợi ý vẽ nguệch ngoạc: Những đường vẽ tự do trên một vật thể có thể giúp làm rõ các cảnh phức tạp, nơi các vật thể chồng chéo hoặc có kết cấu tương tự.

Nghiên cứu gần đây được trình bày tại CVPR 2024 nhấn mạnh cách thức nhắc nhở trực quan giúp giảm đáng kể thời gian cần thiết cho việc chú thích dữ liệu , vì người chú thích có thể sửa các dự đoán của mô hình trong thời gian thực chỉ bằng những cú nhấp chuột đơn giản thay vì phải vẽ thủ công các đa giác.

Hướng dẫn bằng hình ảnh so với hướng dẫn bằng văn bản

Mặc dù cả hai kỹ thuật đều nhằm mục đích hướng dẫn hành vi của mô hình, điều quan trọng là phải phân biệt giữa gợi ý trực quan và các phương pháp dựa trên văn bản. Việc tạo hình ảnh từ văn bản hoặc phát hiện không cần huấn luyện dựa vào xử lý ngôn ngữ tự nhiên (NLP) để diễn giải các mô tả ngữ nghĩa (ví dụ: "tìm chiếc xe màu đỏ"). Tuy nhiên, ngôn ngữ có thể mơ hồ hoặc không đủ để mô tả vị trí không gian chính xác hoặc các hình dạng trừu tượng.

Việc hướng dẫn bằng hình ảnh giải quyết sự mơ hồ này bằng cách dựa hướng dẫn vào chính không gian pixel. Ví dụ, trong phân tích hình ảnh y tế , việc bác sĩ X quang nhấp chuột vào một nốt nghi ngờ chính xác hơn nhiều so với việc cố gắng mô tả tọa độ chính xác và hình dạng bất thường của nó bằng văn bản. Thông thường, các quy trình làm việc hiệu quả nhất kết hợp cả hai phương pháp—sử dụng văn bản để lọc ngữ nghĩa và hướng dẫn trực quan để tăng độ chính xác về không gian—một khái niệm được gọi là học tập đa phương thức .

Các Ứng dụng Thực tế

Khả năng thích ứng của phương pháp nhắc nhở bằng hình ảnh đã dẫn đến việc áp dụng nhanh chóng phương pháp này trong nhiều ngành công nghiệp khác nhau:

  • Chẩn đoán y tế tương tác: Các bác sĩ sử dụng công cụ hỗ trợ trực quan để khoanh vùng khối u hoặc cơ quan trong ảnh chụp MRI. Chỉ cần nhấp chuột vào vùng cần quan tâm, họ có thể ngay lập tức tạo ra các phép đo thể tích 3D, hỗ trợ phát hiện khối u chính xác và lập kế hoạch phẫu thuật.
  • Chỉnh sửa ảnh thông minh: Trong các phần mềm dành cho người dùng phổ thông như Adobe Photoshop hoặc các ứng dụng di động, tính năng hướng dẫn trực quan hỗ trợ các công cụ "chọn lựa thần kỳ". Người dùng có thể chạm vào một người hoặc vật thể để xóa nền hoặc áp dụng các bộ lọc mục tiêu, tận dụng công nghệ phân đoạn đối tượng cơ bản mà không cần kỹ năng tạo mặt nạ thủ công.
  • Thao tác bằng robot: Trong lĩnh vực Trí tuệ nhân tạo ứng dụng trong robot , robot có thể được lập trình để nhặt các vật phẩm cụ thể thông qua giao diện trực quan. Người vận hành nhấp vào một vật thể trên màn hình camera của robot, cung cấp tín hiệu trực quan mà robot sẽ chuyển đổi thành tọa độ nắm bắt, tạo điều kiện thuận lợi cho việc tự động hóa có sự tham gia của con người trong các kho hàng.

Thực hiện với Ultralytics

Cái Ultralytics Hệ sinh thái hỗ trợ các quy trình nhắc nhở trực quan, đặc biệt thông qua các mô hình như... FastSAM Và SAM Các mô hình này cho phép các nhà phát triển truyền tọa độ điểm hoặc tọa độ hộp theo chương trình để truy xuất mặt nạ phân đoạn.

Ví dụ sau đây minh họa cách sử dụng ultralytics gói này dùng để áp dụng một lời nhắc điểm vào hình ảnh, hướng dẫn mô hình thực hiện điều đó. segment Đối tượng nằm tại tọa độ cụ thể.

from ultralytics import SAM

# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")

# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])

# Display the segmented result
results[0].show()

Nâng cao tính linh hoạt của mô hình

Việc gợi ý trực quan thể hiện sự chuyển dịch sang thị giác máy tính "có thể gợi ý", nơi các mô hình không còn là những "hộp đen" tĩnh mà là các công cụ tương tác. Khả năng này rất cần thiết cho các vòng lặp học tập chủ động , nơi các mô hình nhanh chóng được cải thiện bằng cách kết hợp phản hồi của người dùng.

Đối với các nhà phát triển muốn tích hợp những khả năng này vào môi trường sản xuất, Nền tảng Ultralytics cung cấp các công cụ để quản lý tập dữ liệu và triển khai các mô hình có thể xử lý đầu vào động. Khi nghiên cứu tiến triển, chúng tôi kỳ vọng sẽ thấy sự tích hợp chặt chẽ hơn nữa giữa các gợi ý trực quan và các mô hình ngôn ngữ lớn (LLM) , cho phép các hệ thống có thể suy luận về đầu vào trực quan với cùng sự trôi chảy mà chúng hiện đang xử lý văn bản.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay