Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Gọi hàm (Sử dụng công cụ)

Khám phá cách gọi hàm và sử dụng công cụ giúp AI tương tác với API và cơ sở dữ liệu. Tìm hiểu cách tích hợp Ultralytics YOLO26 được tích hợp vào quy trình làm việc dựa trên tác nhân ngay hôm nay.

Gọi hàm, thường được gọi là sử dụng công cụ, là một mô hình mạnh mẽ trong trí tuệ nhân tạo (AI) hiện đại, cho phép các mô hình mở rộng khả năng của chúng vượt ra ngoài việc tạo văn bản hoặc hình ảnh tĩnh. Thay vì chỉ trả lời một lời nhắc dựa trên dữ liệu huấn luyện nội bộ, mô hình có thể xuất ra các lệnh có cấu trúc để kích hoạt các chức năng lập trình bên ngoài, truy vấn cơ sở dữ liệu hoặc tương tác với API REST . Cách tiếp cận này giúp AI có khả năng thực hiện các hành động hữu hình trong môi trường kỹ thuật số.

Khi một hệ thống AI sử dụng phương pháp gọi hàm, các nhà phát triển sẽ cung cấp cho mô hình một danh sách các công cụ có sẵn được mô tả bằng JSON Schema . Nếu yêu cầu của người dùng cần dữ liệu thời gian thực hoặc một hành động cụ thể, mô hình sẽ tạm dừng quá trình tạo dữ liệu tiêu chuẩn và xuất ra một tải trọng định dạng JSON có cấu trúc cao, phù hợp với các tham số cần thiết của công cụ đã chọn. Các framework như API gọi hàm của OpenAIframework sử dụng công cụ của Anthropic đã phổ biến kỹ thuật này, biến các tác nhân hội thoại thành những người giải quyết vấn đề hiệu quả.

Các Ứng dụng Thực tế

Việc tích hợp sử dụng công cụ vào quy trình làm việc sẽ thay đổi cách thức hoạt động của phần mềm. Được đánh giá bởi các tiêu chuẩn như Berkeley Function Calling Leaderboard , những khả năng này đang thúc đẩy sự chuyển dịch hướng tới các hệ thống tự động hóa cao.

  • Bán lẻ tự động và dịch vụ khách hàng: Trong ứng dụng AI trong bán lẻ , trợ lý ảo có thể sử dụng hàm gọi để tra cứu hàng tồn kho theo thời gian thực. Nếu khách hàng hỏi, "Đơn hàng của tôi ở đâu?", mô hình sẽ tạo một hàm gọi đến API cơ sở dữ liệu, truy xuất trạng thái theo dõi và trả về câu trả lời bằng ngôn ngữ tự nhiên.
  • Trích xuất dữ liệu hỗ trợ thị giác: Mô hình ngôn ngữ thị giác (VLM) có thể sử dụng các bộ phát hiện đối tượng Ultralytics YOLO làm công cụ. Nếu được yêu cầu xác minh sự tuân thủ an toàn trong hình ảnh nhà máy, AI đàm thoại chính có thể gọi một kịch bản chạy mô hình Ultralytics YOLO26 để thực hiện việc này. detect mũ bảo hiểm, tự động trả về kết quả phát hiện vật thể vào hộp thoại của người dùng.

Tích hợp thị giác máy tính như một công cụ

Bạn có thể trình bày mô hình thị giác máy tính như một công cụ chức năng cho một tác nhân AI tổng thể. Trong kiến ​​trúc này, bạn định nghĩa một Python Phương pháp thực hiện suy luận, mà mô hình lý luận có thể kích hoạt khi cần dữ liệu trực quan.

from ultralytics import YOLO


# Define a specific tool function for an AI agent to call
def count_objects_in_scene(image_url: str) -> str:
    # Load the highly efficient YOLO26 model
    model = YOLO("yolo26n.pt")

    # Perform inference to analyze the visual data
    results = model(image_url)
    object_count = len(results[0].boxes)

    # Return structured context back to the calling AI system
    return f"Vision Analysis: Detected {object_count} objects in the scene."


# Simulated function call executed by an AI system
print(count_objects_in_scene("https://ultralytics.com/images/bus.jpg"))

Phân biệt các thuật ngữ liên quan

Để nắm bắt đầy đủ các kiến ​​trúc AI hiện đại, việc hiểu được mối liên hệ và sự khác biệt giữa việc gọi hàm với các khái niệm tương tự là rất hữu ích:

  • Giao thức ngữ cảnh mô hình (MCP) : Trong khi việc gọi hàm dựa trên các định nghĩa API cụ thể được truyền vào lời nhắc của mô hình, MCP là một kiến ​​trúc tổng thể, được tiêu chuẩn hóa. MCP tạo ra một giao thức phổ quát để kết nối các mô hình AI với các nguồn dữ liệu, trong khi việc gọi hàm là cơ chế cục bộ mà các mô hình sử dụng để thực sự kích hoạt các kết nối đó.
  • Tạo tăng cường bằng truy xuất (RAG) : RAG là một phương pháp được thiết kế đặc biệt để truy xuất văn bản hoặc tài liệu có liên quan nhằm bổ sung cho lời nhắc của LLM. Gọi hàm là một cơ chế rộng hơn; AI có thể sử dụng công cụ để thực hiện RAG, nhưng nó cũng có thể sử dụng các công cụ để ghi tệp vào đĩa hoặc gửi email. Bạn có thể tìm thấy các triển khai toàn diện của RAG sử dụng các công cụ trong Tài liệu PyTorchhướng dẫn đa phương thức Google Gemini .
  • Tác nhân AI : Tác nhân AI là một hệ thống tự động hoàn chỉnh có khả năng nhận thức môi trường xung quanh và thực hiện các hành động để đạt được mục tiêu. Gọi hàm là kỹ năng chính giúp tác nhân có khả năng thực hiện các hành động đó. Khi triển khai các hệ thống tác nhân quy mô lớn, các nhóm thường sử dụng Nền tảng Ultralytics để huấn luyện và cung cấp liền mạch các mô hình hình ảnh cơ bản mà các tác nhân này gọi đến để nhìn nhận thế giới. Các tổ chức chuyển đổi từ các mô hình tĩnh sang quy trình làm việc dựa trên tác nhân thường dựa vào các thư viện học sâu như TensorFlow để tối ưu hóa các điểm cuối mà các hàm này giao tiếp.

Tăng sức mạnh với Ultralytics YOLO

Nhận AI thị giác tiên tiến cho các dự án của bạn. Tìm giấy phép phù hợp với mục tiêu của bạn ngay hôm nay.

Tìm hiểu các tùy chọn cấp phép