Function Calling (Tool Use)
Khám phá cách gọi hàm (function calling) và sử dụng công cụ giúp AI tương tác với các API và cơ sở dữ liệu. Tìm hiểu cách tích hợp Ultralytics YOLO26 vào các quy trình làm việc của tác nhân ngay hôm nay.
Function calling, thường được gọi là sử dụng công cụ, là một mô hình mạnh mẽ trong trí tuệ nhân tạo (AI) hiện đại, cho phép các model mở rộng khả năng vượt ra ngoài việc tạo văn bản hoặc hình ảnh tĩnh. Thay vì chỉ trả lời một prompt dựa trên dữ liệu huấn luyện nội bộ, model có thể xuất ra các câu lệnh có cấu trúc để kích hoạt các hàm lập trình bên ngoài, truy vấn cơ sở dữ liệu hoặc tương tác với các REST API. Cách tiếp cận này giúp AI có khả năng thực hiện các hành động cụ thể trong môi trường kỹ thuật số.
Khi một hệ thống AI sử dụng function calling, các nhà phát triển sẽ cung cấp cho model một danh sách các công cụ khả dụng được mô tả bằng JSON Schema. Nếu prompt của người dùng yêu cầu dữ liệu thời gian thực hoặc một hành động cụ thể, model sẽ tạm dừng quy trình tạo thông thường và xuất ra một payload định dạng JSON có cấu trúc cao, khớp với các tham số bắt buộc của công cụ đã chọn. Các framework như OpenAI's function calling API và Anthropic's tool use framework đã phổ biến kỹ thuật này, biến các tác nhân hội thoại thành những công cụ giải quyết vấn đề hiệu quả.
Link to this sectionCác ứng dụng trong thực tế#
Việc tích hợp sử dụng công cụ vào quy trình làm việc sẽ thay đổi cách phần mềm vận hành. Được đánh giá bởi các benchmark như Berkeley Function Calling Leaderboard, những khả năng này đang thúc đẩy sự chuyển dịch sang các hệ thống tự chủ cao.
- Bán lẻ và Dịch vụ khách hàng tự động: Trong AI trong bán lẻ, một trợ lý ảo có thể sử dụng function calling để tra cứu hàng tồn kho trực tiếp. Nếu khách hàng hỏi, "Đơn hàng của tôi đâu?", model sẽ tạo một function call tới database API, truy xuất trạng thái theo dõi và trả về phản hồi bằng ngôn ngữ tự nhiên.
- Trích xuất dữ liệu hỗ trợ bởi thị giác: Một vision-language model (VLM) có thể sử dụng các bộ phát hiện đối tượng Ultralytics YOLO làm công cụ. Nếu được yêu cầu xác minh tuân thủ an toàn trong một hình ảnh nhà máy, AI hội thoại chính có thể gọi một script chạy model Ultralytics YOLO26 để phát hiện mũ bảo hộ, từ đó trả kết quả phát hiện đối tượng vào đoạn hội thoại của người dùng một cách liền mạch.
Link to this sectionTích hợp Thị giác máy tính như một Công cụ#
Bạn có thể hiển thị một model thị giác máy tính như một công cụ chức năng cho một AI agent tổng thể. Trong kiến trúc này, bạn xác định một phương thức Python thực hiện inference, mà một model suy luận có thể kích hoạt khi cần dữ liệu hình ảnh.
from ultralytics import YOLO
# Define a specific tool function for an AI agent to call
def count_objects_in_scene(image_url: str) -> str:
# Load the highly efficient YOLO26 model
model = YOLO("yolo26n.pt")
# Perform inference to analyze the visual data
results = model(image_url)
object_count = len(results[0].boxes)
# Return structured context back to the calling AI system
return f"Vision Analysis: Detected {object_count} objects in the scene."
# Simulated function call executed by an AI system
print(count_objects_in_scene("https://ultralytics.com/images/bus.jpg"))Link to this sectionPhân biệt các thuật ngữ liên quan#
Để nắm bắt đầy đủ các kiến trúc AI hiện đại, bạn cần hiểu cách function calling liên quan và khác biệt như thế nào so với các khái niệm tương tự:
- Model Context Protocol (MCP): Trong khi function calling dựa trên các định nghĩa API cụ thể được truyền trong prompt của model, MCP là một kiến trúc chuẩn hóa tổng thể. MCP tạo ra một giao thức phổ quát để kết nối các model AI với các nguồn dữ liệu, trong khi function calling là cơ chế nội bộ mà các model sử dụng để thực sự gọi các kết nối đó.
- Retrieval Augmented Generation (RAG): RAG là một phương pháp luận được thiết kế đặc biệt để tìm nạp văn bản hoặc tài liệu liên quan nhằm tăng cường prompt cho LLM. Function calling là một cơ chế rộng hơn; một AI có thể sử dụng công cụ để thực hiện RAG, nhưng nó cũng có thể dùng công cụ để ghi tệp vào đĩa hoặc gửi email. Bạn có thể tìm thấy các triển khai RAG toàn diện sử dụng công cụ trong Tài liệu PyTorch và hướng dẫn đa phương thức Google Gemini.
- AI Agent: Một AI agent là hệ thống tự chủ hoàn chỉnh, cảm nhận môi trường và thực hiện các hành động để đạt được mục tiêu. Function calling là kỹ năng chính cung cấp cho một tác nhân khả năng thực hiện các hành động đó. Khi triển khai các hệ thống tác nhân quy mô lớn, các nhóm thường sử dụng Ultralytics Platform để huấn luyện và phục vụ các model thị giác nền tảng mà các tác nhân này gọi tới để nhìn thế giới. Các tổ chức chuyển đổi từ model tĩnh sang quy trình làm việc theo tác nhân thường dựa vào các thư viện học sâu như TensorFlow để tối ưu hóa các điểm cuối mà các hàm này giao tiếp.






