Chain-of-Thought Prompting
Khám phá Chain-of-Thought (CoT) prompting để tăng cường khả năng suy luận của AI. Tìm hiểu cách việc chia nhỏ các nhiệm vụ thành các bước logic giúp cải thiện quá trình tạo code cho Ultralytics YOLO26.
Chain-of-Thought (CoT) prompting là một kỹ thuật tiên tiến trong kỹ thuật nhắc lệnh (prompt engineering), cho phép các mô hình ngôn ngữ lớn (LLM) giải quyết các tác vụ suy luận phức tạp bằng cách chia nhỏ chúng thành các bước logic trung gian. Thay vì yêu cầu mô hình đưa ra câu trả lời cuối cùng ngay lập tức, CoT khuyến khích hệ thống tạo ra một "chuỗi suy nghĩ" mô phỏng quá trình giải quyết vấn đề của con người. Quá trình suy luận từng bước này cải thiện đáng kể hiệu suất trong các tác vụ liên quan đến số học, logic ký hiệu và suy luận thông thường, làm thay đổi cách chúng ta tương tác với các hệ thống Trí tuệ nhân tạo (AI).
Link to this sectionCơ chế của suy luận#
Các mô hình ngôn ngữ tiêu chuẩn thường gặp khó khăn với các bài toán đa bước vì chúng cố gắng ánh xạ dữ liệu đầu vào trực tiếp thành đầu ra trong một lần xử lý duy nhất. Cách tiếp cận "hộp đen" này có thể dẫn đến sai sót, đặc biệt khi bước nhảy logic quá lớn. Chain-of-Thought prompting giải quyết vấn đề này bằng cách chèn các bước suy luận giữa câu hỏi đầu vào và đầu ra cuối cùng.
Quy trình này thường hoạt động theo hai cách:
- Zero-Shot CoT: Người dùng thêm một cụm từ kích hoạt đơn giản như "Hãy suy nghĩ từng bước một" vào câu lệnh (prompt). Điều này kích hoạt các khả năng suy luận tiềm ẩn của mô hình mà không yêu cầu các ví dụ cụ thể.
- Few-Shot CoT: Câu lệnh bao gồm một vài ví dụ (exemplars) về các câu hỏi được ghép nối với lời giải từng bước của chúng. Phương pháp này tận dụng few-shot learning để chỉ cho mô hình chính xác cách cấu trúc logic trước khi thử giải một vấn đề mới.
Bằng cách tạo ra suy luận trung gian một cách tường minh, mô hình có nhiều cơ hội để tự sửa lỗi hơn và mang lại sự minh bạch về cách nó đi đến kết luận. Điều này rất quan trọng để giảm thiểu hiện tượng ảo giác trong LLM, nơi các mô hình có thể đưa ra những thông tin không chính xác một cách đầy tự tin.
Link to this sectionCác ứng dụng trong thực tế#
Mặc dù ban đầu được phát triển cho logic dựa trên văn bản, Chain-of-Thought prompting có những ứng dụng mạnh mẽ khi kết hợp với các lĩnh vực AI khác, chẳng hạn như thị giác máy tính và tạo mã code.
Link to this section1. Tăng cường tạo mã code cho thị giác máy tính#
Các nhà phát triển sử dụng CoT để hướng dẫn LLM viết các tập lệnh phần mềm phức tạp cho các tác vụ như object detection. Thay vì một yêu cầu mơ hồ như "viết code để tìm ô tô", một CoT prompt có thể cấu trúc yêu cầu: "Đầu tiên, nhập các thư viện cần thiết. Thứ hai, tải mô hình đã được huấn luyện trước. Thứ ba, xác định nguồn hình ảnh. Cuối cùng, chạy vòng lặp dự đoán." Cách tiếp cận có cấu trúc này đảm bảo mã code được tạo ra cho các mô hình như YOLO26 là đúng về cú pháp và hợp lý về logic.
Link to this section2. Ra quyết định tự động#
Trong lĩnh vực xe tự hành, các hệ thống phải xử lý dữ liệu hình ảnh và đưa ra các quyết định quan trọng về an toàn. Cách tiếp cận Chain-of-Thought cho phép hệ thống trình bày logic của nó: "Tôi phát hiện một người đi bộ gần lối qua đường. Người đi bộ đang hướng về phía đường. Đèn giao thông đang xanh cho tôi, nhưng người đi bộ có thể bước ra. Do đó, tôi sẽ giảm tốc độ và chuẩn bị dừng lại." Điều này làm cho các quyết định của AI trở nên dễ hiểu và phù hợp với các nguyên tắc AI có thể giải thích (XAI).
Link to this sectionChain-of-Thought trong thực tế#
Mặc dù CoT chủ yếu là một kỹ thuật ngôn ngữ tự nhiên, nó có thể được triển khai theo lập trình để đảm bảo sự tương tác nhất quán với các mô hình thị giác. Ví dụ Python sau đây minh họa cách một nhà phát triển có thể cấu trúc một prompt để hướng dẫn LLM (được mô phỏng ở đây) tạo mã suy luận hợp lệ cho Ultralytics Platform.
# Example of structuring a Chain-of-Thought prompt for an LLM
# This prompt guides the model to write a valid YOLO26 inference script
cot_prompt = """
Task: Write a Python script to detect objects using YOLO26.
Chain of Thought:
1. Import the YOLO class from the 'ultralytics' library.
2. Load the 'yolo26n.pt' model weights (the latest nano model).
3. Load a sample image using a URL or local path.
4. Run the predict() function and save the results.
Based on these steps, generate the Python code below:
"""
# In a real application, you would send 'cot_prompt' to an LLM API
print(f"Structured Prompt for LLM:\n{cot_prompt}")Link to this sectionPhân biệt các khái niệm liên quan#
Việc phân biệt Chain-of-Thought prompting với các thuật ngữ tương tự trong bối cảnh Machine Learning (ML) là rất quan trọng:
- Prompt Chaining: Điều này liên quan đến việc kết nối nhiều lệnh gọi mô hình riêng biệt, trong đó đầu ra của một bước trở thành đầu vào của bước tiếp theo. CoT diễn ra trong phạm vi một câu lệnh duy nhất để gợi mở suy luận nội tại, trong khi prompt chaining điều phối một quy trình công việc thông qua nhiều tương tác.
- Retrieval-Augmented Generation (RAG): RAG tập trung vào việc tìm nạp dữ liệu bên ngoài (như tài liệu hoặc cơ sở dữ liệu) để củng cố kiến thức cho mô hình. CoT tập trung vào chính quá trình suy luận. Thông thường, chúng được kết hợp với nhau—sử dụng RAG để lấy dữ liệu thực tế và CoT để suy luận về chúng.
- Prompt Tuning: Đây là một phương pháp tinh chỉnh (fine-tuning) hiệu quả về tham số giúp tối ưu hóa các soft prompt (vector) liên tục trong quá trình huấn luyện. CoT là một chiến lược ngôn ngữ tự nhiên, rời rạc được áp dụng tại thời điểm suy luận thời gian thực mà không làm thay đổi trọng số mô hình.
Link to this sectionTriển vọng tương lai#
Khi các mô hình nền tảng tiếp tục phát triển, Chain-of-Thought prompting đang trở thành phương pháp thực hành tốt nhất tiêu chuẩn để khai phá toàn bộ tiềm năng của chúng. Nghiên cứu từ các nhóm như Google DeepMind cho thấy rằng khi các mô hình tăng quy mô, khả năng thực hiện suy luận CoT của chúng được cải thiện đáng kể. Sự tiến hóa này đang mở đường cho các tác nhân tự hành đáng tin cậy hơn, có khả năng xử lý các quy trình công việc phức tạp trong các ngành công nghiệp từ chăm sóc sức khỏe đến sản xuất thông minh.






