Hallucination (in LLMs)
Khám phá nguyên nhân và rủi ro của AI ảo giác trong LLM. Tìm hiểu cách giảm thiểu các lỗi thực tế bằng cách sử dụng RAG, RLHF và grounding với Ultralytics YOLO26.
Trong lĩnh vực Trí tuệ nhân tạo (AI), ảo giác đề cập đến hiện tượng khi một Mô hình ngôn ngữ lớn (LLM) tạo ra nội dung đầy tự tin và đúng ngữ pháp nhưng lại sai lệch về mặt thực tế, vô nghĩa hoặc không trung thực với dữ liệu đầu vào. Không giống như các lỗi phần mềm thông thường có thể dẫn đến treo máy hoặc trục trặc hiển thị, một mô hình bị ảo giác hoạt động như một kẻ bịa đặt đầy thuyết phục, trình bày thông tin sai lệch với sự tự tin như thể đó là sự thật. Điều này đặt ra những thách thức đáng kể cho các tổ chức triển khai Generative AI trong các lĩnh vực nhạy cảm như y tế, luật pháp và tài chính, nơi mà tính toàn vẹn của dữ liệu là yếu tố tối quan trọng.
Link to this sectionTại sao ảo giác lại xảy ra?#
Để hiểu tại sao các mô hình bị ảo giác, việc xem xét cách chúng được xây dựng là rất hữu ích. LLM thường dựa trên kiến trúc Transformer, hoạt động như một công cụ dự đoán tinh vi. Thay vì truy vấn một cơ sở dữ liệu có cấu trúc gồm các sự thật đã được kiểm chứng, mô hình dự đoán token tiếp theo trong một chuỗi dựa trên các xác suất thống kê được rút ra từ dữ liệu huấn luyện của nó.
Một vài yếu tố thúc đẩy hành vi này:
- Phỏng đoán xác suất: Mô hình ưu tiên sự trôi chảy và tính mạch lạc hơn là sự thật khách quan. Nếu một chuỗi từ cụ thể có khả năng xảy ra cao về mặt thống kê—ngay cả khi sai sự thật—mô hình vẫn có thể tạo ra nó. Khái niệm này thường được thảo luận trong các nghiên cứu về stochastic parrots, nơi các mô hình bắt chước các mẫu ngôn ngữ mà không hiểu ý nghĩa của chúng.
- Vấn đề chất lượng dữ liệu: Nếu khối lượng văn bản khổng lồ được sử dụng để huấn luyện chứa các mâu thuẫn, thông tin lỗi thời hoặc hư cấu, mô hình có thể tái tạo lại những sự thiếu chính xác này.
- Mất trí nhớ nguồn: LLM nén một lượng lớn thông tin vào trọng số mô hình. Trong quá trình này, chúng thường mất liên kết với các nguồn cụ thể, dẫn đến tình trạng "thêu dệt" (confabulation) khi các khái niệm hoặc sự kiện khác biệt bị hợp nhất một cách sai lệch.
Link to this sectionCác ví dụ thực tế về ảo giác#
Ảo giác có thể biểu hiện theo nhiều cách, từ những chi tiết sáng tạo vô hại đến những sai lệch nghiêm trọng về sự thật:
- Bịa đặt pháp lý: Đã có những trường hợp được ghi nhận trong đó các chuyên gia pháp lý sử dụng AI để soạn thảo các bản tóm tắt pháp lý, chỉ để phát hiện ra rằng mô hình đã tự tạo ra các vụ kiện không tồn tại và các trích dẫn để hỗ trợ cho lập luận của họ.
- Tạo mã: Các lập trình viên sử dụng trợ lý AI có thể gặp phải "ảo giác gói thư viện" (package hallucinations), nơi mô hình gợi ý import một thư viện phần mềm hoặc gọi một hàm không thực sự tồn tại, chỉ đơn giản vì tên gọi tuân theo các quy ước đặt tên tiêu chuẩn.
- Sai sót tiểu sử: Khi được hỏi về những cá nhân ít nổi tiếng, các mô hình có thể tự tin gán cho họ các thành tựu, nơi sinh hoặc lịch sử nghề nghiệp không chính xác, thực tế là trộn lẫn các chi tiết từ nhiều người khác nhau.
Link to this sectionChiến lược giảm thiểu#
Giảm thiểu tần suất xảy ra ảo giác là một trọng tâm chính của AI Safety. Các kỹ sư và nhà nghiên cứu sử dụng một số kỹ thuật để giúp mô hình bám sát vào thực tế:
- Retrieval-Augmented Generation (RAG): Phương pháp này kết nối LLM với một cơ sở tri thức bên ngoài đáng tin cậy, thường được lập chỉ mục trong một vector database. Bằng cách truy xuất các tài liệu liên quan trước khi tạo câu trả lời, mô hình bị ràng buộc bởi dữ liệu thực tế.
- Chain-of-Thought Prompting: Kỹ thuật prompt engineering này khuyến khích mô hình "thể hiện quá trình tư duy" bằng cách chia nhỏ các lập luận phức tạp thành các bước trung gian, điều này thường làm giảm các lỗi logic.
- Reinforcement Learning from Human Feedback (RLHF): Trong giai đoạn tinh chỉnh (fine-tuning), các đánh giá viên là con người sẽ xếp hạng các phản hồi của mô hình. Bằng cách phạt các ảo giác và thưởng cho sự trung thực, mô hình học cách điều chỉnh tốt hơn theo kỳ vọng của con người.
Link to this sectionGắn kết LLM với thị giác máy tính (Computer Vision)#
Trong các hệ thống Multimodal AI, việc tạo văn bản có thể được gắn kết bằng dữ liệu hình ảnh. Nếu một LLM được yêu cầu mô tả một khung cảnh, nó có thể ảo giác ra các đối tượng không tồn tại. Bằng cách tích hợp một trình phát hiện đối tượng có độ chính xác cao như YOLO26, các lập trình viên có thể cung cấp một danh sách thực tế về các đối tượng hiện diện cho LLM, hạn chế nghiêm ngặt đầu ra của nó trong phạm vi các phát hiện đã được kiểm chứng.
Ví dụ Python sau đây cho thấy cách sử dụng gói ultralytics để trích xuất danh sách đối tượng đã được xác thực, danh sách này sau đó có thể đóng vai trò như một ràng buộc thực tế cho một prompt của mô hình ngôn ngữ.
from ultralytics import YOLO
# Load the YOLO26n model (latest generation, efficient and accurate)
model = YOLO("yolo26n.pt")
# Run inference on an image to get ground-truth detections
results = model("https://ultralytics.com/images/bus.jpg")
# Extract the class names of actually detected objects
detected_objects = [model.names[int(c)] for c in results[0].boxes.cls]
# This factual list prevents the LLM from hallucinating items
print(f"Verified Objects for Prompt Context: {detected_objects}")
# Output example: ['bus', 'person', 'person', 'person', 'person']Link to this sectionPhân biệt các khái niệm liên quan#
Việc phân biệt ảo giác với các lỗi AI phổ biến khác là rất quan trọng:
- So với Bias in AI: Bias đề cập đến sự thiên kiến có hệ thống trong kết quả đầu ra (ví dụ: thiên vị nhóm nhân khẩu học này hơn nhóm khác), trong khi ảo giác là sự thất bại về độ chính xác thực tế. Một phản hồi có thể không thiên vị nhưng vẫn là ảo giác (ví dụ: "Mặt trăng được làm bằng phô mai").
- So với Overfitting: Overfitting xảy ra khi một mô hình ghi nhớ dữ liệu huấn luyện quá mức và không thể khái quát hóa cho dữ liệu đầu vào mới. Ảo giác thường xảy ra khi mô hình cố gắng khái quát hóa quá mức vào những lĩnh vực mà nó thiếu dữ liệu.
- So với phân loại sai (Misclassification): Trong object detection, việc gắn nhãn một chiếc xe hơi là xe tải là lỗi phân loại (vấn đề về độ chính xác), không phải là ảo giác. Ảo giác chỉ đặc thù đối với việc tạo ra nội dung sai lệch thông qua mô hình tạo sinh.
Đối với những ai đang tìm cách quản lý tập dữ liệu và huấn luyện các mô hình với tính toàn vẹn dữ liệu cao nhằm ngăn chặn các lỗi phát sinh, Ultralytics Platform cung cấp các công cụ toàn diện cho việc gán nhãn và quản lý tập dữ liệu. Ngoài ra, hướng dẫn từ NIST AI Risk Management Framework cung cấp các tiêu chuẩn để đánh giá và giảm thiểu những rủi ro này trong môi trường sản xuất.






