Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Khả năng giải thích theo cơ chế

Khám phá khả năng giải thích cơ chế trong Trí tuệ nhân tạo với Ultralytics Tìm hiểu cách phân tích ngược mạng nơ-ron và truy tìm các mạch thuật toán trong... Ultralytics YOLO26.

Giải thích cơ chế là một lĩnh vực nghiên cứu tiên tiến trong học máy , tập trung vào việc phân tích ngược hoạt động bên trong của các mạng nơ-ron đã được huấn luyện. Thay vì coi mô hình như một hộp đen, phương pháp này tìm cách hiểu chính xác các mạch toán học, các nơ-ron cụ thể và các đường dẫn kết nối khiến mô hình tạo ra một đầu ra cụ thể. Bằng cách ánh xạ các cấu trúc bên trong này thành các khái niệm mà con người có thể hiểu được, các nhà phát triển có thể giải mã cách các hệ thống trí tuệ nhân tạo xử lý thông tin từng lớp một.

Khả năng giải thích theo cơ chế so với Trí tuệ nhân tạo có thể giải thích (XAI)

Người ta thường nhầm lẫn giữa Khả năng diễn giải cơ học (Mechanistic Interpretability) và Trí tuệ nhân tạo có thể giải thích (Explainable AI - XAI) nói chung. Trong khi XAI là một thuật ngữ rộng hơn bao gồm các công cụ như bản đồ nhiệt (heatmap) hoặc bản đồ nổi bật (saliency map) giúp làm nổi bật vị trí mà mô hình đang tìm kiếm, thì Khả năng diễn giải cơ học nhằm mục đích trả lời câu hỏi mô hình tính toán phản hồi của nó như thế nàotại sao . Ví dụ, trong khi XAI có thể cho thấy mô hình phát hiện đối tượng tập trung vào kết cấu lông để nhận dạng một con chó, thì Khả năng diễn giải cơ học nhằm mục đích xác định vị trí các tế bào thần kinh "phát hiện lông" cụ thể và theo dõi các kết nối thuật toán của chúng đến dự đoán cuối cùng.

Các Ứng dụng Thực tế

Hiểu rõ logic bên trong chính xác của mạng nơ-ron là điều tối quan trọng để triển khai trí tuệ nhân tạo (AI) trong các ứng dụng quan trọng. Dưới đây là hai ứng dụng cụ thể:

  • Kiểm toán về An toàn và Sự phù hợp của AI : Các tổ chức như AnthropicOpenAI sử dụng Khả năng diễn giải cơ học để kiểm tra các mô hình ngôn ngữ lớn (LLM) nhằm phát hiện các thành kiến ​​tiềm ẩn, hành vi lừa dối hoặc khả năng không phù hợp với các giá trị của con người. Bằng cách trích xuất các đặc điểm dễ đọc đối với con người bằng các kỹ thuật như bộ mã hóa tự động thưa , các nhà nghiên cứu có thể chỉnh sửa hoặc vô hiệu hóa các đường dẫn độc hại trước khi triển khai để đảm bảo an toàn AI mạnh mẽ.
  • Gỡ lỗi chẩn đoán y tế : Trong các lĩnh vực quan trọng như chăm sóc sức khỏe , khả năng giải thích cơ chế giúp các nhà nghiên cứu xác minh rằng các thuật toán thị giác máy tính đang dựa vào các dấu hiệu sinh học thực sự chứ không phải các hiện tượng giả tạo (như hình mờ của bệnh viện hoặc thước kẻ trong ảnh) khi dự đoán bệnh tật. Việc xác thực chi tiết này rất cần thiết để tuân thủ các quy định và tạo dựng niềm tin vào trí tuệ nhân tạo trong y tế .

Trích xuất các đặc điểm để dễ hiểu hơn

Khi làm việc với các kiến ​​trúc thị giác máy tính , bước đầu tiên phổ biến trong việc diễn giải cơ chế là trích xuất các kích hoạt trung gian. Sử dụng các công cụ như PyTorch forward hooks , các nhà phát triển có thể xem xét bên trong mạng trong quá trình truyền tiến.

Đoạn mã sau đây minh họa cách gắn một hook vào lớp tích chập đầu tiên của mô hình Ultralytics YOLO26 để kiểm tra kích thước của các bản đồ đặc trưng nội bộ được tạo ra trong quá trình suy luận.

from ultralytics import YOLO

# Load the Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")


# Define a hook function to capture and inspect intermediate layer activations
def hook_fn(module, input, output):
    print(f"Analyzed Layer: {module.__class__.__name__} | Activation Shape: {output.shape}")


# Attach the hook to the first layer of the model architecture
handle = model.model.model[0].register_forward_hook(hook_fn)

# Run a quick inference to trigger the hook and print the mechanistic features
results = model("https://ultralytics.com/images/bus.jpg")
handle.remove()

Bằng cách phân tích các kích hoạt này, các kỹ sư học máy có thể thực hiện trực quan hóa đặc trưng và bắt đầu lập bản đồ hành vi của mạng. Để quản lý các tập dữ liệu quy mô lớn cần thiết để huấn luyện các hệ thống có thể giải thích được này, các công cụ như Nền tảng Ultralytics cung cấp các quy trình đầu cuối mạnh mẽ giúp đơn giản hóa việc huấn luyện mô hình, ghi nhật ký và giám sát liên tục. Khi xu hướng minh bạch trong AI ngày càng tăng tốc, Khả năng giải thích cơ học sẽ vẫn là một nguyên tắc nền tảng để xây dựng các mô hình đáng tin cậy.

Tăng sức mạnh với Ultralytics YOLO

Nhận AI thị giác tiên tiến cho các dự án của bạn. Tìm giấy phép phù hợp với mục tiêu của bạn ngay hôm nay.

Tìm hiểu các tùy chọn cấp phép