Mechanistic Interpretability

Khám phá Mechanistic Interpretability trong AI cùng Ultralytics. Tìm hiểu cách kỹ thuật đảo ngược (reverse-engineer) các mạng thần kinh và truy vết các mạch thuật toán trong Ultralytics YOLO26.

Mechanistic Interpretability là một lĩnh vực nghiên cứu chuyên sâu trong machine learning tập trung vào việc kỹ thuật đảo ngược các cơ chế hoạt động bên trong của các mạng thần kinh đã được huấn luyện. Thay vì coi một model là một hộp đen, phương pháp này tìm cách thấu hiểu các mạch toán học chính xác, các neuron cụ thể và các đường dẫn kết nối khiến một model đưa ra kết quả đầu ra nhất định. Bằng cách ánh xạ các cấu trúc bên trong này thành các khái niệm mà con người có thể hiểu được, các nhà phát triển có thể giải mã cách các hệ thống artificial intelligence xử lý thông tin theo từng lớp.

Link to this sectionMechanistic Interpretability và Explainable AI (XAI)#

Rất dễ nhầm lẫn giữa Mechanistic Interpretability với khái niệm chung là Explainable AI (XAI). Trong khi XAI là một thuật ngữ rộng hơn bao gồm các công cụ như bản đồ nhiệt (heatmaps) hoặc bản đồ hiển thị độ nổi bật (saliency maps) để làm nổi bật nơi model đang tập trung vào, Mechanistic Interpretability nhằm mục đích trả lời câu hỏi như thế nào và tại sao model tính toán ra phản hồi đó. Ví dụ, trong khi XAI có thể cho thấy một model object detection tập trung vào kết cấu lông để nhận diện một con chó, Mechanistic Interpretability hướng tới việc định vị các neuron "phát hiện lông" cụ thể và truy vết các kết nối thuật toán của chúng dẫn đến dự đoán cuối cùng.

Link to this sectionCác ứng dụng thực tế#

Việc thấu hiểu logic nội tại chính xác của các neural networks là rất quan trọng để triển khai các hệ thống AI có rủi ro cao. Dưới đây là hai ứng dụng cụ thể:

Kiểm định an toàn và sự phù hợp của AI: Các tổ chức như Anthropic và OpenAI sử dụng Mechanistic Interpretability để kiểm tra các large language models (LLMs) nhằm tìm kiếm các thiên kiến ẩn, hành vi lừa đảo hoặc sự sai lệch tiềm ẩn so với các giá trị của con người. Bằng cách trích xuất các đặc trưng mà con người có thể đọc được thông qua các kỹ thuật như sparse autoencoders, các nhà nghiên cứu có thể chỉnh sửa hoặc vô hiệu hóa các đường dẫn độc hại một cách chính xác trước khi triển khai để đảm bảo tính AI safety mạnh mẽ.
Gỡ lỗi chẩn đoán y tế: Trong các lĩnh vực quan trọng như healthcare, Mechanistic Interpretability giúp các nhà nghiên cứu xác minh rằng các thuật toán thị giác máy tính đang dựa trên các dấu hiệu sinh học thực sự thay vì các yếu tố nhiễu (như hình mờ của bệnh viện hoặc thước đo trong hình ảnh) khi dự đoán bệnh. Việc xác thực chi tiết này là thiết yếu để đạt được sự tuân thủ và tin tưởng vào AI y tế.

Link to this sectionTrích xuất đặc trưng cho khả năng thông hiểu#

Khi làm việc với các kiến trúc computer vision, bước đầu tiên phổ biến trong Mechanistic Interpretability là trích xuất các kích hoạt trung gian (intermediate activations). Sử dụng các công cụ như PyTorch forward hooks, các nhà phát triển có thể nhìn thấu vào bên trong một mạng thần kinh trong quá trình lan truyền tiến (forward pass).

Đoạn mã dưới đây minh họa cách gắn một hook vào lớp tích chập (convolutional layer) đầu tiên của một model Ultralytics YOLO26 để kiểm tra kích thước của các bản đồ đặc trưng (feature maps) nội bộ được tạo ra trong quá trình suy luận (inference).

from ultralytics import YOLO

# Load the Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")


# Define a hook function to capture and inspect intermediate layer activations
def hook_fn(module, input, output):
    print(f"Analyzed Layer: {module.__class__.__name__} | Activation Shape: {output.shape}")


# Attach the hook to the first layer of the model architecture
handle = model.model.model[0].register_forward_hook(hook_fn)

# Run a quick inference to trigger the hook and print the mechanistic features
results = model("https://ultralytics.com/images/bus.jpg")
handle.remove()

Bằng cách phân tích các kích hoạt này, các kỹ sư ML có thể thực hiện feature visualization và bắt đầu lập bản đồ hành vi của mạng thần kinh. Để quản lý các tập dữ liệu quy mô lớn cần thiết cho việc huấn luyện các hệ thống có khả năng thông hiểu này, các công cụ như Ultralytics Platform cung cấp các pipeline toàn diện giúp đơn giản hóa quá trình huấn luyện model, ghi nhật ký và giám sát liên tục. Khi xu hướng thúc đẩy tính minh bạch trong AI ngày càng tăng, Mechanistic Interpretability sẽ tiếp tục là một bộ môn nền tảng để xây dựng các model đáng tin cậy và chính xác.

Explore solutions

AI trong Nông nghiệp

Mang thị giác máy tính AI vào nông nghiệp thông minh với các model Ultralytics YOLO. Thúc đẩy giám sát cây trồng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn và thông minh hơn.

Mechanistic Interpretability

Link to this sectionMechanistic Interpretability và Explainable AI (XAI)#

Link to this sectionCác ứng dụng thực tế#

Link to this sectionTrích xuất đặc trưng cho khả năng thông hiểu#

Explore solutions

AI trong Nông nghiệp

AI trong ngành ô tô

AI trong chăm sóc sức khỏe

AI trong Bán lẻ

AI trong ngành Robot

AI trong Sản xuất

AI trong Logistics

AI trong Nông nghiệp

AI trong ngành ô tô

AI trong chăm sóc sức khỏe

AI trong Bán lẻ

AI trong ngành Robot

AI trong Sản xuất

AI trong Logistics

AI trong Nông nghiệp

AI trong ngành ô tô

AI trong chăm sóc sức khỏe

AI trong Bán lẻ

AI trong ngành Robot

AI trong Sản xuất

AI trong Logistics

Hãy cùng nhau xây dựng tương lai của AI!