YOLO Vision Thâm Quyến
Thâm Quyến
Tham gia ngay
Thuật ngữ

Kỹ thuật biểu diễn (Representation Engineering - RepE)

Khám phá Kỹ thuật Biểu diễn (Representation Engineering - RepE) để giám sát và kiểm soát hành vi của AI. Tìm hiểu cách thao tác các trạng thái nội bộ của AI. Ultralytics YOLO26 giúp các mô hình an toàn hơn và dễ điều khiển hơn.

Kỹ thuật Biểu diễn (Representation Engineering - RepE) là một phương pháp tiên tiến trong học máy, liên quan đến việc phân tích và trực tiếp thao tác các trạng thái nhận thức bên trong—hay các biểu diễn—của mạng nơ-ron để giám sát và kiểm soát hành vi của chúng. Được giới thiệu như một cách tiếp cận từ trên xuống đối với sự an toàn và tính nhất quán của AI , RepE chuyển trọng tâm khỏi việc chỉ đơn thuần sửa đổi đầu vào hoặc đầu ra của mô hình. Thay vào đó, nó đọc và thay đổi các trạng thái ẩn bên trong của các mô hình ngôn ngữ và hệ thống thị giác lớn trong quá trình suy luận thời gian thực , cho phép các nhà phát triển hướng mô hình đến các khái niệm mong muốn như tính trung thực, tính vô hại hoặc các đặc điểm hình ảnh cụ thể mà không cần huấn luyện lại mạng.

Cách thức hoạt động của kỹ thuật biểu diễn kỹ thuật số

Khái niệm cốt lõi của RepE, được mô tả chi tiết trong bài báo nền tảng về Kỹ thuật Biểu diễn của Trung tâm An toàn Trí tuệ Nhân tạo , được chia thành hai giai đoạn chính: đọc và điều khiển.

Trong giai đoạn "đọc", các nhà nghiên cứu phân tích cách các lớp ẩn của mô hình mã hóa các khái niệm cụ thể. Bằng cách quan sát đầu ra của hàm kích hoạt trên các gợi ý hoặc hình ảnh khác nhau, các kỹ sư có thể cô lập "hướng" cụ thể trong không gian tiềm ẩn tương ứng với một khái niệm, chẳng hạn như tính trung thực hoặc một lớp đối tượng cụ thể. Điều này dựa trên nghiên cứu về khả năng giải thích cơ học của Anthropic , nhằm mục đích đảo ngược kỹ thuật các mạng thần kinh.

Trong giai đoạn "kiểm soát", các biểu diễn riêng lẻ này được khuếch đại hoặc triệt tiêu một cách nhân tạo trong quá trình truyền dữ liệu. Sự can thiệp này làm thay đổi hành vi của mô hình một cách tức thời, một kỹ thuật phù hợp chặt chẽ với các nguyên tắc về sự phù hợp và an toàn của OpenAI trong việc tạo ra các hệ thống AI có thể điều khiển và dự đoán được.

Phân biệt RepE với các khái niệm liên quan

Để hiểu đầy đủ về RepE, điều quan trọng là phải phân biệt nó với các kỹ thuật phổ biến khác được sử dụng trong thị giác máy tính và xử lý ngôn ngữ tự nhiên:

Các Ứng dụng Thực tế

RepE đang thúc đẩy những tiến bộ đáng kể trong việc tạo ra trí tuệ nhân tạo mạnh mẽ, có thể kiểm soát được trên nhiều lĩnh vực, được hỗ trợ bởi nghiên cứu từ các tổ chức như nghiên cứu về khả năng giải thích của mạng nơ-ron của MIT CSAIL :

  • Giảm thiểu ảo giác do AI gây ra: Bằng cách xác định biểu diễn nội tại của "tính chân thực", các kỹ sư có thể tăng cường tín hiệu này một cách nhân tạo trong quá trình suy luận. Điều này được sử dụng tích cực để giảm ảo giác trong các mô hình học máy (LLM) , đảm bảo chatbot cung cấp thông tin thực tế thay vì bịa đặt câu trả lời.
  • Điều khiển hệ thống thị giác đa phương thức: Trong các mô hình đa phương thức , RepE có thể được sử dụng để điều khiển trọng tâm thị giác của tác nhân AI. Ví dụ, trong lái xe tự động, việc khuếch đại biểu diễn nội bộ cho "các mối nguy hiểm từ người đi bộ" có thể buộc mô hình ưu tiên phát hiện các mối nguy hiểm quan trọng về an toàn trong môi trường phức tạp, một lĩnh vực trọng tâm được nhấn mạnh trong các ấn phẩm của IEEE về tính minh bạch của AI .

Ứng dụng trích xuất khái niệm trong mô hình thị giác

Mặc dù việc chỉnh sửa trực tiếp các kích hoạt đòi hỏi sự can thiệp toán học nâng cao, bước đầu tiên của RepE—đọc các biểu diễn—có thể được thực hiện bằng cách sử dụng các khung học sâu hiện đại. Bằng cách sử dụng tài liệu về hook chuyển tiếp PyTorch , các nhà phát triển có thể trích xuất trạng thái bên trong của các mô hình như Ultralytics YOLO26 để phân tích cách các khái niệm trực quan được mã hóa.

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for state-of-the-art vision tasks
model = YOLO("yolo26n.pt")

# Access the underlying PyTorch model to register a forward hook
pytorch_model = model.model
internal_representations = []


# Define a hook function to capture the output of a specific hidden layer
def hook_fn(module, input, output):
    internal_representations.append(output)


# Attach the hook to a middle layer (e.g., layer index 5) to read representations
handle = pytorch_model.model[5].register_forward_hook(hook_fn)

# Run inference on an image to capture the cognitive state of the model
results = model("https://ultralytics.com/images/bus.jpg")

# The captured representations can now be analyzed for RepE steering
print(f"Captured latent representation shape: {internal_representations[0].shape}")

# Remove the hook to clean up memory
handle.remove()

Khi các mô hình trở nên phức tạp hơn, các kỹ thuật được mô tả trong hướng dẫn về học biểu diễn của TensorFlownghiên cứu an toàn của Google DeepMind nhấn mạnh rằng việc hiểu và thiết kế các trạng thái nội bộ này sẽ rất quan trọng đối với thế hệ kiến ​​trúc AI an toàn và đáng tin cậy tiếp theo.

Hãy cùng nhau xây dựng tương lai của trí tuệ nhân tạo!

Bắt đầu hành trình của bạn với tương lai của học máy