Mechanistic Interpretability

Ultralytics와 함께 AI의 기계적 해석 가능성을 탐구해 보십시오. Ultralytics YOLO26에서 신경망을 역공학하고 알고리즘 회로를 추적하는 방법을 학습하십시오.

기계적 해석 가능성은 학습된 신경망의 내부 작동 방식을 역공학하는 데 중점을 두는 머신러닝 내의 고급 연구 분야입니다. 이 접근 방식은 모델을 블랙박스로 취급하는 대신 모델이 특정 출력을 생성하게 만드는 정확한 수학적 회로, 특정 뉴런 및 연결된 경로를 이해하려는 시도입니다. 이러한 내부 구조를 인간이 이해할 수 있는 개념으로 매핑함으로써 개발자는 인공지능 시스템이 계층별로 정보를 처리하는 방식을 해독할 수 있습니다.

Link to this section기계적 해석 가능성 대 설명 가능한 AI (XAI)#

기계적 해석 가능성을 일반적인 설명 가능한 AI (XAI)와 혼동하는 경우가 많습니다. XAI는 모델이 어디를 보고 있는지 강조하는 히트맵이나 현저성 맵과 같은 도구를 포함하는 더 넓은 용어인 반면, 기계적 해석 가능성은 모델이 어떻게 그리고 왜 결과를 계산하는지 답변하는 것을 목표로 합니다. 예를 들어, XAI는 객체 탐지 모델이 개를 식별하기 위해 털 질감에 집중한다는 점을 보여줄 수 있지만, 기계적 해석 가능성은 특정 "털 감지" 뉴런을 찾아내고 최종 예측까지의 알고리즘 연결을 추적하는 것을 목표로 합니다.

Link to this section실제 응용 분야#

신경망의 정밀한 내부 로직을 이해하는 것은 고위험 AI를 배포하는 데 매우 중요합니다. 다음은 두 가지 구체적인 응용 사례입니다.

AI 안전 및 정렬을 위한 감사: Anthropic 및 OpenAI와 같은 조직은 기계적 해석 가능성을 사용하여 거대 언어 모델 (LLM)의 숨겨진 편향, 기만적인 행동 또는 인간 가치와의 잠재적인 정렬 불일치를 조사합니다. 희소 오토인코더와 같은 기술을 사용하여 인간이 읽을 수 있는 특징을 추출함으로써 연구원들은 악의적인 경로를 배포 전에 수술적으로 편집하거나 비활성화하여 강력한 AI 안전을 보장할 수 있습니다.
의료 진단 디버깅: 의료와 같은 중요한 분야에서 기계적 해석 가능성은 연구원들이 컴퓨터 비전 알고리즘이 질병을 예측할 때 이미지의 병원 워터마크나 자와 같은 아티팩트가 아닌 진정한 생물학적 표지에 의존하고 있는지 확인하도록 돕습니다. 이러한 세밀한 검증은 의료 AI의 규정 준수 및 신뢰를 위해 필수적입니다.

Link to this section해석 가능성을 위한 특징 추출#

컴퓨터 비전 아키텍처로 작업할 때 기계적 해석 가능성의 일반적인 첫 번째 단계는 중간 활성화 값을 추출하는 것입니다. PyTorch forward hooks와 같은 도구를 사용하면 개발자가 순전파 과정에서 네트워크 내부를 들여다볼 수 있습니다.

다음 코드 조각은 Ultralytics YOLO26 모델의 첫 번째 합성곱 계층에 훅을 연결하여 추론 중에 생성된 내부 특징 맵의 차원을 검사하는 방법을 보여줍니다.

from ultralytics import YOLO

# Load the Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")


# Define a hook function to capture and inspect intermediate layer activations
def hook_fn(module, input, output):
    print(f"Analyzed Layer: {module.__class__.__name__} | Activation Shape: {output.shape}")


# Attach the hook to the first layer of the model architecture
handle = model.model.model[0].register_forward_hook(hook_fn)

# Run a quick inference to trigger the hook and print the mechanistic features
results = model("https://ultralytics.com/images/bus.jpg")
handle.remove()

이러한 활성화 값을 분석함으로써 ML 엔지니어는 특징 시각화를 수행하고 네트워크 동작을 매핑하기 시작할 수 있습니다. 이러한 해석 가능한 시스템을 학습하는 데 필요한 대규모 데이터 세트를 관리하기 위해 Ultralytics Platform과 같은 도구는 모델 학습, 로깅 및 지속적인 모니터링을 단순화하는 강력한 종단 간 파이프라인을 제공합니다. AI 투명성에 대한 요구가 가속화됨에 따라 기계적 해석 가능성은 신뢰할 수 있고 안정적인 모델을 구축하기 위한 핵심 분야로 남을 것입니다.

Explore solutions

농업 분야의 AI

Ultralytics YOLO 모델로 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적, 정밀 농업을 강화하여 더 높고 스마트한 생산성을 달성하십시오.

Mechanistic Interpretability

Link to this section기계적 해석 가능성 대 설명 가능한 AI (XAI)#

Link to this section실제 응용 분야#

Link to this section해석 가능성을 위한 특징 추출#

Explore solutions

농업 분야의 AI

자동차 분야의 AI

의료 분야의 AI

소매업을 위한 AI

로봇 공학의 AI

제조업에서의 AI

물류 분야의 AI

농업 분야의 AI

자동차 분야의 AI

의료 분야의 AI

소매업을 위한 AI

로봇 공학의 AI

제조업에서의 AI

물류 분야의 AI

농업 분야의 AI

자동차 분야의 AI

의료 분야의 AI

소매업을 위한 AI

로봇 공학의 AI

제조업에서의 AI

물류 분야의 AI

미래의 AI를 함께 구축합시다!