AI 모델의 구성 요소인 토큰이 어떻게 NLP, 컴퓨터 비전, 그리고 감정 분석 및 객체 감지와 같은 작업을 지원하는지 알아보세요.
인공 지능에서 토큰은 모델이 처리하는 데이터의 기본적이고 개별적인 단위입니다. AI 모델이 텍스트나 이미지를 분석하려면 먼저 원시 데이터를 이러한 관리 가능한 조각으로 분류해야 합니다. 언어 모델의 경우 토큰은 단어, 단어의 일부(하위 단어) 또는 단일 문자일 수 있습니다. 컴퓨터 비전(CV) 모델의 경우 토큰은 이미지의 작은 고정 크기 패치일 수 있습니다. 데이터를 분류하는 이 프로세스는 복잡한 비정형 데이터를 신경망이 이해할 수 있는 정형 형식으로 변환하기 때문에 데이터 전처리 파이프라인의 중요한 첫 단계입니다.
'토큰'과'토큰화'를 구분하는 것이 중요합니다.
간단히 말해 토큰화는 작업이며, 토큰은 그 작업의 결과물입니다.
토큰은 AI 모델이 데이터를 인식하고 해석하는 방법의 기본 구성 요소입니다. 데이터가 토큰화되면 각 토큰은 일반적으로 임베딩이라고 하는 숫자 벡터 표현에 매핑됩니다. 이러한 임베딩은 의미론적 의미와 컨텍스트를 포착하여 PyTorch나 TensorFlow와 같은 프레임워크로 구축된 모델이 복잡한 패턴을 학습할 수 있도록 합니다.
단어 및 하위 단어 토큰: 자연어 처리(NLP)에서 전체 단어를 토큰으로 사용하면 어휘가 방대해지고 알 수 없는 단어로 인해 문제가 발생할 수 있습니다. 바이트 쌍 인코딩(BPE) 또는 워드피스와 같은 알고리즘을 사용하는 서브워드 토큰화는 일반적인 솔루션입니다. 이는 희귀한 단어를 더 작고 의미 있는 부분으로 분해합니다. 예를 들어, "토큰화"라는 단어는 두 개의 토큰이 될 수 있습니다: "토큰"과 "##화". BERT 및 GPT-4와 같은 모델에서 사용하는 이 접근 방식은 모델이 복잡한 어휘와 문법 구조를 처리하는 데 도움이 됩니다. Hugging Face Tokenizers와 같은 라이브러리에서 최신 구현을 살펴볼 수 있습니다.
비주얼 토큰: 토큰의 개념은 텍스트를 넘어 컴퓨터 비전으로 확장됩니다. 비전 트랜스포머(ViT)와 같은 모델에서는 이미지가 패치 그리드(예: 16x16픽셀)로 나뉩니다. 각 패치는 평평하게 처리되어 "시각적 토큰"으로 취급됩니다. 이를 통해 자체 주의를 사용해 시퀀스를 처리하는 데 탁월한 강력한 Transformer 아키텍처가 이미지 분류 및 물체 감지와 같은 작업을 수행할 수 있습니다. 이 토큰 기반 접근 방식은 CLIP과 같이 이미지와 텍스트를 모두 이해하는 멀티 모달 모델의 기초이기도 합니다.
토큰의 사용은 간단한 애플리케이션부터 복잡한 최첨단 모델에 이르기까지 수많은 AI 시스템의 기본입니다.
기계 번역: Google 번역과 같은 서비스는 토큰에 크게 의존합니다. 문장을 입력하면 먼저 문장이 일련의 텍스트 토큰으로 분해됩니다. 정교한 시퀀스 간 모델이 이러한 토큰을 처리하고 전체 의미를 이해한 다음 대상 언어로 된 새로운 토큰 시퀀스를 생성합니다. 그런 다음 이러한 출력 토큰은 일관된 번역 문장으로 다시 조립됩니다. 이 프로세스를 통해 수십 개 언어에 대한 실시간 번역이 가능합니다.
자율 주행 차량: 자율 주행 차량 분야에서 모델은 복잡한 시각적 장면을 실시간으로 해석해야 합니다. Ultralytics YOLO11과 같은 모델은 카메라 피드를 처리하여 객체 추적 및 인스턴스 세분화와 같은 작업을 수행합니다. YOLO와 같은 기존 CNN 기반 모델은 트랜스포머와 같은 방식으로 '토큰'을 명시적으로 사용하지 않지만, 감지용으로 설계된 비전 트랜스포머 변형은 토큰을 사용합니다. 시각적 입력을 토큰(패치)으로 분해하여 보행자, 다른 차량, 교통 신호를 높은 정확도로 식별하고 위치를 파악합니다. 이러한 토큰화된 환경 이해는 안전한 내비게이션에 매우 중요합니다. 데이터 수집에서 모델 배포에 이르는 전체 워크플로우 관리는 Ultralytics HUB와 같은 플랫폼을 사용하여 간소화할 수 있습니다.