Yolo 비전 선전
선전
지금 참여하기
용어집

토큰화

NLP 및 ML에서 토큰화의 강력한 기능을 알아보세요! 텍스트를 토큰으로 분리하여 감성 분석 및 텍스트 생성과 같은 AI 작업을 향상시키는 방법을 알아보세요.

토큰화는 텍스트, 이미지, 오디오와 같은 원시 데이터 스트림을 토큰이라 불리는 더 작고 관리 가능한 단위로 분해하는 알고리즘적 과정입니다. 이 변환은 데이터 전처리 파이프라인에서 핵심적인 가교 역할을 수행하며, 비정형 입력을 인공 지능(AI) 시스템이 해석할 수 있는 수치 형식으로 변환합니다. 컴퓨터는 본질적으로 인간의 언어나 시각적 장면을 이해할 수 없으며, 계산을 수행하기 위해서는 수치적 표현이 필요합니다. 데이터를 토큰으로 분할함으로써 엔지니어들은 신경망이 이러한 단위들을 의미적 의미를 포착하는 벡터 표현인 임베딩에매핑할 수 있도록 합니다. 이 근본적인 단계 없이는 머신러닝 모델이 패턴을 식별하거나, 맥락을 학습하거나, 현대적 훈련에 필요한 방대한 데이터셋을 처리하는 것이 불가능할 것입니다.

토큰화 대 토큰

딥 러닝 논의에서 이 용어들은 종종 함께 언급되지만, 워크플로우를 이해하기 위해서는 방법과 결과를 구분하는 것이 도움이 됩니다.

  • Tokenization is the process (the verb). It refers to the specific set of rules or algorithms used to split the data. For text, this might involve using libraries like NLTK or spaCy to determine where one unit ends and another begins.
  • 토큰출력 (명사)이다. 이는 단일 단어, 하위 단어, 문자 또는 픽셀 패치와 같이 프로세스에 의해 생성된 개별 단위이다.

다양한 영역에 걸친 방법론

토큰화 전략은 데이터의 양상에 따라 크게 달라지며, 이는 기초 모델이 세계를 인식하는 방식에 영향을 미친다.

NLP의 텍스트 토큰화

자연어 처리(NLP)에서는 의미를 보존하면서 segment 것이 목표입니다. 초기 방법들은 공백으로 단어를 분리하거나 중지어를 제거하는 등의 단순한 기법에 의존했습니다. 그러나 현대의 대규모 언어 모델(LLM) 은 보다 정교한 서브워드 알고리즘을 활용합니다. 예를 들어 바이트 쌍 인코딩(BPE) 이나 WordPiece와 같은 정교한 서브워드 알고리즘을 활용합니다. 이러한 알고리즘은 가장 빈번한 문자 쌍을 반복적으로 병합하여, 모델이 희귀 단어를 익숙한 하위 구성 요소로 분해함으로써 처리할 수 있게 합니다(예: "smartphones" → "smart" + "phones"). 이 접근법은 어휘 크기와 복잡한 언어 표현 능력 사이의 균형을 맞춥니다.

컴퓨터 비전의 시각적 토큰화

전통적으로 CNN과 같은 컴퓨터 비전(CV) 모델은 슬라이딩 윈도우를 사용하여 픽셀을 처리했습니다. 비전 트랜스포머(ViT) 의 도입은 이미지에 토큰화를 적용함으로써 이 패러다임을 바꿨습니다. 이미지는 고정 크기 패치(예: 16x16 픽셀)로 분할된 후 편평화되고 선형 투영됩니다. 이러한 "시각적 토큰"은 모델이 트랜스포머가 문장을 처리하는 방식과 유사하게 이미지 전반에 걸친 전역적 관계를 학습하기 위해 자기 주의 메커니즘을 활용할 수 있게 합니다.

실제 애플리케이션

토큰화는 오늘날 생산 환경에서 사용되는 많은 AI 애플리케이션의 배후에서 조용히 작동하는 엔진이다.

  1. 개방형 어휘 객체 탐지: YOLO 같은 고급 아키텍처는 다중 모달 모델 접근법을 채택합니다. 사용자가 "빨간 모자를 쓴 사람"과 같은 프롬프트를 입력하면, 시스템은 이 텍스트를 토큰화하여 시각적 데이터와 동일한 특징 공간에 매핑합니다. 이를 통해 제로샷 학습이 가능해지며, 모델은 텍스트 토큰을 시각적 특징과 매칭함으로써 명시적으로 훈련되지 않은 detect 수 있습니다.
  2. 생성형 예술과 디자인: 텍스트-이미지 생성 과정에서 사용자 프롬프트는 확산 과정을 안내하기 위해 토큰화됩니다. 모델은 이러한 토큰을 활용하여 생성을 조건부로 제어함으로써, 결과 이미지가 토큰화 단계에서 추출된 의미적 개념(예: "일몰", "해변")과 일치하도록 보장합니다.

Python : 토큰 기반 탐지

다음 예는 ultralytics 패키지는 YOLO 워크플로 내에서 암시적으로 텍스트 토큰화를 활용합니다. 사용자 정의 클래스를 정의함으로써, 모델은 이러한 문자열을 토큰화하여 특정 객체를 동적으로 검색합니다.

from ultralytics import YOLO

# Load a pre-trained YOLO-World model capable of text-based detection
model = YOLO("yolov8s-world.pt")

# Define custom classes; these are tokenized internally to guide the model
# The model will look for visual features matching these text tokens
model.set_classes(["backpack", "bus"])

# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results (only detects the tokenized classes defined above)
results[0].show()

모델 성능에 미치는 영향

토큰화 전략의 선택은 정확도와 계산 효율성에 직접적인 영향을 미칩니다. 비효율적인 토큰화는 NLP에서 "어휘집 외" 오류를 유발하거나 이미지 분석에서 세밀한 세부사항의 손실을 초래할 수 있습니다. PyTorchTensorFlow 이 단계를 최적화할 수 있는 유연한 도구를 제공합니다. 최첨단 YOLO26과같은 아키텍처가 진화함에 따라 효율적인 데이터 처리는 모델이 강력한 클라우드 GPU부터 엣지 디바이스에 이르기까지 다양한 하드웨어에서 실시간 추론을 실행할 수 있도록 보장합니다. 이러한 복잡한 데이터 워크플로를 관리하는 팀은 종종 Ultralytics 활용하여 데이터셋 주석 작업, 모델 훈련 및 배포를 간소화합니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기