Token
토큰이 AI에서 정보의 기본 단위로 어떻게 작동하는지 배우세요. NLP, 컴퓨터 비전 및 YOLO26을 사용한 오픈 보캐블러리 감지에서의 역할을 살펴보세요.
현대 인공지능의 정교한 아키텍처에서 토큰은 모델이 처리하는 정보의 근본적이고 원자적인 단위를 의미합니다. 알고리즘이 문장을 해석하거나, 소프트웨어 스크립트를 분석하거나, 이미지 내의 객체를 인식하기 전에, 원시 입력 데이터는 이러한 개별적이고 표준화된 요소로 분해되어야 합니다. 이러한 세분화는 데이터 전처리의 핵심 단계로서, 비정형 입력을 신경망이 효율적으로 계산할 수 있는 수치 형식으로 변환합니다. 인간은 언어를 연속적인 사고의 흐름이나 이미지로 인식하지만, 컴퓨터 모델은 패턴 인식 및 의미론적 분석과 같은 작업을 수행하기 위해 이러한 세부적인 구성 요소가 필요합니다.
Link to this section토큰 vs. 토큰화#
머신러닝의 메커니즘을 파악하기 위해서는 데이터 단위와 이를 생성하는 프로세스를 구분하는 것이 필수적입니다. 이러한 구분은 데이터 파이프라인을 설계하고 Ultralytics Platform에서 학습 자료를 준비할 때 혼란을 방지해 줍니다.
- 토큰화: 이는 원시 데이터를 조각으로 분할하는 알고리즘적 프로세스(동사)입니다. 텍스트의 경우, Natural Language Toolkit (NLTK)와 같은 라이브러리를 사용하여 한 단위가 끝나고 다른 단위가 시작되는 지점을 결정하는 작업이 포함될 수 있습니다.
- 토큰: 이는 결과물(명사)입니다. 이는 단어, 하위 단어 또는 이미지 패치와 같이 최종적으로 임베딩이라고 알려진 수치 벡터에 매핑되는 실제 데이터 조각입니다.
Link to this section다양한 AI 영역에서의 토큰#
토큰의 특성은 처리되는 데이터의 양식, 특히 텍스트 도메인과 시각적 도메인 간의 차이에 따라 크게 달라집니다.
Link to this sectionNLP에서의 텍스트 토큰#
자연어 처리(NLP) 분야에서 토큰은 거대 언어 모델(LLM)의 입력값입니다. 초기 접근 방식은 엄격하게 전체 단어에 매핑했으나, 최신 아키텍처는 Byte Pair Encoding (BPE)와 같은 하위 단어 알고리즘을 활용합니다. 이 방법은 희귀 단어를 의미 있는 음절로 분해하여 모델이 처리할 수 있게 함으로써 어휘 크기와 의미론적 범위 간의 균형을 유지합니다. 예를 들어, "unhappiness"라는 단어는 "un", "happi", "ness"로 토큰화될 수 있습니다.
Link to this section컴퓨터 비전에서의 시각적 토큰#
The concept of tokenization has expanded into computer vision with the advent of the Vision Transformer (ViT). Unlike traditional convolutional networks that process pixels in sliding windows, Transformers divide an image into a grid of fixed-size patches (e.g., 16x16 pixels). Each patch is flattened and treated as a distinct visual token. This approach enables the model to use self-attention mechanisms to understand the relationship between distant parts of an image, similar to how Google Research originally applied transformers to text.
Link to this section실제 애플리케이션 사례#
토큰은 수많은 애플리케이션에서 인간의 데이터와 기계 지능 사이의 가교 역할을 합니다.
-
오픈 어휘 객체 탐지: YOLO-World와 같은 고급 모델은 텍스트 토큰이 시각적 특징과 상호작용하는 멀티모달 접근 방식을 사용합니다. 사용자가 맞춤형 텍스트 프롬프트(예: "blue helmet")를 입력하면 모델은 이를 토큰화하여 이미지 내의 객체와 매칭합니다. 이를 통해 제로샷 학습이 가능해지며, 모델이 명시적으로 학습하지 않은 객체도 탐지할 수 있습니다.
-
생성형 AI: 챗봇과 같은 텍스트 생성 시스템에서 AI는 시퀀스 내의 다음 토큰에 대한 확률을 예측하여 작동합니다. 시스템은 반복적으로 가장 가능성이 높은 다음 토큰을 선택함으로써 일관된 문장과 단락을 구성하며, 이는 자동화된 고객 지원부터 가상 비서에 이르는 다양한 도구를 구동합니다.
Link to this sectionPython 예제: 탐지를 위한 텍스트 토큰 사용#
다음 코드 스니펫은 ultralytics 패키지가 어떻게 텍스트 토큰을 사용하여 객체 탐지를 수행하는지 보여줍니다. 고속 고정 클래스 추론에는 최첨단 YOLO26이 권장되지만, YOLO-World 아키텍처는 고유하게 사용자가 런타임에 텍스트 토큰으로 클래스를 정의할 수 있도록 합니다.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")
# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])
# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results showing only the tokenized classes
results[0].show()토큰을 이해하는 것은 생성형 AI 및 고급 분석의 환경을 탐색하는 데 기초가 됩니다. 챗봇이 유창하게 대화할 수 있게 하거나 비전 시스템이 미묘한 객체 클래스를 구분하도록 돕는 등, 토큰은 PyTorch 및 TensorFlow와 같은 프레임워크가 사용하는 기계 지능의 필수 화폐로 남아 있습니다.






