Yolo 비전 선전
선전
지금 참여하기
용어집

토큰

토큰이 AI에서 정보의 기본 단위로 기능하는 방식을 알아보세요. 자연어 처리(NLP), 컴퓨터 비전, 그리고 YOLO26을 활용한 개방형 어휘 감지에서의 역할을 탐구해 보십시오.

현대 인공 지능의 정교한 구조에서 토큰은 모델이 처리하는 정보의 기본 원자 단위를 나타냅니다. 알고리즘이 문장을 해석하거나, 소프트웨어 스크립트를 분석하거나, 이미지 내 물체를 인식하기 전에 원시 입력 데이터는 이러한 개별적이고 표준화된 요소들로 분해되어야 합니다. 이러한 분할은 데이터 전처리에서 핵심 단계로, 구조화되지 않은 입력을 신경망이 효율적으로 처리할 수 있는 수치 형식으로 변환합니다. 인간이 언어를 연속적인 사고의 흐름으로, 이미지를 끊김 없는 시각적 장면으로 인식하는 반면, 계산 모델은 패턴 인식 및 의미 분석과 같은 작업을 수행하기 위해 이러한 세분화된 구성 요소가 필요합니다.

토큰 대 토큰화

머신 러닝의 메커니즘을 이해하려면 데이터 단위와 이를 생성하는 프로세스를 구분하는 것이 필수적입니다. 이러한 구분은 Ultralytics 데이터 파이프라인을 설계하고 훈련 자료를 준비할 때 혼란을 방지합니다.

  • 토큰화: 이는 원시 데이터를 조각으로 분할하는 알고리즘적 과정(동사)입니다. 텍스트의 경우, 자연어 처리 도구 키트(NLTK) 와 같은 라이브러리를 사용하여 한 단위가 끝나고 다른 단위가 시작되는 위치를 결정하는 것을 포함할 수 있습니다.
  • 토큰: 이는 결과 출력(명사)입니다. 이는 단어, 하위 단어 또는 이미지 패치와 같은 실제 데이터 조각으로, 결국 임베딩으로 알려진 수치 벡터에 매핑됩니다.

다양한 AI 영역에서의 토큰

토큰의 특성은 처리되는 데이터의 양식에 따라 크게 달라지며, 특히 텍스트 영역과 시각 영역 간에 차이가 크다.

NLP의 텍스트 토큰

자연어 처리(NLP) 분야에서 토큰은 대규모 언어 모델(LLM)의 입력 자료입니다. 초기 접근법은 단어 전체를 그대로 매핑했지만, 현대 아키텍처는 바이트 페어 인코딩(BPE)과 같은 서브워드 알고리즘을 활용합니다. 이 방법은 모델이 희귀 단어를 의미 있는 음절로 분할하여 어휘 크기와 의미적 커버리지를 균형 있게 처리할 수 있게 합니다. 예를 들어, "unhappiness"라는 단어는 "un", "happi", "ness"로 토큰화될 수 있습니다.

컴퓨터 비전의 비주얼 토큰

토큰화 개념은 비전 트랜스포머(ViT)의 등장과 함께 컴퓨터 비전 분야로 확장되었습니다. 슬라이딩 윈도우에서 픽셀을 처리하는 기존 컨볼루션 네트워크와 달리, 트랜스포머는 이미지를 고정 크기의 패치(예: 16x16 픽셀) 그리드로 분할합니다. 각 패치는 평면화되어 독립적인 시각적 토큰으로 처리됩니다. 이 접근법은 모델이 자기 주의 메커니즘을 활용하여 이미지 내 멀리 떨어진 부분 간의 관계를 이해할 수 있게 합니다. Google 트랜스포머를 텍스트에 처음 적용한 방식과 유사합니다.

실제 애플리케이션

토큰은 수많은 애플리케이션에서 인간 데이터와 기계 지능 사이의 가교 역할을 합니다.

  1. 개방형 어휘 객체 탐지: YOLO 같은 고급 모델은 텍스트 토큰이 시각적 특징과 상호작용하는 다중 모달 접근법을 사용합니다. 사용자는 사용자 정의 텍스트 프롬프트(예: "파란 헬멧")를 입력할 수 있으며, 모델은 이를 토큰화하여 이미지의 객체와 매칭합니다. 이를 통해 제로샷 학습이 가능해져 모델이 명시적으로 훈련되지 않은 객체도 탐지할 수 있습니다.
  2. 생성형 AI: 챗봇과 같은 텍스트 생성 시스템에서 AI는 시퀀스 내 다음 토큰의 확률을 예측하는 방식으로 작동합니다. 가장 가능성이 높은 후속 토큰을 반복적으로 선택함으로써 시스템은 일관된 문장과 단락을 구성하며, 자동화된 고객 지원부터 가상 비서에 이르는 다양한 도구를 구동합니다.

Python : 탐지를 위한 텍스트 토큰 사용

다음 코드 조각은 어떻게 하는지 보여줍니다. ultralytics 패키지는 텍스트 토큰을 사용하여 안내합니다 물체 감지최첨단 기술은 YOLO26 고속 고정 클래스 추론을 위해 권장되며, YOLO 아키텍처는 사용자가 런타임 시점에 클래스를 텍스트 토큰으로 정의할 수 있도록 독특하게 지원합니다.

from ultralytics import YOLO

# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")

# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])

# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results showing only the tokenized classes
results[0].show()

토큰을 이해하는 것은 생성형 AI와 고급 분석의 영역을 탐색하는 데 기초가 됩니다. 챗봇이 유창하게 대화하도록 하거나 비전 시스템이 미묘한 객체 클래스를 구분하도록 돕는 등, 토큰은 PyTorch와 같은 프레임워크가 사용하는 기계 지능의 핵심 통화로 남아 있습니다. PyTorchTensorFlow.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기