토큰이 AI에서 정보의 기본 단위로 기능하는 방식을 알아보세요. 자연어 처리(NLP), 컴퓨터 비전, 그리고 YOLO26을 활용한 개방형 어휘 감지에서의 역할을 탐구해 보십시오.
현대 인공 지능의 정교한 구조에서 토큰은 모델이 처리하는 정보의 기본 원자 단위를 나타냅니다. 알고리즘이 문장을 해석하거나, 소프트웨어 스크립트를 분석하거나, 이미지 내 물체를 인식하기 전에 원시 입력 데이터는 이러한 개별적이고 표준화된 요소들로 분해되어야 합니다. 이러한 분할은 데이터 전처리에서 핵심 단계로, 구조화되지 않은 입력을 신경망이 효율적으로 처리할 수 있는 수치 형식으로 변환합니다. 인간이 언어를 연속적인 사고의 흐름으로, 이미지를 끊김 없는 시각적 장면으로 인식하는 반면, 계산 모델은 패턴 인식 및 의미 분석과 같은 작업을 수행하기 위해 이러한 세분화된 구성 요소가 필요합니다.
머신 러닝의 메커니즘을 이해하려면 데이터 단위와 이를 생성하는 프로세스를 구분하는 것이 필수적입니다. 이러한 구분은 Ultralytics 데이터 파이프라인을 설계하고 훈련 자료를 준비할 때 혼란을 방지합니다.
토큰의 특성은 처리되는 데이터의 양식에 따라 크게 달라지며, 특히 텍스트 영역과 시각 영역 간에 차이가 크다.
자연어 처리(NLP) 분야에서 토큰은 대규모 언어 모델(LLM)의 입력 자료입니다. 초기 접근법은 단어 전체를 그대로 매핑했지만, 현대 아키텍처는 바이트 페어 인코딩(BPE)과 같은 서브워드 알고리즘을 활용합니다. 이 방법은 모델이 희귀 단어를 의미 있는 음절로 분할하여 어휘 크기와 의미적 커버리지를 균형 있게 처리할 수 있게 합니다. 예를 들어, "unhappiness"라는 단어는 "un", "happi", "ness"로 토큰화될 수 있습니다.
토큰화 개념은 비전 트랜스포머(ViT)의 등장과 함께 컴퓨터 비전 분야로 확장되었습니다. 슬라이딩 윈도우에서 픽셀을 처리하는 기존 컨볼루션 네트워크와 달리, 트랜스포머는 이미지를 고정 크기의 패치(예: 16x16 픽셀) 그리드로 분할합니다. 각 패치는 평면화되어 독립적인 시각적 토큰으로 처리됩니다. 이 접근법은 모델이 자기 주의 메커니즘을 활용하여 이미지 내 멀리 떨어진 부분 간의 관계를 이해할 수 있게 합니다. Google 트랜스포머를 텍스트에 처음 적용한 방식과 유사합니다.
토큰은 수많은 애플리케이션에서 인간 데이터와 기계 지능 사이의 가교 역할을 합니다.
다음 코드 조각은 어떻게 하는지 보여줍니다. ultralytics 패키지는 텍스트 토큰을 사용하여 안내합니다
물체 감지최첨단 기술은
YOLO26 고속 고정 클래스 추론을 위해 권장되며,
YOLO 아키텍처는 사용자가 런타임 시점에 클래스를 텍스트 토큰으로 정의할 수 있도록 독특하게 지원합니다.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model capable of understanding text tokens
model = YOLO("yolov8s-world.pt")
# Define specific classes; these text strings are tokenized internally
# The model will look specifically for these "tokens" in the visual data
model.set_classes(["bus", "backpack"])
# Run prediction on an image using the defined tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results showing only the tokenized classes
results[0].show()
토큰을 이해하는 것은 생성형 AI와 고급 분석의 영역을 탐색하는 데 기초가 됩니다. 챗봇이 유창하게 대화하도록 하거나 비전 시스템이 미묘한 객체 클래스를 구분하도록 돕는 등, 토큰은 PyTorch와 같은 프레임워크가 사용하는 기계 지능의 핵심 통화로 남아 있습니다. PyTorch 과 TensorFlow.