YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

토큰

AI 모델의 기본 구성 요소인 토큰이 NLP, 컴퓨터 비전, 감성 분석 및 객체 탐지와 같은 작업을 어떻게 지원하는지 알아보세요.

인공 지능에서 토큰은 모델이 처리하는 기본적이고 개별적인 데이터 단위입니다. AI 모델이 텍스트나 이미지를 분석하기 전에 원시 데이터를 이러한 관리 가능한 조각으로 분해해야 합니다. 언어 모델의 경우 토큰은 단어, 단어의 일부(서브워드) 또는 단일 문자가 될 수 있습니다. 컴퓨터 비전(CV) 모델의 경우 토큰은 이미지의 작고 고정된 크기의 패치가 될 수 있습니다. 데이터를 분해하는 이 프로세스는 복잡한 비정형 데이터를 신경망이 이해할 수 있는 구조화된 형식으로 변환하므로 데이터 전처리 파이프라인에서 중요한 첫 번째 단계입니다.

토큰 대 토큰화

'토큰'과 '토큰화'를 구별하는 것이 필수적입니다.

  • 토큰(Token): 분해 과정에서 생성되는 개별 단위입니다. 이는 모델에 입력되는 실제 데이터 조각(예: 'learn'이라는 단어 또는 16x16 픽셀 이미지 패치)입니다.
  • 토큰화(Tokenization): 이러한 분해를 수행하는 방법 또는 프로세스입니다. 텍스트 시퀀스 또는 이미지를 토큰 시퀀스로 변환하는 작업입니다.

간단히 말해, 토큰화는 행위이고, 토큰은 그 행위의 결과입니다.

토큰의 유형과 중요성

토큰은 AI 모델이 데이터를 인식하고 해석하는 방식의 기본 구성 요소입니다. 데이터가 토큰화되면 각 토큰은 일반적으로 임베딩이라고 하는 숫자 벡터 표현에 매핑됩니다. 이러한 임베딩은 의미론적 의미와 컨텍스트를 캡처하여 PyTorch 또는 TensorFlow와 같은 프레임워크로 구축된 모델이 복잡한 패턴을 학습할 수 있도록 합니다.

  • 단어 및 서브워드 토큰: 자연어 처리(NLP)에서 전체 단어를 토큰으로 사용하면 어휘가 엄청나게 커지고 알 수 없는 단어 문제가 발생할 수 있습니다. BPE(Byte Pair Encoding) 또는 WordPiece와 같은 알고리즘을 사용하는 서브워드 토큰화는 일반적인 해결책입니다. 희귀한 단어를 더 작고 의미 있는 부분으로 나눕니다. 예를 들어, "tokenization"이라는 단어는 "token"과 "##ization"이라는 두 개의 토큰이 될 수 있습니다. BERTGPT-4와 같은 모델에서 사용되는 이 접근 방식은 모델이 복잡한 어휘 및 문법 구조를 처리하는 데 도움이 됩니다. Hugging Face Tokenizers와 같은 라이브러리에서 최신 구현을 살펴볼 수 있습니다.

  • 시각적 토큰: 토큰의 개념은 텍스트를 넘어 컴퓨터 비전으로 확장됩니다. Vision Transformer(ViT)와 같은 모델에서 이미지는 패치 그리드(예: 16x16 픽셀)로 나뉩니다. 각 패치는 평면화되어 "시각적 토큰"으로 취급됩니다. 이를 통해 self-attention을 사용하여 시퀀스 처리에 뛰어난 강력한 Transformer 아키텍처가 이미지 분류객체 탐지와 같은 작업을 수행할 수 있습니다. 이 토큰 기반 접근 방식은 CLIP과 같이 이미지와 텍스트를 모두 이해하는 멀티 모달 모델의 기본이기도 합니다.

실제 애플리케이션

토큰의 사용은 단순한 애플리케이션부터 복잡한 최첨단 모델에 이르기까지 수많은 AI 시스템의 기본입니다.

  1. 기계 번역: Google 번역과 같은 서비스는 토큰에 크게 의존합니다. 문장을 입력하면 먼저 텍스트 토큰 시퀀스로 나뉩니다. 정교한 시퀀스-투-시퀀스 모델은 이러한 토큰을 처리하고, 집합적 의미를 이해하고, 대상 언어로 된 새로운 토큰 시퀀스를 생성합니다. 그런 다음 이러한 출력 토큰은 일관된 번역된 문장으로 다시 조립됩니다. 이 프로세스는 수십 개의 언어로 실시간 번역을 가능하게 합니다.

  2. 자율 주행 차량: 자율 주행 차량 분야에서 모델은 복잡한 시각적 장면을 실시간으로 해석해야 합니다. Ultralytics YOLO11과 같은 모델은 카메라 피드를 처리하여 객체 추적인스턴스 분할과 같은 작업을 수행합니다. YOLO와 같은 기존 CNN 기반 모델은 Transformer와 동일한 방식으로 "토큰"을 명시적으로 사용하지 않지만, 탐지를 위해 설계된 vision transformer 변형은 사용합니다. 이러한 변형은 시각적 입력을 토큰(패치)으로 분해하여 보행자, 다른 차량 및 교통 신호를 높은 정확도로 식별하고 찾습니다. 이러한 토큰화된 환경 이해는 안전한 탐색에 매우 중요합니다. 데이터 수집부터 모델 배포에 이르기까지 전체 워크플로우 관리는 Ultralytics HUB와 같은 플랫폼을 사용하여 간소화할 수 있습니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.