용어집

토큰화

NLP와 ML에서 토큰화의 힘을 알아보세요! 텍스트를 토큰으로 분할하여 감정 분석 및 텍스트 생성과 같은 AI 작업을 향상시키는 방법을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

토큰화는 인공 지능(AI)머신 러닝(ML)의 기본적인 전처리 단계로, 특히 자연어 처리(NLP)에 필수적입니다. 토큰화는 텍스트나 기타 데이터의 시퀀스를 토큰이라고 하는 더 작고 관리하기 쉬운 단위로 분해하는 작업을 포함합니다. 이러한 토큰은 알고리즘이 정보를 이해하고 처리하는 데 사용하는 기본 구성 요소로, 문장이나 단락과 같은 원시 입력을 머신러닝 모델이 분석하기에 적합한 형식으로 변환하는 역할을 합니다. 컴퓨터는 인간과 같은 방식으로 텍스트를 이해하지 못하기 때문에 이 과정은 필수적이며, 개별적인 조각으로 구조화된 데이터가 필요합니다.

토큰화 작동 방식

토큰화의 핵심 개념은 세분화입니다. 텍스트 데이터의 경우, 이는 일반적으로 미리 정의된 규칙이나 학습된 패턴에 따라 문장을 단어, 하위 단어 또는 개별 문자로 분할하는 것을 의미합니다. 예를 들어,Ultralytics YOLO11 강력하다"라는 문장은 개별 단어로 토큰화될 수 있습니다: ["Ultralytics", "YOLO11", "is", "powerful"]. 선택한 구체적인 방법은 작업과 사용 중인 모델 아키텍처에 따라 크게 달라집니다.

일반적인 기술로는 공백과 구두점을 기준으로 텍스트를 분할하는 방법이 있습니다. 그러나 특히 훈련 중에 보이지 않는 단어나 큰 어휘를 처리할 때는 더 고급 방법이 필요한 경우가 많습니다. 바이트 쌍 인코딩(BPE) 또는 워드피스와 같은 기술은 단어를 더 작은 하위 단어 단위로 나눕니다. 이러한 기술은 어휘 크기를 효과적으로 관리하고 모르는 단어를 원활하게 처리하기 위해 BERTGPT-4와 같은 대규모 언어 모델(LLM) 에서 자주 사용됩니다. 토큰화 전략의 선택은 모델 성능과 계산 효율성에 큰 영향을 미칠 수 있습니다.

관련성 및 실제 적용 사례

대부분의 ML 모델, 특히 딥러닝 아키텍처는 원시 텍스트가 아닌 숫자 입력을 필요로 하기 때문에 토큰화는 매우 중요합니다. 텍스트를 불연속형 토큰으로 변환하면 이러한 토큰을 임베딩과 같은 숫자 표현에 매핑할 수 있습니다. 이러한 숫자 벡터는 의미론적 의미와 관계를 포착하여 다음과 같은 프레임워크로 구축된 모델을 가능하게 합니다. PyTorch 또는 TensorFlow 과 같은 프레임워크로 구축된 모델이 데이터에서 패턴을 학습할 수 있습니다. 이 기초 단계는 수많은 AI 애플리케이션의 기반이 됩니다:

  1. 자연어 처리(NLP): 토큰화는 거의 모든 NLP 작업의 핵심입니다.

    • 기계 번역: Google 번역과 같은 서비스는 소스 언어의 입력 문장을 토큰화하고, 복잡한 모델(주로 Transformer 아키텍처 기반)을 사용하여 이러한 토큰을 처리한 다음, 최종적으로 번역된 문장으로 조립되는 대상 언어로 토큰을 생성합니다.
    • 감정 분석: 고객 리뷰가 긍정적인지 부정적인지 판단하기 위해 먼저 텍스트를 토큰화합니다. 그런 다음 모델은 이러한 토큰과 그 수치 표현을 분석하여 전반적인 감성을 분류합니다. 감성 분석에 대해 자세히 알아보세요. 프롬프트 튜닝과 같은 기술도 토큰 시퀀스 조작에 의존합니다.
  2. 컴퓨터 비전(CV): 전통적으로 NLP와 연관되어 있지만, 이 개념은 컴퓨터 비전(CV)으로 확장되었습니다.

    • 비전 트랜스포머(ViT): 비전 트랜스포머(ViT)와 같은 모델에서는 이미지가 고정된 크기의 패치로 나뉩니다. 이러한 패치는 '시각적 토큰'으로 취급되어 시퀀스로 평평하게 처리됩니다. 그런 다음 이러한 시퀀스는 Transformer 네트워크에 공급되며, 이 네트워크는 NLP에서 텍스트 토큰이 처리되는 방식과 유사하게 자기 주의와 같은 메커니즘을 사용하여 서로 다른 이미지 부분 간의 관계를 이해합니다. 이를 통해 이미지 분류객체 감지와 같은 작업을 수행할 수 있습니다. 세그먼트 애니씽 모델(SAM) 과 같은 모델도 이미지 분할에 토큰과 유사한 개념을 활용합니다.
    • 멀티모달 모델: CLIPYOLO 같은 모델은 텍스트 토큰과 시각 토큰(또는 이미지 기능)을 모두 처리하여 텍스트 설명을 기반으로 제로 샷 객체 감지와 같은 작업을 수행함으로써 시각과 언어를 연결합니다.

토큰화 대 토큰

'토큰화'와'토큰'을 구분하는 것이 중요합니다.

  • 토큰화: 데이터를 더 작은 단위로 분해하는 과정을 말합니다. 전처리 단계입니다.
  • 토큰: 토큰화 프로세스의 결과, 즉 모델이 처리하는 개별 단위(단어, 하위 단어, 문자 또는 이미지 패치)를 의미합니다.

토큰화에 대한 이해는 AI 모델이 다양한 데이터 유형을 해석하고 학습하는 방법을 파악하는 데 기본이 됩니다. 데이터 세트와 학습 모델을 관리하려면 데이터 전처리모델 학습 워크플로우를 간소화하는 데 도움이 되는 Ultralytics HUB와 같은 플랫폼을 사용하는 경우가 많으며, 종종 토큰화된 데이터가 암시적으로 또는 명시적으로 포함됩니다. AI가 발전함에 따라 토큰화 방법은 계속해서 진화하고 있으며, 텍스트 생성부터 자율 주행 차량의료 이미지 분석과 같은 분야의 복잡한 시각적 이해에 이르기까지 다양한 작업을 위한 보다 정교한 모델을 구축하는 데 핵심적인 역할을 하고 있습니다.

모두 보기