욜로 비전 선전
선전
지금 참여하기
용어집

토큰화

NLP 및 ML에서 토큰화의 강력한 기능을 알아보세요! 텍스트를 토큰으로 분리하여 감성 분석 및 텍스트 생성과 같은 AI 작업을 향상시키는 방법을 알아보세요.

토큰화는 원시 텍스트 또는 이미지와 같은 데이터 스트림을 토큰이라고 하는 더 작고 개별적인 단위로 분해하는 기본 프로세스입니다. 이는 거의 모든 인공 지능(AI) 시스템의 데이터 전처리 파이프라인에서 중요한 첫 번째 단계입니다. 구조화되지 않은 데이터를 표준화된 형식으로 변환함으로써 토큰화는 머신 러닝 모델이 패턴을 효과적으로 해석, 분석 및 학습할 수 있도록 합니다. 이 단계가 없으면 대부분의 모델은 최신 AI 애플리케이션을 지원하는 방대하고 다양한 데이터를 처리할 수 없습니다.

관련성 및 실제 응용 분야

토큰화가 중요한 이유는 대부분의 딥 러닝 아키텍처는 원시 텍스트나 픽셀이 아닌 숫자 입력을 필요로 하기 때문입니다. 데이터를 개별 토큰으로 변환함으로써 이러한 토큰을 임베딩과 같은 숫자 표현에 매핑할 수 있습니다. 이러한 숫자 벡터는 의미론적 의미와 관계를 캡처하여 PyTorch 또는 TensorFlow와 같은 프레임워크로 구축된 모델이 데이터로부터 학습할 수 있도록 합니다. 이 기본 단계는 수많은 AI 애플리케이션을 뒷받침합니다.

  1. 자연어 처리(NLP): 토큰화는 거의 모든 NLP 작업의 중심입니다.

    • 기계 번역(Machine Translation): Google 번역과 같은 서비스는 소스 언어로 된 입력 문장을 토큰화하고, 복잡한 모델(Transformer 아키텍처 기반인 경우가 많음)을 사용하여 이러한 토큰을 처리한 다음, 대상 언어로 토큰을 생성하고, 마지막으로 번역된 문장으로 조립합니다.
    • 감성 분석: 고객 리뷰가 긍정적인지 부정적인지 판단하기 위해 먼저 텍스트를 토큰화합니다. 그런 다음 모델은 이러한 토큰을 분석하여 전체 감성을 분류합니다. 감성 분석에 대해 자세히 알아보세요. 프롬프트 튜닝과 같은 기술도 토큰 시퀀스 조작에 의존합니다. 개발자를 위해 spaCyNLTK와 같은 라이브러리는 강력한 토큰화 도구를 제공합니다.
  2. 컴퓨터 비전(CV): 전통적으로 NLP와 관련이 있지만 이 개념은 컴퓨터 비전으로 확장됩니다.

    • Vision Transformers (ViT): Vision Transformers (ViT)와 같은 모델에서 이미지는 고정 크기의 패치로 나뉩니다. 원본 ViT 연구 논문에서 설명한 것처럼 이러한 패치는 '시각적 토큰'으로 처리되어 시퀀스로 평면화됩니다. 그런 다음 이러한 시퀀스는 Transformer 네트워크에 공급되어 self-attention과 같은 메커니즘을 사용하여 서로 다른 이미지 부분 간의 관계를 이해합니다. 이를 통해 이미지 분류객체 탐지와 같은 작업을 수행할 수 있습니다.
    • 다중 모달 모델: CLIPYOLO-World와 같은 모델은 텍스트 토큰과 시각적 토큰을 모두 처리하여 제로샷 객체 감지와 같은 작업을 수행함으로써 비전과 언어를 연결합니다. 마찬가지로 이미지 분할 모델인 SAM(Segment Anything Model)과 같은 고급 모델도 토큰과 유사한 개념을 활용합니다.

일반적인 토큰화 방법

데이터 토큰화에는 다양한 전략이 있으며, 각 전략에는 고유한 장단점이 있습니다. 방법 선택은 모델 성능에 큰 영향을 미칠 수 있습니다.

  • 단어 기반 토큰화: 이 방법은 공백과 구두점을 기준으로 텍스트를 분할합니다. 간단하고 직관적이지만 어휘가 크고 '어휘 외' 단어(학습 중에 보지 못한 단어)로 어려움을 겪습니다.
  • 문자 기반 토큰화: 이 방법은 텍스트를 개별 문자로 나눕니다. 어휘 외 문제(out-of-vocabulary problem)를 해결하지만 매우 긴 시퀀스가 되어 상위 수준의 의미론적 의미를 잃을 수 있으므로 모델이 단어 간의 관계를 학습하기가 더 어려워집니다.
  • Subword Tokenization: 이는 최신 NLP 모델의 표준이 된 하이브리드 접근 방식입니다. 단어를 더 작고 의미 있는 하위 단위로 나눕니다. 일반적인 단어는 단일 토큰으로 유지되는 반면, 드문 단어는 여러 subword 토큰으로 분할됩니다. 이 방법은 복잡한 단어를 효율적으로 처리하고 어휘 외 문제를 방지합니다. 인기 있는 알고리즘으로는 BPE(Byte Pair Encoding)WordPiece가 있으며, 이는 BERTGPT와 같은 모델에서 사용됩니다.

토큰화 vs. 토큰

'토큰화'와 '토큰'을 구별하는 것이 중요합니다.

  • 토큰화(Tokenization): 데이터를 더 작은 단위로 분해하는 프로세스를 의미합니다. 이는 언어 모델 작동 방식의 기본이 되는 전처리 단계입니다.
  • 토큰: 토큰화 프로세스의 결과인 모델이 처리하는 개별 단위(단어, 서브워드, 문자 또는 이미지 패치)를 나타냅니다.

토큰화에 대한 이해는 AI 모델이 다양한 데이터 유형을 해석하고 학습하는 방식을 파악하는 데 기본이 됩니다. 데이터 세트 관리 및 모델 학습에는 Ultralytics HUB와 같은 플랫폼이 자주 사용되며, 이러한 플랫폼은 데이터 전처리모델 학습 워크플로우를 간소화하는 데 도움이 됩니다. AI가 발전함에 따라 토큰화 방법은 계속해서 적용되고 있으며, 텍스트 생성에서부터 자율 주행 차량의료 영상 분석과 같은 분야의 복잡한 시각적 이해에 이르기까지 더욱 정교한 모델을 구축하는 데 핵심적인 역할을 합니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.