용어집

토큰화

NLP와 ML에서 토큰화의 힘을 알아보세요! 텍스트를 토큰으로 분할하여 감정 분석 및 텍스트 생성과 같은 AI 작업을 향상시키는 방법을 알아보세요.

토큰화는 원시 텍스트나 이미지와 같은 데이터 스트림을 토큰이라는 더 작은 개별 단위로 분해하는 기본 프로세스입니다. 이는 거의 모든 인공지능(AI) 시스템의 데이터 전처리 파이프라인에서 중요한 첫 단계입니다. 토큰화는 비정형 데이터를 표준화된 형식으로 변환함으로써 머신 러닝 모델이 패턴을 효과적으로 해석, 분석, 학습할 수 있게 해줍니다. 이 단계가 없다면 대부분의 모델은 최신 AI 애플리케이션의 원동력이 되는 방대하고 다양한 데이터를 처리할 수 없습니다.

관련성 및 실제 적용 사례

대부분의 딥러닝 아키텍처는 원시 텍스트나 픽셀이 아닌 숫자 입력을 필요로 하기 때문에 토큰화는 매우 중요합니다. 데이터를 불연속형 토큰으로 변환하면 이러한 토큰을 임베딩과 같은 숫자 표현에 매핑할 수 있습니다. 이러한 숫자 벡터는 의미론적 의미와 관계를 포착하여 PyTorch나 TensorFlow와 같은 프레임워크로 구축된 모델이 데이터를 통해 학습할 수 있게 해줍니다. 이 기초 단계는 수많은 AI 애플리케이션의 기반이 됩니다:

  1. 자연어 처리(NLP): 토큰화는 거의 모든 NLP 작업의 핵심입니다.

    • 기계 번역: Google 번역과 같은 서비스는 소스 언어의 입력 문장을 토큰화하고, 복잡한 모델(주로 Transformer 아키텍처 기반)을 사용하여 이러한 토큰을 처리한 다음, 최종적으로 번역된 문장으로 조립되는 대상 언어로 토큰을 생성합니다.
    • 감정 분석: 고객 리뷰가 긍정적인지 부정적인지 판단하기 위해 먼저 텍스트를 토큰화합니다. 그런 다음 모델이 이러한 토큰을 분석하여 전반적인 감성을 분류합니다. 감성 분석에 대해 자세히 알아보세요. 프롬프트 튜닝과 같은 기술도 토큰 시퀀스 조작에 의존합니다. 개발자를 위해 spaCyNLTK와 같은 라이브러리는 강력한 토큰화 도구를 제공합니다.
  2. 컴퓨터 비전(CV): 전통적으로 NLP와 관련이 있었지만, 이 개념은 컴퓨터 비전으로 확장되었습니다.

    • 비전 트랜스포머(ViT): 비전 트랜스포머(ViT)와 같은 모델에서는 이미지가 고정된 크기의 패치로 나뉩니다. 원래 ViT 연구 논문에서 설명한 것처럼 이러한 패치는 '시각적 토큰'으로 취급되어 시퀀스로 평평하게 처리됩니다. 그런 다음 이러한 시퀀스는 자기 주의와 같은 메커니즘을 사용하여 서로 다른 이미지 부분 간의 관계를 이해하는 Transformer 네트워크에 공급됩니다. 이를 통해 이미지 분류물체 감지와 같은 작업을 수행할 수 있습니다.
    • 멀티모달 모델: CLIPYOLO-World와 같은 모델은 텍스트 토큰과 시각 토큰을 모두 처리하여 제로 샷 물체 감지와 같은 작업을 수행함으로써 시각과 언어를 연결합니다. 마찬가지로, Segment Anything Model(SAM) 과 같은 고급 이미지 분할 모델도 토큰과 유사한 개념을 활용합니다.

일반적인 토큰화 방법

데이터를 토큰화하는 데는 여러 가지 전략이 존재하며, 각 전략에는 고유한 장단점이 있습니다. 어떤 방법을 선택하느냐에 따라 모델 성능에 큰 영향을 미칠 수 있습니다.

  • 단어 기반 토큰화: 이 방법은 공백과 구두점을 기준으로 텍스트를 분할합니다. 간단하고 직관적이지만 큰 어휘와 '어휘 외' 단어(훈련 중에 보이지 않는 단어)를 처리하는 데 어려움을 겪습니다.
  • 문자 기반 토큰화: 이 방법은 텍스트를 개별 문자로 분할합니다. 이 방법은 어휘 부족 문제를 해결하지만, 매우 긴 시퀀스로 인해 높은 수준의 의미론적 의미가 손실되어 모델이 단어 간의 관계를 학습하기 어렵게 만들 수 있습니다.
  • 하위 단어 토큰화: 이는 최신 NLP 모델의 표준이 된 하이브리드 접근 방식입니다. 단어를 더 작고 의미 있는 하위 단위로 나눕니다. 일반적인 단어는 단일 토큰으로 남고, 희귀한 단어는 여러 개의 하위 단어 토큰으로 분할됩니다. 이 방법은 복잡한 단어를 효율적으로 처리하고 어휘 부족 문제를 방지합니다. 널리 사용되는 알고리즘으로는 바이트 쌍 인코딩(BPE)워드피스가 있으며, BERTGPT와 같은 모델에서 사용됩니다.

토큰화 대 토큰

'토큰화'와'토큰'을 구분하는 것이 중요합니다.

  • 토큰화: 데이터를 더 작은 단위로 분해하는 과정을 말합니다. 이는 언어 모델 작동 방식의 기본이 되는 전처리 단계입니다.
  • 토큰: 토큰화 프로세스의 결과, 즉 모델이 처리하는 개별 단위(단어, 하위 단어, 문자 또는 이미지 패치)를 의미합니다.

토큰화를 이해하는 것은 AI 모델이 다양한 데이터 유형을 해석하고 학습하는 방법을 파악하는 데 있어 기본이 됩니다. 데이터 세트와 학습 모델을 관리하려면 데이터 전처리와 모델 학습 워크플로우를 간소화하는 데 도움이 되는 Ultralytics HUB와 같은 플랫폼이 필요한 경우가 많습니다. AI가 발전함에 따라 토큰화 방법은 계속해서 적응하고 있으며, 텍스트 생성부터 자율 주행 차량의료 이미지 분석과 같은 분야의 복잡한 시각적 이해에 이르기까지 다양한 작업을 위한 보다 정교한 모델을 구축하는 데 핵심적인 역할을 하고 있습니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨