용어집

토큰화

NLP와 ML에서 토큰화의 힘을 알아보세요! 텍스트를 토큰으로 분할하여 감정 분석 및 텍스트 생성과 같은 AI 작업을 향상시키는 방법을 알아보세요.

토큰화는 인공 지능(AI) 과 머신 러닝(ML)의 기본적인 전처리 단계로, 특히 자연어 처리(NLP)에 필수적입니다. 토큰화는 텍스트나 기타 데이터의 시퀀스를 토큰이라고 하는 더 작고 관리하기 쉬운 단위로 분해하는 작업을 포함합니다. 이러한 토큰은 알고리즘이 정보를 이해하고 처리하는 데 사용하는 기본 구성 요소로, 문장이나 단락과 같은 원시 입력을 머신러닝 모델이 분석하기에 적합한 형식으로 변환하는 역할을 합니다. 컴퓨터는 인간과 같은 방식으로 텍스트를 이해하지 못하기 때문에 이 과정은 필수적이며, 개별적인 조각으로 구조화된 데이터가 필요합니다.

토큰화 작동 방식

토큰화의 핵심 개념은 세분화입니다. 텍스트 데이터의 경우, 이는 일반적으로 미리 정의된 규칙이나 학습된 패턴에 따라 문장을 단어, 하위 단어 또는 개별 문자로 분할하는 것을 의미합니다. 예를 들어,Ultralytics YOLO11 강력하다"라는 문장은 개별 단어로 토큰화될 수 있습니다: ["Ultralytics", "YOLO11", "is", "powerful"]. 선택한 구체적인 방법은 작업과 사용 중인 모델 아키텍처에 따라 크게 달라집니다.

일반적인 기술로는 공백과 구두점을 기준으로 텍스트를 분할하는 방법이 있습니다. 그러나 특히 훈련 중에 보이지 않는 단어나 큰 어휘를 처리할 때는 더 고급 방법이 필요한 경우가 많습니다. 바이트 쌍 인코딩(BPE) 또는 워드피스와 같은 기술은 단어를 더 작은 하위 단어 단위로 나눕니다. 이러한 기술은 어휘 크기를 효과적으로 관리하고 모르는 단어를 원활하게 처리하기 위해 BERT 및 GPT-4와 같은 대규모 언어 모델(LLM) 에서 자주 사용됩니다. 토큰화 전략의 선택은 모델 성능과 계산 효율성에 큰 영향을 미칠 수 있습니다.

토큰화 대 토큰

'토큰화'와'토큰'을 구분하는 것이 중요합니다.

토큰화: 데이터를 더 작은 단위로 분해하는 과정을 말합니다. 전처리 단계입니다.
토큰: 토큰화 프로세스의 결과, 즉 모델이 처리하는 개별 단위(단어, 하위 단어, 문자 또는 이미지 패치)를 의미합니다.

토큰화에 대한 이해는 AI 모델이 다양한 데이터 유형을 해석하고 학습하는 방법을 파악하는 데 기본이 됩니다. 데이터 세트와 학습 모델을 관리하려면 데이터 전처리 및 모델 학습 워크플로우를 간소화하는 데 도움이 되는 Ultralytics HUB와 같은 플랫폼을 사용하는 경우가 많으며, 종종 토큰화된 데이터가 암시적으로 또는 명시적으로 포함됩니다. AI가 발전함에 따라 토큰화 방법은 계속해서 진화하고 있으며, 텍스트 생성부터 자율 주행 차량 및 의료 이미지 분석과 같은 분야의 복잡한 시각적 이해에 이르기까지 다양한 작업을 위한 보다 정교한 모델을 구축하는 데 핵심적인 역할을 하고 있습니다.

토큰화

YOLO 모델을 Ultralytics HUB로 간단히
훈련

혁신을 지원하는 유연한 엔터프라이즈 라이선싱 솔루션

다음을 사용하여 몇 초 만에 AI 모델을 훈련하세요. Ultralytics YOLO

Ultralytics HUB로 간단히 YOLO 모델 교육

토큰화 작동 방식

관련성 및 실제 적용 사례

토큰화 대 토큰

블로그 더 보기

Ultralytics 커뮤니티 가입하기

토큰화

YOLO 모델을 Ultralytics HUB로 간단히훈련

혁신을 지원하는 유연한 엔터프라이즈 라이선싱 솔루션

다음을 사용하여 몇 초 만에 AI 모델을 훈련하세요. Ultralytics YOLO

Ultralytics HUB로 간단히 YOLO 모델 교육

토큰화 작동 방식

관련성 및 실제 적용 사례

토큰화 대 토큰

블로그 더 보기

Ultralytics 커뮤니티 가입하기

YOLO 모델을 Ultralytics HUB로 간단히
훈련