NLP 및 ML에서 토큰화의 강력한 기능을 알아보세요! 텍스트를 토큰으로 분리하여 감성 분석 및 텍스트 생성과 같은 AI 작업을 향상시키는 방법을 알아보세요.
토큰화는 텍스트, 코드, 이미지 등의 원시 데이터 스트림을 토큰이라는 더 작은 토큰으로 알려진 더 작은 개별 단위로 변환하는 기본적인 프로세스입니다. 이 변환은 데이터 전처리 파이프라인에서 중요한 가교 역할을 합니다. 데이터 전처리 파이프라인에서 중요한 가교 역할을 합니다. 비정형 인간 정보를 수치화된 형식으로 변환하는 중요한 가교 역할을 합니다. 인공 지능(AI) 시스템이 해석할 수 있는 수치 형식으로 변환합니다. 토큰화는 복잡한 데이터를 관리 가능한 조각으로 분해함으로써 다음을 가능하게 합니다. 머신러닝 모델이 패턴을 식별하고 의미 관계를 학습하고 정교한 추론 작업을 수행할 수 있습니다. 이 초기 단계가 없다면 현대 기술을 구동하는 신경망은 학습에 필요한 방대한 데이터 세트를 처리할 수 없습니다.
이 용어는 종종 비슷하게 사용되지만, 방법과 결과를 구분하는 것이 중요합니다.
토큰화의 적용은 처리되는 데이터의 유형에 따라 크게 다르지만 임베딩생성의 궁극적인 목표인 데이터 벡터 데이터의 벡터 표현이라는 궁극적인 목표는 동일하게 유지됩니다.
In 자연어 처리(NLP), 에서는 문장을 단어, 하위 단어 또는 문자로 분할하는 과정을 거칩니다. 초기 방식은 단순히 텍스트를 공백으로 공백으로 텍스트를 분할했지만, 최신 대규모 언어 모델(LLM)은 바이트 쌍 인코딩과 같은 바이트 쌍 인코딩(BPE) 과 같은 고급 알고리즘을 활용하여 희귀 단어를 효율적으로 처리합니다. 이를 통해 다음과 같은 모델이 가능합니다. GPT-4와 같은 모델은 무한 사전 없이도 복잡한 어휘를 처리할 수 있습니다. 무한 사전 없이도 복잡한 어휘를 처리할 수 있습니다.
전통적으로 컴퓨터 비전(CV) 은 픽셀 어레이에서 작동했습니다. 그러나 비전 트랜스포머(ViT)가 등장하면서 이미지를 고정된 크기의 패치(예: 16x16픽셀)로 분할하는 개념이 도입되었습니다. 이러한 패치는 평평하게 처리되고 시각적 토큰으로 취급되어 모델이 중요도에 따라 다른 이미지 영역의 중요도를 평가할 수 있는 이미지 영역의 중요도를 평가할 수 있습니다.
토큰화는 단순한 이론적 개념이 아니라 매일 사용되는 많은 AI 애플리케이션의 기반이 됩니다.
다음 예는 다음과 같은 방법을 보여줍니다. ultralytics 내에서 암시적 토큰화를 활용합니다.
YOLO 모델 워크플로. 워크플로
.set_classes() 메서드는 텍스트 목록을 토큰화하여 모델의 탐지 초점을 동적으로 안내합니다.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")
# Define custom classes; the model tokenizes these strings to search for specific objects
model.set_classes(["backpack", "person"])
# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results (only detects the tokenized classes defined above)
results[0].show()
토큰화 전략의 선택은 다음과 같은 직접적인 영향을 미칩니다. 정확성과 계산 효율성에 직접적인 영향을 미칩니다. 비효율적 토큰화는 NLP에서 "어휘를 벗어난" 오류를 발생시키거나 이미지 세분화에서 세밀한 세부 정보가 손실될 수 있습니다. 이미지 세분화. 다음과 같은 프레임워크 PyTorch 와 TensorFlow 과 같은 프레임워크는 이 단계를 최적화하는 유연한 도구를 제공하여 이 단계를 최적화합니다. 아키텍처가 진화함에 따라(예: 최신 YOLO11-와 같이 아키텍처가 진화함에 따라 효율적인 데이터 처리를 통해 다양한 하드웨어에서 다양한 하드웨어에서 실시간 추론을 실행할 수 있습니다. 다양한 하드웨어에서 실시간 추론을 실행할 수 있습니다.