AI 모델의 기본 구성 요소인 토큰이 NLP, 컴퓨터 비전, 감성 분석 및 객체 탐지와 같은 작업을 어떻게 지원하는지 알아보세요.
인공지능의 환경에서 인공 지능의 환경에서 토큰은 머신러닝 모델이 처리하는 기본적이고 원자적인 정보 단위 역할을 합니다. 신경망이 문장을 분석하기 전에 신경망이 문장, 코드 문장, 코드 조각, 심지어 이미지까지 분석하려면 데이터 전처리의 중요한 단계를 통해 원시 데이터를 관리 가능한 개별 조각으로 데이터 전처리 단계를 거쳐야 합니다. 인간은 언어를 단어의 흐름으로 인식하거나 이미지를 연속적인 장면으로 인식하는 반면, 알고리즘은 계산을 수행하기 위해 이러한 입력 데이터를 효율적으로 계산을 수행하기 위해 이러한 입력을 표준화된 요소로 분해해야 합니다.
최신 딥 러닝 시스템의 작동 방식을 이해하려면 의 작동 방식을 이해하려면 데이터의 단위와 데이터를 생성하는 프로세스를 구분하는 것이 필수적입니다. 이 구분은 종종 "무엇"과 "어떻게"를 비교함으로써 명확해집니다.
데이터가 토큰화되면 결과 토큰은 텍스트 문자열이나 이미지 패치로 직접 사용되지 않습니다. 대신, 토큰은 임베딩이라고 하는 숫자 벡터에 매핑됩니다. 이러한 고차원 벡터는 토큰 간의 의미론적 의미와 관계를 포착하여 다음과 같은 프레임워크가 가능합니다. PyTorch 와 같은 프레임워크에서 수학적 연산을 수행할 수 있습니다.
In 자연어 처리(NLP), 토큰은 대규모 언어 모델(LLM)의 입력입니다. GPT 시리즈. 최신 모델 은 일반적으로 다음과 같은 하위 단어 토큰화 알고리즘을 사용합니다. 바이트 쌍 인코딩(BPE). 이 방법은 공통 단어를 유지함으로써 일반적인 단어는 단일 토큰으로 유지하면서 희귀 단어는 의미 있는 음절로 분할합니다.
토큰의 개념은 다음과 같은 아키텍처를 통해 이미지 분석에 혁신을 가져왔습니다. 비전 트랜스포머(ViT). 컨볼루션을 통해 픽셀을 처리하는 대신 컨볼루션을 통해 픽셀을 처리하는 대신, 이 모델은 이미지를 고정된 크기의 패치 그리드(예: 16x16 픽셀). 각 패치는 평평하게 처리되어 '시각적 토큰'으로 취급되므로 다음과 같은 강력한 다음과 같은 트랜스포머 메커니즘을 사용할 수 있습니다. 이미지 내의 글로벌 컨텍스트를 이해하기 위한 이미지.
토큰은 오늘날 AI의 가장 진보된 기능 중 일부를 위한 기본 요소입니다.
다음 예는 ultralytics 패키지는 백그라운드에서 토큰을 활용합니다. 텍스트 클래스 목록을
텍스트 클래스 목록을 제공하면 모델은 이러한 입력을 토큰화하여 이미지의 특정 객체를 식별하고
동적으로 식별합니다.
from ultralytics import YOLO
# Load a YOLO-World model capable of understanding text tokens
model = YOLO("yolo11s-world.pt")
# Define custom classes (these are tokenized internally)
model.set_classes(["helmet", "vest"])
# Run prediction; the model matches visual features to the text tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
토큰을 이해하는 것은 파운데이션 모델이 어떻게 파운데이션 모델이 어떻게 구조화되지 않은 인간 데이터와 계산적 이해 사이의 간극을 메우는 방법을 파악하는 데 중요합니다. 이미지 분류 또는 복잡한 언어 작업이든 상관없습니다.

