Descubra cómo los tokens, los componentes básicos de los modelos de IA, impulsan el PNL, la visión artificial y tareas como el análisis de sentimientos y la detección de objetos.
En el panorama de la inteligencia artificial, un token sirve como la unidad atómica fundamental de información que procesa un modelo de aprendizaje automático. Antes de que una analizar una frase, un fragmento de código o de código o incluso una imagen, los datos brutos deben segmentarse en estas piezas discretas y manejables mediante un paso crítico del preprocesamiento de datos. Mientras que los humanos perciben el lenguaje como un flujo de palabras o las imágenes como una escena continua, los algoritmos requieren que estos datos se descompongan en elementos estandarizados para realizar los cálculos. en elementos estandarizados para realizar los cálculos con eficacia.
Para entender cómo funcionan los modernos sistemas de aprendizaje profundo es esencial distinguir entre la unidad de datos y el proceso que los crea. Esta distinción suele aclarar comparando el "qué" con el "cómo".
Una vez tokenizados los datos, los tokens resultantes no se utilizan directamente como cadenas de texto o parches de imagen. En su lugar, se vectores numéricos conocidos como incrustaciones. En Estos vectores de alta dimensión captan el significado semántico y las relaciones entre los tokens, lo que permite a marcos como PyTorch puedan realizar operaciones matemáticas con ellos.
En Procesamiento del Lenguaje Natural (PLN) los tokens son las entradas para grandes modelos lingüísticos (LLM ) como la serie GPT. Los modelos modernos suelen utilizar algoritmos de tokenización de subpalabras, como la Codificación por pares de bytes (BPE). Este método equilibra Este método equilibra la eficiencia y el tamaño del vocabulario manteniendo las palabras comunes como tokens únicos y dividiendo las palabras raras en sílabas significativas. en sílabas significativas.
El concepto de fichas ha revolucionado el análisis de imágenes a través de arquitecturas como el Transformador de Visión (ViT). En lugar de procesamiento de píxeles mediante convolución, estos modelos dividen una imagen en una cuadrícula de parches de tamaño fijo (por ejemplo, 16x16 píxeles). Cada parche se aplana y se trata como un "token visual", lo que permite el uso de potentes mecanismos de transformación como el ViT. Transformer como autoatención para comprender el contexto global de de una imagen.
Los tokens son los componentes básicos de algunas de las capacidades más avanzadas de la IA actual.
El siguiente ejemplo muestra cómo se utiliza la función ultralytics aprovecha los tokens entre bastidores. En
una lista de clases de texto, el modelo tokeniza estas entradas para identificar objetos específicos en una imagen
de forma dinámica.
from ultralytics import YOLO
# Load a YOLO-World model capable of understanding text tokens
model = YOLO("yolo11s-world.pt")
# Define custom classes (these are tokenized internally)
model.set_classes(["helmet", "vest"])
# Run prediction; the model matches visual features to the text tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
Comprender los tokens es fundamental para entender cómo los modelos fundacionales tienden puentes entre entre los datos humanos no estructurados y la comprensión computacional. clasificación de imágenes o tareas lingüísticas lenguaje.