¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glosario

Token

Descubra cómo los tokens, los componentes básicos de los modelos de IA, impulsan el PNL, la visión artificial y tareas como el análisis de sentimientos y la detección de objetos.

En inteligencia artificial, un token es la unidad de datos fundamental y discreta que procesa un modelo. Antes de que un modelo de IA pueda analizar texto o una imagen, los datos brutos deben dividirse en estas piezas manejables. Para un modelo de lenguaje, un token podría ser una palabra, una parte de una palabra (una subpalabra) o un solo carácter. Para un modelo de visión artificial (CV), un token puede ser un pequeño parche de tamaño fijo de una imagen. Este proceso de descomposición de los datos es un primer paso crítico en el pipeline de preprocesamiento de datos, ya que convierte los datos complejos y no estructurados en un formato estructurado que las redes neuronales pueden entender.

Token frente a Tokenización

Es esencial distinguir entre un 'token' y la 'tokenización'.

  • Token: La unidad individual que resulta del proceso de descomposición. Es la pieza de datos real, como la palabra "aprender" o un parche de imagen de 16x16 píxeles, que se introduce en el modelo.
  • Tokenización: El método o proceso de realizar esta descomposición. Es la acción de convertir una secuencia de texto o una imagen en una secuencia de tokens.

En resumen, la tokenización es la acción, y un token es el resultado de esa acción.

Tipos de Tokens y su Importancia

Los tokens son los bloques de construcción de cómo los modelos de IA perciben e interpretan los datos. Una vez que los datos se tokenizan, cada token se asigna normalmente a una representación vectorial numérica llamada embedding. Estos embeddings capturan el significado semántico y el contexto, lo que permite a los modelos construidos con frameworks como PyTorch o TensorFlow aprender patrones complejos.

  • Tokens de Palabras y Subpalabras: En el Procesamiento del Lenguaje Natural (PNL), el uso de palabras enteras como tokens puede conducir a vocabularios enormes y problemas con palabras desconocidas. La tokenización de subpalabras, utilizando algoritmos como Byte Pair Encoding (BPE) o WordPiece, es una solución común. Descompone las palabras raras en partes más pequeñas y significativas. Por ejemplo, la palabra "tokenización" podría convertirse en dos tokens: "token" y "##ización". Este enfoque, utilizado por modelos como BERT y GPT-4, ayuda al modelo a manejar vocabularios complejos y estructuras gramaticales. Puede explorar implementaciones modernas en bibliotecas como Hugging Face Tokenizers.

  • Tokens Visuales: El concepto de tokens se extiende más allá del texto hacia la visión artificial. En modelos como el Vision Transformer (ViT), una imagen se divide en una cuadrícula de parches (por ejemplo, 16x16 píxeles). Cada parche se aplana y se trata como un "token visual". Esto permite que las potentes arquitecturas Transformer, que sobresalen en el procesamiento de secuencias utilizando auto-atención, realicen tareas como la clasificación de imágenes y la detección de objetos. Este enfoque basado en tokens también es fundamental para los modelos multimodales que entienden tanto imágenes como texto, como CLIP.

Aplicaciones en el mundo real

El uso de tokens es fundamental para innumerables sistemas de IA, desde aplicaciones simples hasta modelos complejos y de última generación.

  1. Traducción automática: Servicios como Google Translate dependen en gran medida de los tokens. Cuando introduces una frase, primero se descompone en una secuencia de tokens de texto. Un sofisticado modelo de secuencia a secuencia procesa estos tokens, comprende su significado colectivo y genera una nueva secuencia de tokens en el idioma de destino. Estos tokens de salida se vuelven a ensamblar en una frase traducida coherente. Este proceso permite la traducción en tiempo real en docenas de idiomas.

  2. Vehículos autónomos: En el campo de los vehículos autónomos, los modelos deben interpretar escenas visuales complejas en tiempo real. Un modelo como Ultralytics YOLO11 procesa las imágenes de la cámara para realizar tareas como el seguimiento de objetos y la segmentación de instancias. Si bien los modelos clásicos basados en CNN como YOLO no utilizan explícitamente "tokens" de la misma manera que los Transformers, las variantes de transformadores de visión diseñadas para la detección sí lo hacen. Descomponen la entrada visual en tokens (parches) para identificar y localizar peatones, otros vehículos y señales de tráfico con alta precisión. Esta comprensión tokenizada del entorno es crucial para una navegación segura. La gestión de todo el flujo de trabajo, desde la recopilación de datos hasta el despliegue del modelo, puede agilizarse utilizando plataformas como Ultralytics HUB.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles