Glosario

Ficha

Descubra cómo los tokens, los componentes básicos de los modelos de IA, potencian la PNL, la visión por ordenador y tareas como el análisis de sentimientos y la detección de objetos.

En inteligencia artificial, un token es la unidad fundamental y discreta de datos que procesa un modelo. Antes de que un modelo de IA pueda analizar un texto o una imagen, los datos brutos deben descomponerse en estas piezas manejables. Para un modelo lingüístico, un token puede ser una palabra, una parte de una palabra (una subpalabra) o un solo carácter. Para un modelo de visión por ordenador (CV ), un token puede ser un pequeño fragmento de tamaño fijo de una imagen. Este proceso de descomposición de datos es un primer paso fundamental en el proceso de preprocesamiento de datos, ya que convierte datos complejos y desestructurados en un formato estructurado que las redes neuronales pueden entender.

Token vs. Tokenización

Es esencial distinguir entre "token" y"tokenización".

  • Ficha: La unidad individual que resulta del proceso de descomposición. Es la pieza de datos real -como la palabra "aprender" o un parche de imagen de 16x16 píxeles- que se introduce en el modelo.
  • Tokenización: El método o proceso de realizar esta descomposición. Es la acción de convertir una secuencia de texto o una imagen en una secuencia de tokens.

En resumen, la tokenización es la acción, y un token es el resultado de esa acción.

Tipos de fichas y su importancia

Los tokens son los componentes básicos del modo en que los modelos de IA perciben e interpretan los datos. Una vez que los datos se han tokenizado, cada token suele asignarse a una representación vectorial numérica denominada incrustación. Estas incrustaciones capturan el significado semántico y el contexto, lo que permite a los modelos construidos con marcos como PyTorch o TensorFlow aprender patrones complejos.

  • Tokens de palabras y subpalabras: En el Procesamiento del Lenguaje Natural (PLN), el uso de palabras enteras como tokens puede dar lugar a vocabularios enormes y problemas con palabras desconocidas. La tokenización de subpalabras, mediante algoritmos como Byte Pair Encoding (BPE) o WordPiece, es una solución habitual. Descompone las palabras raras en partes más pequeñas y significativas. Por ejemplo, la palabra "tokenización" puede convertirse en dos tokens: "token" y "##ization". Este enfoque, utilizado por modelos como BERT y GPT-4, ayuda al modelo a manejar vocabulario y estructuras gramaticales complejas. Puede explorar implementaciones modernas en bibliotecas como Hugging Face Tokenizers.

  • Fichas visuales: El concepto de testigo se extiende más allá del texto, a la visión por ordenador. En modelos como el Vision Transformer (ViT), una imagen se divide en una cuadrícula de parches (por ejemplo, 16x16 píxeles). Cada parche se aplana y se trata como un "token visual". Esto permite a las potentes arquitecturas Transformer, que destacan en el procesamiento de secuencias mediante autoatención, realizar tareas como la clasificación de imágenes y la detección de objetos. Este enfoque basado en tokens también es fundamental para los modelos multimodales que comprenden tanto imágenes como texto, como CLIP.

Aplicaciones reales

El uso de fichas es fundamental en innumerables sistemas de IA, desde aplicaciones sencillas hasta complejos modelos de última generación.

  1. Traducción automática: Servicios como Google Translate dependen en gran medida de los tokens. Cuando se introduce una frase, primero se descompone en una secuencia de tokens de texto. Un sofisticado modelo de secuencia a secuencia procesa estos tokens, comprende su significado colectivo y genera una nueva secuencia de tokens en la lengua de destino. A continuación, estas secuencias se ensamblan en una frase traducida coherente. Este proceso permite traducir en tiempo real docenas de idiomas.

  2. Vehículos autónomos: En el campo de los vehículos autónomos, los modelos deben interpretar escenas visuales complejas en tiempo real. Un modelo como Ultralytics YOLO11 procesa imágenes de cámara para realizar tareas como el seguimiento de objetos y la segmentación de instancias. Aunque los modelos clásicos basados en CNN como YOLO no utilizan explícitamente "tokens" del mismo modo que los Transformers, las variantes de transformadores de visión diseñadas para la detección sí lo hacen. Desglosan la información visual en fichas (parches) para identificar y localizar peatones, otros vehículos y señales de tráfico con gran precisión. Esta comprensión tokenizada del entorno es crucial para una navegación segura. La gestión de todo el flujo de trabajo, desde la recogida de datos hasta el despliegue del modelo, puede racionalizarse utilizando plataformas como Ultralytics HUB.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles