Glosario

Ficha

Descubra cómo los tokens, los componentes básicos de los modelos de IA, potencian la PNL, la visión por ordenador y tareas como el análisis de sentimientos y la detección de objetos.

En el ámbito de la Inteligencia Artificial (IA) y el Aprendizaje Automático (AM), sobre todo en el Procesamiento del Lenguaje Natural (PLN) y cada vez más en la visión por ordenador, un "token" representa la unidad más pequeña de datos que procesa un modelo. Los tokens son los componentes básicos que utilizan los modelos de IA para comprender y analizar la información, ya sea texto, imágenes u otras formas de datos. Son esenciales para convertir la información bruta en un formato que los algoritmos puedan interpretar y del que puedan aprender, y constituyen la base de muchas tareas complejas de IA.

Comprender las fichas

Las fichas son los resultados discretos de un proceso denominado tokenización. En PNL, por ejemplo, una frase como "Ultralytics YOLO es rápido y preciso" puede tokenizarse en palabras individuales: ["Ultralytics", "YOLO", "is", "fast", "and", "accurate"]. Dependiendo de la estrategia específica de tokenización, los tokens también pueden ser unidades de subpalabras (por ejemplo, "Ultra", "lytics") o incluso caracteres individuales. Este desglose transforma el texto continuo o los datos complejos en fragmentos manejables.

La razón por la que los tokens son cruciales es que la mayoría de los modelos de aprendizaje profundo, incluidas las potentes arquitecturas como Transformers utilizadas en muchos sistemas de IA modernos, no pueden procesar directamente datos sin estructurar. Necesitan datos en un formato estructurado, a menudo numérico. La tokenización proporciona este puente. Una vez que los datos se han tokenizado, cada token suele asignarse a una representación numérica, como un ID en un vocabulario o, más comúnmente, a representaciones vectoriales densas denominadas incrustaciones. Estas incrustaciones capturan las relaciones semánticas entre los tokens, que los modelos aprenden durante el entrenamiento.

Métodos de tokenización

Existen diferentes métodos para dividir los datos en fichas:

  • Tokenización basada en palabras: Divide el texto en función de los espacios y los signos de puntuación. Es sencillo, pero tiene problemas con vocabularios extensos y palabras desconocidas.
  • Tokenización basada en caracteres: Utiliza caracteres individuales como tokens. Es compatible con cualquier palabra, pero da lugar a secuencias muy largas.
  • Tokenización de subpalabras: Un equilibrio entre los métodos de palabras y caracteres. Técnicas como la codificación por pares de bytes (BPE) o WordPiece dividen las palabras en subunidades comunes, lo que permite tratar con eficacia vocabularios extensos y palabras poco frecuentes. Estas técnicas se utilizan mucho en los modelos lingüísticos de gran tamaño (LLM).

Fichas frente a conceptos relacionados

Es importante distinguir los tokens de los términos relacionados:

  • Token vs. Tokenización: Un token es la unidad de salida (por ejemplo, "Ultralytics", "parche de imagen"), mientras que la tokenización es el proceso de creación de estas unidades a partir de datos brutos.
  • Token vs. Incrustación: Un token es una unidad discreta de entrada. Una incrustación suele ser un vector numérico denso que representa el token y capta su significado de forma que el modelo pueda entenderlo. Los tokens suelen convertirse en incrustaciones de palabras o incrustaciones visuales antes de introducirse en el modelo.

Aplicaciones de las fichas

Los tokens son fundamentales en varios ámbitos de la IA. He aquí dos ejemplos concretos:

  1. Traducción automática: En servicios como Google Translate, una frase de entrada en un idioma se tokeniza primero. Estos tokens son procesados por un modelo de secuencia a secuencia (a menudo un transformador), que genera tokens que representan la frase traducida en el idioma de destino. La elección de la tokenización influye significativamente en la precisión y fluidez de la traducción. Los LLM como GPT-4 y BERT dependen en gran medida del procesamiento de tokens para tareas como la traducción, la generación de textos y el análisis de sentimientos. Técnicas como el ajuste y el encadenamiento de símbolos implican la manipulación de secuencias de símbolos de entrada para guiar el comportamiento del modelo.

  2. Visión por ordenador con Transformers: Aunque tradicionalmente se han asociado a la PNL, los tokens son ahora fundamentales para modelos avanzados de visión por ordenador como los Transformadores de Visión (ViT). En un ViT, una imagen se divide en fragmentos de tamaño fijo que no se solapan (por ejemplo, 16x16 píxeles). Cada fragmento se trata como una "ficha visual". Estos tokens se incrustan linealmente y se introducen en una arquitectura Transformer, que utiliza mecanismos de atención para analizar las relaciones entre las distintas partes de la imagen. Este enfoque se utiliza para tareas como la clasificación de imágenes, la detección de objetos y la segmentación de imágenes. Modelos como el Segment Anything Model (SAM) utilizan este enfoque basado en tokens. Incluso en modelos convolucionales como Ultralytics YOLOv8 o el más reciente Ultralytics YOLO11, el sistema de celdas cuadriculadas utilizado para la detección puede considerarse una forma implícita de tokenización espacial.

Entender los tokens es fundamental para comprender cómo los modelos de IA interpretan y procesan la información. A medida que evolucione la IA, el concepto de token y los métodos para crearlo seguirán siendo fundamentales para manejar diversos tipos de datos y construir modelos más sofisticados para aplicaciones que van desde el análisis de imágenes médicas a los vehículos autónomos. Plataformas como Ultralytics HUB proporcionan herramientas para gestionar conjuntos de datos y entrenar modelos, a menudo con datos implícita o explícitamente tokenizados.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles