Descubra cómo los tokens, los componentes básicos de los modelos de IA, impulsan el PNL, la visión artificial y tareas como el análisis de sentimientos y la detección de objetos.
En inteligencia artificial, un token es la unidad de datos fundamental y discreta que procesa un modelo. Antes de que un modelo de IA pueda analizar texto o una imagen, los datos brutos deben dividirse en estas piezas manejables. Para un modelo de lenguaje, un token podría ser una palabra, una parte de una palabra (una subpalabra) o un solo carácter. Para un modelo de visión artificial (CV), un token puede ser un pequeño parche de tamaño fijo de una imagen. Este proceso de descomposición de los datos es un primer paso crítico en el pipeline de preprocesamiento de datos, ya que convierte los datos complejos y no estructurados en un formato estructurado que las redes neuronales pueden entender.
Es esencial distinguir entre un 'token' y la 'tokenización'.
En resumen, la tokenización es la acción, y un token es el resultado de esa acción.
Los tokens son los bloques de construcción de cómo los modelos de IA perciben e interpretan los datos. Una vez que los datos se tokenizan, cada token se asigna normalmente a una representación vectorial numérica llamada embedding. Estos embeddings capturan el significado semántico y el contexto, lo que permite a los modelos construidos con frameworks como PyTorch o TensorFlow aprender patrones complejos.
Tokens de Palabras y Subpalabras: En el Procesamiento del Lenguaje Natural (PNL), el uso de palabras enteras como tokens puede conducir a vocabularios enormes y problemas con palabras desconocidas. La tokenización de subpalabras, utilizando algoritmos como Byte Pair Encoding (BPE) o WordPiece, es una solución común. Descompone las palabras raras en partes más pequeñas y significativas. Por ejemplo, la palabra "tokenización" podría convertirse en dos tokens: "token" y "##ización". Este enfoque, utilizado por modelos como BERT y GPT-4, ayuda al modelo a manejar vocabularios complejos y estructuras gramaticales. Puede explorar implementaciones modernas en bibliotecas como Hugging Face Tokenizers.
Tokens Visuales: El concepto de tokens se extiende más allá del texto hacia la visión artificial. En modelos como el Vision Transformer (ViT), una imagen se divide en una cuadrícula de parches (por ejemplo, 16x16 píxeles). Cada parche se aplana y se trata como un "token visual". Esto permite que las potentes arquitecturas Transformer, que sobresalen en el procesamiento de secuencias utilizando auto-atención, realicen tareas como la clasificación de imágenes y la detección de objetos. Este enfoque basado en tokens también es fundamental para los modelos multimodales que entienden tanto imágenes como texto, como CLIP.
El uso de tokens es fundamental para innumerables sistemas de IA, desde aplicaciones simples hasta modelos complejos y de última generación.
Traducción automática: Servicios como Google Translate dependen en gran medida de los tokens. Cuando introduces una frase, primero se descompone en una secuencia de tokens de texto. Un sofisticado modelo de secuencia a secuencia procesa estos tokens, comprende su significado colectivo y genera una nueva secuencia de tokens en el idioma de destino. Estos tokens de salida se vuelven a ensamblar en una frase traducida coherente. Este proceso permite la traducción en tiempo real en docenas de idiomas.
Vehículos autónomos: En el campo de los vehículos autónomos, los modelos deben interpretar escenas visuales complejas en tiempo real. Un modelo como Ultralytics YOLO11 procesa las imágenes de la cámara para realizar tareas como el seguimiento de objetos y la segmentación de instancias. Si bien los modelos clásicos basados en CNN como YOLO no utilizan explícitamente "tokens" de la misma manera que los Transformers, las variantes de transformadores de visión diseñadas para la detección sí lo hacen. Descomponen la entrada visual en tokens (parches) para identificar y localizar peatones, otros vehículos y señales de tráfico con alta precisión. Esta comprensión tokenizada del entorno es crucial para una navegación segura. La gestión de todo el flujo de trabajo, desde la recopilación de datos hasta el despliegue del modelo, puede agilizarse utilizando plataformas como Ultralytics HUB.