Glosario

Tokenización

Descubra el poder de la tokenización en PLN y ML. Descubra cómo la división del texto en tokens mejora tareas de IA como el análisis de sentimientos y la generación de texto.

La tokenización es un paso fundamental del preprocesamiento en Inteligencia Artificial (IA) y Aprendizaje Automático (AM), especialmente vital en el Procesamiento del Lenguaje Natural (PLN). Consiste en descomponer secuencias de texto u otros datos en unidades más pequeñas y manejables llamadas tokens. Estos tokens son los componentes básicos que utilizan los algoritmos para comprender y procesar la información, transformando los datos en bruto, como frases o párrafos, en un formato adecuado para su análisis por modelos de aprendizaje automático. Este proceso es esencial porque los ordenadores no entienden el texto de la misma manera que los humanos; necesitan datos estructurados en piezas discretas.

Cómo funciona la tokenización

La idea central de la tokenización es la segmentación. En el caso de los datos de texto, esto significa dividir las frases en palabras, subpalabras o incluso caracteres individuales según reglas predefinidas o patrones aprendidos. Por ejemplo, la frase "Ultralytics YOLO11 es potente" podría dividirse en palabras individuales: ["Ultralytics", "YOLO11", "is", "powerful"]. El método específico elegido depende en gran medida de la tarea y de la arquitectura del modelo que se utilice.

Las técnicas más habituales son la división del texto en función de los espacios en blanco y la puntuación. Sin embargo, a menudo son necesarios métodos más avanzados, sobre todo para manejar vocabularios extensos o palabras no vistas durante el entrenamiento. Técnicas como Byte Pair Encoding (BPE) o WordPiece dividen las palabras en subpalabras más pequeñas. Estas técnicas se utilizan con frecuencia en modelos lingüísticos extensos (LLM) como BERT y GPT-4 para gestionar eficazmente el tamaño del vocabulario y manejar con soltura las palabras desconocidas. La elección de la estrategia de tokenización puede afectar significativamente al rendimiento del modelo y a la eficiencia computacional.

Pertinencia y aplicaciones reales

La tokenización es crucial porque la mayoría de los modelos de ML, especialmente las arquitecturas de aprendizaje profundo, requieren entradas numéricas en lugar de texto en bruto. Al convertir el texto en tokens discretos, podemos asignar estos tokens a representaciones numéricas, como las incrustaciones. Estos vectores numéricos capturan el significado semántico y las relaciones, lo que permite a los modelos construidos con marcos como PyTorch o TensorFlow aprender patrones a partir de los datos. Este paso fundamental es la base de numerosas aplicaciones de IA:

  1. Procesamiento del Lenguaje Natural (PLN): La tokenización es fundamental en casi todas las tareas de PLN.

    • Traducción automática: Servicios como Google Translate tokenizan la frase de entrada en el idioma de origen, procesan estos tokens utilizando modelos complejos (a menudo basados en la arquitectura Transformer ) y, a continuación, generan tokens en el idioma de destino, que finalmente se ensamblan en la frase traducida.
    • Análisis de sentimiento: Para determinar si una opinión de un cliente es positiva o negativa, primero se asignan tokens al texto. A continuación, el modelo analiza estos tokens (y sus representaciones numéricas) para clasificar el sentimiento general. Más información sobre el análisis del sentimiento. Técnicas como la sintonización de avisos también se basan en la manipulación de secuencias de tokens.
  2. Visión por ordenador (CV): Aunque tradicionalmente se asocia a la PNL, el concepto se extiende a la visión por ordenador (CV).

    • Transformadores de visión (ViT): En modelos como Vision Transformers (ViT), las imágenes se dividen en parches de tamaño fijo. Estos fragmentos se tratan como "fichas visuales" y se aplanan en secuencias. Estas secuencias se introducen en una red Transformer, que utiliza mecanismos como la autoatención para comprender las relaciones entre las distintas partes de la imagen, de forma similar a como se procesan los tokens de texto en la PLN. Esto permite realizar tareas como la clasificación de imágenes y la detección de objetos. Modelos como el Segment Anything Model (SAM) también utilizan conceptos similares a los tokens para la segmentación de imágenes.
    • Modelos multimodales: Modelos como CLIP y YOLO-World tienden un puente entre la visión y el lenguaje al procesar tanto tokens de texto como tokens visuales (o características de la imagen) para realizar tareas como la detección de objetos de disparo cero a partir de descripciones de texto.

Tokenización vs. Tokens

Es importante distinguir entre "Tokenización" y"Token".

  • Tokenización: Se refiere al proceso de descomponer los datos en unidades más pequeñas. Es un paso previo al procesamiento.
  • Ficha: Se refiere al resultado del proceso de tokenización: la unidad individual (palabra, subpalabra, carácter o fragmento de imagen) que procesa el modelo.

Entender la tokenización es fundamental para comprender cómo los modelos de IA interpretan y aprenden de diversos tipos de datos. La gestión de conjuntos de datos y modelos de formación a menudo implica plataformas como Ultralytics HUB, que ayudan a agilizar los flujos de trabajo de preprocesamiento de datos y formación de modelos, a menudo con datos tokenizados implícita o explícitamente. A medida que evoluciona la IA, los métodos de tokenización siguen adaptándose, desempeñando un papel clave en la creación de modelos más sofisticados para tareas que van desde la generación de texto hasta la comprensión visual compleja en campos como los vehículos autónomos y el análisis de imágenes médicas.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles