Descubra el poder de la tokenización en PLN y ML. Descubra cómo la división del texto en tokens mejora tareas de IA como el análisis de sentimientos y la generación de texto.
La tokenización es un paso fundamental del preprocesamiento en Inteligencia Artificial (IA) y Aprendizaje Automático (AM), especialmente vital en el Procesamiento del Lenguaje Natural (PLN). Consiste en descomponer secuencias de texto u otros datos en unidades más pequeñas y manejables llamadas tokens. Estos tokens son los componentes básicos que utilizan los algoritmos para comprender y procesar la información, transformando los datos en bruto, como frases o párrafos, en un formato adecuado para su análisis por modelos de aprendizaje automático. Este proceso es esencial porque los ordenadores no entienden el texto de la misma manera que los humanos; necesitan datos estructurados en piezas discretas.
La idea central de la tokenización es la segmentación. En el caso de los datos de texto, esto significa dividir las frases en palabras, subpalabras o incluso caracteres individuales según reglas predefinidas o patrones aprendidos. Por ejemplo, la frase "Ultralytics YOLO11 es potente" podría dividirse en palabras individuales: ["Ultralytics", "YOLO11", "is", "powerful"]
. El método específico elegido depende en gran medida de la tarea y de la arquitectura del modelo que se utilice.
Las técnicas más habituales son la división del texto en función de los espacios en blanco y la puntuación. Sin embargo, a menudo son necesarios métodos más avanzados, sobre todo para manejar vocabularios extensos o palabras no vistas durante el entrenamiento. Técnicas como Byte Pair Encoding (BPE) o WordPiece dividen las palabras en subpalabras más pequeñas. Estas técnicas se utilizan con frecuencia en modelos lingüísticos extensos (LLM) como BERT y GPT-4 para gestionar eficazmente el tamaño del vocabulario y manejar con soltura las palabras desconocidas. La elección de la estrategia de tokenización puede afectar significativamente al rendimiento del modelo y a la eficiencia computacional.
La tokenización es crucial porque la mayoría de los modelos de ML, especialmente las arquitecturas de aprendizaje profundo, requieren entradas numéricas en lugar de texto en bruto. Al convertir el texto en tokens discretos, podemos asignar estos tokens a representaciones numéricas, como las incrustaciones. Estos vectores numéricos capturan el significado semántico y las relaciones, lo que permite a los modelos construidos con marcos como PyTorch o TensorFlow aprender patrones a partir de los datos. Este paso fundamental es la base de numerosas aplicaciones de IA:
Procesamiento del Lenguaje Natural (PLN): La tokenización es fundamental en casi todas las tareas de PLN.
Visión por ordenador (CV): Aunque tradicionalmente se asocia a la PNL, el concepto se extiende a la visión por ordenador (CV).
Es importante distinguir entre "Tokenización" y"Token".
Entender la tokenización es fundamental para comprender cómo los modelos de IA interpretan y aprenden de diversos tipos de datos. La gestión de conjuntos de datos y modelos de formación a menudo implica plataformas como Ultralytics HUB, que ayudan a agilizar los flujos de trabajo de preprocesamiento de datos y formación de modelos, a menudo con datos tokenizados implícita o explícitamente. A medida que evoluciona la IA, los métodos de tokenización siguen adaptándose, desempeñando un papel clave en la creación de modelos más sofisticados para tareas que van desde la generación de texto hasta la comprensión visual compleja en campos como los vehículos autónomos y el análisis de imágenes médicas.