¡Descubra el poder de la tokenización en PNL y ML! Aprenda cómo la división del texto en tokens mejora las tareas de IA como el análisis de sentimientos y la generación de texto.
La tokenización es el proceso fundamental de convertir un flujo de datos en bruto -como texto, código o imágenes- en unidades más pequeñas y discretas, conocidas como tokens, discretas conocidas como tokens. Esta transformación actúa como puente crítico en el preprocesamiento de datos, traduciendo la información información humana no estructurada a un formato numérico que sistemas de Inteligencia Artificial (IA) puedan interpretar. Al dividir los datos complejos en partes manejables, la tokenización permite que los modelos de aprendizaje automático identifiquen patrones, aprender relaciones semánticas y realizar sofisticadas tareas de inferencia. Sin este paso inicial, las sin este paso inicial, las redes neuronales que modernas serían incapaces de procesar los enormes conjuntos de datos necesarios para el entrenamiento.
Aunque los términos se utilizan a menudo muy próximos, es importante distinguir el método del resultado.
La aplicación de la tokenización varía significativamente en función del tipo de datos que se procesen, aunque el objetivo último de generar representaciones de los datos sigue siendo el mismo.
En Procesamiento del Lenguaje Natural (PLN), el proceso consiste en dividir las frases en palabras, subpalabras o caracteres. Los primeros métodos se limitaban a dividir el texto por espacios en blanco, pero los Modelos de Lenguaje Amplio (LLM) utilizan algoritmos avanzados como la codificación por pares de bytes (BPE) para palabras raras. Esto permite a modelos como GPT-4 procesar vocabulario complejo sin necesidad de un diccionario infinito. diccionario infinito.
Tradicionalmente, la visión por ordenador (CV) se basaba en matrices de píxeles. Sin embargo, la aparición del Transformador de Visión (ViT) introdujo el concepto de dividir una imagen en parches de tamaño fijo (por ejemplo, 16x16 píxeles). Estos parches se aplanan y se tratan como tokens visuales, lo que permite al modelo utilizar autoatención para ponderar la importancia de regiones de la imagen, de forma similar a cómo se procesa una frase.
La tokenización no es sólo un concepto teórico; impulsa muchas de las aplicaciones de IA que se utilizan a diario.
El siguiente ejemplo muestra cómo ultralytics utiliza la tokenización implícita dentro del
Modelo YOLO flujo de trabajo. El sitio
.set_classes() tokeniza la lista de texto para guiar dinámicamente el enfoque de detección del modelo.
from ultralytics import YOLO
# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")
# Define custom classes; the model tokenizes these strings to search for specific objects
model.set_classes(["backpack", "person"])
# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results (only detects the tokenized classes defined above)
results[0].show()
La elección de la estrategia de tokenización influye la precisión y la eficiencia computacional. Una tokenización ineficiente en de vocabulario" en PNL o la pérdida de detalles en la segmentación de imágenes. segmentación de imágenes. Marcos como PyTorch y TensorFlow ofrecen herramientas flexibles para optimizar este paso. A medida que evolucionan las arquitecturas -como las últimas YOLO11-el procesamiento eficiente de los datos garantiza que los modelos puedan ejecutar inferencia en tiempo real en hardware diverso, desde desde potentes GPU en la nube hasta dispositivos periféricos.