Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Incrustaciones (Embeddings)

Descubra qué son los embeddings y cómo potencian la IA capturando relaciones semánticas en los datos para el PNL, las recomendaciones y la visión artificial.

Las incrustaciones son representaciones vectoriales densas, de baja dimensión y continuas de variables discretas, que sirven como formato de datos fundamental en las aplicaciones modernas. formato de datos fundamental inteligencia artificial (IA). A diferencia de las representaciones dispersas, como la codificación one-hot, que puede dar lugar a vectores masivos e ineficientes, las incrustaciones capturan las relaciones semánticas y el significado subyacente de los datos al mapear entradas en un espacio numérico compacto. En este espacio vectorial aprendido, los elementos que comparten características o contextos similares se sitúan muy cerca unos de otros, lo que permite aprendizaje automático (ML) comprender y procesar intuitivamente patrones complejos.

Cómo funcionan las incrustaciones

El concepto básico de las incrustaciones es la traducción de datos brutos a una forma matemática que los ordenadores puedan procesar eficientemente. Este proceso suele implicar un red neuronal (NN) que aprende a asignar entradas a vectores de números reales. Durante el entrenamiento del modelo del modelo, la red ajusta estos vectores para que la distancia entre ellos corresponda a la similitud de los elementos que representan.

Por ejemplo, en procesamiento del lenguaje natural (PLN)las incrustaciones de las palabras "rey" y "reina" estarían matemáticamente más próximas entre sí que las de "manzana", lo que refleja su relación semántica. que a "manzana", lo que refleja su relación semántica. Esta transformación es una forma de reducción de la dimensionalidadEsta transformación es una forma de reducción de la dimensionalidad, que preserva la información esencial y descarta el ruido, haciendo que tareas posteriores como la clasificación o la agrupación sean mucho más eficaces. clasificación o la agrupación en clústeres.

Creación y formación

Las incrustaciones suelen generarse como subproducto del entrenamiento. aprendizaje profundo en grandes grandes conjuntos de datos. Marcos como PyTorch y TensorFlow proporcionan capas específicamente diseñadas para aprender estas representaciones.

  1. Inicialización: Los vectores de incrustación suelen inicializarse con valores aleatorios.
  2. Aprendizaje: A medida que el modelo se optimiza para un objetivo específico, como predecir la siguiente palabra de una secuencia o identificar objetos en una imagen, el modelo se convierte en una herramienta de aprendizaje. secuencia o identificar objetos en una imagen pesos del modelo asociadas a la capa capa de incrustación.
  3. Resultado: Los pesos finales aprendidos sirven como tabla de búsqueda de incrustación, donde cada token u objeto de entrada corresponde a un vector denso específico. de entrada corresponde a un vector denso específico.

Puede generar incrustaciones para imágenes utilizando el estándar visión por ordenador (CV) estándar. El siguiente fragmento de Python muestra cómo extraer incrustaciones de una imagen utilizando un algoritmo preentrenado. Ultralytics YOLO11 de Ultralytics.

from ultralytics import YOLO

# Load a YOLO11 classification model
model = YOLO("yolo11n-cls.pt")

# Generate embeddings for an image from a URL
# The embed() method specifically returns the feature vector
embedding_vector = model.embed("https://ultralytics.com/images/bus.jpg")

# Output the shape of the embedding (e.g., a vector of length 1280)
print(f"Embedding shape: {embedding_vector[0].shape}")

Aplicaciones en el mundo real

Las incrustaciones han revolucionado la forma en que los sistemas manejan los datos no estructurados, potenciando capacidades que antes eran imposibles. imposibles.

  • Buscadores semánticos: Los motores de búsqueda tradicionales se basan en la concordancia de palabras clave, que suele fallar cuando las consultas utilizan sinónimos. La búsqueda semántica aprovecha para relacionar la intención de una consulta con el contenido de documentos o imágenes. Al comparar la distancia vectorial vectorial entre la incrustación de la consulta y la del documento, el sistema recupera resultados conceptualmente conceptualmente relevantes, aunque no compartan las mismas palabras.
  • Sistemas de recomendación personalizados: Plataformas como Netflix o Amazon utilizan incrustaciones para modelar las preferencias de los usuarios y las características de los artículos. usuario y las características de los artículos. Si un usuario ve una película de ciencia ficción, la sistema de recomendación puede sugerir otras películas con vectores de incrustación similares. Este planteamiento, que suele aplicarse mediante algoritmos en una base de base de datos vectorialse amplía a millones de elementos.
  • Aprendizaje de tiro cero: Modelos avanzados como CLIP aprenden incrustaciones conjuntas de texto e imágenes. Esto permite al sistema classify imágenes que nunca ha visto durante el durante el entrenamiento comparando la incrustación de la imagen con las incrustaciones de texto de los nombres de las clases. aprendizaje sin disparos.

Incrustaciones vs. Conceptos Relacionados

Entender la distinción entre incrustaciones y términos relacionados es crucial para navegar por el panorama de la IA.

  • Incrustación frente a extracción de características: Aunque ambos implican la transformación de datos en características numéricas, extracción de características puede referirse puede referirse a técnicas manuales (como la detección de bordes) o automatizadas. Las incrustaciones son un tipo específico de extracción de características que da lugar a vectores densos, a menudo utilizados como entrada para otros modelos o para tareas de similitud.
  • Incrustaciones frente a búsqueda de vectores: Una incrustación es la estructura de datos (el vector en sí). La búsqueda vectorial es el proceso de consulta de una colección de estas incrustaciones para encontrar elementos similares. Tecnologías como piña o Milvus están diseñados para almacenar incrustaciones y realizar esta búsqueda eficazmente.
  • Incrustación frente a tokenización: En el tratamiento de textos, tokenización es el paso de dividir el texto en unidades más pequeñas llamadas tokens. Estos tokens son identificadores discretos (números enteros) que buscan los vectores de incrustación correspondientes. Así, la la tokenización precede a la recuperación de las incrustaciones.

Al convertir conceptos abstractos en vectores matemáticos, las incrustaciones acortan la distancia entre la intuición humana y la lógica de las máquinas. humana y la lógica de las máquinas. reconocimiento de patrones de patrones en las aplicaciones de IA más avanzadas.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora