Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Modèles de cohérence

Découvrez comment les modèles de cohérence permettent d'obtenir une IA générative rapide et de haute qualité en une seule étape. Découvrez en quoi ils diffèrent des modèles de diffusion pour l'inférence en temps réel.

L'intelligence artificielle générative a fait d'énormes progrès en matière de fidélité visuelle, mais la vitesse de traitement reste souvent un frein. Les modèles de cohérence constituent une famille avancée d' architectures d'IA générative conçues pour créer des données de haute qualité en une seule étape ou en très peu d'étapes, en contournant les processus d'échantillonnage très gourmands en ressources exigés par les cadres probabilistes antérieurs. Initialement introduite dans la recherche fondamentale sur l'apprentissage automatique par OpenAI, cette approche établit une nouvelle norme en matière de synthèse rapide de données.

Au lieu de supprimer le bruit par étapes successives sur des centaines de pas, ces réseaux apprennent une correspondance mathématique qui relie directement n'importe quel point de données bruité à sa forme d'origine, sans bruit. En résolvant des équations différentielles ordinaires (EDO) le long d'une trajectoire de bruit spécifique, le modèle garantit que tous les points situés sur ce chemin sont mappés vers exactement le même résultat final. Cette propriété de « cohérence » permet aux praticiens de sauter complètement les étapes intermédiaires. Inspirées par des innovations plus générales telles que les avancéesGoogle , des percées récentes comme les modèles de cohérence latente (LCM) ont encore optimisé ce processus. En opérant dans des espaces latents compressés, les LCM réduisent considérablement les besoins en mémoire et accélèrent les pipelines de génération de texte en image.

Modèles de cohérence vs modèles de diffusion

Si l'on compare cette architecture aux modèles de diffusion, la principale différence réside dans le processus de génération. Alors que les cadres de diffusion traditionnels s'appuient sur une boucle de débruitage progressive et itérative pour construire des images, les modèles de cohérence sont explicitement conçus pour l'inférence en temps réel. La diffusion offre un niveau de détail incroyable, mais s'avère souvent trop lente pour les applications en direct destinées aux utilisateurs, ce qui fait de la nouvelle approche basée sur la cohérence le choix privilégié lorsque la faible latence d'inférence est une contrainte impérative du projet.

Applications concrètes

La capacité à générer instantanément des résultats de haute fidélité ouvre de nouvelles perspectives dans divers secteurs en pleine évolution :

La vitesse dans la vision par ordinateur moderne

La recherche d'une exécution à faible latence ne se limite pas aux médias génératifs; il s'agit d'un objectif universel pour toutes les formes de vision par ordinateur. Par exemple, Ultralytics est entièrement conçu pour offrir une efficacité native de bout en bout. En éliminant les goulots d'étranglement liés au post-traitement, il permet un traitement en temps réel tant pour la détection d'objets que pour les tâches complexes de segmentation d'images. Pour une optimisation plus large des modèles, les développeurs peuvent gérer sans effort des ensembles de données, entraîner rapidement des modèles et les déployer à l'aide de la Ultralytics .

L'exemple de code suivant montre comment effectuer une inférence à grande vitesse en un seul passage à l'aide du yolo26n.pt modèle, utilisant l'accélération matérielle via PyTorch afin de répondre à la demande actuelle du secteur en matière de rapidité opérations d'apprentissage automatique:

from ultralytics import YOLO

# Load the lightning-fast YOLO26 nano model for low-latency visual tasks
model = YOLO("yolo26n.pt")

# Perform a rapid, single-step prediction on an input image using GPU acceleration
results = model.predict(source="image.jpg", conf=0.5, device="cuda")

Construisons ensemble l'avenir de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique