LangChain
Learn how LangChain simplifies developing AI apps with LLMs. Explore RAG, agents, and chains, and see how to [integrate YOLO26](https://docs.ultralytics.com/models/yolo26/) for advanced multimodal workflows.
LangChain est un framework open source conçu pour simplifier le développement d'applications alimentées par des
modèles linguistiques de grande taille (LLM). Si les LLM
tels que GPT-4 sont puissants en eux-mêmes, ils fonctionnent souvent de manière
isolée, sans connaissance des données en temps réel ou du contexte commercial spécifique. LangChain sert de pont, permettant aux
développeurs d'enchaîner divers composants, tels que des invites, des modèles et des sources de données externes, afin de créer des
applications sophistiquées et sensibles au contexte. En gérant la complexité de ces interactions, LangChain permet aux
systèmes d'intelligence artificielle (IA) de
raisonner sur des problèmes et de prendre des mesures en fonction d'entrées dynamiques.
Composants essentiels de LangChain
Le cadre s'articule autour de plusieurs concepts modulaires qui fonctionnent ensemble pour améliorer les
flux de travail du traitement du langage naturel (NLP)
.
-
Chaînes : élément fondamental, une chaîne est une séquence d'appels à un LLM ou à d'autres
utilitaires. Par exemple, une chaîne simple peut prendre en charge les entrées d'un utilisateur, les formater à l'aide d'un
modèle d'ingénierie de prompt, puis les transmettre à un
modèle afin de générer une réponse. Les chaînes plus complexes peuvent séquencer plusieurs appels, où la sortie d'une étape devient
l'entrée de la suivante.
-
Agents : contrairement aux chaînes, qui suivent une séquence codée en dur, un
agent IA utilise un LLM comme moteur de raisonnement pour déterminer
les actions à entreprendre et dans quel ordre. Les agents peuvent interroger des API, effectuer des recherches sur le web ou accéder à des bases de données pour répondre à des
questions qui nécessitent des connaissances actualisées.
-
Récupération : Afin d'ancrer les réponses du modèle dans des données factuelles, LangChain facilite la
génération augmentée par la récupération (RAG). Cela implique de récupérer des documents pertinents à partir d'une
base de données vectorielle en fonction des requêtes des utilisateurs et de les intégrer
dans la fenêtre contextuelle du modèle.
-
Mémoire : les LLM standard sont sans état, ce qui signifie qu'ils oublient les interactions précédentes. LangChain fournit des
composants de mémoire qui permettent aux chatbots de conserver le contexte tout au long d'une conversation, imitant ainsi la continuité d'un dialogue humain
.
Applications concrètes
LangChain joue un rôle déterminant dans le passage de l'IA générative des cahiers d'expérimentation aux environnements de production dans
divers secteurs.
-
Discutez avec vos données (RAG) : l'une des applications les plus courantes est la recherche d'entreprise. Les entreprises utilisent
LangChain pour intégrer la documentation interne, les PDF ou les manuels techniques dans un index consultable. Lorsqu'un employé
pose une question, le système récupère le paragraphe pertinent et le transmet au LLM, garantissant ainsi que la réponse est
précise et fondée sur les données de l'entreprise plutôt que sur des hallucinations. Cela améliore considérablement la
distillation des connaissances au sein des
organisations.
-
Analyse multimodale : LangChain peut orchestrer des flux de travail qui combinent du texte avec d'autres modalités,
telles que la vision par ordinateur (CV). Par exemple, un
système de sécurité pourrait utiliser la détection d'objets pour
identifier le personnel non autorisé, puis déclencher un agent LangChain pour rédiger un rapport d'incident et l'envoyer par e-mail à un
superviseur.
Intégration avec la vision par ordinateur
La synergie entre les données visuelles structurées et le raisonnement linguistique est un domaine de développement très prometteur. Les développeurs peuvent
utiliser des modèles performants tels que Ultralytics pour
extraire des informations détaillées à partir d'images, telles que le nombre d'objets, les classes ou les emplacements, et transmettre ces données structurées
à un workflow LangChain pour une analyse plus approfondie ou une description en langage naturel.
Ce qui suit Python montre comment extraire les noms des classes détectées
à l'aide d'un Ultralytics , créant ainsi un contexte textuel qui peut être intégré dans une chaîne linguistique en aval.
from ultralytics import YOLO
# Load the YOLO26 model to generate structured data for a chain
model = YOLO("yolo26n.pt")
# Run inference on an image URL
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detection class names to feed into a LangChain prompt
detections = [model.names[int(c)] for c in results[0].boxes.cls]
# Format the output as a context string for an LLM
chain_input = f"The image contains the following objects: {', '.join(detections)}."
print(chain_input)
Termes clés distinctifs
Il est important de différencier LangChain des technologies qu'elle orchestre :
-
LangChain vs. LLMs: Le
LLM (par exemple, GPT-4 d'OpenAI ou Claude Anthropic) est le « cerveau » qui traite et génère du texte.
LangChain est l'« échafaudage » ou l'infrastructure qui relie ce cerveau aux
pipelines de prétraitement des données, aux API et aux interfaces utilisateur
.
-
LangChain vs. Prompt Engineering:
Le prompt engineering consiste à créer le texte optimal pour obtenir le meilleur résultat possible d'un modèle. LangChain
automatise la gestion de ces prompts, permettant ainsi la création de
modèles de prompts dynamiques qui sont
remplis de données de manière programmatique avant d'être envoyés au modèle.
Pour les développeurs qui cherchent à créer des systèmes d'IA robustes, la
documentation officielle de LangChain fournit des informations techniques approfondies
, tandis que la Ultralytics offre les outils nécessaires
pour intégrer des capacités de vision de pointe dans ces flux de travail intelligents. De plus, les utilisateurs peuvent
tirer parti de la Ultralytics pour gérer les ensembles de données et les pipelines de formation
qui alimentent ces systèmes multimodaux avancés.