Sistemlerin metin, görüntü ve ses gibi çeşitli verileri işlediği ve anladığı alan olan Çok Modlu YZ'yi keşfedin. Nasıl çalıştığını öğrenin ve temel uygulamaları keşfedin.
Multimodal yapay zeka, yapay zekanın sofistike bir dalını ifade eder. yapay zeka (AI) aynı anda birden fazla veri türünü kullanarak işler, yorumlar ve gerekçelendirir. Geleneksel tek modlu sistemlerin aksine tek bir girdi kaynağına dayanan - örneğin yalnızca metin Büyük Dil Modelleri (LLM'ler) veya yalnızca görüntü sınıflandırıcılar-multimodal sistemler metin, görüntü, ses, video ve sensör okumaları gibi çeşitli veri akışlarını entegre eder. Bu yaklaşım, doğal olarak görme, ses ve dili kapsamlı bir şekilde birleştiren insan algısını taklit eder. çevrenin anlaşılması. Bu farklı özellikleri sentezleyerek modaliteler, bu sistemler daha yüksek doğruluk ve bağlam farkındalığına ulaşarak, aşağıdakilerin yeteneklerine yaklaşır Yapay Genel Zeka (AGI).
Çok modlu bir sistemin mimarisi genellikle üç farklı aşamadan oluşur: kodlama, birleştirme ve kod çözme. İlk olarak, ayrı sinir ağları, örneğin Evrişimsel Sinir Ağları (CNN'ler) görsel veriler için ve metinsel veriler için Transformers, her bir girdi türünden özellikler çıkarır. Bu özellikler, aşağıdaki gibi bilinen sayısal vektörlere dönüştürülür gömülmeler.
Kritik aşama, bu katıştırmaların ortak bir temsil uzayında birleştirildiği füzyon aşamasıdır. Gelişmiş füzyon tekni̇kleri̇ tartmak için dikkat mekanizmalarını kullanır. Farklı modalitelerin birbirlerine göre önemi. Örneğin, bir video analiz görevinde model şunları yapabilir Bir karakter konuşurken ses verilerine öncelik verir, ancak bir eylem dizisi sırasında odağı görsel verilere çevirir. Gibi çerçeveler PyTorch ve TensorFlow bu karmaşık yapıları inşa etmek için hesaplama backbone sağlar. mimariler.
Çok modlu yapay zeka, verilerin bütünsel bir görünümünü gerektiren sorunları çözerek çeşitli sektörlerde inovasyonu teşvik ediyor.
Tam multimodal modeller karmaşık olsa da, bileşenleri genellikle erişilebilir özel modellerdir. Örneğin Multimodal bir boru hattının görüntü bileşeni genellikle yüksek hızlı bir nesne dedektörü kullanır. Aşağıda aşağıdakileri kullanan bir örnek verilmiştir Ultralytics YOLO11 görsel kavramları (sınıfları) çıkarmak için daha sonra daha fazla muhakeme için bir dil modeline beslenebilecek bir görüntü.
from ultralytics import YOLO
# Load a pretrained YOLO11 model for object detection
model = YOLO("yolo11n.pt")
# Run inference on an image to identify visual elements
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detected objects and their probabilities
# In a multimodal pipeline, these textual class names act as input for an LLM
for result in results:
result.show() # Visualize the detections
print(result.boxes.cls) # Print class indices
Multimodal YZ'yi benzer terimlerden ayırmak, ortamı daha iyi anlamak için faydalı olacaktır:
Bu alan, herhangi bir modaliteyi sorunsuz bir şekilde üretebilen ve anlayabilen sistemlere doğru hızla gelişmektedir. Araştırma Google DeepMind gibi kurumlar ve OpenAI, teknolojinin sınırlarını zorluyor Metin ve görselleri daha iyi hizalamak için temel modeller gizli alanlar.
Ultralytics'te, bu ekosistemin vizyon bileşenini sürekli olarak geliştiriyoruz. Yaklaşan YOLO26 daha da fazla verimlilik sunmak üzere tasarlanıyor ve doğruluk, gelecekteki multimodal uygulamalar için sağlam bir görsel backbone görevi görür. Aşağıdakilerden yararlanmak isteyen kullanıcılar bu yetenekler LangChain gibi araçlarla entegrasyon kendi karmaşık muhakeme sistemlerini inşa etmek için.