YOLO26 ile tanış: yeni nesil görsel AI.
Ultralytics
Ultralytics Sözlüğüne dön

Speech-to-Text

Konuşmadan Metne (STT) özelliğinin sesi veriye nasıl dönüştürdüğünü keşfet. ASR, NLP entegrasyonu ve Ultralytics YOLO26 ile Ultralytics Platform kullanarak çok modlu yapay zeka hakkında bilgi edin.

Konuşmadan Metne (STT), sıklıkla Otomatik Konuşma Tanıma (ASR) olarak da adlandırılan, konuşma dilini yazılı metne dönüştüren bir hesaplama sürecidir. Bu teknoloji, insan iletişimi ile dijital sistemler arasında kritik bir köprü görevi görerek makinelerin sözlü bilgiyi yapılandırılmış veri olarak işlemesini, analiz etmesini ve depolamasını sağlar. Özünde STT, ses dalga biçimlerini analiz etmek, fonetik kalıpları tanımlamak ve bunları anlamlı cümleler halinde yeniden oluşturmak için gelişmiş Derin Öğrenme (DL) algoritmalarına dayanır ve daha geniş kapsamlı Doğal Dil İşleme (NLP) işlem hatları için bir girdi katmanı işlevi görür.

Link to this sectionTranskripsiyonun Arkasındaki Mekanizmalar#

The transformation from sound to text involves several complex stages. Initially, the system captures audio and performs Data Cleaning to remove background noise. The cleaned audio undergoes Feature Extraction, where raw sound waves are converted into spectrograms or Mel-frequency cepstral coefficients (MFCCs), which represent the acoustic characteristics of speech.

Modern STT sistemleri, bu akustik özellikleri fonemlere (temel ses birimleri) ve nihayetinde kelimelere eşlemek için Yinelemeli Sinir Ağları (RNN) veya son derece verimli Transformer modeli gibi mimarileri kullanır. OpenAI Whisper gibi yenilikler, devasa ve çeşitli veri kümeleri üzerinde eğitimin, transkripsiyon doğruluğunu değerlendirmek için temel bir metrik olan Kelime Hata Oranını (WER) nasıl önemli ölçüde düşürebileceğini göstermiştir.

Link to this sectionGerçek Dünya Uygulamaları#

Konuşmadan Metne teknolojisi, eller serbest çalışma ve hızlı veri girişi sağlayarak çeşitli endüstrilerde verimliliği artıran yaygın bir hale gelmiştir.

  • Klinik Dokümantasyon: Tıp sektöründe doktorlar, hasta notlarını doğrudan Elektronik Sağlık Kayıtlarına (EHR) dikte etmek için Nuance Dragon Medical gibi özel araçlar kullanır. Sağlıkta Yapay Zeka entegrasyonu, idari yükü önemli ölçüde azaltarak doktorların hasta bakımına daha fazla odaklanmasını sağlar.
  • Otomotiv Arayüzleri: Modern araçlar, sürücülerin navigasyon ve eğlence sistemlerini sesli komutlarla kontrol etmelerini sağlamak için STT kullanır. Otomotivde Yapay Zeka uygulamalarını güçlendiren çözümler, görsel dikkat dağınıklığını en aza indirerek güvenliği ön planda tutar ve sürücülerin araçlarının dijital sistemleriyle etkileşime girerken gözlerini yoldan ayırmamalarına olanak tanır.
  • Müşteri Hizmetleri Analitiği: İşletmeler, günlük binlerce müşteri destek çağrısını yazıya dökmek için Google Cloud Speech-to-Text gibi hizmetleri kullanır. Bu transkriptler daha sonra duygu durum analizi yapmak ve hizmet kalitesini artırmak için incelenir.

Link to this sectionİlgili Kavramları Ayırt Etme#

Yapay zeka ortamını tam olarak kavramak için, Konuşmadan Metne teknolojisini diğer dil işleme terimlerinden ayırmak faydalıdır:

  • Metinden Sese (TTS): Bu, tersi işlemdir. STT ses girdisi alıp metin üretirken, TTS metin girdisinden yapay insan konuşması sentezler.
  • Doğal Dil Anlama (NLU): STT tamamen bir transkripsiyon aracıdır; ne söylendiğini yakalar ancak ne anlama geldiğini yakalamaz. NLU, kullanıcının niyetini ve anlamsal anlamını belirlemek için yazıya dökülen metni analiz eden sonraki aşama sürecidir.
  • Konuşma Tanıma: Genellikle birbirinin yerine kullanılsa da, konuşma tanıma, konuşmacı tanımlamayı (kimin konuştuğunu belirleme) da içerebilen daha geniş bir şemsiye terimdir; STT ise özellikle dilsel içeriğe odaklanır.

Link to this sectionVision AI ile Çok Modlu Entegrasyon#

The future of intelligent agents lies in Multi-modal Learning, where systems process visual and auditory data simultaneously. For instance, a service robot might use YOLO26—the latest state-of-the-art model from Ultralytics—for real-time Object Detection to locate a user, while simultaneously using STT to listen for a command like "Bring me that bottle."

Bu yakınsama, hem görebilen hem de duyabilen kapsamlı yapay zeka temsilcilerinin oluşturulmasına olanak tanır. Ultralytics Platform, çok modlu uygulamalar için görsel temel oluşturabilecek modellerin açıklanmasını, eğitilmesini ve dağıtılmasını destekleyerek bu karmaşık iş akışlarının yönetimini kolaylaştırır.

Link to this sectionPython Uygulama Örneği#

The following example demonstrates a basic implementation using the SpeechRecognition library, a popular Python tool that interfaces with various ASR engines (like CMU Sphinx) to transcribe audio files.

import speech_recognition as sr

# Initialize the recognizer class
recognizer = sr.Recognizer()

# Load an audio file (supports WAV, FLAC, etc.)
# In a real workflow, this audio might be triggered by a YOLO26 detection event
with sr.AudioFile("user_command.wav") as source:
    audio_data = recognizer.record(source)  # Read the entire audio file

try:
    # Transcribe audio using the Google Web Speech API
    text = recognizer.recognize_google(audio_data)
    print(f"Transcribed Text: {text}")
except sr.UnknownValueError:
    print("System could not understand the audio.")

Explore solutions

Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.

Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.

Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.

Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.

Daha fazla bilgi edin
Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.

Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.

Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.

Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.

Daha fazla bilgi edin
Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.

Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.

Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.

Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.

Daha fazla bilgi edin

Yapay zekanın geleceğini birlikte inşa edelim!

Yolculuğuna makine öğreniminin geleceğiyle başla