Bilgisayarlı görü görevleri için Google Gemini 2.5 ile uygulamalı çalışmaya başla
Nesne tespiti, görsel altyazı oluşturma ve Görüntüleme Yapay Zekası çözümleri için OCR gibi bilgisayarlı görü görevlerinde Google Gemini 2.5 ile nasıl uygulamalı çalışabileceğini gör.

Yapay zeka alanındaki gelişmeler hızla ilerliyor ve neredeyse her gün yeni inovasyonlar manşetlere taşınıyor. Bu yakın tarihli buluşlardan biri de Google DeepMind tarafından 26 Mart'ta piyasaya sürülen en yeni çok modlu model olan Gemini 2.5. Geleneksel Büyük Dil Modelleri (LLM), insan benzeri metinler üretmek için devasa miktarda veriden öğrenebilirken, Gemini 2.5 bunun çok daha ötesine geçiyor.
Görüntü, ses ve video işleyebilen bir "düşünen model" olarak tasarlandı. Gelişmiş muhakeme ve kodlama becerilerine sahip. İlginç bir şekilde, makinelerin görsel verileri yorumlayıp analiz ettiği nesne tespiti, görüntü altyazılama ve optik karakter tanıma (OCR) gibi bilgisayarlı görü görevlerinde de son derece iyi performans gösteriyor.

Şekil 1. Bir görüntünün içeriğini anlamak için Gemini 2.5 kullanımına bir örnek.
Bu makalede, Gemini 2.5'in bilgisayarlı görü yeteneklerini uygulamalı olarak deneyimlemenize yardımcı olacak Ultralytics not defterlerinden birini inceleyeceğiz. Ayrıca Gemini 2.5'in temel özelliklerine daha yakından bakacak ve gerçek dünya uygulamaları için nasıl bilgisayarlı görü çözümleri oluşturmak amacıyla kullanılabileceğini göstereceğiz. Haydi başlayalım!
Link to this sectionGemini 2.5'e genel bakış: özellikler ve yetenekler#
Gemini 2.5 model serisinde piyasaya sürülen ilk sürüm, Gemini 2.5 Pro'nun deneysel bir sürümüdür. Cevap vermeden önce yanıtları üzerinde düşünerek karmaşık sorunları çözmek üzere tasarlanmıştır. Pekiştirmeli öğrenme (modelin geri bildirimden öğrendiği yer) ve düşünce zinciri istemi (sorunları çözmeye yönelik adım adım bir yaklaşım) gibi yöntemler kullanır.
Temel özelliklerinden biri, 1 milyon token (kabaca bir milyon kelime veya kelime parçası) tutabilen ve 2 milyona çıkması beklenen devasa bağlam penceresidir. Bu, modelin aynı anda çok fazla bilgiyi alabileceği ve daha ayrıntılı ve doğru sonuçlar verebileceği anlamına gelir.
Dili işlemenin yanı sıra, Gemini 2.5 aşağıdaki bilgisayarlı görü görevleri için kullanılabilir:
-
Nesne tespiti: Bir görüntü içindeki nesneleri tanımlama ve konumlandırma sürecidir. Gözetim veya kendi kendine giden araçlar gibi uygulamalarda kullanılabilir.
-
Görüntü altyazılama: Bu görev, bir görüntü için açıklayıcı bir metin oluşturmayı içerir. Görsel içeriği daha erişilebilir ve anlaşılması kolay hale getirir.
-
Optik karakter tanıma: Bu teknoloji, görüntülerde bulunan metni düzenlenebilir, makine tarafından okunabilir metne dönüştürür. Belgeleri dijitalleştirmek ve veri girişini otomatikleştirmek için kullanışlıdır.
Link to this sectionGoogle Gemini 2.5'i diğer modellerle kıyaslama ve karşılaştırma#
Günümüzde yapay zeka alanında mevcut olan birkaç çok modlu model olduğundan, Gemini 2.5 Pro'nun bunlarla nasıl kıyaslandığını anlamak önemlidir. Google'ın DeepMind'ı tarafından paylaşılan kıyaslama sonuçlarına göre, Gemini 2.5 Pro bir dizi görevde etkileyici bir performans sergiliyor.
Örneğin, birçok konuyu kapsayan zorlu bir sınavı simüle eden ve ileri düzey muhakeme ve genel bilgiyi test eden İnsanlığın Son Sınavı adlı bir testte, Gemini 2.5 Pro yaklaşık %18,8 puan alarak, %14 civarında puan alan OpenAI'ın o3-mini gibi modellerden daha iyi performans gösteriyor.

Şekil 2. Gemini 2.5 Pro’nun kıyaslama performansına genel bakış.
Ayrıca matematik ve kodlama zorluklarında da çok iyi performans göstererek genellikle OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta ve DeepSeek R1 gibi modellerin performansını yakalıyor veya aşıyor; bu da karmaşık görevleri ele alma ve büyük miktarda veriyi işleme yeteneğini kanıtlıyor.
Link to this sectionGemini 2.5 ile uygulamalı çalışma: Google Gemini API nasıl kullanılır?#
Gemini 2.5 Pro birden fazla platformda mevcuttur. Google AI Studio'da deneyebilir ve Gemini Advanced kullanıcıları için Gemini uygulaması üzerinden erişebilirsiniz. Google DeepMind lansman duyurusunda, modelin yakında Vertex AI'da destekleneceğinden de bahsetti. Bu erişim noktaları, geliştiricilerin Gemini 2.5 Pro'yu gerçek dünya yapay zeka uygulamaları için kullanmasını kolaylaştırıyor.
Ancak, Google Gemini API'sini kullanmak, karmaşık kurulumlar olmadan birkaç dakika içinde başlamak ve bilgisayarlı görü yeteneklerini daha iyi anlamak istiyorsan, Gemini 2.5 Pro kullanarak nesne tespiti ve görüntü altyazılama gibi görevleri sergileyen Ultralytics not defterine göz atabilirsin. Not defterinde nelerin beklenebileceğini ayrıntılı olarak inceleyelim.
Link to this sectionGoogle Gemini 2.5 not defteri ile çıkarım kurulumu#
Ultralytics not defteri ile başlamak ve Google Gemini 2.5 kullanmak için, önce Google AI Studio aracılığıyla bir API anahtarı oluşturman gerekir. Bu anahtar, modeli kullanabilmen için sana Gemini API erişimi sağlar.
API anahtarını aldıktan sonra, ortamında gerekli kütüphanelerin yüklü olduğundan emin ol; bunlar Ultralytics paketlerini ve Google'ın AI araç setini içerir. Bu adım not defterinde açıkça belirtilmiştir, böylece çalışma alanını kurmak için talimatları kolayca takip edebilirsin.
Her şey yapılandırıldığında, API anahtarını (aşağıda gösterildiği gibi) girerek Gemini API'sine bağlanabilirsin, bu da çalışma alanın ile model arasında bir bağlantı kurar. Bundan sonra, Gemini 2.5'e görüntü ve metin istemleri göndermeye hazır olacaksın.
Esasen, bir görüntü ve basit bir talimat (örneğin "bu görüntüdeki nesneleri tespit et" veya "ne gördüğünü tarif et") sağlayabilirsin ve model ihtiyacın olan sonuçları döndürür. Bu basit süreç, Gemini 2.5'in bilgisayarlı görü yeteneklerini keşfetmeye başlamayı kolaylaştırır.
Link to this sectionGoogle Gemini 2.5 ile nesne tespiti#
Not defterindeki temel örneklerden biri, Gemini 2.5 Pro kullanarak nesne tespitidir. Bu örnekte, modele bir görüntü ve nesneleri tespit etmesi için basit bir istem sağlarsın.
Model görüntüyü işler ve bulduğu her nesne için bir dizi koordinat ve etiket döndürür; bu koordinatlar normalize edilmiş biçimde verilir. Ardından, bu normalize edilmiş değerleri görüntünün gerçek boyutlarıyla eşleşecek şekilde dönüştürmek ve her nesnenin etrafına net sınırlayıcı kutular çizmek için Ultralytics Python paketi işlevleri kullanılır (aşağıda gösterildiği gibi).

Şekil 3. Nesne tespiti için Google Gemini 2.5 kullanılıyor.
Link to this sectionGemini 2.5 kullanarak görüntü altyazılama#
Not defterindeki bir diğer ilginç örnek, Gemini 2.5 Pro kullanarak görüntü altyazılamadır. Bu örnekte, modele bir görüntü ve görüntüde ne olduğunu tanımlayan ayrıntılı bir altyazı oluşturmasını isteyen bir istem sağlarsın.
Model daha sonra görsel içeriği analiz eder ve genellikle birden fazla cümle şeklinde biçimlendirilmiş, görüntünün hem içeriğini hem de bağlamını yakalayan bir anlatı döndürür. Bu özellik, erişilebilirliği artırmak, görsel bilgileri özetlemek ve hatta yaratıcı hikaye anlatımını geliştirmek için kullanışlıdır.
Link to this sectionGoogle Gemini modelleri ile OCR doğruluğunu artırma#
Gemini 2.5 Pro'nun görüntülerdeki metni okuma yeteneğini kullanan bir bilgisayarlı görü görevi OCR'dir. Not defterinde, modele metin içeren bir görüntü ve bu metni çıkarması için bir istem sağlayabilirsin. Model görüntüyü işler ve aşağıda gösterildiği gibi hem tespit edilen metni hem de metnin bulunduğu koordinatları döndürür.
Daha sonra, bu normalize edilmiş koordinatları görüntünün gerçek boyutlarına dönüştürmek ve metin bölgelerinin etrafına sınırlayıcı kutular çizmek için Ultralytics Python paketi işlevleri kullanılır. Bu açıklamalı çıktı, metnin nerede olduğunu netleştirir; bu da belgeleri dijitalleştirmek, veri girişini otomatikleştirmek ve erişilebilirliği artırmak için kullanışlıdır.

Şekil 4. Google Gemini 2.5 kullanarak bir görüntüdeki metinsel verileri çıkarma.
Link to this sectionGoogle Gemini 2.5'in gerçek dünya uygulamaları#
Google Gemini 2.5 Pro'nun çeşitli bilgisayarlı görü görevleri için nasıl kullanılabileceğini incelediğimize göre, bu yeteneklerin kullanılabileceği bazı gerçek dünya uygulamalarını keşfedelim.
Gemini 2.5 Pro'nun nesne tespiti yeteneği, örneğin büyük görüntü setlerini otomatik olarak etiketlemeye ve düzenlemeye yardımcı olabilir, bu da veri kümesi oluşturma veya içerik yönetimi gibi görevleri çok daha hızlı hale getirir. Ayrıca perakende ve tarım gibi alanlarda görüntüleri analiz etmek için de kullanılabilir - örneğin raflardaki ürünleri tespit etmek veya çiftlik fotoğraflarındaki mahsul stresi belirtilerini tanımlamak gibi.

Şekil 5. Gemini 2.5 Pro bir bitkinin sağlığını analiz ediyor.
Bu arada, modelin görüntü altyazılama özelliği, görme engelli kullanıcıların bir görüntüde ne olduğunu anlamalarına yardımcı olabilir. Örneğin, kalabalık bir caddenin fotoğrafına sahipsen, model sahneyi ayrıntılı olarak tanımlayan, araç türlerinden, yayaların hareketlerinden ve hatta ışık ipuçlarına dayalı olarak günün saatinden bahseden bir altyazı üretebilir.
Buna ek olarak, Gemini 2.5'in OCR işlevselliği çeşitli uygulamalarda kullanılabilir. Örneğin, sayfaları veya makbuzları tarayarak basılı belgeleri dijitalleştirebilirsin. Bu yetenek, veri girişi görevlerini otomatikleştirmek, formları işlemek ve hatta kartvizitlerden ve tabelalardan metin okumak için idealdir.
Genel olarak, Google Gemini 2.5 Pro çok çeşitli pratik yapay zeka uygulamalarının kapılarını aralıyor.
Link to this sectionÖne çıkanlar#
Metin üretmenin ve analiz etmenin ötesine geçen Google Gemini 2.5 Pro, nesne tespiti, görüntü altyazılama ve OCR gibi bilgisayarlı görü görevleri için kullanılabilir. Devasa bağlam penceresi ve gelişmiş muhakeme yetenekleri ile gerçek dünya senaryolarında iyi çalışan ayrıntılı, bağlama duyarlı sonuçlar üretir.
Yapay zeka modelleri gelişmeye devam ettikçe, Gemini 2.5 Pro gibi araçlar endüstriler genelinde karmaşık sorunları çözmeyi kolaylaştırıyor. Daha fazla organizasyon görsel anlayıştan dil işlemeye kadar çok çeşitli görevleri yerine getirebilen esnek, çok modlu çözümler aradıkça, yapay zekanın daha geniş bir şekilde benimsendiğini görmemiz muhtemeldir.
Topluluğumuzun bir parçası ol ve GitHub depomuzdaki en son teknoloji yapay zeka projeleri hakkında bilgi edin. Çözüm sayfalarımızda tarımda Vision AI uygulamalarını ve üretimde yapay zekanın rolünü gör. Lisanslama planlarımızı incele ve bugün bilgisayarlı görü çözümleri oluştur!






