Yolo Vision Shenzhen
Shenzhen
Şimdi katılın

Bilgisayarlı görü görevleri için Google Gemini 2.5 ile uygulamalı deneyim kazanın

Abirami Vina

5 dakikalık okuma

31 Mart 2025

Nesne tespiti, görüntü açıklaması ve Vision AI çözümleri için OCR gibi bilgisayarlı görü görevleri için Google Gemini 2.5'i nasıl uygulamalı olarak kullanabileceğinizi görün.

Yapay zeka alanındaki gelişmeler hızla ilerliyor ve neredeyse her gün yeni yenilikler manşetlere çıkıyor. Bu türden son atılımlardan biri, Google DeepMind'ın 26 Mart'ta piyasaya sürdüğü en yeni çok modlu modeli Gemini 2.5. Geleneksel Büyük Dil Modelleri (LLM'ler) insan benzeri metinler oluşturmak için büyük miktarda veriden öğrenebilirken, Gemini 2.5 bunun ötesine geçiyor. 

Görüntüleri, sesleri ve videoları işleyebilen bir “düşünme modeli” olarak tasarlanmıştır. Gelişmiş akıl yürütme ve kodlama becerilerine sahiptir. İlginç bir şekilde, makinelerin nesne algılama, görüntü açıklamalandırması ve optik karakter tanıma (OCR) gibi görsel verileri yorumladığı ve analiz ettiği bilgisayarlı görü görevleri konusunda da olağanüstü bir performans sergiliyor.

__wf_reserved_inherit
Şekil 1. Bir görüntünün içeriğini anlamak için Gemini 2.5'in kullanımına bir örnek.

Bu makalede, Ultralytics'in Gemini 2.5'in bilgisayarlı görü yeteneklerini uygulamalı olarak deneyimlemenize yardımcı olabilecek not defterlerinden birini inceleyeceğiz. Ayrıca Gemini 2.5'in temel özelliklerine daha yakından bakacak ve gerçek dünya uygulamaları için bilgisayarlı görü çözümleri oluşturmak için nasıl kullanılabileceğini göstereceğiz. Hadi başlayalım!

Gemini 2.5'e Genel Bakış: özellikler ve yetenekler

Yeni yayınlanan Gemini 2.5 model serisindeki ilk sürüm, Gemini 2.5 Pro'nun deneysel bir sürümüdür. Bir cevap vermeden önce yanıtlarını düşünerek karmaşık sorunlarla başa çıkmak için tasarlanmıştır. Pekiştirmeli öğrenme (modelin geri bildirimden öğrendiği) ve zincirleme düşünme (sorunları çözmek için adım adım bir yaklaşım) gibi yöntemler kullanır.

Temel özelliklerinden biri, 1 milyon token (kabaca bir milyon kelime veya kelime parçası) tutabilen ve 2 milyona çıkması beklenen devasa bağlam penceresidir. Bu, modelin aynı anda çok fazla bilgi alabileceği ve daha ayrıntılı ve doğru sonuçlara yol açabileceği anlamına gelir.

Gemini 2.5, dil işlemeye ek olarak aşağıdaki bilgisayarla görü görevleri için de kullanılabilir:

  • Nesne algılama: Bir görüntüdeki nesneleri tanımlama ve konumlandırma işlemidir. Gözetim veya sürücüsüz arabalar gibi uygulamalarda kullanılabilir.
  • Görüntü alt yazılandırması: Bu görev, bir görüntü için açıklayıcı bir metin oluşturmayı içerir. Görsel içeriği daha erişilebilir ve anlaşılması daha kolay hale getirir.
  • Optik karakter tanıma: Bu teknoloji, görüntülerde bulunan metni düzenlenebilir, makine tarafından okunabilir metne dönüştürür. Belgeleri dijitalleştirmek ve veri girişini otomatikleştirmek için kullanışlıdır.

Google Gemini 2.5'in diğer modellerle karşılaştırılması ve kıyaslanması

Günümüzde AI alanında mevcut olan çeşitli çok modlu modeller vardır, bu nedenle Gemini 2.5 Pro'nun onlarla nasıl karşılaştırıldığını anlamak önemlidir. Google'ın DeepMind'ı tarafından paylaşılan kıyaslama sonuçlarına göre, Gemini 2.5 Pro bir dizi görevde etkileyici performans gösteriyor. 

Örneğin, birçok konuyu kapsayan ve ileri düzeyde akıl yürütme ile genel bilgiyi test eden zorlu bir sınavı simüle eden Humanity’s Last Exam adlı bir testte, Gemini 2.5 Pro yaklaşık %18,8 puan alarak OpenAI’ın o3-mini gibi %14 civarında puan alan modelleri geride bırakıyor. 

__wf_reserved_inherit
Şekil 2. Gemini 2.5 Pro'nun kıyaslama performansına genel bir bakış.

Ayrıca, matematik ve kodlama zorluklarında çok iyi performans gösterir ve genellikle OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta ve DeepSeek R1 gibi modellerin performansıyla eşleşir veya aşar ve karmaşık görevlerin üstesinden gelme ve büyük miktarda veriyi işleme yeteneğini gösterir.

Gemini 2.5 ile uygulamalı deneyim: Google Gemini API'si nasıl kullanılır

Gemini 2.5 Pro, birden fazla platformda mevcuttur. Google AI Studio'da deneyebilirsiniz ve Gemini Advanced kullanıcıları için Gemini uygulaması aracılığıyla erişebilirsiniz. Lansman duyurusunda Google DeepMind, modelin yakında Vertex AI'da da destekleneceğini belirtti. Bu erişim noktaları, geliştiricilerin Gemini 2.5 Pro'yu gerçek dünya yapay zeka uygulamaları için kullanmasını kolaylaştırır. 

Ancak, Google Gemini API'sini kullanmak ve karmaşık kurulum olmadan birkaç dakika içinde başlamak ve bilgisayarlı görü yeteneklerini daha iyi anlamak istiyorsanız, Gemini 2.5 Pro'yu kullanarak nesne tespiti ve görüntü açıklaması gibi görevleri sergileyen Ultralytics not defterine göz atabilirsiniz. Not defterinde neler bekleyebileceğinizi ayrıntılı olarak inceleyelim.

Google Gemini 2.5 not defteri ile çıkarım kurma

Ultralytics not defterini kullanmaya ve Google Gemini 2.5'i kullanmaya başlamak için, öncelikle Google AI Studio aracılığıyla bir API anahtarı oluşturmanız gerekir. Bu anahtar, modeli kullanabilmeniz için Gemini API'sine erişmenizi sağlar.

API anahtarınızı aldıktan sonra, ortamınızda gerekli kitaplıkların yüklü olduğundan emin olun - bunlar Ultralytics ve Google'ın AI araç setinden paketler içerir. Bu adım not defterinde açıkça belirtilmiştir, böylece çalışma alanınızı ayarlamak için talimatları kolayca takip edebilirsiniz.

Her şey yapılandırıldığında, API anahtarınızı (aşağıda gösterildiği gibi) girerek Gemini API'sine bağlanabilirsiniz; bu, çalışma alanınız ile model arasında bir bağlantı oluşturur. Bundan sonra, Gemini 2.5'e resim ve metin istemleri göndermeye hazır olacaksınız.

Esasen, modele bir resim ve basit bir talimat (örneğin, "bu resimdeki nesneleri tespit et" veya "gördüklerini tanımla") sağlayabilirsiniz ve model ihtiyacınız olan sonuçları döndürür. Bu basit süreç, Gemini 2.5'in bilgisayar görüşü yeteneklerini keşfetmeye başlamayı kolaylaştırır.

Google Gemini 2.5 ile nesne algılama

Not defterindeki temel örneklerden biri, Gemini 2.5 Pro kullanılarak nesne tespitidir. Bu örnekte, modele bir görüntü ve nesneleri tespit etmek için basit bir istem sağlarsınız. 

Model, görüntüyü işler ve bulduğu her nesne için bir dizi koordinat ve etiket döndürür; bu koordinatlar normalleştirilmiş biçimde verilir. Daha sonra, Ultralytics Python paketinden alınan fonksiyonlar, bu normalleştirilmiş değerleri görüntünün gerçek boyutlarıyla eşleşecek şekilde dönüştürmek ve aşağıda gösterildiği gibi her nesnenin etrafına net sınırlayıcı kutular çizmek için kullanılır.

__wf_reserved_inherit
Şekil 3. Nesne tespiti için Google Gemini 2.5'in kullanılması.

Gemini 2.5 kullanarak görüntü açıklaması

Not defterindeki bir diğer ilginç örnek ise Gemini 2.5 Pro kullanılarak yapılan görüntü açıklamasıdır. Bu örnekte, modele bir görüntü ve görüntünün içeriğini açıklayan ayrıntılı bir açıklama oluşturmasını isteyen bir istem sağlarsınız. 

Model daha sonra görsel içeriği analiz eder ve genellikle görüntünün içeriğini ve bağlamını yakalayan birden çok cümle olarak biçimlendirilmiş bir anlatı döndürür. Bu özellik, erişilebilirliği iyileştirmek, görsel bilgileri özetlemek ve hatta yaratıcı hikaye anlatımını geliştirmek için kullanışlıdır.

Google Gemini modelleriyle OCR doğruluğunu artırma

Gemini 2.5 Pro'nun resimlerdeki metinleri okuma yeteneğini kullanan bir bilgisayarlı görü görevi OCR'dir. Not defterinde, modele metin içeren bir resim ve bu metni çıkarmak için bir istem sağlayabilirsiniz. Model, görüntüyü işler ve hem algılanan metni hem de metnin bulunduğu koordinatları aşağıda gösterildiği gibi döndürür.

Ultralytics Python paketindeki fonksiyonlar daha sonra bu normalize edilmiş koordinatları görüntünün gerçek boyutlarına dönüştürmek ve metin bölgelerinin etrafına sınırlayıcı kutular çizmek için kullanılır. Bu açıklama eklenmiş çıktı, metnin nerede bulunduğunu açıkça gösterir; bu da belgeleri dijitalleştirmek, veri girişini otomatikleştirmek ve erişilebilirliği iyileştirmek için kullanışlıdır.

__wf_reserved_inherit
Şekil 4. Google Gemini 2.5 kullanarak bir görüntüdeki metinsel verileri çıkarma.

Google Gemini 2.5'in gerçek dünya uygulamaları

Google Gemini 2.5 Pro'nun çeşitli bilgisayarlı görü görevleri için nasıl kullanılabileceğini incelediğimize göre, bu yeteneklerin kullanılabileceği bazı gerçek dünya uygulamalarını keşfedelim.

Örneğin, Gemini 2.5 Pro'nun nesne algılama yeteneği, büyük görüntü kümelerini otomatik olarak etiketlemeye ve düzenlemeye yardımcı olarak veri kümesi oluşturma veya içerik yönetimi gibi görevleri çok daha hızlı hale getirebilir. Ayrıca, perakende ve tarım gibi alanlarda görüntüleri analiz etmek için de kullanılabilir - örneğin, raflardaki ürünleri tespit etmek veya çiftlik fotoğraflarında ürün stres belirtilerini belirlemek.

__wf_reserved_inherit
Şekil 5. Gemini 2.5 Pro bir bitkinin sağlığını analiz ediyor.

Bu arada, modelin görüntü açıklama özelliği, görme engelli kullanıcıların bir görüntüde ne olduğunu anlamalarına yardımcı olabilir. Örneğin, kalabalık bir caddenin fotoğrafını çekerseniz, model sahneyi ayrıntılı olarak açıklayan, araç türlerinden, yayaların etkinliğinden ve hatta aydınlatma ipuçlarına göre günün saatinden bahseden bir açıklama üretebilir. 

Buna ek olarak, Gemini 2.5'in OCR işlevi çeşitli uygulamalarda kullanılabilir. Örneğin, sayfaları veya makbuzları tarayarak basılı belgeleri dijitalleştirebilirsiniz. Bu özellik, veri girişi görevlerini otomatikleştirmek, formları işlemek veya hatta kartvizitlerden ve tabelalardan metin okumak için idealdir. 

Genel olarak, Google Gemini 2.5 Pro, çok çeşitli pratik yapay zeka uygulamalarının kapılarını açıyor.

Önemli çıkarımlar

Metin oluşturma ve analiz etmenin ötesine geçen Google Gemini 2.5 Pro, nesne tespiti, görüntü açıklamalandırması ve OCR gibi bilgisayar görüşü görevleri için kullanılabilir. Geniş bağlam penceresi ve gelişmiş akıl yürütme yetenekleri sayesinde, gerçek dünya senaryolarında iyi çalışan ayrıntılı, bağlama duyarlı sonuçlar üretir. 

Yapay zeka modelleri gelişmeye devam ettikçe, Gemini 2.5 Pro gibi araçlar çeşitli sektörlerdeki karmaşık sorunları çözmeyi kolaylaştırıyor. Daha fazla kuruluş, görsel anlamadan dil işlemeye kadar geniş bir yelpazedeki görevlerin üstesinden gelebilen esnek, çok modlu çözümler aradıkça, yapay zekanın daha da yaygın bir şekilde benimsendiğini görmemiz olasıdır.

Topluluğumuzun bir parçası olun ve GitHub depomuzda en son yapay zeka projeleri hakkında bilgi edinin. Çözüm sayfalarımızda tarımda Görüntü AI'sının ve üretimde AI'nın rolünü görün. Lisans planlarımızı keşfedin ve bugün bilgisayarlı görü çözümleri oluşturun!

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın
Bağlantı panoya kopyalandı