Bilgisayarla Görme | Ultralytics için Uygulamalı Gemini 2.5

Yapay zeka alanındaki gelişmeler hızla ilerliyor ve neredeyse her gün yeni bir yenilik manşetlere taşınıyor. Google DeepMind'ın 26 Mart'ta lansmanını yaptığı en son multimodal modeli Gemini 2.5 de bu atılımlardan biri. Geleneksel Büyük Dil Modelleri (LLM'ler) insan benzeri metinler oluşturmak için büyük miktarda veriden öğrenebilirken, Gemini 2.5 bunun ötesine geçiyor.

Görüntüleri, sesleri ve videoları işleyebilen bir “düşünme modeli” olarak tasarlanmıştır. Gelişmiş akıl yürütme ve kodlama becerilerine sahiptir. İlginç bir şekilde, makinelerin nesne algılama, görüntü açıklamalandırması ve optik karakter tanıma (OCR) gibi görsel verileri yorumladığı ve analiz ettiği bilgisayarlı görü görevleri konusunda da olağanüstü bir performans sergiliyor.

__wf_reserved_inherit — Şekil 1. Bir görüntünün içeriğini anlamak için Gemini 2.5'in kullanımına bir örnek.

‍

Bu makalede, Gemini 2.5'in bilgisayarla görme yetenekleriyle pratik yapmanıza yardımcı olabilecek Ultralytics'in not defterlerinden birini inceleyeceğiz. Ayrıca Gemini 2.5'in temel özelliklerine daha yakından bakacağız ve gerçek dünya uygulamaları için bilgisayarla görme çözümleri oluşturmak için nasıl kullanılabileceğini göstereceğiz. Haydi başlayalım!

Gemini 2.5'e Genel Bakış: özellikler ve yetenekler

Yeni yayınlanan Gemini 2.5 model serisindeki ilk sürüm, Gemini 2.5 Pro'nun deneysel bir sürümüdür. Bir cevap vermeden önce yanıtlarını düşünerek karmaşık sorunlarla başa çıkmak için tasarlanmıştır. Pekiştirmeli öğrenme (modelin geri bildirimden öğrendiği) ve zincirleme düşünme (sorunları çözmek için adım adım bir yaklaşım) gibi yöntemler kullanır.

Temel özelliklerinden biri, 1 milyon token (kabaca bir milyon kelime veya kelime parçası) tutabilen ve 2 milyona çıkması beklenen devasa bağlam penceresidir. Bu, modelin aynı anda çok fazla bilgi alabileceği ve daha ayrıntılı ve doğru sonuçlara yol açabileceği anlamına gelir.

Gemini 2.5, dil işlemeye ek olarak aşağıdaki bilgisayarla görü görevleri için de kullanılabilir:

Nesne algılama: Bir görüntüdeki nesneleri tanımlama ve konumlandırma işlemidir. Gözetim veya sürücüsüz arabalar gibi uygulamalarda kullanılabilir.
‍
Görüntü alt yazılandırması: Bu görev, bir görüntü için açıklayıcı bir metin oluşturmayı içerir. Görsel içeriği daha erişilebilir ve anlaşılması daha kolay hale getirir.

Optik karakter tanıma: Bu teknoloji, görüntülerde bulunan metni düzenlenebilir, makine tarafından okunabilir metne dönüştürür. Belgeleri dijitalleştirmek ve veri girişini otomatikleştirmek için kullanışlıdır.

Google Gemini 2.5'in diğer modellerle karşılaştırılması ve kıyaslanması

Günümüzde yapay zeka alanında birçok multimodal model mevcut, bu nedenle Gemini 2.5 Pro'nun bunlarla nasıl karşılaştırıldığını anlamak önemlidir. Google DeepMind tarafından paylaşılan kıyaslama sonuçlarına göre Gemini 2.5 Pro, çeşitli görevlerde etkileyici bir performans sergiliyor.

Örneğin, birçok konuyu kapsayan ve ileri düzeyde akıl yürütme ile genel bilgiyi test eden zorlu bir sınavı simüle eden Humanity’s Last Exam adlı bir testte, Gemini 2.5 Pro yaklaşık %18,8 puan alarak OpenAI’ın o3-mini gibi %14 civarında puan alan modelleri geride bırakıyor.

‍

Ayrıca, matematik ve kodlama zorluklarında çok iyi performans gösterir ve genellikle OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta ve DeepSeek R1 gibi modellerin performansıyla eşleşir veya aşar ve karmaşık görevlerin üstesinden gelme ve büyük miktarda veriyi işleme yeteneğini gösterir.

Gemini 2.5 ile pratik yapma: Google Gemini API nasıl kullanılır?

Gemini 2.5 Pro birden fazla platformda kullanılabilir. Google AI Studio'da deneyebilir ve Gemini Advanced kullanıcıları için Gemini uygulaması aracılığıyla erişebilirsiniz. Google DeepMind, lansman duyurusunda modelin yakında Vertex AI'da destekleneceğini de belirtti. Bu erişim noktaları, geliştiricilerin Gemini 2.5 Pro'yu gerçek dünya yapay zeka uygulamaları için kullanmalarını kolaylaştırıyor.

Bununla birlikte, Google Gemini API'sini kullanmak ve karmaşık kurulum olmadan sadece birkaç dakika içinde başlamak istiyorsanız ve bilgisayarla görme yeteneklerini daha iyi anlamak istiyorsanız, Gemini 2.5 Pro kullanarak nesne algılama ve görüntü altyazısı oluşturma gibi görevleri sergileyen Ultralytics not defterine göz atabilirsiniz. Not defterinde nelerle karşılaşabileceğinizi ayrıntılı olarak inceleyelim.

Google Gemini 2.5 dizüstü bilgisayar ile çıkarım kurma

Ultralytics not defterini kullanmaya başlamak ve Google Gemini 2.5'i kullanmak için öncelikle Google AI Studio aracılığıyla bir API anahtarı oluşturmanız gerekir. Bu anahtar, modeli kullanabilmeniz için Gemini API'sine erişmenizi sağlar.

API anahtarınızı aldıktan sonra, ortamınızda gerekli kütüphanelerin yüklü olduğundan emin olun - bunlar Ultralytics ve Google'ın yapay zeka araç seti. Bu adım not defterinde açıkça belirtilmiştir, böylece çalışma alanınızı kurmak için talimatları kolayca takip edebilirsiniz.

Her şey yapılandırıldığında, API anahtarınızı (aşağıda gösterildiği gibi) girerek Gemini API'sine bağlanabilirsiniz; bu, çalışma alanınız ile model arasında bir bağlantı oluşturur. Bundan sonra, Gemini 2.5'e resim ve metin istemleri göndermeye hazır olacaksınız.

‍

Esasen, modele bir görüntü ve basit bir talimat ("bu görüntüdeki nesneleridetect et" veya "ne gördüğünü tarif et" gibi) verebilirsiniz ve o da ihtiyacınız olan sonuçları döndürür. Bu basit süreç, Gemini 2.5'in bilgisayarla görme yeteneklerini keşfetmeye başlamayı kolaylaştırır.

Google Gemini 2.5 ile nesne algılama

Not defterindeki önemli örneklerden biri Gemini 2.5 Pro kullanarak nesne tespitidir. Bu örnekte, modele bir görüntü ve nesneleri detect etmesi için basit bir istem sağlıyorsunuz.

Model görüntüyü işler ve bulduğu her nesne için bir dizi koordinat ve etiket döndürür; bu koordinatlar normalleştirilmiş biçimde verilir. Ultralytics Python paketindeki işlevler daha sonra bu normalleştirilmiş değerleri görüntünün gerçek boyutlarıyla eşleşecek şekilde dönüştürmek ve aşağıda gösterildiği gibi her nesnenin etrafına net sınırlayıcı kutular çizmek için kullanılır.

‍

Gemini 2.5 kullanarak görüntü açıklaması

Not defterindeki bir diğer ilginç örnek ise Gemini 2.5 Pro kullanılarak yapılan görüntü açıklamasıdır. Bu örnekte, modele bir görüntü ve görüntünün içeriğini açıklayan ayrıntılı bir açıklama oluşturmasını isteyen bir istem sağlarsınız.

Model daha sonra görsel içeriği analiz eder ve genellikle görüntünün içeriğini ve bağlamını yakalayan birden çok cümle olarak biçimlendirilmiş bir anlatı döndürür. Bu özellik, erişilebilirliği iyileştirmek, görsel bilgileri özetlemek ve hatta yaratıcı hikaye anlatımını geliştirmek için kullanışlıdır.

Google Gemini modelleriyle OCR doğruluğunu artırma

Gemini 2.5 Pro'nun resimlerdeki metinleri okuma yeteneğini kullanan bir bilgisayarlı görü görevi OCR'dir. Not defterinde, modele metin içeren bir resim ve bu metni çıkarmak için bir istem sağlayabilirsiniz. Model, görüntüyü işler ve hem algılanan metni hem de metnin bulunduğu koordinatları aşağıda gösterildiği gibi döndürür.

‍

Ultralytics Python paketindeki işlevler daha sonra bu normalleştirilmiş koordinatları görüntünün gerçek boyutlarına dönüştürmek ve metin bölgelerinin etrafına sınırlayıcı kutular çizmek için kullanılır. Bu açıklamalı çıktı, belgelerin dijitalleştirilmesi, veri girişinin otomatikleştirilmesi ve erişilebilirliğin iyileştirilmesi için yararlı olan metnin nerede bulunduğunu netleştirir.

‍

Google Gemini 2.5'in gerçek dünya uygulamaları

Google Gemini 2.5 Pro'nun çeşitli bilgisayarla görme görevleri için nasıl kullanılabileceğinden bahsettiğimize göre, şimdi bu yeteneklerin kullanılabileceği bazı gerçek dünya uygulamalarını inceleyelim.

Örneğin, Gemini 2.5 Pro'nun nesne algılama yeteneği, büyük görüntü kümelerini otomatik olarak etiketlemeye ve düzenlemeye yardımcı olarak veri kümesi oluşturma veya içerik yönetimi gibi görevleri çok daha hızlı hale getirebilir. Ayrıca, perakende ve tarım gibi alanlarda görüntüleri analiz etmek için de kullanılabilir - örneğin, raflardaki ürünleri tespit etmek veya çiftlik fotoğraflarında ürün stres belirtilerini belirlemek.

‍

Bu arada, modelin görüntü açıklama özelliği, görme engelli kullanıcıların bir görüntüde ne olduğunu anlamalarına yardımcı olabilir. Örneğin, kalabalık bir caddenin fotoğrafını çekerseniz, model sahneyi ayrıntılı olarak açıklayan, araç türlerinden, yayaların etkinliğinden ve hatta aydınlatma ipuçlarına göre günün saatinden bahseden bir açıklama üretebilir.

Buna ek olarak, Gemini 2.5'in OCR işlevi çeşitli uygulamalarda kullanılabilir. Örneğin, sayfaları veya makbuzları tarayarak basılı belgeleri dijitalleştirebilirsiniz. Bu özellik, veri girişi görevlerini otomatikleştirmek, formları işlemek veya hatta kartvizitlerden ve tabelalardan metin okumak için idealdir.

Genel olarak, Google Gemini 2.5 Pro çok çeşitli pratik yapay zeka uygulamalarının kapılarını açıyor.

Önemli çıkarımlar

Metin oluşturma ve analiz etmenin ötesine geçen Google Gemini 2.5 Pro, nesne algılama, resim altyazısı ekleme ve OCR gibi bilgisayarla görme görevleri için kullanılabilir. Devasa bağlam penceresi ve gelişmiş muhakeme yetenekleriyle, gerçek dünya senaryolarında iyi çalışan ayrıntılı, bağlama duyarlı sonuçlar üretir.

Yapay zeka modelleri gelişmeye devam ettikçe, Gemini 2.5 Pro gibi araçlar çeşitli sektörlerdeki karmaşık sorunları çözmeyi kolaylaştırıyor. Daha fazla kuruluş, görsel anlamadan dil işlemeye kadar geniş bir yelpazedeki görevlerin üstesinden gelebilen esnek, çok modlu çözümler aradıkça, yapay zekanın daha da yaygın bir şekilde benimsendiğini görmemiz olasıdır.

Topluluğumuzun bir parçası olun ve GitHub depomuzda en son yapay zeka projeleri hakkında bilgi edinin. Çözüm sayfalarımızda tarımda Görüntü AI'sının ve üretimde AI'nın rolünü görün. Lisans planlarımızı keşfedin ve bugün bilgisayarlı görü çözümleri oluşturun!

Bilgisayarla görme görevleri için Google Gemini 2.5 ile uygulamalı olarak tanışın

Gemini 2.5'e Genel Bakış: özellikler ve yetenekler

Google Gemini 2.5'in diğer modellerle karşılaştırılması ve kıyaslanması

Gemini 2.5 ile pratik yapma: Google Gemini API nasıl kullanılır?

Google Gemini 2.5 dizüstü bilgisayar ile çıkarım kurma

Google Gemini 2.5 ile nesne algılama

Gemini 2.5 kullanarak görüntü açıklaması

Google Gemini modelleriyle OCR doğruluğunu artırma

Google Gemini 2.5'in gerçek dünya uygulamaları

Önemli çıkarımlar

Bu kategoride daha fazla okuyun

Bilgisayar görme teknolojisi ile desteklenen 12 hava görüntüsü kullanım örneği

Sağlık teşhisi için görme yapay zeka araçları

Verilerden kararlara: Kurumsal strateji için görsel yapay zeka kullanımı

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Bilgisayarla görme görevleri için Google Gemini 2.5 ile uygulamalı olarak tanışın

Gemini 2.5'e Genel Bakış: özellikler ve yetenekler

Google Gemini 2.5'in diğer modellerle karşılaştırılması ve kıyaslanması

Gemini 2.5 ile pratik yapma: Google Gemini API nasıl kullanılır?

Google Gemini 2.5 dizüstü bilgisayar ile çıkarım kurma

Google Gemini 2.5 ile nesne algılama

Gemini 2.5 kullanarak görüntü açıklaması

Google Gemini modelleriyle OCR doğruluğunu artırma

Google Gemini 2.5'in gerçek dünya uygulamaları

Önemli çıkarımlar

Bu kategoride daha fazla okuyun

Bilgisayar görme teknolojisi ile desteklenen 12 hava görüntüsü kullanım örneği

Sağlık teşhisi için görme yapay zeka araçları

Verilerden kararlara: Kurumsal strateji için görsel yapay zeka kullanımı

Gelin, yapay zekanın geleceğini birlikte inşa edelim!

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!