Veri göllerinin yapay zeka ve makine öğreniminin temelini nasıl oluşturduğunu keşfedin. Ultralytics eğitmek ve bilgisayar görme iş akışlarını kolaylaştırmak için ham verileri nasıl kullanabileceğinizi öğrenin.
Veri gölü, ihtiyaç duyulana kadar büyük miktarda ham veriyi kendi orijinal biçiminde tutan merkezi bir depolama havuzudur . Verilerin girilmeden önce yapılandırılmasını gerektiren geleneksel depolama sistemlerinden farklı olarak, veri gölü verileri "olduğu gibi" kabul eder; buna yapılandırılmış veriler (satırlar ve sütunlar), yarı yapılandırılmış veriler (CSV, günlükler, XML, JSON) ve yapılandırılmamış veriler (e-postalar, belgeler, PDF'ler) ile ikili veriler (görüntüler, ses, video) dahildir. Bu mimari esneklik veri göllerini, özellikle Yapay Zeka (AI) ve Büyük Veri stratejilerinin temel taşı haline getirir, özellikle de Yapay Zeka (AI) ve Makine Öğrenimi (ML) teknolojilerini kullanan kuruluşlar için. Veri toplamayı veri kullanımından ayırarak, kuruluşlar nispeten ucuz bir şekilde büyük bilgi havuzlarını depolayabilir ve spesifik analiz sorularını daha sonra çözebilirler.
AI geliştirme bağlamında, veri gölünün temel değeri, Derin Öğrenme (DL) iş akışlarını destekleme yeteneğinde yatmaktadır. Gelişmiş sinir ağları, yüksek doğruluk elde etmek için çeşitli ve hacimli eğitim verilerine ihtiyaç duyar. Veri gölü, bilgisayar görme (CV) için milyonlarca yüksek çözünürlüklü görüntü veya konuşma tanımaiçin binlerce saatlik ses gibi ham varlıkların işlenmeden önce bulunduğu bir hazırlık alanı görevi görür. .
Veri bilimcileri, veri göllerinde "okuma sırasında şema" metodolojilerini kullanır. Bu, yapının verilere yalnızca işlenmek üzere okunduğunda uygulandığı, depolama alanına yazıldığında değil anlamına gelir. Bu, muazzam bir çeviklik sağlar; aynı ham veri kümesi, orijinal kaynağı değiştirmeden farklı tahminsel modelleme görevleri için çeşitli şekillerde işlenebilir. Ayrıca, sağlam veri gölleri genellikle Amazon S3 veya Azure Blob Storage gibi bulut bilişim hizmetleriyle entegre olur ve YOLO26 gibi ağır modellerin eğitimi için gerekli olan ölçeklenebilir, paralel işlemeyi sağlar.
Sık sık karıştırılsa da, veri gölü veri ambarından farklıdır. Veri ambarı, verileri yapılandırılmış tablolarda depolar ve hızlı SQL sorguları ve iş zekası raporlaması için optimize edilmiştir. "Yazma sırasında şema" kullanır, yani veriler sisteme girmeden önce bir ETL (Çıkarma, Dönüştürme, Yükleme) süreciyle temizlenmeli ve dönüştürülmelidir.
Tersine, veri gölü depolama hacmi ve çeşitliliği için optimize edilmiştir. Henüz hedefi tanımlanmamış olabilecek denetimsiz öğrenme ve keşifsel analizi destekler. Örneğin, bir veri ambarı size geçen ay kaç ürün satıldığını söyleyebilirken, bir veri gölü, bir AI modelinin neden satıldığını anlamasına yardımcı olan ham müşteri duyarlılığı günlüklerini ve görüntü verilerini barındırır.
Veri gölleri, otomasyonun sınırlarını zorlayan çeşitli sektörlerde önemli bir rol oynamaktadır:
Ultralytics ile çalışırken, kullanıcılar genellikle eğitim için açıklamalı veri kümeleri oluşturmak üzere kuruluşlarının veri gölünden ham verilerin alt kümelerini alırlar. Ham görüntüler alındıktan ve etiketlendikten sonra, en son teknolojiye sahip modelleri eğitmek için kullanılabilirler.
Aşağıdaki örnek, bir geliştiricinin yerel bir veri kümesini (veri gölünden bir alım taklit ederek) nasıl yükleyebileceğini gösterir. YOLO26 modelini bir algılama görevi için eğitmek için.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Train the model using a dataset configuration file
# In a production pipeline, this data might be streamed or downloaded
# from a cloud-based data lake prior to this step.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
# Run inference on a new image to verify performance
predictions = model("https://ultralytics.com/images/bus.jpg")