Veri göllerinin ne olduğunu, özelliklerini, faydalarını ve yapay zeka/makine öğrenmesindeki rolünü keşfedin. Büyük veri yönetimini ve analizini nasıl dönüştürdüklerini öğrenin.
Veri Gölü, büyük miktarda veriyi kendi doğal, ham formatında tutmak için tasarlanmış merkezi bir depolama havuzudur. Verileri dosyalarda veya klasörlerde depolayan geleneksel hiyerarşik veri ambarının aksine, bir veri gölü düz bir genellikle nesne depolamada veri depolamak için mimari. Bu yaklaşım, kuruluşların yapılandırılmış verileri depolamasına olanak tanır ilişkisel veritabanlarından, yarı yapılandırılmış verilerden (CSV, günlükler, XML, JSON gibi) ve yapılandırılmamış veriler (e-postalar, belgeler ve PDF'ler gibi) yanı sıra ikili verileri (görüntüler, ses, video) ilk önce işlemeden. Çalışan profesyoneller için yapay zeka (AI) ve makine öğrenimi (ML), bu mimari deney ve analiz için büyük veri kümelerine erişim esnekliği sağlar.
Veri gölünün aşağıdakiler için birincil avantajı veri bilimcileri, veri işleme süreçlerinde "şema-on-read". Geleneksel veritabanlarında, yapı (şema) veri depolanmadan önce tanımlanmalıdır (şema-on-write). Bir veri gölünde, önce ham veriler depolanır ve yapı yalnızca veriler işlendiğinde uygulanır. işlenmek üzere okunur. Bu aşağıdakiler için çok önemlidir derin öğrenme (DL) iş akışları Modeller geliştikçe ön işleme gereksinimleri de sıklıkla değişir.
Mühendisler genellikle bulut bilişim hizmetlerinden yararlanır Amazon S3 veya Azure Veri Gölü Depolama bu depoları oluşturmak için. Bu platformlar, aşağıdaki gibi işleme çerçeveleriyle sorunsuz bir şekilde entegre olur Apache Spark, verimli sorgulama ve petabayt ölçekli veri kümeleri üzerinde veri analizi.
Aşağıda, bir Python betiğinin veri kümesi yapılandırma dosyasını kullanarak eğitimi nasıl başlatabileceğine dair basit bir örnek verilmiştir bir göl ortamından çekilen verilere:
from ultralytics import YOLO
# Initialize the latest YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a dataset. The 'coco8.yaml' file defines paths to images
# and labels that may have been ingested from a data lake.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
Veri gölleri modern Büyük Veri girişimlerinin backbone çeşitli sektörlerde.
Bir Veri Gölünü diğer depolama konseptlerinden ayırmak önemlidir:
Bir veri gölü uygulamak, kuruluşların depolama alanını genişletmesine olanak tanıyan önemli bir ölçeklenebilirlik sunar Geleneksel depolara kıyasla daha düşük maliyetle kapasite. Verilerin demokratikleşmesini teşvik ederek farklı ekiplerin aynı ham veri kaynağına farklı amaçlar için erişmesi veri görselleştirmeden ileri araştırmalara kadar.
Ancak karşılaşılan zorluklar arasında veri gizliliği ve uyumluluk, özellikle de hassas kişisel bilgileri (PII) depolarken. Ek olarak, sağlam bir veri̇ ön i̇şleme i̇ ş hatlari ve yöneti̇şi̇m Databricks Unity Catalog gibi araçlar, değerli Ham veri hacminin ortasında içgörü elde etmek zor olabilir.

