Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Veri Gölü

Veri göllerinin ne olduğunu, özelliklerini, faydalarını ve yapay zeka/makine öğrenmesindeki rolünü keşfedin. Büyük veri yönetimini ve analizini nasıl dönüştürdüklerini öğrenin.

Veri Gölü, büyük miktarda veriyi kendi doğal, ham formatında tutmak için tasarlanmış merkezi bir depolama havuzudur. Verileri dosyalarda veya klasörlerde depolayan geleneksel hiyerarşik veri ambarının aksine, bir veri gölü düz bir genellikle nesne depolamada veri depolamak için mimari. Bu yaklaşım, kuruluşların yapılandırılmış verileri depolamasına olanak tanır ilişkisel veritabanlarından, yarı yapılandırılmış verilerden (CSV, günlükler, XML, JSON gibi) ve yapılandırılmamış veriler (e-postalar, belgeler ve PDF'ler gibi) yanı sıra ikili verileri (görüntüler, ses, video) ilk önce işlemeden. Çalışan profesyoneller için yapay zeka (AI) ve makine öğrenimi (ML), bu mimari deney ve analiz için büyük veri kümelerine erişim esnekliği sağlar.

Yapay Zeka İş Akışlarında Veri Göllerinin Rolü

Veri gölünün aşağıdakiler için birincil avantajı veri bilimcileri, veri işleme süreçlerinde "şema-on-read". Geleneksel veritabanlarında, yapı (şema) veri depolanmadan önce tanımlanmalıdır (şema-on-write). Bir veri gölünde, önce ham veriler depolanır ve yapı yalnızca veriler işlendiğinde uygulanır. işlenmek üzere okunur. Bu aşağıdakiler için çok önemlidir derin öğrenme (DL) iş akışları Modeller geliştikçe ön işleme gereksinimleri de sıklıkla değişir.

Mühendisler genellikle bulut bilişim hizmetlerinden yararlanır Amazon S3 veya Azure Veri Gölü Depolama bu depoları oluşturmak için. Bu platformlar, aşağıdaki gibi işleme çerçeveleriyle sorunsuz bir şekilde entegre olur Apache Spark, verimli sorgulama ve petabayt ölçekli veri kümeleri üzerinde veri analizi.

Aşağıda, bir Python betiğinin veri kümesi yapılandırma dosyasını kullanarak eğitimi nasıl başlatabileceğine dair basit bir örnek verilmiştir bir göl ortamından çekilen verilere:

from ultralytics import YOLO

# Initialize the latest YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a dataset. The 'coco8.yaml' file defines paths to images
# and labels that may have been ingested from a data lake.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

Gerçek Dünya Uygulamaları

Veri gölleri modern Büyük Veri girişimlerinin backbone çeşitli sektörlerde.

  1. Otonom Araçlar: Sürücüsüz araç geliştirme, milyonlarca mil sürüş verisinin işlenmesini gerektirir. Araçlar ham sensör üretir günlükleri, LiDAR nokta bulutları ve yüksek çözünürlüklü video görüntüleri. Tüm bu heterojen veriler bir veri gölüne atılır. Araştırmacılar daha sonra "karlı hava" veya "gece yayalar" gibi belirli senaryoları sorgulayarak için çeşitli eğitim setleri oluşturun nesne algılama modelleri. Bu destek sürekli iyileştirme Otomotiv güvenlik sistemlerinde yapay zeka.
  2. Tıbbi Görüntü Analizi: Sağlık kurumları, DICOM gibi formatlarda büyük miktarlarda görüntüleme verisi (röntgenler, MRI'lar, CT taramaları) üretmektedir. A veri gölü, hastanelerin bu bilgileri hasta elektronik sağlık kayıtlarının (EHR) yanında merkezileştirmesine olanak tanır. Araştırmacılar daha sonra bu multimodal verilere erişerek tanı modellerini eğitebilirler, örneğin YOLO11 taramalardaki anormallikleri tespit etmek, önemli ölçüde Sağlık Hizmetlerinde Yapay Zekanın İlerletilmesi.

İlgili Kavramları Ayırt Etme

Bir Veri Gölünü diğer depolama konseptlerinden ayırmak önemlidir:

  • Veri Gölü ve Veri Ambarı: A Veri Ambarı yüksek düzeyde yapılandırılmış depolar, Raporlama ve iş zekası için optimize edilmiş işlenmiş veriler. Bir Veri Gölü, keşif amaçlı ham verileri depolar analiz ve tahmine dayalı modelleme.
  • Veri Gölü ve Veri Bataklığı: "Veri Bataklığı" kötü durumda olan, bozulmuş bir veri gölüdür. yönetilmemesi, uygun meta veri veya yönetişimden yoksun olması, verileri geri alınamaz veya kullanılamaz hale getirmektedir. Etkili veri güvenliği ve kataloglama için gereklidir Bunu engelle.
  • Veri Gölü ve Veritabanı: Geleneksel ilişkisel veritabanları (RDBMS) gibi PostgreSQL katı şemalar ile işlemsel işleme için tasarlanmıştır, Oysa veri gölleri farklı veri türlerinin analitik olarak işlenmesi için tasarlanmıştır.

Faydaları ve Zorlukları

Bir veri gölü uygulamak, kuruluşların depolama alanını genişletmesine olanak tanıyan önemli bir ölçeklenebilirlik sunar Geleneksel depolara kıyasla daha düşük maliyetle kapasite. Verilerin demokratikleşmesini teşvik ederek farklı ekiplerin aynı ham veri kaynağına farklı amaçlar için erişmesi veri görselleştirmeden ileri araştırmalara kadar.

Ancak karşılaşılan zorluklar arasında veri gizliliği ve uyumluluk, özellikle de hassas kişisel bilgileri (PII) depolarken. Ek olarak, sağlam bir veri̇ ön i̇şleme i̇ ş hatlari ve yöneti̇şi̇m Databricks Unity Catalog gibi araçlar, değerli Ham veri hacminin ortasında içgörü elde etmek zor olabilir.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın