Khám phá cách thức các kho dữ liệu đóng vai trò nền tảng cho Trí tuệ nhân tạo (AI) và Học máy (ML). Tìm hiểu cách tận dụng dữ liệu thô để huấn luyện. Ultralytics YOLO26 và việc tối ưu hóa quy trình làm việc trong lĩnh vực thị giác máy tính.
Hồ dữ liệu (data lake) là một kho lưu trữ tập trung chứa một lượng lớn dữ liệu thô ở định dạng gốc cho đến khi cần sử dụng. Không giống như các hệ thống lưu trữ truyền thống yêu cầu dữ liệu phải được cấu trúc trước khi nhập, hồ dữ liệu chấp nhận dữ liệu "nguyên trạng", bao gồm dữ liệu có cấu trúc (hàng và cột), dữ liệu bán cấu trúc (CSV, nhật ký, XML, JSON), dữ liệu phi cấu trúc (email, tài liệu, PDF) và dữ liệu nhị phân (hình ảnh, âm thanh, video). Tính linh hoạt về kiến trúc này làm cho hồ dữ liệu trở thành nền tảng của các chiến lược Dữ liệu lớn hiện đại, đặc biệt đối với các tổ chức tận dụng Trí tuệ nhân tạo (AI) và Học máy (ML) . Bằng cách tách biệt việc thu thập dữ liệu khỏi việc sử dụng dữ liệu, các tổ chức có thể lưu trữ lượng lớn thông tin với chi phí tương đối thấp và tìm ra các câu hỏi phân tích cụ thể sau đó.
Trong bối cảnh phát triển trí tuệ nhân tạo (AI), giá trị chính của kho dữ liệu nằm ở khả năng hỗ trợ các quy trình học sâu (Deep Learning - DL) . Các mạng nơ-ron tiên tiến yêu cầu dữ liệu huấn luyện đa dạng và đồ sộ để đạt được độ chính xác cao. Kho dữ liệu đóng vai trò là nơi lưu trữ các tài nguyên thô — chẳng hạn như hàng triệu hình ảnh độ phân giải cao cho thị giác máy tính (Computer Vision - CV) hoặc hàng nghìn giờ âm thanh cho nhận dạng giọng nói — trước khi được xử lý.
Các nhà khoa học dữ liệu sử dụng phương pháp "schema-on-read" trong các kho dữ liệu. Điều này có nghĩa là cấu trúc chỉ được áp dụng cho dữ liệu khi nó được đọc để xử lý, chứ không phải khi nó được ghi vào bộ nhớ. Điều này cho phép tính linh hoạt rất cao; cùng một tập dữ liệu thô có thể được xử lý theo nhiều cách khác nhau cho các nhiệm vụ mô hình dự đoán khác nhau mà không làm thay đổi nguồn gốc ban đầu. Hơn nữa, các kho dữ liệu mạnh mẽ thường tích hợp với các dịch vụ điện toán đám mây như Amazon S3 hoặc Azure Blob Storage , cho phép xử lý song song, có khả năng mở rộng cần thiết để huấn luyện các mô hình phức tạp như YOLO26 .
Mặc dù thường bị nhầm lẫn, data lake khác biệt với data warehouse. Data warehouse lưu trữ dữ liệu trong các bảng có cấu trúc và được tối ưu hóa cho các truy vấn SQL nhanh và báo cáo phân tích kinh doanh. Nó sử dụng "schema-on-write", nghĩa là dữ liệu phải được làm sạch và chuyển đổi thông qua quy trình ETL (Trích xuất, Chuyển đổi, Tải) trước khi được đưa vào hệ thống.
Ngược lại, data lake được tối ưu hóa cho dung lượng lưu trữ và sự đa dạng. Nó hỗ trợ học không giám sát và phân tích khám phá khi mục tiêu có thể chưa được xác định. Ví dụ, data warehouse có thể cho bạn biết số lượng sản phẩm đã bán trong tháng trước, trong khi data lake lưu trữ nhật ký cảm nhận của khách hàng và dữ liệu hình ảnh thô giúp mô hình AI hiểu lý do tại sao họ mua hàng.
Hồ dữ liệu đóng vai trò quan trọng trong nhiều ngành công nghiệp, thúc đẩy ranh giới của tự động hóa:
Khi làm việc với Nền tảng Ultralytics , người dùng thường trích xuất các tập dữ liệu thô từ kho dữ liệu của tổ chức để tạo ra các tập dữ liệu được chú thích phục vụ cho việc huấn luyện. Sau khi các hình ảnh thô được truy xuất và gắn nhãn, chúng có thể được sử dụng để huấn luyện các mô hình hiện đại.
Ví dụ sau đây minh họa cách một nhà phát triển có thể tải một tập dữ liệu cục bộ (mô phỏng việc truy xuất từ kho dữ liệu) để huấn luyện mô hình YOLO26 cho nhiệm vụ phát hiện.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Train the model using a dataset configuration file
# In a production pipeline, this data might be streamed or downloaded
# from a cloud-based data lake prior to this step.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
# Run inference on a new image to verify performance
predictions = model("https://ultralytics.com/images/bus.jpg")