Data Lake
Khám phá cách data lake đóng vai trò là nền tảng cho AI và ML. Tìm hiểu cách tận dụng dữ liệu thô để huấn luyện Ultralytics YOLO26 và hợp lý hóa các quy trình computer vision.
Data lake là một kho lưu trữ tập trung chứa một lượng lớn dữ liệu thô ở định dạng gốc cho đến khi cần sử dụng. Không giống như các hệ thống lưu trữ truyền thống yêu cầu dữ liệu phải có cấu trúc trước khi nhập, data lake chấp nhận dữ liệu "nguyên bản", bao gồm dữ liệu có cấu trúc (hàng và cột), dữ liệu bán cấu trúc (CSV, log, XML, JSON), dữ liệu phi cấu trúc (email, tài liệu, PDF) và dữ liệu nhị phân (hình ảnh, âm thanh, video). Sự linh hoạt về kiến trúc này khiến data lake trở thành nền tảng của các chiến lược Big Data hiện đại, đặc biệt đối với các tổ chức tận dụng Artificial Intelligence (AI) và Machine Learning (ML). Bằng cách tách biệt việc thu thập dữ liệu khỏi việc sử dụng dữ liệu, các tổ chức có thể lưu trữ các khối thông tin khổng lồ với chi phí tương đối thấp và xác định các câu hỏi phân tích cụ thể sau đó.
Link to this sectionVai trò của Data Lake trong AI và Machine Learning#
Trong bối cảnh phát triển AI, giá trị chính của data lake nằm ở khả năng hỗ trợ các quy trình Deep Learning (DL). Các mạng thần kinh tiên tiến đòi hỏi training data đa dạng và phong phú để đạt được độ chính xác cao. Data lake đóng vai trò là nơi tập kết, nơi các tài nguyên thô—chẳng hạn như hàng triệu hình ảnh độ phân giải cao cho Computer Vision (CV) hoặc hàng nghìn giờ âm thanh cho Speech Recognition—được lưu trữ trước khi xử lý.
Các nhà khoa học dữ liệu sử dụng phương pháp "schema-on-read" trong data lake. Điều này có nghĩa là cấu trúc chỉ được áp dụng cho dữ liệu khi nó được đọc để xử lý, thay vì khi nó được ghi vào bộ lưu trữ. Điều này cho phép sự linh hoạt to lớn; cùng một tập dữ liệu thô có thể được xử lý theo nhiều cách cho các tác vụ predictive modeling khác nhau mà không làm thay đổi nguồn gốc ban đầu. Hơn nữa, các data lake mạnh mẽ thường tích hợp với các dịch vụ cloud computing như Amazon S3 hoặc Azure Blob Storage, cho phép xử lý song song, có khả năng mở rộng cần thiết để huấn luyện các model nặng như YOLO26.
Link to this sectionData Lake so với Data Warehouse#
Mặc dù thường bị nhầm lẫn, data lake khác biệt với data warehouse. Một data warehouse lưu trữ dữ liệu trong các bảng có cấu trúc và được tối ưu hóa cho các truy vấn SQL nhanh và báo cáo thông tin kinh doanh. Nó sử dụng phương pháp "schema-on-write", nghĩa là dữ liệu phải được làm sạch và chuyển đổi thông qua quy trình ETL (Extract, Transform, Load) trước khi vào hệ thống.
Ngược lại, data lake được tối ưu hóa cho dung lượng lưu trữ và tính đa dạng. Nó hỗ trợ unsupervised learning và phân tích khám phá nơi mục tiêu có thể chưa được xác định. Ví dụ, data warehouse có thể cho bạn biết có bao nhiêu sản phẩm đã bán tháng trước, trong khi data lake lưu giữ các log customer sentiment thô và dữ liệu hình ảnh giúp một AI model hiểu tại sao chúng được bán.
Link to this sectionCác ứng dụng trong thực tế#
Data lake đóng vai trò quan trọng trong nhiều ngành công nghiệp đang mở rộng ranh giới của tự động hóa:
- Xe tự lái: việc phát triển công nghệ tự lái đòi hỏi phải xử lý hàng petabyte dữ liệu cảm biến. Autonomous vehicles tạo ra các luồng dữ liệu liên tục từ đám mây điểm LiDAR, tín hiệu radar và video độ phân giải cao. Data lake lưu trữ các dữ liệu đo đạc thô này, cho phép các kỹ sư chạy lại các kịch bản thực tế để huấn luyện các model Object Detection nhằm nhận diện người đi bộ và vật cản trong các điều kiện thời tiết khác nhau.
- Chẩn đoán y tế: Trong medical image analysis hiện đại, các bệnh viện hợp nhất lịch sử bệnh nhân, dữ liệu hệ gen và các tệp hình ảnh (MRI, CT scan) vào một data lake bảo mật. Sau đó, các nhà nghiên cứu có thể truy cập dữ liệu phi cấu trúc, ẩn danh này để huấn luyện các model cho tumor detection hoặc dự đoán bệnh, thường sử dụng các kỹ thuật segmentation để tách biệt các vùng quan tâm trong hình ảnh y tế.
Link to this sectionSử dụng Data Lake với Ultralytics#
Khi làm việc với Ultralytics Platform, người dùng thường lấy các tập dữ liệu thô con từ data lake của tổ chức để tạo các tập dữ liệu được gán nhãn cho việc huấn luyện. Sau khi hình ảnh thô được truy xuất và gán nhãn, chúng có thể được sử dụng để huấn luyện các model tiên tiến nhất.
Ví dụ sau đây minh họa cách một nhà phát triển có thể tải một tập dữ liệu cục bộ (mô phỏng việc lấy dữ liệu từ data lake) để huấn luyện model YOLO26 cho một tác vụ phát hiện.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Train the model using a dataset configuration file
# In a production pipeline, this data might be streamed or downloaded
# from a cloud-based data lake prior to this step.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
# Run inference on a new image to verify performance
predictions = model("https://ultralytics.com/images/bus.jpg")





