Thuật ngữ

Hồ dữ liệu

Khám phá hồ dữ liệu là gì, các tính năng, lợi ích và vai trò của chúng trong AI/ML. Tìm hiểu cách chúng chuyển đổi quản lý và phân tích dữ liệu lớn.

Hồ Dữ liệu (Data Lake) là một kho lưu trữ tập trung cho phép bạn lưu trữ tất cả dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc ở mọi quy mô. Không giống như kho dữ liệu truyền thống lưu trữ dữ liệu theo định dạng đã được xử lý và xác định trước, Hồ Dữ liệu lưu trữ một lượng lớn dữ liệu thô ở định dạng gốc cho đến khi cần thiết. Đối với trí tuệ nhân tạo (AI) và học máy (ML), kiến trúc này cực kỳ mạnh mẽ vì nó cung cấp cho các nhà khoa học dữ liệu một kho dữ liệu gốc khổng lồ, linh hoạt, hoàn hảo cho việc đào tạo các mô hình phức tạp, thực hiện phân tích khám phá và khám phá các mẫu mới mà không bị ràng buộc bởi lược đồ ban đầu.

Cách thức hoạt động của Data Lakes trong AI và Machine Learning

Trong quy trình làm việc AI điển hình, Hồ Dữ liệu đóng vai trò là nguồn dữ liệu chính xác cho tất cả các nguồn dữ liệu tiềm năng. Quá trình này bắt đầu bằng việc thu thập dữ liệu, trong đó dữ liệu thô từ nhiều nguồn khác nhau—chẳng hạn như nhật ký người dùng, nguồn cấp dữ liệu mạng xã hội, dữ liệu cảm biến IoT, hình ảnh và video—được tải vào hồ. Dữ liệu này được lưu trữ ở trạng thái gốc, chưa chỉnh sửa. Khi một dự án bắt đầu, chẳng hạn như đào tạo một mô hình thị giác máy tính (CV) mới, các kỹ sư có thể truy cập hồ để trích xuất một tập hợp con dữ liệu có liên quan. Phương pháp "lược đồ khi đọc" này có nghĩa là cấu trúc được áp dụng trong giai đoạn phân tích dữ liệutiền xử lý dữ liệu , chứ không phải khi thu thập. Tính linh hoạt này rất quan trọng đối với việc phát triển ML lặp, nơi các yêu cầu dữ liệu có thể thay đổi khi mô hình phát triển. Các nhà cung cấp điện toán đám mây lớn như AWSGoogle Cloud cung cấp các dịch vụ mạnh mẽ để xây dựng và quản lý hồ dữ liệu.

Ứng dụng AI/ML trong thế giới thực

Hồ dữ liệu đóng vai trò cơ bản trong việc phát triển các giải pháp AI quy mô lớn dựa trên các tập dữ liệu đa dạng và đồ sộ.

  1. Phát triển Xe Tự hành : Một đội xe tự lái tạo ra hàng terabyte dữ liệu cảm biến thô mỗi ngày, bao gồm đám mây điểm LiDAR, video độ phân giải cao và dữ liệu radar. Dữ liệu lớn này được truyền trực tuyến vào Hồ Dữ liệu (Data Lake). Các kỹ sư và nhà nghiên cứu sau đó có thể truy vấn kho lưu trữ khổng lồ này để tìm các tình huống hiếm gặp hoặc đầy thách thức - chẳng hạn như người đi bộ bất ngờ băng qua đường vào ban đêm - để sử dụng cho việc huấn luyện và mô phỏng mô hình. Điều này cho phép cải tiến liên tục các mô hình nhận thức cho các tác vụ như phát hiện vật thể và đảm bảo chúng mạnh mẽ trước các trường hợp ngoại lệ. Các nền tảng như Databricks thường được sử dụng để quản lý các quy trình làm việc này.
  2. Phân tích hình ảnh y tế : Bệnh viện và các viện nghiên cứu thu thập hình ảnh y tế (MRI, X-quang, CT) từ nhiều máy móc ở nhiều định dạng khác nhau. Bằng cách tập trung dữ liệu này vào Hồ Dữ liệu (Data Lake), họ tạo ra một tập dữ liệu phong phú, đa dạng cho nghiên cứu và phát triển. Các nhà khoa học dữ liệu có thể truy cập dữ liệu hình ảnh thô này để phát triển các mô hình AI chẩn đoán, ví dụ, bằng cách đào tạo mô hình YOLO trên một tập dữ liệu như tập dữ liệu Khối u Não . Việc lưu trữ dữ liệu thô giúp bảo tồn các chi tiết quan trọng có thể bị mất trong các định dạng đã được xử lý trước, hỗ trợ AI chính xác hơn trong các giải pháp chăm sóc sức khỏe .

Phân biệt với các khái niệm liên quan

Điều quan trọng là phải phân biệt Data Lake với các mô hình lưu trữ dữ liệu khác.

  • Kho Dữ liệu so với Hồ Dữ liệu: Sự khác biệt chính nằm ở cấu trúc và mục đích dữ liệu. Kho Dữ liệu lưu trữ dữ liệu có cấu trúc, được lọc và đã được xử lý cho một mục đích cụ thể, thường là phân tích kinh doanh. Ngược lại, Hồ Dữ liệu lưu trữ dữ liệu thô, chưa được lọc thuộc mọi loại (có cấu trúc, bán cấu trúc và phi cấu trúc) mà không có lược đồ được xác định trước. Điều này làm cho Hồ Dữ liệu phù hợp hơn với bản chất khám phá của học máy .
  • Cơ sở dữ liệu so với Hồ dữ liệu: Một cơ sở dữ liệu truyền thống, đặc biệt là cơ sở dữ liệu quan hệ như SQL, yêu cầu dữ liệu phải phù hợp với một lược đồ nghiêm ngặt, được xác định trước trước khi có thể được ghi. Điều này được gọi là "lược đồ khi ghi". Hồ dữ liệu sử dụng phương pháp "lược đồ khi đọc", cung cấp tính linh hoạt cần thiết để xử lý các định dạng dữ liệu đa dạng phổ biến trong AI, chẳng hạn như hình ảnh, văn bản và nhật ký cảm biến. Trong khi cơ sở dữ liệu được tối ưu hóa cho các truy vấn giao dịch nhanh, Hồ dữ liệu được xây dựng cho việc xử lý phân tích quy mô lớn bằng các công cụ như Apache Spark .
  • Khai thác Dữ liệu so với Hồ Dữ liệu: Hồ Dữ liệu là một kho lưu trữ. Mặt khác, Khai thác Dữ liệuquá trình khám phá các mẫu hình và thông tin chi tiết từ các tập dữ liệu lớn. Các kỹ thuật khai thác dữ liệu được áp dụng cho dữ liệu được lưu trữ trong Hồ Dữ liệu.

Lợi ích và thách thức

Những lợi ích:

  • Tính linh hoạt: Lưu trữ bất kỳ kiểu dữ liệu nào từ bất kỳ nguồn nào mà không cần cấu trúc trước.
  • Khả năng mở rộng: Dễ dàng xử lý khối lượng dữ liệu lớn, từ terabyte đến petabyte, bằng cách sử dụng hệ thống lưu trữ phân tán như Apache Hadoop .
  • Hiệu quả về chi phí: Tận dụng kho lưu trữ hàng hóa giá rẻ, giúp lưu trữ được lượng dữ liệu lớn một cách hợp lý.
  • Dân chủ hóa dữ liệu: Giúp nhiều nhóm khác nhau (nhà khoa học dữ liệu, nhà phân tích, kỹ sư ML) có thể truy cập dữ liệu thô cho nhiều trường hợp sử dụng, từ báo cáo đến học sâu .
  • Chống lỗi thời: Lưu trữ dữ liệu thô vô thời hạn, cho phép phân tích trong tương lai bằng các công cụ và kỹ thuật mới chưa có hiện nay.

Thách thức:

  • Quản trị dữ liệu: Đảm bảo chất lượng dữ liệu, nguồn gốc và kiểm soát quyền truy cập có thể rất phức tạp.
  • Bảo mật: Việc bảo vệ dữ liệu thô nhạy cảm đòi hỏi các biện pháp bảo mật dữ liệuquyền riêng tư dữ liệu mạnh mẽ.
  • Rủi ro đầm lầy dữ liệu: Nếu không có sự quản lý, siêu dữ liệu và lập danh mục phù hợp, Hồ dữ liệu có thể trở nên hỗn loạn và khó sử dụng hiệu quả, biến thành "đầm lầy dữ liệu", một khái niệm được các công ty quản lý dữ liệu hàng đầu giải thích.
  • Độ phức tạp: Đòi hỏi kỹ năng chuyên môn để quản lý và phân tích. Thực hành MLOps hiệu quả là rất quan trọng để quản lý vòng đời từ thu thập dữ liệu đến triển khai mô hình .

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard