Thuật ngữ

Dữ liệu lớn

Khám phá sức mạnh của Dữ liệu lớn trong AI/ML! Tìm hiểu cách các tập dữ liệu lớn thúc đẩy máy học, các công cụ xử lý và các ứng dụng thực tế.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Dữ liệu lớn đề cập đến các tập dữ liệu cực kỳ lớn và phức tạp, tăng theo cấp số nhân theo thời gian. Các tập dữ liệu này rất đồ sộ và được tạo ra với tốc độ cao đến mức phần mềm xử lý dữ liệu truyền thống và các công cụ quản lý cơ sở dữ liệu không đủ để nắm bắt, quản lý và xử lý chúng một cách hiệu quả. Hiểu về Dữ liệu lớn là điều cơ bản trong kỷ nguyên hiện đại của Trí tuệ nhân tạo (AI)Học máy (ML) , vì các tập dữ liệu khổng lồ này đóng vai trò là nhiên liệu thiết yếu để đào tạo các mô hình Học sâu (DL) tinh vi có khả năng xác định các mẫu phức tạp và đưa ra dự đoán.

Các đặc điểm của Dữ liệu lớn (The Vs)

Dữ liệu lớn thường được định nghĩa bằng một số đặc điểm chính, thường được gọi là "V", giúp phân biệt dữ liệu lớn với dữ liệu truyền thống:

  • Volume: Đây là lượng dữ liệu được tạo ra và thu thập, thường được đo bằng terabyte, petabyte hoặc thậm chí exabyte. Các nguồn bao gồm dữ liệu cảm biến, nguồn cấp dữ liệu phương tiện truyền thông xã hội, hồ sơ giao dịch và nhật ký máy. Xử lý khối lượng này đòi hỏi các giải pháp lưu trữ có thể mở rộng và các khuôn khổ điện toán phân tán.
  • Velocity: Mô tả tốc độ dữ liệu mới được tạo ra và cần được xử lý. Nhiều ứng dụng yêu cầu suy luận và phân tích theo thời gian thực , đòi hỏi khả năng xử lý và thu thập dữ liệu tốc độ cao, thường được hỗ trợ bởi các công cụ như Apache Kafka .
  • Sự đa dạng: Dữ liệu lớn có nhiều định dạng khác nhau. Nó bao gồm dữ liệu có cấu trúc (như cơ sở dữ liệu quan hệ), dữ liệu bán cấu trúc (như tệp JSON hoặc XML ) và dữ liệu không có cấu trúc (như tài liệu văn bản, hình ảnh, video và tệp âm thanh). Xử lý sự đa dạng này đòi hỏi phải có bộ lưu trữ dữ liệu linh hoạt và các công cụ phân tích có khả năng xử lý các loại dữ liệu khác nhau.
  • Độ tin cậy: Điều này liên quan đến chất lượng, độ chính xác và độ tin cậy của dữ liệu. Dữ liệu lớn thường chứa nhiễu, sự không nhất quán và sai lệch, đòi hỏi các kỹ thuật làm sạchxử lý dữ liệu mạnh mẽ để đảm bảo phân tích đáng tin cậy và kết quả mô hình. Sai lệch tập dữ liệu là mối quan tâm đáng kể ở đây.
  • Giá trị: Cuối cùng, mục tiêu của việc thu thập và phân tích Dữ liệu lớn là để trích xuất những hiểu biết có ý nghĩa và giá trị kinh doanh. Điều này bao gồm việc xác định các mô hình và xu hướng có liên quan có thể cung cấp thông tin cho việc ra quyết định, tối ưu hóa quy trình hoặc thúc đẩy đổi mới.

Sự liên quan trong AI và Học máy

Dữ liệu lớn là nền tảng của nhiều tiến bộ trong AI và ML. Các tập dữ liệu lớn, đa dạng rất quan trọng để đào tạo các mô hình mạnh mẽ, đặc biệt là Mạng nơ-ron (NN) , cho phép chúng học các mối quan hệ phức tạp trong dữ liệu và đạt được mức độ chính xác cao. Ví dụ, đào tạo các mô hình Thị giác máy tính (CV) tiên tiến như Ultralytics YOLO cho các tác vụ như phát hiện đối tượng hoặc phân đoạn hình ảnh đòi hỏi một lượng lớn dữ liệu trực quan được gắn nhãn. Tương tự như vậy, các mô hình Xử lý ngôn ngữ tự nhiên (NLP) như Transformers dựa vào các tập hợp văn bản khổng lồ.

Việc xử lý các tập dữ liệu lớn này một cách hiệu quả đòi hỏi cơ sở hạ tầng phần cứng mạnh mẽ, thường tận dụng GPU (Đơn vị xử lý đồ họa) hoặc TPU và các khuôn khổ điện toán phân tán như Apache Spark . Các nền tảng như Ultralytics HUB cung cấp các công cụ để quản lý các quy trình đào tạo mô hình quy mô lớn này, đơn giản hóa việc quản lý tập dữ liệu, theo dõi thử nghiệm và triển khai mô hình .

Ứng dụng AI/ML trong thế giới thực

Dữ liệu lớn thúc đẩy nhiều ứng dụng do AI điều khiển trong nhiều ngành công nghiệp khác nhau:

  • Hệ thống đề xuất: Các dịch vụ phát trực tuyến như Netflix và các nền tảng thương mại điện tử phân tích lượng lớn dữ liệu tương tác của người dùng (lịch sử xem, mẫu mua hàng, nhấp chuột) để đào tạo các thuật toán hệ thống đề xuất tinh vi. Các thuật toán này cung cấp các đề xuất được cá nhân hóa, tăng cường sự tương tác và doanh số của người dùng.
  • Xe tự hành: Xe tự lái tạo ra lượng dữ liệu khổng lồ mỗi giây từ các cảm biến như camera, LiDAR và radar. Dữ liệu lớn này được xử lý theo thời gian thực bằng các mô hình AI cho các tác vụ như phát hiện vật thể , lập kế hoạch đường đi và ra quyết định, như được nêu chi tiết trong AI trong xe tự lái . Các công ty như Waymo phụ thuộc rất nhiều vào phân tích Dữ liệu lớn để phát triển và cải thiện công nghệ lái xe tự động của họ.
  • Chăm sóc sức khỏe: Phân tích dữ liệu lớn trong chăm sóc sức khỏe cho phép ứng dụng như chẩn đoán dự đoán, y học cá nhân hóa và khám phá thuốc. Phân tích khối lượng lớn hồ sơ sức khỏe điện tử (EHR), dữ liệu bộ gen và hình ảnh y tế giúp xác định các mô hình bệnh tật và hiệu quả điều trị ( Radiology: Artificial Intelligence Journal ).
  • Nông nghiệp: Nông nghiệp chính xác tận dụng Dữ liệu lớn từ các cảm biến, máy bay không người lái và vệ tinh để tối ưu hóa năng suất cây trồng, theo dõi sức khỏe đất và quản lý tài nguyên hiệu quả, góp phần vào sự tiến bộ của AI trong các giải pháp nông nghiệp .

Dữ liệu lớn so với các khái niệm liên quan

Sẽ rất hữu ích khi phân biệt Dữ liệu lớn với các thuật ngữ liên quan:

  • Dữ liệu truyền thống: Thường có khối lượng nhỏ hơn, được tạo ra với tốc độ chậm hơn, có cấu trúc hơn và dễ quản lý hơn với các hệ thống cơ sở dữ liệu quan hệ thông thường (ví dụ: SQL). Dữ liệu lớn yêu cầu các công cụ chuyên dụng như hệ sinh thái Hadoop hoặc Spark để xử lý do quy mô và tính phức tạp của nó.
  • Khai thác dữ liệu: Đây là quá trình khám phá các mẫu và kiến thức từ các tập dữ liệu lớn, bao gồm Dữ liệu lớn. Các kỹ thuật khai thác dữ liệu (như phân cụm, phân loại) được áp dụng cho Dữ liệu lớn để trích xuất giá trị.
  • Data Lake: Data Lake là kho lưu trữ tập trung được thiết kế để lưu trữ lượng lớn dữ liệu thô (có cấu trúc, bán cấu trúc và không có cấu trúc) ở định dạng gốc. Không giống như các kho dữ liệu truyền thống lưu trữ dữ liệu có cấu trúc đã xử lý, data lake cung cấp tính linh hoạt cho nhiều tác vụ phân tích khác nhau trên Big Data. Các nền tảng điện toán đám mây như AWSGoogle Cloud cung cấp các giải pháp data lake mạnh mẽ.
  • Phân tích dữ liệu: Đây là lĩnh vực rộng hơn của việc kiểm tra các tập dữ liệu để đưa ra kết luận. Phân tích dữ liệu trên Dữ liệu lớn thường liên quan đến các kỹ thuật tiên tiến, bao gồm ML và mô hình thống kê, để xử lý quy mô và độ phức tạp.

Quản lý Dữ liệu lớn hiệu quả đặt ra những thách thức liên quan đến cơ sở hạ tầng lưu trữ, chi phí xử lý, đảm bảo an ninh dữ liệuquyền riêng tư dữ liệu , và duy trì chất lượng dữ liệu (Veracity). Tuy nhiên, vượt qua những thách thức này sẽ mở ra tiềm năng to lớn cho sự đổi mới được thúc đẩy bởi AI và ML.

Đọc tất cả