Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Dữ liệu lớn (Big Data)

Khám phá sức mạnh của Dữ liệu lớn trong AI/ML! Tìm hiểu cách các tập dữ liệu khổng lồ thúc đẩy máy học, các công cụ để xử lý và các ứng dụng thực tế.

Dữ liệu lớn (Big Data) là tập dữ liệu cực kỳ lớn, phức tạp và phát triển nhanh chóng, vượt quá khả năng xử lý của các công cụ quản lý cơ sở dữ liệu truyền thống. Nó được đặc trưng bởi "Năm V": Khối lượng (khối lượng dữ liệu), Vận tốc (tốc độ tạo dữ liệu), Sự đa dạng (sự đa dạng của các loại dữ liệu), Độ tin cậy (chất lượng và độ tin cậy), và Giá trị (những hiểu biết thu được). Trong lĩnh vực Trí tuệ Nhân tạo (AI) , Dữ liệu lớn đóng vai trò là nguồn lực cơ bản thúc đẩy các thuật toán Học máy (ML) hiện đại, cho phép chúng xác định các mẫu hình, đưa ra dự đoán và cải thiện hiệu suất theo thời gian.

Vai trò quan trọng của Dữ liệu lớn trong Học sâu

Sự trỗi dậy của Học sâu (DL) có liên quan trực tiếp đến sự sẵn có của Dữ liệu lớn. Mạng nơ-ron, đặc biệt là Mạng nơ-ron tích chập (CNN) , đòi hỏi một lượng lớn thông tin được gắn nhãn để khái quát hóa hiệu quả. Ví dụ, các mô hình tiên tiến như Ultralytics YOLO11 đạt được độ chính xác cao trong các tác vụ phát hiện đối tượng vì chúng được đào tạo trên các tập dữ liệu chuẩn mở rộng như COCOImageNet . Các tập dữ liệu này chứa hàng triệu hình ảnh, cung cấp sự đa dạng cần thiết cho các mô hình để nhận dạng đối tượng trong các điều kiện khác nhau.

Việc xử lý khối lượng thông tin này thường đòi hỏi cơ sở hạ tầng có khả năng mở rộng, chẳng hạn như cụm điện toán đám mây và phần cứng chuyên dụng như GPU NVIDIA Data Center . Phần cứng này tăng tốc các phép toán cần thiết để đào tạo các mô hình phức tạp trên hàng terabyte hoặc petabyte dữ liệu.

Để minh họa cách các nhà phát triển tương tác với dữ liệu để đào tạo mô hình, sau đây Python ví dụ minh họa việc tải một chương trình được đào tạo trước YOLO11 mô hình và đào tạo nó trên một tập dữ liệu con nhỏ bằng cách sử dụng ultralytics bưu kiện:

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset for 5 epochs
# COCO8 is a tiny dataset included for quick demonstration
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

# Display the results object details
print(results)

Ứng dụng thực tế trong AI

Dữ liệu lớn chuyển đổi các ngành công nghiệp bằng cách cho phép các hệ thống AI giải quyết các vấn đề phức tạp trong thế giới thực:

  • Xe tự hành : Xe tự lái tạo ra luồng dữ liệu khổng lồ từ LiDAR, radar và camera. Các công ty như Tesla sử dụng dữ liệu đội xe để đào tạo các hệ thống nhận thức. detect Người đi bộ, vạch kẻ đường và chướng ngại vật. Vòng lặp thu thập và đào tạo dữ liệu liên tục này là điều cần thiết để đạt được AI an toàn hơn trong các giải pháp ô tô .
  • Chẩn đoán Y khoa: Trong lĩnh vực AI chăm sóc sức khỏe , Dữ liệu lớn bao gồm các thư viện khổng lồ về hồ sơ bệnh án ẩn danh và hình ảnh y tế. Các nhà nghiên cứu sử dụng các kho lưu trữ như NIH Imaging Data Commons để huấn luyện các mô hình trên hàng nghìn ảnh chụp MRI và CT. Những mô hình này hỗ trợ các bác sĩ X quang xác định các bệnh lý như khối u với tốc độ và độ chính xác cao hơn so với việc chỉ xem xét thủ công.

Dữ liệu lớn so với các khái niệm liên quan

Để hiểu được Dữ liệu lớn, cần phân biệt nó với các thuật ngữ có liên quan chặt chẽ trong hệ sinh thái dữ liệu:

  • Khai thác dữ liệu : Trong khi Dữ liệu lớn đề cập đến bản thân tài sản, Khai thác dữ liệu là quá trình khám phá các tập dữ liệu đó để tìm ra các mẫu hình và mối quan hệ. Các công cụ như công cụ phân tích Apache Spark thường được sử dụng để khai thác Dữ liệu lớn một cách hiệu quả.
  • Hồ Dữ liệu (Data Lake ): Hồ Dữ liệu là một kiến trúc lưu trữ được thiết kế để lưu trữ dữ liệu thô ở định dạng gốc cho đến khi cần thiết. Điều này trái ngược với Dữ liệu Lớn (Big Data), vốn mô tả các đặc điểm của dữ liệu (khối lượng, tốc độ, v.v.) được lưu trữ trong các kiến trúc này. Các giải pháp hiện đại thường tận dụng Amazon S3 hoặc các dịch vụ tương tự để tạo ra các hồ này.
  • Phân tích dữ liệu : Đây là lĩnh vực rộng hơn của việc phân tích dữ liệu để rút ra kết luận. Khi áp dụng vào Dữ liệu lớn, nó thường liên quan đến mô hình dự đoán nâng cao để dự báo xu hướng tương lai dựa trên các mô hình lịch sử.

Việc tận dụng Dữ liệu lớn hiệu quả cũng đòi hỏi sự chú trọng nghiêm ngặt đến quyền riêng tư và quản trị dữ liệu để tuân thủ các quy định như GDPR . Khi khối lượng dữ liệu toàn cầu tiếp tục tăng, sự phối hợp giữa Dữ liệu lớn và AI sẽ vẫn là động lực chính cho đổi mới công nghệ.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay