Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Dữ liệu lớn (Big Data)

Khám phá sức mạnh của Dữ liệu lớn trong AI/ML! Tìm hiểu cách các tập dữ liệu khổng lồ thúc đẩy máy học, các công cụ để xử lý và các ứng dụng thực tế.

Dữ liệu lớn (Big Data) đề cập đến các tập dữ liệu cực kỳ lớn, đa dạng và phức tạp, vượt quá khả năng xử lý của các công cụ quản lý dữ liệu truyền thống. Trong lĩnh vực trí tuệ nhân tạo, khái niệm này thường được định nghĩa bằng "Ba chữ V": khối lượng (Volume), tốc độ (Velocity) và sự đa dạng (Variety). Khối lượng thể hiện lượng thông tin khổng lồ, tốc độ đề cập đến tốc độ tạo ra và xử lý dữ liệu, và sự đa dạng bao gồm các định dạng khác nhau, chẳng hạn như số có cấu trúc, văn bản không có cấu trúc, hình ảnh và video. Đối với các hệ thống thị giác máy tính hiện đại, Dữ liệu lớn là nền tảng cho phép các thuật toán học các mẫu, khái quát hóa trên nhiều kịch bản và đạt được độ chính xác cao.

Vai trò của dữ liệu lớn trong học sâu

Sự hồi sinh của học sâu (deep learning) có liên quan trực tiếp đến sự sẵn có của các tập dữ liệu khổng lồ. Mạng nơ-ron, đặc biệt là các kiến ​​trúc phức tạp như YOLO26 , yêu cầu một lượng lớn các ví dụ được gắn nhãn để tối ưu hóa hiệu quả hàng triệu tham số của chúng. Nếu không có đủ dữ liệu, các mô hình dễ bị quá khớp (overfitting ), nghĩa là chúng ghi nhớ các ví dụ huấn luyện thay vì học cách nhận dạng các đặc điểm trong các hình ảnh mới, chưa từng thấy.

Để quản lý lượng thông tin khổng lồ này, các kỹ sư dựa vào các quy trình chú thích dữ liệu mạnh mẽ. Nền tảng Ultralytics đơn giản hóa quá trình này, cho phép các nhóm tổ chức, gắn nhãn và kiểm soát phiên bản các bộ sưu tập hình ảnh khổng lồ trên đám mây. Việc tập trung hóa này rất quan trọng vì dữ liệu huấn luyện chất lượng cao phải sạch, đa dạng và được gắn nhãn chính xác để tạo ra các mô hình AI đáng tin cậy.

Ứng dụng thực tế trong AI

Sự kết hợp giữa dữ liệu lớn và học máy thúc đẩy sự đổi mới trong hầu hết mọi ngành công nghiệp.

  • Lái xe tự hành: Xe tự lái tạo ra hàng terabyte dữ liệu mỗi ngày từ LiDAR, radar và camera. Luồng dữ liệu tốc độ cao này giúp huấn luyện các mô hình phát hiện đối tượng để nhận diện người đi bộ, biển báo giao thông và các phương tiện khác trong thời gian thực. Bằng cách xử lý hàng triệu dặm dữ liệu lái xe, các nhà sản xuất đảm bảo xe tự hành của họ có thể xử lý an toàn các "trường hợp ngoại lệ" hiếm gặp.
  • Hình ảnh y tế: Trong lĩnh vực chăm sóc sức khỏe, phân tích hình ảnh y tế sử dụng các kho dữ liệu khổng lồ về tia X, MRI và CT scan. Dữ liệu lớn cho phép các mô hình phân đoạn hình ảnh ... detect Các bệnh lý bất thường như khối u được phát hiện với độ chính xác thường vượt trội so với các chuyên gia y tế. Bệnh viện sử dụng lưu trữ đám mây an toàn như Google Cloud Healthcare API để tổng hợp dữ liệu bệnh nhân trong khi vẫn đảm bảo quyền riêng tư, cho phép huấn luyện các mô hình như YOLO11 và YOLO26 để chẩn đoán bệnh sớm.

Phân biệt các khái niệm liên quan

Điều quan trọng là phải phân biệt Dữ liệu lớn (Big Data) với các thuật ngữ liên quan trong hệ sinh thái khoa học dữ liệu:

  • Dữ liệu lớn so với Khai thác dữ liệu: Khai thác dữ liệu là quá trình khám phá và trích xuất các mẫu hữu ích từ Dữ liệu lớn. Dữ liệu lớn là tài sản; khai thác dữ liệu là kỹ thuật được sử dụng để khám phá những thông tin ẩn giấu bên trong tài sản đó.
  • Dữ liệu lớn so với Phân tích dữ liệu: Trong khi Dữ liệu lớn mô tả thông tin thô, phân tích dữ liệu liên quan đến việc phân tích bằng máy tính dữ liệu đó để hỗ trợ việc ra quyết định. Các công cụ như Tableau hoặc Microsoft Power BI thường được sử dụng để trực quan hóa kết quả thu được từ quá trình xử lý Dữ liệu lớn.

Công nghệ quản lý quy mô

Việc xử lý hàng petabyte dữ liệu hình ảnh đòi hỏi cơ sở hạ tầng chuyên dụng. Các khung xử lý phân tán như Apache Spark và các giải pháp lưu trữ như Amazon S3 hoặc Azure Blob Storage cho phép các tổ chức tách biệt lưu trữ khỏi sức mạnh tính toán.

Trong quy trình làm việc thực tế về thị giác máy tính, người dùng hiếm khi tải hàng terabyte hình ảnh vào bộ nhớ cùng một lúc. Thay vào đó, họ sử dụng các trình tải dữ liệu hiệu quả. Sau đây là các trình tải dữ liệu hiệu quả. Python Ví dụ này minh họa cách bắt đầu huấn luyện với Ultralytics YOLO26 , bằng cách trỏ mô hình đến một tệp cấu hình tập dữ liệu. Cấu hình này hoạt động như một bản đồ, cho phép mô hình truyền dữ liệu hiệu quả trong quá trình huấn luyện , bất kể kích thước tổng thể của tập dữ liệu.

from ultralytics import YOLO

# Load the cutting-edge YOLO26n model (nano version)
model = YOLO("yolo26n.pt")

# Train the model using a dataset configuration file
# The 'data' argument can reference a local dataset or a massive cloud dataset
# effectively bridging the model with Big Data sources.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

Khi các tập dữ liệu tiếp tục tăng lên, các kỹ thuật như tăng cường dữ liệuhọc chuyển giao trở nên ngày càng quan trọng, giúp các nhà phát triển tối đa hóa giá trị của Dữ liệu lớn mà không cần đến nguồn tài nguyên tính toán vô hạn. Các tổ chức cũng phải tuân thủ các quy định về bảo mật dữ liệu , chẳng hạn như GDPR , đảm bảo rằng các tập dữ liệu khổng lồ được sử dụng để huấn luyện AI tôn trọng quyền của người dùng và các tiêu chuẩn đạo đức.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay