Big Data
Khám phá cách Big Data hỗ trợ AI. Tìm hiểu cách quản lý các tập dữ liệu khổng lồ cho thị giác máy tính, đào tạo Ultralytics YOLO26 và tận dụng Nền tảng Ultralytics để mở rộng quy mô.
Dữ liệu lớn đề cập đến các tập dữ liệu cực kỳ lớn, đa dạng và phức tạp, vượt quá khả năng xử lý của các công cụ quản lý dữ liệu truyền thống. Trong lĩnh vực trí tuệ nhân tạo, khái niệm này thường được định nghĩa bởi "Ba chữ V": volume (khối lượng), velocity (tốc độ) và variety (sự đa dạng). Khối lượng thể hiện lượng thông tin khổng lồ, tốc độ đề cập đến tốc độ tạo và xử lý dữ liệu, còn sự đa dạng bao gồm các định dạng khác nhau, chẳng hạn như số có cấu trúc, văn bản phi cấu trúc, hình ảnh và video. Đối với các hệ thống thị giác máy tính hiện đại, Dữ liệu lớn là nguồn nhiên liệu nền tảng cho phép các thuật toán học các mẫu, khái quát hóa trên các tình huống và đạt được độ chính xác cao.
Link to this sectionVai trò của Dữ liệu lớn trong Học sâu#
Sự trỗi dậy của học sâu gắn liền trực tiếp với sự sẵn có của các tập dữ liệu khổng lồ. Các mạng thần kinh, đặc biệt là các kiến trúc tinh vi như YOLO26, đòi hỏi một lượng lớn các ví dụ được dán nhãn để tối ưu hóa hàng triệu tham số của chúng một cách hiệu quả. Nếu không có đủ khối lượng dữ liệu, các model có xu hướng bị quá khớp (overfitting), nơi chúng ghi nhớ các ví dụ đào tạo thay vì học cách nhận diện các đặc trưng trong các hình ảnh mới, chưa từng thấy.
Để quản lý luồng thông tin này, các kỹ sư dựa vào các đường ống gán nhãn dữ liệu mạnh mẽ. Ultralytics Platform đơn giản hóa quy trình này, cho phép các nhóm tổ chức, gán nhãn và kiểm soát phiên bản cho các bộ sưu tập hình ảnh khổng lồ trên đám mây. Sự tập trung hóa này rất quan trọng vì dữ liệu đào tạo chất lượng cao phải sạch, đa dạng và được gán nhãn chính xác để tạo ra các AI model đáng tin cậy.
Link to this sectionCác ứng dụng thực tế trong AI#
Sự hội tụ của Dữ liệu lớn và học máy thúc đẩy đổi mới trong hầu hết mọi ngành công nghiệp.
- Lái xe tự hành: Xe tự lái tạo ra hàng terabyte dữ liệu mỗi ngày từ LiDAR, radar và camera. Luồng dữ liệu tốc độ cao này giúp đào tạo các model phát hiện đối tượng để nhận diện người đi bộ, biển báo giao thông và các phương tiện khác trong thời gian thực. Bằng cách xử lý hàng triệu dặm cảnh quay lái xe, các nhà sản xuất đảm bảo phương tiện tự hành của họ có thể xử lý an toàn các "trường hợp biên" hiếm gặp.
- Chẩn đoán hình ảnh y tế: Trong chăm sóc sức khỏe, phân tích hình ảnh y tế sử dụng các kho lưu trữ khổng lồ gồm ảnh X-quang, MRI và CT. Dữ liệu lớn cho phép các model phân đoạn hình ảnh phát hiện các bất thường như khối u với độ chính xác thường vượt xa các chuyên gia con người. Các bệnh viện sử dụng lưu trữ đám mây bảo mật như Google Cloud Healthcare API để tổng hợp dữ liệu bệnh nhân trong khi vẫn duy trì quyền riêng tư, cho phép đào tạo các model như YOLO11 và YOLO26 để chẩn đoán bệnh sớm.
Link to this sectionPhân biệt các khái niệm liên quan#
Điều quan trọng là phải phân biệt Dữ liệu lớn với các thuật ngữ liên quan trong hệ sinh thái khoa học dữ liệu:
- Dữ liệu lớn so với Khai phá dữ liệu: Khai phá dữ liệu là quá trình khám phá và trích xuất các mẫu hữu ích từ Dữ liệu lớn. Dữ liệu lớn là tài sản; khai phá dữ liệu là kỹ thuật được sử dụng để khám phá những thông tin chi tiết ẩn giấu bên trong tài sản đó.
- Dữ liệu lớn so với Phân tích dữ liệu: Trong khi Dữ liệu lớn mô tả thông tin thô, phân tích dữ liệu bao gồm việc phân tích tính toán dữ liệu đó để hỗ trợ ra quyết định. Các công cụ như Tableau hoặc Microsoft Power BI thường được sử dụng để trực quan hóa các kết quả thu được từ quá trình xử lý Dữ liệu lớn.
Link to this sectionCác công nghệ quản lý quy mô lớn#
Xử lý hàng petabyte dữ liệu hình ảnh đòi hỏi cơ sở hạ tầng chuyên biệt. Các khung xử lý phân tán như Apache Spark và các giải pháp lưu trữ như Amazon S3 hoặc Azure Blob Storage cho phép các tổ chức tách biệt lưu trữ khỏi sức mạnh tính toán.
In a practical computer vision workflow, users rarely load terabytes of images into memory at once. Instead, they use efficient data loaders. The following Python example demonstrates how to initiate training with Ultralytics YOLO26, pointing the model to a dataset configuration file. This configuration acts as a map, allowing the model to stream data efficiently during the training process, regardless of the dataset's total size.
from ultralytics import YOLO
# Load the cutting-edge YOLO26n model (nano version)
model = YOLO("yolo26n.pt")
# Train the model using a dataset configuration file
# The 'data' argument can reference a local dataset or a massive cloud dataset
# effectively bridging the model with Big Data sources.
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)Khi các tập dữ liệu tiếp tục phát triển, các kỹ thuật như tăng cường dữ liệu và học chuyển tiếp trở nên ngày càng quan trọng, giúp các nhà phát triển tối đa hóa giá trị của Dữ liệu lớn mà không cần tài nguyên tính toán vô hạn. Các tổ chức cũng phải điều hướng các quy định về quyền riêng tư dữ liệu, chẳng hạn như GDPR, để đảm bảo rằng các tập dữ liệu khổng lồ được sử dụng để đào tạo AI tôn trọng quyền của người dùng và các tiêu chuẩn đạo đức.






