Synthetic Data
Khám phá cách dữ liệu tổng hợp (synthetic data) thúc đẩy AI và machine learning. Tìm hiểu cách tạo các tập dữ liệu chất lượng cao cho Ultralytics YOLO26 để cải thiện độ chính xác của mô hình ngay hôm nay.
Dữ liệu tổng hợp là thông tin được tạo ra một cách nhân tạo nhằm bắt chước các thuộc tính thống kê, mô hình và đặc điểm cấu trúc của dữ liệu trong thế giới thực. Trong các lĩnh vực đang phát triển nhanh chóng như trí tuệ nhân tạo (AI) và học máy (ML), dữ liệu này đóng vai trò là nguồn tài nguyên quan trọng khi việc thu thập dữ liệu xác thực trở nên đắt đỏ, tốn thời gian hoặc bị hạn chế bởi các quy định về quyền riêng tư. Khác với dữ liệu hữu cơ được thu thập từ các sự kiện thực tế, dữ liệu tổng hợp được tạo ra bằng thuật toán sử dụng các kỹ thuật như mô phỏng máy tính và các model tạo sinh tiên tiến. Đến năm 2030, các chuyên gia ngành tại Gartner dự đoán rằng dữ liệu tổng hợp sẽ vượt qua dữ liệu thực trong các model AI, làm thay đổi căn bản cách thức các hệ thống thông minh được xây dựng và triển khai.
Link to this sectionVai trò của dữ liệu tổng hợp trong phát triển AI#
Động lực chính để sử dụng các tập dữ liệu tổng hợp là nhằm vượt qua những hạn chế vốn có trong thu thập và gán nhãn dữ liệu truyền thống. Việc huấn luyện các model computer vision (CV) mạnh mẽ thường đòi hỏi các tập dữ liệu khổng lồ chứa đựng nhiều kịch bản đa dạng. Khi dữ liệu thực tế khan hiếm—chẳng hạn như trong chẩn đoán các bệnh hiếm gặp hoặc các trường hợp tai nạn giao thông nguy hiểm—dữ liệu tổng hợp sẽ giúp thu hẹp khoảng cách đó.
Việc tạo ra dữ liệu này cho phép các nhà phát triển tạo ra dữ liệu huấn luyện được gán nhãn hoàn hảo theo yêu cầu. Điều này bao gồm các BBox chính xác cho object detection hoặc các mask chính xác đến từng pixel cho semantic segmentation, loại bỏ sai sót của con người thường gặp trong quy trình gán nhãn thủ công. Hơn nữa, nó còn giải quyết vấn đề định kiến trong AI bằng cách cho phép các kỹ sư chủ động cân bằng các tập dữ liệu với các nhóm yếu thế hoặc các điều kiện môi trường, đảm bảo hiệu suất model công bằng hơn.
Link to this sectionCác ứng dụng trong thực tế#
Dữ liệu tổng hợp đang tạo ra cuộc cách mạng trong các ngành công nghiệp nơi mà quyền riêng tư dữ liệu, an toàn và khả năng mở rộng là ưu tiên hàng đầu.
- Mô phỏng lái xe tự động: Việc thử nghiệm phương tiện tự hành chỉ trong thế giới vật lý là đầy rủi ro và bị giới hạn về mặt địa lý. Các công ty sử dụng các trình mô phỏng chân thực, chẳng hạn như NVIDIA Omniverse, để huấn luyện các hệ thống nhận thức của họ. Các trình mô phỏng này tạo ra hàng tỷ dặm đường ảo, đưa AI vào các điều kiện thời tiết nguy hiểm, hành vi khó lường của người đi bộ và các bố cục đô thị phức tạp vốn khó có thể ghi lại một cách nhất quán trong thế giới thực.
- Chăm sóc sức khỏe và chẩn đoán hình ảnh y tế: Các luật về quyền riêng tư của bệnh nhân như HIPAA và GDPR kiểm soát nghiêm ngặt việc chia sẻ hồ sơ y tế. Dữ liệu tổng hợp cho phép tạo ra các tập dữ liệu phân tích hình ảnh y tế thực tế—như ảnh X-quang hoặc quét MRI—vẫn giữ được các dấu hiệu bệnh lý mà không chứa bất kỳ thông tin nhận dạng cá nhân nào. Điều này cho phép các nhà nghiên cứu cộng tác huấn luyện các model phát hiện khối u mà không làm ảnh hưởng đến tính bảo mật của bệnh nhân.
Link to this sectionTạo dữ liệu tổng hợp cho Vision AI#
Việc tạo dữ liệu tổng hợp chất lượng cao thường bao gồm hai phương pháp chính: công cụ mô phỏng và AI tạo sinh. Các công cụ mô phỏng, như Unity Engine, sử dụng đồ họa 3D để dựng các cảnh quay với ánh sáng và kết cấu dựa trên vật lý. Ngoài ra, các model tạo sinh, như Generative Adversarial Networks (GANs) và diffusion models, sẽ học phân phối của dữ liệu thực để tổng hợp các ví dụ mới, chân thực.
Khi một tập dữ liệu tổng hợp được tạo ra, nó có thể được sử dụng để huấn luyện các model hiệu suất cao. Ví dụ Python sau đây minh họa cách load một model—có khả năng đã được huấn luyện trên dữ liệu tổng hợp—sử dụng gói ultralytics để thực hiện inference trên một hình ảnh.
from ultralytics import YOLO
# Load the YOLO26 model (latest stable generation for superior accuracy)
model = YOLO("yolo26n.pt")
# Run inference on a source image (this could be a synthetic validation image)
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results to verify model performance
results[0].show()Link to this sectionDữ liệu tổng hợp so với Data Augmentation#
Việc phân biệt dữ liệu tổng hợp với data augmentation là rất hữu ích, vì cả hai kỹ thuật đều nhằm mục đích mở rộng tập dữ liệu nhưng hoạt động theo những cách khác nhau.
- Data Augmentation liên quan đến việc áp dụng các phép biến đổi—như lật, xoay, cắt hoặc điều chỉnh màu sắc—lên các hình ảnh thực tế đã có sẵn để tạo ra các biến thể nhỏ. Nó dựa trên nguồn dữ liệu gốc.
- Dữ liệu tổng hợp liên quan đến việc tạo ra hoàn toàn các thực thể dữ liệu mới từ đầu bằng cách sử dụng các thuật toán hoặc mô phỏng. Nó không nhất thiết đòi hỏi một hình ảnh gốc cho mỗi đầu ra, cho phép tạo ra các kịch bản chưa bao giờ được camera ghi lại.
Các quy trình làm việc hiện đại trên Ultralytics Platform thường kết hợp cả hai phương pháp: sử dụng dữ liệu tổng hợp để lấp đầy các khoảng trống trong tập dữ liệu và áp dụng data augmentation trong quá trình huấn luyện để tối đa hóa độ mạnh mẽ của các model như YOLO26.






