Dữ liệu tổng hợp
Mở khóa sức mạnh của dữ liệu tổng hợp cho AI/ML! Khắc phục tình trạng khan hiếm dữ liệu, các vấn đề về quyền riêng tư và chi phí trong khi thúc đẩy đào tạo và đổi mới mô hình.
Dữ liệu tổng hợp là thông tin được tạo ra một cách nhân tạo để mô phỏng dữ liệu thực tế. Trong lĩnh vực trí tuệ nhân tạo (AI) và học máy (ML) , dữ liệu tổng hợp đóng vai trò là một giải pháp thay thế hoặc bổ sung mạnh mẽ cho dữ liệu thực tế để huấn luyện các mô hình AI . Việc thu thập các tập dữ liệu thực tế phong phú, chất lượng cao và được gắn nhãn chính xác có thể tốn kém, mất thời gian và đôi khi không thực tế do các quy định về quyền riêng tư hoặc tính hiếm gặp của một số sự kiện nhất định. Dữ liệu tổng hợp cung cấp một giải pháp bằng cách cho phép các nhà phát triển tạo ra một lượng lớn dữ liệu được gắn nhãn hoàn hảo theo yêu cầu, giải quyết những hạn chế này và đẩy nhanh quá trình phát triển các hệ thống thị giác máy tính (CV) mạnh mẽ.
Dữ liệu tổng hợp được tạo ra như thế nào?
Dữ liệu tổng hợp có thể được tạo ra bằng nhiều kỹ thuật tiên tiến, mỗi kỹ thuật phù hợp với từng ứng dụng khác nhau. Các phương pháp này cho phép kiểm soát chính xác các đặc điểm của dữ liệu được tạo ra, chẳng hạn như ánh sáng, vị trí vật thể và điều kiện môi trường.
- Mô hình hóa và mô phỏng 3D : Các nhà phát triển sử dụng đồ họa máy tính và môi trường mô phỏng để tạo ra thế giới ảo chân thực như ảnh. Phương pháp này phổ biến trong robot và hệ thống tự động, nơi các động cơ vật lý có thể mô phỏng vật lý thực tế. Các nền tảng như NVIDIA DRIVE Sim được sử dụng để tạo dữ liệu cho việc đào tạo xe tự lái.
- Mô hình Sinh : Các kỹ thuật như Mạng Đối kháng Sinh (GAN) và gần đây hơn là mô hình khuếch tán là thành phần cốt lõi của AI sinh . Các mô hình này học các mẫu cơ bản từ dữ liệu thực để tạo ra các mẫu hoàn toàn mới, chân thực. Điều này đặc biệt hữu ích để tạo ra các khuôn mặt người đa dạng hoặc các cảnh phức tạp.
- Tạo thủ tục : Phương pháp này sử dụng thuật toán và quy tắc để tự động tạo dữ liệu. Nó được sử dụng rộng rãi trong phát triển trò chơi điện tử để tạo ra các môi trường quy mô lớn và có thể được điều chỉnh để tạo ra dữ liệu đào tạo đa dạng với nỗ lực thủ công tối thiểu.
- Ngẫu nhiên hóa miền : Một kỹ thuật trong đó các tham số của mô phỏng (như ánh sáng, kết cấu và vị trí vật thể) được thay đổi một cách có chủ đích. Điều này giúp mô hình đã được huấn luyện tổng quát hóa tốt hơn từ môi trường mô phỏng sang môi trường thực tế bằng cách buộc nó tập trung vào các đặc điểm thiết yếu. Một bài báo quan trọng của Tobin và cộng sự đã chứng minh hiệu quả của nó trong việc điều khiển robot.
Ứng dụng trong thế giới thực
Việc sử dụng dữ liệu tổng hợp đang mở rộng trong nhiều ngành công nghiệp, tạo ra những đột phá khi dữ liệu thực tế vẫn còn là một trở ngại.
- Xe tự hành : Việc đào tạo xe tự lái đòi hỏi dữ liệu từ hàng triệu dặm đường lái xe, bao gồm cả những tình huống hiếm gặp và nguy hiểm như tai nạn hoặc thời tiết khắc nghiệt. Việc thu thập dữ liệu này trong thế giới thực là không an toàn và không thực tế. Dữ liệu tổng hợp cho phép các nhà phát triển mô phỏng những trường hợp ngoại lệ này trong một môi trường an toàn, được kiểm soát, cải thiện tính mạnh mẽ của hệ thống phát hiện vật thể và định vị. Các công ty như Waymo rất phụ thuộc vào mô phỏng để thử nghiệm và xác thực.
- AI trong Chăm sóc Sức khỏe : Trong phân tích hình ảnh y tế , dữ liệu bệnh nhân rất nhạy cảm và được bảo vệ bởi các luật bảo mật nghiêm ngặt như HIPAA . Hơn nữa, dữ liệu về các bệnh hiếm gặp rất khan hiếm. Dữ liệu tổng hợp có thể được sử dụng để tạo ra các hình ảnh quét y tế chân thực (ví dụ: CT hoặc MRI) mà không ảnh hưởng đến quyền riêng tư dữ liệu . Điều này giúp tạo ra các tập dữ liệu lớn hơn và cân bằng hơn, giảm sai lệch do AI và cải thiện độ chính xác của các mô hình chẩn đoán cho các tình trạng như phát hiện ung thư da .
Dữ liệu tổng hợp so với dữ liệu tăng cường
Mặc dù cả dữ liệu tổng hợp và dữ liệu tăng cường đều nhằm mục đích cải thiện bộ dữ liệu, nhưng chúng hoạt động khác nhau.
- Tăng cường Dữ liệu : Kỹ thuật này bao gồm việc áp dụng các phép biến đổi như xoay, cắt hoặc dịch chuyển màu cho các hình ảnh thực tế hiện có . Nó làm tăng tính đa dạng của tập huấn luyện bằng cách tạo ra các phiên bản đã sửa đổi của dữ liệu gốc. Bạn có thể tìm hiểu thêm về các phép tăng cường được sử dụng trong các mô hình YOLO của Ultralytics .
- Dữ liệu tổng hợp : Bao gồm việc tạo dữ liệu hoàn toàn mới từ đầu bằng cách sử dụng mô phỏng hoặc mô hình sinh. Dữ liệu này không được lấy từ các điểm dữ liệu hiện có và có thể biểu diễn các tình huống hoàn toàn không có trong tập dữ liệu gốc.
Tóm lại, tăng cường dữ liệu làm thay đổi dữ liệu hiện có, trong khi dữ liệu tổng hợp tạo ra dữ liệu mới. Cả hai đều là những kỹ thuật mạnh mẽ và có thể được kết hợp để xây dựng các mô hình học sâu cực kỳ mạnh mẽ và chính xác được quản lý thông qua các nền tảng như Ultralytics HUB .