释放人工智能/人工智能合成数据的力量!克服数据稀缺、隐私问题和成本问题,同时促进模型训练和创新。
合成数据是指模仿真实世界数据的统计特性而人为生成的信息,而不是直接从真实事件或测量中收集而来。在人工智能(AI)和机器学习(ML)领域,合成数据是真实训练数据的重要替代或补充。当收集足够的真实世界数据存在困难、昂贵、耗时(数据收集和注释指南)或引发数据隐私问题时,合成数据就显得尤为重要。这种人工创建的信息有助于训练模型,例如 Ultralytics YOLO等模型,测试系统,探索现实中可能罕见或危险的场景,最终提高创新能力和模型性能。
根据所需的复杂性和保真度,合成数据生成采用了各种技术。一些常见的方法包括
合成数据为人工智能开发和计算机视觉提供了多项重大优势:
在计算机视觉领域,合成图像经常被用来训练任务模型,如物体检测、图像分割和不同条件下的姿态估计(如不同的光照、天气和视角),而这些条件在现有数据集中可能很难找到。
合成数据应用于众多行业:
其他应用包括金融建模(AI in Finance)、零售(AI for Smarter Retail)和机器人培训。
虽然合成数据和数据增强都旨在增强数据集,但它们是不同的概念:
从本质上讲,数据扩增可以扩大现有数据的差异,而合成数据则可以创建全新的数据点和场景,为通过Ultralytics HUB 等平台管理的人工智能模型训练提供了一种补充甚至替代真实数据的强大方法。