用AI合成数据训练AI，AI模型训练新市场涌现

智东西（公众号：zhidxcom）
编译 | 铭滟
编辑 | 徐珊

智东西7月25日消息，据纽约时报报道，微软、OpenAI和Cohere等公司正在测试使用合成数据（计算机生成的信息）训练大语言模型（Lare Language Models，LLM）。合成数据一般用于训练LLM。目前使用人造数据的最复杂形式即为合成数据，使用合成数据训练或有助于进一步训练AI模型。

开发人员表示，来自网络的通用数据已不足以进一步提升AI模型的性能。多家AI公司已经将目光转向合成数据。

今年5月，OpenAI首席执行官Sam Altman曾被问及是否担心监管机构对ChatGPT潜在侵犯隐私的调查。Altman对此表示，“非常有信心将所有数据都更换为合成数据”。

一、合成数据能进一步满足AI模型训练需要

AI创企Cohere的CEO Aidan Gomez曾说：“如果你能从网络上获取所需的所有数据，那就太棒了。但实际上，网络环境嘈杂混乱。它并不能满足我们对数据的需求。”

用AI合成数据训练AI，AI模型训练新市场涌现

▲图为Cohere的CEO Aidan Gomez

为了提高AI模型的性能并应用于科学、医学或商业等领域，AI模型需要专门且复杂的数据集用以训练。这些数据要么由科学家、医生、或工程师等领域内专家创建，要么从制药、银行和零售商等大公司获取专门数据。但是，“人类创建的数据非常昂贵”，Gomez说。

使用合成数据则避免了这笔支出。AI公司可以使用AI模型，合成与医疗或金融相关的数据。然后，将这些合成数据用于培训LLM。

Gomez表示，Cohere及其他几个AI公司已经使用了合成数据，然后由人类进行微调。“即使合成数据没有广泛传播，它所包含的内容量已经很大了。”Gomez说到。

例如，为了训练AI模型，Cohere可能会让两个AI模型相互对话，其中一个充当数学老师，另一个充当学生。

“两个AI模型对话围绕数学的三角学展开，而这些内容都是AI生成的。”Gomez说，“这一切对话都只是AI模型的想象。然后，人类会查看这段对话，如果模型说错了什么，人工就会介入并纠正。这就是我们正在做的事。”

微软研究院最近的两项研究表明，合成数据可用于训练比OpenAI的GPT-4或谷歌的PaLM-2等LLM更小、更简单的模型。

第一项研究是由GPT-4生成的短篇小说的综合数据集，其中只包含一个典型的四岁孩子可能理解的单词。这个数据集被称为TinyStories，然后被用来训练一个简单的LLM，它能够生成流畅且语法正确的故事。

另一项研究为，AI可以通过教科书和练习形式，合成Python代码进行训练。研究发现，这些代码在编码任务上表现相对较好。

在合成数据这个新兴市场中，Scale AI和Gretel.ai等初创企业如雨后春笋般涌现，提供合成数据服务。Gretel由美国国家安全局和中央情报局的前情报分析师创立，曾与谷歌、汇丰银行、Riot Games和Illumina等公司合作，通过合成增强现有数据，帮助AI企业训练更好的AI模型。

二、合成数据的潜在风险不容忽视

Gretel首席执行官Ali Golshan表示，合成数据可以保护数据中的个人隐私，同时仍然保持数据统计的完整性。

他补充说，经调整后的合成数据还可以消除现有数据中的偏见和不平衡。“创建对冲基金的AI模型可以用于观察黑天鹅事件（指难以预测，但突然发生时会引起连锁反应、带来巨大负面影响的小概率事件，它存在于自然、经济、政治等各个领域）。比如说，创建一百种变体来观察我们的模型是否崩溃，”Golshan说。对于银行来说，欺诈行为通常只占总数据的百分之一以下，Gretel的软件可以生成数千个有关欺诈的边缘案例场景，并用于训练AI模型。

但是，合成数据的批评者指出，并非所有合成数据都会使用真实反映或改进现实世界的数据。随着AI生成的文本和图像充斥互联网，AI公司不断在网络上抓取训练数据，最终很可能走向重复抓取自己模型的原始版本生成的原始数据——这种现象被称为“内部测试（dog-fooding）”。

用AI合成数据训练AI，AI模型训练新市场涌现

牛津大学和剑桥大学等大学近期的研究也对此发出警告。研究称，根据AI模型的原始输出（可能包含虚假或捏造）来训练AI模型，随着时间的推移，这种方式有可能会破坏和降低技术性能，从而导致“不可逆转的缺陷”。

Golshan同意这种观点，他也认为使用不良合成数据进行训练可能会阻碍AI模型迭代。“网络上充斥着越来越多AI生成的内容。我也认为随着时间的推移，这将导致生成式内容退化，因为LLM只是不断重复旧有的知识，没有任何新的见解。”

尽管存在上述风险，Cohere的Gomez等AI研究人员表示，合成数据也有可能加速超级智能AI系统的发展。

Gomez说：“我们真正想要的是能够自学的模型。你希望他们能够做到提出自己的问题，发现新的真理并创造自己的知识。这才是梦想。”

结语：AI企业是否将大规模应用合成数据仍有待观察

目前AI企业对AI模型的训练主要基于通用数据。在现有状况下，如果AI企业意图寻求新的数据训练AI模型，可选择的方式包括专业领域数据库和合成数据等。但是，专业领域的数据鉴于专业价值及个人隐私等因素，难以用于AI模型训练。所以，部分AI企业会选择成本相对较低的合成数据训练新的AI模型。

但在合成数据的使用过程中，有两点值得保持警惕：一为数据关联的个人隐私问题，合成数据首先应确保数据合法；二为数据的反复使用，即“内部测试（dog-fooding）”。如果反复喂入AI模型的数据并未发生实质性迭代，AI模型的功能或可能出现缺陷等性能问题。

来源：纽约时报

一、合成数据能进一步满足AI模型训练需要

二、合成数据的潜在风险不容忽视

结语：AI企业是否将大规模应用合成数据仍有待观察

相关推荐