OpenAI推新模型能用文本直接生成图像

OpenAI 最近连发大招，提出两个连接文本与图像的神经网络：DALL·E 和 CLIP。DALL·E 可以基于文本直接生成图像，CLIP 则能够完成图像与文本类别的匹配。

其中， DALL·E 可以将以自然语言形式表达的大量概念转换为恰当的图像。比如，给出一句话「牛油果形状的椅子」，就可以获得绿油油、形态各异的牛油果椅子图像。

此外，它还可以将动物和物体拟人化，将一些无关的概念以一种合理的方式组合起来。比如，输入穿着芭蕾 tutu 裙遛狗的胡萝卜，就能得到如下图像。

另一个神经网络 CLIP 能够可靠地执行一系列惊人的视觉识别任务。给出一组以语言形式表述的类别，CLIP 能够立即将一张图像与其中某个类别进行匹配，而且它不像标准神经网络那样需要针对这些类别的特定数据进行微调。