达摩院发布首个中文表格预训练模型

智东西12月2日消息，达摩院深度语言模型体系AliceMind发布中文社区首个表格预训练模型SDCUP，该模型在全球权威表格数据集WikiSQL、SQuALL上取得了业界最优效果，且模型和训练代码均已对外开源。（https://github.com/alibaba/AliceMind）

SDCUP基于“模式依存”方法，通过模型直接预测自然语言与表格结构内容的关键词映射，提升了表格问答的准确率。具体而言，即参考语义依存分析方法对Schema Dependency任务建模，使用全连接网络获取每个节点作为父亲节点和作为孩子节点的语义表示，然后使用双仿射网络预测每个边存在的概率和该边关系类型的概率。同时，团队使用了模仿人类的“课程学习”方法减少数据噪声。

在耶鲁大学发布的业界最大规模的英文文本-表格数据集WikiSQL，以及微软构建的英文文本-表格高难度预测任务SQuALL数据集上，SDCUP模型均取得业界最优效果。在达摩院构建的表格问答中文数据集TaBLUE上，SDCUP比同参数规模BERT模型效果提升约3个百分点。

达摩院资深算法专家李永彬介绍，SDCUP模型是达摩院表格对话技术系列研发的一部分，后续将持续对外开源。其相关技术先后在四大国际公开数据集WikiSQL、Spider、SParC、CoSQL上取得第一。该技术完成了产品化，已通过阿里云智能客服为政务、金融、零售等行业客户提供表格问答和数据库自然交互服务。