打通AI数据全生命周期管理!星尘数据MorningStar平台发布,要破解“数据债”难题

智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影

智东西3月12日报道,3月11日,北京AI数据技术公司星尘数据(Stardust AI)推出一站式AI全生命周期数据管理平台MorningStar。该平台全面覆盖AI算法从训练到生产全链路中的数据管理、迭代、优化、挖掘等闭环链路,操作便捷、功能丰富,能够支撑企业Al数据高效迭代的关键环节,避免数据债风险积聚、低价值数据成本浪费、模型训练与应用效果反馈链长等问题。

目前MorningStar数据管理平台已开放申请,主要服务机器学习算法工程师、业务人员、技术管理人员三类用户,可满足不同类型需求,涵盖数据难例发现和模型迭代,指标跟踪;数据价值挖掘、业务效果反馈,运营测试;数据要素管理和企业价值沉淀等丰富的使用场景。

据星尘数据创始人兼CEO章磊分享,这是首款专注数据价值发现的AI数据平台,也是首款集合难例发现策略的数据闭环产品,MorningStar的设计灵感源自人的海马体。在他看来,只有“记忆”是属于企业自己的,企业的核心知识、信息和数据就像人的海马体一样,应该存在于企业内部的固定数据管理系统中。

数据质量、数据策略和数据全生命周期的管理在很大程度上影响AI模型的效果。“就像你可以请到最优秀的厨师来做菜,但原材料必须是企业自己的,这样才能确保菜品的独特性。”章磊说。

打通AI数据全生命周期管理!星尘数据MorningStar平台发布,要破解“数据债”难题

星尘数据成立于2017年5月,2022年底公布A轮融资5000万人民币,提供SaaS标注平台和数据管理服务,横向服务全场景AI数据标注能力。

其服务形式包括私有化部署、SaaS化在线服务和开源版本,旨在降低数据门槛,特别是对高校和科研机构提供支持。软件版本已准备就绪并已吸引众多客户,SaaS版本将在下个季度推出。

一、企业数据成为AI 2.0时代差异化竞争力

星尘数据创始人&CEO章磊首先分享了AI行业的4个趋势:

趋势一,数据技术是驱动AI发展三次变革(深度神经网络、Transformer架构、大语言模型)的核心原因,2022年GPT模型在数据预训练、人工反馈和训练机制上取得突破的背后,是数据价值进一步提升和精炼。

趋势二,数据管理模式正在经历职责分化,从以人为中心的协作走向以数据为中心的协作,需要一个以数据为中心的载体,来清晰表达数据背后的语义信息,消除企业“数据债”。

打通AI数据全生命周期管理!星尘数据MorningStar平台发布,要破解“数据债”难题▲机器学习全生命周期的数据债

简单来说,数据债是指企业当前状态与最大化数据价值之间的差距,包含算法和其他部门的认知差别、项目时间上的认知差别、文档和数据语义的差距、不同数据集定义之间的差距等,不仅会导致数据价值无法释放、运营成本不断增加,还会影响模型的上线和迭代效率。

趋势三,AI生态发展将以数据闭环为中心。过去以模型研发为中心,数据相对固定,模型不断迭代。但现在模型架构变化不大,真正变化的是背后数据,涉及训练策略、数据清洗、数据整理、数据分布以及人类反馈等方面。

趋势四,通过AI可以打造企业的超级员工,使企业生产力将提速10倍。这将使企业成为一个24小时运转的超级大脑,所有员工围绕大脑不断沉淀数据和大模型,将大模型的能力赋能给企业。

章磊认为,企业数据成为AI 2.0时代的差异化竞争力。可管理、可挖掘、可迭代、可优化的企业数据,才能打造属于企业自己的数据管道。

据华映资本管理合伙人章高男分享,未来各行各业都可能拥有自己的定制化AI模型,这将导致对数据管理需求的显著增长。MorningStar平台开始尝试满足市场对训练数据管理解决方案的需求。随着市场扩大,这不仅仅是关于标准化流程的落地,而是有望带来更广泛的商业机会。

二、消除企业AI数据债问题,打通AI数据全生命周期管理

MorningStar是一款满足AI 2.0时代数据管理需求的数据管理工具,旨在为算法工程师提高非结构化数据管理效率,为企业节省数据资产管理成本和模型上线迭代时间。

该平台集成了八大功能,具有领先的数据生命周期管理、全面的数据挖掘工具、强大的指标追踪与难例发现能力、高效合规的数据资产管理等产品优势,能够助力挖掘数据价值,让算法开发更流畅、更敏捷。

打通AI数据全生命周期管理!星尘数据MorningStar平台发布,要破解“数据债”难题

谈及与Databricks的区别,章磊解释说,首先,MorningStar作为AI数据管理系统,服务于机器和算法,而Databricks数据库是为人类管理和分析而设计的;其次,数据库解决的是海量数据的快速查询和分析检索能力,MorningStar的定位则在于数据价值的发现和迭代,以支持模型训练。

下图蓝色部分是MorningStar覆盖的功能区域,每一块功能都有相应的开源工具可替代。从数据集成到ETL(提取、转换、加载),再到数据训练和模型训练,模型和数据之间有着密切的互动。MorningStar的核心在于数据闭环和迭代的重要性,而不仅仅是单一功能。星尘数据希望与生态伙伴一起合作,通过整合实现整体价值。

打通AI数据全生命周期管理!星尘数据MorningStar平台发布,要破解“数据债”难题

MorningStar共有三大功能模块:

一是以数据为中心的协作。目标是促进企业内部数据的精确认知,支持多维度、细颗粒度的数据语义信息管理,以提高跨部门协作效率。其可视化工具可帮助用户更好地理解数据分布,多模态场景标签和语义检索工具增强了数据的可发现性。多维度指标和可视化精准定位不仅能够提高管理和协作效率,而且有助于发现模型缺陷。

打通AI数据全生命周期管理!星尘数据MorningStar平台发布,要破解“数据债”难题

二是人类反馈数据通道。这与数据标注密切相关,都是通过人工提供价值。在模型生产、开发和使用过程中,需要人类的信息和认知来提高大模型的性能,包括对难以挖掘的数据进行确认反馈、合成数据的质量反馈以及大模型的反馈。

打通AI数据全生命周期管理!星尘数据MorningStar平台发布,要破解“数据债”难题

MorningStar具备丰富的数据挖掘工具,兼容各类难例数据发现策略,支持深入挖掘数据价值,包括细颗粒度可视化、指标计算、数据分布探索、跨模态数据检索等,能够通过人工监督、语义检索、特征生成和数据增强等手段,用更低成本获取最优算法,并通过可视化的数据挖掘逻辑,帮助用户发现并解决模型训练中的难题,助力算法迭代降本增效。

三是指标追踪和模型评估分析。星尘数据联合港科大打造的CIF-Bench自动化评测即将上线:28个模型评测榜单,重点评估了20种基础维度,考察模型在150类任务上的指令遵循能力。

榜单链接:https://yizhilll.github.io/CIF-Bench/

打通AI数据全生命周期管理!星尘数据MorningStar平台发布,要破解“数据债”难题

作为首款集合难例发现策略的数据闭环产品,MorningStar能够保证模型训练过程可追踪可迭代。算法工程师可通过平台进行模型真值对比,通过一系列数据追溯、模型调试和分析生成工具,发现难例数据,一键送标至Rosetta数据标注系统。

打通AI数据全生命周期管理!星尘数据MorningStar平台发布,要破解“数据债”难题▲通过选择不同的数据版本,实现算法预测结果和真值的对比,并结合可视化功能便捷地定位和分析难例数据

一位自动驾驶算法工程师曾反馈,原本需要花费1天时间才能发现的难例,通过平台只需要1-2小时即可,大大提高了迭代效率。

此外,MorningStar提供了协作和共享功能,支持数据权限管理,使团队协作更安全。企业可以创建多个用户账号,控制数据访问权限,并支持实时协作编辑数据。

三、注重数据价值发现,帮助企业大幅节约数据成本

星尘数据提供了丰富的数据探索工具,帮助用户快速完成数据应用和算法迭代的准备工作。在AI研发过程中,每位工程师的离职或加入都可能导致数据语义信息的丢失。而星尘数据的数据生命周期管理功能可确保数据的一致性和可追溯性,确保业务DNA不会丢失。

打通AI数据全生命周期管理!星尘数据MorningStar平台发布,要破解“数据债”难题

算法工程师可以通过MorningStar进行AI数据生命周期的管理,强化数据版本控制、快捷数据切片、可追溯数据血缘和安全管控。平台的自动化工作流能够确保数据在每个阶段都能得到妥善管理和最优化处理。

管理数据涉及数据的沉淀、检索、查看、安全、调用等多方面。星尘数据更加关注数据价值的发现,即识别出在特定情况下对模型有重要价值的数据,并在需要时提前将其找出。星尘数据正在进行的概念验证(POC)便为了实现这一目标。

尽管大模型已经利用了大量的互联网数据,但星尘数据团队相信,企业的私域数据才是真正具有价值的。因此其首要任务是统一数据视图,标准化企业的数据资产管理,包括实现超大容量的数据沉淀、支持多源数据接入,以及提供多模态数据的可视化。其次,星尘数据关注多维度生产要素的管理和决策优化,帮助企业更好地管理和利用其数据资产,从而做出更明智的业务决策。

打通AI数据全生命周期管理!星尘数据MorningStar平台发布,要破解“数据债”难题

星尘数据致力于为企业和团队负责人提供企业级数据要素管理分析,帮助他们便捷获取和分析资产规模、内容分布、归属权、价值度以及活跃信息和其他关键属性。通过制定数据冷热策略,甚至定期删除策略,企业可以大幅节约数据成本。

MorningStar支持对多维度细粒度数据的分类盘点,可促进企业内部数据深度理解,提高企业跨部门协作中数据流转效率,同时保证数据安全。

数据安全是星尘数据关注的首要问题。在合规审计和数据安全方面,已与数十家自动驾驶车企合作的星尘数据拥有丰富的经验。MorningStar通过防止数据被篡改或损坏,保障数据的完整性,提供数据访问控制和审计功能,便于企业追踪和监控数据的使用情况。

章磊分享了几个客户案例,例如一家自动驾驶公司,以前采用多种线上线下的数据产品和工具,面临数据经多种工具跨平台处理难以被统一化管理的问题,MorningStar则帮其解决了数据闭环打通管理、模型高效评测和分析、价值数据发现等方面的挑战。

还有一家世界五百强综合企业集团公司,企业数据散落在企业内部各服务器,难以整合、盘点和灵活使用。MorningStar通过多源、多格式、异构数据接入和多模态数据可视化,帮助该公司管理产品和生产数据,并提高了内部管理和协作的效率。

结语:持续推进数据技术创新,让AI算法迭代更高效

数据直接影响AI模型的准确性。一个完整的机器学习全生命周期的数据管理系统,不仅能够支持企业高效迭代AI数据的关键环节,避免数据债风险的积累,还能减少低价值数据成本的浪费,解决模型训练和应用效果反馈链条过长等问题,进而提高整体工作流程的效率。

此前星尘数据在自动驾驶领域积累深厚,支持市面上99%以上的自动驾驶场景数据标注,已覆盖90%头部自动驾驶客户。在生成式AI领域,星尘数据深度参与COIG-PC数据集开源,并推出了COSMO大模型数据金字塔解决方案,致力于建立包含各行各业的高品质中文数据集。

作为AI数据服务的先行者,星尘数据除了用MorningStar助力AI 2.0发展外,还将持续以数据为中心,推出新的功能和服务,以满足用户不断变化的需求。