京东云的春晚日记:691亿次红包互动背后,一个“变形金钢”锻造而生

智东西(公众号:zhidxcom)
作者 | 三北
编辑 | 漠影

“47块!第一次抢到这么大的春晚红包,该在京东买点啥?”

“下午新耳机就上岗了~~~京东真的快!还用上了除夕摇的红包。”

“抢到的京东春晚红包,几乎免费获得一台红米k40,这运气简直没谁了,开心!”

今年春晚,秀红包成为一大新潮,动辄几十上百元的红包刷新额度,与此同时越来越多的观众利用红包在京东APP上立马下单消费,春节期间实现送货到家。最新数据显示,春晚期间15亿红包与好物遍发全球,京东APP红包累计互动量高达691亿次。

京东云的春晚日记:691亿次红包互动背后,一个“变形金钢”锻造而生

在这些背后,京东云作为本次春晚红包互动的技术保障底座,成功挑战世界上规模最大的网络互动活动以及全球最复杂场景,红包互动与“年货春运”双场景叠加,在不增加计算资源的情况下实现秒级超大规模的计算资源变阵,为春晚红包互动提供了“变形金刚”般的硬核支持。

一、春晚红包+年货春运:京东云登顶云计算的“珠穆朗玛峰”

边看春晚边摇红包,已成为近年来阖家团圆过春节的一个重要仪式。今年,春晚红包却有了新玩法,不仅能够快速流畅地体验春晚互动并分享15亿红包与好物,还能凭借所得红包奖券即时选购商品与下单,在强大的供应链履约支持下将好物迅速带回家,而这背后的技术服务支持正是来自于很多人熟知的京东云。

实际上在过去很多年的春节中,“春节不打烊”的服务让更多人能够在新春佳节这个特殊时间里见到平日熟悉的京东快递。但与往年不同的是,今年京东从腊月二十二(1月24日)到元宵节(2月15日)的时间内,在APP中增加了击鼓摇红包的环节,区别于往年的春节流量模型,这是一个集预约摇红包、正式摇红包、红包下单购物、线下物流配送等于一身的业务流程链,尤其是在除夕当晚,这种场景复杂更加凸显。

“今年在4个多小时的春晚直播中,京东技术体系需要支持红包互动及购物交易场景,两个场景差异性大,峰值频繁往返切换,技术挑战极大;另外除红包互动场景外正值年货节,京东技术体系还需要支持京东的交易、支付、客服、分拣、配送等众多业务场景,链路超长。每一个链路节点的增加,都大幅提升了项目技术系统的复杂度和保障难度。”备战团队表示。

为此,京东云在不增加计算资源的前提下,决定采用“大规模资源腾挪”的方式应对挑战。

秒级调度近300万个容器、超1000万核算力资源,在除夕当晚的红包互动过程中依靠云原生数字基础设施、混合云操作系统云舰实现了红包互动模式与“年货春运”模式之间16次无缝切换,在世界顶级流量及超级复杂场景下成功挑战极限,以超高弹性成功登顶云计算领域的“珠穆朗玛峰”。

19天的紧锣密鼓筹备、上万研发工程师高效协同、秒级的超大规模资源切换……发红包的京东人完成了一个个几乎不可能实现的任务。

京东云的春晚日记:691亿次红包互动背后,一个“变形金钢”锻造而生

二、19天备战“难上加难”,我们有“剧本”和“地图”做保障

接到电话的时候是元旦,当时2022春晚项目IDC基础保障负责人、京东云基础设施研发部高级总监常亮正和他的家人在北京长阳滑雪场休假,得知京东可能成为2022年春晚红包互动板块的支持方,他赶忙开车回到公司。

准备的时间才19天,“线上红包+线下履约”的复杂场景需求对技术要求又十分苛刻:一方面团队需要保障“春节不打烊”等全链路业务完整顺畅、用户体验良好;另一方面,团队需要应对“春晚红包互动”带来的极端并发流量,的确这次京东面临的困难很大。“我们这次的春晚红包项目会影响到全国的老百姓,必须针对可能出现的故障做好完备预案。”常亮说。

后来这些预案在京东内部被称为“应急剧本”,为业内首创。61页、2万多字,涉及基础设施、登录、支付、安全等多块业务,“应急剧本”可以说是本次春晚红包成功背后的“武功秘籍”之一。它们清楚写出了可能出现的故障、解决方案以及相应的负责人等,几乎将所有可能发生的问题都考虑在内。

据了解,这些剧本有的会涉及应用层面,比如当用户收不到手机验证码导致有些重要功能很难实现时就会被投诉,怎么处理?按照应急剧本,会马上启动和微信、QQ拉通的一键登陆来解决。

京东云的春晚日记:691亿次红包互动背后,一个“变形金钢”锻造而生

但这些应用层面问题并不是最棘手的,最棘手的问题在于基础设施故障。比如CDN被打爆了怎么办?公网出口中断了该如何?这些问题都可能让整个春晚红包互动“翻车”,为此应对网络中断问题,会有一个关键负责人紧急做专线切换操作并在一分钟内生效。“就像《哈利波特》最后一集中女校长谈到的一样,她一生中特别激动的是用一个咒语将整个霍格沃茨的石像鬼复活去抵御伏地魔大军,而这位专线切换的负责人也是类似的角色,一人按键瞬时切换成功。”

此外链路压测是“应急剧本”的一大补充。“在备战过程中,通过多达7轮的压力测试,其中还包括公网压测以及断网演练等,反复练习预案的操作步骤并观察效果,同时还要考察系统上运行的应用的健康度,进而验证剧本是否符合预期效果并不断调整,更好应对突发的业务异常和模块异常等情况。”

所谓“将军不打无准备的仗”,除了“应急剧本”,在春晚红包活动前,技术团队还通过“流量地图”这一独特方式对流量精准预判。根据过往观看春晚并参与活动的多维数据,经分析后提前预判地域流量差异再将资源的针对性部署。“我们还会根据目前掌握的数据分析预判大流量可能出现的环节,并做好对应的资源部署与调整的同时,预判流量流转的路径以及走向,做好把控和引导及时响应资源需求来进行扩缩容,确保‘有限的资源用在刀刃上’。”

京东云的春晚日记:691亿次红包互动背后,一个“变形金钢”锻造而生

19天备战、近万人研发协同、最终达成近600个需求被快速拆分、3000多个任务被有效跟踪、600多个上下游系统的快速交付、数百万核资源的快速扩缩容……“很多年前,我们会去想大规模场景到底怎么去支撑;成功实践了三四年之后,我们的心就沉下来了,感觉像‘618’、‘11.11’这种场景对我们来说也毫无压力。现在碰到春晚这样极具挑战的事儿,感觉又重新激发了我们追求极致的那股干劲儿!”备战团队沈建林向我们讲述。

三、以少胜多、以简驭繁 京东云如何炼就“变形金刚”?

实际上京东云面对的并不仅仅是“新战场”,更是一块检验底层云技术的试金石。短短19天的时间内,面对如此复杂的场景要求,通过大规模扩充服务器资源基本是不可能的事儿,这是一场“以少胜多”的技术仗。

在早几年春晚红包互动中,大部分企业还是会选择新增大量服务器的传统方法做相应活动的筹备支持,但今年京东云选择在不增加资源的情况下,仅仅就是通过之前“618”以及“11.11”的资源在内部快速腾挪以及扩容,从而省去额外购置上万台服务器的成本。

“以前大家提到云,往往是像自来水一样堆算力、存储和网络资源,而当下云技术的核心则聚焦在资源于不同场景中的灵活调度。”本次春晚红包互动项目,京东云正是展现出其“变形金刚”般的云资源部署调度能力,能够根据场景不同来快速“变身”,满足不同的任务需求。

京东云的春晚日记:691亿次红包互动背后,一个“变形金钢”锻造而生

「灵活敏捷,这是“变形金刚”的显著特征」备战团队除了通过“流量地图”精准预测和引导流量来完成资源灵活布局之外,还依靠混合云操作系统云舰实现资源秒级调度,做到最优的集群调度以及一次作业调度,确保全局资源编排和成本最优、系统运行最稳。

其中云舰内嵌的智能调度系统,充分利用了机器学习、深度学习智能算法,对应用的资源使用情况进行预测,弹性地对资源进行优化。同时针对本次春晚红包互动还采用了超大规模离在线混部技术,可实现错峰的数据计算功能,实现有限资源的高效率充分利用,让算力发挥最大价值。

值得一提的是,春晚红包互动场景的主要难点在于“红包+消费”叠加带来的全链路复杂度,为此团队制定了分级标准(SABC)达成资源的最优调配,确保在互动过程中高优先级的应用系统尽量多的得到资源使用机会,做到“更少资源办大事儿”。

所以在主持人口播之时,京东云快速将系统资源调整到“春晚互动”模式,资源全面向春晚红包互动涉及的链路倾斜;在口播结束一段时间,抢红包的洪峰退潮之后,再迅速切换为“年货春运”模式,即支撑从前端App平台、订单、结算等到后端仓储、配送等与年货春运相关业务系统。如此互动,京东云控制超大规模计算资源极限变阵,成功实现4小时内16次秒级精准腾挪应对极限双场景,犹如表演“大象走钢丝”。

京东云的春晚日记:691亿次红包互动背后,一个“变形金钢”锻造而生

「稳定有序,这是“变形金刚”的硬核底气」机房断电宕机、硬盘故障、网络连接断开……这些故障对于 “春晚红包互动”这个国民级活动来说简直是”灾难”。除了首创异常演练预案“剧本”为项目提供了稳定有序的支持外,在京东云打磨多年的云原生架构支持下,基于京东体系多年积累的混沌工程能力,京东云沉淀出稳定性主动管理系统云泰,可以对外输出可见、可查、可管、可控的稳定性解决方案,提供稳定性主动测算、故障注入与演练、全链路压测、红蓝对抗和基于“稳定性基线”的评分服务等核心功能,从容平稳地应对大规模复杂流量场景的挑战。

京东云的春晚日记:691亿次红包互动背后,一个“变形金钢”锻造而生

「高效协同,这是“变形金刚”背后的超能战队」短于寻常的19天备战时间,数十个部门参与备战,京东如何在组织上保证敏捷协作与快速落地?其实在备战最初,京东已经指定备战总指挥统一协调整个京东横跨零售、科技、物流等多个部门的所有研发团队,召集超3000名技术人员参与了春晚项目的技术攻关与保障工作,除夕当天参与一线值守的技术保障人员近2000人,总体超万名技术人员协同作战。

而支持这场超大规模作战的,就是多年来积淀而成的京东云一站式研发协同平台“行云”,它覆盖从需求、开发、测试、发布、运维、运营整个生命周期。“从春晚项目立项的那一刻开始,所有核心备战人员就已经通过‘行云’知道了本次项目的战略地位,近万人很快对齐了目标与规划等。”在行云平台支持下,京东研发体系具备了整齐划一、快速作战的能力。

如今的京东云可通过一站式安全、高效生产体系来助力研发进行全链路、全方位的架构升级和精细化资源管理,做到越来越多依靠系统来确保重大节点的稳定,是快速平稳应对特殊业务场景的能力修炼,更是常态化备战的经验积淀。

今年春晚,常亮以及同事们都没能和家人们除夕团聚,守在电视机前一起观看春晚,但他们的心中却有不一样的喜悦。“当老百姓们都打开京东APP参与摇红包时,我们一线人员会非常骄傲自豪,这是大家一起努力得到的成绩。”

结语:一肩挑两大极端场景 成功诠释“中国云”力量

19天紧急备战、超万人春节坚守……京东云在首次不增加服务器资源的情况下独自支持春晚互动,不依靠物理资源的堆砌而凭借先进云计算部署调度技术来实现稳定、灵活的底层资源支持,经受住了春晚互动史上最严酷考验:一肩挑战“四宗最”——最短备战时间、最长流量冲击周期、世界上规模最大的网络互动活动、全球最复杂春晚红包互动场景。

从 “春晚红包互动” 到“春节不打烊”,从拼抢资源到修炼敏捷灵活的调度能力,从流量争夺到实体消费驱动,本次春晚红包互动不仅是一场全民线上线下的狂欢,还用一场“国民级”活动丈量了“中国云”力量;不仅了改变春晚互动红包的玩法,更是将线上盛会与线下消费无缝链接起来的首次:为互动带来美好体验,更将落脚点深深扎根实体消费增长上。

春晚流量洪峰的背后,是以全国“年货春运”中零售和物流等整体供应链履约为代表的庞大而复杂的世界级的供应链应用场景,涉及前端App平台、订单、结算、支付、搜索、推荐,到后端的仓储、配送、客服、售后等多种业务系统。可以说,依靠多年在业务场景淬炼而成的“云链一体”高响应、高敏捷能力,京东云做到了从单纯“上云”满足业务需求,到“更用好云”提升创新效能的示范,不仅仅展现了云计算硬核技术实力,更能够看作是行业创新发展的一道光,熠熠生辉。