虎年春晚抢红包了吗?
“各位观众朋友,看春晚,打开JD.COM APP,摇一摇,分成15亿红包好物。”2022年央视春晚,全国人民跟着主持人的口令,在一家人聚在一起看晚会的温馨时刻,抢到一轮又一轮丰厚的红包和年货。
15亿元的总收入创下了历年春晚的新纪录。与此同时,春晚红包参与人数格外引人注目。根据本次春晚独家互动合作伙伴JD.COM公布的数据,中国人在JD.COM APP红包的累计互动达到691亿次。此外,JD.COM还联合各大品牌送出了许多年货。在春晚40年的历史中,这是第一次向观众发放实物奖品。
在中国科技领域,春晚红包的互动项目一直是“史诗级挑战”。2015年央视春晚开始尝试和科技公司一起发红包,亿级的流量一度让宕机成为常事。
然而,近年来,这种情况有所改善。今年春晚,在红包和好物的双重考验下,JD.COM APP在除夕夜依然保持了流畅的体验,没有出现卡顿和宕机的情况。这背后是京东云的计算资源和技术实力提供的坚实支撑。
奋战在一线的京东云工程师
春晚保卫战:全球最大规模、最复杂场景的高流量并发实战
给春晚观众发红包有什么难度?《天下第一流》的观众数量自然是一个无法回避的话题。
在全球电视节目中,美国收视率最高的节目是超级碗足球决赛,2021年电视观众达9162.9万;在欧洲,是欧洲杯决赛,2020年有3.28亿观众;放眼全球,2018年最具影响力的FIFA世界杯决赛有11.2亿人观看。
但在春晚面前,这些数字都相形见绌。2021年,央视春晚直播用户受众达到12.72亿人。其中,新媒体直接点播用户数为7.34亿;用户总浏览量达到49.75亿次。除了中央电视台,还有170多个国家和地区的620多家媒体转播了央视春晚。
12亿的观众规模,如果按照50%的转化率计算,则高达6亿。春晚红包互动的另一大挑战在于短时间内集中涌入庞大的观众群。绝大多数参与红包互动的春晚观众,都会在主持完人口播后的几秒钟内涌入APP。它的QPS(每秒请求数)可以达到几千万甚至上亿。
“这相当于让春运的所有旅客同时集中在12306网站上抢同一趟车的票;或者连续几年双11活跃用户,集中在1分钟内一起‘动手’。”有业内人士这样评价春晚红包的并发数据。
更可怕的是,春晚期间,这种规模的交通影响不止一次。今年除夕,推出了七轮摇红包。主持人的每一次口播都是洪峰,让春晚红包互动的复杂程度进一步增加了至少一个数量级。
这无疑大大提高了春晚红包项目的技术保障门槛。2019年,App创始人罗振宇在新年致辞中透露,曾与春晚洽谈红包合作,但被对方婉拒:“去年春晚要满足一个‘小门槛’——产品日活跃要超过1亿。否则广告一出,你的服务器就崩溃了”。
2022年,JD.COM面临的挑战不仅限于此。今年1月5日,央视官方宣布,今年春晚红包的互动伙伴将在JD.COM度过。1月24日,春晚红包互动订票活动公布。这意味着
但今年,面对极短的准备时间和上游供应链的短缺,JD.COM没有选择加服务器的老路,而是尝试在现有计算资源的基础上,进行高效灵活的调度分配,用“匠心”取代“蛮力”来面对春晚的挑战。
春晚红包背后,京东云上演“乾坤大挪移”
2022年元旦期间,JD.COM部分高管接到紧急通知,立即返回公司开会。在这个高度机密的会议上,很多高管第一次得知JD.COM要参加2022年虎年春晚的红包互动项目。
1月5日,央视正式宣布京东成为虎年春晚红包互动独家合作伙伴。与此同时,在JD.COM立即启动了密集的技术协调准备工作。
为了支持春晚工程,JD.COM集团技术系统的3000多名技术人员参与了春晚工程的技术研究和支持工作。除夕夜,近2000名技术人员参与一线技术保障工作,万余名技术人员协同工作。至于春晚项目本身,将近600个需求快速拆分,3000多个任务需要有效跟踪,同时600多个上下游系统需要快速交付.因此,这是一个超大规模的研发;d协同作战。
京东云产品研发工程师;d部门讨论春晚项目。
解决人员的协调,春晚项目中最难的计算资源分配才刚刚开始。如何应对史上最具挑战性的春晚互动?在京东云的技术团队看来,照搬传统的“堆积资源”的解题思路才是上策。一是短期临时投入过大,与京东云长期追求精细化研发相悖;资源管理概念。二是疫情导致的全球供应链紧张,使得堆叠资源的客观路径不可行。
基于多年来对JD.COM 618、JD.COM 1
1.11的丰富技术经验,京东云决定另辟蹊径,充分发挥云计算高弹性的优势,闯出一条新路。这条新路就是在不增加计算资源的背景下,对现有资源进行云端的灵活敏捷调度腾挪,实现快速变阵。如何在资源零增加的基础上,保证系统的稳定运行,把用户体验做到极致呢?京东云有两手绝活――云原生数字基础设施和混合多云操作系统云舰,依托云原生数字基础设施和云舰,京东云得以秒级调度近300万个容器、超1000万核算力资源,以超高弹性成功登顶云计算领域的“珠穆朗玛峰”。
第一,京东云本身就建立在云原生架构上,运营着全世界最大规模的Docker集群、Kubernetes集群,以及最复杂的Vitess集群之一。全面的云原生化,让京东云可以快速适应不同地域、不同设备的部署环境,实现资源快速灵活平滑扩容,从容平稳地应对大规模复杂流量场景的挑战。
第二,所有容器都跑在京东云的混合多云操作系统云舰上,进行灵活实时的统一资源调度。云舰内嵌的智能调度系统,通过人工智能算法,对应用的资源使用情况进行预测,弹性地对资源进行优化,将算力优先调度给需要高算力的业务中。每一条业务线的日常流量都存在波峰、波谷,而云舰内置的阿基米德平台则可以根据每一项业务的资源需求,动态调节资源量,以实现资源利用效率的最大化。
在春晚期间,这一技术被京东云云舰利用到极致。在主持人口播期间,云舰将绝大多数资源调配至春晚相关应用链路,保障春晚红包项目稳定运行,让用户抢红包不卡顿、不宕机。而在每一轮口播结束,用户则会涌入京东APP的各种业务应用,云舰则在分秒间再一次将计算资源调配至业务应用线路,保障消费购物场景的丝滑体验。
在整个春晚期间,主持人发起了7轮口播,京东云则在后端完成了14次模式切换。加之最初的资源池搭建及春晚结束后的资源池解散,在整个除夕夜,总计完成了16次对计算资源的“乾坤大挪移”,资源调配都在秒级完成。
与此同时,京东云也针对春晚用户的行为习惯及操作逻辑,进行了针对性的全链路优化。用户每一次访问操作的资源消耗,都被精准地优化、控制在最低限度。在此基础上,京东云在春晚正式开始前完成了7轮压力测试,在模拟场景下检验京东云的准备工作。
智能化系统分级也功不可没。京东云在全面容器化的基础上,依托全系统应用的自动化排序分级,自动完成非核心应用的占用资源缩容(如网格搜索服务、订单台账查询、APP购物车服务、结算网关、运费系统等上千种应用),为核心应用腾挪出足够资源,实现在资源一定的前提下,满足用户的核心需求。
在春晚期间,京东后端运行的所有项目都被划分为S、A、B、C四个等级。与春晚红包链路相关的项目被划分为S级,获得了最优先的资源保障权。用户账户、交易、支付等核心数据被列为A级,仅次于春晚红包链路。而其他业务则会在春晚的数小时内临时降级,以优先保障春晚项目的运行。
在云端,每一分计算资源被利用到极致;而在线下,各类极端黑天鹅事件也被京东云列入预案。春节前夕,京东云将柴油发电机开到了各个机房,并配置了足够支撑12小时的防冻柴油,以防临时停电;此外,京东云也协调了各个机房园区附近的施工单位,尽量避免在春晚期间动工,以免挖断光缆等意外出现。
2022年,春晚红包互动进入第8年。有了往年的经验教训,京东云与央视得以将各类意外情况列入预案之中。在京东云内部,即便是最简版的预案剧本,也有整整61页,机房专线中断、CDN过载、短信通道堵塞等极端事件都得到了演练,并制定了相关的备用策略。
按照往年春晚红包项目经验,春晚会吸引大量新用户下载、注册、登陆京东App,应用商店和短信发送通道等供应商也与京东云一同奋战,在春晚期间应对流量洪峰。以往应用商店宕机、用户收不到登陆注册验证码等现象也并未在今年复现。
此外,京东的物流、供应链团队,则完成了春晚项目的最后一重考验。今年是京东“春节也送货”的第十年,无论是用春晚红包购买的商品,还是春晚上领到的好物年货,都被及时送货上门。
打赢春晚保卫战,京东云收获了什么?
仅19天备战时间,不增添1台物理服务器,京东云用最有限的资源,完成了一场最具挑战性的技术实践。这对于任何一家云计算厂商,都意义非凡。京东云的成功,背后反映的是对技术趋势的前瞻性预判,是京东云提前转型云原生架构的全面胜利。早在2014年,京东云就开始在生产环境内大规模引入容器化架构。近年来,京东云更是全面转型云原生架构,运行着全球范围内最大的Docker及Kubernetes集群。
除夕当天参与一线值守的京东云技术人员欢庆圆满完成任务
在云原生时代,每一个应用都被约束在独立的容器之中,可以随时根据业务场景需要,进行动态扩缩容。如果将物理服务器比作一艘巨型货轮,传统虚拟机相当于货轮内分割出的一个个货仓,货物在其中随意摆放,空间利用率有限;而容器化则相当于在一个货仓内放置了大量形态各异、大小不一的集装箱,后者不仅更适合装运货物,也可以更好地塞满货轮。
与传统虚拟化技术相比,容器化的灵活性更强,可实现规模化扩展,资源利用率也更高。在此基础之上,京东云将底层基础设施全面标准化,并开发了混合多云操作系统云舰,可以在秒级时间内,完成对计算资源的快速调度。
这些新技术成为了京东云上层应用的坚实支撑。如今,京东云已经打造了一个积木化的技术架构――在前端,基于云原生架构,云计算客户可以根据自己的需求快速拼接出最适合自身需求的产品方案;而在后端,京东云基于混合多云操作系统云舰。可以灵活地调度各类计算资源,高效、灵活、敏捷地满足客户的各类弹性、个性化的需求。
在紧急时刻利用现有资源实现转产的传统产业基建案例并不鲜见。在疫情期间,比亚迪、五菱等中国企业在几天时间内就组建出一条条口罩生产线,喊出了“人民需要什么就造什么”的口号。在制造业,灵活调度生产资源实现迅速转产,既体现了企业的担当,也考验着一家企业的技术能力。
数字化时代的云计算行业同样如此。如今,云计算早已走出“租服务器”的简单模式,行业正在由“帮客户上云”转向“把云上好”。相比之下,后者对于云计算厂商的技术实力提出了更高的挑战。京东云在春晚上展现的对资源精准腾挪的能力,在产业上云、政务上云的时代几乎每时每刻都在发生,只是在规模上与春晚不在同一数量级。能够在19天内服务好春晚这一史诗级项目的京东云,在面对各类常规项目时,自然也会游刃有余。
事实上,从最初几年春晚互动备战,用时几个月却仍无法避免抢红包中的宕机问题,到需要紧急增加数万台服务器才能扛住流量洪峰,再到今年19天内上万人的技术团队高效协同,不新增计算资源,仅凭对资源的弹性敏捷调度就能顺利支撑全球最大规模网络互动活动与全球最复杂应用场景。京东云创造大型公共活动技术保障新历史的背后,不仅仅展现了自身的技术实力,也可以看做是中国云计算行业整体崛起的一道剪影。在这道剪影的背后,则是中国云行业从“推动企业上云”到“帮助企业把云用好”的趋势之变。
对京东云而言,从服务京东内部到服务外部产业,从支撑春晚舞台到走向普罗大众,京东云一直在进化,持续夯实自身技术实力,不断拓展业务边界。而登顶春晚红包互动这一云计算领域的“珠穆朗玛峰”,则更加切实展现了直面世界级流量洪峰时对自身的技术自信,体现了多年来京东云作为技术基石积累的扎实能力,而这种能力,随着京东云在产业拓展上的持续深入,正在越来越多的领域得以广泛应用。相信假以时日,京东云必将在产业数智化的道路上越走越快,为产业智能化升级做出更大的贡献。