本篇文章4627字,读完约12分钟
你知道向左走是一件很棒的事情,向右走是一座青山,但是你不知道去哪里,这最终会给你一个更好的未来。
你知道你应该单膝跪地向你心爱的人求婚,但你不知道如何在未来日日夜夜和她相处,这样你就可以和她共度余生。
路上的每个岔路都通向更多的岔路,每个选择都会带来更多的选择。我们站在同一个地方,依靠我们所知道的“许多理由”,试图“好好过这种生活”,我担心这会让上帝发笑。
这是我们每个人都面临的困境。我们复杂的大脑可以用简单的逻辑做出最有利的判断,但面对无数重叠的选择,它却无能为力,就像风中飘忽的尘埃。
因为这个世界上的选择和答案比宇宙中的星星还多。
我给你成千上万个不同形状的小石头来装满你的背包。请告诉我,你怎么知道哪种石头组合能让背包装满?
阿里巴巴云飞系统的总设计师唐红用这个看似低调的问题描述了阿里巴巴云的终极意义。
[阿里巴巴云飞系统总设计师唐红]
理论上,你可以通过用尽所有的石头组合来得到答案。但事实是,根据图灵机的计算模型,计算复杂度与可选石头的数量成指数关系。每增加一块石头,计算量就增加一倍。
就为了这个答案,所需的计算能力超过了所有人类计算机的总和。从哲学上讲,这就像我们一次又一次的人生选择:除非你尝试每一种可能性,否则你不会知道正确的答案,上帝也不会给你每一个机会去尝试每一种可能性。
这一事实使人们敬畏上帝。
然而,在唐红看来,阿里巴巴云的核心操作系统“天妃”找到了这些“终极答案”。
寻找经典科幻电影《2001漫游泰空》中的“门”,一个古代猿人把他的骨头扔进了蓝天,并立即变成了一艘穿梭于泰空.的宇宙飞船
这一幕被视为科幻电影的经典镜头,让无数人热泪盈眶。然而,如果你仔细想一想,在泰空发射宇宙飞船的原理不就相当于把一块巨大的骨头扔向更高的空天空吗?
当体积无限膨胀时,原始人能做的一个动作,成为一个只有在几千年后用高科技才能完成的壮举。
谈到“原子”层面,天妃所做的工作是分类和计数。以淘宝为例,分析商品售出的数量和时间。一旦这样的工作变得大规模和所有的数据是相关的,很难在短时间内得到正确的答案。
通过计算上亿卖家和买家的信息,我们得到的不是简单的库存和销售情况。
通过数据分析,用户可以以最快的速度搜索他们想要的产品。
通过数据关联,我们可以判断用户的性别爱好,然后根据场景做出准确的产品推荐。
通过数据整合,可以判断一个人是否有信用污点,从而决定申请人在金融产品中的贷款金额,控制坏账率。
我们在淘宝、天猫和蚂蚁金服享受的这些功能是“大规模计算”的奇迹。“1+1”儿科无意中变成了我们担心的“大数据”。
如果继续发送这些“大数据”,就可以产生“上帝之手”的效果。
大规模的任务调度非常复杂,比如出租车规划、机场飞机调度,甚至沃尔玛的库存管理,这些都是人脑无法完成的。因为每个场景几乎都有无限的可能性和选择。
唐红说。
在这一点上,我们遇到了以前的问题“回包装石头”。
众所周知的非对称安全加密技术和当今流行的区块链技术都是基于计算复杂性的假设。飞行不能突破计算极限。因此,我们只能给出一个近似解,而不是理论上的最优解。
只有一个最优解,而有无限个近似解。如何在众多的解中找到最合适的近似解是飞刀的所在。
“自从天妃诞生以来,我们一直在做的就是这个。”他说。
由于不同行业的业务和数据有各自的特点,这使得天妃计算集群使用好的钢材作为前沿。该模型和算法用于删除一些不可能的子集,从而在一定程度上缩小最终解的范围。但即便如此,所需的操作仍然超乎想象。此时,我们需要另一套规则和模型来根据“价值判断”进行权衡。
就像你在一个巨大的房间迷宫中,每个房间都有很多门,当你打开一扇门,你会进入一个新的房间,它也有很多门。为了找到最终出口,您需要排除那些不会通向出口的门,然后在这些可能的出口中选择可能性最大的门。
因为没有完美的正确答案,这些模型和判断的优化就没有尽头。这在某种程度上类似于“进化”。
然而,大规模计算所面临的问题远不止上述问题。唐红为雷锋列举了另一个重要问题。这就是自动化的难点。
超出人脑极限的计算必须通过自动化程序来完成。然而,当数据量变大后,边角问题似乎就成了一个严重的问题,即如何保证自动化的正常运行。概率小的事件,如计算错误、指令失败、系统干扰等。,由于庞大的数据和计算集群,这几乎将不可避免。
此时,有必要感知和监控计算的每一个微小步骤,并找出错误。然而,要监控云计算每一条路径的每一个步骤并不容易。
对于计算跟踪,有必要“染色”每一步,也就是说,为系统关联做一个标记。这要求在加工过程中嵌入染色信息。但是,系统的每一步都是不同的,所以有必要根据具体情况找到最佳的嵌入点。更困难的是有些步骤根本不能嵌入信息。这时,有必要根据计算周围的信息做出推论。
例如,如果一个进程打开一个文件,操作系统将使用一个描述符来表示该文件。通过关联描述符,操作系统内核中发生的事件可以与用户进程相关联。
所有的跟踪都是具体问题的具体解决方案,可以想象付出有多难。
他说。
这些“坑”是唐红和天妃在七年时间里一点一点挖出来的。然而,所有这些微小进化的积累都是基于飞行的“计算能力”。
唐红说,天妃系统就像一台巨大的计算机,但它是一个巨大的计算集群,由世界各地的数据中心和数十万台通过特殊线路连接的服务器组成。
看到这一点,您可能会突然意识到,在世界各地调度数十万台服务器本身就是“包装石头”的巨大挑战。
唐红告诉雷锋。关于天妃的诞生。
当时,阿里巴巴在某种程度上站在一个危险的悬崖边上,还在襁褓中飞翔,做着一个叫做“5k”的美丽梦。
5k,一尊王健,永远带着微笑,高瘦,看似脆弱。然而,正是这个人经受住了所有的怀疑和压力,成为了从萌芽到参天大树守护阿里巴巴云的英雄。
包括唐红在内的所有人都称王建为“医生”。在那些日子里,是唐红博士的海外电话“愚弄”了他从美国回来。
2012年的天妃仍处于R&D的早期阶段,最多只能支持1500台机器的集群,并且经常因为一些缺陷而遭到客户的抱怨。当时,阿里巴巴的许多数据处理任务都基于开源软件hadoop系统。这个集群中大约有3000-4000台机器。
[阿里巴巴集团技术委员会主席王健]
然而,就安全性和操作逻辑而言,hadoop不是为公共云计算设计的。
Hadoop的存储和计算是集成的,也就是说,如果你需要十台机器的存储,但不需要十台机器的计算能力,你仍然需要十台机器的集群,这是一种浪费。虽然这个问题可以用其他方法解决,但运行效率将大大降低。
Hadoop的账户系统不是为互联网租户设计的,而是为本地管理员设计的。这决定了它不能卖给像阿里巴巴云这样的互联网用户。
此外,hadoop具有很高的灵活性,允许应用层的用户直接访问底层文件,这具有很大的安全风险,并且不可能以多租户共享的形式直接运行在公共云上。
唐红告诉雷锋。com(搜索“雷锋。所有这些缺点在hadoop上很难通过修补来避免。更关键的问题是,当时阿里巴巴的业务增长率接近hadoop集群的计算能力极限。一旦达到瓶颈,就必须降低业务水平或积极限制业务规模。
在此之前,阿里巴巴试图用天妃取代hadoop,但都失败了。当时,阿里巴巴首席技术官王健告诉所有阿里童鞋,天妃应该承担这个任务,因为他心中有一个计划,那就是把天妃建成一个拥有5000台服务器的集群。当时许多同事嘲笑的疯狂想法是“5k”。
从1500台到5000台,这不仅仅是再购买3500台机器。唐红说。
摩尔定律注定了计算机硬件性能随时间的指数增长。从1500台旧机器到5000台新机器,计算能力增加了8到10倍。对于任何熟悉软件工程法则的人来说,在不到半年的时间内升级如此大跨度的软件能力是一个不可能的挑战。
然而,天妃真的做到了。世界上有相当多的公司能够负担得起5000台服务器,但是如果他们真的有自己的技术来调度如此大规模的集群,他们可以用一只手来数。
为什么阿里巴巴云必须构建一个5000台机器的集群?
唐红告诉雷锋。对于阿里巴巴来说,没有办法分解许多必须在计算集群中完成的计算任务。由于有如此大量的相互关联的数据,所以有必要将如此多的机器放在一个集群中进行协作分析。
在2012年底的CEO会议上,一些人提议再次依靠hadoop。但最终,首席执行官们决定双管齐下:hadoop和飞行。但在我看来,这种决策转移了技术力量。事实上,根据团队的模拟结果,我非常清楚达到5k不是一个建筑设计的问题,而是一个抛光产品细节的过程。但是其他部门的同事可能不这么认为。这样一来,两条路将大大转移技术力量,所以5公里可以提前一天完成,辩论也可以提前一天结束。
他说。
2013年8月15日是唐红脱口而出的日子。这一天,事实证明王健、唐红和天妃是对的。5k群集在线,两个5k群集同时在线。
在阿里巴巴的云起镇,有一座5000米的雕像。这座雕像比预期的要小,但它不能阻止它散发出理想的质感。许多过路人会停下来观看。
[飞行5千米雕像位于阿里云奇镇]
唐红告诉雷锋。后来证明hadoop集群在超过4000个机器集群后会遇到不可逾越的瓶颈。如果阿里巴巴当时选择依赖hadoop系统,那么如此高的业务增长将会遇到计算性能的“悬崖”,其后果将不堪设想。
就像波音的747飞机、英特尔的x86芯片和spacex的火箭一样,所有伟大的创造都来自于绝望的努力。
唐红深有感触。
“吃你自己的狗粮。”我记得,当我们在2012年或2013年招聘的时候,很少有清华北大的学生来面试,即使有很多学生得到了我们的录用,他们的第一选择也会是百度和腾讯。
唐红告诉雷锋。这是一个笑话。在今年的阿里巴巴之星访谈中,唐红问他的同学为什么选择来阿里巴巴云,回答是“阿里巴巴云的云计算技术领先。”
他简单地描述了现在的飞行:
单个集群中有10,000台服务器,世界上有数十万台服务器,数据平台每天处理超过1pb的数据。
然而,在他看来,所有这些都不能解释天妃的力量。真正令人信服的是,阿里巴巴是在“吃自己的狗粮”,也就是说,淘宝天猫等一些重要业务,包括拥有惊人即时并发计算能力的“双十一”,都是由天妃负责云计算调度的。也就是说,阿里巴巴本身正在使用向其他客户提供的相同云服务,没有任何特权或区别。
“我相信,一些国内竞争对手自己的服务肯定不会在他们自己提供的云上运行。”他说。
让阿里巴巴云感到自豪的一个数据是,中国37%的网站都是建立在阿里巴巴云之上的。
我们的预测是,未来世界上可能只有几台“计算机”,它们都是由非常大规模的计算集群组成的。这时,计算能力将被彻底解放。
如果唐红的期望成真,那么“回填石块”的计算将比现在更接近事实。也许我们永远也找不到正确的答案,但毫无疑问,每当一台机器接近正确的答案时,它就是一个人的荣耀。
向世界寻求答案。每年,阿里巴巴云都会在大本营杭州举行云起会议,宣布阿里巴巴云和天妃的最新进展。在今年的大会上,马云发表了热情洋溢的讲话。
最初的机器制造将成为人工智能。最初的机器消耗电能,但未来的机器消耗数据。
马云说。
可以看出,机器学习和人工智能是天妃的下一步棋。
对人们来说,岔路口后面的岔路口和选择背后的选择让我们感到渺小和恐惧。为了对抗命运的无常,我们发明了云计算和人工智能。无论对唐红还是天妃来说,这些无数的运行芯片和无数网络中无尽的电流只有一个目的:
向世界寻求答案。