本篇文章2694字,读完约7分钟
我们的老师鲍云刚在他生命的早期似乎有点默默无闻,尽管这种“默默无闻”足以让我屈服于服从。
鲍先生于2003年获得南京大学理学学士学位,并进入中国科学院计算技术研究所攻读硕士和博士学位。从公开记录来看,直到获得硕士学位,包的学习生涯似乎有点平淡无奇。然而,从博士开始,十多年的积累开始集中爆发。
在攻读博士期间,包先生带领团队设计了一套独特的访问监控系统,为斯坦福大学、epfl、清华大学、华为和海力士等十多家机构提供了超过2tb的访问跟踪数据;提出了基于路径划分的dma缓存技术。2014年,英特尔在高端处理器至强芯片中采用了相同的技术路线。应该知道鲍老师是2008年博士毕业的;在普林斯顿大学进行了博士后研究,发布了多核基准测试集parsec 3.0,在三大架构的顶级国际会议上,超过70%的论文使用了该测试集;Pard (asplos 15)提出了一种新的软件定义的服务器体系结构...
等一下,我知道现在每个人都可能看起来很傻:来村里有什么鬼?路师到底是什么?dma到底是什么?实际上,这些都是鲍的研究课题:计算机体系结构的研究内容。这门学科的目的是想方设法通过改进硬件结构和软件结构来提高计算机的运行效率。
了解计算机的学生可能会好奇。
电脑结构不是很简单吗?将cpu插入主板,插入内存,然后插入硬盘启动。我真的想玩游戏,买一个更好的独立显卡,安装一个操作系统。我不知道跑步有多快乐。此外,现在的cpu运行速度非常快,即使看似超级复杂的公式被刷两次,它也不会高效运行。
然而,事实上,与每个人的想象相反,正是因为cpu的速度越来越快,远远超过了其他计算机设备所能适应的速度,如果不能在微观层次上给出一个非常合理的计算架构,就会导致计算能力的极大浪费。
让我,灵魂画家,给你一个非常简单的例子。下图是简化的计算机结构图。我们都知道,计算机的操作不是由一个部件单独完成的。例如,要运行1000段代码,在现代计算机的结构中,我们将首先编写代码并将其保存到硬盘上,然后当它需要运行时,我们将把这段代码从内存中调用到它的storage/きだよ0。
然后,它们通过总线系统一个接一个地传输到中央处理器,然后中央处理器将结果输出到需要这些结果的设备,包括内存、硬盘、显示器等。但是这里有一个问题!
当计算机中的设备运行时,有一个固定的周期称为时钟周期。这些设备执行的所有操作都基于N个时钟周期,这使得计划操作和协调不同设备变得更加容易。不过,大家对cpu的主频都比较熟悉:目前大多数CPU的主频都在2-3ghz的范围内,但是你有没有注意过其他设备的主频,比如内存?
实际上,内存是一种“高速”内存,与cpu相匹配,以弥补硬盘访问速度慢(相对于cpu的处理能力)。然而,目前最先进的ddr4存储器的最高频率通常不超过4000mhz,只有cpu的五分之一到六分之一。
这是什么意思?我们甚至可以忽略内存从硬盘中取出要计算的命令的时间,假设内存向cpu发送这些命令需要一个内存周期,而cpu计算这些命令需要一个cpu周期。也就是说,在存储器向中央处理器发送指令之后,中央处理器只需要五分之一的存储周期来计算结果并将其发送出去,而在向中央处理器发送下一条指令之前,存储器必须等待至少一个完整的存储周期。
wtf?在剩下的五分之四的时间里,中央处理器在做什么?看着你穿着裤子跑?
有必要知道,一旦中央处理器通电,每一个微妙的功耗实际上是用光了,但这种频率不平等使中央处理器不得不等待内存发送数据徒劳的大量时间。我们没有考虑在内存中搜索指令所花费的时间以及在总线上传输数据所花费的时间等。,而cpu的利用率一直低至只有20%,更不用说在由无数服务器组成的计算机组中搜索和传输这样的数据需要浪费多少宝贵的时间和精力。
现在是我们的鲍老师上台的时候了。鲍老师所研究的课题,包括上面提到的那些奇怪的词语,其目标是消除这种浪费,使计算机中的各种设备尽可能地协调,最大限度地提高各个部件的应用效率。
说到这,每个人都可能隐约明白为什么有些电脑或手机有漂亮的纸质数据,但使用它们的体验就像一场噩梦,而有些手机和电脑的数据质量很差,看起来使用起来非常流畅。(我没有黑色安卓和视窗系统→ _→)
不用说,在当今各种应用对计算的高需求中,包括深度学习,这样的研究无疑可以帮助企业和个人用户发挥他们设备的每一个潜力,给他们最好的体验。
另一个需要大量计算能力的领域是云计算,这是未来的趋势之一,没有人会怀疑。
而我们的包老师也紧随这一浪潮,投身于云计算的研究,因为他发现目前的云计算存在一个明显的瓶颈。
目前,云计算的服务器基本上是基于传统冯·诺依曼结构的计算机集群(即我们每天都能看到的)。
在这种结构下,尽管由于多年的经验积累了许多优化计算效率的方法,但这些方法在云计算中遇到了新的挑战:
云服务器面临的用户服务请求数量巨大,但计算总量有限,在任何情况下都不可能超过物理最大值。
因此,如果我们想提高云服务中计算设备的计算效率,这意味着服务器cpu的负担将会增加,对每个请求的响应时间将会延长。响应时间是云服务中的一个重要指标,它可能会严重影响用户体验和最终收入。因此,主要的数据公司不得不强迫他们的服务器cpu处于相对较低的应用率,这可以说是一个强大的失败。
这种浪费在多大程度上:谷歌作为在大数据处理方面实力最强的公司,在线云服务的平均cpu利用率只有30%左右,而麦肯锡估计整个行业的服务器平均利用率约为6%。gartner的估计略微乐观,只有12%
谷歌的云服务cpu平均利用率,图片来自鲍云刚的博客
没有我们举的例子高。
包先生的团队在14年的时间里开始了这项研究,经过不懈的努力,最终取得了重大突破:借鉴了互联网曾经面临的同样问题的解决方案,在计算机内部构建了一种类似网络包标记机制的新技术,可以大大提高云计算服务器的计算效率。
你心脏病发作了吗?你想知道鲍老师是怎么做到的吗?10月21日,包云刚先生将在2016中国计算机大会上报告他在该技术方面的最新研究成果。10月20日至22日,我们将赠送一张价值2300元人民币的非ccf会员券,届时我们将参加包括鲍先生在内的15位嘉宾的精彩特别邀请报告、30场论坛和50场活动(晚餐除外)。请扫描下面的二维码,在公共号码的背景下发送“cncc”注册。我们将每天从申请者中挑选一个来发票~ ~
让我们看看这些大奶牛是谁:
当然,如果你没有时间亲自去也没关系~那个时候,雷锋。搜索“雷锋”。com" public number)将详细报告会议的内容。你一定不能错过!