Cerebras的巨型芯片真能打破深度学习的障碍?

2020-01-02
14:00:13
来源: 半导体行业观察


来源:内容由半导体行业观察(icbank)编译自「


IEEE


」,谢谢。


人工智能计算机初创公司Cerebras Systems的首席执行官兼联合创始人安德鲁·费尔德曼(Andrew Feldman)表示,如今的人工智能远远没有实现。





正如他和他的Cerebras创始人所看到的那样,问题在于当今的人工神经网络过于耗时且计算密集,无法进行训练。例如,对于要识别道路上将遇到的所有重要物体的自动驾驶汽车,它们必须向汽车的神经网络显示所有这些东西的许多很多图像。但该过程通常发生在数据中心,而在那里需要耗电数十甚至数百千瓦的计算机专用于执行通常为期数周的任务。假设最终的网络可以以所需的精度执行任务,然后我们将定义网络中连接强度的许多系数下载到汽车的计算机,该计算机执行深度学习的另一半——推理。


Cerebras的巨型芯片真能打破深度学习的障碍?




Cerebras的客户(尽管仅在去年夏天才从隐身模式中脱颖而出,但已经有了一些客户)抱怨说,当今计算机上针对大型神经网络进行的训练可能需要长达六个星期的时间。以这样的速度,他们一年只能训练六个神经网络。“想法是测试更多想法,”费尔德曼说。“如果您可以在2或3个小时内[训练网络],则可以运行数千个想法。”





当IEEE Spectrum访问位于加利福尼亚州Los Altos的Cerebras总部时,这些客户和一些潜在的新客户已经在通过橘皮外套的光缆将他们的培训数据注入到四台CS-1计算机中。而其消耗的20千瓦的热量通过墙上的一个洞吹到了硅谷的街道上。





从外面看,CS-1计算机的冷却系统本身并不多。但实际上每个机箱的大约四分之三都被冷却系统占用。而它里面的芯片则是真正的革命:这台功能强大的计算机几乎完全由一个芯片组成。该芯片的尺寸超过46,255平方毫米,是您可以购买的任何其他处理器芯片的50倍以上。Cerebras的晶圆级缩放引擎(WSE)拥有1.2万亿个晶体管,400,000个处理器内核,18 GB的SRAM以及能够每秒移动1亿亿位数据的互连,因此很难与其他系统进行比较。





Cerebras的统计数据令人震惊。据该公司称,一个10机架的TPU2集群(现在是三代Google AI计算机的第二个集群)所消耗的电量是其的五倍,占用的空间是其的三倍,但仅提供了三倍的性能。具有WSE的单台计算机,它们的大芯片是否真的是AI行业一直在等待的答案,这一点应该在今年开始变得清晰起来。“ [神经网络]模型变得越来越复杂,” 位于加利福尼亚山景城的Linley Group的高级分析师Mike Demler说,“能够快速训练或重新训练确实非常重要。”





诸如芝加哥附近的超级计算巨头阿贡国家实验室(Argonne National Laboratory)之类的客户已经在他们的机房中安装了这些机器,如果塞雷布拉斯的猜想是真的,那么做神奇事情的神经网络的数量将会激增。





当Cerebras-的创始人,被AMD收购的服务器业务Sea Micro的老兵从2015年开始探讨,他们想建立一个计算机,完美契合现代人AI工作负载的性质,费尔德曼解析。这些工作负载由以下几项定义:它们需要快速移动大量数据,它们需要有接近处理核心的内存,而这些核心不需要处理其他核心正在处理的数据。





为此他们即向该公司的资深计算机架构师,包括其首席技术官Gary Lauterbach提出了一些建议。首先,他们可以使用成千上万个设计用于进行相关神经网络计算的小核,而不是更少的通用核。其次,这些内核应通过互连方案链接在一起,该方案可以快速,低能耗地移动数据。最后,所有需要的数据应该在处理器芯片上,而不是在单独的存储芯片上。





在这些核心之间来回移动数据的需求在很大程度上决定了WSE的独特性。在两个内核之间移动数据的最快,最低能耗的方法是将它们放在同一硅基板上。当数据必须从一个芯片传输到另一个芯片时,由于距离更长并且承载信号的“电线”必须更宽且包装密度不高,因此在速度和功耗上都付出了巨大的代价。





将所有通信保持在硅上的驱动力,以及对小核芯和本地存储器的渴望,都表明要制造尽可能大的芯片,也许是整个硅片的最大尺寸。费尔德曼说:“可以肯定的是,我们不能做到这一点。” 但是“显然有很大的好处。”





几十年来,工程师一直以为晶圆级芯片是死胡同。毕竟,IBM System / 360大型机的首席架构师Gene Amdahl曾在一家名为Trilogy Systems的公司尝试过并失败了,但它的确令人赞叹不已。但是Lauterbach和Feldman说,与阿姆达尔的尝试进行的任何比较都是可笑的、过时的。Amdahl正在使用的晶片的尺寸是当今尺寸的十分之一,而构成这些晶片上的器件的功能是当今尺寸的30倍。





更重要的是,Trilogy无法处理芯片制造中不可避免的错误。在其他所有条件都相同的情况下,随着芯片变大,出现缺陷的可能性也会增加。





但是Lauterbach看到了一种架构解决方案:因为他们的工作负载倾向于拥有数千个相同的小型内核,所以有可能将足够多的冗余将内核安装进去,以解决甚至百分之一的缺陷导致的故障。





当然,Cerebras仍必须解决许多制造问题才能构建其容错的giganto芯片。例如,光刻工具被设计为将其特征定义图案投射到相对较小的矩形上,并一遍又一遍地进行。由于在芯片的不同位置上刻不同图案的成本和困难,仅凭此限制将使很多系统无法在单个晶片上构建。





但是WSE并不需要这样做。正如您通常制造的那样,它类似于充满完全相同芯片的典型晶圆。为此其面对的最大的挑战是找到一种将这些伪芯片链接在一起的方法。芯片制造商在每个芯片周围留下了称为划线的空白硅的狭窄边缘。晶片通常沿着这些线切成小块。Cerebras与台积电(TSMC)合作开发了一种跨划片线建立互连的方法,以便每个芯片中的内核都可以通信。





现在,所有通信和内存都在一块硅片上,数据可以畅通无阻地挥动,从而产生每秒1,000 PB的核心到核心带宽和每秒9 PB的SRAM到核心带宽。费尔德曼说:“带宽要高出四个数量级,因为我们停留在硅片上。”





划线互连并不是唯一需要的发明。芯片制造硬件必须进行修改。即使是用于电子设计自动化的软件也必须进行定制才能在如此大的芯片上工作。费尔德曼说:“每条规则,每种工具和制造设备都旨在拾取普通大小的巧克力曲奇饼干,并且[我们]交付的东西相当于整个曲奇饼干的大小。” “这些方法的每一步,我们都必须重新发明。”





他说,晶圆级集成“在过去的40年中已被取消,但当然会在某个时候发生。” 既然tCerebras已经做到了,那扇门可能会向其他人敞开。“我们认为其他人将寻求与我们合作解决AI以外的问题。”





确实,伊利诺伊大学和加利福尼亚大学洛杉矶分校的工程师将Cerebras的芯片视为一种使用硅互连结构技术的晶圆级计算工作的推动力。2019年10月]。伊利诺伊大学的Rakesh Kumar说:“这是对我们一直在进行的研究的巨大验证。” “我们喜欢这样的事实,这对商业有兴趣。”





当然,CS-1不仅仅是 WSE芯片,但还不止如此。这既是设计又是必要。传递给主板的是位于芯片上方的供电系统,在芯片下方是水冷式冷却板。令人惊讶的是,电源传输系统是计算机开发中的最大挑战。





WSE的1.2万亿个晶体管的设计工作电压约为0.8伏,这是处理器的标准配置。但是,它们太多了,总共需要20,000安培的电流。劳特巴赫说:“在没有明显压降的情况下将20,000 A电流运入晶圆是一个工程上的挑战,这比冷却或解决良率问题要困难得多。”





无法从WSE的边缘传送功率,因为互连中的电阻会在电压到达芯片中间很长时间之前就将电压降至零。为此他们提供的答案是从上方垂直传送。Cerebras设计了一个玻璃纤维电路板,其中装有数百个用于功率控制的专用芯片。一百万个铜柱从玻璃纤维板到WSE上的点之间的距离约为一毫米。





以这种方式提供“动力”似乎很简单,但事实并非如此。在操作中,芯片,电路板和冷却板都预热到相同的温度,但是这样做时它们的膨胀量不同。铜膨胀最大,硅膨胀最小,而玻璃纤维介于两者之间。此类不匹配在正常尺寸的芯片中令人头疼,因为这种变化足以切断它们与印刷电路板的连接,或者产生足够的压力来破坏芯片。对于WSE大小的芯片,即使很小的百分比变化也可以转换为毫米。





劳特巴赫说:“ [热膨胀系数]与主板不匹配的挑战是一个残酷的问题。” Cerebras寻找一种具有适当中间热膨胀系数的材料,该材料介于硅和玻璃纤维之间。只有这样才能使数以百万计的供电岗位保持联系。但是最后,工程师们不得不自己发明一种方法,这项工作花了一年半的时间才能完成。





WSE显然比通常用于神经网络计算的竞争芯片要大,例如Nvidia Tesla V100图形处理单元或Google的Tensor处理单元。但是更好吗?





Cerebras尚未发布MLPerf结果或任何其他可独立核实的比较结果。相反,该公司更喜欢让客户使用他们自己的神经网络和数据来尝试CS-1。





分析师认为,这种方法并不罕见。“每个人都运行自己为自己的业务开发的模型,” Moor Insights的AI分析师Karl Freund说。“那是唯一对买家重要的事情。”





早期客户Argonne National Labs的需求非常强烈。在训练神经网络以实时识别不同类型的引力波事件时,科学家们最近使用了Argonne耗电量达兆瓦的Theta超级计算机(全球排名第28的最强大系统)的资源的四分之一。





将功耗降低到仅几千瓦似乎是超级计算的主要优势。不幸的是,劳特巴赫怀疑此功能是否会成为数据中心的一大卖点。他说:“虽然很多数据中心都在谈论[节能]功耗,但是当他们想到这时……他们不在乎。” “他们想要性能。”这肯定是可以提供与餐盘差不多大小的处理器的功能。






*点击文末阅读原文,可阅读



英文原文





















*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2177期内容,欢迎关注。

推荐阅读




FPGA科普,国产厂商任重道远




大基金一期投资企业的年终盘点




盘点2019年发生的半导体并购案

半导体行业观察

Cerebras的巨型芯片真能打破深度学习的障碍?



半导体第一垂直媒体




实时 专业 原创 深度


识别二维码

,回复下方关键词,阅读更多


晶圆|5G


|台积电

|华为

|MCU




CMOS|英特尔|SIP


回复

投稿

,看《如何成为“半导体行业观察”的一员 》

回复

搜索

,还能轻松找到其他你感兴趣的文章!

Cerebras的巨型芯片真能打破深度学习的障碍?

点击文末,阅读



英文原文!


原创文章,作者:admin,如若转载,请注明出处:http://www.eefans.com/archives/384

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注