• Sat. Jun 10th, 2023

电子爱好者 | 深度+科技!

电子爱好者大数据平台,深圳各区产业特点、规划、产业分布图、结构概况定位深圳产业用地2021

论英特尔Nervana的倒掉

Byadmin

Oct 25, 2021
2020-03-02
14:00:11
来源: 半导体行业观察


果不其然,Nervana终于被Intel彻底关掉了


[1]


,虽早已在预料之中,但也不胜唏嘘。


我见过Nervana未曾发布的产品,在当年诸多AI芯片逐鹿之初也算是一条好汉。


然而,Nervana的倒掉,除了技术原因之外,团队的组成和Intel组织架构也是重要的内在因素。


“起个大早,赶个晚集”,算是对Intel之前4年AI芯片战略的一个总结,我以为。


我不看好Nervana很多人都知道,也在2019年中预言了Intel收购Habana的大致剧本,在此分享一下对这个未来或许会成为AI芯片历史上重要事件的思考,作为case study供大家参考。


以下仅为作者个人观点,不代表就职公司。



徐凌杰




团队组成



回拨到2016年中,当年北美最有名的AI“芯片”初创公司就数Nervana了。


我们不妨来看一下Nervana被Intel收购之前的重要时间线:


  • 2014年初成立,三个创始人,CEO Naveen Rao、CTO Amir Khosrowshahi(姓氏是否很熟悉?没错,他和Uber现任CEO是堂兄弟,均来自伊朗的望族)和算法负责人Arjun Bansal


  • 2016年2月,发布基于Neon框架,宣称在GPU上可以达到10倍以上的深度学习训练速度


  • 2016年6月,宣布开发名为Nervana Engine的AI芯片


  • 2016年8月,被Intel已4.08亿美元收购,被收购时员工48人



非常巧的是,当时的48名员工有3个是我之前的同事或同学(其中包括第48名员工,入职即被收购的那位),我当时就饶有兴趣地在他们网站上把所有人的背景都过了一遍,看完之后惊奇地发现这

不是一家传统意义上的芯片公司






  • 首先是创始团队,三个人均是2010前后毕业的神经科学博士,

    没有任何硬件背景

    ;48人中还有不少来自神经生物学界的


  • 负责硬件的Carey Kloss是DV(芯片验证)出身,主架构师Andrew Yang(不是那个每人发1000刀helicopter money的总统候选人)背景是网络通信芯片的ASIC design


  • 而其他绝大部分人,包括我认识的3个,都是软件工程师背景


皮衣教主一直强调NVIDIA是一家软件公司,这一点都没错,芯片产品最终拼的是软硬件联调的服务能力。但在

芯片公司草创之初,没有有经验的、来自计算芯片背景的主架构师,没有成型的硬件团队,也是绝对不可接受的

。这也为Nervana第一代Lake Crest芯片的失败埋下了伏笔。按照正常的逻辑就是,Nervana原本的主营业务是神经网络算法和框架,而芯片硬件项目只是一个pet project,乘着2016年5月Google公开发布TPU一代的东风,立马赶鸭子上架,而Intel正好缺乏合适的AI芯片产品和GPU叫板,一拍即合,卖了个不错的价格。


可惜,当年nervanasys.com的网站已经没有办法考古,这几天点击打开之后映入眼帘的是巨大的Intel+Habana的logo。






相比之下,在初创团队组成上,不得不说,Habana是非常值得称道的:




  • CEO David Dahan是DSP设计背景,在CEVA干过好多年,之前联合创立了Prime Sense成功卖给了Apple


  • VP R&D Ran Halutz,是Dahan在Prime Sense和CEVA并肩作战多年的队友,负责芯片硬件设计


  • CTO Shlomo Raikin,原Mellanox的首席架构师,之前在Intel做过10年的CPU架构设计


  • Chief Business Officer,Eitan Medina,通信/芯片行业的老兵,Galileo/Marvell/Cavium的CTO和VP


以上都是在Habana网页和LinkedIn上公开的信息。然而,鲜为人知的是Habana幕后的大boss,Avigdor Willenz,以色列芯片界教父般的传奇人物,90年代中期就创立了Galileo,如今在AWS撑起半边天的Annapurna Labs也同样出自他的手笔。是他,看到了AI芯片市场的巨大潜力,

通过强大的资源整合能力,把以上的牛人们聚在了一起,并有策略有步骤地逐步推行产品计划



精心撰写的剧本和“脚踩西瓜皮,滑到哪里算哪里”的创业,在人员布局上就可见一斑。




技术路线



芯片产品,最终是要回归到技术的。Nervana被Intel收购之后,马上根据Intel的习惯把产品线重命名成Crest,而第一代芯片Lake Crest因为之前的匆忙已经是箭在弦上不得不发了。根据wikichip



[2]





和其他公开信息,我们来看一下它的芯片设计。




Lake Crest架构图




平心而论,Lake Crest的架构还是非常工整的,有着当时业界领先的HBM2配置和带宽,芯片间12个ICL互连也是比较超前的意识。55T 16bit FLOPS的算力如果能在2017年初正常发布也是非常有竞争力的产品,但是,因为前面在团队部分描述的原因,Lake Crest成为了一个彻头彻尾失败的产品:




  • 首先,因为项目启动是在被收购之前,受于资金限制,Nervana只能找eSilicon合作,而且只能做28nm的产品(NVIDIA 2016年初发布的P100已经是16nm了)。即使被收购之后,Intel在这代产品上也帮不上太多忙。而最终的结果是,由于芯片执行上的问题,导致最后功耗巨大,400W的产品无法在已经被NVIDIA很好定义的300W PCIE的主流机型上做适配。


  • 其次,其实也是架构里面最关键的,也是Nervana当时最引以为豪的发明,Flexpoint最终被证明是个大坑。这点我在去年AI Hardware Summit的Keynote上提过,想要了解技术细节的可以看Nervana团队在2017年NIPS大会的paper




    [3]




    。Flexpoint在技术上是个看似聪明的拍脑瓜的方案,撇开模型在其之上很难收敛的事实,光是其tensor之间共享 exponent需要反复来回和host通信同步就是一个很大的overhead,而团队欠缺计算芯片、特别是通用处理器的架构背景,软件算法想当然,我认识是造成这个局面的很大原因之一。岔开一句,“


    软件定义硬件


    “是个非常时髦的词,而Groq 最近公开的144路VLIW的架构也足够行家们贻笑大方了


Flexpoint示意图




  • 有人可能要问,Nervana的neon框架后来哪去了?有人在Reddit



    [4]





    上的回复非常到位,“Development speed is generally more critical than computational speed in research”,“I trust TensorFlow/Torch more than Neon, e4ven if Neon is faster”。没有抓住训练用户的痛点是其一,退一步来说,芯片公司没有长出基于芯片的核心能力,框架做得再好,也无法仅凭此就成为未来竞争的护城河。


其实Lake Crest的失败还不是致命的,以Intel的资源和能力,在后一代Spring Crest尽快修正错误未为晚矣。然而,期望的改变并没有发生:


  • Spring Crest依然沿用了错误的Flexpoint设计,直到内部仿真明确了实在不行之后,才决定全面转向BF16(原话是,”Flexpoint16三个月converge不了一个网络,而BF16一天就可以converge三个”)。这也为什么在2018年中Intel的AI大会上



    [5]






    宣布了Spring Crest会有两个迭代,第一个只做硬件适配仍然是Flexpoint,而第二个tape out会使用和Google TPU一样的BF16。


  • 不过,非常遗憾的 是,Nervana团队没有抓住两次tape out的机会,在中间再加强算力,B stepping 2019年底119T BF16的算力和NVIDIA 2017年中发布的V100相比,毫无优势可言,更何况市场都在等待2020年3月更强更新的GPU产品。



    刻舟求剑,用在这里再恰当不过





错误的技术方案和产品路线,贻误了Nervana和Intel战机。而反观Habana,战术和打法就清晰很多了:


  • 首先是埋头苦干,2016年底成立后一直保持stealth mode,直到2018年9月AI Hardware Summit发布第一代inference芯片Goya(芯片实体,而非纸面发布),

    以单卡15000 images/s的ResNet50性能一鸣惊人


  • 同时宣布training芯片Gaudi将于半年之后面世,100个人不到的小团队的战斗力吸引了全世界的目光,

    Intel Capital迅速投资


  • 2019年3月份,Facebook在OCP大会上发布OAM模块标准之后,快速反应、迅速跟进,业界首个支持OAM标准,并第一时间在2019年8月在Hotchips大会现场演示




再来看Habana的架构,

无论是Goya还是Gaudi,其实都没有任何fancy之处,两颗芯片遵循了架构最大程度复用的原则,把一些普通的元素执行到了接近极致



  • 版图上所谓的TPC,其实就是DSP,这是Habana团队的强项


  • 画得很小的GEMM矩阵加速但也其实是面积的主体,各家AI 芯片公司都有


  • Local和Shared memory代表了大量的片上SRAM,其他AI芯片公司也都有


  • Gaudi芯片集成NIC,概念上属于Habana首创(NVIDIA后来也收购了Mellanox),但技术上并无特殊之处,片间互连带宽远低于NVIDIA的NVSwitch方案,但用比较低的成本实现all to all的connection也是充分发挥了其CTO来自于Mellanox的天然优势



Habana的芯片架构虽然简单,但胜在执行,把团队每个人的优势充分发挥,快速迭代



,和Nervana相比绝对是技术和产品上的一股清流。




Habana Goya示意图


Habana Gaudi示意图




组织能力



有人说,Intel是把一手“好牌”打烂了,但我认为不然,Nervana从来就不是一手好牌,但Intel在组织架构上没有很好地进行保障也导致了后来失败的局面。




Intel内部团队非常多也非常复杂,其中最大最重要的部门即为DCG (Data Center Group),而Nervana被收购之后即作为单独的AIPG部门一度直接汇报给CEO,然后马上又被挂在了DCG下面。


然而,自2017年以来Intel内部的调整也一直没有消停过:


  • 2017年5月,主持收购Nervana的DCG部门负责人Diane Bryant离职,后加入Google负责谷歌云


  • 2017年11月,Raja Koduri从AMD加盟Intel,主持GPU部门,并在2018年宣布会进军discrete GPU市场和NVIDIA/AMD正面竞争


  • 2018年1月,Intel CEO Brian Krzanich因为私生活问题辞职


  • 2018年6月,CFO Bob Swan出任临时CEO,2019年1月转正


从上述的时间线可以看到,Nervana自从被收购之后,除了在PR品牌上被Intel大肆宣传之外,在内部并没有被完全接受,AIPG的位置也一直在DCG内部飘忽不定,同时还面对Intel的GPU部门在产品定位上的全面竞争。




其实,从2018年以来,换掉Naveen Rao的声音在Intel内外已经有不少了,

但Intel迟迟没有调整到位,也显示了其作为大厂在组织架构上“挤牙膏”的慢节奏作风


  • 2017年中,Intel以色列团队的负责人Gadi Singer调入AIPG,但只是让他负责inference产品Hill (打Nervana的商标,但全是Intel原生技术),直到这周Naveen Rao离职才被扶正


  • 2018年中,Movidius(2016年被Intel收购)的前CEO Remi El-Ouazzane调入AIPG,但是只是让他负责operation,没有实际的架构和产品路线的管理权


  • 也就是说,从Crest产品线颓势尽显开始,Naveen Rao居然在AIPG的一号位上坐了两年多,看起来不可思议,但

    其实也是公司内部不断互相寻找平衡的大公司病的典型特征


最后来讲一下我是如何大胆判断Intel会弃子Nervana,收购Habana和其中timing的:


  • 从财报来看,新任CEO上任之初通常会用big bath的手法把坏消息出尽,而通常CFO出身的CEO对砍人绝对不会手软,只是时间问题。


    Bob Swan 2019年1月正式接任CEO,当月的财报抖了很多包袱,盘后跌了7%



    [6]






    同年4月的财报



    [7]





    ,他又表态“taking a more cautious view of the year”,然后盘后又跌了6%;


    而再过了几个月,通过诸如把基带生意关掉等一系列手段,把股价搞上去了,那就是时候来梳理最大的DCG部门了。



Intel一年股价走势图


  • 作为Intel最赚钱的DCG部门,AI相关的营收一直是掌门人Navin Shenoy的痛,算上CPU,AI based的芯片营收才勉强超过NVIDIA,而

    AI硬件产业在未来几年是几百亿美元的大市场

    ,大有可为却没有很好的抓手:之前过于担心对核心CPU市场的cannibalization没有大力发展inference专用芯片,而Nervana又无法扛起训练的大旗,确实头痛。北美big4,AWS只用最成熟的产品(训练用GPU,推理开始推自研的inferentia),Google自然有了TPU,微软钟情于FPGA,而Facebook是唯一的空白。Facebook作为非云厂商的hyperscaler,有一个特点就是喜欢逗人玩,没事通过OCP发布行业标准来让标准模块商品化达到降低成本的目的。刚才提到的OAM就是训练加速卡的专用模块,2019年只有Intel的Nervana Spring Crest和Habana的Gaudi具备了OAM的产品化能力,看看自己口袋里的Nervana不一定争气,为了锁定Big4中的最后一家,20亿美金收购Habana我认为还是值得的。所以如果下周OCP大会,Intel和Facebook联合发布产品,用足这20亿的广告费,是一点都不奇怪的。



2019年9月 OCP阿姆斯特丹大会




  • 2019年6月,Intel的GPU团队发布One API编程模型,其重点自然在One上面,号称全Intel通用,而其对外的市场宣传也把AI训练作为其Ponte Vecchio芯片的主打,大有舍我其谁之势。


    外部没了市场还好,内部没了面子怎么行,DCG肯定坐不住。


综上,砍掉Nervana,收购Habana,势在必行。


而Nervana团队内部看得清形势的人,在2019下半年也陆续出走了。


当Habana在2019年Hotchips现场demo样机的时候,NVIDIA的Tesla线产品经理问我最看好哪家AI芯片公司,我答“Habana”;


又问我如何解,我再答“被Intel收购“;


我俩相视一笑。


当然,这是玩笑,我还是真心希望能看到市场上出现能和NVIDIA正面PK的产品,希望Habana不要重蹈之前那些被Intel收购公司的覆辙。




Nervana带来的启示



Habana不是一个完美的例子,以色列团队传统也是硬件强,软件偏弱,但人家毕竟在没有把产品卖出去的情况下先把自己卖了,从思路到执行力还是值得好好研究的。


Nervana的倒掉,在我看来,标志着AI芯片的竞争即将从从春秋进入战国阶段。


虽然皮衣教主还有着绝对的统治力,但无可否认越来越多资金雄厚的玩家会更加重视这个市场,面对几百亿美元的大市场,资金、技术、产品能力还有眼光缺一不可。


根据上述Habana和Nervana的对比,一个成功的AI芯片需要做到的点:



  • 完整的团队






    功力深厚的(软硬件)架构师、经验丰富的执行团队、能精准把握市场趋势的产品团队



  • 前瞻的眼光






    产品定义要有足够的高度和包容度,保持对技术趋势的敏锐度,Habana的一鸣惊人和第一时间拥抱OAM就是最好的例证



  • 完美的执行






    速度和迭代能力也将会是核心竞争力,特别是AI算法日新月异的今天,软件和硬件周期不匹配日益突出,我认为这将是中国公司短期内竞争力所在



  • 现实的兼容






    与现有产品实现平滑过渡(无论是软件还是数据中心基础设施),作为硬件厂商不要幻想一朝一夕就能改变顶层用户习惯(Flexpoint的反例),同时保留通用性适应未来的发展和建立自己的生态



  • 贴身的服务






    软件能力(其实是软硬件联调能力)决定芯片的成败已经成为一个共识,而能够本地化服务于客户,提供优秀解决方案的服务能力也会是芯片技术之外的分水岭



  • 充裕的资金






    我在AI Hardware Summit上曾把AI芯片的竞争比喻成长征,芯片的长周期和快速迭代之间的矛盾就决定了需要更大资金的投入,这也是未来竞争力的关键所在



与各位共勉!








AI芯片当前的落地主要方向还是数据中心,而Google又是这个领域的技术先驱。


前几个月花了点时间把Google经典的《The Datatcenter as a Computer》第三版翻译成了中文,做一下知识的搬运工,希望对各位有帮助!





参考


[1]  https://www.bizjournals.com/sanjose/news/2020/02/26/intel-ai-head-steps-down-weeks-after-chipmakers.html


[2] https://en.wikichip.org/wiki/nervana/microarchitectures/lake_crest



[


3


]


https://papers.nips.cc/paper/6771-flexpoint-an-adaptive-numerical-format-for-efficient-training-of-deep-neural-networks.pdf



[


4


]


https://www.reddit.com/r/MachineLearning/comments/4h5u0h/why_dont_many_people_use_nervana_neon/



[


5


]

Intel Pledges First Commercial Nervana Product ‘Spring Crest’ in 2019





[


6


]

Intel tops Q4 earnings views; stock drops after missing revenue predictions





[


7


]


https://www.businessinsider.com/intel-earnings-q1-revenue-profit-2019


题图来自网络,版权归原作者所有





*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2236期内容,欢迎关注。

推荐阅读




汽车厂商的芯片布局




氮化镓代工将成为新赛场




CIS封测业爆发,谁将成为最大受益者?

半导体行业观察




半导体第一垂直媒体




实时 专业 原创 深度


识别二维码

,回复下方关键词,阅读更多

“芯”系疫情

|ISSCC 2020


|日韩芯片

|华为



存储



氮化镓|高通|康佳


回复

投稿

,看《如何成为“半导体行业观察”的一员 》

回复

搜索

,还能轻松找到其他你感兴趣的文章!

Leave a Reply

Your email address will not be published. Required fields are marked *