详解壁仞刚刚发布的GPU:单芯片PFLOPS算力是怎样炼成的?

文章来源:网络整理编辑:采集侠2022-08-16 14:33

导读:

[详解壁仞刚刚发布的GPU:单芯片PFLOPS算力是怎样炼成的?

8月9日壁仞科技的首颗GPU芯片发布之际,发布会上播放的宣传片还真是能让人联想起英伟达“IamAI”的那则著名视频。而壁仞科技选择的这条赛道,和大部分做AI芯片的国内厂商都不大一样:其GPU芯片、板卡和系统是要和英伟达正面硬碰硬,用于云上大规模的AI训练与推理,以及HPC的。

壁仞科技创始人、董事长、CEO张文说从最初走访20家客户的反馈来看,大家都想要一款“国产大算力芯片”。虽说“做通用GPU芯片,99%都做不下去”,但“我思考,周期长、壁垒高、投入大,换句话说就是资本密集、人才密集和资源密集的需求。这三点恰好都是我的长项。”于是在成功说服投资人以后,壁仞就开启了这一征程。

壁仞科技成立于2019年9月,用张文的话来说“三年时间,发展到千人团队、芯片从PPT到量产”是个奇迹。今年3月底就有壁仞BR100芯片成功点亮的消息,“全球通用GPU算力记录,第一次由中国企业创造。”张文说,“中国通用GPU芯片,第一次进入每秒1千万亿次的计算新时代。”

而从壁仞科技的宣传片来看,其GPU芯片要覆盖“从微观细胞到浩瀚宇宙,从坚实的道路到虚拟的空间”,从生物科学、工业设计、生产制造,到农业耕作、航天航海、地质勘探与宇宙探索。大约算是与英伟达的全方位市场重合了。要做到这些可真的不容易,也绝不仅仅是算力堆砌所能轻易达成的。本文我们就详细谈谈壁仞科技本次发布的1个架构、2颗芯片(及对应的OAMmodule与PCIe板卡)、1台服务器,以及对应于生态建设的软件栈。

详解壁仞刚刚发布的GPU:单芯片PFLOPS算力是怎样炼成的?

两颗芯片:BR100与BR104

这次壁仞科技发布了两颗芯片:BR100和BR104。这两者的区别主要在于BR100是两片相同的die(或chiplet)封装到一起;BR104则只用了1片die,所以相关算力与IO等参数大多为前者的一半,适配不同的市场需求。

所以我们将注意力主要放在BR100身上。从一些关键数据就可以看出本次发布的BR100GPU是真正的“大”芯片。壁仞在宣传中提到“创下全球(通用GPU芯片的)算力记录”“单芯片算力达到PFLOPS级别”“峰值算力是国际厂商在售旗舰产品3倍以上”。

从制造和封装技术的堆料来看,应该更能体会其规模,包括7nm工艺、“770亿个晶体管”,以及张文提到的“1000mm²”左右的diesize。这个diesize数字当然也就突破了光刻机所能处理的reticlelimit,所以是将两片die封装到一起。

详解壁仞刚刚发布的GPU:单芯片PFLOPS算力是怎样炼成的?

从壁仞科技联合创始人、CTO洪洲的介绍来看,BR100明确采用了台积电的2.5D CoWoS-S封装方案——两片die和周边HBM2e内存都放在一片硅中介(silicon interposer)上。我们在刚刚发布的《先进封装的现在和将来》一文中详细介绍过这种先进封装技术,国内厂商在用的应当还寥寥无几。

而且dietodie互连采用超高速112GPAM4SerDes,die间通讯带宽达到了896GB/s——这个速度可一点也不比某“国际大厂”发布没多久的GraceHopperSuperchip的NVLink-C2C差。

基于以上数字,推荐感兴趣的同学去比一比,以及Intel Ponte Vecchio GPU,在die size、晶体管数量和先进封装技术的应用上都有一定的可比性;也能更进一步地体会壁仞BR100大约是怎样的定位。

实际上,英伟达在今年GTC上发布、尚未上市的Hopper架构的GH100diesize为814mm²,800亿个晶体管。“大芯片”之间过招,在堆料上真的已经到了白热化程度。

详解壁仞刚刚发布的GPU:单芯片PFLOPS算力是怎样炼成的?

BR100的理论算力水平如上图所示,不同格式与精度的算力值,对应于BR100在训练和推理方面的适用性。壁仞提到的“全球算力记录”和突破PFLOPS,应该就是指BF16格式(1024TFLOPS)。

这里有个TF32+,是壁仞新推的一种数据格式,后文将会提到。在AI训练中相对关键的BF16、TF32/TF32+峰值理论算力,都有着很漂亮的水平;着力推理的Int8也达到了2048TOPS。

其他配置数据还包括2.5D封装在一起的64GBHBM2e内存,“超300MB片上缓存”,2.3TB/s外部I/O带宽,64路高清编码、512路高清解码加速。

详解壁仞刚刚发布的GPU:单芯片PFLOPS算力是怎样炼成的?

对比“国际厂商在售旗舰”的峰值算力数据——这很显然比的就是Ampere架构的A100;AI计算相关主要数据格式的差异还是实打实的(FP32的数据,属于欺负A100的算力侧重点了;而且A100堆的FP64算力在HPC领域也是很重要的)。

据说在“开发者云上的实测算力”,BR100的数据还更好看一些。有兴趣的同学还可以拿尚未发售的英伟达Hopper新架构来比一比,虽然这种峰值算力对比的意义并不算特别大。另外要考虑对比双方的芯片产品大规模铺货的时间。

详解壁仞刚刚发布的GPU:单芯片PFLOPS算力是怎样炼成的?

到更为真实的负载中,跑主流、具代表性的网络,包括CV、NLP,还有现在很流行的Transformer,壁仞BR100仍然是有不小的优势的,“平均加速比2.6x”。不过这种涉及到实际业务的对比,不仅是芯片本身,还要带上系统、软件的对比,应当进一步明确对比对象和内容。我们很期待未来看到壁仞BR100及对应系统参与MLPerf基准测试。

实则从这些与竞品的性能对比数据,是能够发现壁仞研发团队的前瞻性的。这家公司2019年定义BR100芯片,到如今产品发布历经3年时间,AI与通用计算加速市场环境变化不小。首次做芯片,就要预见未来3年的算力增长,并在对应时间节点把产品拿出来,既有风险又有难度。

另外,单die的BR104主要配置与参数如下图所示。据说即便是单die的BR104,相比于“国际厂商在售旗舰”仍然有着1.4-1.6倍的算力优势,包括上述不同数据格式,与主流模型基准测试性能比较。

详解壁仞刚刚发布的GPU:单芯片PFLOPS算力是怎样炼成的?

本文链接:http://www.soxunwang.com/kjrd/2022/0816/105859.html

声明:
1、此文内容为本网站刊发或转载企业宣传资讯,仅代表作者个人观点,供读者参考。
2、搜讯网所转载的稿件都会明确标注作者和来源,如您不希望被转载请及时与我们联系删除。
3、搜讯网的原创文章,请转载时务必注明文章作者和"来源:搜讯网",不尊重原创的行为搜讯网或将追究责任。
4、本站提供的图文仅供参考,不能作为任何咨询依据,专业问题请咨询专业人士,谨防受骗。

关注搜讯网微信号

扫描加关注!

搜讯网福利发放

最新热点 更多
相关阅读 更多