OwerGrowen
2022-03-15T09:24:42+00:00
[url]https://www.nextplatform.com/2022/03/11/pondering-the-cpu-inside-chinas-sunway-oceanlight-supercomputer/[/url]
神威系列又出新产品了,神威海洋之光,处理器是SW26010-Pro(中芯14nm,看来去美14nm已经能量产了),太湖之光用的SW20610是28nm,上面跑了个预训练机器学习模型,名为八卦炉(BaGuaLu,真就用八卦炉炼丹[s:ac:哭笑])
[img]https://img.nga.178.com/attachments/mon_202203/15/9aQ8mbp-by5mZfT1kSgc-d2.jpg[/img]
SW20610-Pro的计算引擎如图所示,其中一个处理器里有六个核心组,每个核心组里有一个管理单元,管着4*4=16组计算处理单元,每个单元中有4个计算单元,其中一部分支持FP64/32,另一部分支持FP16/BF16,每个计算处理单元共享256k的L2缓存,核心组通过DDR4内存控制器与内存交互,一个组有16GB的内存,带宽51.4GB/s,也就是单处理器96G内存,307.2GB/s内存带宽,六个核心组之间用环形总线连接,有两个网络互联端口与其他处理器互联(太湖之光用的是Infiniband)。
单处理器是14.03Tflops(FP64/32)或者55.3Tflops(BF16/FP16),八卦路模型用了105机柜,总共107250个处理器,合计1.51 Exaflops,加入扩展到160机柜,峰值FP64/32就是2.3EFlops,120机柜就是1.72EFlops,按160机柜配置,峰值性能超过了橡树岭的Frontier(1.5EFlops)和Aurora(2 Eflops),甚至可能超过2023年上限的El Capitan(2.2-2.3EFlops)。
14nm最大的问题还是发热和能源消耗(嘛,反正兔子不缺[s:ac:哭笑]),美国的超算则是往能耗比方向去的
神威系列又出新产品了,神威海洋之光,处理器是SW26010-Pro(中芯14nm,看来去美14nm已经能量产了),太湖之光用的SW20610是28nm,上面跑了个预训练机器学习模型,名为八卦炉(BaGuaLu,真就用八卦炉炼丹[s:ac:哭笑])
[img]https://img.nga.178.com/attachments/mon_202203/15/9aQ8mbp-by5mZfT1kSgc-d2.jpg[/img]
SW20610-Pro的计算引擎如图所示,其中一个处理器里有六个核心组,每个核心组里有一个管理单元,管着4*4=16组计算处理单元,每个单元中有4个计算单元,其中一部分支持FP64/32,另一部分支持FP16/BF16,每个计算处理单元共享256k的L2缓存,核心组通过DDR4内存控制器与内存交互,一个组有16GB的内存,带宽51.4GB/s,也就是单处理器96G内存,307.2GB/s内存带宽,六个核心组之间用环形总线连接,有两个网络互联端口与其他处理器互联(太湖之光用的是Infiniband)。
单处理器是14.03Tflops(FP64/32)或者55.3Tflops(BF16/FP16),八卦路模型用了105机柜,总共107250个处理器,合计1.51 Exaflops,加入扩展到160机柜,峰值FP64/32就是2.3EFlops,120机柜就是1.72EFlops,按160机柜配置,峰值性能超过了橡树岭的Frontier(1.5EFlops)和Aurora(2 Eflops),甚至可能超过2023年上限的El Capitan(2.2-2.3EFlops)。
14nm最大的问题还是发热和能源消耗(嘛,反正兔子不缺[s:ac:哭笑]),美国的超算则是往能耗比方向去的