刚刚从官方确定消息，老黄的下一代架构[ADA]

nolife

2020-12-29T06:57:03+00:00

[url]https://www.chiphell.com/thread-2289722-1-1.html[/url]
其实也不完全是马甲，但是确实是安培架构基础上改造的。但是也具备琥珀架构一些特性，作为测试样品。给琥珀部分技术做论证。

好，下面开始说ADA架构。首选还是列举法。这些都是干货，大家最好[记笔记]。免得到时候骂我预言错误。喷我胡乱说。

1、ADA架构命名和英特尔艾达尔胡不是故意的，只是巧合。

2、ADA架构原本不在迭代计划里，是老黄新增的。

3、ADA架构立项时间，具体是2019-2020，也就是去年开始的。比安培架构晚了1年多

4、ADA架构具体立项时间，其实和琥珀架构是同期。[但作为备选方案]

5、也就是说最初的ADA架构。只是安培架构的新工艺版本。并非独立代号，ADA这个代号，是老黄后来临时加上去的，但是这个架构，可是2019年就立项的。所以[你可不要以为，这个架构是临时抱佛脚，那真的是琥珀同期备选计划，所以老黄研发MCM，自然是别可能马上就用，自然是要用备选方案的。]

6、ADA架构是安培架构基础上设计的一款新架构，其目标[是为了验证琥珀架构MCM技术封装出来的部分功能区结构。所以具备琥珀架构部分特性，但不是MCM封装。]作为过渡。

7、ADA基本上大部分结构和安培架构相似度极高，几乎CUDA数量都是一样的ALU团簇。但是GPC结构大改。而ALU团簇内部虽然CUDA数量应该是没有提升，但是ALU团簇每个TPC和GPC内部都要有很大改动，数量可能巨大提升。而每个ALU内部的CUDA结构也有变化。

8、初步ALU内部结构的变化，可以归类于[FP32效率大幅度改进，同时利用更多INT32转换FP32。] 大概是这个目标。

9、会加入新的色彩压缩技术，而且会大幅度增加L2和L3缓存。[用于弥补带宽
]

10、增加缓存，但是没有AMD那种无线缓存技术。这个可以确定。因为NV不希望吃太多晶体管用于这些。

11、可以确定[仍旧是GDDR6X和GDDR6搭配，并不是全体6X]

12、全体采用新工艺，我这边初步消息：琥珀架构GH100将会采用5nm Euv封装MCM工艺。但是ADA架构我认为不会采纳5nm Euv，而是6nm Euv或者7nm Euv(可能我保守了点，但是NV那边说：两个工艺不太一样，我认为他们不会给游戏卡用5nm)

13、初步消息：我听说ADA架构最大可以做到15000 CUDA以上但不超过170000，也就是说，大概是SM数量。有可能是128SM 附近。差不多16000多，就是说最大游戏卡核心可能是16128左右。128SM

14、ADA架构的频率，持平RDAN2(根据我的消息，只是持平，不超频大概是boost 2300mhz附近，超频可以到2600mhz 不会超过RDAN2)

15、ADA架构的CUDA效率有很大改进，但是改进最大的，还是[每瓦性能]和[光线追踪性能]以及[DLSS性能]传统性能提升幅度，我认为不会比安培高太多。

16、光线追踪提升幅度提升非常之巨大，初步计算4060光线追踪性能甚至仅次于3090。(貌似每个ALU内部额外增加了RT单元)

17、每瓦性能提升巨大，4080初步TDP大概是200W附近，比2080Super略低一点，比3070低很多TDP。超频幅度也不算太小。几乎回归了10系列的TDP结构。大核心应该是能做到250-280w。不会超过300w了。

18、仍旧是256bit 384bit设计。初步消息 256bit小核心大约是72SM附近。大概是9200附近但是图形性能比3090强1.3倍我认为不是问题。毕竟频率高300mhz 效率也优化了。即使是CUDA数量一样，性能提升也很大。

19、可以确定，显存全体更换2G颗粒，不管是GDDR6还是6X均为2GB版本。毕竟是2022年了。但是[老黄这次不会有两面颗粒的GDDR6X设计了，所以意味着：最大显存仍旧是24GB。所以你不要指望老黄给你48GB和32GB不可能的。仍旧是 8GB 12GB 16GB 24GB这种组合，但不会有4G 6G 8G 12G了]

20、Rops和安培架构的差不多，安培架构的Rops不再是和位宽绑定了，而是和GPC绑定。所以Rops数量取决于GPC。ADA架构也一样，所以[你可不要以为ADA架构的SM数量有128，就以为他的Rops做到了192个。根据我的消息，128SM的某个产品，也只有128个Rops附近。不会增加太多。因为老黄的GPC，最大貌似还是8个。只是每个GPC内部的SM巨大幅度提升了，所以我认为GPC不可能提升到8个以上。至少ADA如果具备8个以上的GPC，那他就不是传统结构，而是MCM结构了。所以一个传统结构，目前8GPC就是极限了。所以这个不能盲目预言，要保守一些。8GPC就是很合理了]

21、根据我这边消息，ADA架构的具体核心代号，还没有定下来具体是A开头，还是其他代号开头。[目前NV内部初步代号：是GA200系列，也就是说。可能还是GA开头，这个后续可能改，但是初步确定是GA200系列。所以不排除2021年发布产品，是GH100 GA202 GA204] 这样排列。

21、GA204大概是6GPC每个12SM。72SM 9200多个CUDA。 GA202大概是8GPC 每个16一共128SM 16280附近CUDA。有可能会有GA203 320bit 6GPC 16SM每个。一共12288附近。

22、具备DLSS 3.0我确定，这个技术不挑选Tensor版本，20系列 30系列 40系列都支持。只是40系列的DLSS效率更高，相当于8K和4K大幅度提升效率。同时锐化度比目前的CAS高很多。

初步信息：

GH100 琥珀MCM第一版测试产品，计算卡Tesla独占 2022发布上半年

GA202 大核心384bit 8GPC 每个16SM 一共128SM 16280个CUDA附近。显存24GB GDDR6X 有个48GB泰坦两面颗粒

初步确定Titan和4090 4080Ti 配备价格1399-999

GA203 大核心320bit 6GPC 每个16SM 一共96SM 16280个CUDA附近。显存20GB GDDR6X

初步确定4080和4070Ti 配备
价格699美元

GA204 小核心256bit 6GPC每个12SM 一共72 9200CUDA附近，显存16GB
499美元初步确定是4070和4060Ti

GA206 小核心192bit 大约48SM GPC不一定是3个。也可能是4个。这个具体不好猜测，但是可以确定SP数量基本接近或者持平GA104。6000附近。

以上只是初步计算，206可能有误，但是204和202问题不大，具体性能方面。
4090大概是3090的1.6-1.7倍
4080大概是3090的1.35-1.4倍。
4070是3090的1.15倍附近。
4060Ti 是3080的1.15倍
4060基本持平6800XT

以上是4080采用GA203情况的判断，204则是4070。老黄今后会拉低206和204定位，增加203和202，拉开202和204性能差异。细分产品线。

后续SKU有可能会调整。[这个也只是初步计划大概方案]

此外 ~ NV这次内部会议。其实也聊到AMD后续产品。

他们非常确定[AMD RDAN3换5nm 是不可能提升50%性能的，最多1.3-1.4倍，而且还是根据6800XT计算的。所以要做到4080性能不太可能了。最多4070Ti附近。老黄这次4080有可能是GA203，所以AMD是肯定不太可能打平的，最多只能打103阉割版。而老黄204性能给比较低，比3090略强不太多。但也比3070比2080Ti提升幅度高一些。所以AMD的情况，并不会太乐观]

核心问题，还是5nm 对比7nm提升密度和每瓦性能都很小，尤其是频率几乎5nm和7nm频率不会有很大提升。AMD已经几乎吸干了工艺红利，而且RDNA3几乎很难改善光线追踪性能了，RDAN3也不是MCM封装。仍旧是传统结构。

更加不利的是，RDAN1234，都是一个架构改进。所以。不管是怎么换工艺，他都不可能有很大提升，后续老黄2024会发布MCM正式版架构，提升幅度更大。那时候基本上AMD会被秒杀几乎翻倍。而AMD的MCM就目前看，不管是进度还是性能，都是大幅度低于NV的。毕竟AMD单个Die单个完整晶圆设计都不行，一个Die多个晶圆互联，那宏观结构拆微观，又重新组合更大宏观的设计难度可想而知。对驱动和硬件内部调度都是要求极度严格的。而RDAN2 用7nm Duv+的晶体管做出来的内部硬件结构，都是一坨屎。2300mhz以上效率还不如老黄2000mhz 8nm晶体管性能高。你就知道AMD落后到了什么程度了。

如果你把AMD换成8nm 把老黄换成7nm Duv+ [你会发现RDAN2最多3060水平]。

所以老黄说的1比9差距，不是吹的。你就看新工艺打不过老工艺，那就是要完蛋的结构
后续老黄 2022年更新6nm-7nm工艺，不需要用5nm 也能把AMD 5nm按在地上打。AMD就目前密度进步，5nm就是一个临界点了，台积电目前3nm进展困难，即使是能做，对比5nm也没有翻倍密度提升。硅基材料到了3nm就是极限了，所以没有更好工艺红利，AMD和NV最终都会用5nm Euv结构进入MCM封装，通过封装模式弥补工艺密度的缺失。

最终进入MCM竞争时代，AMD会吃完了工艺红利，最终就会失去竞争力了。
如果AMD 那时候 5nm MCM打不过老黄7nmMCM，俺就真的悲剧了，后续可能NV 6nm MCM比AMD 3nm MCM性能还高，因为MCM不吃工艺密度，吃的是封装和设计。。。

AMD距离倒闭就不远了

不过目前ADA架构的具体代号，是不是GA200还不能绝对确定。因为后面还会改，具体方案。只能确定计划中[最大晶体管理论上实现的可以做到128SM。具体NV会考虑到频率和TDP，最终有可能不一定会采用128SM版本，没准会用高频108-112SM都有可能]

所以具体精确到SKU，目前还没有方案。后续我会随时修改。这个只是早期商议中的方案，由于NV本周其实是休假的，是上周才开始逐步定下来的。

所以ADA具体有可能会改，但是不改的话，那即是GA200系列几率高，有可能和安排架构都是A开头，再加上Ada和英特尔那边艾达尔胡同期上市，理论上来说：这东西[有点巧合的意思，也有碰瓷AMD的意思。毕竟英特尔艾达尔胡是吊打AMD的开始，其实NV和英特尔还是多少设计要戳AMD一下]

此外~ 根据我这边消息GH100已经在路上了。但是，GH100具体的设计，[虽然目前不知道具体情况，但是MCM封装下，老黄不排除取消ALU团簇结构]

所以今后琥珀架构的其他产品，你应该是看不到[SM]这种东西了。。。不排除这样几率是很大的。

因为MCM是没有计算单元团簇这种东西了，而是区分多区块结构。所以[相当于多个区块多个晶圆组成。也可能有单个晶圆的。但是高端货肯定是多个晶元。所以SM这种ALU团簇结构，以后我估计真的就破灭了。 GPU不再需要并行单元了]

而是变成了[多晶圆分区多区域链路并行，而不是单晶圆内部晶体管团簇并行]
所以组成结构改变，导致了晶体管排列模式改变，更导致了架构大幅度更新。需要重设计全部结构。

所以今后的GPU，真的有可能没有SM了。[后续FP32和RT核心，也许仍旧存在，但是会封装在其他区块里面，相当于远程互联。但是不分部门了。而是直接放到一个楼群里。类似这样的结构]