nolife
2020-12-29T06:57:03+00:00
[url]https://www.chiphell.com/thread-2289722-1-1.html[/url]
其实也不完全是马甲,但是确实是安培架构基础上改造的。但是也具备琥珀架构一些特性,作为测试样品。给琥珀部分技术做论证。
好,下面开始说ADA架构。首选还是列举法。这些都是干货,大家最好[记笔记]。免得到时候骂我预言错误。喷我胡乱说。
1、ADA架构命名和英特尔艾达尔胡不是故意的,只是巧合。
2、ADA架构原本不在迭代计划里,是老黄新增的。
3、ADA架构立项时间,具体是2019-2020,也就是去年开始的。比安培架构晚了1年多
4、ADA架构具体立项时间,其实和琥珀架构是同期。[但作为备选方案]
5、也就是说最初的ADA架构。只是安培架构的新工艺版本。并非独立代号,ADA这个代号,是老黄后来临时加上去的,但是这个架构,可是2019年就立项的。所以[你可不要以为,这个架构是临时抱佛脚,那真的是琥珀同期备选计划,所以老黄研发MCM,自然是别可能马上就用,自然是要用备选方案的。]
6、ADA架构是安培架构基础上设计的一款新架构,其目标[是为了验证琥珀架构MCM技术封装出来的部分功能区结构。所以具备琥珀架构部分特性,但不是MCM封装。]作为过渡。
7、ADA基本上大部分结构和安培架构相似度极高,几乎CUDA数量都是一样的ALU团簇。但是GPC结构大改。而ALU团簇内部虽然CUDA数量应该是没有提升,但是ALU团簇每个TPC和GPC内部都要有很大改动,数量可能巨大提升。而每个ALU内部的CUDA结构也有变化。
8、初步ALU内部结构的变化,可以归类于[FP32效率大幅度改进,同时利用更多INT32转换FP32。] 大概是这个目标。
9、会加入新的色彩压缩技术,而且会大幅度增加L2和L3缓存。[用于弥补带宽
]
10、增加缓存,但是没有AMD那种无线缓存技术。这个可以确定。因为NV不希望吃太多晶体管用于这些。
11、可以确定[仍旧是GDDR6X和GDDR6搭配,并不是全体6X]
12、全体采用新工艺,我这边初步消息:琥珀架构GH100将会采用5nm Euv封装MCM工艺。但是ADA架构我认为不会采纳5nm Euv,而是6nm Euv或者7nm Euv(可能我保守了点,但是NV那边说:两个工艺不太一样,我认为他们不会给游戏卡用5nm)
13、初步消息:我听说ADA架构最大可以做到15000 CUDA以上但不超过170000,也就是说,大概是SM数量。有可能是128SM 附近。差不多16000多,就是说 最大游戏卡核心可能是16128左右。128SM
14、ADA架构的频率,持平RDAN2(根据我的消息,只是持平,不超频大概是boost 2300mhz附近,超频可以到2600mhz 不会超过RDAN2)
15、ADA架构的CUDA效率有很大改进,但是改进最大的,还是[每瓦性能]和[光线追踪性能]以及[DLSS性能]传统性能提升幅度,我认为不会比安培高太多。
16、光线追踪提升幅度提升非常之巨大,初步计算4060光线追踪性能甚至仅次于3090。(貌似每个ALU内部额外增加了RT单元)
17、每瓦性能提升巨大,4080初步TDP大概是200W附近,比2080Super略低一点,比3070低很多TDP。超频幅度也不算太小。几乎回归了10系列的TDP结构。大核心应该是能做到250-280w。不会超过300w了。
18、仍旧是256bit 384bit设计。 初步消息 256bit小核心大约是72SM附近。大概是9200附近但是图形性能比3090强1.3倍我认为不是问题。毕竟频率高300mhz 效率也优化了。即使是CUDA数量一样,性能提升也很大。
19、可以确定,显存全体更换2G颗粒,不管是GDDR6还是6X均为2GB版本。毕竟是2022年了。但是[老黄这次不会有两面颗粒的GDDR6X设计了,所以意味着:最大显存仍旧是24GB。所以你不要指望老黄给你48GB和32GB不可能的。 仍旧是 8GB 12GB 16GB 24GB这种组合,但不会有4G 6G 8G 12G了]
20、Rops和安培架构的差不多,安培架构的Rops不再是和位宽绑定了,而是和GPC绑定。所以Rops数量取决于GPC。ADA架构也一样,所以[你可不要以为ADA架构的SM数量有128,就以为他的Rops做到了192个。根据我的消息,128SM的某个产品,也只有128个Rops附近。不会增加太多。因为老黄的GPC,最大貌似还是8个。只是每个GPC内部的SM巨大幅度提升了,所以我认为GPC不可能提升到8个以上。至少ADA如果具备8个以上的GPC,那他就不是传统结构,而是MCM结构了。所以一个传统结构,目前8GPC就是极限了。所以这个不能盲目预言,要保守一些。8GPC就是很合理了]
21、根据我这边消息,ADA架构的具体核心代号,还没有定下来具体是A开头,还是其他代号开头。[目前NV内部初步代号:是GA200系列,也就是说。可能还是GA开头,这个后续可能改,但是初步确定是GA200系列。所以不排除2021年发布产品,是GH100 GA202 GA204] 这样排列。
21、GA204大概是6GPC每个12SM。72SM 9200多个CUDA。 GA202大概是8GPC 每个16一共128SM 16280附近CUDA。 有可能会有GA203 320bit 6GPC 16SM每个。一共12288附近。
22、具备DLSS 3.0我确定,这个技术不挑选Tensor版本,20系列 30系列 40系列都支持。只是40系列的DLSS效率更高,相当于8K和4K大幅度提升效率。同时锐化度比目前的CAS高很多。
初步信息:
GH100 琥珀MCM第一版测试产品,计算卡Tesla独占 2022发布上半年
GA202 大核心384bit 8GPC 每个16SM 一共128SM 16280个CUDA附近。 显存24GB GDDR6X 有个48GB泰坦两面颗粒
初步确定Titan和4090 4080Ti 配备 价格1399-999
GA203 大核心320bit 6GPC 每个16SM 一共96SM 16280个CUDA附近。 显存20GB GDDR6X
初步确定4080和4070Ti 配备
价格699美元
GA204 小核心256bit 6GPC每个12SM 一共72 9200CUDA附近,显存16GB
499美元 初步确定是4070和4060Ti
GA206 小核心192bit 大约48SM GPC不一定是3个。也可能是4个。 这个具体不好猜测,但是可以确定SP数量基本接近或者持平GA104。6000附近。
以上只是初步计算,206可能有误,但是204和202问题不大,具体性能方面。
4090大概是3090的1.6-1.7倍
4080大概是3090的1.35-1.4倍。
4070是3090的1.15倍附近。
4060Ti 是3080的1.15倍
4060基本持平6800XT
以上是4080采用GA203情况的判断,204则是4070。老黄今后会拉低206和204定位,增加203和202,拉开202和204性能差异。细分产品线。
后续SKU有可能会调整。[这个也只是初步计划大概方案]
此外 ~ NV这次内部会议。其实也聊到AMD后续产品。
他们非常确定[AMD RDAN3换5nm 是不可能提升50%性能的,最多1.3-1.4倍,而且还是根据6800XT计算的。所以要做到4080性能不太可能了。最多4070Ti附近。老黄这次4080有可能是GA203,所以AMD是肯定不太可能打平的,最多只能打103阉割版。而老黄204性能给比较低,比3090略强不太多。但也比3070比2080Ti提升幅度高一些。所以AMD的情况,并不会太乐观]
核心问题,还是5nm 对比7nm提升密度和每瓦性能都很小,尤其是频率几乎5nm和7nm频率不会有很大提升。AMD已经几乎吸干了工艺红利,而且RDNA3几乎很难改善光线追踪性能了,RDAN3也不是MCM封装。仍旧是传统结构。
更加不利的是,RDAN1234,都是一个架构改进。所以。不管是怎么换工艺,他都不可能有很大提升,后续老黄2024会发布MCM正式版架构,提升幅度更大。那时候基本上AMD会被秒杀几乎翻倍。而AMD的MCM就目前看,不管是进度还是性能,都是大幅度低于NV的。毕竟AMD单个Die单个完整晶圆设计都不行,一个Die多个晶圆互联,那宏观结构拆微观,又重新组合更大宏观的设计难度可想而知。对驱动和硬件内部调度都是要求极度严格的。而RDAN2 用7nm Duv+的晶体管做出来的内部硬件结构,都是一坨屎。2300mhz以上效率还不如老黄2000mhz 8nm晶体管性能高。 你就知道AMD落后到了什么程度了。
如果你把AMD换成8nm 把老黄换成7nm Duv+ [你会发现RDAN2最多3060水平]。
所以老黄说的1比9差距,不是吹的。 你就看新工艺打不过老工艺,那就是要完蛋的结构
后续老黄 2022年更新6nm-7nm工艺,不需要用5nm 也能把AMD 5nm按在地上打。AMD就目前密度进步,5nm就是一个临界点了,台积电目前3nm进展困难,即使是能做,对比5nm也没有翻倍密度提升。硅基材料到了3nm就是极限了,所以没有更好工艺红利,AMD和NV最终都会用5nm Euv结构进入MCM封装,通过封装模式弥补工艺密度的缺失。
最终进入MCM竞争时代,AMD会吃完了工艺红利,最终就会失去竞争力了。
如果AMD 那时候 5nm MCM打不过老黄7nmMCM,俺就真的悲剧了,后续可能NV 6nm MCM比AMD 3nm MCM性能还高,因为MCM不吃工艺密度,吃的是封装和设计。。。
AMD距离倒闭就不远了
不过目前ADA架构的具体代号,是不是GA200还不能绝对确定。因为后面还会改,具体方案。只能确定计划中[最大晶体管理论上实现的可以做到128SM。具体NV会考虑到频率和TDP,最终有可能不一定会采用128SM版本,没准会用高频108-112SM都有可能]
所以具体精确到SKU,目前还没有方案。后续我会随时修改。这个只是早期商议中的方案,由于NV本周其实是休假的,是上周才开始逐步定下来的。
所以ADA具体有可能会改,但是不改的话,那即是GA200系列几率高,有可能和安排架构都是A开头,再加上Ada和英特尔那边艾达尔胡同期上市,理论上来说:这东西[有点巧合的意思,也有碰瓷AMD的意思。毕竟英特尔艾达尔胡是吊打AMD的开始,其实NV和英特尔还是多少设计要戳AMD一下]
此外~ 根据我这边消息GH100已经在路上了。但是,GH100具体的设计,[虽然目前不知道具体情况,但是MCM封装下,老黄不排除取消ALU团簇结构]
所以今后琥珀架构的其他产品,你应该是看不到[SM]这种东西了。。。不排除这样几率是很大的。
因为MCM是没有计算单元团簇这种东西了,而是区分多区块结构。所以[相当于多个区块多个晶圆组成。也可能有单个晶圆的。但是高端货肯定是多个晶元。 所以SM这种ALU团簇结构,以后我估计真的就破灭了。 GPU不再需要并行单元了]
而是变成了[多晶圆分区多区域链路并行,而不是单晶圆内部晶体管团簇并行]
所以组成结构改变,导致了晶体管排列模式改变,更导致了架构大幅度更新。需要重设计全部结构。
所以今后的GPU,真的有可能没有SM了。[后续FP32和RT核心,也许仍旧存在,但是会封装在其他区块里面,相当于远程互联。但是不分部门了。而是直接放到一个楼群里。类似这样的结构]
其实也不完全是马甲,但是确实是安培架构基础上改造的。但是也具备琥珀架构一些特性,作为测试样品。给琥珀部分技术做论证。
好,下面开始说ADA架构。首选还是列举法。这些都是干货,大家最好[记笔记]。免得到时候骂我预言错误。喷我胡乱说。
1、ADA架构命名和英特尔艾达尔胡不是故意的,只是巧合。
2、ADA架构原本不在迭代计划里,是老黄新增的。
3、ADA架构立项时间,具体是2019-2020,也就是去年开始的。比安培架构晚了1年多
4、ADA架构具体立项时间,其实和琥珀架构是同期。[但作为备选方案]
5、也就是说最初的ADA架构。只是安培架构的新工艺版本。并非独立代号,ADA这个代号,是老黄后来临时加上去的,但是这个架构,可是2019年就立项的。所以[你可不要以为,这个架构是临时抱佛脚,那真的是琥珀同期备选计划,所以老黄研发MCM,自然是别可能马上就用,自然是要用备选方案的。]
6、ADA架构是安培架构基础上设计的一款新架构,其目标[是为了验证琥珀架构MCM技术封装出来的部分功能区结构。所以具备琥珀架构部分特性,但不是MCM封装。]作为过渡。
7、ADA基本上大部分结构和安培架构相似度极高,几乎CUDA数量都是一样的ALU团簇。但是GPC结构大改。而ALU团簇内部虽然CUDA数量应该是没有提升,但是ALU团簇每个TPC和GPC内部都要有很大改动,数量可能巨大提升。而每个ALU内部的CUDA结构也有变化。
8、初步ALU内部结构的变化,可以归类于[FP32效率大幅度改进,同时利用更多INT32转换FP32。] 大概是这个目标。
9、会加入新的色彩压缩技术,而且会大幅度增加L2和L3缓存。[用于弥补带宽
]
10、增加缓存,但是没有AMD那种无线缓存技术。这个可以确定。因为NV不希望吃太多晶体管用于这些。
11、可以确定[仍旧是GDDR6X和GDDR6搭配,并不是全体6X]
12、全体采用新工艺,我这边初步消息:琥珀架构GH100将会采用5nm Euv封装MCM工艺。但是ADA架构我认为不会采纳5nm Euv,而是6nm Euv或者7nm Euv(可能我保守了点,但是NV那边说:两个工艺不太一样,我认为他们不会给游戏卡用5nm)
13、初步消息:我听说ADA架构最大可以做到15000 CUDA以上但不超过170000,也就是说,大概是SM数量。有可能是128SM 附近。差不多16000多,就是说 最大游戏卡核心可能是16128左右。128SM
14、ADA架构的频率,持平RDAN2(根据我的消息,只是持平,不超频大概是boost 2300mhz附近,超频可以到2600mhz 不会超过RDAN2)
15、ADA架构的CUDA效率有很大改进,但是改进最大的,还是[每瓦性能]和[光线追踪性能]以及[DLSS性能]传统性能提升幅度,我认为不会比安培高太多。
16、光线追踪提升幅度提升非常之巨大,初步计算4060光线追踪性能甚至仅次于3090。(貌似每个ALU内部额外增加了RT单元)
17、每瓦性能提升巨大,4080初步TDP大概是200W附近,比2080Super略低一点,比3070低很多TDP。超频幅度也不算太小。几乎回归了10系列的TDP结构。大核心应该是能做到250-280w。不会超过300w了。
18、仍旧是256bit 384bit设计。 初步消息 256bit小核心大约是72SM附近。大概是9200附近但是图形性能比3090强1.3倍我认为不是问题。毕竟频率高300mhz 效率也优化了。即使是CUDA数量一样,性能提升也很大。
19、可以确定,显存全体更换2G颗粒,不管是GDDR6还是6X均为2GB版本。毕竟是2022年了。但是[老黄这次不会有两面颗粒的GDDR6X设计了,所以意味着:最大显存仍旧是24GB。所以你不要指望老黄给你48GB和32GB不可能的。 仍旧是 8GB 12GB 16GB 24GB这种组合,但不会有4G 6G 8G 12G了]
20、Rops和安培架构的差不多,安培架构的Rops不再是和位宽绑定了,而是和GPC绑定。所以Rops数量取决于GPC。ADA架构也一样,所以[你可不要以为ADA架构的SM数量有128,就以为他的Rops做到了192个。根据我的消息,128SM的某个产品,也只有128个Rops附近。不会增加太多。因为老黄的GPC,最大貌似还是8个。只是每个GPC内部的SM巨大幅度提升了,所以我认为GPC不可能提升到8个以上。至少ADA如果具备8个以上的GPC,那他就不是传统结构,而是MCM结构了。所以一个传统结构,目前8GPC就是极限了。所以这个不能盲目预言,要保守一些。8GPC就是很合理了]
21、根据我这边消息,ADA架构的具体核心代号,还没有定下来具体是A开头,还是其他代号开头。[目前NV内部初步代号:是GA200系列,也就是说。可能还是GA开头,这个后续可能改,但是初步确定是GA200系列。所以不排除2021年发布产品,是GH100 GA202 GA204] 这样排列。
21、GA204大概是6GPC每个12SM。72SM 9200多个CUDA。 GA202大概是8GPC 每个16一共128SM 16280附近CUDA。 有可能会有GA203 320bit 6GPC 16SM每个。一共12288附近。
22、具备DLSS 3.0我确定,这个技术不挑选Tensor版本,20系列 30系列 40系列都支持。只是40系列的DLSS效率更高,相当于8K和4K大幅度提升效率。同时锐化度比目前的CAS高很多。
初步信息:
GH100 琥珀MCM第一版测试产品,计算卡Tesla独占 2022发布上半年
GA202 大核心384bit 8GPC 每个16SM 一共128SM 16280个CUDA附近。 显存24GB GDDR6X 有个48GB泰坦两面颗粒
初步确定Titan和4090 4080Ti 配备 价格1399-999
GA203 大核心320bit 6GPC 每个16SM 一共96SM 16280个CUDA附近。 显存20GB GDDR6X
初步确定4080和4070Ti 配备
价格699美元
GA204 小核心256bit 6GPC每个12SM 一共72 9200CUDA附近,显存16GB
499美元 初步确定是4070和4060Ti
GA206 小核心192bit 大约48SM GPC不一定是3个。也可能是4个。 这个具体不好猜测,但是可以确定SP数量基本接近或者持平GA104。6000附近。
以上只是初步计算,206可能有误,但是204和202问题不大,具体性能方面。
4090大概是3090的1.6-1.7倍
4080大概是3090的1.35-1.4倍。
4070是3090的1.15倍附近。
4060Ti 是3080的1.15倍
4060基本持平6800XT
以上是4080采用GA203情况的判断,204则是4070。老黄今后会拉低206和204定位,增加203和202,拉开202和204性能差异。细分产品线。
后续SKU有可能会调整。[这个也只是初步计划大概方案]
此外 ~ NV这次内部会议。其实也聊到AMD后续产品。
他们非常确定[AMD RDAN3换5nm 是不可能提升50%性能的,最多1.3-1.4倍,而且还是根据6800XT计算的。所以要做到4080性能不太可能了。最多4070Ti附近。老黄这次4080有可能是GA203,所以AMD是肯定不太可能打平的,最多只能打103阉割版。而老黄204性能给比较低,比3090略强不太多。但也比3070比2080Ti提升幅度高一些。所以AMD的情况,并不会太乐观]
核心问题,还是5nm 对比7nm提升密度和每瓦性能都很小,尤其是频率几乎5nm和7nm频率不会有很大提升。AMD已经几乎吸干了工艺红利,而且RDNA3几乎很难改善光线追踪性能了,RDAN3也不是MCM封装。仍旧是传统结构。
更加不利的是,RDAN1234,都是一个架构改进。所以。不管是怎么换工艺,他都不可能有很大提升,后续老黄2024会发布MCM正式版架构,提升幅度更大。那时候基本上AMD会被秒杀几乎翻倍。而AMD的MCM就目前看,不管是进度还是性能,都是大幅度低于NV的。毕竟AMD单个Die单个完整晶圆设计都不行,一个Die多个晶圆互联,那宏观结构拆微观,又重新组合更大宏观的设计难度可想而知。对驱动和硬件内部调度都是要求极度严格的。而RDAN2 用7nm Duv+的晶体管做出来的内部硬件结构,都是一坨屎。2300mhz以上效率还不如老黄2000mhz 8nm晶体管性能高。 你就知道AMD落后到了什么程度了。
如果你把AMD换成8nm 把老黄换成7nm Duv+ [你会发现RDAN2最多3060水平]。
所以老黄说的1比9差距,不是吹的。 你就看新工艺打不过老工艺,那就是要完蛋的结构
后续老黄 2022年更新6nm-7nm工艺,不需要用5nm 也能把AMD 5nm按在地上打。AMD就目前密度进步,5nm就是一个临界点了,台积电目前3nm进展困难,即使是能做,对比5nm也没有翻倍密度提升。硅基材料到了3nm就是极限了,所以没有更好工艺红利,AMD和NV最终都会用5nm Euv结构进入MCM封装,通过封装模式弥补工艺密度的缺失。
最终进入MCM竞争时代,AMD会吃完了工艺红利,最终就会失去竞争力了。
如果AMD 那时候 5nm MCM打不过老黄7nmMCM,俺就真的悲剧了,后续可能NV 6nm MCM比AMD 3nm MCM性能还高,因为MCM不吃工艺密度,吃的是封装和设计。。。
AMD距离倒闭就不远了
不过目前ADA架构的具体代号,是不是GA200还不能绝对确定。因为后面还会改,具体方案。只能确定计划中[最大晶体管理论上实现的可以做到128SM。具体NV会考虑到频率和TDP,最终有可能不一定会采用128SM版本,没准会用高频108-112SM都有可能]
所以具体精确到SKU,目前还没有方案。后续我会随时修改。这个只是早期商议中的方案,由于NV本周其实是休假的,是上周才开始逐步定下来的。
所以ADA具体有可能会改,但是不改的话,那即是GA200系列几率高,有可能和安排架构都是A开头,再加上Ada和英特尔那边艾达尔胡同期上市,理论上来说:这东西[有点巧合的意思,也有碰瓷AMD的意思。毕竟英特尔艾达尔胡是吊打AMD的开始,其实NV和英特尔还是多少设计要戳AMD一下]
此外~ 根据我这边消息GH100已经在路上了。但是,GH100具体的设计,[虽然目前不知道具体情况,但是MCM封装下,老黄不排除取消ALU团簇结构]
所以今后琥珀架构的其他产品,你应该是看不到[SM]这种东西了。。。不排除这样几率是很大的。
因为MCM是没有计算单元团簇这种东西了,而是区分多区块结构。所以[相当于多个区块多个晶圆组成。也可能有单个晶圆的。但是高端货肯定是多个晶元。 所以SM这种ALU团簇结构,以后我估计真的就破灭了。 GPU不再需要并行单元了]
而是变成了[多晶圆分区多区域链路并行,而不是单晶圆内部晶体管团簇并行]
所以组成结构改变,导致了晶体管排列模式改变,更导致了架构大幅度更新。需要重设计全部结构。
所以今后的GPU,真的有可能没有SM了。[后续FP32和RT核心,也许仍旧存在,但是会封装在其他区块里面,相当于远程互联。但是不分部门了。而是直接放到一个楼群里。类似这样的结构]