EXOTI
2021-12-08T11:19:56+00:00
目的:12代CPU下,组个可以深度学习的主机(目前有1块显卡,后面加第二块3090)
手头现有:3090一块, DDR4内存 64G
想先组个主机,12900k配个主板。但是发现12代CPU的PCIE通道数好像不是很够,20个。如果PCIE4.0 x8+x8的话,不知道PCIE4.0x8够不够3090跑深度学习。
如果是必须PCIE4.0x16的话,那这个想法是不是实现不了。
求指导
4.0X8和3.0X16相当,老卡能跑,新卡也能。
不过4.0X8确实不能全部发挥性能
4.0*8够用了,性能损失百分之个位数,而且3090有NVLink的……
Reply to [pid=573249350,29834747,1]Reply[/pid] Post by [uid=1509129]缠绕指[/uid] (2021-12-13 19:25)
差得多吗
确定linux已经支持12代的调度器了吗?据我所知,相对于windows来说,即使是最新的内核,对于12代的支持也不太好吧。
Reply to [pid=573253683,29834747,1]Reply[/pid] Post by [uid=61416586]PrinceHolylight[/uid] (2021-12-13 19:48)
不确定啊 所以还是老老实实不用12代吗
Reply to [pid=573254720,29834747,1]Reply[/pid] Post by [uid=63800937]aqa999[/uid] (2021-12-13 19:53)
用,哪怕直接关小核,性能也比其他CPU要好。
其实4.0x4也够用了,因为最可能的瓶颈是硬盘到显存的文件读取
楼主担心多了,各种deep learning programs对gpu pcie带宽需求都非常小。
手上有别的机器可以把3090装上去跑个training试试的话,一用便知。
Reply to [pid=573252863,29834747,1]Reply[/pid] Post by [uid=63800937]aqa999[/uid] (2021-12-13 19:43)
你跑计算的话, PCIe带宽一般不是问题.
不过3090的NVLink显存池一直是灰色地带, 仅限Linux上能开启, 但是没有NV官方的支持, 不过好在绝大多数情况你也用不到这个. 正常修改batch size当普通多卡跑就行了.
前几楼把深度学习当成游戏渲染了吧……
第一,深度学习不需要接nvlink 各卡之间并行独立运算,显卡之间不需要直接交换数据,每张卡的显存都是各自存各自的数据,理想状况有几张卡就是几倍的效率,
第二,Z690的除了2根直连的PCIE通道之外由于DMI总线也升到了4.0X8,深度学习对数据延迟不敏感所以南桥的PCIE插槽也可以插一张3090。
第三,由于2·3根插槽间距比较短,如果要插满3张卡最好是显卡上水,2~3张卡风冷的话优先考虑涡轮版的3090。
第四,由于读图速度受到硬盘IO性能限制,pcie4.0X8甚至X4都完全满足。
[quote][pid=573869442,29834747,1]Reply[/pid] Post by [uid=1951625]墨水心[/uid] (2021-12-16 04:19):
前几楼把深度学习当成游戏渲染了吧……
第一,深度学习不需要接nvlink 各卡之间并行独立运算,显卡之间不需要直接交换数据,每张卡的显存都是各自存各自的数据,理想状况有几张卡就是几倍的效率,
第二,Z690的除了2根直连的PCIE通道之外由于DMI总线也升到了4.0X8,深度学习对数据延迟不敏感所以南桥的PCIE插槽也可以插一张3090。
第三,由于2·3根插槽间距比较短,如果要插满3张卡最好是显卡上水,2~3张卡风冷的话优先考虑涡轮版的3090。
第四,由于读图速度受到硬盘IO性能限制[/quote]显卡之间不交换数据?数据并行得求和梯度啊。数据中心里的a100大多插nvlink是插了个寂寞?
[quote][tid=29834747]Topic[/tid] Post by [uid=63800937]aqa999[/uid] (2021-12-13 19:20):
目的:12代CPU下,组个可以深度学习的主机(目前有1块显卡,后面加第二块3090)
手头现有:3090一块, DDR4内存 64G
想先组个主机,12900k配个主板。但是发现12代CPU的PCIE通道数好像不是很够,20个。如果PCIE4.0 x8+x8的话,不知道PCIE4.0x8够不够3090跑深度学习。
如果是必须PCIE4.0x16的话,那这个想法是不是实现不了。
求指导[/quote]如果做图像类的,建议多关注内存,上hedt 4通道256g内存。imagenet 1k是140多GB。做过训练的人会懂这意味着什么。其实模型大的时候比较无所谓了,但如果你真的训很小的模型导致数据io成为问题,在内存够大的前提下一般也是cpu和内存带宽先于pcie带宽扛不住。不想上hedt就想用12代的话,建议ddr5
做语音类和强化学习类的基本同样。
做nlp类的可以无视以上