KxngDemon
2021-06-15T14:49:42+00:00
前几天作死,用MorePowerTool把6900xt的最大soc电压降低到能过烧机的稳定值以下,想看看降压后显卡在较低功耗的情况下,使用更低的soc电压能否也能稳定工作
结果几个小时内玩游戏(apex)中途黑屏重启了好几次,且重启后出现whea18事件记录,描述均为Cache Hierarchy Error,带有核心对应apic id
[img]https://img.nga.178.com/attachments/mon_202106/21/9aQ2o-6wt4K1uT3cSsg-cb.jpg[/img]
刚开始我一看这个现象,这不是典型的cpu核心不稳定吗?难道说是降低显卡soc电压之后,对cpu稳定性的要求提高了?
于是我把whea18事件里不稳定的那个核心的curve值设置调得保守一些,但之后依然会频繁黑屏重启。这说明这很可能不是cpu的问题,而是6900xt的soc电压实在太低,是显卡不稳定。
我把显卡soc电压拉高回到稳定值、cpu的curve值也使用回激进的设置之后,打游戏则一切正常,没有黑屏重启也没有whea18了。
我是开着SAM的,个人猜测SAM和这个现象有关。我猜测开着SAM打游戏时,有部分数据需要经过CPU和GPU处理。soc电压过低的GPU对这些数据处理时或传递给CPU时,数据出错损坏了。CPU接收到错误的数据,CPU硬件查错纠错机制检测到后就直接触发Cache Hierarchy Error导致系统黑屏重启,即使这个error是GPU产生的,而非CPU自己产生的。
那么假如有某一张A卡的体质太雷/后天缩肛了,默认的soc电压都不足以使其稳定运行,就会有显卡出错导致了黑屏重启、却是CPU出来报告whea18错误的现象发生了。
总之这种现象十分诡异、让人难以理解,也让AMD平台黑屏重启现象的排错纠错变得更加困难了。要是出问题了可能不只需要考虑RMA掉CPU,还需要考虑其他地方,比如显卡出问题的可能性。
结果几个小时内玩游戏(apex)中途黑屏重启了好几次,且重启后出现whea18事件记录,描述均为Cache Hierarchy Error,带有核心对应apic id
[img]https://img.nga.178.com/attachments/mon_202106/21/9aQ2o-6wt4K1uT3cSsg-cb.jpg[/img]
刚开始我一看这个现象,这不是典型的cpu核心不稳定吗?难道说是降低显卡soc电压之后,对cpu稳定性的要求提高了?
于是我把whea18事件里不稳定的那个核心的curve值设置调得保守一些,但之后依然会频繁黑屏重启。这说明这很可能不是cpu的问题,而是6900xt的soc电压实在太低,是显卡不稳定。
我把显卡soc电压拉高回到稳定值、cpu的curve值也使用回激进的设置之后,打游戏则一切正常,没有黑屏重启也没有whea18了。
我是开着SAM的,个人猜测SAM和这个现象有关。我猜测开着SAM打游戏时,有部分数据需要经过CPU和GPU处理。soc电压过低的GPU对这些数据处理时或传递给CPU时,数据出错损坏了。CPU接收到错误的数据,CPU硬件查错纠错机制检测到后就直接触发Cache Hierarchy Error导致系统黑屏重启,即使这个error是GPU产生的,而非CPU自己产生的。
那么假如有某一张A卡的体质太雷/后天缩肛了,默认的soc电压都不足以使其稳定运行,就会有显卡出错导致了黑屏重启、却是CPU出来报告whea18错误的现象发生了。
总之这种现象十分诡异、让人难以理解,也让AMD平台黑屏重启现象的排错纠错变得更加困难了。要是出问题了可能不只需要考虑RMA掉CPU,还需要考虑其他地方,比如显卡出问题的可能性。