AMD平台打游戏时黑屏重启/whea18错误不一定是CPU核心不稳定导致的,还有可能是A卡不稳定导致的

KxngDemon-avatar

KxngDemon

2021-06-15T14:49:42+00:00

前几天作死,用MorePowerTool把6900xt的最大soc电压降低到能过烧机的稳定值以下,想看看降压后显卡在较低功耗的情况下,使用更低的soc电压能否也能稳定工作
结果几个小时内玩游戏(apex)中途黑屏重启了好几次,且重启后出现whea18事件记录,描述均为Cache Hierarchy Error,带有核心对应apic id
[img]https://img.nga.178.com/attachments/mon_202106/21/9aQ2o-6wt4K1uT3cSsg-cb.jpg[/img]
刚开始我一看这个现象,这不是典型的cpu核心不稳定吗?难道说是降低显卡soc电压之后,对cpu稳定性的要求提高了?
于是我把whea18事件里不稳定的那个核心的curve值设置调得保守一些,但之后依然会频繁黑屏重启。这说明这很可能不是cpu的问题,而是6900xt的soc电压实在太低,是显卡不稳定。
我把显卡soc电压拉高回到稳定值、cpu的curve值也使用回激进的设置之后,打游戏则一切正常,没有黑屏重启也没有whea18了。

我是开着SAM的,个人猜测SAM和这个现象有关。我猜测开着SAM打游戏时,有部分数据需要经过CPU和GPU处理。soc电压过低的GPU对这些数据处理时或传递给CPU时,数据出错损坏了。CPU接收到错误的数据,CPU硬件查错纠错机制检测到后就直接触发Cache Hierarchy Error导致系统黑屏重启,即使这个error是GPU产生的,而非CPU自己产生的。

那么假如有某一张A卡的体质太雷/后天缩肛了,默认的soc电压都不足以使其稳定运行,就会有显卡出错导致了黑屏重启、却是CPU出来报告whea18错误的现象发生了。
总之这种现象十分诡异、让人难以理解,也让AMD平台黑屏重启现象的排错纠错变得更加困难了。要是出问题了可能不只需要考虑RMA掉CPU,还需要考虑其他地方,比如显卡出问题的可能性。
CORZRX-avatar

CORZRX

目前有N卡不稳引起A U出WHEA 18的案例吗?
AGENT-avatar

AGENT

我之前3700x加1660ti也是这样的报错
后面rma了
实在受不了

显卡默认用 没超过
KxngDemon-avatar

KxngDemon

Reply to [pid=526296604,27299749,1]Reply[/pid] Post by [uid=34487414]ultrak[/uid] (2021-06-21 22:53)
还没有遇到过,N卡并不允许调A卡的SOC电压这种设置,N卡超核心超炸了也就掉显卡驱动而已,所以我的描述暂时只是A卡
Malizé-avatar

Malizé

curve你都恢复了,明显U的体质问题
KxngDemon-avatar

KxngDemon

Reply to [pid=526298729,27299749,1]Reply[/pid] Post by [uid=367921]hoolay[/uid] (2021-06-21 23:04)
误解了。。我得把描述修正一下
是soc电压保守,curve激进,一切正常;
soc电压激进,curve保守,黑屏重启
Naqte-avatar

Naqte

我也有同样的发现,就是这样的,A卡相关问题,但是报A U,我从去年12月首发一直查到上个星期才查出来。期间以为主板背锅,好不容易抢到的c8dh都退了。

跟sam应该没有关系,开不开都会报a u核心缓存错误。

看我帖子:[url]https://ngabbs.com/read.php?tid=27153048[/url]
FlickY-avatar

FlickY

CHH也有人发过这个,应该是楼上那位
ZORBYY-avatar

ZORBYY

我遇到过,3600+68xt,降低fclk到1600解决。

pcie设备不稳定本质是imc问题。
ZER0-avatar

ZER0

b站刷到一个视频超6900xt把5600x超死了都….
coookiie-avatar

coookiie

应该是PCIe不稳定导致的。

FCLK不稳定不一定都表现为内存不稳定
KxngDemon-avatar

KxngDemon

Reply to [pid=526302423,27299749,1]Reply[/pid] Post by [uid=41107044]能赚钱啊[/uid] (2021-06-21 23:24)
看了你的贴子,其实算是hwinfo64旧版本的锅?
我用的hwinfo64是7.04版本的,应该已经没有旧版本问题了,问题应该不在这里,单纯是显卡soc电压手动设置太低
KxngDemon-avatar

KxngDemon

Reply to [pid=526303000,27299749,1]Reply[/pid] Post by [uid=63021018]Monty0[/uid] (2021-06-21 23:27)
A卡的soc电压应该和锐龙CPU的soc电压功能类似,同时负责io(pcie等)和imc

这里应该是A卡过低的soc电压导致A卡的io出了问题,不是imc
Бoos-avatar

Бoos

个人猜测,大概率是电压太低,导致显卡的PCIE4.0控制器不稳定,所以和锐龙iodie pcie4.0控制器通讯不稳定,纠错压力升高,纠错不过来的时候就报错了。强制3.0如果没问题可能就能验证我的猜测,N卡不报错可能是因为这代N卡出厂灰烬没有什么超频玩家,或者是N卡PCIE控制器不受核心电压影响
ZORBYY-avatar

ZORBYY

Reply to [pid=526306572,27299749,1]Reply[/pid] Post by [uid=38922157]嗯嗯嗯嗯什么[/uid] (2021-06-21 23:46)

显卡跟io die只会有PCIe连接,怎么会影响CPU内核错误呢。PCIe直接在IO die上跟imc交互,io die不稳才会导致whea
KxngDemon-avatar

KxngDemon

Reply to [pid=526307770,27299749,1]Reply[/pid] Post by [uid=43318737]世界云首杀[/uid] (2021-06-21 23:53)
这个假说不错,迟点我可以试验一下
KxngDemon-avatar

KxngDemon

Reply to [pid=526308546,27299749,1]Reply[/pid] Post by [uid=63021018]Monty0[/uid] (2021-06-21 23:57)
我和你应该不是同一种情况,你的是cpu的io die不稳,我的是显卡的io不稳(我调的是显卡的soc电压,不是cpu的soc电压),同样的结果,不同的原因
Naqte-avatar

Naqte

[quote][pid=526304417,27299749,1]Reply[/pid] Post by [uid=38922157]嗯嗯嗯嗯什么[/uid] (2021-06-21 23:34):

看了你的贴子,其实算是hwinfo64旧版本的锅?
我用的hwinfo64是7.04版本的,应该已经没有旧版本问题了,问题应该不在这里,单纯是显卡soc电压手动设置太低[/quote]对,你的应该不是软件问题,我是侧面帮你印证一下A卡显卡崩了会报CPU错误。
GhostDragon-avatar

GhostDragon

请问楼主,你用224的刷新率一直正常吗,还没出过问题吧。
Jhone Kadafi-avatar

Jhone Kadafi

PCIE4.0的问题吧
你先降低到3.0再试试再说