[AI氵]感觉5090D的短板要被暴露了

Yukinwn-avatar

Yukinwn

2025-08-03T18:09:00+00:00

[s:ac:哭笑]qwen发布了一个20+7b的图片模型

前几天的wan2.214+14,单独拿low来当单帧出图或者图像编辑已经很amazing了
现在魔塔上的测试更是惊人[s:ac:哭笑]

问题来了,7b算完prompt可以卸载,但20b是躲不掉的,
按wan的情况1024*1024跑fp8e3m4,32g来了也只是勉勉强强

模型能力如此牛逼还是Apache2.0协议,社区大抵是有动力的,但哪怕是玩这些的,12-16g大概才是主流,

gguf说损失低我觉得多少有点自欺欺人,很可能也会因此推动fp4的应用 不会睡醒kj就发了吧

届时5090d就在落地的应用中真的弟了
c.at-avatar

c.at

不可能一直同时运行的吧
不过以n卡现在的德行是喜闻乐见
juggerNOT-avatar

juggerNOT

怎么,5090d 32勉强,5090 32就没问题了?
роблокс герл-avatar

роблокс герл

不是有NVIDIA RTX PRO 6000吗 这张卡96G显存 六万,游戏性能还强于5090。还有H20已经解禁了,11W.
peak-avatar

peak

小显存,出图,啊,不行了,我赛博画师PTSD要犯了
kyrlz-avatar

kyrlz

且不说这个跟90d砍的算力究竟有没有关系,姑且当做有关系。那么已知90d砍了ai算力是官方一开始就声明了的,某人打算买一张显卡来跑大模型,然后他买了90d,那跑不起来不是活该吗?
ColdWntrz-avatar

ColdWntrz

如果是专注于此的,不是应该直接投奔4090 48G吗
Yukinwn-avatar

Yukinwn

Reply to [pid=834777267,44771600,1]Reply[/pid] Post by [uid=8584606]noein5283[/uid] (2025-08-05 08:06)我的意思是可能fp4会被推动落地
Yukinwn-avatar

Yukinwn

醒了,e3m4没看到,dfloat11出来了
比我想象中的要求低点
[img]https://img.nga.178.com/attachments/mon_202508/05/9aQo6bk-4wkjK24T3cSzk-l2.jpg[/img]
Yukinwn-avatar

Yukinwn

Reply to [pid=834778646,44771600,1]Reply[/pid] Post by [uid=34636651]apple4010[/uid] (2025-08-05 08:21)
因为我是捡垃圾买的[s:ac:哭笑]
并不符合普遍情况的90d又贵又菜
Yukinwn-avatar

Yukinwn

Reply to [pid=834778646,44771600,1]Reply[/pid] Post by [uid=34636651]apple4010[/uid] (2025-08-05 08:21)
5090d砍的fp8转fp16和fp32
这个几乎就是用不到的
也还砍了fp4,或者说nvfp4,如果用fp4那就是有影响的

我的主楼说的是很可能fp4会变得有意义


虽然睡醒后发现好像情况没那么糟糕,fp8再上blockSwap应该够了
SteaminScaldren-avatar

SteaminScaldren

[quote][pid=834794324,44771600,1]Reply[/pid] Post by [uid=39512834]巴特沃斯低通滤波器[/uid] (2025-08-05 10:08):

5090d砍的fp8转fp16和fp32
这个几乎就是用不到的
也还砍了fp4,或者说nvfp4,如果用fp4那就是有影响的
我的主楼说的是很可能fp4会......[/quote]90d 全精度都砍了算力,只砍了 fp8 和 fp4 完全就是谣传
Yukinwn-avatar

Yukinwn

Reply to [pid=834794660,44771600,1]Reply[/pid] Post by [uid=37544749]datasone[/uid] (2025-08-05 10:10)这样吗,好吧,但我觉得还是要结合bandwidth和实际的来看的
moonflower-avatar

moonflower

所以直接买5090是肯定的,买d属于自讨苦吃,但是32G其实也不算多充裕。
Yukinwn-avatar

Yukinwn

Reply to [pid=834795871,44771600,1]Reply[/pid] Post by [uid=60395918]落羽沉香[/uid] (2025-08-05 10:17)贪便宜的后果[s:ac:哭笑]当时90是2w4,90d是2w8,我看着只要2w1就捡了
SteaminScaldren-avatar

SteaminScaldren

[quote][pid=834795416,44771600,1]Reply[/pid] Post by [uid=39512834]巴特沃斯低通滤波器[/uid] (2025-08-05 10:15):
这样吗,好吧,但我觉得还是要结合bandwidth和实际的来看的[/quote]就是测理论算力才能测出来区别。

mmapeak 那种测试,数据只在寄存器里,都不去 L1d。实际 ai 应用都是被带宽卡住的,这也是为什么明明有很大的算力差距,但实际跑不出来。
supersayan_1995-avatar

supersayan_1995

32G的显存跑27B不用Q4吧,Q6_K就行了
AEIOYOU-avatar

AEIOYOU

什么短板
有1%的90d用户要在本地推理llm吗[s:ac:茶]
rosaliey-avatar

rosaliey

猜楼主耗时0.1s,卧槽猜错人了,获得0分[s:ac:哭笑]



被那个ID搞的现在看到这种内容习惯性的会看ID。[s:ac:哭笑]
Yukinwn-avatar

Yukinwn

Reply to [pid=834798886,44771600,1]Reply[/pid] Post by [uid=37544749]datasone[/uid] (2025-08-05 10:35)取决于对“实际”的定义
在5090(D)上跑1.5B是有比较明显的差距,大约在15%上下,差值约50token/s
这个数据还是在同德5090可能比较丐,默认功耗和曲线跑32B被黑火神超一两T的前提下 降压还能差更大
以我的定义,那就是BF16~FP8都是没区别了,反正参数大了差距小,差距大了感知不到

但如果和我说五六十秒差30%那我觉得还是有点肉疼