Ryder
2025-07-28T09:43:17+00:00
研究好几天了。 目前比较看好的方案是双a770,linux系统跑intel魔改版的ollama。不过这一系列操作每一步都是花活。
补充:需求是无网环境用qwen3 coder 30b协助开发
补充2:qwen3 coder是moe模型,是30b a3b需要大显存,不需要大算力。30b参数全部加载到显存,但回答时只有3b参数参与运算
补充3:因为我用的ollama,所以只能pull到q4km版本,占显存21G左右
量化啊,万元都可以ktransformers跑ds 671b量化了。。。当然这就是极限压缩组生产力机器了 。
一张3090现在只要5000了,然后就处理器多核多线程堆服务器内存吧
不想收魔改卡可以看看这个[img]https://img.nga.178.com/attachments/mon_202508/06/9aQwcv9-egngZgT3cShs-134.jpg[/img]
128g跑32b应该是够了
有动手能力,能承担风险,捡垃圾镭7搞几张,再自己淘个服务器板。
还有个方案就是amx+ 395 买64g+1t那个版本 9999
mac mini 48g或者64g?
不知道有没有对应的配置
不过32b的需求是什么,32b的llm智商感人,还有q4量化的话,24g显存可以跑
[quote][pid=835007435,44783655,1]Reply[/pid] Post by [uid=60395918]落羽沉香[/uid] (2025-08-06 17:55):
不过32b的需求是什么,32b的llm智商感人,还有q4量化的话,24g显存可以跑[/quote]隔离内网的qwen3coder 30b
Reply to [pid=835007769,44783655,1]Reply[/pid] Post by [uid=62170568]琪亚娜-椅子兰娜[/uid] (2025-08-06 17:58)
不是刚开源了qwen-coder-flash性能损失也不是很多
[quote][pid=835008137,44783655,1]Reply[/pid] Post by [uid=37459024]stdemonli[/uid] (2025-08-06 18:00):
不是刚开源了qwen-coder-flash性能损失也不是很多[/quote]兄弟,qwen3coder flash就是qwen3coder 30b
看了你的需求,建议加预算,极限配置速度快不了,速度慢对生产力毫无帮助。
协助coding你得让他读文件吧,读都要读半天
[quote][pid=835008850,44783655,1]Reply[/pid] Post by [uid=18787939]oovloveme[/uid] (2025-08-06 18:05):
这预算都可以双5060ti 16g了[/quote]32b模型量化了也要22G显存,你这个不够的
[quote][pid=835007769,44783655,1]Reply[/pid] Post by [uid=62170568]琪亚娜-椅子兰娜[/uid] (2025-08-06 17:58):
隔离内网的qwen3coder 30b[/quote]那样的话,cpu速度太慢了效率不行,只能考虑纯显卡配置了,建议加预算
qwen coder 30b, 万元方案的上下文够吗?我试过4090跑 量化版的coder,
感觉上下文长度太小了,稍微长一点的内容,它就卡那了
32G就很舒适了,想办法弄出32G+的单卡吧,速度就没办法了,不过32B慢也慢不到哪去
3000块钱整一套两卡V100 SXM2 16g外接差不多了。
有需要的话也可以选2卡5060Ti 16g(全新)或者2卡3080 20g。
4张v100,加上转接卡也就不到4000,64G显存跑个32B Q8,上下文拉满,不是随便跑嘛
看你ctx window需要多大。不过按照native 256k的话,我只能给你点蜡烛了 [s:ac:哭笑]
[img]https://img.nga.178.com/attachments/mon_202508/06/9aQwcvr-ddbyKzT1kSd7-it.jpg[/img]
[img]https://img.nga.178.com/attachments/mon_202508/06/9aQwcvr-3ukyKzT1kSdt-iy.jpg[/img]