部分独显跑 DeepSeek 蒸馏模型的性能
部分独显跑 DeepSeek 蒸馏模型的性能3070跑7b、8b一般般 ylac 发表于 2025-2-20 07:48
3070跑7b、8b一般般
一个单一的显卡跑 AI 模型,就不要要求太高了。
据说 Grok3 是采用 20 万个 H100 训练的了 越来越听不懂了,那些什么B什么B的是什么意思?14b 32b是什么意思?指代的是什么?然后那个什么token又是什么意思,怎么计算的?然后蒸馏模型又是啥意思?蒸馏啥了? 本帖最后由 rubycon 于 2025-2-20 09:34 编辑
gujiangjiang 发表于 2025-2-20 08:12
越来越听不懂了,那些什么B什么B的是什么意思?14b 32b是什么意思?指代的是什么?然后那个什么token又是什 ...
B = 10 亿,这个是指 AI 模型的参数值,值越大,AI 就越智能了,但是需要的算力成指级数增长了。
蒸馏的意思是,取其精华、去其糟泊。
据说 DeepSeek 是蒸馏 ChatGPT 的? 本帖最后由 rubycon 于 2025-2-20 09:34 编辑
gujiangjiang 发表于 2025-2-20 08:12
越来越听不懂了,那些什么B什么B的是什么意思?14b 32b是什么意思?指代的是什么?然后那个什么token又是什 ...
token,你可以理解为一个简单的英文单词了。
你还有何疑问,可以到 ai.com 咨询 DeepSeek R1 啊(选中左下角的深度思考、联网搜索)
gujiangjiang 发表于 2025-2-20 08:12
越来越听不懂了,那些什么B什么B的是什么意思?14b 32b是什么意思?指代的是什么?然后那个什么token又是什 ...
你直接问AI不就好了 RTX3090*8,跑761B rubycon 发表于 2025-2-20 08:20
token,你可以理解为一个英文字符了。
你还有何疑问,可以到 ai.com 咨询 DeepSeek R1 啊(选中左下角的深 ...
因为最近到处都是什么B什么B的模型,什么几千几万的token,感觉一下子是不是与世界脱离了,都在讲这个,感谢解答,明白了 感谢分享! 哎,用不到,随它去
AI的问题问AI哈哈
水神咋啥都懂 rubycon 发表于 2025-2-20 08:20
B = 10 亿,这个是指 AI 模型的参数值,值越大,AI 就越智能了,但是需要的算力成几何级数增长了。
蒸馏 ...
别据说了,DeepSeek好几个地方都会故意这样回复的,不给你质疑的机会(这才是DeepSeek最牛的地方{:5_266:})! AI max395核显秒杀这些高端独显 要跟上时代步伐 A卡跑32B超过N卡那么多? gujiangjiang 发表于 2025-2-20 08:32
因为最近到处都是什么B什么B的模型,什么几千几万的token,感觉一下子是不是与世界脱离了,都在讲这个, ...
DeepSeek 横空出世,世界爆火,难道你也不知道么?
以后有什么不明白的地方,可以向 ai.com (DeepSeek R1)提问了 han1768 发表于 2025-2-20 08:54
A卡跑32B超过N卡那么多?
这个 A 卡显存是 24GB 啊。 山东大象 发表于 2025-2-20 08:50
AI max395核显秒杀这些高端独显
AMD 核显水平能比 RTX5090 还厉害了么?
页:
[1]
2