-
【AI快讯分析】浪潮信息推出源 2.0-M32 大模型 4bit / 8bit 量化版本:宣称仅需 23GB 显存,性能可与 LLaMA3 相匹敌
【原文大意】来源:网上搜集浪潮信息近日发布了源 2.0-M32 大模型的 4bit 和 8bit 量化版本,这一新版本在性能上与 700 亿参数的 LLaMA3 开源大模型相媲美。特别之处在于,4bit 量化版的推理运行显存仅需 23.27GB,处理每个 token 的算力消耗约为 1.9 GFLOPs,这仅是同等规模的 LLaMA3-70B 模型的 1/80。相比之下,LLaMA3-7...