【AI快讯分析】移动设备运行大型模型速度提升四至五倍:微软亚洲研究院发布开源创新技术T-MAC,仅需CPU即可实现。
T-MAC,CPU大模型,端侧部署优化,混合精度矩阵乘法,低比特计算 2024-08-09
微软亚洲研究院开发了一种名为T-MAC的新技术,旨在优化大语言模型在端侧设备上的部署,特别是在手机、PC和树莓派等资源受限的设备上。T-MAC技术通过采用基于查找表(LUT)的计算范式,直接支持混合精度矩阵乘法,无需反量化步骤,从而提高了推理性能并减少了资源消耗。这一技术的关键创新在于它不依赖于专用的硬件加速器如NPU或GPU,而是利用CPU即可实现高效的模型部署。实验结果显示,T-MAC在某些情况下甚至能超过专用加速器的性能,显著提升了模型的生成速率,同时降低了能耗和计算资源需求。此外,T-MAC的计算性能随着比特数的降低而线性提高,这对于低比特模型的部署尤为有利。该技术现已开源,提供了代码和相关论文供进一步研究。
技术创新点: - T-MAC技术:微软亚洲研究院提出的T-MAC技术,通过基于查找表(LUT)的计算范式,实现了混合精度矩阵乘法,无需反量化操作。 - 计算范式变革:T-MAC放弃了传统的乘累加(MAC)计算范式,采用基于比特的计算方式,通过移位和累加操作,支持从1到4的可扩展位数。 - 数据结构优化:针对低比特参数,T-MAC设计了高效的数据结构和计算流程,包括LUT存入片上内存、矩阵axis计算顺序改变、矩阵分块优化等。
性能提升表现: - 速度提升:在Surface AI PC上,3B BitNet-b1.58模型的生成速率可达每秒48个token,2bit 7B llama模型的生成速率可达每秒30个token,4bit 7B llama模型的生成速率可达每秒20个token。 - 超越NPU/GPU:在某些情况下,T-MAC的推理速度甚至超过了专用加速器NPU,例如在llama-2-7B-4bit模型上,CPU在T-MAC的助力下,仅使用两核便能达到每秒12.6个token。 - 功耗优势:达到相同的生成速率,T-MAC所需的核心数仅为原始llama.cpp的1/4至1/6,降低能耗的同时也为其他应用留下计算资源。
资源优化: - 存储和计算资源减少:T-MAC通过模型量化和基于LUT的计算范式,显著减少了模型所需的存储空间和计算资源。 - 线性性能提升:T-MAC的计算性能随着比特数的降低而线性提高,这在基于反量化的GPU和NPU中是难以观察到的。
部署灵活性: - 不依赖专用硬件:T-MAC不依赖于专用的硬件加速器NPU或GPU,能够仅利用CPU部署模型,提高了部署的灵活性和广泛性。 - 适用于资源受限设备:T-MAC尤其适合在资源受限的端侧设备部署,如Raspberry Pi 5上也能达到每秒11个token的生成速率。
市场影响: - 推动端侧AI发展:T-MAC技术的推出,将推动端侧AI应用的发展,使得更多设备能够运行大模型,提升用户体验。 - 降低成本:通过提高性能和降低资源消耗,T-MAC有助于降低AI模型的部署和运行成本,对企业和消费者都有积极影响。
应用前景: - 广泛应用场景:T-MAC技术适用于手机、PC、树莓派等多种端侧设备,有望在智能家居、智能穿戴、自动驾驶等领域得到广泛应用。 - 开源与社区贡献:T-MAC已开源,相关论文也在arXiv公开,这将促进社区的进一步研究和应用,加速技术的迭代和优化。
总体来看,T-MAC技术的推出,不仅在技术上实现了重大突破,提升了性能和资源效率,也为端侧AI应用的广泛部署和市场拓展提供了新的可能性。
评论记录: