【AI快讯分析】移动设备运行大型模型速度提升四至五倍：微软亚洲研究院发布开源创新技术T-MAC，仅需CPU即可实现。|智海流光AI资讯网

【AI快讯分析】移动设备运行大型模型速度提升四至五倍：微软亚洲研究院发布开源创新技术T-MAC，仅需CPU即可实现。

智海流光AI管理员 0 2024-08-09 13:06:02

👉在线AI写作👈

【原文大意】

来源：网上搜集

微软亚洲研究院开发了一种名为T-MAC的新技术，旨在优化大语言模型在端侧设备上的部署，特别是在手机、PC和树莓派等资源受限的设备上。T-MAC技术通过采用基于查找表（LUT）的计算范式，直接支持混合精度矩阵乘法，无需反量化步骤，从而提高了推理性能并减少了资源消耗。这一技术的关键创新在于它不依赖于专用的硬件加速器如NPU或GPU，而是利用CPU即可实现高效的模型部署。实验结果显示，T-MAC在某些情况下甚至能超过专用加速器的性能，显著提升了模型的生成速率，同时降低了能耗和计算资源需求。此外，T-MAC的计算性能随着比特数的降低而线性提高，这对于低比特模型的部署尤为有利。该技术现已开源，提供了代码和相关论文供进一步研究。

【分析结果】

分析角度一：技术创新与性能提升

技术创新点： - T-MAC技术：微软亚洲研究院提出的T-MAC技术，通过基于查找表（LUT）的计算范式，实现了混合精度矩阵乘法，无需反量化操作。 - 计算范式变革：T-MAC放弃了传统的乘累加（MAC）计算范式，采用基于比特的计算方式，通过移位和累加操作，支持从1到4的可扩展位数。 - 数据结构优化：针对低比特参数，T-MAC设计了高效的数据结构和计算流程，包括LUT存入片上内存、矩阵axis计算顺序改变、矩阵分块优化等。

性能提升表现： - 速度提升：在Surface AI PC上，3B BitNet-b1.58模型的生成速率可达每秒48个token，2bit 7B llama模型的生成速率可达每秒30个token，4bit 7B llama模型的生成速率可达每秒20个token。 - 超越NPU/GPU：在某些情况下，T-MAC的推理速度甚至超过了专用加速器NPU，例如在llama-2-7B-4bit模型上，CPU在T-MAC的助力下，仅使用两核便能达到每秒12.6个token。 - 功耗优势：达到相同的生成速率，T-MAC所需的核心数仅为原始llama.cpp的1/4至1/6，降低能耗的同时也为其他应用留下计算资源。

分析角度二：资源优化与部署灵活性

资源优化： - 存储和计算资源减少：T-MAC通过模型量化和基于LUT的计算范式，显著减少了模型所需的存储空间和计算资源。 - 线性性能提升：T-MAC的计算性能随着比特数的降低而线性提高，这在基于反量化的GPU和NPU中是难以观察到的。

部署灵活性： - 不依赖专用硬件：T-MAC不依赖于专用的硬件加速器NPU或GPU，能够仅利用CPU部署模型，提高了部署的灵活性和广泛性。 - 适用于资源受限设备：T-MAC尤其适合在资源受限的端侧设备部署，如Raspberry Pi 5上也能达到每秒11个token的生成速率。

分析角度三：市场影响与应用前景

市场影响： - 推动端侧AI发展：T-MAC技术的推出，将推动端侧AI应用的发展，使得更多设备能够运行大模型，提升用户体验。 - 降低成本：通过提高性能和降低资源消耗，T-MAC有助于降低AI模型的部署和运行成本，对企业和消费者都有积极影响。

应用前景： - 广泛应用场景：T-MAC技术适用于手机、PC、树莓派等多种端侧设备，有望在智能家居、智能穿戴、自动驾驶等领域得到广泛应用。 - 开源与社区贡献：T-MAC已开源，相关论文也在arXiv公开，这将促进社区的进一步研究和应用，加速技术的迭代和优化。

总体来看，T-MAC技术的推出，不仅在技术上实现了重大突破，提升了性能和资源效率，也为端侧AI应用的广泛部署和市场拓展提供了新的可能性。

👉AI智能写作👈

标签：T-MAC CPU大模型端侧部署优化混合精度矩阵乘法低比特计算