“存力中国行”探讨AI推理挑战,华为开源UCM技术是解决问题的关键 – 新京报

由中国信息通信研究院主办的北京活动“储备中国行”于11月4日举行,来自中国移动、华为、芯动等近20位行业代表齐聚一堂。随着AI行业发展的重点从突破模型能力极限转向优化推理体验,先进存储能力如何降低AI推理成本、提高效率成为焦点。中国移动云能力中心首席项目工程师周宇在座谈会上坦言:“当前,AI推理面临着KVCache存储需求更新、多模态数据协同、存储与计算协同带宽不足、负载潮汐特性、成本控制等挑战。”华为数据存储产品线战略与业务发展部总裁王旭东则指出了行业存在的问题“三不”:数据无法正确处理。无法管理、无法提供算力、无法降低成本。在此背景下,华为开源的UCM(Unified Cache Manager)推理内存数据管理技术被认为是克服这一局面的关键解决方案之一。该技术重点关注KVCache多级缓存和推理内存管理。通过推理框架、算力和存储三层协同,集成多类缓存加速算法工具,对推理过程中产生的KVCache内存数据进行分层管理,有效消除推理效率和成本的瓶颈。近日,有消息称UCM技术已在墨清社区开源。开源内容包括四个关键特性:稀疏注意力、前缀缓存、预填充刷新和异构PD解耦。这将第一轮代币的延迟降低了 90%,增加了系统时间吞吐量提高高达 22 倍,上下文窗口扩展提高高达 10 倍,显着提高 AI 推理性能。同时,其基础框架和工具链也可供 ModelEngine 社区使用。开发者可以通过社区获取源代码和技术文档,共同完善技术架构和产业生态。业界普遍认为,UCM开源可以超越简单的技术共享,让开发者和企业以更低的成本、更便捷的方式获得业界领先的AI推理加速能力,并促进AI推理技术的全面、大规模部署。编辑:杨娟娟,审稿:赵琳

推荐文章

发表评论

邮箱地址不会被公开。 必填项已用*标注