华为发布AI推理创新技术UCM:实现高吞吐、低时延推理体验,降低每Token推理成本
新浪科技讯 8月12日下午消息,发布在2025金融AI推理应用落地与发展论坛上,推理吞吐n推华为联合中国银联共同发布AI推理创新技术UCM(推理记忆数据管理器),创新实现高吞吐、技术低时延的现高推理体验。
在当今数字化时代,低时低AI发展日新月异。延推验降大模型训练的理体理成热潮尚未消退,AI推理体验却已悄然成为AI应用的发布关键。中信建投在2025WAIC期间发布的推理吞吐n推白皮书指出,AI正从训练向推理的创新结构性转变而快速增长。在这样的技术大背景下,AI推理体验的现高重要性愈发凸显。
推理体验直接关系到用户与AI交互时的低时低感受,包括回答问题的延推验降时延、答案的准确度以及复杂上下文的推理能力等方面。资料显示,国外主流模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国普遍小于60Tokens/s(时延50 - 100ms),如何解决推理效率与用户体验的难题迫在眉睫。
据介绍,华为此次发布的AI推理创新技术UCM(推理记忆数据管理器),作为一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。

责任编辑:郭栩彤
(责任编辑:焦点)
推荐文章
-
口腔年度校验工作总结范文总结是事后对某一时期、某一项目或某些工作进行回顾和分析,从而做出带有规律性的结论,它可以帮助我们有寻找学习和工作中的规律,让我们来为自己写一份总结吧。我们该怎么写总结呢?下面是 ...[详细]
-
《无限机兵》已于8月18日在PS5及Steam平台正式推送免费更新。本次更新不仅带来了基于玩家社群反馈的体验优化和平衡性调整,更是为那些已经征服海汶斯威尔的资深机兵们,献上了一份的全新的挑战——【半虚 ...[详细]
-
2017赛季亚冠联赛小组赛第5轮赛事将在明天继续进行,虽然中超三队有望携手出线,但是相对于江苏苏宁与上海上港可以轻松完成出线相比,广州恒大务必的在客场拿下香港东方,为自己能早日提前出线奠定基础。在今天 ...[详细]
-
据国铁集团8月16日消息,今年1至7月,铁路建设优质高效推进,全国铁路完成固定资产投资4330亿元,同比增长5.6%,为我国经济持续回升向好注入了新动能。南方网、粤学习记者倪仕轩 ...[详细]
-
2025 精英童模超级联赛全球总决赛在成都圆满落幕。这场汇聚全球顶尖少儿时尚力量的盛会,吸引了全国各省市区及海外赛区的数百名优秀童模同台竞技,孩子们以灵动台步、自信姿态诠释多元时尚美学,为现场观众呈现 ...[详细]
-
#今年国庆中秋连休8天#【#10月1日至8日高速免费#】根据国务院办公厅关于2025年部分节假日安排的通知,今年的下一轮节假日是国庆节和中秋节,国庆节逢中秋节,合并放假8天。10月1日周三)至8日周 ...[详细]
-
...[详细]
-
Wealth and HappinessSome people think wealth can bring happiness to them. It is true that most of th ...[详细]
-
简介: 今天,小编为大家分享下对于肩部僵硬有效的湿敷。 肩 ...[详细]
-
大学生暑期超市社会实践报告范文在当下这个社会中,接触并使用报告的人越来越多,报告具有成文事后性的特点。一听到写报告马上头昏脑涨?以下是小编整理的大学生暑期超市社会实践报告范文,欢迎阅读,希望大家能够喜 ...[详细]
热点阅读
随机内容