没预见鬼父全集,文小言接入推理模子的大更新背后,百度还藏了一手"质变"级时期大招???
Talk is cheap,径直来看 Demo:
士别三日,文小言不仅能讲重庆话了,如故成了哄娃的一把好手,被面貌打断照样贫嘴贱舌:
实测下来,Demo 不虚。这个全新语音对话功能,如实更有东谈主味儿了,如故能紧贴当下实事的那种——
只是让 Ta 推选周末收缩行止,Ta 我方就能主动汇注现时 4、5 月份的试验时期,给出愈加合理的建议。
划重心,这是免费的。当今你也相似不错大开手机里的文小言,径直体验这一全新升级的及时语音对话功能。
但!是!
如若单说语音体验,那还真不是这个"大招"的重心。要津是,这回百度还显现了更多时期细节。
我们仔细一看,还果然有意念念了。
最初,上来即是一个行业始创:以上及时语音对话后果,由百度全新推出的端到端语音说话大模子终了,这是行业首个基于 Cross-Attention 的跨模态语音说话大模子。
有何不同?站在用户体验的角度来说,即是语音合成蔓延更低,对话更真实多情感。
而更紧要的少量是,这样个新模上线,文小言在语音书答场景中的调用资本,最高能缩短 90%!径直打掉了工业级落地的门槛。
(再也不怕模子厂流量大到挂我做事 .jpg)
我们适应到,百度语音首席架构师贾磊,其实用到了"质变"这个词:
百度端到端语音说话大模子是有质变的,不是单纯把文本大模子用到语音范围。
语音场景有其特有之处。此前,各人莫得充分挖掘这个应用场景的不同,如故按照把文本大模子用到语音场景的门路,把速率加速一下,工程优化一下。
我们的革新架构,让大模子在语音场景中的应用终赫然极低资本,更故意于大模子普及。
即是说,这一次语音时期的更新,不单是是工程上的手段,百度正在通落后期革新,买通大模子落地语音场景的工业级应用新范式。
行业首个基于 Cross-Attention 的端到端语音说话模子
话说到这了,我们就来一谈仔细扒一扒背后时期决策,望望究竟是怎样一趟事。
先给各人划个重心:
熟识大模子的小伙伴都知谈,KV cache 约略加速自回想推理,但其在存储和访谒上的支出,也会跟着序列长度和模子限度增大而爆炸式增长。
因此在保证模子性能的前提下,缩短 KV cache,关于大模子应用来说,是提高推理着力、缩短资本的一大致津。
百度这次推出的基于 Cross-Attention 的端到端语音说话模子,重心就在于此。
具体来说,百度作念了以下革新:
业内始创的基于 Cross-Attention 的跨模态语音说话大模子
Encoder 和语音识别进程交融,缩短 KV 计较
Decoder 和语音合成模子交融鬼父全集
革新建议基于 Cross-Attention 的高效全查询适应力时期(EALLQA),缩短 KV cache
我们一项一项张开来看。
基于 Cross-Attention 的跨模态语音说话大模子
情色电影合座上,这个端到端语音说话大模子是基于 Self-Attention 的文心预磨砺大模子,经受自蒸馏的面貌进行后磨砺得到。磨砺数据为文本和语音合成数据的搀杂。统统这个词模子经受 MoE 结构。
要津点在于,在端到端语音识别中,声学模子亦然说话模子,因此在整合语音识别和大说话模子的进程中,约略通过将大说话模子中的 Encoder 和语音识别的进程交融分享,达到缩短语音交互硬蔓延的主张。
而在语音范围,Cross-Attention 自然具有跨模态上风:Decoder 会显式地将 Encoder 输出纳入适应力计较,使得 Decoder 在每一个解码步履都能动态访谒最联系的输入向量,从而充分地对都和运用跨模态信息。
基于 Cross-Attention 的高效全查询适应力时期(EALLQA)
不外,Cross-Attention 的引入带来了另一个问题:MLA 的位置编码时期,在 Cross-Attention 中容易出现不褂讪的表象。
为此,百度语音团队建议了高效全查询适应力时期(EALLQA):
经受革新的隐式 RNN 两级位置编码,磨砺时是在 128 空间上的 MHA,推理时是在模子各层分享的 512 空间上的 MQA(AllQA)。既充分运用了有限的磨砺资源,也极地面缩短了推理资本。
从具体后果上来说,EALLQA 时期能使 KV cache 降至原来的几十分之一,并将 Cross-Attention 的最近上一个问题的 KV 计较降至原来的十分之一,极大缩短了语音交互时用户的恭候时期和模子推理资本。
缩短资本的另一个要津,则是 Encoder 和语音识别系统的交融:对 Query 意会的模子较小,能极大减少 KV 计较。
流式逐字的 LLM 驱动的厚情感语音合成
磨砺、推理资本的缩短以外,端到端语音说话大模子还通过语音模子和说话模子的交融,终赫然体裁妥贴、情感契合、当然运动的合成音频的生成。
一方面,研发团队通过大限度文本 - 语音数据自监督预磨砺,构建语义 + 韵律的闹翻化特征空间,通过双层 GPT-like Transformer,终赫然韵律、音色双 Prompt 限制机制。
另一方面,在此基础之上,研发团队推出了语音说话大模子与合成一体化流式逐字合成。
有别于传统语音合成的整句输出,流式逐字相当于一个字一个字地合成。在这个进程中,说话大模子约略携带语音模子去生成情感、停顿,识别多音字等等,终了更为拟东谈主、当然的语音合成后果。
需要适应的是,东谈主耳吸收信息本体上是一个字一个字地吸收,但关于 AI 而言,如若 1 个 token 接 1 个 token 的输出,就需要料理并发的问题,以使 MoE 架构最猛进程发扬作用。
流式逐字合成要料理的中枢问题,即是在适配东谈主听力的基础上,终了高并发。
通过引入流式逐字合成,百度端到端语音说话大模子有用提高了语音交互的反馈速率,同期缩短了语音交互范围使用大模子资本。与大模子交融的 TTS 体裁作风神气限制,还不错左证文本输出自适配的情况,情感粉饰达到 17 种。
简便总结一下,百度的端到端语音说话大模子,一方面是重心料理了大模子应用于语音交互场景资本高、速率慢的问题。
另一方面,大说话模子带来的语义意会等才略,也料理了传统语音交互中,同音字识别、打断、真实情感等痛点。
贾磊显现,目下,统统这个词端到端语音说话大模子在 L20 卡上即可部署,在知足语音交互硬蔓延条款的情况下,双 L20 卡并发不错作念到数百以上。
极低资本是要津
说了这样多,最主要的要津词其实即是:低资本。
在与贾磊的进一步沟通中,他向我们强调了缩短资本的紧要性:
极低资本就意味着大限度工业化变得相等容易。
2025 年,大模子的中枢并不在于展示什么新功能,而是能以多快速率的确应用到民生国计中去。
在不接洽计较资源的情况下,及时语音交互有其他旅途不错终了,但"我们今天是第一个作念到跨模态端到端极低资本料理语音书题的"。
贾磊还暗示,但愿语音范围的这一冲突革新能被行业更多地矜恤到。
我们想要把中枢时期分享出去,告诉各人我们是怎样作念的,以此推动统统这个词范围的爆发。
事实上,不仅是百度,在包含语音的大模子才略对外输出上,国表里厂商都将价钱视作冲突口。
OpenAI 就特殊从性价比动身,推出了 GPT-4o mini audio,但愿以更便宜的价钱打入语音应用商场。
2025 年,基础模子方面,模子厂商在推理模子上争相竞逐,而其带来的最径直的影响之一,是东谈主们关于大模子应用加速爆发预期的捏续升温。在这个进程中,我们不错看到,站在模子厂商的角度,更多的模子在被开源,更多的做事在免费怒放,用户见地、矜恤的争夺之中,资本本人正在变得愈加明锐。
更无须提资本即是大限度应用的要津:不仅是在模子厂商们的 APP 上,还要进一步走进手机、汽车……
正如 DeepSeek 在基础模子范围搅拌池水,当今,百度也在语音范围迈出要津一步。
资本,正在成为现时阶段模子厂商赢得主动权的紧要冲突口。
One More Thing
从文小言的语音交互架构图中还不错看到,它像是个语音版百度搜索。
正如著述开篇我们体验到的,文小言能汇注现时的季节对用户问题给出更合理的回应。本体上,在语音功能中,文小言仍是复古多垂类助手才略,包括天气、日期查询、单元换算、股价股票等信息查询内容,系数 38 个垂类。
还复古 DeepQA RAG 问答,包含百度查询等时效性问答内容,能汇注检索结果,作念到更精确的教唆侍从;复古 DeepQA 非 RAG 问答,包含知识问答等非时效性问答内容。
"有问题,问小言"的这个"问"字,如实是越来越接近东谈主类本来的交互民风了。
这本体亦然产业趋势的一种映射——
之前都是大模子时期探索,需要不休适配材干落地家具、造成应用,终末被用户感知。
当今这是大模子时期和家具应用,险些在同期对都,时期鼓舞的时候就对准了应用场景,应用场景也能催生更符合的时期,不是锤子找钉子,而是锤子钉子同期对都。
大模子依然是 AI 天下的中枢,但六合却正在变成应用为王的六合。
百度,或者说中国 AI 玩家,开动找到我方的节律了。
一键三连「点赞」「转发」「留意心」
接待在评述区留住你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展逐日见鬼父全集