
从传统ASR到端到端大模子,语音识别本事正在资格场架构鼎新。本文入明白两种本事阶梯的中枢各异,揭示大模子ASR在话语相识、多任务管制上的冲破势,同期指出及时与部署本钱仍是传统案的护城河。值得顺心的是,行业已悄然走向搀杂架构——轻量前端保险及时反应益阳不锈钢保温施工,LLM后端认真语义化,这种舍短取长的格局正在腾讯、字节等头部居品中落地施行。
架构层面的本色各异传统 ASR是个典型的多模块 pipeline 系统:前端信号管制 → 特征索求(MFCC/FBank)→ 声学模子(GMM-HMM → DNN-HMM → LSTM/Conformer)→ 话语模子(n-gram)→ 解码器(WFST beam search)。每个模块立西席、立化,工程上超越熟练但也超越复杂。
大模子 ASR走的是端到端阶梯,梗概分两种想路:
种是 Encoder-Decoder 端到端,比如 Whisper、FireRedASR-AED。用个大的 Speech Encoder 径直把音频编码,再用 Decoder 自追忆生成文本。模子够大、数据够多,就能把声学建模和话语建模”隐式地”并吞在个模子里。
联系人:何经理二种是 Speech Encoder + LLM,比如 Seed-ASR、FireRedASR-LLM、Qwen-Audio。把语音编码器的输出通过 adapter/converter 映射到 LLM 的文本空间,让 LLM 来”相识”语音。这条阶梯本色上是借用了 LLM 稠密的话语相识和高下文理才略来作念 ASR 的后端。
大模子 ASR 的中枢势话语相识才略质变。传统 ASR 的话语模子大多是 n-gram 或浅层 RNN,高下文窗口有限,遇到同音字歧义、业术语、白话化抒发的时候容易出错。大模子具备长高下文相识才略,能把柄前后文自动纠错。举个例子,”他在银行责任”和”河的两岸是银行”益阳不锈钢保温施工,传统 ASR 可能两个都输出”银行”但法辞别含义,大模子 ASR 能通过高下文语义自动管制这类歧义。
泛化才略和鲁棒。Whisper 用 68 万小时多话语弱监督数据西席,不需要针对特定域微调就能在多种场景下发达可以。传统 ASR 换个场景(比如从客服切换到医疗),频繁需要再行齐集数据、调理话语模子、新热词表,工程本钱很。
多任务统。大模子 ASR 可以在个模子里同期完谚语音识别、语种识别、情感识别、时辰戳标注、语音翻译等多个任务。传统案每个任务要单建模子、单调理。
文本后管制当然和会。传统 ASR 输出的是”生文本”(莫得标点、莫得分段、白话化),需要罕见加逆文本正则化(ITN)和标点复原模块。大模子 ASR 可以在生成经过中径直输出范例化的、带标点的书面文本,腾讯智聆用 LLM 作念白话到书面语的篡改即是这个想路。
传统 ASR 仍然不成替代的地及时和延伸。这是传统案大的护城河。传统流式 ASR(比如基于 CTC 或 Transducer 的模子)可以作念到几十毫秒别的字延伸,边说边出字。大模子 ASR 大多黑白流式的——需要等整段语音说完智力运转理,并且自追忆解码本人就慢。在及时通话、直播字幕、语音助手这类场景,管道保温施工延伸是硬认识,大模子咫尺还很难餍足。
部署本钱和理率。个 Whisper Large-V3 即是 1.5B 参数,FireRedASR-LLM 用的 LLM 大。对比之下,传统 Conformer CTC 模子可能唯有几十 M 到几百 M 参数,理速率快个数目,部署在端侧或低算力工作器上毫压力。关于日调用量百亿次的微信这种场景,理本钱是中枢考量。
可控和可调试。传统 pipeline 里每个模块职责明晰——如若某个词识别错了,可以定位到是声学模子的问题如故话语模子的问题,可以通过加热词、调话语模子权重来快速配置。大模子是个黑盒,出了 badcase 很难针对配置,只可靠加数据再行西席简略作念 SFT。
流式场景的工程熟练度。传统的 WFST 解码、Transducer 架构在流式识别上依然超越熟练,工业界积蓄了大都工程训诫。大模子的流式案咫尺还处于究诘阶段,离大限制工业落地有距离。
我的判断:现时行业正在走向”搀杂架构”当今工业界求实的作念法其实不是二选,而是取两者之长:
前端用轻量流式模子(Conformer-CTC/Transducer)先出书初步识别成果,保阐述时。后端用 LLM 作念二次纠错和文本化,管制同音字歧义、添加标点、白话转书面语、术语修正等。腾讯智聆的大模子升本色上即是这个想路——ASR 引擎本人如故传统架构保捏,但在预西席阶段融入了 LLM 作念高下文展望增强。字节的 Seed-ASR 亦然用 SFT 和 RL 来让 LLM 学习语音相识,但中枢 Encoder 仍然是立的语音编码器。
大模子不是来替代传统 ASR 的,而是来补短板的”,尤其是在数据标注层面——大模子 ASR 时期的标注需求从”纯转写标注”蔓延到了”SFT 对皆数据构建”、”偏好对(PR pair)数据构建”、”多任务聚首标注”这些新向
本文由 @卜小 原创发布于东谈主东谈主都是居品司理。未经作家许可,退却转载
题图来自Unsplash,基于CC0合同
相关词条:铁皮保温 塑料挤出机 钢绞线 玻璃卷毡厂家 保温护角专用胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定益阳不锈钢保温施工,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。