47M参数打赢7B:语音判停模型TurnSense开源

2026-05-12 21:36:29 来源:今日热点网

打印 放大 缩小

你的语音Agent又抢话了。

用户说"我想订那个……就是上次去过的那家……",话还没说完,AI已经兴冲冲回了一句"好的,请问您想订什么?"

"帮我查一下那个……"——一秒的停顿,AI拿着半句话就开始生成回复了。

更荒谬的是:用户咳嗽了一声,AI开始正经回答一个不存在的问题。用户清了下嗓子,AI说"好的,我来帮您处理"。旁边有人关了一下门,AI又开口了。

这些问题的根源不是你的大模型不够聪明,而是系统根本不知道什么时候该接话——更准确地说,系统分不清哪些声音是"话",哪些根本不是。

现有方案为什么不行

目前主流语音Agent的判停逻辑是VAD + 静音阈值——检测到N毫秒没声音,就认为用户说完了。但这个方案有两个致命问题。

第一,它分不清停顿和说完。 人说话会思考、会犹豫,1秒的沉默不代表一句话结束。

第二,它分不清人声和噪声。 VAD检测的是"有没有声音活动",而不是"有没有语言意图"。咳嗽、叹气、清嗓子、甚至环境中的碰撞声,都可能被VAD标记为语音活动,经过ASR后产生幻觉文本,触发大模型生成一个莫名其妙的回复。在真实部署环境中,这类噪声误触发的频率远比你想象的高——特别是车载、开放办公、户外等场景。

行业开始转向模型判停——用深度学习模型判断用户是否说完。但现有方案存在一个三角困境:精度、成本、速度,最多满足两个。

7B参数的方案精度不错、延迟也低,但需要GPU,部署成本高。850M参数的方案精度好,但推理延迟接近200ms,同样需要GPU。8M参数的轻量方案能跑在CPU上,但F1只有70%出头,生产环境不可用。

而且,这些方案几乎都只解决"说完vs没说完"的二分类问题,对非语义声音(咳嗽、叹气、噪声)没有专门的处理能力——要么当做"说完了"误触发回复,要么依赖前置的ASR转写结果间接判断,链路长且不可控。

如果你想要一个不依赖GPU、精度还能打、同时能拦住噪声的判停方案,目前没有选择。

TurnSense:不用GPU也能打,噪声一条不漏

今天,百融 Baiji Team 开源了 TurnSense——一个47M参数的语音判停模型,直接以语音为输入,在纯CPU环境下跑出了与7B GPU方案持平甚至略超的精度。

它回答一个问题:

用户这段语音,是说完了没说完、还是无需回复

三种输出,三种系统行为:

●      Complete → 立即响应。用户表达了完整的意图。

●      Incomplete → 继续等待。用户还在组织语言,只是停顿了。

●      Invalid → 静默忽略。咳嗽、叹气、清嗓子、打哈欠、环境碰撞声……一切不构成对话意图的声音,系统当它不存在。

这个三分类设计不是锦上添花,而是解决了一个工程上的关键痛点。传统方案中,非语义声音要经过VAD → ASR → 文本判断的完整链路才能被过滤(如果能被过滤的话)。TurnSense在语音层就直接拦截,不给下游任何误触发的机会。整条链路的噪声抑制从"末端补救"变成了"源头拦截"。

关于 Invalid 的边界:如果用户说了一声"嗯"作为回应,TurnSense怎么判?判断依据是这段语音是否携带需要AI响应的意图。纯粹的反馈性语气词("嗯"、"啊")在单独出现时归为Invalid,不会触发AI回复。如果"嗯"后面紧跟着内容("嗯,我想问一下……"),VAD会把它作为一整段语音送入,模型会根据整段判断为Incomplete或Complete。

在728条非语义声音测试中,TurnSense做到了Invalid类的precision 100%——咳嗽永远不会触发一次AI回复。零次。

直接看数据

在300条真实中文对话数据(easyturn_real_test_ZH)上的语义判停能力:

在728条非语义声音测试(non_semantic_test)上的噪声拦截能力:

几个值得注意的点:

语义判停方面,TurnSense的F1比Easy-Turn高了约0.3个百分点,比TEN-Turn高了约3个百分点。0.3个点的优势不算碾压,但它是在CPU上跑出来的。 Easy-Turn需要GPU且延迟是TurnSense的3倍多。同等精度下,部署成本差了一个数量级。

噪声拦截方面,其他三个模型根本没有这个能力——它们只做二分类(说完/没说完),遇到咳嗽声只能硬猜一个。TurnSense是目前唯一在模型层面具备非语义声音识别能力的判停方案。

TEN-Turn的延迟确实比TurnSense低(17ms vs 54ms),但它需要一张GPU。如果你有充足的GPU预算且并发量不高,TEN-Turn是合理选择。但如果你需要部署在端侧、需要支撑高并发、或者不想为判停单独买GPU——TurnSense是目前唯一精度达到生产标准的纯CPU方案。

为什么47M能打赢7B?

判停是一个极窄的任务——输入是一段几秒的语音,输出是三选一的分类。它不需要世界知识,不需要长链推理,不需要理解上下文。用7B模型做这件事,就像开卡车去送一封信,99%的运力是浪费的。

但"小模型做窄任务"不是新思路,Smart-Turn也只有8M,为什么F1只有70%?差距在哪?

两个方面。

第一是训练数据。 TurnSense使用了大规模中英文真实对话语音作为训练数据,覆盖了口语中大量的犹豫、停顿、重复、自我修正等现象。同时,训练集中包含了大量真实环境录制的非语义声音样本——各种咳嗽、叹气、环境噪声、设备杂音——让模型学会了区分"人在说话"和"只是有声音"。Smart-Turn的训练数据以朗读式语音为主,遇到真实口语场景和噪声环境泛化能力不足。

第二是模型容量的甜点。 8M太小,无法充分编码语音中的韵律模式和语义完整性特征。7B太大,大量参数被浪费在这个任务用不到的能力上。47M是团队经过多轮实验找到的平衡点——足够大到覆盖判停所需的全部信号(包括区分语义内容和非语义噪声的能力),又足够小到每个参数都在干活。

这不是一个靠灵感找到的魔法数字,是几十次对照实验的结果。

快速使用

接入路径: VAD检测到语音段结束 → 提取音频特征 → 送入TurnSense → 根据结果决定响应/等待/忽略。

注意这里和传统链路的关键区别:传统方案中,所有经过VAD的音频都会送入ASR,ASR的幻觉文本可能触发下游误响应。接入TurnSense后,Invalid的音频直接被丢弃,根本不会进入ASR环节,从源头切断噪声误触发链路,同时节省了ASR的算力开销。

因为TurnSense直接处理语音,它和ASR是并行关系。你可以在TurnSense做判停的同时让ASR开始转写,两者同时跑。TurnSense返回"Complete"时,ASR大概率也出结果了,整体响应延迟取两者最大值而非累加。TurnSense返回"Invalid"时,直接丢弃ASR结果,不浪费下游算力。

模型以标准ONNX格式提供(FP32 / INT8),不绑定任何训练框架。Python、C++、Java、Rust——你的技术栈是什么就用什么。INT8版本约50MB,一台普通云服务器就能跑生产流量,也能打包进车机、手机、IoT设备。

从git clone到第一个推理结果,3分钟:

git clone https://github.com/Bairong-Xdynamics/TurnSense.git

cd TurnSense

pip install -U numpy onnxruntime torch librosa soundfile pandas scikit-learn huggingface_hub

首次运行自动从Hugging Face下载模型。

git lfs install

git clone https://huggingface.co/brgroup/TurnSense

推理

python infer.py

实际效果

我们将TurnSense接入一个开源语音Agent框架做了内部初步测试(100轮对话,涵盖闲聊、任务指令、多轮问答三类场景,测试环境包含正常室内和模拟车载噪声):

样本量不大,仅供参考方向性趋势,后续会放出更大规模的评测报告。但三个方向性的结论应该是稳的:误打断大幅减少;噪声误触发从11次降到0次,Invalid拦截能力在工程上验证了实验室指标;因为不再需要固定等500ms静音窗口,判停与ASR并行后实际响应反而更快。

噪声误触发归零这一点对特定场景的意义尤为突出:车载场景中路噪和乘客对话频繁;智能客服场景中用户的叹气和清嗓子是高频事件;智能音箱场景中电视声、孩子玩闹声随时存在。这些场景下,一次误触发就可能打断用户体验。

它不能做什么

不处理多轮上下文。 TurnSense只看当前这一段语音,不参考对话历史。大多数场景下单段音频的韵律和内容信息已经足够判断,但确实存在需要结合上下文才能判断的边界case。

中英文为主。 当前训练数据和评测以中英文为主,其他语种的效果尚未充分验证。

不替代VAD。 TurnSense是语义层判停,仍需前置的VAD做语音端点检测。VAD告诉你"这段声音停了",TurnSense告诉你"这段话说完了没"以及"这段声音是不是话"。

音频质量有下限。 极端噪声环境或严重失真的音频可能影响判断。正常通话质量和设备录音没问题。

关于百融 Baiji Team

百融Baiji Team 专注语音交互基础设施,让语音Agent在真实环境中真正好用。核心成员来自国内头部语音AI公司,有多年对话系统工程与研究经验。TurnSense是团队的首个开源项目,后续还会在语音交互的其他关键模块持续输出。

链接

●      GitHub:https://github.com/Bairong-Xdynamics/TurnSense

●      Hugging Face:https://huggingface.co/brgroup/TurnSense

●      许可证:Apache License 2.0

●      评测框架和数据均随代码开源,支持一键复现所有指标

●      问题反馈和讨论:GitHub Issues / Discussions

Apache 2.0,商用免费。用了觉得好,GitHub给个star;用了遇到问题,提个issue,我们会跟。


责任编辑:ERM523

相关阅读

最新动态

47M参数打赢7B:语音判停模型TurnSense开源 同行致远 共赴万象 | 东软2026北京车展释放“全栈·全球”新势能
百融智能×北京半马:2.2万条紧急通知同时出发,AI原生改写赛事服务 高工发布座舱域控榜单,东软智行以15.65%份额位居榜首
百融智能护航2026北京半马:当万人级赛事遇上AI,服务效率与温度如何兼得? “硅碳”携手赋能新质生产力——拥抱人工智能体开启企业智能化改造新征程
百融智能双品发布,树立语音Agent技术标杆 悦定制 越清晰 | 飞利浦第三代AI隐形助听器荣耀上市
吉利星愿:精准定义与敏捷交付成就市场黑马 当养生成为情绪出口,劲酒给春节换了一种更生动的打开方式
超绚丽仰韶醇,沉浸式开箱视频! 荣膺“新高尚·旗帜奖” 东软与一汽红旗十年携手 共赴智慧新程
东软集团与Cerence AI达成战略合作 共筑新一代AI智能座舱平台 从“卖铲子”到“派员工挖金子”:百融云创如何让AI能力不被困在“旧牢笼”?
《阿凡达3》上映背后,跨越数十年的合作力量 向RaaS进击!百融云创发布“硅基员工”与Agent生态,开启硅碳共治新时代
思特奇实力入选“2025中国信创服务商TOP50”,以创新驱动信创生态建设 【观察】Cyber Resilience网络弹性筑基,主动防御铸盾,戴尔科技重构企业安全防护体系
戴尔科技:从“模型驱动”到“数据驱动”,重塑企业智能化转型新范式 戴尔科技出海一体化方案助力企业破解出海“七重关卡”
“奥运级”科技实力获全球认证!TCL实业荣获三项IFA 2025大奖 腾讯云9月金秋上云季:爆品秒杀,优惠低至骨折价,概泽科技限时回馈!
“三位一体”数据保护体系,筑牢企业出海安全“生命线” 狂飙的算力,炽热的难题:戴尔如何冷静破局
9.9元享1年腾讯云服务器!0.15折超值优惠来袭,概泽科技限时回馈! 戴尔科技:构筑数据基础设施“坚实底座”,筑牢数据安全保护“最后防线”
谁是 AI 搜索先锋? Elastic 先锋者招募令正式启动! 戴尔科技集团渠道“数智同行者计划”招募开始啦!
绿色承诺 创意新生——阳光人寿上海分公司开展植树节环保创意活动 搭载第5代AMD EPYC的全新PowerEdge上市!
迎接AI挑战,联想携手英特尔构建新一代智算网络 看这台全是狠活的液冷服务器,到底是如何给机房降温的!
英特尔最强服务器CPU来了!AI性能直接翻倍 算力存力Buff都叠满,至强6最强形态现身!
百信受邀出席2024数字生态大会并揽获两项大奖 齐天战力,直面天命!技嘉《黑神话:悟空》联名显卡正式开售
商用120天,宇视大模型「梧桐」2.0的四大成果 戴尔科技携手合作伙伴,共绘智能时代新蓝图
Dell携手AMD,助力制造业打造“新质生产力” 戴尔科技:夯实AI时代“算力底座”,让每一分算力“物尽其用”
AKG重磅发布N5 Hybrid耳机|参考级音质与AI黑科技对撞,引爆降噪耳机新潮! 茂森让智能手机变身移动数据釆集器
Rokid牵手江西中童镇,为百年眼镜产业注入新势能 一加 Ace 3V 正式发布,售价 1999 起
一加 Ace 3V 售价 1999 起, 打造「年轻人的第一台 AI 手机」 一加Ace 3V挑战中端手机护眼冠军,成就1.5K护眼直屏新标杆
年轻人第一台 AI 手机: 一加 Ace 3V 引领中端手机 AI 时代普及 一加Ace 3V引领旗舰质感普及,材质、工艺、质感全面跨越式升级
一加 Ace 3V 全球首发第三代骁龙7+移动平台,打造中端性能新标杆 行业联名款定制天花板!一加 Ace 3 原神刻晴定制机首销火速告罄
6 城同开,一加 Ace 3 原神刻晴定制机 Pop-up 快闪活动火热开启 一加 Ace 3 原神刻晴定制机正式发布 打造 2024 行业深度定制新标杆
一加 Ace 3 原神刻晴定制机将于 2 月 28 日发布 现已开启电商预约 魅族21成Last Phone?魅族或转型造车?
「知其所以」特别篇 X四川观察|当科技更有温度,AI能否打破老年人的数字鸿沟? 一加 Buds 3发布:搭载旗舰同款“同轴双单元”,打造标杆音质
一加李杰:超长续航将会是一加 Ace 3 的显著优势 一加 Ace 3 将于 1 月 4 日发布,让旗舰性能全面普及
一加 Ace 3 搭载二代骁龙 8 旗舰芯片,引领同档位性能体验 索尼旗舰主摄+超光影旗舰算法,一加 Ace 3让旗舰影像全面普及
没有 LTPO,就不要谈旗舰屏幕!一加 Ace 3 采用行业领先 8T LTPO 电路设计 2024开年首款旗舰耳机一加 Buds 3,1月4日一加Ace3发布会见
一加 Ace 3 官宣 1 月 4 日发布,让旗舰性能全面普及 7家高科技企业落户海曙!第二届宁波海曙“科创中国”赛道明星圆满落幕
小标识大有作为,如何抓住互联万物时代的中国机遇?| 标识应用创新大赛圆满收官 一加 12 开售 5 分钟,斩获第三代骁龙 8 机型首销全天销量和销售额品牌 TOP 2
十年超越之作一加12售价4299元起 产品力超越所有骁龙8Gen3 Pro版旗舰 体验领先行业一年,一加 12 全球首发仿生振感马达 Turbo
开启手机护眼新时代,一加 12 首发医疗级明眸护眼技术 一加 12 携手影像创作官“武王”于适 打造超越Pro的极致影像
一加 12官宣12月5日发布 ,全面超越骁龙8gen3 Pro机型 一加十周年围炉夜话活动定档12月4日,刘作虎将亲自解答网友问题
发展新引擎 宇视受邀参加中国电信数字科技生态展 一加联合京东方推出全世界显示效果最好的屏幕:打破18项DisplayMate记录
来酷科技半年报数字的背后 降本增效提速显著 经营质效双提升 “你好 BOE”首站隆重启幕 携手敦煌画院以创新科技致敬传统文化
BOE(京东方)智能座舱生态论坛成功召开 科技生态绘就未来出行新蓝图 BOE(京东方)亮相2023世界显示产业大会 以创新科技推动产业高质量发展
一加助威中国电竞亚运夺冠 中国区总裁李杰担任火炬手 卓世科技重磅发布知识增强行业模型及MaaS产品系列 引领企业数字化变革新潮流
2023年世界清洁能源装备大会 新品发布会在德阳顺利召开 起猛了!魅族在欢迎Mate系列回归,这格局没谁了!
全新门派“万灵山庄”首曝 《剑网3》十四周年发布会全回顾 2023AI+智能制造创新大会暨Create@阿里巴巴诸神之战“智能制造赛道”全球总决赛圆满收官
上半年国产领衔最畅销折叠屏!新品OPPO Find N3 Flip将发布,更有专业人像镜头 OPPO折叠屏持续热销,斩获上半年销量TOP1,Find N3 Flip即将发布
OPPO超影像大赛获奖作品展登陆北上广深,近距离感受移动影像魅力 移动影像无上限!Find X6系列助力OPPO超影像大赛,获奖作品展登陆北上广深
“AI+”智能制造新标签,Create@阿里巴巴诸神之战“智能制造赛道”全球总决赛即将举行 一加 Ace 2 Pro Pop-up快闪活动7城联动引排队热潮
一加 Ace 2 Pro 预售火爆 打破今年全价位段所有机型预售纪录 历时99天圆满收官!OPPO超影像大赛获奖作品出炉,每一张都惊艳
性能手机引领者一加 Ace 2 Pro 正式发布 售价 2999 元起 一加 Ace 2 Pro 定档8月16日发布 美依礼芽出任实力见证官
一加 Ace 2 Pro 官宣:搭载第二代骁龙8旗舰芯,8月16日发布 IDC最新数据出炉!上半年OPPO销量再登顶,产品力是关键
成都高新智能网联产创融合加速器顺利结业,新一期招募启动 国际国内嘉宾云集 全球影响力进一步提升 2023全球数字经济大会闭幕
筑牢数字基础底座,2023全球数字经济大会拉萨高峰论坛——新基建新经济论坛成功举办 2023全球数字经济大会 “新一代软件产业高质量发展论坛” 在北京大兴成功举办