47M参数打赢7B：语音判停模型TurnSense开源

你的语音Agent又抢话了。

用户说"我想订那个……就是上次去过的那家……"，话还没说完，AI已经兴冲冲回了一句"好的，请问您想订什么？"

"帮我查一下那个……"——一秒的停顿，AI拿着半句话就开始生成回复了。

更荒谬的是：用户咳嗽了一声，AI开始正经回答一个不存在的问题。用户清了下嗓子，AI说"好的，我来帮您处理"。旁边有人关了一下门，AI又开口了。

这些问题的根源不是你的大模型不够聪明，而是系统根本不知道什么时候该接话——更准确地说，系统分不清哪些声音是"话"，哪些根本不是。

现有方案为什么不行

目前主流语音Agent的判停逻辑是VAD + 静音阈值——检测到N毫秒没声音，就认为用户说完了。但这个方案有两个致命问题。

第一，它分不清停顿和说完。 人说话会思考、会犹豫，1秒的沉默不代表一句话结束。

第二，它分不清人声和噪声。 VAD检测的是"有没有声音活动"，而不是"有没有语言意图"。咳嗽、叹气、清嗓子、甚至环境中的碰撞声，都可能被VAD标记为语音活动，经过ASR后产生幻觉文本，触发大模型生成一个莫名其妙的回复。在真实部署环境中，这类噪声误触发的频率远比你想象的高——特别是车载、开放办公、户外等场景。

行业开始转向模型判停——用深度学习模型判断用户是否说完。但现有方案存在一个三角困境：精度、成本、速度，最多满足两个。

7B参数的方案精度不错、延迟也低，但需要GPU，部署成本高。850M参数的方案精度好，但推理延迟接近200ms，同样需要GPU。8M参数的轻量方案能跑在CPU上，但F1只有70%出头，生产环境不可用。

而且，这些方案几乎都只解决"说完vs没说完"的二分类问题，对非语义声音（咳嗽、叹气、噪声）没有专门的处理能力——要么当做"说完了"误触发回复，要么依赖前置的ASR转写结果间接判断，链路长且不可控。

如果你想要一个不依赖GPU、精度还能打、同时能拦住噪声的判停方案，目前没有选择。

TurnSense：不用GPU也能打，噪声一条不漏

今天，百融 Baiji Team 开源了 TurnSense——一个47M参数的语音判停模型，直接以语音为输入，在纯CPU环境下跑出了与7B GPU方案持平甚至略超的精度。

它回答一个问题：

用户这段语音，是说完了、没说完、还是无需回复？

三种输出，三种系统行为：

● Complete → 立即响应。用户表达了完整的意图。

● Incomplete → 继续等待。用户还在组织语言，只是停顿了。

● Invalid → 静默忽略。咳嗽、叹气、清嗓子、打哈欠、环境碰撞声……一切不构成对话意图的声音，系统当它不存在。

这个三分类设计不是锦上添花，而是解决了一个工程上的关键痛点。传统方案中，非语义声音要经过VAD → ASR → 文本判断的完整链路才能被过滤（如果能被过滤的话）。TurnSense在语音层就直接拦截，不给下游任何误触发的机会。整条链路的噪声抑制从"末端补救"变成了"源头拦截"。

关于 Invalid 的边界：如果用户说了一声"嗯"作为回应，TurnSense怎么判？判断依据是这段语音是否携带需要AI响应的意图。纯粹的反馈性语气词（"嗯"、"啊"）在单独出现时归为Invalid，不会触发AI回复。如果"嗯"后面紧跟着内容（"嗯，我想问一下……"），VAD会把它作为一整段语音送入，模型会根据整段判断为Incomplete或Complete。

在728条非语义声音测试中，TurnSense做到了Invalid类的precision 100%——咳嗽永远不会触发一次AI回复。零次。

直接看数据

在300条真实中文对话数据（easyturn_real_test_ZH）上的语义判停能力：

在728条非语义声音测试（non_semantic_test）上的噪声拦截能力：

几个值得注意的点：

语义判停方面，TurnSense的F1比Easy-Turn高了约0.3个百分点，比TEN-Turn高了约3个百分点。0.3个点的优势不算碾压，但它是在CPU上跑出来的。 Easy-Turn需要GPU且延迟是TurnSense的3倍多。同等精度下，部署成本差了一个数量级。

噪声拦截方面，其他三个模型根本没有这个能力——它们只做二分类（说完/没说完），遇到咳嗽声只能硬猜一个。TurnSense是目前唯一在模型层面具备非语义声音识别能力的判停方案。

TEN-Turn的延迟确实比TurnSense低（17ms vs 54ms），但它需要一张GPU。如果你有充足的GPU预算且并发量不高，TEN-Turn是合理选择。但如果你需要部署在端侧、需要支撑高并发、或者不想为判停单独买GPU——TurnSense是目前唯一精度达到生产标准的纯CPU方案。

为什么47M能打赢7B？

判停是一个极窄的任务——输入是一段几秒的语音，输出是三选一的分类。它不需要世界知识，不需要长链推理，不需要理解上下文。用7B模型做这件事，就像开卡车去送一封信，99%的运力是浪费的。

但"小模型做窄任务"不是新思路，Smart-Turn也只有8M，为什么F1只有70%？差距在哪？

两个方面。

第一是训练数据。 TurnSense使用了大规模中英文真实对话语音作为训练数据，覆盖了口语中大量的犹豫、停顿、重复、自我修正等现象。同时，训练集中包含了大量真实环境录制的非语义声音样本——各种咳嗽、叹气、环境噪声、设备杂音——让模型学会了区分"人在说话"和"只是有声音"。Smart-Turn的训练数据以朗读式语音为主，遇到真实口语场景和噪声环境泛化能力不足。

第二是模型容量的甜点。 8M太小，无法充分编码语音中的韵律模式和语义完整性特征。7B太大，大量参数被浪费在这个任务用不到的能力上。47M是团队经过多轮实验找到的平衡点——足够大到覆盖判停所需的全部信号（包括区分语义内容和非语义噪声的能力），又足够小到每个参数都在干活。

这不是一个靠灵感找到的魔法数字，是几十次对照实验的结果。

快速使用

接入路径： VAD检测到语音段结束 → 提取音频特征 → 送入TurnSense → 根据结果决定响应/等待/忽略。

注意这里和传统链路的关键区别：传统方案中，所有经过VAD的音频都会送入ASR，ASR的幻觉文本可能触发下游误响应。接入TurnSense后，Invalid的音频直接被丢弃，根本不会进入ASR环节，从源头切断噪声误触发链路，同时节省了ASR的算力开销。

因为TurnSense直接处理语音，它和ASR是并行关系。你可以在TurnSense做判停的同时让ASR开始转写，两者同时跑。TurnSense返回"Complete"时，ASR大概率也出结果了，整体响应延迟取两者最大值而非累加。TurnSense返回"Invalid"时，直接丢弃ASR结果，不浪费下游算力。

模型以标准ONNX格式提供（FP32 / INT8），不绑定任何训练框架。Python、C++、Java、Rust——你的技术栈是什么就用什么。INT8版本约50MB，一台普通云服务器就能跑生产流量，也能打包进车机、手机、IoT设备。

从git clone到第一个推理结果，3分钟：

git clone https://github.com/Bairong-Xdynamics/TurnSense.git

cd TurnSense

pip install -U numpy onnxruntime torch librosa soundfile pandas scikit-learn huggingface_hub

首次运行自动从Hugging Face下载模型。

git lfs install

git clone https://huggingface.co/brgroup/TurnSense

推理

python infer.py

实际效果

我们将TurnSense接入一个开源语音Agent框架做了内部初步测试（100轮对话，涵盖闲聊、任务指令、多轮问答三类场景，测试环境包含正常室内和模拟车载噪声）：

样本量不大，仅供参考方向性趋势，后续会放出更大规模的评测报告。但三个方向性的结论应该是稳的：误打断大幅减少；噪声误触发从11次降到0次，Invalid拦截能力在工程上验证了实验室指标；因为不再需要固定等500ms静音窗口，判停与ASR并行后实际响应反而更快。

噪声误触发归零这一点对特定场景的意义尤为突出：车载场景中路噪和乘客对话频繁；智能客服场景中用户的叹气和清嗓子是高频事件；智能音箱场景中电视声、孩子玩闹声随时存在。这些场景下，一次误触发就可能打断用户体验。

它不能做什么

不处理多轮上下文。 TurnSense只看当前这一段语音，不参考对话历史。大多数场景下单段音频的韵律和内容信息已经足够判断，但确实存在需要结合上下文才能判断的边界case。

中英文为主。 当前训练数据和评测以中英文为主，其他语种的效果尚未充分验证。

不替代VAD。 TurnSense是语义层判停，仍需前置的VAD做语音端点检测。VAD告诉你"这段声音停了"，TurnSense告诉你"这段话说完了没"以及"这段声音是不是话"。

音频质量有下限。 极端噪声环境或严重失真的音频可能影响判断。正常通话质量和设备录音没问题。

关于百融 Baiji Team

百融Baiji Team 专注语音交互基础设施，让语音Agent在真实环境中真正好用。核心成员来自国内头部语音AI公司，有多年对话系统工程与研究经验。TurnSense是团队的首个开源项目，后续还会在语音交互的其他关键模块持续输出。

链接

● GitHub：https://github.com/Bairong-Xdynamics/TurnSense

● Hugging Face：https://huggingface.co/brgroup/TurnSense

● 许可证：Apache License 2.0

● 评测框架和数据均随代码开源，支持一键复现所有指标

● 问题反馈和讨论：GitHub Issues / Discussions

Apache 2.0，商用免费。用了觉得好，GitHub给个star；用了遇到问题，提个issue，我们会跟。

47M参数打赢7B：语音判停模型TurnSense开源	同行致远共赴万象 \| 东软2026北京车展释放“全栈·全球”新势能
百融智能×北京半马：2.2万条紧急通知同时出发，AI原生改写赛事服务	高工发布座舱域控榜单，东软智行以15.65%份额位居榜首
百融智能护航2026北京半马：当万人级赛事遇上AI，服务效率与温度如何兼得？	“硅碳”携手赋能新质生产力——拥抱人工智能体开启企业智能化改造新征程
百融智能双品发布，树立语音Agent技术标杆	悦定制越清晰 \| 飞利浦第三代AI隐形助听器荣耀上市
吉利星愿：精准定义与敏捷交付成就市场黑马	当养生成为情绪出口，劲酒给春节换了一种更生动的打开方式
超绚丽仰韶醇，沉浸式开箱视频！	荣膺“新高尚·旗帜奖” 东软与一汽红旗十年携手共赴智慧新程
东软集团与Cerence AI达成战略合作共筑新一代AI智能座舱平台	从“卖铲子”到“派员工挖金子”：百融云创如何让AI能力不被困在“旧牢笼”？
《阿凡达3》上映背后，跨越数十年的合作力量	向RaaS进击！百融云创发布“硅基员工”与Agent生态，开启硅碳共治新时代
思特奇实力入选“2025中国信创服务商TOP50”，以创新驱动信创生态建设	【观察】Cyber Resilience网络弹性筑基，主动防御铸盾，戴尔科技重构企业安全防护体系
戴尔科技：从“模型驱动”到“数据驱动”，重塑企业智能化转型新范式	戴尔科技出海一体化方案助力企业破解出海“七重关卡”
“奥运级”科技实力获全球认证！TCL实业荣获三项IFA 2025大奖	腾讯云9月金秋上云季：爆品秒杀，优惠低至骨折价，概泽科技限时回馈！
“三位一体”数据保护体系，筑牢企业出海安全“生命线”	狂飙的算力，炽热的难题：戴尔如何冷静破局
9.9元享1年腾讯云服务器！0.15折超值优惠来袭，概泽科技限时回馈！	戴尔科技：构筑数据基础设施“坚实底座”，筑牢数据安全保护“最后防线”
谁是 AI 搜索先锋？ Elastic 先锋者招募令正式启动！	戴尔科技集团渠道“数智同行者计划”招募开始啦！
绿色承诺创意新生——阳光人寿上海分公司开展植树节环保创意活动	搭载第5代AMD EPYC的全新PowerEdge上市！
迎接AI挑战，联想携手英特尔构建新一代智算网络	看这台全是狠活的液冷服务器，到底是如何给机房降温的！
英特尔最强服务器CPU来了！AI性能直接翻倍	算力存力Buff都叠满,至强6最强形态现身!
百信受邀出席2024数字生态大会并揽获两项大奖	齐天战力，直面天命！技嘉《黑神话:悟空》联名显卡正式开售
商用120天，宇视大模型「梧桐」2.0的四大成果	戴尔科技携手合作伙伴，共绘智能时代新蓝图
Dell携手AMD，助力制造业打造“新质生产力”	戴尔科技：夯实AI时代“算力底座”，让每一分算力“物尽其用”
AKG重磅发布N5 Hybrid耳机\|参考级音质与AI黑科技对撞，引爆降噪耳机新潮！	茂森让智能手机变身移动数据釆集器
Rokid牵手江西中童镇，为百年眼镜产业注入新势能	一加 Ace 3V 正式发布，售价 1999 起
一加 Ace 3V 售价 1999 起，打造「年轻人的第一台 AI 手机」	一加Ace 3V挑战中端手机护眼冠军，成就1.5K护眼直屏新标杆
年轻人第一台 AI 手机：一加 Ace 3V 引领中端手机 AI 时代普及	一加Ace 3V引领旗舰质感普及，材质、工艺、质感全面跨越式升级
一加 Ace 3V 全球首发第三代骁龙7+移动平台，打造中端性能新标杆	行业联名款定制天花板！一加 Ace 3 原神刻晴定制机首销火速告罄
6 城同开，一加 Ace 3 原神刻晴定制机 Pop-up 快闪活动火热开启	一加 Ace 3 原神刻晴定制机正式发布打造 2024 行业深度定制新标杆
一加 Ace 3 原神刻晴定制机将于 2 月 28 日发布现已开启电商预约	魅族21成Last Phone？魅族或转型造车？
「知其所以」特别篇 X四川观察｜当科技更有温度，AI能否打破老年人的数字鸿沟？	一加 Buds 3发布：搭载旗舰同款“同轴双单元”，打造标杆音质
一加李杰：超长续航将会是一加 Ace 3 的显著优势	一加 Ace 3 将于 1 月 4 日发布，让旗舰性能全面普及
一加 Ace 3 搭载二代骁龙 8 旗舰芯片，引领同档位性能体验	索尼旗舰主摄+超光影旗舰算法，一加 Ace 3让旗舰影像全面普及
没有 LTPO，就不要谈旗舰屏幕！一加 Ace 3 采用行业领先 8T LTPO 电路设计	2024开年首款旗舰耳机一加 Buds 3，1月4日一加Ace3发布会见
一加 Ace 3 官宣 1 月 4 日发布，让旗舰性能全面普及	7家高科技企业落户海曙！第二届宁波海曙“科创中国”赛道明星圆满落幕
小标识大有作为，如何抓住互联万物时代的中国机遇？\| 标识应用创新大赛圆满收官	一加 12 开售 5 分钟，斩获第三代骁龙 8 机型首销全天销量和销售额品牌 TOP 2
十年超越之作一加12售价4299元起产品力超越所有骁龙8Gen3 Pro版旗舰	体验领先行业一年，一加 12 全球首发仿生振感马达 Turbo
开启手机护眼新时代，一加 12 首发医疗级明眸护眼技术	一加 12 携手影像创作官“武王”于适打造超越Pro的极致影像
一加 12官宣12月5日发布，全面超越骁龙8gen3 Pro机型	一加十周年围炉夜话活动定档12月4日，刘作虎将亲自解答网友问题
发展新引擎宇视受邀参加中国电信数字科技生态展	一加联合京东方推出全世界显示效果最好的屏幕：打破18项DisplayMate记录
来酷科技半年报数字的背后降本增效提速显著经营质效双提升	“你好 BOE”首站隆重启幕携手敦煌画院以创新科技致敬传统文化
BOE（京东方）智能座舱生态论坛成功召开科技生态绘就未来出行新蓝图	BOE（京东方）亮相2023世界显示产业大会以创新科技推动产业高质量发展
一加助威中国电竞亚运夺冠中国区总裁李杰担任火炬手	卓世科技重磅发布知识增强行业模型及MaaS产品系列引领企业数字化变革新潮流
2023年世界清洁能源装备大会新品发布会在德阳顺利召开	起猛了！魅族在欢迎Mate系列回归，这格局没谁了！
全新门派“万灵山庄”首曝《剑网3》十四周年发布会全回顾	2023AI+智能制造创新大会暨Create@阿里巴巴诸神之战“智能制造赛道”全球总决赛圆满收官
上半年国产领衔最畅销折叠屏！新品OPPO Find N3 Flip将发布，更有专业人像镜头	OPPO折叠屏持续热销，斩获上半年销量TOP1，Find N3 Flip即将发布
OPPO超影像大赛获奖作品展登陆北上广深，近距离感受移动影像魅力	移动影像无上限！Find X6系列助力OPPO超影像大赛，获奖作品展登陆北上广深
“AI+”智能制造新标签，Create@阿里巴巴诸神之战“智能制造赛道”全球总决赛即将举行	一加 Ace 2 Pro Pop-up快闪活动7城联动引排队热潮
一加 Ace 2 Pro 预售火爆打破今年全价位段所有机型预售纪录	历时99天圆满收官！OPPO超影像大赛获奖作品出炉，每一张都惊艳
性能手机引领者一加 Ace 2 Pro 正式发布售价 2999 元起	一加 Ace 2 Pro 定档8月16日发布美依礼芽出任实力见证官
一加 Ace 2 Pro 官宣：搭载第二代骁龙8旗舰芯，8月16日发布	IDC最新数据出炉！上半年OPPO销量再登顶，产品力是关键
成都高新智能网联产创融合加速器顺利结业，新一期招募启动	国际国内嘉宾云集全球影响力进一步提升 2023全球数字经济大会闭幕
筑牢数字基础底座，2023全球数字经济大会拉萨高峰论坛——新基建新经济论坛成功举办	2023全球数字经济大会 “新一代软件产业高质量发展论坛” 在北京大兴成功举办

47M参数打赢7B：语音判停模型TurnSense开源

相关阅读

最新动态

每日推荐

小米10至尊纪念版体验测评：冲击高端市场的最强武器

专题

精彩放送