热点新闻
小鹏 P7 汽车即将上线全新一代智能 AI 语音:无限接近人类声音、带情感、会调侃
admin2021-07-20 05:37
289人已围观
简介小鹏 P7 汽车即将上线全新一代智能 AI 语音:无限接近人类声音、带情感、会调侃
小鹏汽车似乎对产品有近乎偏执要求:要在车内创造出一种能「无限接近人类语气」的声音交互系统。
7 月,这套「全新 AI 声音」的小 P 系统将在 P7 部分车型上线。
“去年 1024 之后,小鹏车机智能化有了很大进步,于是我们花费很多精力在小 P 的语音表现上,给大家一个更好的信息传递。”小鹏汽车 AI 产品专家陈思云介绍起全新车载语音。
小鹏产品团队为新声音设立了三大「纲要」:
(1)足够像真人。
(2)角色足够拟人,例如定位成「秘书」、「宠物」或是「女神」。
(3)亲切传达信息,拉进用户距离。
小 P 全新 AI 声音是如何做到的呢?为实现这三条,团队就必须往车机联入一个在线的、更大规模的「神经网络模型」—— 从而实现 HIFI 级别合成语音。
目前,这套神经网络已经为小 P 带来了 2 项肉眼可见的提升:
一、MOS 评分 4.49
经 MOS1 语音质量评测,该声音得分为 4.49,是目前微软 MOS 语音质量评测得分最高的车载智能语音助手。
当然,MOS 评分不能完全完全「神化」。
MOS 最早源于电话的语音质量评价。这项评价标准由 ITU(InternationalTelecommunicationUnion,国际电信联盟简称国际电联)在 1996 年,作为囊括在《P.800: Methods for determination of transmission quality 》中的一个「子标准」沿用至今,字面意思不难看出,这是个围绕「主观」(subjective)—— 也就是人工听觉、人工打分的一项判定方法。
别看 MOS 古老(那时 TTS 还未普及),作为一个成熟、稳定、高度逼近人类听觉体验的评价标准,MOS 的制定最初建立在一套有参考信号的评价体系之上的:评价时,同时需要待测信号和参考信号。相较于无参考评价方案,有参考的客观评价方案更容易做得贴近主观评价体系。
“MOS 体系本身是一个主观评分,在全球最标准化的大会上参加评分的时候,也会要求需要把两个竞品或两个声音加上真人,加上一个非安慰剂的参照系放在一起横向比较。
我们只能比较这几个主观评价中,用户对它们评价的差值,但绝对分值的比较,因为它是一个主观比较,所以在换样本量,或换不同的场景,都会导致分值上的差异。
需要放在同一测试中这个分数才有比较的意义。”陈思云在回答能否用 MOS 评分高低作竞品横评时谈到。“即便无法客观的让小 P 横向对比。但我相信更新后,用户拿小 P 和 Siri 对比,还是有很大区别的。”
二、软硬兼施,打出「情感牌」
从刚才的视频来看,全新小 P 声音饱满程度也有很大提升,再配合 P7 本身的良好的 NVH 性能,我预感这波 HiFi 级高保真音质真的可以在 P7 上发挥出来,成为量产车中排名数一数二的沉浸交互感。
实际上,全新 AI 声音采用 24K 采样技术(现有声音为 16k),各种场景下的声音反馈都被精心调教,用户听到的每句话都细腻生动、充满活力。
“新旧声音对比来听,会明显感受到音质的差距。这个声音不是拼接的,完全采用 AI 训练、生成出来的。”郝超补充道,“业内无论车企还是智能音箱,大家还是在用提前录音的方式,尽可能让语音包更好听,但内容覆盖率不高,所以我们采取这种方式(AI 生成),也算一次大的创新。”
除了这些「硬实力」,全新 AI 语音还有足够「软实力」。
“小 P 会像 Siri 一样调侃么?”,笔者问道。
“全新 AI 声音会有一些情绪上的表达,或者对不同情景、不同语气会有一些彩蛋的埋入,包含像偶尔跟用户进行一些小的调侃,去调剂一下用户整个行程中的娱乐性,这也会有一些小的彩蛋的埋入。”陈思云回答。
而具体有哪些「彩蛋」,还需要 P7 车主一点点挖掘。
除了语音彩蛋,全新小 P 语气包括例如「助理、客服、聊天、温和、亲热、抒情、新闻、严肃、不满、生气、害怕、悲伤、冷静」等 14 种强烈情绪的变换能力,后续版本还会逐步贴合更多场景。
说了这么多优点,但新技术哪有不翻车的。来谈谈笔者对小鹏全新 AI 语音的担忧吧。
首先就是难以应对离线情形。
车辆行驶在偏远地区,没网,或者信号中断,在「有-无」网络之间来回切换,驾驶者肯定对语音质量的高低变换一定是有反应的。
但小鹏的工程师已经想出了对策:在线追求高品质,离线兜底无时延。
“如果遇到「5 公里长的隧道」这类极端网络情况,我们会在本地留一个「小的离线模型」,它的体量不会很大,但保证小 P 在时效性不变差的情况下一定能把声音发出来,比如说导航或者自动驾驶这些播报,两个模型工作准则是一样的。”
按照郝超的说法,这套自研「端云融合多级缓存」,能让车辆预测当下的网络情况,自动改选「在线神经网络引擎」or「离线引擎进行声音合成」,总之就是在信号不佳的情况下,语音播报依然维持高音质。
“通过这个技术,小 P 已做到 97% 超高在线率。”郝超补充道。
最后:
笔者认为,拟人的全新小 P 能够更好传达信息。
回想下,你有没有经历过,当车内导航声被道路噪音掩盖、碰巧路线显示延迟而错过待转路口?
在认知心理学中有个经常被提及的原理:「鸡尾酒会效应」。指的是人类听觉系统有着极其神奇的「专注能力」,即便在嘈杂环境中,仍能将注意力专注于某种「特定声音」,而「无视」掉背景音。
其实,小鹏语音团队做的便是将这个原理「逆」过来:做出一套更好被人类听觉系统分辨的声音。
人的注意力是有限的,一个好的交互系统在设计时就必定要考虑到极端情况下,如何减少人脑的能量消耗,从而达到最好的信息传递效果。期待小 P 早日让车主们享受到这一乐趣。

微信公众号
很赞哦!(0)
相关文章
文章评论
评论0
站点信息
- 微信公众号:扫描二维码,关注我们

点击排行

标签云
-
php
网页设计
个人博客
JS
个人博客
Html
春节必看: 2020新春红包大战 全攻略
新增详细玩法攻略!
支付宝集五福5亿集分宝招商银行抽现金券抖
抖音 2020 发财中国年 攻略
支付宝集五福5亿集分宝招商银行抽现金券抖
最近购买威尔胜WTB0900复刻版和WT
mysql慢查询和php-fpm慢日志
PSR-2
基础代码规范
Thinkphp
响应式
公司
整站
源码
网络科技网站模板
1024
节日
百度收录
论坛
社区
2020
豆瓣
评分最高
电影
debugger
调试
Python
语法
高德
百度地图
MySQL
追寻
webpack
vue
oracle
服务器搭建
有趣
动物
人体
历史
天文
生活
名人
体育
地理
文化
科学
心理
植物
饮食
自然
图片
JVM
IDEA
Loader
Git
UNIAPP
股票
A股
同花顺
海尔
海天味业
半年报
股市总结
歌尔股份
乐普医疗
涪陵榨菜
餐饮
财报分析
酒店
年报分析
美锦能源
山煤国际
贵州茅台
张坤
腾讯
华鲁恒升
淮北矿业
药明康德
早盘关注
国电电力
北方华创
宝丰能源
TCL中环
兔宝宝
天润乳业
启明星辰
阳光电源
山西汾酒
迈瑞医疗
人福医药
比亚迪
宁德时代
汤臣倍健
伊利股份
通威股份
东鹏饮料
隆基股份
紫金矿业
五粮液
康龙化成
赣锋锂业
爱尔眼科
片仔癀
VR
永新股份
爱美客
美的集团
格力电器
科沃斯
云南白药
同仁堂
洋河股份
白云山
三体
狂飙 原著