Meta的最新数据集将在说话者集群上训练语音识别引擎
现在已经是 2023 年了,抱歉,Siri 不知怎的还是没明白这一点。尽管近几个月来生成式人工智能系统取得了巨大的进步,但我们移动设备上的合成助手的听力仍然与 2011 年一样困难。然而,Meta AI 新开发的数据集有望提高此类系统的性能通过在“话语级别”对语音进行聚类的自动语音识别 (ASR) 工具。
Meta 长期以来一直致力于提高其 ASR 的性能,教它们在没有笔录帮助的情况下进行训练,识别4,000 多种口语,甚至比人类专家更熟练地阅读唇语。然而,许多用于训练 ASR 模型的数据集是按人口统计(年龄组、性别、国籍、英语口音)组织的,这限制了模型训练的发音的变化,最终阻碍了它们理解广泛用户群体的功能。
为了解决这个问题,Meta AI 开发了一个依赖于话语聚类方法的数据集。“我们提出的算法不是根据说话者的人口统计信息来划分数据集……而是在话语级别上对语音进行聚类,”Meta AI 团队在周三的博客文章中解释道。“单个集群将包含来自不同发言者群体的相似话语。然后,我们可以使用各种集群来训练我们的模型,并使用公平数据集来衡量模型如何影响不同人口群体的结果。”
Meta 生成的数据集包括从 595 名付费美国志愿者收集的超过 27,000 条命令话语。他们的言论围绕七个主题——音乐、捕捉、实用程序、通知控制、消息传递、通话和听写——其他研究人员可以用这些主题来训练他们自己的模型和数字助理。提示包括询问演讲者如何通过语音搜索歌曲或与朋友制定计划以及决定在哪里见面。
为了评估这个新系统,Meta 首先在公开的英语 Facebook 视频上训练了一个模型。然后,研究人员使用另外两个数据集评估了该模型:Meta 于 2021 年发布的 Casual Conversations v1,以及“从 ASR 数据供应商收集的去识别化数据集”,其中包括 867 人的 48,000 条语音。
该博客称,初步结果证明是有希望的,“在我们的评估数据集中的所有人口群体上,模型性能都有所提高,尽管迄今为止最大的进步是口音的包容性更强”。总体而言,使用聚类方法,ASR 性能提高了 10%,其中 66-85 岁人群也取得了很大的进步,这一群体在语音命令领域传统上代表性不足。
研究人员写道:“我们提出的算法是 Meta 长期关注负责任的人工智能的一部分,也是我们解决公平问题的整体方法的一部分。” 展望未来,该团队正在探索使系统适应其他语言。
推荐阅读
- 如何涂指甲油,怎样涂指甲油干得快
- 纪念碑谷艾达的梦攻略第四关,纪念碑谷艾达的梦攻略
- udk虚幻4引擎(游戏开发包工具)软件介绍(udk虚幻4引擎(游戏开发包工具))
- OG梅奥为什么离开nba Pubmed GIST文献月评第十九期(Jun 2018)
- 12306用户名和密码忘记怎么找回账号,12306用户名和密码忘记怎么找回
- 哈尔滨市极乐寺简介
- 二人麻将打法技巧,迅速如何掌握二人麻将技巧
- 故宫门票多少钱一张2021,故宫门票多少钱
- 如何删除微信中的表情包,微信如何删除自己保存的表情
- dnf已经有红字的怎么把红字洗掉,dnf已经洗出红字的装备怎么洗掉
- 海蛏子的家常做法,海蛏子的做法大全
- 微信聊天记录怎么恢复吗,微信聊天记录怎么恢复方法:
- qq飞车帧数如何能锁,QQ飞车帧数如何修改
- 1盎司相当于多少克黄金,盎司等于多少克及一盎司黄金等于多少克
- 怎么恢复路由器出厂,怎样恢复路由器出厂设置
- 触手tvlogo怎么买,如何录制触手TV文章
- 藏语常用问候语及礼貌语 旅行必备
- 腾讯文章的会员怎么取消自动续费,腾讯文章VIP会员怎么取消自动续费设置
- 支付宝绑定银行卡与银行预留手机号不符,支付宝绑定银行卡提示与预留手机号码不一致
- 如何饲养土狗,饲养土狗的实用方法