艾巴生活网

您现在的位置是:主页>科技 >内容

科技

Meta的最新数据集将在说话者集群上训练语音识别引擎

2023-07-14 09:02:25科技传统的飞鸟
现在已经是 2023 年了,抱歉,Siri 不知怎的还是没明白这一点。尽管近几个月来生成式人工智能系统取得了巨大的进步,但我们移动设备上的

现在已经是 2023 年了,抱歉,Siri 不知怎的还是没明白这一点。尽管近几个月来生成式人工智能系统取得了巨大的进步,但我们移动设备上的合成助手的听力仍然与 2011 年一样困难。然而,Meta AI 新开发的数据集有望提高此类系统的性能通过在“话语级别”对语音进行聚类的自动语音识别 (ASR) 工具。

Meta的最新数据集将在说话者集群上训练语音识别引擎

Meta 长期以来一直致力于提高其 ASR 的性能,教它们在没有笔录帮助的情况下进行训练,识别4,000 多种口语,甚至比人类专家更熟练地阅读唇语。然而,许多用于训练 ASR 模型的数据集是按人口统计(年龄组、性别、国籍、英语口音)组织的,这限制了模型训练的发音的变化,最终阻碍了它们理解广泛用户群体的功能。

为了解决这个问题,Meta AI 开发了一个依赖于话语聚类方法的数据集。“我们提出的算法不是根据说话者的人口统计信息来划分数据集……而是在话语级别上对语音进行聚类,”Meta AI 团队在周三的博客文章中解释道。“单个集群将包含来自不同发言者群体的相似话语。然后,我们可以使用各种集群来训练我们的模型,并使用公平数据集来衡量模型如何影响不同人口群体的结果。”

Meta 生成的数据集包括从 595 名付费美国志愿者收集的超过 27,000 条命令话语。他们的言论围绕七个主题——音乐、捕捉、实用程序、通知控制、消息传递、通话和听写——其他研究人员可以用这些主题来训练他们自己的模型和数字助理。提示包括询问演讲者如何通过语音搜索歌曲或与朋友制定计划以及决定在哪里见面。

为了评估这个新系统,Meta 首先在公开的英语 Facebook 视频上训练了一个模型。然后,研究人员使用另外两个数据集评估了该模型:Meta 于 2021 年发布的 Casual Conversations v1,以及“从 ASR 数据供应商收集的去识别化数据集”,其中包括 867 人的 48,000 条语音。

该博客称,初步结果证明是有希望的,“在我们的评估数据集中的所有人口群体上,模型性能都有所提高,尽管迄今为止最大的进步是口音的包容性更强”。总体而言,使用聚类方法,ASR 性能提高了 10%,其中 66-85 岁人群也取得了很大的进步,这一群体在语音命令领域传统上代表性不足。

研究人员写道:“我们提出的算法是 Meta 长期关注负责任的人工智能的一部分,也是我们解决公平问题的整体方法的一部分。” 展望未来,该团队正在探索使系统适应其他语言。