Meta的开源语音AI可识别4000多种口头语言
Meta创建了一种 AI 语言模型,它(以令人耳目一新的速度变化)不是ChatGPT 的克隆。该公司的大规模多语言语音 (MMS) 项目可以识别 4,000 多种口头语言并生成 1,100 多种语音(文本到语音)。与大多数其他公开宣布的AI 项目一样,Meta 今天正在开源 MMS,以帮助保护语言多样性并鼓励研究人员在其基础上进行构建。“今天,我们公开分享我们的模型和代码,以便研究界的其他人可以在我们的工作基础上进行构建,”该公司写道。“通过这项工作,我们希望为保护世界上令人难以置信的语言多样性做出一点贡献。”
语音识别和文本转语音模型通常需要对数千小时的音频进行训练,并附带转录标签。(标签对机器学习至关重要,它允许算法正确分类和“理解”数据。)但对于工业化国家未广泛使用的语言——其中许多语言在未来几十年有消失的危险——“这数据根本不存在,”正如 Meta 所说。
Meta 使用了一种非常规的方法来收集音频数据:利用翻译宗教文本的录音。该公司表示:“我们转向宗教文本,例如圣经,这些文本已被翻译成多种不同的语言,并且其译文已被广泛研究用于基于文本的语言翻译研究。” “这些翻译有公开的录音,人们用不同的语言阅读这些文本。” 结合圣经和类似文本的未标记录音,Meta 的研究人员将模型的可用语言增加到 4,000 多种。
如果您和我一样,乍一看,这种方法可能会引起您的注意,因为这听起来像是严重偏向基督教世界观的 AI 模型的配方。但 Meta 表示情况并非如此。“虽然录音的内容是宗教的,但我们的分析表明,这不会使模型产生更多宗教语言,”Meta 写道。“我们认为这是因为我们使用了连接主义时间分类 (CTC) 方法,与用于语音识别的大型语言模型 (LLM) 或序列到序列模型相比,这种方法受到的限制要大得多。” 此外,尽管大多数宗教录音都是由男性演讲者朗读的,但这也没有引入男性偏见——在女性和男性的声音中表现同样出色。
在训练了一个对齐模型以使数据更有用之后,Meta 使用了公司的“自监督语音表示学习”模型 wav2vec 2.0,它可以在未标记的数据上进行训练。结合非常规数据源和自我监督的语音模型产生了令人印象深刻的结果。“我们的结果表明,与现有模型相比,大规模多语言语音模型表现良好,覆盖的语言数量是现有模型的 10 倍。” 具体来说,Meta 将 MMS 与OpenAI 的 Whisper进行了比较,结果超出了预期。“我们发现,在 Massively Multilingual Speech 数据上训练的模型实现了一半的单词错误率,但 Massively Multilingual Speech 涵盖的语言是原来的 11 倍。”
Meta 警告说它的新模型并不完美。该公司写道:“例如,语音转文本模型可能会错误转录选定的单词或短语,这存在一定风险。” “根据输出结果,这可能会导致攻击性和/或不准确的语言。我们仍然相信,整个 AI 社区的协作对于负责任地开发 AI 技术至关重要。”
既然 Meta 已经发布了用于开源研究的 MMS,它希望它能够扭转技术将世界语言减少到 100 种或更少的趋势,而这些语言是 Big Tech 最常支持的。它看到了一个辅助技术、TTS 甚至 VR/AR 技术让每个人都能用母语说话和学习的世界。它说,“我们设想一个技术具有相反效果的世界,鼓励人们保持他们的语言的活力,因为他们可以通过说他们喜欢的语言来获取信息和使用技术。”
推荐阅读
- alfa romeo车标含义?(阿尔法罗密欧车标)
- 华为鸿蒙os如何操作 华为鸿蒙os2.0系统官网报名入口
- 14款沃尔沃s60l二手车能买吗?(沃尔沃s60为什么贬值厉害)
- power mp3 wma converter(mp3格式转换器)软件介绍(power mp3 wma converter(mp3格式转换器))
- 42岁李贞贤宣布平安生女,网友:歌声击退山贼的那个
- 热火朝天的高铁WiFi迟迟未到(5G能否破局)
- 华为手机性价比最高是哪几款2022? 华为哪款手机性价比高最值得入手
- 进口捷豹全部车型报价?(捷豹报价大全价格表)
- 韩庚江铠同疑相恋,两人同游马尔代夫遭曝光
- 八卦格字帖软件介绍(八卦格字帖)
- 虚拟机 操作系统(操作系统整合:虚拟机管理程序的下一步)
- 比亚迪f6参数配置?(比亚迪f6)
- 奥沙利文获世锦冠军,奥沙利文得了几次世锦赛冠军
- Evel Knievel手游游戏介绍(Evel Knievel手游)
- 索尼wi1000x拆解(SONYNZW-X1000系列高清拆解图集)
- 4座硬顶敞篷跑车都有哪几款?(4门4座硬顶敞篷车推荐)
- 艺术体操团体全能决赛,艺术体操团体全能决赛中国
- 工人物语6通用修改器游戏介绍(工人物语6通用修改器)
- 简述电机换向器的工作原理图(简述电机换向器的工作原理)
- Atheros-AR5007EG无线网卡驱动软件介绍(Atheros-AR5007EG无线网卡驱动)