手机版
你好,游客 登录 注册
背景:
阅读新闻

Common Voice - Mozilla发布最大的人类语音数据集

包含18种不同语言的约1400小时语音片段

[日期:2019-03-02] 来源:Linux公社  作者:醉落红尘 [字体: ]

Common Voice 项目是 Mozilla 发起的倡议,旨在帮助教会机器真人的说话方式。昨天发布了最大的人类语音公共数据集,称为Common Voice。该数据集由18种不同的语言(包括英语,法语,德语,普通话,威尔士语,卡比尔等)组成,并增加了来自42000多名贡献者的约1,00小时录制的语音片段。

Mozilla团队表示:“在这个版本中,不断增长的Common Voice数据集现在是同类中最大的,有成千上万的人将他们的声音和最初写的句子贡献给公共领域(CC0)”。

Common Voice数据集独特且丰富多样,因为它代表了语音贡献者的全球社区。这些贡献者还可以选择提供其他信息,如年龄,性别和口音,以便他们的语音剪辑附加到训练语音引擎有用的数据。

Mozilla在2018年6月启用了多语言支持,使Common Voice更具全球性和包容性。 Mozilla还涉及为该项目做出贡献的不同社区,他们帮助以22种不同语言开展数据收集工作,并在共同语音网站上开展了70多项正在进行的工作。

在这些社区的帮助下,Mozilla对Common Voice数据集进行了最新增加,包括荷兰语,Hakha-Chin,世界语,波斯语,巴斯克语和西班牙语等语言。它还计划继续与这些社区合作,以保持所代表的声音的多样性。根据Mozilla团队的说法,这些公共贡献者不仅能够跟踪记录和验证中每种语言的进度,还改进了不同剪辑的提示。

Mozilla还添加了一个新选项来创建保存的配置文件,这有助于贡献者跟踪他们在不同语言中的进度和指标。它还提供可选的人口统计资料信息,进一步帮助改善用于训练语音识别准确性的音频数据。

除数据集外,Mozilla还致力于在未来为更多样化和创新的语音技术生态系统做出贡献。它旨在发布支持语音的产品,同时确保支持研究人员和小型企业。

“对于Common Voice,我们在2018年的重点是构建这个概念,使其成为任何语言社区使用,优化网站和构建强大后端的工具。我们的总体目标仍然是:为寻求构建和使用语音技术的世界上每个人提供更多更好的数据,“Mozilla团队表示。

有关此公告的更多信息,请查看官方Mozilla博客文章

Linux公社的RSS地址https://www.linuxidc.com/rssFeed.aspx

本文永久更新链接地址https://www.linuxidc.com/Linux/2019-03/157214.htm

linux
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数

       

评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款