Site-wide links

RIT研究人员使用深度学习来构建自动语音识别系统,以帮助保护塞内卡语言

人工智能技术可以支持美洲原住民社区的振兴工作

罗切斯特理工大学的一项新研究项目将有助于确保塞内卡印第安民族的濒危语言得以保留。利用深度学习这种人工智能,RIT研究人员正在建立一个自动语音识别应用程序来记录和转录塞内卡人的传统语言。这项工作还旨在成为保留其他稀有或消失语言的技术资源。

“这刚开始是个人的动机。保护和振兴我们语言的第一步是记录它,”RIT的计算和信息科学博士生兼研究团队成员Robert Jimerson(塞内卡族)说。他汇集了部落长老和亲密的朋友、塞内卡的所有发言人,一起来帮助制作这种只有不到50个人能流利地说的美国本土语言的音频和文字记录。

像所有语言一样,塞内卡有不同的方言。由于其用于构建新单词的复杂系统,它也呈现出独特的挑战性,像是其中整个句子可以用单个单词表达。

Jimerson能够将技术和语言联系起来。

“在表面之下,它就是数据。对于许多本土语言,你没有那么多的数据,“他说,并解释说有些语言,在被讲述的时候,可能没有那么多正式的语言工具 - 字典、语法材料或非母语人士的广泛课程,类似那些西班牙语或中文。“记录语言最昂贵、最耗时的过程之一就是收集和转录它。我们正在考虑采用深度网络,也许改变其架构,制作一些合成数据来创建更多数据,但是如何在深度学习中实现这一目标呢?你如何增加已有的数据?”

获得数据的过程由包括Jimerson在内的广泛团队协调; 项目主要研究员还有波士顿学院计算机科学助理教授和RIT人文学院研究员Emily Prud'hommeaux,RIT Kate Gleason工程学院计算机工程助理教授、深度学习系统和技术专家Ray Ptucha,以及纽约州立大学布法罗分校语言学教授Karen Michaelson。该研究团队在四年内获得了181682美元来自国家科学基金会“协作研究:深度学习语言识别塞内卡文件及其他资源严重不足的语言”的资金。

“这是一个令人兴奋的项目,因为它汇集了来自众多学科和背景的人,从工程和计算机科学到语言学和语言教学,” Prud'hommeaux说。“除了使我们能够开发尖端技术外,该项目还支持本科生和研究生,并吸引了一些土着社区的成员,很少有人知道他们就在纽约西部。”

这些研究人员于6月底启动了该项目,将社区成员和语言学家聚集在一起,进行数据收集、获取和翻译塞内卡对话的当前和新的原始录音,然后使用深度学习模型将数据转换为文本输出。

“你真正想要做的是找到你可以得到的新数据与网络架构的变化之间的界线,”Jimerson解释说。

自今年夏天以来,该团队只有超过50小时的录制材料,需要靠组员们全职翻译,包括将语言分解为单独的语音符号,并使用此信息开始训练模型。

“我们使用一种称为转移学习的过程,该过程从一个用现成的英语语音训练的模型开始,以获得系统的基本初始训练,然后我们将重新训练神经网络并将其微调到塞内卡语言。我们得到了非常好的结果,“Ptucha说,他是深度学习系统和技术方面的专家。深度学习技术由多层人工神经元组成,以越来越抽象的层次结构组织。这些架构已经在所有类型的模式识别问题(包括图像和语音识别应用)上产生了最先进的结果。

“之前没有人真正尝试过这种方法,在像塞内卡这样资源有限的东西上培训自动语音识别模型。Robbie是抄录塞内卡的专家,并培训其他人如何做到这一点。他是一个非常难得的人,“Ptuchak说。

这个当前项目是Jimerson扩展其社区可用语言资源的工作的延续。2013年,当他还是RIT Golisano计算与信息科学学院的研究生时,他为塞内卡语言复兴计划开发了一个在线塞内卡语言翻译词典。该项目由塞内卡国家资助,并授予RIT的未来管家项目。