用自然语言处理证明可能的艺术

英特尔的Dell EMC HPC和AI创新实验室正在通过语言到语言翻译和文本到语音翻译的深度学习展示可能的艺术。

自然语言处理是人工智能的一种形式,它允许计算机应用程序理解口头或书面的人类语言。NLP的概念包括对语言的编码,理解,解释和操纵。NLP应用程序使用计算机来翻译语言,将语音转换为文本并将文本转换为语音,并创建类似于人的对话代理以帮助客户,员工和其他人处理问题。

近年来,通过从统计机器学习方法到使用神经网络和深度学习的转变,NLP领域发生了变化。通过这些方法,现在可以构建可以比以往任何时候都更加自然地与人交互的自动化系统。前瞻性企业正在抓住机遇,将NLP纳入其面向客户活动和内部运营的广泛流程中。

为了帮助组织利用这一趋势,Dell EMC和英特尔®一直在推动NLP应用程序开发的技术和方法。位于德克萨斯州奥斯汀的Dell EMC HPC和AI创新实验室的团队在此领域中正在进行两个关键项目:一个涉及语言到语言翻译,另一个涉及文本到语音翻译。

语言到语言的翻译

在该实验室致力于语言到语言翻译的项目中,数据科学家正在努力解决与使用神经网络将一种人类语言转换为另一种人类语言相关的关键问题。此过程涉及从源语言获取输入并将其转换为目标语言。

在此过程中,翻译模型首先读取源语言中的句子,然后将其传递给编码器,该编码器将构建中间表示形式。然后将该中间表示传递给解码器,该解码器处理中间表示以产生目标语言的翻译句子。

对于语言到语言的翻译项目,团队首先从Google创建的股票拓扑开始,然后改进了一些基础数学,以更有效地并行化工作流程。目标是在数百个计算节点上运行模型,以更快地找到解决方案。

在长达数月的优化过程中,该团队研究了系统如何使用内存,执行计算以及结果的准确性。对模型准确性的验证确保了加快计算速度不会产生质量较低的答案。

计算资源

在该项目中,HPC和AI创新实验室团队利用了Dell EMC Zenith超级计算机,该超级计算机由PowerEdge服务器和英特尔第二代可扩展至强处理器构成。这TOP500系统,戴尔EMC和英特尔之间的伙伴关系产生的,可作为内部团队一个标杆系统,以及用于评估的资源。

此外,实验室团队还利用位于德克萨斯大学奥斯汀分校的德克萨斯高级计算中心(TACC)的Dell EMC Stampede2超级计算机的处理能力。这种基于Intel的系统在2019年6月的TOP500排名中排名第19 位,是一项战略性国家资源,可为美国成千上万的研究人员提供HPC功能。

该团队将语言到语言翻译的训练模型的过程扩展到多达512个节点,而不会对结果的质量产生负面影响。这一发现表明,现在可以在不破坏当前技术水平的情况下以更快的速度和更大的规模训练这些模型。

文字到语音翻译

文本到语音的翻译采用文字并将其转换为音频。目的是合成一个完整的音频波形,而不使用过去20年来一直在电话系统上收听的机械化片段录音。

通过这些更高级的方法,开发人员可以使用由成绩单和配音演员读取该成绩单的剪辑组成的训练数据。这些资源可作为创建计算机将模仿的声音的培训基础。然后,开发人员训练神经网络以产生听起来与演员的声音极为相似的模拟声音。

对于文本到语音翻译项目,团队使用了一个分为两个部分的过程,并提供了两种深度学习模型:

他们首先采用文本并将其转换为频谱图图像,然后采用一种深度学习模型。该频谱图图像是预期会在结果语音中产生的字母和声音的频率分布。

然后,该团队创建了第二个模型,该模型采用频谱图并生成完整的音频波形,该波形使用了演员在训练过程中使用的逼真的合成声音。

在这个正在进行的项目中,他们现在正在努力加速产生音频波形的过程。

HPC和AI创新实验室的工作展示了创建逼真的声音的能力,并且并行化可以在相对较短的时间内完成任务。通过将超级计算机上的流程并行化并利用英特尔®软件优化,该团队将生成逼真的语音模型的过程从一个多月减少到了不到三天。

重要要点

对于想要简化与客户,员工,合作伙伴和其他人的交互的企业和其他组织,自然语言处理是一种潜在的强大工具。为了帮助组织利用这一机会,戴尔EMC HPC和AI创新实验室致力于推动开发语言到语言翻译和文本到语音翻译应用程序的技术和方法。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。