目前语言建模的主要方法都是基于循环神经网络的。在本研究中,我们提出了一种使用卷积方式处理的语言建模方式
目前语言建模的主要方法都是基于循环神经网络的。在本研究中,我们提出了一种使用卷积方式处理的语言建模方式。我们引入了一种新的门控机制,可以缓和梯度传播,它的表现比LSTM方式的门控(Oord等人,2016)更加优秀。我们的方法在WikiText-103上创造了新的最高纪录,同时我们也在Google Billion Word基准上进行了单GPU测试,结果创造了新的最快记录。因为可以并行运算,在对延迟敏感的任务中,我们的模型的速度相较其他模型提升了一个数量级。目前为止,这是第一次出现非训话方式在此类任务中超越了循环方式。
用于语言建模的门控卷积网络架构
统计语言模型被用于估算词序列的概率分布。这相当于给定一个词,对下一个词的概率进行建模,例如:
其中wi是词汇表中的离散字索引。语言模型是语音识别系统(Yu&Deng,2014)以及机器翻译系统的关键组成部分(Koehn,2010)。
近年来,神经网络在此类任务的表现超过了n元语法模型(Kneser & Ney,1995;Chen & Goodman,1996)。经典的语言模型面临数据短缺的问题,无法准确表征长段语句,缺乏分析长范围从属关系的能力。神经语言模型通过在应用神经网络的连续空间中嵌入单词来解决这个问题。语言建模的当前技术水平基于长短期记忆网络(LSTM; Hochreiter等人,1997),理论上可以建模任意长的从属关系。
在本文中,我们介绍了门控卷积网络(gated convolutional networks)并将其应用于语言建模。卷积网络可以被堆叠以表示大的上下文尺寸,并且在具有在更大的上下文范围内提取分层更抽象的特征(LeCun&Bengio,1995)。这种特性允许我们通过在大小N和内核宽度k的上下文上应用O(N / k)运算来建模长期从属关系。相反,循环网络将输入视为链结构,因此需要线性数目O(N)的操作。
输入分层的分析与类似于经典语法形式的构造相似,其构建了间隔增大的句法树结构。例如,由包含复杂内部结构的名词短语和动词短语组成的句子(Manning&Schutze¨,1999;Steedman,2002)。另外,分层结构也简化了学习,因为相较于链结构,给定上下文大小的非线性的数量减少,从而减轻了消失梯度问题(Glorot&Bengio,2010)。
现代计算机硬件非常适合运行高度并行化的模型。在循环网络中,下一个输出取决于前一个的隐藏状态,它不启用对序列元素的并行化。卷积网络非常适合于此类计算,因为所有输入字的计算可以同时执行。
门控已经显示出超越循环神经网络最快表现的潜力(Jozefowicz等人,2016)。我们的门控线性单元通过为梯度提供线性路径,同时保留非线性能力,减少了深层架构的消失梯度问题。
我们在单个GPU系统中进行了实验,证明了使用门控卷积网络的语言建模优于其他最近发布的语言模型,如在Google Billion上类似设置训练的LSTM Word基准(Chelba等人,2013)。我们还评估了我们的模型分析WikiText-103基准中长距离从属关系的能力,其中该模型以整个段落而不是单个句子为条件进行处理,并且我们在此基础上实现了新的最快记录(Merity等人,2016)。最后,我们展示了门控线性单元可以实现更高的精度和收敛,比OST等人的LSTM门控更快。
声明:本文内容来源自网络,文字、图片等素材版权属于原作者,平台转载素材出于传递更多信息,文章内容仅供参考与学习,切勿作为商业目的使用。如果侵害了您的合法权益,请您及时与我们联系,我们会在第一时间进行处理!我们尊重版权,也致力于保护版权,站搜网感谢您的分享!