2.2.2 句子预测模型:简单循环网络
另一个重要且有影响力的多层感知器是Elman(1990,1991,1993)所描述的句子预测模型,在这里考虑的是简单循环网络而不是前馈网络。本节给出一个简化的句子预测模型,如图2.13所示。该模型非常类似于标准前馈网络,但正如我前面所指出的,它增加了一个上下文层,该上下文层记录了隐藏层状态的副本。在下一个时间步,此上下文层将反馈回隐藏层。在任何给定点,隐藏单元的激活程度不仅取决于输入单元的激活程度,还取决于这些上下文单元的状态。这样,上下文层中的单位就可以作为模型历史记录的一种记忆。
图2.13 Elman(1990,1990,1993)的句子预测模型的简化版本。圆(输入节点和输出节点)代表特定的单词,模型的输入在每个时间步以一个单词表示,目标是该序列中的下一个单词。矩形包含一系列单元。每个隐藏单元都投射到一个权重为1.0的上下文单元。每个上下文单元输入每个隐藏单元,连接权重可修改。Elman的模型有26个输入节点和26个输出节点
句子预测模型是通过一系列从半现实的人工语法中提取的句子进行训练的,该人工语法包括23个单词以及各种语法依赖性,例如主语-谓语一致(cat love和cat loves)和多个嵌入。在每个时间步,模型的输入是当前单词(由某个节点的激活表示),目标输出是当前句子中的下一个单词。
模型的权重(从隐藏单元到上下文层的权重是固定的)通过反向传播算法进行调整。一旦经过训练,这个模型通常能够预测诸如cats chase dogs这样的字符串,甚至更复杂的字符串,如boys who chase dogs see girls这种没有明确语法规则的字符串。基于这个原因,简单循环网络被认为是联结主义模型可以排除语法规则的有力证据。例如,P. M. Churchland(1995,p.143)写道:
当然,该网络的生产力只是任何普通英语国家要求的巨大能力的一部分。但是生产力就是生产力,显然循环网络可以拥有生产力。Elman惊人的证据几乎解决不了以规则为中心的语法方法和网络方法之间的问题。这需要一些时间来解决。但冲突现在变得更加激烈。我对自己下注的地方毫不保密。
有这种热情的并非只有Churchland一人。1990年至1994年的文献引用调查显示(Pendlebury,1996),Elman(1990)对简单循环网络的讨论是心理语言学中被引用次数最多的论文,也是心理学中被引用次数排名第十一位的论文。