3.1 基于推理的方法和神经网络
用向量表示单词的研究最近正在如火如荼地展开,其中比较成功的方法大致可以分为两种:一种是基于计数的方法;另一种是基于推理的方法。虽然两者在获得单词含义的方法上差别很大,但是两者的背景都是分布式假设。
本节我们将指出基于计数的方法的问题,并从宏观角度说明它的替代方法——基于推理的方法的优点。另外,为了做好word2vec的准备工作,我们会看一个用神经网络处理单词的例子。
3.1.1 基于计数的方法的问题
如上一章所说,基于计数的方法根据一个单词周围的单词的出现频数来表示该单词。具体来说,先生成所有单词的共现矩阵,再对这个矩阵进行SVD,以获得密集向量(单词的分布式表示)。但是,基于计数的方法在处理大规模语料库时会出现问题。
在现实世界中,语料库处理的单词数量非常大。比如,据说英文的词汇量超过100万个。如果词汇量超过100万个,那么使用基于计数的方法就需要生成一个100万×100万的庞大矩阵,但对如此庞大的矩阵执行SVD显然是不现实的。
对于一个n×n的矩阵,SVD的复杂度是O(n3),这表示计算量与n的立方成比例增长。如此大的计算成本,即便是超级计算机也无法胜任。实际上,利用近似方法和稀疏矩阵的性质,可以在一定程度上提高处理速度,但还是需要大量的计算资源和时间。
基于计数的方法使用整个语料库的统计数据(共现矩阵和PPMI等),通过一次处理(SVD等)获得单词的分布式表示。而基于推理的方法使用神经网络,通常在mini-batch数据上进行学习。这意味着神经网络一次只需要看一部分学习数据(mini-batch),并反复更新权重。这种学习机制上的差异如图3-1所示。
图3-1 基于计数的方法和基于推理的方法的比较
如图3-1所示,基于计数的方法一次性处理全部学习数据;反之,基于推理的方法使用部分学习数据逐步学习。这意味着,在词汇量很大的语料库中,即使SVD等的计算量太大导致计算机难以处理,神经网络也可以在部分数据上学习。并且,神经网络的学习可以使用多台机器、多个GPU并行执行,从而加速整个学习过程。在这方面,基于推理的方法更有优势。
基于推理的方法和基于计数的方法相比,还有一些其他的优点。关于这一点,在详细说明基于推理的方法(特别是word2vec)之后,我们会在3.5.3节再次讨论。
3.1.2 基于推理的方法的概要
基于推理的方法的主要操作是“推理”。如图3-2所示,当给出周围的单词(上下文)时,预测“?”处会出现什么单词,这就是推理。
图3-2 基于两边的单词(上下文),预测“?”处出现什么单词
解开图3-2中的推理问题并学习规律,就是基于推理的方法的主要任务。通过反复求解这些推理问题,可以学习到单词的出现模式。从“模型视角”出发,这个推理问题如图3-3所示。
图3-3 基于推理的方法:输入上下文,模型输出各个单词的出现概率
如图3-3所示,基于推理的方法引入了某种模型,我们将神经网络用于此模型。这个模型接收上下文信息作为输入,并输出(可能出现的)各个单词的出现概率。在这样的框架中,使用语料库来学习模型,使之能做出正确的预测。另外,作为模型学习的产物,我们得到了单词的分布式表示。这就是基于推理的方法的全貌。
基于推理的方法和基于计数的方法一样,也基于分布式假设。分布式假设假设“单词含义由其周围的单词构成”。基于推理的方法将这一假设归结为了上面的预测问题。由此可见,不管是哪种方法,如何对基于分布式假设的“单词共现”建模都是最重要的研究主题。
3.1.3 神经网络中单词的处理方法
从现在开始,我们将使用神经网络来处理单词。但是,神经网络无法直接处理you或say这样的单词,要用神经网络处理单词,需要先将单词转化为固定长度的向量。对此,一种方式是将单词转换为one-hot表示(one-hot向量)。在one-hot表示中,只有一个元素是1,其他元素都是0。
我们来看一个one-hot表示的例子。和上一章一样,我们用“You say goodbye and I say hello.”这个一句话的语料库来说明。在这个语料库中,一共有7个单词(“you”“say”“goodbye”“and”“i”“hello”“.”)。此时,各个单词可以转化为图3-4所示的one-hot表示。
图3-4 单词、单词ID以及它们的one-hot表示
如图3-4所示,单词可以表示为文本、单词ID和one-hot表示。此时,要将单词转化为one-hot表示,就需要准备元素个数与词汇个数相等的向量,并将单词ID对应的元素设为1,其他元素设为0。像这样,只要将单词转化为固定长度的向量,神经网络的输入层的神经元个数就可以固定下来(图3-5)。
图3-5 输入层的神经元:各个神经元对应于各个单词。图中神经元为1的地方用黑色绘制,为0的地方用白色绘制
如图3-5所示,输入层由7个神经元表示,分别对应于7个单词(第1个神经元对应于you,第2个神经元对应于say)。
现在事情变得很简单了。因为只要将单词表示为向量,这些向量就可以由构成神经网络的各种“层”来处理。比如,对于one-hot表示的某个单词,使用全连接层对其进行变换的情况如图3-6所示。
图3-6 基于神经网络的全连接层的变换:输入层的各个神经元分别对应于7个单词(中间层的神经元暂为3个)
如图3-6所示,全连接层通过箭头连接所有节点。这些箭头拥有权重(参数),它们和输入层神经元的加权和成为中间层的神经元。另外,本章使用的全连接层将省略偏置(这是为了配合后文对word2vec的说明)。
没有偏置的全连接层相当于在计算矩阵乘积。在很多深度学习的框架中,在生成全连接层时,都可以选择不使用偏置。在本书中,不使用偏置的全连接层相当于MatMul层(该层已经在第1章中实现)。
在图3-6中,神经元之间的连接是用箭头表示的。之后,为了明确地显示权重,我们将使用图3-7所示的方法。
图3-7 基于全连接层的变换的简化图示:将全连接层的权重表示为一个7 × 3形状的W矩阵
现在,我们看一下代码。这里的全连接层变换可以写成如下的Python代码。
import numpy as np c = np.array([[1, 0, 0, 0, 0, 0, 0]]) # 输入 W = np.random.randn(7, 3) # 权重 h = np.dot(c, W) # 中间节点 print (h) # [[-0.70012195 0.25204755 -0.79774592]]
这段代码将单词ID为0的单词表示为了one-hot表示,并用全连接层对其进行了变换。作为复习,全连接层的计算通过矩阵乘积进行。这可以用NumPy的np.dot()来实现(省略偏置)。
这里,输入数据(变量c)的维数(ndim)是2。这是考虑了mini-batch处理,将各个数据保存在了第1维(0维度)中。
希望读者注意一下c和W进行矩阵乘积计算的地方。此处,c是one-hot表示,单词ID对应的元素是1,其他地方都是0。因此,如图3-8所示,上述代码中的c和W的矩阵乘积相当于“提取”权重的对应行向量。
图3-8 在上下文c和权重W的矩阵乘积中,对应位置的行向量被提取(权重的各个元素的大小用灰度表示)
这里,仅为了提取权重的行向量而进行矩阵乘积计算好像不是很有效率。关于这一点,我们将在4.1节进行改进。另外,上述代码的功能也可以使用第1章中实现的MatMul层完成,如下所示。
import sys sys.path.append('..') import numpy as np from common.layers import MatMul c = np.array([[1, 0, 0, 0, 0, 0, 0]]) W = np.random.randn(7, 3) layer = MatMul(W) h = layer.forward(c) print (h) # [[-0.70012195 0.25204755 -0.79774592]]
这里,我们先导入了common目录下的MatMul层。之后,将MatMul层的权重设为了W,并使用forward()方法执行正向传播。