2.4 自然语言处理
自然语言处理是计算机科学领域与人工智能领域的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,涉及的领域较多,主要包括机器翻译、语义理解和问答系统等。
2.4.1 机器翻译
机器翻译是利用计算机技术实现从一种自然语言到另一种自然语言的翻译过程。基于统计的机器翻译方法突破了之前基于规则和实例翻译方法的局限性,翻译性能取得了巨大提升。基于深度神经网络的机器翻译在日常口语等一些场景的应用方面已经显现出了巨大的潜力。随着上下文语境表征和知识逻辑推理的发展,自然语言知识图谱不断扩充,机器翻译将会在多轮对话翻译及篇章翻译等领域取得更大进展。
目前,在非限定领域机器翻译中,性能较佳的一种是统计机器翻译,其包括训练及解码两个阶段。训练阶段的目标是获得模型参数;解码阶段的目标是利用所估计的参数和给定的优化目标,获取待翻译语句的最佳翻译结果。统计机器翻译主要包括语料预处理、词对齐、短语抽取、短语概率计算、最大熵调序等步骤。基于神经网络的端到端翻译方法不需要针对双语句子专门设计特征模型,而是直接把源语言句子的词串送入神经网络模型,经过神经网络运算后,得到目标语言句子的翻译结果。在基于神经网络的端到端机器翻译系统中,通常采用递归神经网络或卷积神经网络对句子进行表征建模,然后从海量训练数据中抽取语义信息。与基于短语的统计翻译系统相比,其翻译结果更加流畅自然,在实际应用中取得了较好的效果。
2.4.2 语义理解
语义理解是利用计算机技术实现对文本的理解,并回答与篇章相关问题的过程。语义理解更注重对上下文的理解及对答案精准程度的把控。随着MCTest 数据集的发布,语义理解受到了更多关注,取得了快速发展,相关数据集和对应的神经网络模型层出不穷。语义理解技术将在智能客服、产品自动问答等相关领域发挥重要作用,从而进一步提高问答与对话系统的精度。
在数据采集方面,语义理解通过自动构造数据的方法和自动构造填充型问题的方法来有效扩充数据资源。为了解决填充型问题,一些基于深度学习的方法相继被提出,如基于注意力的神经网络方法。当前主流的语义理解模型是利用神经网络技术对篇章、问题建模,然后对答案的开始和终止位置进行预测,抽取出相应的篇章片段。对于进一步泛化的答案,其处理难度提升,因此,目前的语义理解技术仍有较大的提升空间。
2.4.3 问答系统
问答系统分为开放领域的对话系统和特定领域的问答系统。问答系统技术指让计算机像人类一样用自然语言与人交流的技术。人们可以向问答系统提交用自然语言表达的问题,系统会返回关联性较高的答案。尽管目前已经有了不少问答系统应用产品,但大多是在实际信息服务系统和智能手机助手等领域的应用,问答系统在健壮性方面仍然存在问题和挑战。
自然语言处理面临四大挑战:一是在词法、句法、语义、语用和语音等不同层面存在不确定性;二是新的词汇、术语、语义和语法引发未知语言现象,产生不可预测性;三是数据资源的不充分使其难以覆盖复杂的语言现象;四是语义知识的模糊性和错综复杂的关联性难以用简单的数学模型描述,语义计算需要参数庞大的非线性计算。