自然语言处理基础学习知识点集锦

自然语言处理基础学习知识点集锦

自然语言的处理发展以来经历了多个阶段。初期的研究主要注重于自然语言的语法。80年代初期,计算机语言蓬勃发展,形式语言理论趋向成熟,这使得自然语言的处理也求助于形式语言。但由于形式语言语法和语义的分离性,以及自然语言的上下文有关性,导致不能得到广泛的运用。
扩种转移网络ATN是一种多功能自然语言的语法表示理论。它对表层和深层结构分析同时进行,所以对语言中规整的部分而言是一种可实现的、有效的理论。但是ATN是一种非模块的结构,随着节点的增多、复杂性会急剧增长,对语法的紧密依赖也限制了对不符合语法的句子的处理能力。
格语法和概念依存理论较好第解决了语法和语义解释的组合问题,。格的文法不仅与语法相关也与语义关系相关,语法和语义是统一的。其基本理论根据为:任何两个意义相同的句子具有相同的内部表达。概念分析的过程直接把文本转换成语义表示。这是个很重要的问题,基于这个理论,可以定义一些表示行为意义的原语,这些原语有成为继续研究的基矗
进入80年代后,又提出了广义短语结构语法、功能合一语法、词汇功能语法等。他们认为,一个语法框架只能解释为各种语言的语法的形式语言,是一种定义语法的原语言,其语义以语言中的语法单位作为描述对象。因此其重要的工作就是构造一个受限原语言。它是就表层结构的,力图由观察到的语言现象来进行描述和解释,而不依赖于抽象的深层结构。这些语法理论,都是在语言单位的表示中使用复杂的特征结构,在分析过程中使用合一运算。由于具有简单清晰的规范体系,在自然语言的处理中得到广泛的运用。这段时期的工作是前人工作的进一步发展,但我认为没有突破性的进展。工作的思想是继续试图用语法来描述自然语言。不过不再试图用语法和语义相结合来描述整个的自然语言,而是趋向于寻找一种元描述机制来描述语言,这样也增加了描述的灵活性。这种思想应该继承于格语法。
以上的技术主流都是句法-语义分析,普遍依据的是人工智能中的知识表示理论和推理方法。造成这些理解模型都是基于规则的,而在串行的计算机上构造一个包含大量语法规则、复杂推理机制的自然语言处理系统很困难。后来出现了以语料库语言学和神经网络自然语言处理机制。
语料库基于大量的真实文本,它研究的是自然语言文本的采集、存储、检索、统计、语法标注、语法-语义分析等。它一方面依赖于统计特征而不是完全依赖于逻辑规则,一方面起处理对象是非受限领域的语言。随着互联网技术的发展和搜索技术的进步,预料库语言学呈蓬勃发展的姿态,他和搜索技术互相促进。
神经网络技术试图模拟人的思维,从而解决语言中线性排列的词语中多维互联网状的复杂语义关系,语义和语用难以形式化以及串行符号方法不具有推广性能和自学习的能力等问题。它由许多个相同或相识的神经元组成,通过广泛连接构成网状结构,并采用分布式并行处理算法。人们发现基于冯.诺尹曼体系的符号处理方法来处理自然语言的极限性很大,而基于这种方法,不需要编写大量的产生式规则,只要提供给系统足够的预料。后来的成果有语义的分布式表示,如分布式表示和局部表示、分类和层次表示等。这是一个很有突破性,很有影响力的成果。
后期的研究是不是可以在这个的基础继续发展?将各种方法组合起来使用?文章的发表已经过去10年,这十年里发生了什么呢?我将继续分析和学习。感觉上预料库技术应该随着搜索技术的发展膨胀起来了吧。