首页 AI写作 正文

详解自然语言处理(NLP)5大语义分析技术及14类应用(建议收藏)

详解自然语言处理(NLP)5大语义分析技术及14类应用(建议收藏)

5种语义分析技术和14种自然语言处理(NLP)应用详解(推荐合集)

简介:自然语言处理(NLP)技术是所有与计算机自然语言处理相关的技术的统称。其目的是使计算机能够理解和接受人类以自然语言输入的指令,并完成从一种语言到另一种语言的翻译功能。

研究自然语言处理技术可以丰富计算机知识处理的研究内容,促进人工智能技术的发展。

作者:大观数据

来源:华章科技

01语义分析技术

自然语言处理技术的核心是语义分析。语义分析是一种基于自然语言分析语义信息的方法。它不仅进行词法分析、句法分析等语法层面的分析,还涉及单词、短语、句子、段落所包含的含义。目的是用句子的语义结构来表示语言的结构。语义分析技术具体包括以下几点。

1.词法分析

词汇分析包括两个方面:词法分析和词汇分析。一般来说,词法分析主要侧重于对单词的前缀和后缀的分析,而词法分析则侧重于对整个词汇系统的控制,以便能够更精确地分析用户输入信息的特征,最终准确地完成搜索。

2.语法分析

句法分析是对用户输入的自然语言中的词汇短语进行分析,目的是识别句子的句法结构,实现自动句法分析的过程。

3.语用分析

与语义分析相比,语用分析增加了语境分析、语言背景、语境等,即从文章结构中提取出意象、人际关系等附加信息,是更高级的语言分析。他将句子中的内容与现实生活中的细节联系起来,形成动态的表意结构。

4.背景分析

语境分析主要是指对问题原文之外的大量“空白”进行分析,以便更准确地解读问题语言的技术。这些“差距”包括一般知识、特定领域知识和查询用户需求。

5.自然语言生成

人工智能驱动的引擎能够根据收集的数据生成描述,通过遵循将数据结果转换为散文的规则,在人类和技术之间创建无缝交互。结构化绩效数据可以输入自然语言引擎,以自动编写内部和外部管理报告。

自然语言生成接收语义的结构化表示,以输出与输入语法一致、流畅且语义一致的自然语言文本。早期,大多数管道模型用于研究自然语言生成,管道模型根据不同阶段将研究过程分解为以下三个子任务。

内容选择:决定要表达什么。

句子规划:确定章节和句子的结构、组合句子、引用陈述等。

表层实现:决定选择哪些词汇来表达一个句子。

早期基于规则的自然语言生成技术对每个子任务使用不同的语言规则或领域知识来实现从输入语义到输出文本的转换。

针对基于规则的自然语言生成系统的缺点,近年来,学者们发起了数据驱动的自然语言生成技术的研究,从浅层统计机器学习模型到深层神经网络模型建模都做了相关研究。目前自然语言生成的主流技术主要包括数据驱动的自然语言生成技术和基于深度神经网络的自然语言生成技术.语言生成技术。

02自然语言处理应用

自然语言处理应用的技术体系主要包括词级自然语言处理、语法级自然语言处理和章节级自然语言处理。

词级分析主要包括中文分词、命名实体识别、词性标注、同义词切分、词向量等;

句法层面分析主要包括依存语法分析、词位分析、语义规范化、文本纠错等;

章节级分析主要包括标签提取、文档相似度分析、主题模式分析、文档分类与聚类等。

1.中文分词

中文分词是计算机根据语义模型自动将汉字序列分割成符合人类语义理解的单词。分词是将连续的词序列按照一定的规范重新组合成词序列的过程。

在英语写作中,空格被用作单词之间的自然分隔符,而在中文中,只有单词、句子和段落可以简单地用明显的分隔符来分隔,但是单词m'有一个正式的分隔符。虽然英语也存在短语划分的问题,在单词层面上,汉语比英语复杂和困难得多。

2.命名实体的识别

命名实体识别,也称为“专有名称识别”(NER),是指自动识别具有特定含义的实体的技术。应用于信息抽取、知识图谱、问答系统、句法分析、搜索引擎、翻译引擎等重要基础基础。

3.词性标注

词性标注(POStagging)也称为词性,是指为分词结果中的每个单词标记正确词性的程序。具体来说,就是判断每个单词是否是名词、动词、形容词或其他词性的过程(如图3-2所示)。

▲图3-2词性标注

在中文中,词性标注相对简单,因为中文词汇很少有多个词性。大多数单词只有一个词性,或者最常见的词性远高于第二个词性。常用的方法包括:基于最大熵的词性标注、基于统计的最大似然输出词性标注、基于隐马尔可夫模型(HMM)的词性标注。

4.同义词分析

由于不同地区的文化差异,输入的问题文本可能会有不一致的描述。这时业务系统需要对用户输入进行同义词、纠错、规范化处理。同义词挖掘是一项基础任务,同义词算法包括词典、百科词条、元搜索数据、上下文相关性挖掘等。

5.词向量分析

词向量技术是指将词转换为稠密向量,相似的词对应相似的词向量。在自然语言处理应用中,词向量作为特征输入深度学习模型。因此,最终模型的性能高度依赖于词向量的性能。一般来说,有两种表示单词的方式:一种是热表示和分布式表示。

One-hot表示向量中只有一个维度的值为1,其余维度均为0。该维度代表当前单词。

分布式表示(wordembedding)是指将单词转换为分布式表示,也称为词向量,分布式表示将单词表示在固定长度的密集向量中。

词向量的生成可以分为两种方法:基于统计方法(例如,共现矩阵、奇异值分解(SVD))和基于语言模型(例如,CBOW、word2vec中使用的Skip-gram、ETC。)。

6.依存语法分析

依存语法通过分析语言单元内各成分之间的依存关系来解释语言单元的句法结构,并声称句子中的主要谓语动词是支配另一个成分的中心成分。但它本身不会被任何其他组件所支配,所有被支配的组件都以一定的关系从属于控制器,如图3-3所示。

▲图3-3依存语法分析距离

从分析结果可以看出,该句主谓语动词为“召集”,主语为“民航局”,“召集”的宾语为“会议”,“会议”修饰语为“通用航空发展专项工作课题”。通过上述句法分析的结果,我们很容易看出,是“民航局”“call”了会议,而不是“promoted”会议,尽管“promoted”更接近“meeting”。

7.词位分析

文章中不同位置的词对文章语义的贡献不同。出现在文章开头和结尾的单词比出现在正文中的单词更有可能成为主题词和关键词。对文章中单词的位置进行建模,对不同的位置赋予不同的权重,从而可以更好地对文章进行向量化。

8.语义规范化

语义规范化通常是指从文章中识别出具有相同含义的单词或短语,其主要任务是共指的消解。共指消解是自然语言处理中的关键问题,在机器翻译、信息抽取、问答等领域发挥着非常重要的作用。

以常见的信息抽取系统为例,微软的学术搜索引擎会存储一些作者档案信息,并且可以根据共指对象抽取部分信息。例如,在采访教授时,教授的名字可能只出现一两次,更多的可能是“我”、“XX博士”、“XX教授”或“他”等代词。没想到还会出现一些代表记者的相同词语,如何将这些词语映射到正确的人身上,将成为提取信息的关键。

9.修正文字错误

文本纠错任务是指自动识别并纠正自然语言使用过程中出现的错误。测试纠错任务主要包括错误识别和纠错两个子任务。错误识别的任务是指出句子中出现错误的位置,纠错是指基于识别的自动纠正。

与英文纠错相比,中文纠错的主要难点在于中文的语言特性:中文词边界和庞大的汉字集。由于汉语的特点,两种语言的错误类型也有所不同。

英文中的修改操作包括插入、删除、替换和移动(移动是指交换两个字母的顺序等),但对于中文来说,由于任何汉字都可以在一个单词中独立组成,因此插入、删除时会出错和移动都只是作为语法错误。由于大多数用户都是母语人士,输入法一般都会给出正确的提示,而且语法错误通常较少,因此中文输入错误的纠正主要集中在替换错误上。

10.标签提取

文档标签一般是多种多样的单词或短语作为文档主要内容的摘要。标签是人们快速理解文档内容、理解主题的重要途径。它们广泛应用于科学论文、信息存储和新闻报道。文档标签通常具有可读性、相关性和覆盖范围等特征。

阅读意味着它本身作为一个单词或短语应该是有意义的;

相关性是指标签必须与文档的主题和内容密切相关;

覆盖率是指文档标签对文档内容的覆盖程度,而不是仅仅关注某个句子。

11.文本的相似度

文本相似性已在不同领域得到广泛讨论。但由于应用场景不同,其内涵也会有所不同,因此没有统一的定义。

从信息论的角度来看,相似性与文本之间的共性和差异性有关,共性越大、差异性越小,相似性越高;共性越小、差异性越大,相似性越小;最大的相似度是文本完全相同。

相似度的计算一般是指计算事物特征之间的距离,距离小则相似度大,距离大则相似度小。

相似度计算方法可分为四大类:基于字符串的方法、基于语料库的方法、基于知识的方法和其他方法。

基于字符串的方法从字符串的匹配程度出发,利用字符串的共现和重复作为相似度的度量;

基于语料库的方法是指利用从语料库中获得的信息来计算文本相似度;

基于知识的方法是指利用具有标准化组织体系的知识库来计算文本相似度。

12.主题模型

主题分析模型(TopicModel)是一种利用无监督学习来统计和收集文档隐含语义结构以挖掘文本中包含的语义结构的技术。潜在狄利克雷分配(LDA)是一种常用的主题模型计算方法。

13.文本分类

根据特定行业的文档分类体系,计算机自动读取文档内容,并将其归属到相应类别的技术体系中。其典型的处理过程可分为训练和运行两种。即计算机预读各类别的文档并提取特征,完成监督学习和训练,并在运算阶段识别新文档的内容并完成分类。

14.文本分组

文本聚类主要基于众所周知的聚类假设:相同类型的文档相似度较高,而不同类型的文档相似度较低。聚类作为一种无监督的机器学习方法,不需要训练过程,也不需要提前人工标注文档类别,因此具有一定的灵活性和较高的自动化处理能力。

文本聚类已成为有效组织、总结和导航文本信息的重要手段。文本聚类方法主要包括基于分区的聚类算法、基于层次的聚类算法和基于密度的聚类算法。

作者简介:大观数据是国内智能RPA领域的领先公司,自主研发了完整的系统“RPAAI”,并拥有关键知识产权。大观智能RPA产品是业内不依赖微软底层开发框架、不使用第三方开源框架的RPA产品。

本文摘自《智能RPA实践》,经出版社许可发布。

延伸阅读《智能RPA在行动》

推荐:这是一本从实践角度阐释“AIRPA”如何赋能企业数字化转型的书。涵盖基础知识、平台构成、相关技术、建设指南、项目实施、实施方法论、案例分析、发展趋势等8个主题,维度对智能RPA进行了系统解读,为企业理解和实践智能RPA提供全面指导。

了解更多

本文转载自互联网,如有侵权,联系删除

本文地址:https://www.5i818.cn/2686.html

相关推荐

智能审阅、自动写作的现状与未来

智能审阅、自动写作的现状与未来

智能审稿和自动写作的现状和未来近日,山东电视台在全国两会报道中引入人工智能技术引起广泛关注。人工智能与新闻写作的融合早在10年前国外媒体...

AI写作 2024.02.13 0 76

发布评论

文章目录