自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。涉及的领域较多,主要包括机器翻译、机器阅读理解和问答系统等。

从语音识别到智能家居,从人机大战到无人驾驶,人工智能的“演化”给我们社会上的一些生活细节,带来了一次又一次的惊喜。同时,人工智能也掌握着多种核心技术。

自然语言处理:利用计算机为工具,对书面实行或者口头形式进行各种各样的处理和加工的技术,是研究人与人交际中以及人与计算机交际中的演员问题的一门学科,是人工智能的主要内容。

自然语言处理是研究语言能力和语言应用的模型,建立计算机(算法)框架来实现这样的语言模型,并完善、评测、最终用于设计各种实用系统。

打开网易新闻 查看更多图片

自然语言处理的应用

信息检索

信息检索起源于图书馆资料查询检索,引入计算机技术后,从单纯的文本查询扩展到包含图片,音视频等多媒体信息检索,检索对象由数据库扩展到互联网。

常见模型:布尔模型,向量空间模型,概率模型

常用技术:倒排索引,隐语义分析(LDA等)

机器翻译

机器翻译技术是指利用计算机技术实现从一种自然语言到另外一种自然语言的翻译过程。基于统计的机器翻译方法突破了之前基于规则和实例翻译方法的局限性,翻译性取得了巨大提升。

文档分类

文档分类:其目的就是利用计算机系统对大量的文档按照一定的分类标准实现自动归类。

文档分类的方法有基于机器学习的方法(如svm,decision tree)和基于深度学习(如cnn,rnn)的方法。

流程:样本处理 — 特征选择 — 分类。

应用:图书管理、内容管理、情感分析等

问答系统

问答系统分为开放领域的对话系统和特定领域的问答系统。问答系统技术是指让计算机像人类一样用自然语言与人交流的技术。人们可以向问答系统提交用自然语言表达的问题,系统会返回关联性较高的答案。

语音识别(Speech Recognition):将输入计算机的语音信号转换成书面语表示。

应用:文字录入、人机通讯、语音翻译等

语义理解

语义理解技术是指利用计算机技术实现对文本篇章的理解,并且回答与篇章相关问题的过程。语义理解更注重于对上下文的理解以及对答案精准程度的把控。语义理解技术目前在智能客服、产品自动问答等相关领域发挥着重要的作用。

文本挖掘

主要包括对文本进行聚类、分类、抽取摘要、情感分析等。同时,要对挖掘的信息和知识的进行可视化,形成交互式的表达界面。

信息抽取

信息抽取 即从自然语言文本中抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。

这些信息通常包括实体、事件、关系。

例如从新闻中抽取时间、地点、关键人物,或是从技术文档中抽取产品名称、开发时间、性能指标等。

与自动摘要相比,信息抽取更有目的性,并能将找到的信息以一定的框架展示。

社交媒体的应用,如Twitter和Facebook,都有标签和趋势,并使用自然语言处理来跟踪和监控这些标签和趋势,以了解世界各地正在交谈的话题。此外,自然语言通过过滤负面的、攻击性的和不恰当的评论和帖子来帮助优化过程。

这也被称为情感的人工智能,它是从书面和口头语料库中识别、提取和量化情感和情感状态的过程。情感分析工具用于处理诸如客户评论和社交媒体帖子之类的事情,以理解对特定事物的情绪反应和意见,比如新餐厅的菜品质量。

其实自然语言处理所涉猎的范围不局限于上述几点,自然语言处理的终极目标是用自然语言与计算机进行通信,使人们可以用自己最习惯的语言来使用计算机,而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言。这样看来,自然语言处理是真的很牛!