当你看到这张照片,你能得到什么信息?

打开网易新闻 查看更多图片

这是一张来自很久前的黑白照片,照片中的人是一个外国人。

那么他是谁呢?

通过观察图片,你会发现这个人的名字是Thierry Hermès。

这时也许你会马上联想到Hermès、爱马仕....

经过进一步检索,你发现Thierry Hermès是爱马仕的创始人;1837年他在法国巴黎创立了爱马仕,早年以制造高级马具起家。

上述例子中的思考过程,正是机器学习的目标:让机器学会像人类一样思考、判断、链接信息。

人工智能分为三个阶段,从机器智能到感知智能,再到认知智能。认知智能的目标是让机器拥有像人类一样的思考能力, 但现实却是AI要达到一个两、三岁小孩的智力都很难,这背后很大一部分原因是机器缺少知识,缺少将不同的信息点串联起来形成对事物的整体认知和判断的能力。

近几年,人工智能已经有了突飞猛进的进展,引入人类的知识是AI的重要研究方向之一, 知识图谱的构建,将所有不同种类的信息(Heterogeneous Information)连接在一起,旨在为智能系统表征知识,从而获得解决复杂问题的能力 。

1

知识图谱

在过去的几年里,数说故事陆续根据实际客户需求,构建固定领域、固定知识结构的知识图谱,服务于信息查询,垂直领域智能问答,产品创新等不同应用。

在过往的服务中,这种“固定”知识图谱可以达到相对较高的准确性,但是对于使用有较大的限制。只能在预先定义的结构中进行探索查询,无法将更多的知识容纳进来,导致任何的知识结构改变都需要重训练新的模型,改造代价非常大。

如何在一个更加通用的框架实现客户需求和技术的统一,是数说故事一直努力的方向。

历经数次迭代,数说故事使用知识图谱的技术构建了一个通用型商业知识图谱,区别于传统的开放性知识图谱,如Freebase、YAGO、DBpedia等,我们构建的知识图谱在开放性知识图谱的前提下,主要面向商业研究领域丰富知识链接,以“品牌 - 产品 - 人 - 媒介”为核心向外不断拓展。

目前,该图谱依托数说故事XDP体系,实现近实时数据解析入库,包含100w+实体,近亿级实体关系。

数说故事 Mamba Search是一个基于通用型商业知识图谱的开放性实体属性挖掘系统。 基于数说聚合全量数据解析生成,实现全场景知识体系覆盖。Mamba Search“探索、关联、拓展”三大功能,让原本无法具象展示的知识图谱变得触手可得。

下文将围绕数说故事在开放性知识提取和实体推断上使用的技术手段及以下两大难点展开介绍。

  • 开发型知识图谱的算法复杂度较高,如何做到无指定对象的开放性三元组抽取?

  • 开放型知识图谱提取结果没有经过有效的归类,下游业务难以使用,怎么办?

2

知识抽取

上图是我们现有的知识图谱数据流程,核心算法在于开放域抽取以及限定域抽取两个部分。 基于自然语言处理抽取的知识分成两种明确不同的类别:开放语义的主谓宾关系,以及限定关系类型的基于长依赖的实体关系抽取。

2.1 开放域抽取

开放域抽取,基于语义的主谓宾关系,如:“杨幂代言雅诗兰黛”,我们可以抽取出“[杨幂] - [代言] - [雅诗兰黛]”这样的三元组关系。

开放性知识提取,即从文章中提取由主语、谓语和宾语组成的知识,这是构建知识图谱的核心步骤;开放性指的是不限定谓语的类型,理论上可提取出无限种主语和宾语之间的关系。

为了适应社交媒体和不同数据源复杂的语言环境,不同于一般的从原文中直接提取三元组(主语、谓语和宾语)的方案,数说故事知识图谱采取了 NER+关系二元组的知识提取方案 ,我们自研了MELSE模型结构(multi entity-oriented labeling stage extraction model),这样比直接提取三元组结构的传统方案能够提升大概7%的召回率。具体可以分为以下步骤:

将要分析的实体作为“下一句”拼接在原文后,输入数说定制的BERT模型层,将输出的embedding分别输入三个不同的线性转换层,分别得到原文的关系二元组,当原文中的关系二元组多于一个时,可通过对应关系标签,获取谓语和宾语之间的对应关系。

2.2 限定域抽取

限定域抽取,基于依赖推理的关系抽取:如:“元气森林推出的气泡水,味道清新,不腻,有利于减肥”,我们需要从中抽取多个关系对。数说定义了商业知识图谱相关的50+特殊关系类型,从品牌研究,到产品研发,再到人群分析,我们都设计了特殊的实体关系类型。

“[元气森林] - [口味] - [清新]”

“[元气森林] - [口感] - [不腻]”

“[元气森林] - [功效] - [减肥]”

限定域的抽取,我们采用BERT作为基础,然后改造最后一层等方式,套用相对经典的NER + Relation Extraction的技术进行提取。

3

实体推断

知识图谱融合阶段有个比较重要的任务——对实体类型进行推断。前述中,我们有两种比较独立方法进行知识图谱的开放域以及限定域抽取,其中开放域抽取的实体,没有实体的类别信息。类别信息在数说故事商业知识图谱中非常重要,所有的下游应用场景,都需要。下面我们着重介绍一下,实体类别推断的方法。

实体类型推断中,我们采用了现在state-of-art的方法,Graph Embedding + Sentence Embedding的方案。

Graph Embedding,目前比较主流的Knowledge Graph Embedding方法为:Translation Model、复数空间类(RotatE)、双曲空间类(RefH[1])。在文献中,我们发现RefH的模型在Embedding维度较小,如200维时效果显著好于其他,但是在更大的空间上只是稍微好一点。经过测试,在我们的场景实体推断的任务中,RefH的模型取得了最好的效果。

Sentence Embedding,当新知识实体类型未知时,我们会将实体相关的知识组合成一个句子,再用句子向量化的方式将其转换成sentence embedding,再通过训练好的分类算法,可推断出实体的类型,下图是其中一个例子:

最后我们将实体的Graph Embedding + Sentence Embedding结果拼在一起,传入下游的分类器中,进行实体类型推断。

4

应用场景

通过构建KGaaS(知识图谱即服务),我们将其应用于各种上层应用中,包括品牌研究、产品研发、代言人分析、影视剧预测等商业分析领域,也封装成通用知识检索、关联分析与挖掘、自然语言问答、自然语言生成等程序类API提供对下游业务应用。

下文将围绕品牌研究、产品创新、明星/KOL研究、StoryLab故事分析与研究、推荐系统5大应用场景展开介绍,具体如下:

4.1 品牌研究

01 品类、品牌、商品库建立

传统的品牌研究需要人工设定品牌、品类、商品的码表,然后通过码表的匹配方式进行数据ETL。这样在使用时需要一直进行人工码表维护,无法第一时间发现新品牌、新商品,严重依赖人工。

而数说的行业知识图谱基于全量数据,不停地从大数据中挖掘新出现的品牌、品牌新进入的品类、品牌新推出的商品信息,做到品类、品牌、商品库的实时动态更新,而无需人工过多参与。知识图谱带来的强大的实体消歧可以大大提升码表匹配文本解析带来的噪音问题。

02 黑马品牌挖掘

我们对黑马品牌的挖掘分为检测和预测两个部分:

1)通过从文本中挖掘KOL、专家对品牌的描述标签,当品牌开始出现被描述为黑马、新锐的声量时,我们能够近实时地检测并解析到知识图谱的标签中;

2)在知识图谱中我们构建了一个关系网络,可以通过关联趋势的变化,预测品牌在后续发展中的增长情况。传统的趋势预测往往局限于趋势本身的历史声量变化,而通过知识图谱我们有了更加丰富的信息,能够被预测未来的声量变化趋势。

这就是数说黑马品牌榜的形成原理。数说雷达“品牌榜”聚合抖音品牌DOU榜和微博品牌活动榜,跟踪不同行业品牌的关联话题热度,洞察热门品牌话题”造热“特征,并基于数说全量数据形成数说热门品牌榜、数说上升品牌榜和数说黑马品牌榜。

通过品牌榜单,品牌企业可以快速识别不同品牌的推广活动及造势效果,为策略投放提供参考。

打开网易新闻 查看更多图片
数说雷达 界面截图

03 品牌发展历程挖掘

以开头提到的爱马仕为例,在Mamba Search可以清晰看到以爱马仕为中心展开的关系图谱,包括爱马仕的创始人、总裁、掌舵人、合作方、创立时间等各种梳理好的信息,还可以看到品牌近一年在各个渠道的声量变化及未来的声量变化趋势,还有与品牌相关的词云图。

Mamba Search 界面截图

4.2 产品创新

互联网的发展产生大量新品数据,包括各种KOL的新品测评、行业分析、用户的真实评价和自发分享、商家的上新推广等等。数说故事采集全网数据,并以知识图谱赋能海量数据处理,挖掘出产品相关的新原料、成分、颜色、技术趋势。

旗下数说雷达根据“趋势”在不同生命周期的数据特征,将不同的“趋势”划分为“萌芽期、上升期和火热期”三个阶段,为品牌产品创新提供基于大数据的实时趋势发现。

4.3 明星/KOL研究

通过知识图谱可以一站式获取明星/KOL的各种信息,使得品牌在挑选明星/KOL时能够更有依据。我们加入和关系、时间维度的知识图谱的图嵌入技术,更方便计算明星聚类、明星-品牌契合度等各种传统方法难以有效计算的指标。辅助企业对不同明星/KOL进行比对,锁定合适且优质的明星/KOL,帮助品牌挖掘明星/KOL的商业价值,布局平台品宣推广。

下图就是我们以"肖战"为例在Mamba Search进行的探索,肖战发生的各种事件活动、参演的各种影视剧热度、代言的品牌情况、明星之间的私人关系等相关讯息一目了然:

打开网易新闻 查看更多图片
Mamba Search 界面截图

4.4 StoryLab故事分析与研究

通过大量的数据解析,我们用知识图谱技术解析数据中出现的人物故事、故事的脉络,找到故事中的人物、时间、地点、人物需求、任务痛点、产品使用(品牌、品类)场景,组成一个大型的故事知识图谱。

在这个故事知识图谱,品牌方可以快速地找到想要的故事和各种相关的故事,进一步做人群需求研究。

推荐系统是一个相对成熟的算法类别,常见的推荐系统,通过用户历史购买记录、各种页面点击行为作为输入,推荐的结果是框在了内部数据里面。通过加入知识图谱的信息,我们可以极大的扩展各种商品的关联属性(商品的各种维度、这些维度属性的喜好度、商品的社会化评价等),通过加入知识图谱的相关信息,可以提升推荐的准确度,并且使得模型结果更加的平稳。

知识图谱的技术原理覆盖面广泛,包括:如何处理多源实体融合,如何做实体链接与对齐,如何做实体关系预测,如何给实体赋予有意义的重要度等算法模型.....让我们一起期待知识图谱的更多延展和应用!