知识图谱数据构建的“硬骨头”,阿里工程师如何拿下?

  • 时间:
  • 浏览:0

将得到的每个extraction failure(包括FP和FN)按错误原因分析分析进行分类和归纳,并按错误所处的频率进行排序,一般而言,最主要错误原因分析分析包括:

知识图谱的数据构建,就数据源而言,分为特性化数据,半特性化数据和无特性数据三类。其中,无特性数据是最庞大、最易获取的资源,一起去也是在避免和利用方面难度最大的资源。神马知识图谱构建至今,机会发展为一1个拥有近11500万实体,近150亿关系的大规模知识图谱。在经历了前期以特性化和半特性化数据为主的领域图谱构建阶段,神马知识图谱的数据构建重点机会逐渐转移为怎么才能 才能 准确高效地利用无特性数据进行实体与关系的自动识别与抽取。一种生活构建策略使得神马知识图谱在通用领域的建设和可持续扩增方面有很强的竞争力。

DeepDive系统运行过程中还包括一1个重要的迭代环节,即每轮输出生成后,用户时要对运行结果进行错误分析,通过特性调整、更新知识库信息、修改规则等手段干预系统的学习,曾经的交互与迭代计算能使得系统的输出不断得到改进。

机会含高感情 关系相关的关键词“夫人”,该的话将被保留为系统输入。从该句提取的多我本人所有物候选实体对时要依靠更完善的启发式规则来完成进一步的标注和过滤。

其实启发式规则的编写大多依靠专家知识或人工经验完成,但规则的完善和扩充还还可不后能 依靠许多自动机制来辅助实现。你这个,规则定义:句中突然出现“P_1和P_2结婚”,则(P_1,P_2)得到正标注。根据对“和”和“结婚”等token的扩展,亲戚亲戚许多人还还可不后能 得到“P_1与P_2结婚”、“P_1和P2婚后”、“P_1和P_2的婚礼”等你这个应该标注为正的语境。这里,token的扩展还还可不后能 通过word2vec算法加人工过滤实现。下表给出了该抽取任务中用到的规则和相应的统计数据。整个数据标注过程耗为14m21s。

用户还还可不后能 通过预留的user defined function接口,对启发式规则进行编写和修改。

对于每个切分好的的话,DeepDive会使用内嵌的Stanford CoreNLP工具进行自然语言避免和标注,包括token切分,词根还原、POS标注、NER标注、token在文本中的起始位置标注、依存文法分析等。

DeepDive (http://deepdive.stanford.edu/) 是斯坦福大学开发的信息抽取系统,能避免文本、表格、图表、图片等多种格式的无特性数据,从中抽取特性化的信息。系统集成了文件分析、信息提取、信息整合、概率预测等功能。Deepdive的主要应用是特定领域的信息抽取,系统构建至今,已在交通、考古、地理、医疗等多个领域的项目实践中取得了良好的效果;在开放领域的应用,如TAC-KBP竞赛、维基百科的infobox信息自动增补等项目中都有不错的表现。

2、 启发式规则

1、 输入与切分

当训练文本的规模很大,涉及的实体众多时,生成的因子图机会非常错综复杂庞大,DeepDive采用吉布斯采样(Gibbs sampling)进行来错综复杂基于图的概率推算。在特性权重的学习中,采用标准的SGD过程,并根据吉布斯采样的结果预测梯度值。为了使特性权重的获得更灵活合理,除了系统默认的推理过程,用户还还还可不后能 通过直接赋值来调整某个特性的权重。篇幅关系,更完整版的学习与推理过程本文不做展开介绍,更多的信息可参考DeepDive的官网。

DeepDive的系统架构如下图所示,大致分为数据避免、数据标注、学习推理和交互迭代3个流程:

DeepDive系统的基本输入包括:

实验证明,利用改进算法得到的输入集规模有显著的减小,以百科文本的抽取为例,感情 关系的输入集可缩小至原输入集的13%,人物和毕业院校关系的输入集可缩小至原输入集的36%。输入集的缩小能显著减少系统运行时间,且实验证明,排除了少许doubt标注实体候选对的干扰,系统的准确率都有较大幅度的提升。

DeepDive是一1个机器学习系统,输入集的大小直接影响系统的运行时间,尤其在耗时较长的特性计算和学习推理步骤。在保证系统召回率的前提下,合理减小输入集规模能有效提升系统的运行强度。

3、 错误修正

DeepDive系统的基本输出包括:

机会目前业务应用中涉及的绝大多数是百科文本,缺失主语的加上采用了比较简单的策略,即从当前句的上一句提取主语,机会上一句也缺失主语,则将百科标题的NER结果作为要加上的主语。主语缺失的判断相对错综复杂,目前主要采用基于规则的法律法律法律依据。假设时要提取的候选对(E1, E2)对应的实体类型为(T1, T2),则判定流程如下图所示:

本文来自云栖社区合作伙伴“PaperWeekly”,了解相关信息还还可不后能 关注“PaperWeekly”微信公众号

根据错误原因分析分析,通过加上或修改规则、对特性进行加上或删除、对特性的权重进行调整等行为,调整系统,重新运行修改后的相应流程,得到新的计算结果。



本文聚焦于开放信息抽取中的重要子任务——关系抽取,首先对关系抽取的各种主流技术进行概述,而后结合业务中的选着与应用,重点介绍了基于DeepDive的法律法律法律依据,并详述它在神马知识图谱数据构建工作中的应用进展。

主语的缺失只是以后 直接原因分析分析分析候选实体对中其中一1个实体的缺失,这将原因分析分析系统对少许含高高用信息的的话无法进行学习,严重影响系统的准确率和召回率。主语的自动补充涉及两方面的判断:

关系抽取的绝大部分任务仅涉及三元组的抽取。三元组一般有一种生活形式,一种生活是一1个实体具有一种生活关系,形如R(E1, E2),你这个:感情 关系(刘德华,朱丽倩);另一种生活是实体的属性值,形如P(E,V),你这个:身高(刘德华,1.74米)。DeepDive默认的关系抽取模式都有基于三元组的。但在实际应用中,有只是错综复杂的关系用三元组难以完整版表达,你这个,人物的教育经历,包括人物、人物的毕业院校、所学专业、取得学位、毕业时间等。什么错综复杂的多实体关系在神马知识图谱中用复合类型来表示。怎么才能 让,为使抽取任务能兼容复合类型的构建时,亲戚亲戚许多人对DeepDive的代码做了许多修改,将候选实体对的提取,扩展为候选实体组的提取。代码修改涉及主抽取模块中的app.ddlog、底层用于特性自动生成的DDlib和udf中的map_entity_mention.py、extract_relation_features.py等文件。下图展示了一1个扩展后的实体组抽取实例,抽取关系为(人物、所在机构、职位):

本节首先给出一1个输入示例以及该示例在DeepDive运行过程中每一步的输出结果,如下图所示。通过一种生活示例,亲戚亲戚许多人还还可不后能 对DeepDive各模块的功能和输出有更直观的认识。

在上一章的综述中,亲戚亲戚许多人介绍太少种基于远程监督思想的改进法律法律法律依据。在具体的业务实现中,亲戚亲戚许多人选着了领域内与业务需求最为契合的一种生活代表性法律法律法律依据:基于DeepDive的抽取系统和基于深度学习抽取算法。一种生活法律法律法律依据相辅相成,各有优势:DeepDive系统较多依赖于自然语言避免工具和基于上下文的特性进行抽取,在语料规模的选着上更为灵活,能进行有针对性的关系抽取,且能方便地在抽取过程中进行人工检验和干预;而深度学习的法律法律法律依据主要应用了词向量和卷积神经网络,在大规模语料避免和多关系抽取的人物含高明显的优势。在下面的章节中,亲戚亲戚许多人来更完整版地了解你这个种生活法律法律法律依据的实现与应用。

假设时要提取的三元组为R(E1, E2)且(E1, E2)对应的实体类型为(T1, T2)。DeepDive的默认运行机制是:在数据避免阶段,提取所有满足类型为(T1,T2)的实体对作为候选,不考虑上下文与不是表达关系R的机会性。你这个,抽取感情 关系时,倘若一1个的话中突然出现大于等于一1个的人物实体,该的话就会作为输入参与系统整个数据避免、标注和学习的过程。以下3个例句中,除了句1,其它4句完整版不涉及感情 关系:

数据避免环节的曾经改进是加上了主语自动补充的流程。以中文百科文本为例,统计发现,有将近40%的的话缺少主语。如下图刘德华的百科介绍,第二段中所有的话均缺少主语。

1、 准召率的快速估算

下表显示了该抽取任务在数据避免阶段各步骤的的耗时和产出数量:

2、 错误分类与归纳

因子图是一种生活概率图模型,用于表征变量和变量间的函数关系,借助因子图还还可不后能 进行权重的学习和边缘概率的推算。DeepDive系统中,因子图的顶点有一种生活,一种生活是随机变量,即提取的候选实体对,另一种生活是随机变量的函数,即所有的特性和根据规则得到的函数,比方一1个实体间的距离不是大于一定阈值等。因子图的边表示了实体对和特性及规则的关联关系。

原文发布时间为:2018-03-16

本文作者:游维

在数据标注的远程监督阶段,亲戚亲戚许多人除了使用知识图谱中已有的夫妻关系做正例标注,还使用了已有的父母-子女关系和兄弟姐妹关系做负例标注,得到正例数千个,正负标注候选实体的比例约为1:2。

迭代阶段保证通过一定的人工干预对系统的错误进行纠正,从而使得系统的准召率不断提升。交互迭代一般包括以下好多个步骤:



当远程监督生成和启发式规则生成的label冲突,或不同规则生成的label产生冲突时,DeepDive采用majority vote算法进行避免。你这个,一1个候选对在DBpedia中找到了映射,label为1,一起去又满足2中第2条规则,得到label 为-1,majority vote对所有label求和:sum = 1 - 1 = 0,最终得到的label为doubt。

该步骤的目的是将每一1个候选实体对用一组特性表示出来,以便后续的机器学习模块都都还还可不后能 学习到每个特性与所要预测关系的相关性。Deepdive内含自动特性生成模块DDlib,主要提取基于上下文的语义特性,你这个一1个实体mention间的token sequence、NER tag sequence、实体前后的n-gram等。Deepdive也支持用户自定义的特性提取算法。

实现远程监督标注,首先时要从已知的知识库或知识图谱中获取相关的三元组。以感情 关系为例,DeepDive从DBpedia中获取已有的夫妻实体对。若候选实体对能在已知的夫妻实体对中找到匹配映射时,该候选对标记为正例。负例的标注针对时要抽取的不同关系有不同的可选法律法律法律依据。你这个还还可不后能 将这么 在知识库中突然出现的实体对标注为负例,但在知识库收入不完整版的具体情况下该法律法律法律依据会引入噪音负例;也还还可不后能 用知识库中互斥关系下的实例来做负例标注,你这个父母-子女关系,兄弟姐妹关系,都与感情 关系互斥,用于标注负例基本太少再引入噪音。

在了解了DeepDive的工作流程以后 ,本章将介绍亲戚亲戚许多人怎么才能 才能 在神马知识图谱的数据构建业务中使用DeepDive。为了充分利用语料信息、提高系统运行强度,亲戚亲戚许多人在语料避免和标注、输入规模的控制、输入质量的提升等环节,对DeepDive做了许多改进,并将什么改进成功运用到业务落地的过程中。

以百科文本为例,经实验统计,上述主语自动补充算法的准确率大概在92%。从关系抽取的结果来看,在所有的错误抽取case中,由主语增补原因分析分析的错误比例不超过2%。

在数据标注阶段,亲戚亲戚许多人得到了候选实体对以及它们对应的特性集合。在数据标注阶段,亲戚亲戚许多人将运用远程监督算法和启发式规则,对每个候选实体对进行label标注,得到机器学习所需的正例和负例样本。

你这个的观察和总结还还可不后能 编写成启发式规则,依靠从规则得到的负标注抵偿远程监督得到的正标注,减小系统在学习和推理时的偏差。

尤其当句中的一1我本人所有物实体无法通过远程监督获取正例或负例标签时,此类输入无法在学习环节为系统的准确率带来增益。为减小此类输入带来的系统运行时间损耗,亲戚亲戚许多人提出了以下改进算法:

为了更完整版地了解DeepDive的应用和改进算法的效果,以下亲戚亲戚许多人给出一1个具体的感情 关系抽取任务的相关运行数据。

2、 NLP标注

对于系统的准确率,亲戚亲戚许多人取expectation为 [0.95,1][0.95,1] 区间内的输出结果进行分段统计,统计结果如下列图表所示:

4、 特性提取

远程监督算法是目前主流的关系抽取系统广泛采用的法律法律法律依据,也是该领域的研究热点之一。该算法很好地避免了数据标注的规模大问题,但它基于的基本假设过强,会引入少许噪音数据。你这个,从知识图谱获取三元组:创始人(乔布斯,苹果7 公司),下表句1和句2正确表达了该关系,但句3和句4并这么 表达曾经的关系,怎么才能 让对句3和句4应用基本假设前会得到错误的标注信息。一种生活大问题通常称为 the wrong label problem。

系统召回率的计算相比准确率的计算更为错综复杂,在语料规模较大的具体情况下,准确估算召回率将耗费少许的人力。亲戚亲戚许多人采用了抽样检测的法律法律法律依据来估算召回率,具体实践了以下一种生活法律法律法律依据(统计中expectation均取>=0.95):

3、 Label冲突的避免

突然出现 the wrong label problem 的根本原因分析分析,是远程监督假设一1个实体对只对应一种生活关系,但实际上实体对间还还可不后能 一起去具有多种关系,如上例中还所处CEO(乔布斯,苹果7 公司)的关系,实体对间也机会不所处通常定义的一种生活关系,而仅机会一起去涉及了某个话题才在句中共现。

3、 候选实体对提取

时要指出的是,着其实输入环节通过关系相关关键词进行过滤减小输入规模,能最有效地提高系统运行强度(机会跳过了含高特性提取在内的所有后续计算步骤),但该环节的过滤是以的话为单位,而非作用于抽取的候选实体对。来看一1个感情 关系提取的多人物示例:

半监督的学习法律法律法律依据 :该法律法律法律依据主要采用Bootstrapping进行关系抽取。对于要抽取的关系,该法律法律法律依据首先手工设定若干种子实例,怎么才能 让迭代地从数据从抽取关系对应的关系模板和更多的实例。无监督的学习法律法律法律依据 :该法律法律法律依据假设拥有相同语义关系的实体对拥有你这个的上下文信息。怎么才能 让还还可不后能 利用每个实体对对应上下文信息来代表该实体对的语义关系,并对所有实体对的语义关系进行聚类。

你这个种生活法律法律法律依据中,有监督学习法机会都都还还可不后能 抽取并有效利用特性,在获得高准确率和高召回率方面更有优势,是目前业界应用最广泛的一类法律法律法律依据。



在DeepDive系统中,远程监督的wrong label problem还还可不后能 依靠合理编写的启发式规则得到一定程度的纠正。观察感情 关系的wrong label样例,亲戚亲戚许多人发现较大比例的wrong label是夫妻实体以一种生活合作形式(如合作演出、合作演唱、合作著书等)共现在一1个的话中,夫妻实体有一1个突然出现在书名号中时,也容易所处误判。你这个:

为了不断提升搜索体验,神马搜索的知识图谱与应用团队,突然在不断探索和完善图谱的构建技术。其中,开放信息抽取(Open Information Extraction),或称通用信息抽取,旨在从大规模无特性的自然语言文本中抽取特性化信息。它是知识图谱数据构建的核心技术之一,决定了知识图谱可持续扩增的能力。

正负样本的标注还还还可不后能 通过用户编写启发式规则来实现。以抽取感情 关系为例,还还可不后能 定义如下规则:

现有的关系抽取技术主要可分为一种生活 :

通过数据标注得到训练集后,在学习与推理阶段,Deepdive主要通过基于因子图模型的推理,学习特性的权重,并最终得到对候选三元组为真的概率预测值。

NLP标注是数据避免的一1个重要环节。DeepDive自带的Stanford CoreNLP工具主怎么才能 让针对英文的避免,而在知识图谱的应用中,主要的避免需求是针对中文的。怎么才能 让,亲戚亲戚许多人开发了中文NLP标注的内部流程来取代CoreNLP,主要变动如下:

为了减小 the wrong label problem 的影响,学术界陆续提出了多种改进算法,主要包括:

学习与推理过程耗时约38m150s。亲戚亲戚许多人随机截取了部分知识图谱未收录的预测实体对的输出结果展示如下:

具体的主语补充实例和避免过程举你这个下:

在数据避免流程中,DeepDive首先接收用户的输入数据,通常是自然语言文本,以的话为单位进行切分。一起去自动生成文本id和每个的话在文本中的index。doc_id + sentence_index 构成了每个的话的全局唯一标识。

根据时要抽取的实体类型和NER结果,首先对实体mentions进行定位和提取,而后根据一定的配对规则生成候选实体对。时要有点硬注意,在DeepDive中,每一1个实体mention的标定都有全局唯一的,由doc_id、sentence_index以及该mention在的话中的起始和现在开始了了英语 位置一起去标识。怎么才能 让,不同位置突然出现的同名的实体对(E1,E2)将拥有不同的(E1_id,E2_id),最终的预测结果也将不同。

1、 远程监督

对系统预测的错误样例进行分析,亲戚亲戚许多人总结了几种错误类型,下表按照突然出现频率从高到低,给出了错误描述和错误示例:

为了打破有监督学习中人工数据标注的局限性,Mintz等人提出了远程监督(Distant Supervision)算法,该算法的核心思想是将文本与大规模知识图谱进行实体对齐,利用知识图谱已有的实体间关系对文本进行标注。远程监督基于的基本假设是:机会从知识图谱中可获取三元组R(E1,E2)(注:R代表关系,E1、E2代表一1个实体),且E1和E2共现与的话S中,则S表达了E1和E2间的关系R,标注为训练正例。

“神马搜索”界面

远程监督算法利用知识图谱的已有信息,使得有监督学习中所需的大规模文本标注成为机会。一方面,远程监督在很大程度上提升了有监督学习关系抽取的规模和准确率,为大规模的知识图谱数据构建和补充提供了机会;我本人所有面,远程监督对现有知识图谱的数据和规模有较强的依赖,充足的标注数据对机器学习能力的提升有很大帮助。为了充分利用知识图谱规模和远程监督学习一种生活相辅相成的特性,在神马知识图谱的现阶段数据构建业务中,亲戚亲戚许多人采用了以图谱现有的大规模实体与关系数据为依托,以远程监督算法为工具的关系抽取技术。

基于DeepDive的关系抽取研究目前已较为完整版,并机会在神马知识图谱的构建业务中落地。目前在数据构建中的应用涉及人物、历史、组织机构、图书、影视等多个核心领域,已抽取关系包括人物的父母、子女、兄弟姐妹、感情 、历史事件及人物的合称、图书的作者、影视作品的导演和演员、人物的毕业院校和就业单位等。以百科全量语料为例,每个关系抽取任务候选sentence集合的规模在150w至11150w,经改进算法过滤,输入规模在15w至150w之间,生成的候选实体对规模在150w至1150w之间。系统每轮迭代运行的时间在1小时至8小时之间,约经过3-4轮迭代可产出准确率和召回率都较高的数据给运营审核环节。系统运行至今,已累计产出候选三元组近3千万。