新闻动态
NEWS
80% 的企业采用半自动化构建知识图谱,全自动化什么时候实现?
作者 | AI前线 刘燕
AI 技术的发展和大数据时代的到来令知识图谱的自动化构建成为可能,尽管现阶段还面临着一些挑战,但已有不少企业在积极探索和尝试自动化构建技术。近日,AI 前线采访了来自国双数据科学团队和多位行业专家,他们分享了实现大规模自动化知识图谱建设的技术与应用实践。
以下是文章重要观点节选:
人工构建还是机器构建?
最近几年,随着AI技术的发展和大数据时代的到来,知识图谱的自动化构建成为可能,从构建技术看,它经历了由人工构建到群体智慧构建到自动获取、构建的过程。自动化构建知识图谱的特点是面向互联网的大规模、开放、异构环境,利用机器学习和信息抽取技术自动获取互联网上的信息。
人工构建和自动化构建各有优缺点。人工构建图谱耗时耗力,构建出的图谱规模较小。知识图谱发挥作用需要依靠规模效应,如果单纯依靠人工构建,容易陷入此前专家系统的瓶颈,导致实用能力有限,无法发展起来。而自动化构建处理速度快,可以减少人工、时间、成本,更适应大数据时代的应用要求。
不过以目前的技术水平,自动化构建的准确率还低于人工,一般情况下减少人工会导致准确性下降。在一些结构化不强,需要人工理解才能判断的场景,如果缺少人工参与,将会影响知识图谱的质量。
在知识图谱构建的主流技术路线中,人工对于其中几个环节仍不可或缺。如在从结构化、半结构化数据映射为知识图谱的工作中,主要工作量在于工程师梳理映射逻辑和开发映射规则,然后机器去批量化的自动执行;在从非结构化文本中自动抽取本体的工作中,自动化程度较高,在标注训练数据集上,准确度往往难以保证商用,仍需人工校验。
国双数据科学团队负责人表示,现阶段要兼顾效率和精度,最合理的方式是半自动化结合人工。目前业内构建知识图谱很少见纯人工和全自动方法,采用的主流方式是半自动结合人工方式,约占 80% 以上。
半自动结合人工方式操作的流程是,前期借助人工标注适量数据,训练模型自动化抽取,最后由人工进行审核或验证。
目前商业化的知识图谱,均有部分自动化构建能力,实现动辄千万甚至上亿数据规模的知识图谱。一般手工部分出现在知识图谱构建早期(冷启动),随着图谱规模的扩大,依据知识推理和机器学习,自动化程度会逐渐提升。后期的知识图谱自动更新主要集中在动态更新实体数据、发现新的实体,从新入库的各类原始数据中获取新的知识等环节。
国双认为,在一些垂直的有限领域如司法等可能将在未来 2~3 年实现可自动更新实体数据的知识图谱体系。
如何实现大规模自动化的知识图谱构建
知识图谱自动化构建流程与技术
尽管实现全面自动化构建知识图谱还有很长的一段路要走,但已有不少企业在积极探索降低人工参与度,提升自动化构建水平,如国双通过自研的知识抽取算法设计平台完成知识抽取流程设计。
这里以国双为例,说明知识图谱自动化构建的方法。
自动化构建流程主要包括本体创建 –> 数据标注 –> 模型训练 –> 知识抽取 –> 知识融合 –> 知识推理 –> 知识更新等环节。具体来看:
数据标注和模型训练环节,通过知识抽取算法设计平台完成;
在知识抽取环节,以相对复杂的非结构化知识抽取为例,国双运用的技术是将标注数据清洗扩增,使用基于 Encoder 和 Decoder 的端到端三元组联合抽取模型进行知识抽取。针对没有标注数据的冷启动知识抽取需求,构建了一套利用依存句法分析算法实现无监督情况下抽取三元组的系统。
在知识融合环节,国双构建了一套结合传统字符串相似度和图卷积网络的融合系统,将知识图谱经过 GCN 编码后得到表示向量,通过计算表示向量相似度和实体的字符串相似度,并结合 Sieve 模式高效筛选出融合结果。
在知识推理环节,在基于规则和基于算法的知识推理方面做了一些尝试,例如通过业务本体框架中的相关约束来做相关推理。
在知识更新环节,使用知识抽取实验平台把新的增量数据去重新训练模型,且依靠知识抽取算法 API 来实现自动的知识更新。
构建挑战
知识图谱在构建过程中面临着诸多挑战。
其中,知识图谱构建成本高昂、小样本的抽取和构建问题等,都是业界公认的难题。
对于小样本的抽取问题,在国双看来,从小样本中进行抽取,很难采用直接数据驱动的方式,一般需要借助知识来降低对数据的依赖。知识辅助的方式有两种,一种是人工将知识写入系统,即规则编码等方式;另一种是机器进行知识推理,也就是基于背景知识进行概率推理,这个方法在消歧或实体链接、关系预测上经常使用。
人工构建一个知识图谱的成本是非常高的,降低成本从某种程度上可以说是构建过程的核心和关键。
国双认为,构建知识图谱的成本需要考虑三大因素:人,模型,数据。首先由人来创建正确有效的本体,标注少量数据;利用数据增强等方式来训练机器学习模型,再利用模型处理有标注和无标注数据;最后人工查验,在保证标注精度的情况下最大程度减少人工干预,最终实现控制成本、做大规模,同时保证知识图谱的质量。使用知识抽取算法设计平台,可以通过平台化的方式设计知识抽取流程,在设计过程中流程化地预估各个方案的预期结果和成本,最终通过科学决策选择性价比最好的方案。
应用实践
目前自动化构建的知识图谱主要运用在智能问答、智能推荐、语义搜索、网络行为动态分析等场景中。由于需要大量领域专家的干预,很多特定领域的知识图谱自动化构建的进展有些缓慢,尤其在一些小规模、应用场景复杂、专家知识密集的场景。
但知识图谱需要运用到广阔的业务场景里才能够发挥出它的真正价值。
一直以来,国双都在不断探索知识图谱在垂直行业的应用,从2016年开始在司法领域构建知识图谱,并逐步扩展到了营销领域和工业领域。其中,司法知识图谱是目前做到技术成熟度最高和规模最大的。
在构建这个知识图谱的过程中,由于知识来自于文书库、法律法规库和司法专业知识库等多个来源,存在知识重复和指代不明等问题,为了做到自动化、高质量地构建知识图谱,国双针对这些问题运用层次聚类和基于密度的聚类方法,实现了实体间的对齐和内部消歧,消歧的正确率达到 98%。
“知识图谱的构建是一个复杂的系统工程,不可能通过某一项技术适配所有场景。综合来看,解决这个问题需要以技术为基础,构建工具体系,然后面向场景进行系统设计”,国双数据科学团队负责人表示。
采访嘉宾介绍
国双数据科学团队,经历了五年多的发展目前成员共计 30 多人。所有成员均来自国内外一流大学,包括数据科学家、机器学习建模专家、计算机视觉专家、自然语言处理专家、语音工程专家等。目前数据科学应用主要服务能源、汽车、金融、快消、政府、司法等行业。