如何用map qtl6 构建国内知识图谱构建工具

本文转载自公众号:恒生技术之眼


◆本文根据2019恒生技术开放日肖仰华教授演讲整理

◆肖仰华:复旦大学教授、博士生导师,复旦大学知识工场实验室创始人

知识国内知识图谱构建工具(Knowledge Graph, KG)本质上是一种大规模语义网络,包含实体、概念及其之间的各类语义关系目前已经成为认知智能的基石,是发展囚工智能的核心技术它让机器语言认知、可解释人工智能成为可能,能够显著增强机器学习的能力将成为与数据驱动相并列的一种非瑺重要的解决问题的方式。

最近几年以知识国内知识图谱构建工具为代表的智能化技术正在触及越来越多领域,许多企业都已将人工智能升格为企业的核心战略目前在金融领域,知识国内知识图谱构建工具等人工智能技术也正在赋能越来越多的业务推动金融更加智能囮。

在金融知识国内知识图谱构建工具构建的早期探索中有人认为只有股票、期货、上市公司与金融密切相关。但是在实际应用中几乎万事万物在某种意义下都与金融相关,比如某地区突发一场龙卷风可能影响农作物产量,进而影响农业机械的出货量最终影响某家苼产农用发动机的上市公司股价。

类似这样的关联分析正是我们期望智能金融实现的,而这样的深度关联分析显然十分容易超出任何專家系统的预先设定的知识边界。因此某种意义上,知识是普遍关联的金融领域知识库的构建,也要面临与通用知识库相同的挑战

此外,需求多样、规模巨大、要支撑的业务系统很庞杂、企业能够投入的资源有限等问题在金融知识国内知识图谱构建工具的构建中也帶来了一定的挑战,尤其在数据方面一旦具体到某个特定金融场景,数据可能很稀疏并且分布不均匀,质量低下

不过,在金融领域數据不足的场景往往专家知识丰富,结构化数据不多的场景往往文本数据丰富,这些都是金融知识国内知识图谱构建工具的机遇再加上目前深度模型丰富,各种方法并存互联网上已经存在一些高质量国内知识图谱构建工具可以充分利用,都为国内知识图谱构建工具嘚构建提供了有利条件

金融KG的构建需要大规模自动化吗?

知识国内知识图谱构建工具源于传统知识工程在上世纪七十年代,传统知识笁程主要依赖专家去描述某个领域的本体通过人工的方式来完成知识的表达和获取。很显然现今金融场景的数据规模非常大,需要发展数据驱动的、自下而上的自动化方法来高效地实现国内知识图谱构建工具构建。

知识国内知识图谱构建工具的构建有三大关键要素:囚——整个知识国内知识图谱构建工具构建的发起者、是数据的标注者并且支持最终的验证;模型——现在大量采用的知识国内知识图譜构建工具构建方法,主要是机器学习的模型;数据——模型使用的是有标注数据或者无标注数据

大规模自动化知识国内知识图谱构建笁具的构建同样需要考虑到上述三要素,控制人力成本、实现大规模知识获取同时保证知识国内知识图谱构建工具的质量,构建足够普適、轻量、廉价的知识国内知识图谱构建工具根据目前学界的经验,可以参考以下一些基本原则

端到端模型优于流水线方案

所谓“端箌端”,就是从原始数据输入到任务结果输出整个训练和预测过程,都是在模型里完成的流水线(pipeline)技术是指在程序执行时多条指令偅叠进行操作的一种准并行处理实现技术,相对来说容易导致错误的传播和积累导致最后的准确率不佳。在准确率差不多的情况下可鉯优先考虑采用端到端的方案,降低特征工程的人工代价避免错误传播。

有海量数据时无监督方法更合适

无监督方法和有监督方法的選择是有条件的,在有海量数据的情况下无监督方法是比较合适的。近年来行业中发展了大量的无监督词汇挖掘方法尤其在实体识别方面,目前已有不错的效果融合多种统计特征是取得较好效果的关键,同时需要注意特征比模型重要。

任何一个领域的智能化往往嘟是从这个领域的词汇知识挖掘开始的,金融领域也应如此这跟人的学习类似,人去了解一个新的领域也是先学习这个领域的基本词彙,了解词汇的概念、上下位词、同意词、简称等让机器获取词汇知识,往往需要无监督的方法因为很多场景缺少标准数据,但是往往有充足的文本只要文本量足够大,通过使用无监督的办法可以高效、准确地挖掘出该领域的词汇

知识国内知识图谱构建工具的构建,除了从文本里挖或者从已有的关系表格里转换,还可以通过深挖用户的行为数据来构建诸如电商、搜索等场景,有丰富的用户行为數据这些搜索日志可以很好地帮助我们构建词汇之间的一些关系,比如搜索“Fintech”的人总是会点开金融科技相关的文档那么“Fintech”很有可能就是“金融科技”的同义词。

很多企业内部也有搜索平台对于知识国内知识图谱构建工具的构建同样具有价值。通过充分挖掘搜索日誌等用户行为数据挖掘词汇之间的关系,有助于知识国内知识图谱构建工具的构建

统计模型需与符号知识结合

相比于单一的统计模型,统计模型与符号知识相结合会更加有效金融领域有丰富的符号知识,例如专家规则等这些知识可以帮助提升统计模型的效果。例如茬给实体打标签的时候可以初步构造出一些约束,举个简单的例子如果xx是个人,他肯定不会是一本书;如果他是一名企业家他肯定昰个人物。这些约束的本质是符号化的知识充分利用先验知识构造各种约束,是有效提升模型效果的关键思路

符号知识还可以用来构慥注意力机制。现在注意力对于深度学习模型来说很重要简单地说就是打权重。比如在“她已经用苹果十年了”这句话中当我们给“蘋果”这个词打标签,“移动电话”的标签要比“水果”的标签合适利用符号知识去构造深度模型里面的注意力机制,有助于做到真正嘚知识引导使得效果更好。

间接知识引导优于直接数据驱动

深度学习模型本质上是直接数据驱动但在一些情况下,需要先从数据中去挖掘一些pattern再把pattern融合到深度模型中,会取得更好的效果有的人在做关系抽取的时候,会将其建模成关系分类但是事实上可以从语料中挖掘主题词增强输出描述,使用主题模型挖掘关系标签的相关主题词利用主题词增强关系标签描述,从而显著提升关系抽取的准确率

圖模型很普适,有非常强的表达能力并且可解释、可控,便于调整可解释性决定了人工智能系统的决策结果能否被人类采信。比如在金融领域的智能投资决策即便人工智能决策的准确超过90%,但是如果系统不能给出作出决策的理由投资经理或者用户恐怕也是十分犹豫嘚。

专家知识库可作为种子样本

在数据样本标注方面如果既有专家构建的知识体系,也有自动构建的知识体系利用专家构建的小规模知识体系作为数据驱动的种子样本,是有效降低人工标注的重要思路之一可以降低模型构建的代价。

此外对于实际落地来说,复合架構非常重要比如统计+规则可以有效解决样本分布不均匀给单一模型带来的挑战;众包化验证不可或缺,因为总有一些知识正确与否的验證是要交给人类自身的;在知识国内知识图谱构建工具的更新方面可以利用互联网热点来驱动国内知识图谱构建工具更新,因为只有互聯网上的热点实体其事实才有可能改变,冷门实体(例如秦始皇这种历史词条)一般不会发生变化


开放知识国内知识图谱构建工具(簡称 OpenKG)旨在促进中文知识国内知识图谱构建工具数据的开放与互联,促进知识国内知识图谱构建工具和语义技术的普及和广泛应用

点击閱读原文,进入 OpenKG 博客

阿里妹导读:知识国内知识图谱構建工具的构建技术主要有自顶向下和自底向上两种其中自顶向下构建是指借助百科类网站等结构化数据源,从高质量数据中提取本体囷模式信息加入到知识库里。而自底向上构建则是借助一定的技术手段,从公开采集的数据中提取出资源模式选择其中置信度较高嘚信息,加入到知识库中

在本文中,笔者主要想分享一下自底向上构建知识国内知识图谱构建工具的全过程抛砖引玉,欢迎大家交流

AI技术的发展和大数据时代的到来囹知识国内知识图谱构建工具的自动化构建成为可能尽管现阶段还面临着一些挑战,但已有不少企业在积极探索和尝试自动化构建技术近日,AI前线采访了来自明略科技和国双数据科学团队多位专家他们分享了实现大规模自动化知识国内知识图谱构建工具建设的技术与應用实践。

人工构建还是机器构建

知识国内知识图谱构建工具是新一代知识工程技术的代表,传统的知识工程重度依赖人工干预知识建模和获取主要从领域专家处获取专业知识。自2012年谷歌提出"知识国内知识图谱构建工具"的概念并运用到搜索引擎后知识国内知识图谱构建工具的构建技术与应用引起了学术界和工业界的广泛关注。

最近几年随着AI技术的发展和大数据时代的到来,知识国内知识图谱构建工具的自动化构建成为可能从构建技术看,它经历了由人工构建到群体智慧构建到自动获取、构建的过程自动化构建知识国内知识图谱構建工具的特点是面向互联网的大规模、开放、异构环境,利用机器学习和信息抽取技术自动获取互联网上的信息

明略科技科学院知识笁程实验室负责人张杰在接受AI前线采访时表示,对企业而言知识国内知识图谱构建工具的构建,如果自动化程度和准确度都能很高具囿两方面意义:

为企业拓展数据规模增加数据连接。知识国内知识图谱构建工具可以连接内部结构化数据、物联网数据、外部非结构化数據进而可能成为下一代企业管理数据的主流技术路线;

另一方面,提升数据的挖掘深度和利用效率以往多数企业做数据挖掘项目,都僅仅对静态数据做浅层加工得到标签然后再训练模型。以图结构为主的关系数据、以时空序列为主的动态数据并没有得到充分利用

人笁构建和自动化构建各有优缺点。人工构建国内知识图谱构建工具耗时耗力构建出的国内知识图谱构建工具规模较小。知识国内知识图譜构建工具发挥作用需要依靠规模效应如果单纯依靠人工构建,容易陷入此前专家系统的瓶颈导致实用能力有限,无法发展起来而洎动化构建处理速度快,可以减少人工、时间、成本更适应大数据时代的应用要求。

不过以目前的技术水平自动化构建的准确率还低於人工,一般情况下减少人工会导致准确性下降在一些结构化不强,需要人工理解才能判断的场景如果缺少人工参与,将会影响知识國内知识图谱构建工具的质量

在知识国内知识图谱构建工具构建的主流技术路线中,人工对于其中几个环节仍不可或缺如在从结构化、半结构化数据映射为知识国内知识图谱构建工具的工作中,主要工作量在于工程师梳理映射逻辑和开发映射规则然后机器去批量化的洎动执行;在从非结构化文本中自动抽取本体的工作中,自动化程度较高在标注训练数据集上,准确度往往难以保证商用仍需人工校驗。

国双数据科学团队负责人表示现阶段要兼顾效率和精度,最合理的方式是半自动化结合人工 目前业内构建知识国内知识图谱构建笁具很少见纯人工和全自动方法,采用的主流方式是半自动结合人工方式约占80%以上。

半自动结合人工方式操作的流程是前期借助人工標注适量数据,训练模型自动化抽取最后由人工进行审核或验证。

目前商业化的知识国内知识图谱构建工具均有部分自动化构建能力,实现动辄千万甚至上亿数据规模的知识国内知识图谱构建工具一般手工部分出现在知识国内知识图谱构建工具构建早期(冷启动),隨着国内知识图谱构建工具规模的扩大依据知识推理和机器学习,自动化程度会逐渐提升后期的知识国内知识图谱构建工具自动更新主要集中在动态更新实体数据、发现新的实体,从新入库的各类原始数据中获取新的知识等环节

现阶段,一定程度的人工参与加机器自動化的方式可能在相当长一段时间内会是主流国内知识图谱构建工具结构的定义依赖于具体应用场景和要解决的问题,需要人来定义囿些场景对数据质量要求极高,如公共安全、金融、医疗等领域做知识融合要通过人工校验来最大程度保证可靠性

张杰表示,如果一些場景的知识国内知识图谱构建工具可以满足商用要求( TO C 场景下准确率要到95%TO B场景下要更高),就可以全面交给机器来进行自动化构建他認为,To C场景下的检索、推荐应该会很快实现全面自动化,而To B场景下的推理、决策通往全面自动化还要很久。

国双认为在一些垂直的囿限领域如司法等可能将在未来2~3年实现可自动更新实体数据的知识国内知识图谱构建工具体系。

如何实现大规模自动化的知识国内知识图譜构建工具构建

知识国内知识图谱构建工具自动化构建流程与技术

尽管实现全面自动化构建知识国内知识图谱构建工具还有很长的一段路偠走但已有不少企业在积极探索降低人工参与度,提升自动化构建水平如明略科技推出了人类智能、机器智能、组织智能三位一体的HAO智能系统,国双通过自研的知识抽取算法设计平台完成知识抽取流程设计

这里以国双为例,说明知识国内知识图谱构建工具自动化构建嘚方法

数据标注和模型训练环节,通过知识抽取算法设计平台完成;

在知识抽取环节以相对复杂的非结构化知识抽取为例,国双运用嘚技术是将标注数据清洗扩增使用基于Encoder和Decoder的端到端三元组联合抽取模型进行知识抽取。针对没有标注数据的冷启动知识抽取需求构建叻一套利用依存句法分析算法实现无监督情况下抽取三元组的系统。

在知识融合环节国双构建了一套结合传统字符串相似度和图卷积网絡的融合系统,将知识国内知识图谱构建工具经过GCN编码后得到表示向量通过计算表示向量相似度和实体的字符串相似度,并结合Sieve模式高效筛选出融合结果

在知识推理环节,在基于规则和基于算法的知识推理方面做了一些尝试例如通过业务本体框架中的相关约束来做相關推理。

在知识更新环节使用知识抽取实验平台把新的增量数据去重新训练模型,且依靠知识抽取算法API来实现自动的知识更新

张杰表礻,知识国内知识图谱构建工具自动构建的过程中主要运用到了自然语言处理、小样本训练、领域迁移等关键的AI技术自动化构建知识国內知识图谱构建工具有四大技术重点:

如何自动化的从结构化数据库映射为知识国内知识图谱构建工具并做知识融合;如何通过小样本学習和领域知识迁移的技术减少人工标注成本;如何从非结构化文本中做篇章级的事件抽取和多事件关联;基于深度学习的知识表示在各个構建的环节的应用。

针对结构化和半结构化数据明略科技提出了HAO profiling技术,对来自不同数据源的结构化/半结构化数据进行汇聚、组织试图悝解数据,解决数据冗余、冲突等问题对数据进行标准化、连接,形成数据的知识国内知识图谱构建工具进行可视化展示,并以统一視图服务查询、计算等应用需要

针对非结构化数据,明略科技设计、开发了一套算法工具包:HAO国内知识图谱构建工具HAO国内知识图谱构建工具包括关系抽取、事件抽取、实体对齐、网络结构嵌入式表示、时空序列数据表示、国内知识图谱构建工具摘要、基于国内知识图谱構建工具的短文本生成等算法。

知识国内知识图谱构建工具在构建过程中面临着诸多挑战

张杰指出,自动化构建主要的技术挑战点有三項:信息丢失、信息冗余、信息重叠信息丢失是指应该抽取出来的信息没有抽全。信息冗余指在输入文本中不存在但在背景知识中存在嘚额外概念和关系信息重叠是指能否将原文中距离跨度较大的属性归结到正确的实体上,并对动态变化的属性进行适当存储

此外,知識国内知识图谱构建工具构建成本高昂小样本的抽取和构建问题,也是业界公认的难题

对于小样本的抽取问题,在国双看来从小样夲中进行抽取,很难采用直接数据驱动的方式一般需要借助知识来降低对数据的依赖。知识辅助的方式有两种一种是人工将知识写入系统,即规则编码等方式;另一种是机器进行知识推理也就是基于背景知识进行概率推理,这个方法在消歧或实体链接、关系预测上经瑺使用

人工构建一个知识国内知识图谱构建工具的成本是非常高的,降低成本从某种程度上可以说是构建过程的核心和关键明略科技囷国双分享了自己的解决方案:

明略科技认为,降成本需要做到行业经验复用和技术工具复用为此,在行业经验复用方面明略科技成竝了行业咨询团队,形成了面向行业的最佳实践和成功案例且投入到国家标准、行业标准、联盟标准的制定中。

技术工具复用方面明畧科技将技术体系(行业交付团队、技术部、科学院)的技术能力全集团范围内共享打通,科学院的成果会输出到技术部技术部形成公司级的产品组件,行业交付团队初次面对新行业时会做些定制化开发再次复用后会凝练为产品并回流到技术部。

国双认为构建知识国內知识图谱构建工具的成本需要考虑三大因素:人,模型数据。首先由人来创建正确有效的本体标注少量数据;利用数据增强等方式來训练机器学习模型,再利用模型处理有标注和无标注数据;最后人工查验在保证标注精度的情况下最大程度减少人工干预,最终实现控制成本、做大规模同时保证知识国内知识图谱构建工具的质量。使用知识抽取算法设计平台可以通过平台化的方式设计知识抽取流程,在设计过程中流程化地预估各个方案的预期结果和成本最终通过科学决策选择性价比最好的方案。

目前自动化构建的知识国内知识圖谱构建工具主要运用在智能问答、智能推荐、语义搜索、网络行为动态分析等场景中由于需要大量领域专家的干预,很多特定领域的知识国内知识图谱构建工具自动化构建的进展有些缓慢尤其在一些小规模、应用场景复杂、专家知识密集的场景。

但知识国内知识图谱構建工具需要运用到广阔的业务场景里才能够发挥出它的真正价值

据了解,明略科技一直在营销、公共安全、数字城市、工业、金融等領域探索自动化构建行业知识国内知识图谱构建工具明略科技的HAO智能系统在以人为本、人机协同的基础上,加入了面向行业应用、具体細分领域的 Organizational Intelligence

该系统中的结构化数据通用治理平台CONA(关联所有数据),可通过设置数据转换规则结合数据多值溯源和融合策略,自动完成標准化对标实现数据治理自动化,这能够大大提高行业知识国内知识图谱构建工具构建效率以公共安全领域实际数据治理为例,业务系统中近千张表传统方法和工具做国内知识图谱构建工具构建可能需要半年以上的时间,而CONA能够缩短到2周

张杰介绍,在协同推理方面明略科技采用专家规则加数据驱动的方式形成了行业因果国内知识图谱构建工具,以便于对未来事件的走向做预测这一技术今年有望應用在复杂度较高且客单价较高的行业中。

国双从2016年开始在司法领域构建知识国内知识图谱构建工具并逐步扩展到了营销领域和工业领域。其中司法知识国内知识图谱构建工具是目前做到技术成熟度最高和规模最大的。

在构建这个知识国内知识图谱构建工具的过程中甴于知识来自于文书库、法律法规库和司法专业知识库等多个来源,存在知识重复和指代不明等问题为了做到自动化、高质量地构建知識国内知识图谱构建工具,国双针对这些问题运用层次聚类和基于密度的聚类方法实现了实体间的对齐和内部消歧,消歧的正确率达到98%

“知识国内知识图谱构建工具的构建是一个复杂的系统工程,不可能通过某一项技术适配所有场景综合来看,解决这个问题需要以技術为基础构建工具体系,然后面向场景进行系统设计”国双数据科学团队负责人表示。

通过以上专家的分析可以预见的是,大规模知识国内知识图谱构建工具的自动化、高质量构建将成为重要的发展趋势

张杰认为,要实现上述目标至少需要三方面的能力:

算法把控能力:知道各类算法的适用场景和算法所能达到的上限大致在哪里,不盲从所谓的主流不迷信所谓的前沿,实际场景下有效的系统往往是多种技术方案共同作用的结果;

跨层并行能力:从原数据到国内知识图谱构建工具应用是个很长的链条并不是所有环节在处理大规模数据时都能够独立的做并行化处理,如何跨层做联合优化需要架构的设计者打通技术栈;

业务理解能力:技术人员要对所属行业和所媔临的场景需求要有很好的理解,才能在投入与产出之间做出良好的平衡

张杰,明略科技科学院知识工程实验室负责人天津大学本科、硕土、博士毕业,研究方向为机器学习、自然语言处理、知识工程发表学术论文十余篇,发明专利八十余项曾就职于华为诺亚方舟實验室,后作为联合创始人创办金融科技公司并任CTO曾主持搭建百科知识问答、对话机器人、推荐引擎、决策引擎、大数据风控等多项系統,累计创造商业价值数亿元

国双数据科学团队,经历了五年多的发展目前成员共计30多人所有成员均来自国内外一流大学,包括数据科学家、机器学习建模专家、计算机视觉专家、自然语言处理专家、语音工程专家等目前数据科学应用主要服务能源、汽车、金融、快消、政府、司法等行业。

我要回帖

更多关于 国内知识图谱构建工具 的文章

 

随机推荐