知识图谱的表示方式·

​ 知识图谱的常用表示方式为三元组,即 G(E,R,S)G∈(E,R,S),其中 E={e1e2e3e4...eE}E=\{e_1,e_2,e_3,e_4...e_{|E|}\}是知识库的集合,共包含 E|E| 中不同的实体;是知识R={r1r2r3r4...rR}R=\{r_1,r_2,r_3,r_4...r_{|R|}\}库的关系集合,共包含 R|R| 种不同的关系,SE×R×ES⊆E×R×E, 代表知识库中的三元组集合。组成三元组的三元素包括 {实体,关系,属性}。 例如:{邓超,夫妻,孙俪}、{董卿,职业,主持人} 等,其中具体概念如下:

  • 实体:知识图谱中最基本的元素,通过抽象客观个体,指代客观存在并可相互区别的事物,例如:一杯水、一封情书、一篇文章都可以看作实体,也可以是抽象的概念之间的联系,如一封邮件和一个文件的附件关系、两篇文章的引用关系等。
  • 关系:描述两个实体之间的某种联系。在知识图谱中,边表示关系,用来表示不同实体间的某种联系。如中国与北京的关系、华盛顿与178平方公里的关系、日本与1.26亿的关系。
  • 属性:知识图谱中的实体和关系都可以有各自的属性。

知识图谱构建技术·

(一)命名实体识别NER·

​ 从原始文本中识别有意义的实体或实体指代项,这个过程成为命名实体识别。即在原始文本信息中提取出命名实体,并将其划分到所属的实体类别中。实体类别有很多,包括时间、地点、人物、组织机构等。例如“2022年冬奥会将在北京举办”,其中2022年是时间类别;冬奥会是事件类别;北京是地点类别。由此可见,实体命名识别是自然语言处理的基础。

研究进展:

1、基于字典和规则的方法

2、基于传统机器学习的方法

​ 在传统机器学习中,命名实体识别被认为是一种序列标注问题。所谓序列标注问题,就是对于一组一维的输入序列,对其中每个元素打上标签集合中的标签,本质上是对序列中每个元素根据上下文进行分类。在命名实体识别上,隐马尔可夫模型(HMM)、最大熵(ME)、最大熵马尔可夫模型(MEMM)、支持向量机(SVM)、条件随机场(CRF)等传统机器学习方法效果良好。

3、基于深度学习的方法

​ 随着深度学习的不断发展,命名实体识别的研究逐渐转向了深度神经网络,这项技术几乎不需要特诊工程和领域知识。LSTM、GRU等深度学习技术具备从数据中自动学习知识的能力,都可以很好的识别新实体。

实体标注:

BIO标注,全称为Begin, Inside, Outside

  1. B-标签:表示当前词是某个实体的开始。例如,在句子“我爱北京天安门”中,“北京”前的标签为B-LOC(地点)。
  2. I-标签:表示当前词是某个实体的内部,即该词是某个实体的组成部分。继续上面的例子,“天安门”前的标签为I-LOC(地点)。
  3. O-标签:表示当前词不属于任何实体,即该词不属于任何实体的组成部分。例如,“爱”前的标签为O(无实体)。通过使用BIO标注体系,我们可以清晰地识别出文本中的各个实体,并对它们进行分类。这对于诸如信息抽取、问答系统等任务至关重要。

BMEO

(二)关系抽取·

​ 关系抽取是知识图谱构建过程中的关键环节,它可以提取并判定文本中两个实体间所存在的关联关系。通过关系抽取,我们可以从无结构的文本中提取出统一格式的实体关系,形成有结构的关系数据,方便处理海量的自然语言文本数据。例如:“哈尔滨工业大学校长王树国荣获法国荣誉勋章”这句话中存在两个实体关系,一是(王树国,哈尔滨工业大学,校长),二是(王树国,法国荣誉勋章,荣获)。

关系抽取的任务分类:

1、如果给定了关系集合,即已知了训练集中存在的所有实体关系,那么关系抽取可看作为关系分类问题,就是把一个实体对划分到他们所属的关系中。

2、如果没有预先给定关系集合,那么此时就是开放关系抽取问题,直接从文本中提取出结构化的实体关系。

(三)实体链接(Entity Linking)·

​ 实体链接是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。实体链接的基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。​ 实体链接的一般流程是:1)从文本中通过实体抽取得到实体指称项;2)进行实体消歧和共指消解,判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义;3)在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体。

(四)实体对齐·

​ 实体对齐(Entity Alignment)也被称作实体匹配(Entity Matching),是指对于异构数据源知识库中的各个实体,找出属于现实世界中的同一实体。随着中文网络百科的不断完善,可以从网络百科页面抽取出实体,并对不同来源的实体进行对齐,构建高质量的中文异构百科RDF知识库。

实体对齐常用的方法:

​ 1)等价关系推理:利用实体的属性和关系信息判定不同源实体是否可进行对齐。

​ 2)相似度计算:利用属性相似性或语义相似性计算实体之间的相似度,高相似度的实体被认为对应。

​ 3)基于表示学习的实体对齐方法:采用嵌入式(embedding-based)技术,通过将知识图谱中的实体映射到低维向量空间,从而实现对实体间相似度的数学表达。优势在于降低了计算的复杂度,同时提高了对齐任务的效率。

参考:

知识图谱(knowledge graph)——概述-CSDN博客