知识图谱技术路线

2023-05-16

知识图谱技术路线

  • 知识图谱
    • 知识表示
      • 含义
      • 分类
      • 表示学习
    • 构建模式
      • 架构
      • 分类
    • 知识建模
      • 开放型知识图谱
      • 领域知识图谱
      • 建模方法
    • 知识抽取
      • 结构化数据
      • 半结构化数据
      • 非/半结构化数据
    • 知识融合
      • 方法
      • 单图谱
      • 跨图谱
      • 工具
    • 知识存储
      • RDF三元组
      • 水平存储
      • 属性存储
      • 垂直分割
      • 图存储
    • 知识推理
      • 概念
      • 方法
      • 应用
    • 知识统计与图挖掘
      • 图查询检索
      • 图特征统计
      • 关联分析
      • 社团检测、搜索
      • 节点分类
      • 异常检测
      • 预测推理
      • 时序分析
    • 知识运维
      • 基于增量数据的知识运维
      • 图谱内容统计监控
      • 知识审核与修正
      • 知识版本管理
      • 知识安全管理
      • 知识容灾备份

知识图谱

知识表示

含义

  • 将知识用计算机可以理解的方式表示出来

分类

  • 符号逻辑

    • 命题逻辑
    • 谓词逻辑
    • 产生式表示
    • 框架和语义网络
  • 语义网

    • 是一种用图来表示知识的结构化方式

      • 属性图

        • 节点

        • 属性

          • 键值对,属性只能有一个值
        • 类型

          • 关系类型/边的名称
        • 标签

          • 节点的类型
      • W3C

        • 基于标签的半结构置标语言XML

        • 基于万维网资源语义元数据描述框架 RDF

          • 节点

          • 属性

            • 边也可称为属性(谓词),和属性指向的对象可以称为属性值,而所有属性值(文字或URI)都存储为节点
          • 类型

            • 节点使用rdf:type来链接到它的类型,另一个节点带有与其关联的附加信息
          • 标签

            • 标准谓词,所有节点均属于一个谓词
        • 基于描述逻辑的本体描述语言OWL

  • 链接数据

    • 利用语义网技术在网上发布数据
  • 知识图谱

    • 描述各种概念、实体及其之间的关系

      • 概念

        • 通常反映的是一组实体的种类或对象的类型,如人、动物、气候、组织机构等
      • 实体

        • 是指客观世界中存在的、具有可区别性的具体事物
      • 属性(值)

        • 是指某个实体具有的特征及参数,不同属性对应不同的边
      • 关系

        • 是指连接不同实体的“边”,描述概念、实体之间客观存在的关联,可以是组成关系、隶属关系、因果关系、推论关系、相近关系等

表示学习

  • 图嵌入(graph embedding)

    • 相似度计算
    • 链接预测/知识补全

构建模式

架构

  • 逻辑架构

    • 模式层

      • 模式层是知识图谱的逻辑基础和概念模型,通常采用本体库进行管理,引入本体是为了知识的复用和共享,涉及的本体包括概念、属性以及概念之间的关系,可以对知识结构进行描述
    • 数据层

      • 数据层是知识图谱的基础,是在模式层的规范和约束下,对本体库在实体层面的丰富和扩充。 数据层由一系列的事实组成,并以(实体⁃关系⁃实体) 或( 实体⁃属性⁃属性值)的三元组形式进行存储
  • 技术架构

    • 自底向上

      • 先构建数据层,再构建模式层
    • 自顶向下

      • 先构建模式层,再构建数据层

分类

  • 通用知识图谱

    • 数据来源:开源数据

    • 知识模型

      • 难以构建
    • 构建方式

      • 自底向上
    • 难点

      • 构建知识模型
  • 领域知识图谱

    • 数据来源:领域数据

    • 知识模型

      • 基于需求构建
    • 构建方式

      • 自顶向下
    • 难点

      • 数据一致性和准确性

知识建模

开放型知识图谱

  • 自底向上建模(对现有实体进行归纳,形成底层概念,逐步向上抽象成上层概念)

领域知识图谱

  • 自顶向下建模(由领域专家进行人工编制,从顶层概念进行定义本体,逐步细化)

建模方法

  • 手工建模

    • 步骤

      • 明确领域本体及任务
      • 模型复用
      • 列出本体涉及领域中的元素
      • 明确分类体系
      • 定义属性及关系
      • 定义约束条件
  • 半自动建模

    • 结构化数据

    • 半结构化数据

    • 非结构化数据

      • 序列标注+分类

知识抽取

结构化数据

  • D2R转换

    • ETL

    • 难点:复杂表数据的处理

  • 图映射

    • 难点:数据对齐

半结构化数据

  • 包装器

    • 利用有监督学习方法从已标注的训练数据中学习抽取的规则,然后,对相同模板的其他网页进行信息抽取

非/半结构化数据

  • 本体抽取

    • 无监督

      • 步骤

        • 生成候选短语
        • 计算统计特征
        • 质量评分
        • 排序输出
    • 有监督

      • 步骤

        • 生成候选短语
        • 统计特征计算+样本标注
        • 分类器学习
        • 质量评分
        • 排序输出
  • 实体抽取

    • 序列标注方法

      • IOB
      • BIOES
    • 命名实体识别(NER)

      • 基于规则的抽取方法

        • 字典
        • 模板
        • 正则表达式
      • 基于统计模型的方法

        • 最大熵(Maximum Entropy,ME)
        • 条件马尔可夫(Conditional Markov Model,CMM)
        • 隐马尔可夫(Hidden Markov Model,HMM)
        • 最大熵马尔可夫模型 (MEMM)
        • 条件随机场(ConditionalRandom Fields,CRF)
      • 基于深度学习的方法

        • 卷积神经网络 (CNN)
        • 递归神经网络 (RNN)
    • 工具

      • HanLP
      • CRF++
  • 关系抽取

    • 难点

      • 关系表达的隐含性
      • 关系的复杂性(二元或多元)
      • 语言的多样性
    • 限定域

      • 文本分类任务

        • 在一个或多个限定的领域内判别文本中所出现的实体指称之间是何种语义关系,且待判别的语义关系是预定义的
      • 人工模板

        • 基于规则的抽取方法
      • 机器学习

        • 基于特征工程的方法

          • 特征提取
          • 模型训练
          • 关系抽取
        • 基于核函数的方法

        • 基于神经网络的方法

          • 卷积神经网络 (CNN)
          • 递归神经网络 (RNN)
          • 注意力机制(ATTention mechanism,ATT)
          • 基于图卷积网络(Graph Convolutional Network,GCN)
          • 基 于 对 抗 训 练(Adversarial Training,AT)
          • 基 于 强 化 学 习(Reinforcement Learning,RL)
          • 实体-关系联合抽取(Joint Entity and Relation Extraction,JERE)
    • 开放域

      • 不需要预先定义关系,而是使用实体对上下文中的一些词语来描述实体之间的关系

        • TextRunner
        • Kylin
        • WOE
        • ReVerb
  • 属性抽取

    • 转换为关系抽取任务

知识融合

方法

  • Pipeline方法
  • Joint方法

单图谱

  • 数据预处理

    • 语法正规化
    • 数据正规化
  • 分块

    • 业务角度

      • 指定属性分块

        • 指定属性相同,则进行相似度计算
      • 根据关系分块

        • 指定关系相同,则进行相似度计算
    • 算法角度

      • 基于hash函数分块

        • 字符串前N个字
        • n-grams
      • 临近分块

        • Canopy聚类
  • 记录链接

    • 属性相似度

      • 无监督方法

        • 编辑距离

          • Levenstein
          • Wagner and Fisher
          • Edit Distance with Afine Gaps
        • 集合相似度

          • Jaccard系数
          • Dice系数
        • 向量相似度

          • TF-IDF
      • 有监督方法

        • 图嵌入
        • 二元分类器
    • 实体相似度

      • 聚合算法

        • 加权平均

        • 制定规则

          • 为每一个相似度分量设置阈值
      • 聚类算法

        • 层次聚类
        • kmeans
  • 真值发现

    • 通过冲突检测、真值推断等技术消除知识融合过程中的冲突,再对知识进行关联与合并,最终形成一个一致的结果

跨图谱

  • 数据预处理

  • 分块

  • 实体对齐

    • 概念

      • 判断两个实体是否为同一个,包括多源实体信息的合并和补充
    • 分类

      • 成对对齐
      • 集体对齐
    • 方法

      • 基于规则的方法

        • 严格规定属性的对齐规则,例如人物=姓名+生日,歌曲=歌名+演唱者,影视=作品名+导演等,然后把属性一一比较,在属性都相等匹配的条件下才认为是同一个实体
        • 好处是准确、高效;坏处是成本高、覆盖率低
      • 基于相似度模型的方法

        • 设定属性集合,利用相似度算法比较属性的相似性,也可以用文本相似性、分类模型等算法来比较
        • 好处是覆盖率较高;坏处是准确率较低
      • 基于图嵌入的方法

        • 挖掘语义特征然后运用深度匹配模型等机器学习的技术
        • 好处是覆盖面最广、准确率较高;坏处是通常缺少训练语料,过程也可能缺乏解释性、不可控等
  • 真值发现

工具

  • 本体对齐/匹配工具

    • Falcon-AO
  • 实体匹配工具

    • Dedupe
    • Limes
    • Silk
    • YAM++

知识存储

RDF三元组

  • 优点:简单直观,通用性好
  • 缺点:涉及关系的查询中存在自连接操作

水平存储

  • 优点:设计简单,能够高效查询面向某单个实体的属性值
  • 缺点:数据稀疏性;表的列数固定,该模式不适用于多属性的情况

属性存储

  • 优点:

    • 将属性重合度高的实体分成一类,每一类仍采用水平存储
  • 缺点:

    • 查询会涉及多表连接合并操作

垂直分割

  • 优点:

    • 以关系划分,将三元组重写为N张包含两列的表,N代表关系,两列分别代表实体和实体属性,该方式适用于实体在多个属性值的情况
  • 缺点:

    • 增加表的连接数量;增加数据更新难度

图存储

  • 邻接表
  • 邻接矩阵

知识推理

概念

知识推理是针对知识图谱中已有事实或关系的不完备性,挖掘或推断出未知或隐含的语义关系。一般而言,知识推理的对象可以为实体、关系和知识图谱的结构等

方法

  • 基于逻辑规则

    • 逻辑方法

      • 基于一阶谓词逻辑的推理
      • 基于描述逻辑的推理
    • 统计方法

      • 基于归纳逻辑编程的推理
      • 基于关联规则挖掘的推理
    • 图结构方法

      • 基于全局结构的推理
      • 引入局部结构的推理
  • 基于图嵌入

    • 张量分解方法

      • 通过特定技术将关系张量分解为多个矩阵,利用这些矩阵可以构造出知识图谱的一个低维嵌入表示
    • 距离模型

      • 将知识图谱中的每个关系看作从主体向量到客体向量的一个平移变换。通过最小化平移转化的误差,将知识图谱中的实体和关系类型映射到低维空间
    • 语义匹配模型

      • 通过设计基于相似度的目标函数,在低维向量空间匹配不同实体和关系类型的潜在语义,定义基于相似性的评分函数,度量一个关系三元组的合理性
  • 基于神经网络

    • 卷积神经网络

      • 基于实体文本描述的推理
      • 基于实体关系交互的推理
    • 循环神经网络

      • 基于知识路径语义的推理
      • 基于实体文本描述的推理
    • 图神经网络

      • 基于GCN的推理
      • 基于GAT的推理
    • 深度强化学习

应用

  • 智能搜索
  • 智能推荐
  • 智能问答

知识统计与图挖掘

图查询检索

  • 查询目标节点的n度关联方

  • 子图查询

    • 索引建立

      • 基于路径的索引
      • 基于子图的索引
    • 索引匹配

      • 筛选子图
    • 子图同构判定

      • Ullmann算法(也称枚举算法)
      • VF2算法
    • 近似子图查询

      • 基于语义的近似查询

图特征统计

  • 单主体图特征

    • 出度

    • 入度

    • 介度

      • 某节点桥接作用的重要性
    • 中心度

      • 某节点在当前子网中的重要性

关联分析

  • 路径查询

    • 一个节点到其他所有节点的最短路径

      • 迪杰特斯拉算法
    • 两个节点之间的最短路径

      • A*算法
    • 一个节点到多个其他目标节点的一般路径搜索

      • 广度优先搜索
      • 深度优先搜索
  • 距离计算

社团检测、搜索

  • louvain算法

节点分类

  • 对节点根据图特征或者关联属性特征进行分类

异常检测

  • 在全网内发现异常节点、异常子图子图模式

预测推理

  • 从已有知识图谱中预测推理新的关系和信息
  • 输出结果为新节点、新关系、新属性等信息

时序分析

  • 指对单一关系、事件做时序分析,或者对网络拓扑结构的变化做时序分析
  • 输出结果为时序异常、风险评分等

知识运维

基于增量数据的知识运维

  • 数据从消息队列导入图谱
  • 利用工作流引擎定时更新图谱

图谱内容统计监控

  • 知识图谱的规模和状况
  • 知识进行上传或者下载
  • 图谱运行中间产生的各种异常情况进行集中的展示、问题提醒等功能

知识审核与修正

  • 对新识别的实体、变更的实体属性、实体或关系冲突等,需要通过明确的列表的方式呈现并由有相关知识背景的专家来进行审核确认后方能入库,审核入库过程要有记录
  • 对已经构建好的知识图谱需要有可以直接增、删、改的途径
  • 构建和运维图谱的时候需要有套冲突检测以及多人协同编辑的功能

知识版本管理

  • 历史的知识版本进行作废或者回滚处理
  • 在新版本知识图谱上线出现问题情况下快速切换回原有版本

知识安全管理

知识容灾备份

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

知识图谱技术路线 的相关文章

  • Conda&&Pip 使用

    提示 xff1a 文章写完后 xff0c 目录可以自动生成 xff0c 如何生成可参考右边的帮助文档 目录 一 conda 配置环境 1 查看conda版本 2 升级conda版本 3 修改conda下载源渠道 4 conda删除追加的下载
  • IDEA2022.1创建maven项目,规避idea2022新建maven项目卡死,无反应问题

    idea 2022的新建项目和旧的不一样 选择maven archetype 输入 name xff08 项目名称 xff09 location xff08 项目文件路径 xff09 jdk 1 8 catalog xff1a 目录 xff
  • tightvnc绿色版,细数4款超好用的tightvnc绿色版

    在使用tightvnc软件时 xff0c 通常都希望能找到绿色版软件 xff0c 那大家知道有哪些tightvnc绿色版软件吗 xff1f 你所使用过的tightvnc绿色版软件又有哪些呢 xff1f 接下来让我们一起来看看那些超好用的ti
  • 修改 FTP 文件夹 权限 Linux

    cd 到根目录 1 例如FTP服务器根目录是aliRoot cd aliRoot 2 指定一个文件夹修改权限 xff1b 命令 xff1a chmod R 777 goodlist 现在 aliRoot goodlist 文件夹下就可以上传
  • Linux命令大全: mkdir命令 - 创建目录

    1 详解 mkdir命令是 make directories 的缩写 xff0c 用来创建目录 注意 xff1a 默认状态下 xff0c 如果要创建的目录已经存在 xff0c 则提示已存在 xff0c 而不会继续创建目录 所以在创建目录时
  • shell基础教程25: Shell字符串截取(最详细的教程,看完这篇可以弄懂整个原理)

    Shell 截取字符串通常有两种方式 xff1a 从指定位置开始截取和从指定字符 xff08 子字符串 xff09 开始截取 一 从指定位置开始截取 这种方式需要两个参数 xff1a 除了指定起始位置 xff0c 还需要截取长度 xff0c
  • Linux命令大全: nohup命令 – 后端运行程序

    nohup命令的全称为 no hang up xff0c 该命令可以将程序以忽略挂起信号的方式运行起来 xff0c 被运行的程序的输出信息将不会显示到终端 无论是否将 nohup 命令的输出重定向到终端 xff0c 输出都将附加到当前目录的
  • Linux命令大全: cat命令 – 在终端设备上显示文件内容

    1 详情 Linux系统中有很多个用于查看文件内容的命令 xff0c 每个命令又都有自己的特点 xff0c 比如这个cat命令就是用于查看内容较少的纯文本文件的 cat这个命令也很好记 xff0c 因为cat在英语中是 猫 的意思 xff0
  • Nginx安装报错:./configure: error: the HTTP gzip module requires the zlib library.

    错误信息 span class token punctuation span span class token operator span configure error the HTTP gzip module requires the
  • Nginx安装时:安装zlib1g-dev时提示“E: 无法定位软件包 zliblg-dev“的原因

    起因 安装zlig1g dev 依赖包时 xff1a sudo apt get install zliblg dev安装失败 发现 zlig1g dev中的第5个字母不是l xff0c 而是阿拉伯数字1 解决 输入sudo apt get
  • Nginx在Linux下常用的命令

    一 命令说明 选项说明 h帮助命令 v查看版本号 V查看版本号和配置选项 可用类查看已安装的所有模块 t测试配置文件是否正确 T测试nginx conf文件是否存在语法错误 q优雅停止nginx xff0c 有连接时会等连接请求完成再杀死w
  • ubuntu安装nginx与卸载

    一 安装nginx 1 前言 安装nginx 主要有2种方式 1 直接使用 sudo apt get install nginx 2 使用源码的形式安装 本次主要记录的是使用源码安装 2 下载nginx源码 a nginx官网下载地址 gt
  • ping不通Linux服务器怎么办?

    问题描述 xff1a ping是最常见的网络命令 xff0c 用来测试和远程机器是否连通的方法 我们常常会遇到一个问题 xff1a 无法ping一台远程主机 原因分析 xff1a ping不通远程机器 xff0c 最常见的原因有 xff1a
  • Nginx 学习 2: nginx进程模型

    一 概述 nginx有两类进程 xff0c 一类称为master进程 相当于管理进程 xff0c 另一类称为worker进程 xff08 实际工作进程 xff09 启动方式有两种 xff1a 单进程启动 xff1a 此时系统中仅有一个进程
  • nginx学习 3: Nginx 核心配置详解

    一 结构说明 说明 main 配置影响nginx全局的指令 一般有运行nginx服务器的用户组 xff0c nginx进程pid存放路径 xff0c 日志存放路径 xff0c 配置文件引入 xff0c 允许生成worker process数
  • Android中最佳实践@BindView代替繁琐的findViewById

    ButterKnife ButterKnife是一个专注于Android系统的View注入框架 以前总是要写很多findViewById来找到View对象 xff0c 有了ButterKnife可以很轻松的省去这些步骤 是大神JakeWha
  • 从零开始设计一款APP之Android设计规范篇

    一 基础概念 1 什么是DPI xff1f DPI xff08 Dots Per Inch xff09 xff1a 每英寸点数 xff0c 表示指屏幕密度 是测量空间点密度的单位 xff0c 最初应用于打印技术中 xff0c 它表示每英寸能
  • 从零开始做App 系列之项目立项+预估时间篇

    UI 设计师从零开始做一个App 要经历哪些流程 xff1f 这个系列的文章会为新手一一讲解 本篇会为你讲解如何做项目立项和项目预估时间 xff0c 实用高效 xff0c 新手来收 项目立项篇 如果你所在的是一个团队健全的公司 xff0c
  • 从零开始设计一款APP之如何做原型图

    这个系列的文章把整个设计过程的经验总结成文 xff0c 逐点分享 xff0c 上期是概述 43 立项 xff0c 这期聊聊低保真和高保真原型图的作用 处理工具和文件要求等 Low fi xff0c 即低保真原型图 xff0c 整个APP设计
  • 从零开始教你做高保真原型图+UI 设计规范

    Hi fi 输出 上篇文章提到 xff0c 在Hi fi阶段大概可以分为前期 中期和后期三个阶段 这篇文章就是对Hi fi阶段的详细解说 前期 前期的主要任务是hero screen xff08 主功能页面 xff09 的尝试设计 xff0

随机推荐