瑞丰国际备用网_瑞丰国际备用网深度好奇提出文档解析框架:面向对象的神经规划

中国围棋网2017年10月12日 09时10分18秒
62

原标题:专栏 | 深度好奇提出文档解析框架:面向对象的神经规划

机器之心专栏

作者:深度好奇R&D


深度好奇(DeeplyCurious.ai)近日在 arXiv 上发布的论文提出了一种基于神经符号智能(Neural-symbolic)的特定领域文本解析框架:Object-oriented Neural Programming(OONP)。


论文题目:用于文档理解的面向对象神经规划



论文链接:https://arxiv.org/pdf/1709.08853.pdf

该框架借用面向对象编程(OOP)的思想,利用解析出来的实体组成对象和对象间关系(如图 1),构成结构清晰的本体图。每个对象 (object) 都是一个类 (class) 的实例化,类的概念规定了其具有的内部属性、外部关系和可执行的操作,以及与其他对象的关系类型。如图 1 所示,左边为叙事文本,右边为经过 OONP 解析生成的本体图。图例中共包含三个类的对象,分别为事件、人物、物品。人物类有姓名、性别、年龄属性,同时与事件对象有嫌疑人、被害人等表征人物角色的外部链接;物品类有名称、数量、价值等属性,与事件对象有表征物品角色的外部链接;另事件类有事件类型、时间、地点等属性。


图 1. OONP 解析任务示意


下面我们拆解 OONP 框架并介绍其主要功能模块。如图 2 所示,OONP 由三部分组成,分别是主控模块阅读器(Reader)、表征文档的行间记忆(Inline Memory)模块、以及总结对之前文本的理解的携带记忆(Carry-on Memory)模块。


图 2. OONP 解析的基本框架


图 3. 阅读器的构成及信息流


OONP 解析器中基于神经网络的阅读器按照文本顺序读文档,同时不断丰富本体结构来增进对文档的理解。对于某个待解析的文档,OONP 首先将预处理之后的文档放入行间记忆模块,阅读器顺序读取行间记忆中符号表示和连续表示,结合携带记忆,产生各种操作来增加和丰富本体图,更新携带记忆模块。这些操作包含可微分操作(作用于对象记忆的连续部分和矩阵记忆)和离散操作(作用于对象记忆和行间记忆的符号部分)。这些连续和离散操作互相依赖,构成了彼此的输入,共同形成了图 3 中复杂而灵活的信息流。


下面我们着重讲解一下 OONP 的离散操作。阅读器的策略网络输出的离散操作序列是形成本体结构主要操作。该操作集合包括三类,依照顺序分别是「新增-指派」,「选择更新属性」,和「更新内容」。当然,「新增-指派」操作后,也可以没有后续操作(空操作)。「新增-指派」可转化为多分类问题,如果提到内容是第一次出现,则「新增」,如果是已经出现过的,只是重新提及,则「指派」。具体的决策依赖于阅读器在创建的临时对象(公式中的)与已存在对象之间的相似度。具体公式如下:

公式第一行代表临时对象和「新增」c 类的相似度,第二行表示临时对象和 c 类第 k 个对象的相似度,第三行代表与空操作的「相似度」。图 4 是对解析过程中的某个瞬间对上述匹配过程的形象化描述。


图 4.「新增-指派」操作中,临时对象与已存在对象之间相似性衡量示意,虚线表示「新增」,实线表示「指派」


通过上述的三种操作,OONP 解析器可以对复杂的文档进行结构化解析。下面的图 5 给出了一段短文本解析的示例:OONP 解析器做通过一个动作序列,逐步形成了包含六个对象和六条链接的本体结构。


图 5. OONP 解析器解析文档过程示意。假设在预处理阶段,汽车的描述已经被抽取。


作者在三个数据集上对模型的性能进行了实验。以公安报案数据为例,OONP 使用了如图 6 中列举的 action。

图 6. 公安报案数据中使用的 action


图 7 比较了 OONP 的不同实现:论文衡量模型性能用了四个指标,Assign Acc 表示预测对象「新增和指派」的正确率,Type Acc 表示预测对象属性的正确率,Ont Acc 表示单个样本解析的本体结构和标签 100% 重合的正确率,Ont Acc-95 表示单个样本解析的本体结构和标签 95% 重合的正确率。简单的 OONP 模型较以 Bi-LSTM 为基准模型有很大提升,具有丰富结构信息的 OONP(structured)则又有明显提升。而在 OONP(structured)的基础上,用强化学习来决定分类时机的模型 OONP(RL)则又进一步提高了效果。


图 7. 多个 OONP 模型的比较


作为总结,OONP 解析框架具有如下特点:


标签:瑞丰国际备用网,瑞丰国际备用网官网,瑞丰国际备用网娱乐

本文链接:http://www.weiqi.cc/developer/116764.html 转载请注明出处