目录
Name Disambiguation in AMiner: Clustering, Maintenance, and Human in the Loop
本文通过结合全局和局部信息提出了一个全面的框架来解决名字消歧问题,并提出比传统基于 BIC 方法更好的端到端的簇大小估计方法。为提高准确性,加入反馈机制,与 GHOST 等目前集中最先进的方法相比,该方案有明显的性能提升。
1. 挑战
- 如何量化不同数据源中实体的相似性    - 可能没有重叠信息,需要设计一种量化规则
 
- 如何确定同名人数    - 现有方案通常预先指定
 
- 如何整合连续的数据    - 为确保作者经历,需要最小化作者职业生涯中的时间和文章间的间隔,保证其连续性
 
- 如何实现一个循环的系统    - 没有任何人为交互的消歧系统不够充实,利用人的反馈实现高的消歧准确性
 
2. 整体框架介绍
- 量化相似性    - 提出了一种结合全局度量和局部链接的学习算法,将每个实体投影到低维的公共空间,可直接计算其相似性
 
- 确定簇数    - 提出一种端到端的模型,使用递归神经网络直接估算簇数
 
- 结合人的参与    - 定义了来自用户/注释的6个潜在特征,将其结合到框架的不同组件中以改善消歧准确性
 
3. 相关研究
- 基于特征的方法    - 利用监督学习方法,基于文档特征向量学习每对文档间的距离函数
- Huang:首先使用块技术将具有相似名称的候选文档组合,然后通过 SVM 学习文档间距离,使用 DBSCAN 聚类文档
- Yoshida:提出两阶段聚类方法,在初次聚类后学习更好的特征
- Han:提出基于 SVM 和 Naive Bayes 的监督消歧方法
- Louppe:使用分类器学习每对的相似度并使用半监督层次聚类
 
- 基于链接的方法    - 利用来自邻居的拓扑和信息
 
