【摘要】为了提高数据集中相似重复记录的检测效率,提m -种基于属性权值的分组聚类算法。该方法在记录集中选取特征属性,通过设定的权值对记录进行聚类,在形成的数据子集中进行字段匹配和记录匹配,来识别相似重复记录,并给jLIJ了相关算法。实验表明,该方法能减少字段的匹配次数和记录的匹配范围,节省运行时间,具有较高的查全率和查准率。
【关键词】
《宁波职业技术学院学报》 2015-09-28
《宁波职业技术学院学报》 2015-09-28
《宁波职业技术学院学报》 2015-09-28
《宁波职业技术学院学报》 2015-09-28
《科技经济导刊》 2015-09-30
《科技资讯》 2015-09-29
《科技经济导刊》 2015-09-29
《科技资讯》 2015-09-29
Copyright © 2013-2016 ZJHJ Corporation,All Rights Reserved
发表评论
登录后发表评论 (已发布 0条)点亮你的头像 秀出你的观点