作者搜索
新闻
  10.5.5
C-DBLP系统正式发布作者研究兴趣及学术活动展示功能,请访问作者页面试用。
  09.7.6
C-DBLP的文献BibTex信息展示功能正式上线,请访问文章详细页面使用。
  09.7.29
C-DBLP系统新增同名区分功能,欢迎大家在作者页面试用。该功能部分使用了清华大学王建勇老师课题组提出的GHOST(GrapH-based framewOrk for name diStincTion)算法,在此表示感谢。
  09.6.2
C-DBLP系统集成了作者的相关图片并在搜索结果页面展示,敬请试用。
 
一种有效的挖掘数据流近似频繁项算法  BibTex
作者: 王伟平 李建中 张冬冬 郭龙江
单位: 哈尔滨工业大学计算机科学与技术学院;哈尔滨工业大学计算机科学与技术学院;哈尔滨工业大学计算机科学与技术学院;哈尔滨工业大学计算机科学与技术学院 黑龙江哈尔滨150001;黑龙江哈尔滨150001 黑龙江大学计算机科学与技术学院;黑龙江哈尔滨150080;黑龙江哈尔滨150001;黑龙江哈尔滨150001 黑龙江大学计算机科学与技术学院;黑龙江哈尔滨150080
关键词: 数据流;数据挖掘;频繁项;ε-近似
出处: 软件学报 2007 年 04期
基金: SupportedbytheKeyProgramoftheNationalNaturalScienceFoundationofChinaunderGrantNo.60533110(国家自然科学基金重点项目);theNationalNaturalScienceFoundationofChinaunderGrantNo.60473075(国家自然科学基金);theKeyProgramofNaturalScienceFoundationofHeilongjiangProvinceofChinaunderGran
全文链接: 查看全文>>
摘要:
  数据流频繁项是指在数据流中出现频率超出指定阈值的数据项.查找数据流频繁项在网络故障监测、流数据分析以及流数据挖掘等多个领域有着广泛的应用.在数据流模型下,算法只能一遍扫描数据,并且可用的存储空间远远小于数据流的规模,因此,挖掘出所有准确的数据流频繁项通常是不可能的.提出一种新的挖掘数据流近似频繁项的算法.该算法的空间复杂性为O(ε~(-1)),每个数据项的平均处理时间为O(1),输出结果的频率误差界限为ε(1-s+ε)N,在目前已有的同类算法中均为最优.
正文快照:
  数据流是一个按照时间递增顺序排列的无穷序列.近年来,很多应用都涉及到数据流.例如,传感器网络中的监测信号、互联网中传递的IP数据包、Web服务器上的用户点击记录、电信公司的通话记录等等.与传统的数据库不同,数据流中的数据是无限的,无法全部保存下来,并且数据流上的查询具
An Efficient Algorithm for Mining Approximate Frequent Item over Data Streams
Author: WANG Wei-Ping1+;LI Jian-Zhong1;2;ZHANG Dong-Dong1;GUO Long-Jiang1;2 1(School of Computer Science and Technology;Harbin Institute of Technology;Harbin 150001;China) 2(School of Computer Science and Technology;Heilongjiang University;Harbin 150080;China)
Keywords: data stream;data mining;frequent item;ε-approximate
Abstract:
 A frequent item of a data stream is a data point whose occurrence frequency is above a given threshold. Finding frequent item of data stream has wide applications in various fields, such as network traffic monitor, data stream OLAP and data stream mining, etc. In data stream model, the algorithm can only scan the data in one pass and the available memory space is very limited relative to the volume of a data stream, therefore it is usually unable to find all the accurate frequent items of a data stream. This paper proposes a novel algorithm to find ε-approximate frequent items of a data stream, its space complexity is O(ε~(-1)) and the processing time for each item is O(1) in average. Moreover, the frequency error bound of the results returned by the proposed algorithm is ε(1-s+ε)N. Among all the existed approaches, this method is the best.