一种高效的并行频繁集挖掘算法_论文

维普资讯 http://www.cqvip.com 1 第 3 卷  第 1 期  4 V L4 o 3   No. l 1  计 算 机 工 程  2 0 年 6月 08   J n  0 8 u e2 0   Co p t rEn i e r n   m u e   gn e i g ?软件 技术 与数 据库 ?   一 文章编号:1o-32( o n o5_3 文献 oo_48o8 —o5_o  2 ) _ 标识码:   A 中 国分类号: P1 T31   种 高效 的并行 频繁 集挖 掘 算法  张 诤  ,王意 文  (.北京航空航天大学 系统工程 系,北京 10 8 ;2 甘肃省委党校 网络 中心 ,兰州 7 0 7 ) 1 00 3 . 300   摘 要 :针对 A r r 算法在挖掘超大规模数据集 时存在 的效率低下 问题 ,在数据集分块和 事务数据库布 尔化 映射基础 上,提 出一种直接  pi i o 利用布尔矩阵 向量运算挖掘频繁集 的并行频繁集挖掘 算法(FM)仿真 实验分析表 明 , FM 算法 比 A o 算法的挖掘时 间缩短了近 9 %, PI 。 PI   r i 0   该方法可用于挖掘超大规模数据库 , 具有 良 的并行性 和可伸 缩性 。 好   关健词 :频繁集 ;关联规则 ; 并行 计算  Ef ce t r l l e u n  t m s t  i n   g rt m   i f in   Pa a l   q e t e e sM ni gAl o ih e Fr I ZHANG  Zhe g , W ANG  i n n  。 一 Hu — we   (. p. f ytm n ier g B in   iesyo Aeo at s n   t nuisBe ig10 8 ; 1De to  se E gnei , e igUnvri  f rnui   dAs o at , in  0 0 3  S n j t ca r c j 2 NewokCe tr P r   c o l f n s   r vn e L z o   3 0 0   . t r   n e, at S h o    y o Ga uP o ic , a h u7 0 7 ) n [ sr c]Ai n  tn fcet rbe o p o  lo tm  e  n gvr  red t ae ti pp r rsns  fce t aa e Feu n  Abtat miga  ef i   o l f r r a rh whnm i  eyl g aa s,hs a e  ee ta ef i  r l l rq e t i i np m  A i i g i i n a b   p   n i n P l  I mst nn  g rh P I b sdo  aaaedvdn   dc mp t go o la  t xma pdfo o gn  aa ae E pr na  sl   e t e  iga o tm(FM) ae ndtb s iiiga  o ui  f o n mar   p e  m r ia d t s. x e me tleut Mi l i n n B e i r i l b i r s s w h tP M   g rtm  u sd wn nn t  ec n  nn  i   fAp o ,S  ti ui be f rm n g v r  ag   ie d tb s  d i h sg o   ho ta  FI a o i l h c t  o   iey p r e tmi ig t me o   r r O i ss t l o  i i   a i i   e l e sz   aa a ea  t a  o d n y r n   c aa trsi  fp all de pa d bl. h ce t o  a l    x n a e  r i cs r ea n [ ywo d ]feu n e e;so it nrl; aall o uig Ke   r s rq e ttmstascai   e p l   mp t   i o u r ec n 1 概 述  关联规则挖掘作为数据挖掘 的一个重要研究分支 ,主要  研 究从大型数据集 中发现 隐藏 的、有趣 的、属性 间存在 的规  持计数 时, 其扫描 的事务空 间和项 目空间 的大小始终不变 的,   这使一部分 时间浪费在不必要扫描 的空 间上 。   3 相关概念定义  设 D是事务数据库 ,;I,2 I } 事务数据库 D中 I{ /, n为 1 …,   m个不 同项 目组成的集合 , {1 , r } 事务数据库 D     , …, n是     中的事务集合 ,其 中,每个事务 巧都有 唯一标识 T 。 i  d 定义 1设  是事务集 , 是项集 ,TI , x 称为集合  和 ,   的关系乘积 。   一 律。发现频繁项 目 集是关联规则挖掘中的关键技术和步骤。   文 献[ 提出 了挖掘数据库 中频 繁项 目 的经典 A r r算法 , 1 】 集 pi i o   其核 心是基于频集理论 的递推方法 。 p oi A r r算法 的不足是需  i 要对事务数据库进行 多次扫描 ,候选项 目 集数量 多,内存利  用率低 ,系统 的 I / O开销大 ,以致影响挖掘效率 。   目前 , 众多学者针对 A r r算法的不足提 出了许 多较好  pi i o 的改进 或扩展 方法 ,如 D P 方法 J H 、频 繁 闭项集 法 『、 3  】 F — rw h算法 、闭包项集格  、T AR算法 等。尽管这  PG o t J B 定义 2 关系乘 积的任一子集都是从集合  到集合 , 上的 

相关文档

一种高效用项集并行挖掘算法
一种有效的并行频繁项集挖掘算法
海量文本数据库中的高效并行频繁项集挖掘方法
稀疏数据源频繁模式挖掘并行算法
一种稳定的并行分布式频繁集挖掘算法及其应用
一种快速挖掘模糊频繁项集的方法
一种快速挖掘频繁项集算法的研究
一种快速的频繁项集挖掘算法
频繁情景并行挖掘算法研究
数据流频繁项集的快速挖掘方法
电脑版