基于HITS算法对Web数据挖掘技术改进研究_论文

骞l 匐 匕 、       基 于H T 算 法 对We 数 据 挖 掘 技 术 改 进 研 究  IS b The i p o em entr e c   fw eb da a  i n  ech  m r v  es ar h o     t m ni g t nol y b ed on t e H I og   as     h   TS  g ihm   al ort 李 学 国 ,钱 能 ,冯 刚 ,蔡冬 玲  L  e g o Q I   I Xu — u , AN Nen FE g, NG  n , Ga g CAI n —n     Do g l g i ( 重庆科创职业学院 ,重庆 4 2 6 ) 0 1 0  摘 要 : We 是一个 巨大 的信息资源库 ,在信 息爆炸而知识缺 乏下 ,如何从 We 中挖 掘有用的知识 , b b   已经成 为 目前数据 挖掘的热 点 。HT 算法 是进 行权威 面页 挖掘 的一种最权 威 、最广 泛的算  IS 法。为了有效进行 数据挖掘 ,文章 在分析 了传统 的HT 算法基础 之上 ,提 出采 用基本集缩减  IS 法对HT 算法进行 改进过程 ,通过实验得到 了更快 ,更准确的We 数据挖掘。 IS b   关键词 : We 数据挖掘 ;HT 算法 ;基本集缩减  b IS 中图分 类号 :T 3 1 6 P 0 .  文献标识码 :A   D i 1 .9 9 jis . 0 9 1 4 2 1 . ( ) 5   o :   3 6 / . n 1 0 -0 3 . 0 1 3 下 . 6 0 s     文章编号 :1 0 — 14 2 1 ) ( 一O 6 一 3   9 0  ( 0  3 下) 1 7 O  0 3 1   0 引言  We b是一 个 巨大 的信 息资 源库 , 已经 成 为 巨  大 的 全球 分 布 式 信 息 服 务 中心 ,在 信 息 爆 炸 而 知  识 缺 乏下 ,如何 从 We b中挖 掘 有用 的 知 识 ,已经  成 为 目前 数 据 挖 掘 的热 点 。We b数 据 挖 掘 是从 大  量 的 We b文档 集 合和 用 户浏 览 We b的数 据信 息 中  发现 未 知 的 ,有 潜 在 应 用 价值 的模 式 。将 传 统 的  数 据 挖掘 技 术和 We b结 合起 来 ,对 We b进行 数 据  保 留了访 问 日志 ( bAces o ) We  cs  g ,记录 了关 于 用  L 户访 问 和交互 的信 息 ,分 析这 些数据 可 以帮助理 解  用户的 行为 ,从 而 改进站 点 的结构 。其 主 要应用在  对访 问模 式的追 踪和个 性化 的使用 记录追 踪 。   2 HIS   T 算法  HI S ( p r n   d cd o i S ac ) 法是  T Hy el k n u e   pc erh 算 i I T   由 J K en eg于 9 . lib r M. 0年 代 末 提 出 的 We b页 面 链  接 结构 进 行 权威 面 页挖 掘 的一 种 最 权 威 、最 广 泛  挖掘 成 为 解 决 这 一 问题 的重 要 途 径 。 而 在对 各 种  对 网页 进 行 链 接分 析 并 提取 主题 的算 法 中 ,HI S T  算法是 一种 最权 威的算 法 。   的算 法 。 目前被 许 多 高性 能 的搜 索 引擎 广泛 使 用 。   其基 本 思 想 是利 用 页面 之 间的 引 用 链 来 挖掘 隐 含  在其 中的 有用 信 息 ( 如权 威 性 ) ,具 有 计算 简单 且  效率 高 的 特点 。H T I S算 法 通过 两 个 评价 权 值— —  1 We 数 据 挖 掘    b We b数 据 挖 掘 ,就 是 将 数 据 挖 掘 技 术 应 用 在  内 容 权 威 度 ( uh ry A toi )和 链 接 权 威 度 ( b t Hu )来  对 网 页质量 进行 评估 。   We b上 ,从 大量 类 型 丰 富 的 We b数 据 中挖 掘 隐含  知 识的过程 。We b数 据挖掘 分三 类 :内容 挖掘 、结  构 挖 掘和 使 用 模 式挖 掘 。 内容 挖 掘 是从 We b文 档  内容信 息 中抽取 知识 ,主要 有对文 本文档 挖掘 和多  媒体文 档 的挖 掘 , b内容 挖掘可 以采用 两种 策略 : We   其 算法 如下 :   1 将 查 询 q提 交给 传 统 的基 于关 键 字 匹 配 的  ) 搜 索 引擎 。搜 索 引 擎 返 回很 多 网 页 ,从 中取 前 n   个 网 页作 为 根 集 ( o e) r t t,用 S表 示 ,其 要 满 足  o s 直接 挖 掘文 档 内容 和在 其 它搜 索基 础 上 进行 改进 。   如下 3个 条件 :   S中网页数 量 相对较 小 ;   We b内 容 挖 掘 主 要应 用在 个 性 化 的 信 息 服 务 系 统  中,在 如何构 建个性 化 的用户模 型方 面大 量采用 了  S中网 页大 多数 是 与查询 q相关 的 网页 ;   s中网页 包含 较 多的权威 网页 。   2 通 过 向 S中加 入 被 S引 用 的 网 页 和 引 用 s )   的网 页将 S扩 展 成一个 更大 的 集合 T。   We b内 容 挖 掘 的技 术。We b结 构 挖 掘 是 从 Www  的组织 结构和 链接关 系 中推 导知 识 。由于文 档之 间  互 连 ,能 够提供 出文 档 内容 之外 的有用 信息 ,利 用  这 些 信 息 ,可 以对 页 面 进 行 排 序 , 发现 重 要 的 页  面 。We b使 用模 式挖 掘 主 要 目标

相关文档

基于Web链接分析的HITS算法研究与改进
基于免疫算法的Web数据挖掘技术的研究
基于Web结构挖掘的HITS算法分析及改进
基于Web结构数据挖掘技术的数学方法
面向Web的数据挖掘技术在网站优化中的个性化推荐方法的研究与应用
改进WEB数据挖掘方法及其在个性化推荐中的应用
基于Web的数据挖掘方法的研究及实现
基本web数据挖掘中的聚类算法研究
基于改进BP神经网络算法的数据挖掘技术的研究
数据挖掘技术探讨及其基于web的应用研究
电脑版