一种改进的页面相似性度量方法_论文

C m ue n ier ga d p l ain 计算机 工程与应用  o p t E gn ei  n A pi t s r n c o 一 种改进 的页 面相 似性 度量 方法  霞  王建 东  顾 海花  , , 张 ZH AN G X i  W AN G Ja — o 。 G U H a- u   a, i n d ng , ih a 1 . 南京信 息职 业技 术学院 软 件学院 , 南京 2  4    06 1 0 2南京航空航天 大学 信息科 学与技术学院 , . 南京 2 0 1  10 6 1S f r  ol eNaj g C l g  fIfr t n T cn lg , nig 2 0 4 , hn   .ot e C l g , ni   ol eo noma o  eh oo y Naj   10 6 C ia wa e n e i n 2C l g  fIfr t n S i c  n   eh o g Naj g U iesy o  rn uisad As o at sNaj g 2 0 1 , hn   .ol e o nomai   ce e ad T cn l y, ni   nv ri   fAeo at   n   t n ui , ni   10 6C ia e o n o n t c r c n E ma : wag lnie o   - ij n. ol . r ld @j n c n ZH AN G  Xi W A NG  Ji n  a, a dong, U H a - G ihua?m pr ve e  o   i iart  m e ur  m e ho Com put r I o m nt f sm l iy as e t d? e  Eng ne rng nd  p。 i e i  a A   piain 。 0 0 4 ( 9 :4 — 4 . l t s 2 1 , 6 1 ) 1 11 4 c o   Ab t a t W e  i f r a i n ere a i o u  o   o t  s a c  o t t e o u e t s b e fo sr c : b no m to  r tiv l s  f c s n h w  o e r h u   h  d c m n s u s t r m a a g  c l c in f d c —  lr e o l t  o   o u   e o me t , ih s e e a t t   h  u e s q e yI   r e   o i d t e i lr d c me t ,h s a e   r s n s n i r v d meh d n s wh c  i  r lv n   o t e s r ’ u r . o d r t  f   h  smi   o u n s t i n n a  p p r p e e t a   mp o e   t o   o   a u e meh d   f we   n o a in r t e a . n   t i v rf d i   n me s r   t o s o   b i f r t   e i v 1 a d i S e i e   n KNN  l s i e s m o r     i casf r. i   Ke   r s y wo d :we   a e r tiv l smi rt t x   ls i c to   b p g   e e a;i l i r a y;e t ca sf a i n i 摘 要 : b信 息 检 索是 指 从 大 量 We 文 档 集合 中找 到 与 给 定 的 查 询 请 求相 关 的 、 当数 目的 文档 子 集 。 为 了更 准 确 地 找 到 相  We b 恰 似文档 , 借助 于两个 页面的单词覆盖 程度 , 出一种改进的 We 提 b页面检 索度量 方法 , 并在 KN 分类实验 中得到验证 。 N   关键词 : b页面检 索 ; We 相似性 ; 文本分类  D :03 7/i n10 —3 1 0 01 . 1 文章编号 :0 28 3 ( 0 0 1—1 1 4 文献 标识码 : OI1.7 8 ,s.0 28 3 . 1 . 0   js 2 94 10 —3 12 1 )90 4 —   0 A  中图分类号 :P 1 T 31   We 信 息检索是 指从大量 We 文 档的集合 C中找到与给  b b 定的查 询请求 印 相关 的 、 当数 目的文档 子集 ” 恰 。大致 步骤  为: 首先 , 接受规 范的用 户查 询并 以词典 库等为依据进 行分词  匹配 ; 接着 , 从索 引数据库 的倒排 表 中找 出与用户查询关 键词  该 相 似 度 函数 实 际 是两 向量 的 夹 角的 余 弦 函数 , 是  也 VS M文 本分 类 中常用 的度 量公式 : 两个 向 量越靠 近 , 则相 似  度数 值越 接近 1越 分开则越 接近 0 , 。它不考虑 向量的绝对 长  度, 着重从方 向上 考虑它们之间的关 系。如 图 l 示。 所   ? 相关的文 档 ; 最后 , 这些文 本排 序 , 将 将相关 度大 的所有 文档  按 相关度的高低顺 序返 回给 用户 。为 了尽 可能多地 找出与用  户查 询请 求相 关的 文档 信息 , 究者 提 出了很 多检 索策 略 。 研   常用的 We检 索策略有 : 内容的检索 、 b 基于 基于超链 接分析的  检 索 、 于融 合的检索 。本文研 究的是基于 内容 的页面检索 , 基   提 出了一种 改进 的页面检 索度量方 法 , 在 K N分类实 验 中  并 N 得到验 证 。   , W1)    2 … ,    2

相关文档

一种改进的基于WSDL描述的操作相似性度量方法
缺陷数据的相似性度量方法改进
改进相似性度量方法的协同过滤推荐算法
一种人体运动相似性度量方法
一种度量图像区域相似性的粒计算方法
一种遥感影像挖掘的相似性度量方法
一种面向概率工作流的相似性度量方法
一种基于几何特征的表情相似性度量方法
改进的直觉模糊粗糙集相似性度量方法
基于SVD的数字水印算法及相似性度量方法的改进
电脑版