基于校园网的信息资源搜索引擎系统的设计_论文

第3 卷第5 7 期  20 年 5   08 月 贵 州 工 业 大 学 学 报 (自然 科 学 版 )   J URN     O AL OF GUI HOU UNI RST     E HNOL GY Z   VE I Y OF T C O   Vo . 7 No 5 I3   .  Ma 2 0   v. 0 8 ( tr1S in eEdt n) Nau a  ce c  io   i 文章编号: 0 0 9 ( 0 8 0 0 6 0   1 9— 1 3 2 0 ) 5— 10— 3 0 基于校园网的信息资源搜索引擎 系统的设计  潘 大胜 黄 小龙  , (. 1 百色学院 物理与 电信工程 系, 广西 百 色 5 30 ;. 3 00 2 百色学院 数 学与计算机信 息工程 系, 广西百 色 5 30 ) 300   摘 要 : 园网在 网站 构建 、 校 应用环 境 以及 链接 结构 等许 多方 面与 互联 网有 着较 大的 区别 。需  要根 据校 园网站 的 网站 结构 、 息 资源分布 等特 点调 整 网页采 集 策略 , 进 页 面排 序 算 法 , 信 改 才  能提 高搜 索引擎的采 集效 率和 查询 准确度 。   关键词 : 园网 ; 索引擎 ; 校 搜 采集策略 ; 排序 算 法  中图分 类号 :P 9  T 33 文献标 识码 :   A 0 引  言    目前 , 许多校园网站建设 已具备相当的规模和水准, 形成了一个 以校园网为基础的信息资源共享和交流  的平台。它一方面将学校内部的计算机互联起来 , 实现网络信息管理、 资源共享 和信息交流; 另一方面作为  沟通校 内外 网络 的桥梁 , 为对外 交流 的窗 口。但是 , 成 网上 资 源分 布在 校 园 网的各 个角 落 , 户往 往无 法及  用 时准确地找到自己需要的信息, 这使得校园网上丰富的资源没有发挥应有 的作用。   虽 然互联 网上有 G ol、 og 百度 等较 为成功 的通 用搜索 引 擎 , 是 校 园 网有许 多 不 同于 互联 网的特 点 , e 但 为  此, 本文在对一些排序算法的研究和对校园网特点分析的基础上 , 设计了一种基于校园网信息资源搜索引擎  系统 。   1 校 园 网的 信 息资 源 分 布特 点  校 园 网是 以学 校为单 位 的内联 网(nrnt , It e)它与 互联 网(ne c) 同质 的。但 是 , 园 网的主 要 目的  a It t是 a r 校 是用于信息发布 , 例如教学资源、 办公信息、 内新闻等 , 校 在网站构建、 应用环境 以及链接结构等许多方面与  互联网有着较大的区别。以下是校园网信息资源分布的几个显著特点:   是 网页 间的链接稀 疏 , 均 出度 较低 。校 园网 的大部 分子 网站 由各 院系 自行 管理 和 维 护 , 般说 来 , 平 一   一 校 园网 网站 不需要 使用交 换链接 的方式 以获得商业 利 益 , 因此 网站 管理 员对 人站 链 接 , 网站 的反 向链 接 , 即   均 给予足够 的重 视 , 而对 网站 的出站链 接 , 网站外 出指 向其 他 网站 的链接 , 即 却往 往重 视不够 , 网页之 间 的链  接 相对较少 , 甚至 有些 网站很难从 其它 网站 的链 接到达 。   二是异构文本格式的网页比例高。校园网中通常包含教学资源 、 科研资料等各种资源 , 这些信息通常都  是 以 depf p 等类型的异构文本的形式发布的, o、 、 t dp 这与互联网上以静态和动态网页为主的情况有较大的区  别 。异构 文本 的文件格 式与 hm 、s 型的文 件完全 不 同 , tlap类 必须进 行相 应 的格 式转换 才 能支持全 文检索 。   三是 网页的重要性 与链 接数及 访 问量 不成 正 比。例 如新 闻和论 坛 类 网站 的 网 页数量 多 , 链接 较 密且 访  问量较大, 而教学和管理部门的网站则相反。如果按通用的搜索引擎通过链接分析等技术把“ 权威” 的网页  排在靠 前位置 , 查询 结果也许 并不 令用 户满意 。因此在排 序算法 中需 要更 多考虑 相关度 的分析 和 比较 。   2 搜 索 引擎 的 分类 及 原 理  ,  收 稿 日期 :0 8— 5—0  20 0 7 基金项 目: 新世纪广西高等教 育教学改革工程精品课程建设项 目( 桂教 高教 [0 6 l7 : 20 ] 1 ) 电磁学 课程改革 与建设; 新世纪广西 高等教  育教学改革工程第 四 立项项 目( 目编号 : 0 C 2 ) 新建本科 院校 电子信息类专 业计算机课程立体化教学 资源建设 与教 学实践  批 项 2 806 : 0 创 新  作者简介 : 大胜(9 5一) 男 , 潘 17 , 壮族 , 广西靖西县人 , 在读硕士 , 讲师 , 从事现代教 育技术 、 汁算机网络技 术的教学和研究工作 。   第 5期  2 1 搜索 引擎分 类  . 潘 大胜 , : 于校 园网的信 息 资 源搜 索引 擎 系统 的设计  等 基 11 6  站 内搜索引擎一般有三种类型: 基于数据库、 基于 Si r p e 抓取和全文检索站内搜索软件系统。 d   2 1 1 基 于数据 库的 搜索  .. 这种站 内搜索的数据容量有限, 因此检索速度较快 , 查准率高 ; 但是不具备分词功能 , 用户对搜索范围、   内容和体现的结果无法精确控制 ; 可以用 S L的单字索引功能实现最低级 的全文检索。 Q   2 12 基于 S ie .. pd r抓取 的站 内搜 索  般用于大中型网站, 其过程是先经 S i r p e 抓取网页 , 网页进行解析、 d 对 分词 、 索引实现网页式站 内搜  索 , 持标准 的国际搜索 语法

相关文档

校园网中文搜索引擎系统的设计
基于校园网的人力资源信息管理系统设计
校园网信息资源搜索引擎的研究与实现
基于校园网的高校人力资源管理信息系统设计
基于Lucene的校园网搜索引擎的设计与实现
基于Lucene.Net校园网搜索引擎的设计与实现
基于信息过滤系统的个性化搜索引擎的设计
统计管理信息系统中指标引擎的设计与实现
基于教育信息资源的智能搜索引擎设计与实现
网络化制造资源主题搜索MRS系统的设计研究
电脑版