基于训练集的自动文摘方法的研究_论文

第 2 卷第 1 2 期  21年 2 01 月  中原 工 学 院学 报  J OURNAL OF ZHONGYUAN UNI       VERS TY    I OF TECHNOL OGY  Vo . 2 No 1 12   .  Fe b., 01   2 1 文 章 编 号 : 6 1 6 0 ( 0 1 O —0 6 —0   1 7 ~ 9 6 2 1 )1 0 2 4 基 - iI 集 的 自动 文 摘 方 法 的 研 究  ¥ J练 -I 程 传 鹏  ( 中原 工 学 院 , 州 4 0 0 ) 郑 5 0 7  摘 要 : 提 出 了 一 种 基 于 训 练 集 的 自动 文 摘 方 法 .依 据 训 练 集所 产 生 的 主 题 词 , 计 出一 种 新 的段 落 加 权 公 式 和 一 种  设 新 的句 子 重 要 性 加 权 公 式 , 生 成 的 主 题 句 消 除 冗 余 后 得 到 文 摘 .测试 结 果 表 明 , 方 法 具 有 一 定 的实 用 性 . 将 该   关  键  词 : 训 练 集 ; 题 词 ;   主 主题 句 ; 自动 文 摘   中 图分 类 号 : T 3 1 1 P 9 .  文献标志码 : A     自动 文摘 就是 利用计 算 机从 文档 中提取 尽可 能少  的句 子 , 求这 些句 子语 意连 贯 , 且 能够最 大 限度地  要 并 方法 进行 了实 验和评 价 .   体 现原 文档 所要 表达 的 中心 思 想.随着 I tr e n en t的迅  猛 发展 以及 无纸 化 办公 的普 及 , 种 格 式 的 电子 文 件  各 大 量 涌 现 .从 这 些 电 子 文 档 中 迅 速 、 确 地 进 行 自动  准 1 关键 技 术分 析    自动文 摘从 原始 文 档 中提 取 最 精 简 、 最能 体 现 原  始 文档 意思 的语 句 , 摘 的优 劣跟 主题词 的选 择 、 文 主题  句 的 选 择 以 及 自动 文 摘 息 息 相 关 .下 面 对 这 些 关 键 技  术 进行 介绍 .   1 1 主 题 词 的 选 择  . 文摘 , 已经成 为 一项 重要 的研究 课 题. 目前 , 自动文 摘  的方法 大体 上可 以分 为 2类 : 于 统 计 的 机械 文 摘 方  基 法 和基 于理解 的文摘 方法口 .前者 主 要是 简 单 的对 词  ] 频( 词条 在全 文 中所 出 现 的次 数 ) 行 统 计 , 照 词 频  进 依 来 确 定 主 题 词 , 题 旬 的 产 生 也 只 是 依 赖 所 包 含 主 题  主 本文中, 主题 词 的 界定 参 照 了文 档分 类 中特 征 提  取 的方 法 , 过分 词 后 的 文 档词 汇 , 通 数量 是 相 当大 的 ,   原 始 的特征 空 间 可 能 由 出现 在 文 章 中 的全 部 词 条 构  成 .而 中文 的词 条 总 数 有 二 十 多 万 条 , 样 高 维 的 特  这 征 空 间对于 几乎所 有 的分 类算 法 来说 都 偏 大L .为 了  2 ] 词 的数 量 的多少 .它 的优 点 是 实 现 简 单 , 摘 效 率 较  文 高, 但得 到 的文摘 往 往不 能 很 好 地 体 现 原 始文 档 的 中   心思 想 .后 者则 是 利 用 人 工 智 能 技术 , 别 是 自然 语  特 言 理解 技术 为核 心 ,在对 文本 进 行语 法结 构 分析 的同  时 , 用领域 知识 对文 本 的语义 进行 分析 , 过判 断推  利 通 理 , 出 文 摘 句 的 语 义 描 述 , 据 语 义 描 述 自动 生 成 摘  得 根 提 高分 类 的效率 和精 度 , 分 类 之 前 必须 进 行 特 征抽  在 取 来 剔 除 那 些 表 现 力 不 强 的 词 汇 .在 主 题 词 的 选 择 过   要 .这种 方 法 虽 然 一 定 程 度 上 弥 补 了 机 械 文 摘 的 不  足 , 高 了文 摘 的质 量 , 需 要 构 建 复杂 的推 理 规则 , 提 但   文 摘生 成过 程所 耗 时间长 , 时性 能低劣 . 实   程 中 , 出如下 的定 义 : 给   定 义 1训练 集 : 由专 家系 统筛 选 出来 的 , 具有 某相  近 主 题 的 文 档 集 合 .本 文 用 S来 表 示 训 练 集 .   文 摘 的质量 固然 重 要 , 低 劣 的实 时 性也 是 不 能  但 接 受 的.基 于 此 , 文提 出 了一 种 基 于训 练 集 的 自动  本 文 摘 方 法 , 先 对 自动 文 摘 中 主 题 词 的选 择 、 题 句 的  首 主 定 义 2主题 词 : 能 代 表训 练集 的 一些 词条 .本  最 文 用 T来 表示 主题 词.   定 义 3主题 词权 重 : 主题 词 T 在文 档 中的重 要程    度 .本文 用 刑   来表 示第 i 主题词 权重 . 个   符 号定 义 :   产生、 文摘 的生 成 等关 键 技术 进 行 了研 究 与分 析 .在  此基 础 上 , 计 出 了一 个 自动文 摘原 型 系统 , 后对 该  设 最 收 稿 日期 : 0 1 O 一 O   21一 1 3 作 者 简 介 : 传 鹏 ( 9 7 ) 男 , 南 郑 州 人 , 师 , 士  程 17 一 , 河 讲 硕 第 1 期  程 传 鹏 :基 于 训 练 集 的 自动 文 摘 方 法 的 研 究  A: 含 词 条 t 属 于 类 别 r的文 档 频 数 . 包 且   ( )对用 户提 交 的待 摘 要 文 档 进 行 段 落 划 分 , 1 形  成 段落 集 {   P , 。 P

相关文档

自动文摘的方法研究
基于篇章结构的自动文摘方法研究
一种基于主题词集的自动文摘方法
基于聚类分析的自动文摘中主题区域划分方法研究
密度聚类模式下一种基于层次的自动文摘方法研究
基于Bayes的有噪训练集去噪方法研究
基于聚类分析的自动文摘中主题区域划分方法研究
数据挖掘中平衡偏斜训练集的方法研究
基于学习风格的应急培训方法研究
硕士研究生分类培养的目标和方式
电脑版