国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211358182.0 (22)申请日 2022.11.01 (71)申请人 上海瀛数信息科技有限公司 地址 200081 上海市虹口区东体 育会路10 0 弄1号1404室 (72)发明人 刘丽娟 闵宗茹 巨星海 黄勃南 池淏 张明金 杜俊丽 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/955(2019.01) G06F 16/958(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于多角度特征学习的主题网页信息 抽取方法 (57)摘要 本发明涉及网页信息抽取技术领域, 具体公 开了一种基于多角度特征学习的主题网页信息 抽取方法, 且公开了本发明使用网页爬虫, 获取 页面的HTML源码, 可以对页面的内容特征进行提 取, 包括标题、 域名、 IP归属地等。 对于网页标题 和网页内容中的特征, 采用相应字符串匹配和识 别算法来实现提取特征; 对于域名信息、 IP归属 地、 搜索引擎等数据, 则借助相应的接口, 完成信 息提取和特征 获取, 基于多角度特征学习的主题 网页信息抽取方法比关键词法的F值提高了4% 以上, 验证了该方法的有效性; 关键词法相比SV M 法, F值降低了10%; 相比本文法, F值降低了 17%, 可见该方法在算法可行性和效果上均优于 其他方法。 权利要求书3页 说明书7页 附图2页 CN 115544345 A 2022.12.30 CN 115544345 A 1.一种基于多角度特征学习的主题网页信息抽取方法, 其特征在于: 包括主题网页抽 取与爬虫抽取原理。 一种基于多角度特 征学习的主题网页信息抽取 方法, 包含以下步骤: 一、 文本分词 二、 多角度特 征分析 从网页标题、 网页内容、 域名信息、 IP归属地等角度选取7个特征。 通过提取网页的主题 特征, 对其量化处理, 生成特 征向量进行分析; 将网页标题和网页内容分开分析, 为各自特 征赋予对应的权 重, 具体过程如下: 使用特征函数Fi来分别刻画其对应的身份特 征, 定义某一网页的身份特 征向量: F={F1, F2, F3, F4, F5, F6, F 7} (1) 其中F1为网页标题是否包含主题重点词, F2为网页标题是否命中主题衍生词, F3为网 页内容是否包含主题重点词, F4为网页内容是否命中主题衍生词, F5为域名注册商是否为 境外公司, F6为 IP归属地是否为 境外, F7为网页标题在搜索引擎是否有返回结果; 每个特征函数的输出为实数值, 表示网页中对应的身份特 征状态, 具体定义如下: F1: 网页标题是否包含主题重点词, 为突出重点, 网页往往会拟定夺人眼球的网页 标题 吸引读者, 此类标题往 往包含主题重点词; F1的定义如下: F2: 网页标题是否命中主题衍 生词; F2的定义如下: F3: 网页内容是否包 含主题重点词; F3的定义如下: F4: 网页内容是否命中特定敏感词; F4的定义如下:权 利 要 求 书 1/3 页 2 CN 115544345 A 2F5: 域名注 册商是否为 境外公司; F5的定义如下: F6: IP归属地是否为 境外; F6的定义如下: F7: 网页标题在搜索引擎的返回结果; F7的定义如下: 三、 模型深度学习训练 将上述F1、 F2 …Fi的敏感特征经过独立的循环神经网络后, 再经过全连接神经网络, 进 行后期融合, 使得每 个独立的循环神经网络都能学习到, 模型准确率较高。 具体是根据上述特征, 判断一个网站是否为主题网页时, 使用线性分类器进行处理, 线 性分类函数如式(2): S=f(∑Fi×wi); 0<i≤8 (2) 式(2)中, Fi表示网页敏感身份特征的取值, Fi=1时, 判断该网站为主题网站; Fi= ‑1 时, 则表示页面正常, 该网站为正常网站, 式(2)中, wi为7个敏感特征分量的权值, 其相应的 计算公式如式(3): 而上式中ei的计算公式为式(4): 权 利 要 求 书 2/3 页 3 CN 115544345 A 3
专利 一种基于多角度特征学习的主题网页信息抽取方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:24:02
上传分享
举报
下载
原文档
(772.7 KB)
分享
友情链接
MH-T 1020-2018 锂电池航空运输规范.pdf
GB-T 35659-2017 经济贸易展览会分级与评定准则.pdf
GB-T 11693-2022 船用法兰焊接座板.pdf
民航 MH-T 6038-2012 民用航空燃料水路运输质量控制.pdf
T-SHPPA 025—2024 切向流过滤膜及膜包-装置生产质量管理指南.pdf
GB-T 35349-2017 汽车驻车制动性能检验方法.pdf
GB-T 31464-2022 电网运行准则.pdf
GB-T 43290-2023 电子商务逆向物流通用服务规范.pdf
GB 24284-2009 大型焰火燃放安全技术规程.pdf
GB-T 32609-2016 网球拍及部件的物理参数和试验方法.pdf
T-CHSA 004—2023 腮腺恶性肿瘤诊疗专家共识.pdf
GB-T 34095-2017 信息安全技术 用于电子支付的基于近距离无线通信的移动终端安全技术要求.pdf
T-ZZB 0478—2018 风机用无刷直流电机.pdf
DB15-T 1878—2020 沙化草地治理技术规范 内蒙古自治区.pdf
GB-T 2679.1-2020 纸 透明度的测定 漫反射法.pdf
DB3310-T 93-2022 公共数据授权运营指南 台州市.pdf
T-CEC 712—2022 抽水蓄能电站故障录波配置导则.pdf
T-CACM 1292—2019 中医内科临床诊疗指南 面瘫病.pdf
T-ZZB 2678—2022 高寿命汽车散热器电动风扇总成.pdf
GB-T 33251-2016 高等学校知识产权管理规范.pdf
1
/
13
评价文档
赞助2.5元 点击下载(772.7 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。