(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211333120.4
(22)申请日 2022.10.28
(71)申请人 中科雨辰科技有限公司
地址 100093 北京市海淀区清琴麓 苑170号
楼2层
(72)发明人 刘羽 傅晓航 刘宸 张正义
(74)专利代理 机构 北京锺维联合知识产权代理
有限公司 1 1579
专利代理师 安娜
(51)Int.Cl.
G06F 16/958(2019.01)
G06F 16/951(2019.01)
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06V 30/41(2022.01)G06V 30/19(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种网站页面处 理方法
(57)摘要
本申请涉及信息提取技术领域, 特别是涉及
一种网站页面处理方法。 该方法包括: S100, 爬 取
目标网站页面, 得到目标网站页面对应的文本T;
S200, 利用去广告算法对T进行NLP处理, 得到第
一文本T1; S300, 获取目标网站页面的图像P, 并
利用与所述目标网站页面匹配的经训练的神经
网络模型对P进行区域划分和分类, 得到第一类
别区域图像和第二类别区域图像; S400, 对第一
类别区域图像进行OCR文字识别, 得到第二文本
T2; 遍历T1和T2, 如果sm与某一sn,q匹配, 则保留T1
中sm; 否则, 删除T1中sm; S500, 获取更新后的T1。
本发明能够有效滤除网站页面上与正文相关的
非正文内容。
权利要求书2页 说明书5页 附图1页
CN 115495693 A
2022.12.20
CN 115495693 A
1.一种网站页面处 理方法, 其特 征在于, 包括以下步骤:
S100, 爬取目标网站页面, 得到目标网站页面对应的文本T;
S200, 利用去广告算法对T进行NLP处理, 得到第一文本T1=(s1, s2,…, sM), sm为T1包括
的第m个语句, m的取值范围为1到 M, M为T1包括的语句数量;
S300, 获取目标网站页面的图像P, 并利用与所述目标网站页面匹配的经训练的神经网
络模型对P进行区域划分和分类, 得到第一类别区域图像(P1,1, P1,2,…, P1,N)和第二类别区
域图像(P2,1, P2,2,…, P2,D); P1,n为对P进行区域划分得到的第n张第一类别区域图像, n的取
值范围为1到N, N为对P进行区域划分得到的第一类别区域图像数量; P2,d为对P进行区域划
分得到的第d张第二类别区域图像, d的取值范围为1到D, D为对P进行区域划分得到的第二
类别区域图像数量; 所述第一类别区域图像对应于目标网站页面的正文信息, 所述第二类
别区域图像对应于目标网站页面中的非正文信息, 所述非正文信息包括广告、 推荐信息或
对正文信息的描述;
S400, 对(P1,1, P1,2,…, P1,N)进行OCR文字识别, 得到第二文本T2=(T2,1, T2,2,…, T2,N),
T2,n为对P1,n进行OCR文字识别得到的文本, T2,n=(sn,1, sn,2,…, sn,Q), sn,q为T2,n包括的第q个
语句, q的取值范围为1到Q, Q为T2,n包括的语句数量; 遍历T1和T2, 如果sm与某一sn,q匹配, 则
保留T1中sm; 否则, 删除T1中sm;
或者对(P2,1, P2,2,…, P2,D)进行OCR文字识别, 得到第三文本T3=(T3,1, T3,2,…, T3,D), T3,d
为对P2,d进行OCR文字识别得到的文本, T3,d=(sd,1, sd,2,…, sd,A), sd,a为T3,d包括的第a个语
句, a的取值范 围为1到A, A为T3,d包括的语句数量; 遍历T1和T3, 如果sm不与任一sd,a匹配, 则
保留T1中sm; 否则, 删除T1中sm;
S500, 获取更新后的T1。
2.根据权利要求1所述的方法, 其特征在于, S300中与所述目标网站页面匹配的经训练
的神经网络模型的获取 方法包括:
S310, 获取目标网站页面的网址;
S320, 解析 所述目标网站页面的网址, 得到所述目标网站页面对应的网站W;
S330, 从预先构 建的神经网络模型库中匹配与W对应的经训练的神经网络模型, 所述神
经网络模型库中存 储有各预设网站对应的经训练的神经网络模型。
3.根据权利要求2所述的方法, 其特 征在于, S3 30中神经网络模型库的构建方法包括:
S331, 获取网站页面图像样本集P ’={P’1, P’2,…, P’B}, P’b={P’b,1, P’b,2,…, P’b,H},
P’b为P’对应的第b个网站的网站页面图像样本, b的取值范围为1到B, B为P ’对应的网站数
量; P’b,h为P’b的第h个网站页面图像样本, h的取值范围为1到H, H为P ’b包括的网站页面图像
样本数量;
S332, 遍历P ’, 将P’b,h进行区域划 分, 如果某区域对应于网站页面的正文信息, 则将该
区域标注为第一类别区域; 如果某 区域对应于网站页面的非正文信息, 则将该区域标注为
第二类别区域;
S333, 遍历P ’, 根据对P ’b,h的标注结果对神经网络模型进行训练, 得到P ’对应的第b个
网站对应的经训练的神经网络模型。
4.根据权利要求3所述的方法, 其特征在于, S332中所述区域划分满足的划分条件包
括: 将正文信息和非正文信息划分到不同的区域中。权 利 要 求 书 1/2 页
2
CN 115495693 A
25.根据权利要求1所述的方法, 其特征在于, S400中, 通过获取sm与sn,q中最大共享字符
串的方式来判断sm与sn,q是否匹配。
6.根据权利要求5所述的方法, 其特 征在于, 判断sm与sn,q是否匹配的方法包括:
S410, 获取sm与sn,q中最大共享字符串的长度L1;
S420, 获取sm字符串的长度L2;
S430, 如果z=L1/L2大于设定占比阈值k, 则判定sm与sn,q匹配; 否则, 判定sm与sn,q不匹
配。
7.根据权利要求6所述的方法, 其特 征在于, k≥0.9。权 利 要 求 书 2/2 页
3
CN 115495693 A
3
专利 一种网站页面处理方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:08上传分享