(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211333120.4 (22)申请日 2022.10.28 (71)申请人 中科雨辰科技有限公司 地址 100093 北京市海淀区清琴麓 苑170号 楼2层 (72)发明人 刘羽 傅晓航 刘宸 张正义  (74)专利代理 机构 北京锺维联合知识产权代理 有限公司 1 1579 专利代理师 安娜 (51)Int.Cl. G06F 16/958(2019.01) G06F 16/951(2019.01) G06F 16/33(2019.01) G06F 16/35(2019.01) G06V 30/41(2022.01)G06V 30/19(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种网站页面处 理方法 (57)摘要 本申请涉及信息提取技术领域, 特别是涉及 一种网站页面处理方法。 该方法包括: S100, 爬 取 目标网站页面, 得到目标网站页面对应的文本T; S200, 利用去广告算法对T进行NLP处理, 得到第 一文本T1; S300, 获取目标网站页面的图像P, 并 利用与所述目标网站页面匹配的经训练的神经 网络模型对P进行区域划分和分类, 得到第一类 别区域图像和第二类别区域图像; S400, 对第一 类别区域图像进行OCR文字识别, 得到第二文本 T2; 遍历T1和T2, 如果sm与某一sn,q匹配, 则保留T1 中sm; 否则, 删除T1中sm; S500, 获取更新后的T1。 本发明能够有效滤除网站页面上与正文相关的 非正文内容。 权利要求书2页 说明书5页 附图1页 CN 115495693 A 2022.12.20 CN 115495693 A 1.一种网站页面处 理方法, 其特 征在于, 包括以下步骤: S100, 爬取目标网站页面, 得到目标网站页面对应的文本T; S200, 利用去广告算法对T进行NLP处理, 得到第一文本T1=(s1, s2,…, sM), sm为T1包括 的第m个语句, m的取值范围为1到 M, M为T1包括的语句数量; S300, 获取目标网站页面的图像P, 并利用与所述目标网站页面匹配的经训练的神经网 络模型对P进行区域划分和分类, 得到第一类别区域图像(P1,1, P1,2,…, P1,N)和第二类别区 域图像(P2,1, P2,2,…, P2,D); P1,n为对P进行区域划分得到的第n张第一类别区域图像, n的取 值范围为1到N, N为对P进行区域划分得到的第一类别区域图像数量; P2,d为对P进行区域划 分得到的第d张第二类别区域图像, d的取值范围为1到D, D为对P进行区域划分得到的第二 类别区域图像数量; 所述第一类别区域图像对应于目标网站页面的正文信息, 所述第二类 别区域图像对应于目标网站页面中的非正文信息, 所述非正文信息包括广告、 推荐信息或 对正文信息的描述; S400, 对(P1,1, P1,2,…, P1,N)进行OCR文字识别, 得到第二文本T2=(T2,1, T2,2,…, T2,N), T2,n为对P1,n进行OCR文字识别得到的文本, T2,n=(sn,1, sn,2,…, sn,Q), sn,q为T2,n包括的第q个 语句, q的取值范围为1到Q, Q为T2,n包括的语句数量; 遍历T1和T2, 如果sm与某一sn,q匹配, 则 保留T1中sm; 否则, 删除T1中sm; 或者对(P2,1, P2,2,…, P2,D)进行OCR文字识别, 得到第三文本T3=(T3,1, T3,2,…, T3,D), T3,d 为对P2,d进行OCR文字识别得到的文本, T3,d=(sd,1, sd,2,…, sd,A), sd,a为T3,d包括的第a个语 句, a的取值范 围为1到A, A为T3,d包括的语句数量; 遍历T1和T3, 如果sm不与任一sd,a匹配, 则 保留T1中sm; 否则, 删除T1中sm; S500, 获取更新后的T1。 2.根据权利要求1所述的方法, 其特征在于, S300中与所述目标网站页面匹配的经训练 的神经网络模型的获取 方法包括: S310, 获取目标网站页面的网址; S320, 解析 所述目标网站页面的网址, 得到所述目标网站页面对应的网站W; S330, 从预先构 建的神经网络模型库中匹配与W对应的经训练的神经网络模型, 所述神 经网络模型库中存 储有各预设网站对应的经训练的神经网络模型。 3.根据权利要求2所述的方法, 其特 征在于, S3 30中神经网络模型库的构建方法包括: S331, 获取网站页面图像样本集P ’={P’1, P’2,…, P’B}, P’b={P’b,1, P’b,2,…, P’b,H}, P’b为P’对应的第b个网站的网站页面图像样本, b的取值范围为1到B, B为P ’对应的网站数 量; P’b,h为P’b的第h个网站页面图像样本, h的取值范围为1到H, H为P ’b包括的网站页面图像 样本数量; S332, 遍历P ’, 将P’b,h进行区域划 分, 如果某区域对应于网站页面的正文信息, 则将该 区域标注为第一类别区域; 如果某 区域对应于网站页面的非正文信息, 则将该区域标注为 第二类别区域; S333, 遍历P ’, 根据对P ’b,h的标注结果对神经网络模型进行训练, 得到P ’对应的第b个 网站对应的经训练的神经网络模型。 4.根据权利要求3所述的方法, 其特征在于, S332中所述区域划分满足的划分条件包 括: 将正文信息和非正文信息划分到不同的区域中。权 利 要 求 书 1/2 页 2 CN 115495693 A 25.根据权利要求1所述的方法, 其特征在于, S400中, 通过获取sm与sn,q中最大共享字符 串的方式来判断sm与sn,q是否匹配。 6.根据权利要求5所述的方法, 其特 征在于, 判断sm与sn,q是否匹配的方法包括: S410, 获取sm与sn,q中最大共享字符串的长度L1; S420, 获取sm字符串的长度L2; S430, 如果z=L1/L2大于设定占比阈值k, 则判定sm与sn,q匹配; 否则, 判定sm与sn,q不匹 配。 7.根据权利要求6所述的方法, 其特 征在于, k≥0.9。权 利 要 求 书 2/2 页 3 CN 115495693 A 3

PDF文档 专利 一种网站页面处理方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种网站页面处理方法 第 1 页 专利 一种网站页面处理方法 第 2 页 专利 一种网站页面处理方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:08上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。