专利一种网站页面处理方法 -在线下载 -pdf文件-bbs.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211333120.4 (22)申请日 2022.10.28 (71)申请人中科雨辰科技有限公司地址 100093 北京市海淀区清琴麓苑170号楼2层 (72)发明人刘羽　傅晓航　刘宸　张正义　 (74)专利代理机构北京锺维联合知识产权代理有限公司 1 1579 专利代理师安娜 (51)Int.Cl. G06F 16/958(2019.01) G06F 16/951(2019.01) G06F 16/33(2019.01) G06F 16/35(2019.01) G06V 30/41(2022.01)G06V 30/19(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种网站页面处理方法 (57)摘要本申请涉及信息提取技术领域，特别是涉及一种网站页面处理方法。该方法包括： S100，爬取目标网站页面，得到目标网站页面对应的文本T； S200，利用去广告算法对T进行NLP处理，得到第一文本T1； S300，获取目标网站页面的图像P，并利用与所述目标网站页面匹配的经训练的神经网络模型对P进行区域划分和分类，得到第一类别区域图像和第二类别区域图像； S400，对第一类别区域图像进行OCR文字识别，得到第二文本 T2；遍历T1和T2，如果sm与某一sn,q匹配，则保留T1 中sm；否则，删除T1中sm； S500，获取更新后的T1。本发明能够有效滤除网站页面上与正文相关的非正文内容。权利要求书2页说明书5页附图1页 CN 115495693 A 2022.12.20 CN 115495693 A 1.一种网站页面处理方法，其特征在于，包括以下步骤： S100，爬取目标网站页面，得到目标网站页面对应的文本T； S200，利用去广告算法对T进行NLP处理，得到第一文本T1＝(s1， s2，…， sM)， sm为T1包括的第m个语句， m的取值范围为1到 M， M为T1包括的语句数量； S300，获取目标网站页面的图像P，并利用与所述目标网站页面匹配的经训练的神经网络模型对P进行区域划分和分类，得到第一类别区域图像(P1,1， P1,2，…， P1,N)和第二类别区域图像(P2,1， P2,2，…， P2,D)； P1,n为对P进行区域划分得到的第n张第一类别区域图像， n的取值范围为1到N， N为对P进行区域划分得到的第一类别区域图像数量； P2,d为对P进行区域划分得到的第d张第二类别区域图像， d的取值范围为1到D， D为对P进行区域划分得到的第二类别区域图像数量；所述第一类别区域图像对应于目标网站页面的正文信息，所述第二类别区域图像对应于目标网站页面中的非正文信息，所述非正文信息包括广告、推荐信息或对正文信息的描述； S400，对(P1,1， P1,2，…， P1,N)进行OCR文字识别，得到第二文本T2＝(T2,1， T2,2，…， T2,N)， T2,n为对P1,n进行OCR文字识别得到的文本， T2,n＝(sn,1， sn,2，…， sn,Q)， sn,q为T2,n包括的第q个语句， q的取值范围为1到Q， Q为T2,n包括的语句数量；遍历T1和T2，如果sm与某一sn,q匹配，则保留T1中sm；否则，删除T1中sm；或者对(P2,1， P2,2，…， P2,D)进行OCR文字识别，得到第三文本T3＝(T3,1， T3,2，…， T3,D)， T3,d 为对P2,d进行OCR文字识别得到的文本， T3,d＝(sd,1， sd,2，…， sd,A)， sd,a为T3,d包括的第a个语句， a的取值范围为1到A， A为T3,d包括的语句数量；遍历T1和T3，如果sm不与任一sd,a匹配，则保留T1中sm；否则，删除T1中sm； S500，获取更新后的T1。 2.根据权利要求1所述的方法，其特征在于， S300中与所述目标网站页面匹配的经训练的神经网络模型的获取方法包括： S310，获取目标网站页面的网址； S320，解析所述目标网站页面的网址，得到所述目标网站页面对应的网站W； S330，从预先构建的神经网络模型库中匹配与W对应的经训练的神经网络模型，所述神经网络模型库中存储有各预设网站对应的经训练的神经网络模型。 3.根据权利要求2所述的方法，其特征在于， S3 30中神经网络模型库的构建方法包括： S331，获取网站页面图像样本集P ’＝{P’1， P’2，…， P’B}， P’b＝{P’b,1， P’b,2，…， P’b,H}， P’b为P’对应的第b个网站的网站页面图像样本， b的取值范围为1到B， B为P ’对应的网站数量； P’b,h为P’b的第h个网站页面图像样本， h的取值范围为1到H， H为P ’b包括的网站页面图像样本数量； S332，遍历P ’，将P’b,h进行区域划分，如果某区域对应于网站页面的正文信息，则将该区域标注为第一类别区域；如果某区域对应于网站页面的非正文信息，则将该区域标注为第二类别区域； S333，遍历P ’，根据对P ’b,h的标注结果对神经网络模型进行训练，得到P ’对应的第b个网站对应的经训练的神经网络模型。 4.根据权利要求3所述的方法，其特征在于， S332中所述区域划分满足的划分条件包括：将正文信息和非正文信息划分到不同的区域中。权　利　要　求　书 1/2 页 2 CN 115495693 A 25.根据权利要求1所述的方法，其特征在于， S400中，通过获取sm与sn,q中最大共享字符串的方式来判断sm与sn,q是否匹配。 6.根据权利要求5所述的方法，其特征在于，判断sm与sn,q是否匹配的方法包括： S410，获取sm与sn,q中最大共享字符串的长度L1； S420，获取sm字符串的长度L2； S430，如果z＝L1/L2大于设定占比阈值k，则判定sm与sn,q匹配；否则，判定sm与sn,q不匹配。 7.根据权利要求6所述的方法，其特征在于， k≥0.9。权　利　要　求　书 2/2 页 3 CN 115495693 A 3

专利 一种网站页面处理方法

专利一种网站页面处理方法