男人视频网站_蜜臀久久久久_色视频免费_久久精品人人_日韩中文字幕不卡_日本黄色短视频

采集技巧:如何不采集非文章頁面的數(shù)據(jù)

在列表頁提取器選擇要采集的網(wǎng)址鏈接時,中間夾雜著一些多余的頁面鏈接,例如欄目鏈接、廣告鏈接和標(biāo)簽鏈接等,要怎么解決?

可通過手寫Xpath值來精確選擇鏈接區(qū)域來解決。

但有個更簡單的技巧,就是在詳情頁提取器使用 “采集結(jié)果不得為空” 功能,因為這些多余的頁面結(jié)構(gòu)排版和常規(guī)的文章頁面都不一樣,采集時就會過濾掉這些不符合采集規(guī)則的頁面。

簡數(shù)采集器某個任務(wù)的詳情頁提取器,選擇或輸入正確的文章頁面配置采集規(guī)則,title 字段和 content 字段處都勾上 “采集結(jié)果不得為空”即可。

1)采集文章頁面時

title和content字段采集時都獲取到對應(yīng)的信息,系統(tǒng)就正常采集入庫這條數(shù)據(jù)。



2)采集非文章頁面時(例如廣告,列表頁面)

title或者content字段采集時沒有獲取到信息,系統(tǒng)就會過濾不入庫這條數(shù)據(jù)。


主站蜘蛛池模板: 日韩av网址在线观看 | 综合黄色| 在线播放福利 | 婷婷狠狠| 国产精成人品免费观看 | 久久综合中文字幕 | 人人艹超碰 | 一起艹在线观看 | 中文字幕在线观看视频免费 | 婷婷成人av | 亚洲天堂男人天堂 | 国产精品嫩草69影院 | 亚洲国产日韩在线 | 香蕉视频h| 一级爱片 | 欧美在线一级片 | 天天天色综合 | 国产精品久久99 | 美女网站视频色 | 日韩第一色 | 黑人操亚洲女人 | 国产一区二区三区在线 | 黄色一级免费网站 | 亚洲激情视频在线 | 国产一区二区三区免费在线观看 | 污片网站在线观看 | 在线高清av | 日韩精品导航 | 先锋影音色 | 任我爽在线视频 | 黄色片xxxx | 干日本少妇 | 魔性的诱惑 | 日韩精品一区二区在线播放 | 手机免费看毛片 | 日日弄天天弄美女bbbb | 国产ts视频 | 国产精品麻豆免费版 | 成人四虎| 日本黄色视 | 国产精品一区久久久 |