国产男女自拍-国产黄频免费高清视频-五月婷婷视频-欧美一区二区三区久久综合-亚洲天堂最新-成人无码精品一区二区三区-国内成+人 亚洲+欧美+综合在线-粉嫩虎白女毛片人体-天天摸天天干天天操-淫羞阁av导航-精品乱码无人区一区二区-男人天堂亚洲天堂-伊人网影院-超91在线-播放黄色一级片-久久艹精品视频-日本三级欧美三级人妇视频黑白配-久久久久久久久久久久久久久久久久久久-丰满少妇偷人51视频在线观看-欧美黄色短视频

采集技巧:如何不采集非文章頁面的數(shù)據(jù)

在列表頁提取器選擇要采集的網(wǎng)址鏈接時,中間夾雜著一些多余的頁面鏈接,例如欄目鏈接、廣告鏈接和標(biāo)簽鏈接等,要怎么解決?

可通過手寫Xpath值來精確選擇鏈接區(qū)域來解決。

但有個更簡單的技巧,就是在詳情頁提取器使用 “采集結(jié)果不得為空” 功能,因為這些多余的頁面結(jié)構(gòu)排版和常規(guī)的文章頁面都不一樣,采集時就會過濾掉這些不符合采集規(guī)則的頁面。

簡數(shù)采集器某個任務(wù)的詳情頁提取器,選擇或輸入正確的文章頁面配置采集規(guī)則,title 字段和 content 字段處都勾上 “采集結(jié)果不得為空”即可。

1)采集文章頁面時

title和content字段采集時都獲取到對應(yīng)的信息,系統(tǒng)就正常采集入庫這條數(shù)據(jù)。



2)采集非文章頁面時(例如廣告,列表頁面)

title或者content字段采集時沒有獲取到信息,系統(tǒng)就會過濾不入庫這條數(shù)據(jù)。