當(dāng)縮略圖(又稱封面圖、特色圖)只存在于列表頁,而詳情頁內(nèi)沒有時,可以使用父子任務(wù)關(guān)聯(lián)采集方式,將列表頁中的縮略圖與詳情頁的內(nèi)容(標(biāo)題、正文等)采集合并為完整數(shù)據(jù) 。
如果縮略圖存在于詳情頁中,則應(yīng)該用一個常規(guī)任務(wù)直接采集,而非更復(fù)雜的父、子兩個任務(wù)關(guān)聯(lián)采集。
配置基本流程:
父任務(wù)采集列表縮略圖 -> 子任務(wù)采集詳情內(nèi)容,引用縮略圖 -> 啟動采集,自動合并數(shù)據(jù)
父任務(wù)作用:采集列表頁里每個項目的縮略圖和詳情頁網(wǎng)址鏈接,其中網(wǎng)址既是子任務(wù)的采集來源,也是兩個任務(wù)數(shù)據(jù)關(guān)聯(lián)的唯一標(biāo)識。
詳細(xì)操作步驟:
在采集任務(wù)列表【創(chuàng)建采集任務(wù)(高級模式)】-> 采集模式選擇【列表頁|表格數(shù)據(jù)(單頁多數(shù)據(jù))】-> 輸入任務(wù)名和列表頁網(wǎng)址,保存 -> 打開列表提取器配置采集規(guī)則。


打開列表提取器,連續(xù)選中兩個結(jié)構(gòu)相同的數(shù)據(jù)區(qū)塊,系統(tǒng)便會自動識別頁面上所有相似的區(qū)塊,將每個區(qū)塊作為一條獨立數(shù)據(jù)進(jìn)行采集,比如列表中的一項(或表格中一行)為一條數(shù)據(jù)。

保存,點擊【第2步:詳情提取器】按鈕進(jìn)入字段規(guī)則配置。
在數(shù)據(jù)區(qū)塊中,配置要提取的縮略圖和詳情頁網(wǎng)址。
先配置提取列表項的詳情頁網(wǎng)址鏈接(必要,作為關(guān)聯(lián)標(biāo)識):
點擊切換到url字段,勾上【該字段值唯一】和【只獲取網(wǎng)址】 -> 點選一個列表項的標(biāo)題作為采集范圍 -> 數(shù)據(jù)預(yù)覽顯示對應(yīng)的詳情頁網(wǎng)址,保存。
注意:若獲取不到網(wǎng)址,采集范圍改選整個列表項或者圖片,其Xpath值結(jié)尾應(yīng)為a或a/kds。

切換到content字段,選擇一個列表項的縮略圖片作為采集范圍(其Xpath值結(jié)尾應(yīng)為img或img/kds)-> 打開content字段數(shù)據(jù)處理,勾上【只采集圖片鏈接】,保存 -> 數(shù)據(jù)預(yù)覽顯示相應(yīng)的縮略圖地址。


無需采集的字段可留空或刪除,最后務(wù)必保存(頁面右上角)。
父任務(wù)配置完成后,先不啟動運行采集,由子任務(wù)來控制觸發(fā)。
子任務(wù)根據(jù)父任務(wù)提供的網(wǎng)址鏈接,逐個抓取對應(yīng)的詳情頁內(nèi)容(如標(biāo)題、正文等),并引用父任務(wù)采集的縮略圖,合并生成一條完整數(shù)據(jù)。
完整操作步驟如下:
在采集任務(wù)列表【創(chuàng)建采集任務(wù)(高級模式)】-> 采集模式選擇【詳情頁(單網(wǎng)頁:零散、批量或無限循環(huán))】-> 輸入任務(wù)名和一個詳情頁網(wǎng)址(作為批量采集的樣本模板),保存 。


將父、子任務(wù)關(guān)聯(lián)起來,子任務(wù)才可獲取父任務(wù)采集的網(wǎng)址與數(shù)據(jù)。
在子任務(wù)基本信息處,點擊【從其它任務(wù)獲取網(wǎng)址】,彈出關(guān)聯(lián)父任務(wù)配置 -> 勾上【總是先運行父任務(wù)】 -> 選擇父任務(wù)和網(wǎng)址來源字段(即父任務(wù)的url字段,作為父子任務(wù)數(shù)據(jù)關(guān)聯(lián)合并的標(biāo)識),保存。

打開詳情提取器,先照常完成詳情頁內(nèi)容采集配置。
簡數(shù)采集器提供直觀可視化的操作界面,通過鼠標(biāo)點選即可快速自定義采集目標(biāo)內(nèi)容(如標(biāo)題、正文、標(biāo)簽、關(guān)鍵詞等)。完整使用說明可看【詳情提取器-內(nèi)容采集規(guī)則配置】。

在子任務(wù)詳情提取器添加新字段 thumb_img(舉例,可自行命名) -> 打開其字段處理配置的【高級提取】-> 提取類型選擇【從父任務(wù)獲取數(shù)據(jù)】-> 【父任務(wù)字段】選擇content 字段(前文示例父任務(wù)采集縮略圖的字段),保存。
特別注意:如需下載鏈接地址對應(yīng)的縮略圖,請勾上【需下載圖片】選項,不勾選則使用源網(wǎng)站的圖片地址。


提示:自動定時采集、發(fā)布、圖片下載、SEO規(guī)則處理、第三方API、AI執(zhí)行等操作都在子任務(wù)配置。


如需導(dǎo)出發(fā)送縮略圖,發(fā)送目標(biāo)第二步請注意選擇對應(yīng)的新字段。(無對應(yīng)字段選擇解決方法)
