男人视频网站_蜜臀久久久久_色视频免费_久久精品人人_日韩中文字幕不卡_日本黄色短视频

采集數據處理:HTML標簽過濾

HTML標簽具有其語義和默認樣式,例如a標簽代表超鏈接(可點擊跳轉設置的url),p標簽代表文本段落(默認換行顯示)等,所以HTML標簽在頁面顯示的效果就各有不同,有些會影響排版布局(分行,表格等),有些是媒體展示(圖片,視頻等)。

簡數采集器的 “HTML標簽過濾” 功能可指定只保留哪些HTML標簽,根據HTML標簽類型會出現兩種情況:

1. 標簽中有文本的默認會保留,把標簽和排版格式去除,例如p標簽,a標簽等;

2. 標簽是資源標簽,即類似img標簽,video標簽等,會把這些媒體資源內容刪除;

操作方法

1. 查看HTML標簽過濾功能

在簡數采集器某個任務的詳情提取器里,點擊進入content字段的字段數據處理頁面 --》點擊切換到 “HTML標簽過濾” 設置,勾上的是保留的標簽。

簡數采集器已默認過濾不需要不常用的標簽,只保留常用的html標簽,若無特殊需求用戶一般不需要修改了。



2. 指定HTML標簽保留或過濾

 “HTML標簽過濾” 功能生效的前提是,“獲取Html” 和 “過濾部分html標簽” 選項都勾上,然后下方的標簽配置區域:勾選上的是保留,沒勾選的是要過濾不保留。

2-1)例如采集的文章沒排版時,可以嘗試保留div標簽解決。


2-2)例如不需要表格形式的顯示,只需要其文本內容,請把table系列標簽勾選掉后保存;



主站蜘蛛池模板: 中文字幕日产av | 亚洲国产精品成人va在线观看 | 亚av在线 | 天堂一区 | 91黄色看片| 91精品国产综合久久福利 | 国产一区二区自拍视频 | 免费看av大片 | 免费不卡视频 | 中文字幕第6页 | 看黄网站在线观看 | 日本三级一区 | 久久99国产精品视频 | 天天射日日操 | 亚洲少妇久久 | 超碰97免费| 久久嫩草视频 | 久久国产精品无码网站 | 99热在线观看免费 | 国产一二在线 | 艳母动漫在线观看 | 日韩福利社 | 超污网站在线观看 | 亚洲视频在线看 | 中文字幕在线观看1 | 亚洲国产视频在线 | 国产精品男女 | 国产精品永久久久久久久久久 | 亚洲专区在线播放 | 亚洲色在线视频 | av在线免费观看网址 | 超碰久热 | 成年人网站免费在线观看 | 久久精品影视 | www欧美 | 免费在线观看你懂的 | 看全色黄大色大片 | 国产精品亚洲视频 | av毛片在线免费观看 | 久久在线精品视频 | 国产伊人久久 |