蜜桃无码视频,国产精品 17c,5g-天天看天天奭免费入口,乱亲女H秽乱长久久久

歡迎來到 常識詞典網(wǎng) , 一個專業(yè)的常識知識學(xué)習(xí)網(wǎng)站!

[ Ctrl + D 鍵 ]收藏本站

您所在的位置:首頁 > 教育學(xué)習(xí) > 問答

問答

爬蟲如何辨別目錄頁?

分類: 問答 常識詞典 編輯 : 常識 發(fā)布 : 08-22

閱讀 :354

爬蟲如何辨別目錄頁?現(xiàn)在有一堆url,我想根據(jù)這些url爬取網(wǎng)頁,但是那些主頁和目錄頁是沒用的,要怎么辨別并過濾掉這些頁面?例如news.sina.cn/z/cjzxyz...,我要怎么辨別呢?4 個答案

答案 1:

當(dāng)下我采用的是簡單幼稚但還算有效的辦法----鏈接數(shù)目,超過閾值便處理為索引頁,否則判定為內(nèi)容頁。

答案 2:

我猜想可以這樣判斷:1、頁面子鏈個數(shù)很多。2、頁面子鏈的url形式(目錄)有一定共性。3、判斷錨文本占頁面所有文本比重很高。

答案 3:

首先要區(qū)分問題解決的環(huán)境:如果是處理特定的站點,肯定是手工配url pattern,如果是大規(guī)模海量無共性站點,那么@鄭傳義的方法機上@Paul說的特征,毫無疑問是性價比最高的,當(dāng)然如果你對自己自信,可以基于站點構(gòu)型做挖掘最后,這些索引頁是幫你發(fā)現(xiàn)新鏈接的,如果做spider,怎么會沒用呢?

答案 4:

我的想法是這樣的,如果有子url的就是目錄頁,如果沒有的基本都是內(nèi)容頁。但是就是news.sina.cn/z/cjzxyz...,這個這樣下來就不大好辨別了

下一篇:京九線運營至今,盈虧分析究竟如何?大家如何看待? 下一篇 【方向鍵 ( → )下一篇】

上一篇:一般而言,一天睡多少個小時才是正常的、健康的? 上一篇 【方向鍵 ( ← )上一篇】

中国字幕日韩论| 精品国产成人国产在线视| 亚洲图区成人小说| 极品美女一级毛片免费| 亚洲国产群交无码| 国产三级一区二区在线播放| 在线免费看无遮挡大片| 四虎影院在线观看大全| 日韩一区在线人妻| 福利午夜无码AAA无卡片| 中文有码亚州AV| 亚洲精品视频久久久| 欧美亚洲日韩偷在线| 欧美综合之| 国产成人亚洲精品无码aV| 国产精品操逼视频| 高清不卡三级免费V| 搡BBBB槡BBBB| 伊人久久大香线蕉综合爱首页| 婷婷AV不卡在线看| 超碰97pron| 国产精品一期二期| 日日噜噜夜夜狠狠视频 | 色综合一区二区| 成人亚州| 国产成人小说在线观看视频| 91丨国产丨大屁股| 日本孕妇XXXX| 国产午夜网| 成熟熟女国产精品| 国产亚洲精品国产福APP| 色五月一个色综合| 日本精品中文字幕在线播放| 国产精品网站夜色| 亚洲欧美日韩中文字幕一区| 亚洲国产视频一区二区| 四虎影院 网址查询| 日韩无码激情视频| 牛牛影视人妻| 人妻无码专区一区| 少妇人妻AV无码专区|