歡迎來到 常識詞典網(wǎng) , 一個專業(yè)的常識知識學(xué)習(xí)網(wǎng)站!
[ Ctrl + D 鍵 ]收藏本站
答案 1:
當(dāng)下我采用的是簡單幼稚但還算有效的辦法----鏈接數(shù)目,超過閾值便處理為索引頁,否則判定為內(nèi)容頁。答案 2:
我猜想可以這樣判斷:1、頁面子鏈個數(shù)很多。2、頁面子鏈的url形式(目錄)有一定共性。3、判斷錨文本占頁面所有文本比重很高。答案 3:
首先要區(qū)分問題解決的環(huán)境:如果是處理特定的站點,肯定是手工配url pattern,如果是大規(guī)模海量無共性站點,那么@鄭傳義的方法機上@Paul說的特征,毫無疑問是性價比最高的,當(dāng)然如果你對自己自信,可以基于站點構(gòu)型做挖掘最后,這些索引頁是幫你發(fā)現(xiàn)新鏈接的,如果做spider,怎么會沒用呢?答案 4:
我的想法是這樣的,如果有子url的就是目錄頁,如果沒有的基本都是內(nèi)容頁。但是就是news.sina.cn/z/cjzxyz...,這個這樣下來就不大好辨別了下一篇:京九線運營至今,盈虧分析究竟如何?大家如何看待? 下一篇 【方向鍵 ( → )下一篇】
上一篇:一般而言,一天睡多少個小時才是正常的、健康的? 上一篇 【方向鍵 ( ← )上一篇】
快搜