蜜桃无码视频,国产精品 17c,5g-天天看天天奭免费入口,乱亲女H秽乱长久久久

歡迎來到 常識詞典網(wǎng) , 一個專業(yè)的常識知識學習網(wǎng)站!

[ Ctrl + D 鍵 ]收藏本站

您所在的位置:首頁 > 教育學習 > 為什么

為什么

文檔向量直接通過距離聚類和通過LSI降維后再聚類效果會有怎么樣的差異?

分類: 為什么 常識詞典 編輯 : 常識 發(fā)布 : 07-21

閱讀 :331

文檔向量直接通過距離聚類和通過LSI降維后再聚類效果會有怎么樣的差異?在文獻檢索領(lǐng)域,LSI是經(jīng)典的降維手段。但我有一個理論問題沒有解決,而且從實踐看貌似情況有點復雜。問題是“文檔向量直接通過距離聚類和通過LSI降維后再聚類效果會有怎么樣的差異?” 我的實踐效果是這樣的:當構(gòu)成文檔向量空間維度的關(guān)鍵詞比較稀疏時,直接聚類和LSI降維聚類效果都不好;然后我們添加更多關(guān)鍵詞,而關(guān)鍵詞和關(guān)鍵詞的關(guān)聯(lián)相對豐富,這樣可以把隱含的話題(topic)揭示出來,這個時候LSI降維聚類效果會比直接聚類效果好;再然后,添加更多關(guān)鍵詞,反倒聚類效果都不好了。 有什么理論上的依據(jù)可以解釋我的實踐結(jié)果嗎?2 個答案

答案 1:

傳統(tǒng)的聚類方法比如k-means對于高維數(shù)據(jù)的效果是很差的。因為在高維度下距離的度量包含了大量隨機擾動的結(jié)果。用PCA(或者LSI)降維以后那些隨機擾動所在的分量都被濾掉了,所以聚類會有提高??偟膩碚f引入很多沒有信息量又帶來噪聲的維度總是會讓聚類變差的。 另外統(tǒng)計工具經(jīng)過發(fā)展之后已經(jīng)能夠處理高維的聚類問題了,比如LDA或者人工神經(jīng)網(wǎng)絡(luò)一類的方法。

答案 2:

同意勞兄的看法,鄙人一點淺顯的看法是在高維空間中任何兩點間的距離都是很遠的,那么即便聚類后作為特征仍然未必很好。而SVD類的工具要有效地多。

下一篇:HR 們?nèi)绾慰创龖獙蒙@的獎學金? 下一篇 【方向鍵 ( → )下一篇】

上一篇:1900 年之前有用分數(shù)表述地震震級的方法嗎?如果有,是怎樣表述的? 上一篇 【方向鍵 ( ← )上一篇】

亚洲少妇高潮免费观看视频| 丰满人妻一区二区三区无码av | 久久久噜| 久久99久久99精品免视看国产成人| 亚洲 呦呦| 免费99热| 青青综合| 怡红院视频32| 新品av在线一区二区| 国产裸体在线视频| 四虎影视大全在线| 色综合 波多| 亚洲无码视频中文字幕| 一级a一做a爱片免费视频| 一级毛片怏怏播放| 精品黄色资源视频97| 国产精品白丝久久av网站| 国产精品无码在线观看蜜臀av| 污网页大全| 日韩煌瑟三级| 人人澡人人爽人人模| 中文字幕第四页| 亚洲a人妻| 一本色道heyzo| 熟妇少妇无码水蜜桃| 亚洲永久久久| 国产中文字幕无码| 欧美牲交a欧美牲交一级aa| 国产亚洲精品123| 欧美日韩国产网址| 精品国产三级天天在线专区| 久久这里只有精品22| 国产免费午夜福利在线播放92| 成熟熟女国产精品一区二区| 中文字幕不卡一区| 国产精品放荡videos麻豆街| 成熟丰满熟妇高潮XXXXX| 久久本道| 国产日韩欧美亚洲欧美亚洲| www.黄www.色| 亚洲精品国产精品国自产小说 |