歡迎來到 常識詞典網(wǎng) , 一個專業(yè)的常識知識學習網(wǎng)站!
[ Ctrl + D 鍵 ]收藏本站
答案 1:
當然需要。既然是“文本挖掘”,自然語言處理最基本的功能點肯定都要做:新詞發(fā)現(xiàn)、分詞、詞性標注、分類、自動提取標簽、實體自動發(fā)現(xiàn)和識別。最基本的這些功能點做了之后,可以用統(tǒng)計方法完成簡單文本挖掘應用,統(tǒng)計方法比如:TF/IDF、Map/Reduce、貝葉斯。再深入一些,就需要:聚類(層次聚類、SVM、V-)、情感趨勢分析。再想提高:語法分析、句式判斷。但一般做到NLP最基本功能點+統(tǒng)計方法即可搞定一般的互聯(lián)網(wǎng)應用。答案 2:
關(guān)于鄭鈞的回答,我覺得涉及的點很好,但是有些知識不是很準確; -p/reduce 是一種分布式計算的框架,TIIDF可以看作是一種特征表示方法;統(tǒng)計方法比較常用的包括,樸素貝葉斯,最大后驗概率,EM算法,CRF(比如用于分詞)等; SVM不是聚類方法,而是分類回歸方法; V-應該是vector-space-model吧,是向量空間模型,是文本表示的基本模型;常見的聚類方法分為兩類,層次聚類和扁平聚類,扁平聚類的代表算法是經(jīng)典的KMean算法。分類方法也用的很多,比如SVM和決策樹。 NLP本身有一點比較特別的是語言模型;答案 3:
肯定的,至于要懂到什么程度,取決于具體的應用。答案 4:
可繁可簡,復雜的可以做到用正則表達式去處理,當然中文不想英文那么規(guī)整;簡單的就做關(guān)鍵字匹配就好了。答案 5:
作文本挖掘需要學習NLP,因為你需要處理文本,提取出你感興趣的信息。如果你對機器學習熟悉,學習statistical NLP還是比較容易的。另外,也需要補充一些語言學基礎(chǔ)知識。答案 6:
文本挖掘包括很多個自然語言處理的模塊,如文本分類、文本聚類、文摘、關(guān)鍵詞抽取等,所有這些的基礎(chǔ)也是NLP的基礎(chǔ)工作,包括分詞、詞性標注(很多現(xiàn)成工具)等。所以還是看一些NLP的基礎(chǔ)工作,打好底子。不需要去實現(xiàn),但需要了解,然后根據(jù)具體應用運用相應的底層工具就好。答案 7:
首先,肯定是需要的。最基本要做到:新詞發(fā)現(xiàn)、詞頻統(tǒng)計、聚類、分類、文本摘要及關(guān)鍵詞提取、文檔去重、全文檢索等等。答案 8:
貴不在多,首先在于能真正了解文本挖掘的過程,以及中間涉及到的技術(shù)及應用場合。然后根據(jù)你的需求,對其中某一個分支領(lǐng)域(比如是特征抽取,還是句法分析等等)或者某一個算法(是貝葉斯還是SVM?)進行鉆研...下一篇:怎樣成為一個成功的銷售或售前? 下一篇 【方向鍵 ( → )下一篇】
上一篇:iPad 2 什么時候在國內(nèi)上市? 上一篇 【方向鍵 ( ← )上一篇】
快搜