歡迎來到 常識(shí)詞典網(wǎng) , 一個(gè)專業(yè)的常識(shí)知識(shí)學(xué)習(xí)網(wǎng)站!
[ Ctrl + D 鍵 ]收藏本站
答案 1:
因?yàn)椴辉跇I(yè)務(wù)前線,我只能說說通用的詞庫大致怎么來的。針對(duì)不同的類別,用規(guī)則定向去某些特定網(wǎng)頁或某種特定模式挖掘,從文本中抽取,并加上統(tǒng)計(jì)信息和規(guī)則過濾。這里的類別指的是產(chǎn)品名稱 電影名稱這樣的。抽取的結(jié)果和中文基本詞庫合并,就是詞典的base版本新詞挖掘是另一件事,用戶查詢?nèi)罩竞途W(wǎng)頁中的詞頻等都是很重要的信息,最后是用機(jī)器學(xué)習(xí)的分類來做的,crf用于新詞發(fā)現(xiàn)也不錯(cuò),但真正要結(jié)果好用,過濾要花不少工夫。-的新詞就基于crf同義上下位都有做。 集中分散?你是說統(tǒng)稱和具體名稱么,這個(gè)也有。 隱藏詞因?yàn)殡娚虣z索很在乎召回率,是重點(diǎn)做過的。答案 2:
感謝邀請,但我不適合回答這個(gè)問題,因?yàn)槲覜]去過,所以不了解。詞庫建設(shè)是個(gè)持續(xù)過程,需要有新詞和未登陸詞發(fā)現(xiàn)解決方案。記得在z-i-u上看到有阿里的人說他們第一個(gè)把CRF用于分詞商業(yè)化了。一般來說,新詞和未登陸詞發(fā)現(xiàn)都采用統(tǒng)計(jì)方案,CRF是其中很好的工具。答案 3:
概念性的東西我看你也了解了,最重要的是通過用戶行為(熱門搜索)補(bǔ)充詞庫。答案 4:
淘寶、亞馬遜這樣的電子商務(wù)網(wǎng)站,他們的搜索應(yīng)該更加側(cè)重于商品名,詞庫的建設(shè)應(yīng)該主要著重點(diǎn)在商品名詞表的建設(shè)當(dāng)中吧,我覺得對(duì)于電子商務(wù)網(wǎng)站來說,數(shù)據(jù)都是格式化的或者就直接存在數(shù)據(jù)庫里面,想要獲取他們的商品名等各種信息還是比較容易的。無需用到CRF來做分詞或新詞發(fā)現(xiàn)吧?下一篇:你熟知多少瘋言瘋語? 下一篇 【方向鍵 ( → )下一篇】
上一篇:思科還可以稱霸多少年? 上一篇 【方向鍵 ( ← )上一篇】
快搜