歡迎來到 常識(shí)詞典網(wǎng) , 一個(gè)專業(yè)的常識(shí)知識(shí)學(xué)習(xí)網(wǎng)站!
[ Ctrl + D 鍵 ]收藏本站
答案 1:
中文分詞是個(gè)基礎(chǔ)問題,研究成果已有不少,我揀幾個(gè)我自己覺得好的吧。>@張磊提到的mmseg是我自己最喜歡的分詞方法,簡(jiǎn)單、高效、實(shí)用、效果還不錯(cuò)。tec-nology.c-tsai.org/mmseg/我給它起了個(gè)名字,叫做“3段回溯式方法”,即每次從一個(gè)完整的句子里,按照從左向右的順序,識(shí)別出多種不同的3個(gè)詞的組合;然后根據(jù)下面的4條消歧規(guī)則,確定最佳的備選詞組合;選擇備選詞組合中的第1個(gè)詞,作為1次迭代的分詞結(jié)果;剩余的2個(gè)詞繼續(xù)進(jìn)行下一輪的分詞運(yùn)算。采用這種辦法的好處是,為傳統(tǒng)的前向最大匹配算法加入了上下文信息,解決了其每次選詞只考慮詞本身,而忽視上下文相關(guān)詞的問題。4條消歧規(guī)則包括,1)備選詞組合的長(zhǎng)度之和最大。2)備選詞組合的平均詞長(zhǎng)最大;3)備選詞組合的詞長(zhǎng)變化最?。?)備選詞組合中,單字詞的出現(xiàn)頻率統(tǒng)計(jì)值最高。
CRF方法是目前公認(rèn)的效果最好的分詞算法。但,具體效果是否好,也依賴于你使用的訓(xùn)練模型。nlp.stanford.edu/software...
我認(rèn)識(shí)一個(gè)做搜索解決方案的朋友,他們公司提供了CRF和mmseg的開源實(shí)現(xiàn)coreseek.cn/opensour...
其實(shí)還可以使用專業(yè)公司的解決方案,比如海量和中科院分詞的收費(fèi)版本,也花不了多少錢。集中精力找到你自己產(chǎn)品獨(dú)特的價(jià)值所在。
下一篇:請(qǐng)問B2B、B2C、C2C各種電子商務(wù)網(wǎng)站的異同點(diǎn)以及它們面向的客戶都有哪些? 下一篇 【方向鍵 ( → )下一篇】
上一篇:很多公司的中高層管理者都不喜歡能夠說真話的人? 上一篇 【方向鍵 ( ← )上一篇】
快搜