[原創] 【米爾MYS-8MMX】米爾MYS-8MMQ6-8E2D-180-C應用三——NLP詞性分析與應用

tobot 樓主
2021-9-4 23:28

【米爾MYS-8MMX】米爾MYS-8MMQ6-8E2D-180-C應用三——NLP詞性分析與應用

上篇我們說到可以利用jieba進行分詞,這篇我們繼續研究jieba的使用。

在jieba中,還有一個很重要的功能,就是對詞性進行標注,支持對不同詞性進行標注。現代漢語中的詞性分為實詞、虛詞、嘆詞、擬聲詞四個大類。

實詞(有實際意義的詞,能獨立充當句子成分,即有詞匯意義和語法意義),包括體詞(名詞、數詞和量詞)、謂詞(動詞和形容詞)、加詞(副詞)和代詞(主要作用是替代,可替代名詞、數詞、量詞、動詞、形容詞和副詞。所替代的對象不同,語法功能就不同)。

虛詞(沒有完整意義但有語法意義或功能的詞。其必須依附于實詞或語句來表示語法意義,不能單獨成句、單獨作語法成分、重疊),包括關系詞(連詞和介詞)和輔助詞(助詞和語氣詞)。

擬聲詞和嘆詞既不屬于實詞和虛詞,同為特殊詞類分類。其特點是在句子中通常不跟其他詞發生結構關系。

NLP中,對語言的分析,除了分詞外,還可以對詞性進行標注。以jieba為例,使用缺省詞庫,常用的標注有:

x:標點符號

eng:英語單詞

a:形容詞

n:名稱

nr:人名

ns :地名

nt機構團體

r:代詞

t:時間

f:方位

我們不妨仍然以《戰爭與和平》來分析一下,看看里面提到的人名有多少,認為提到少于15次的名字不考慮。

232744kv2ka27is1frl51v.png

 

可以看到,jieba對詞語的詞性識別并不是特別準確,陸軍、元帥等都識別成為人名。

也許是外文的原因?我們找個武俠小說,拿《天龍八部》試試?

232744lvt6i22ib2ywaetv.png

可以看到不僅詞性標注有問題,連分詞都產生了錯誤,例如:向蕭峰、童姥道等等,顯然是需要修正的。

在下一篇,我們考慮引入自定義字典來實現同樣功能,并制作字典優化

回復評論 (2)

沙發 Jacktang

2021-9-5 21:32

對詞性進行標注,支持對不同詞性進行標注,這個功能很厲害

板凳 soso

2021-9-6 10:07

看一段以為上了語文課。

不管是哪年,都要加油!繼續為中國電子行業做出小小的貢獻吧! 扣扣 1206973913

電子工程世界版權所有 京B2-20211791 京ICP備10001474號-1 京公網安備 11010802033920號
    我也要說兩句
    發送
    評論
    萝卜大香蕉