[原創] 【米爾MYS-8MMX】米爾MYS-8MMQ6-8E2D-180-C應用二——NLP初探

tobot 樓主
2021-8-24 22:24

【米爾MYS-8MMX】米爾MYS-8MMQ6-8E2D-180-C應用二——NLP初探

自然語言(NL)到機器語言(ML)應用是目前比較熱門的方向,其中有一個分支就是如何讓機器去識別一句人話,包括語境、語義、情感等。

其中最重要的部分是斷句。今天我們嘗試用米爾MYS-8MMQ6-8E2D-180-C來試試斷句。

今天嘗試的NLP庫是jieba,安裝庫文件,因為直接安裝可能會出現連接異常,因此需要指定源:

pip3 install jieba -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

221034palzld50fuz04lln.png

同樣,在python2上也安裝jieba,命令為:

pip install jieba -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

 

先嘗試一個較簡單的:“自行車快倒了,我一把把把把住了”。這段話里面的若干個把字,發音是不同的,它的意思是我一把(我一下子)把(介詞)把(讀第四聲,指單車龍頭)把住(抓住、握住)了。

比較有意思的是python2可以正常執行,但python3會出錯,似乎是re模塊出錯。

221034xwihqbwb8b86bbbb.png

統計一下名著中詞語吧,獲取頻率最高的20個詞,同樣python3不可用,在python2下運行成功。

。在我們的實驗例子中,選取的是《戰爭與和平》,講述的內容大家都很熟悉,就不水字數了。

221034r1gkkhhyn5y1d0n0.png

從上面的例子可以看到,jieba將符號也單獨切出來了,單字詞的意義不大,可以直接拋棄字長為1的詞語(包括標點符號),根據漢語規則,選擇“停用詞表”,可以在https://gitee.com/chen_kailun/stopwords下載,里面有四個中文常用停用詞表:

詞表名

詞表文件

中文停用詞表

cn_stopwords.txt

哈工大停用詞表

hit_stopwords.txt

百度停用詞表

baidu_stopwords.txt

四川大學機器智能實驗室停用詞庫

scu_stopwords.txt

選擇“百度停用詞表”,并且直接調用jieba中獲取關鍵詞的函數textrank、extract_tags與我們選出的高頻詞進行比較。

221034eo9lyt49yzstyls5.png

可以看出,重合的內容有一些,比如:“公爵”(果然安德烈才是真主角),更多的是不同關鍵字,jieba選取關鍵詞的方法不明,不過可能不是簡單粗暴的選取出現頻率最高的詞做關鍵詞。

另外,感覺單板電腦性能比起筆記本來說,還是太慢了,在電腦上執行同樣代碼,只是秒級到十秒級,依然拿樹莓派來做比較,手邊的樹莓派4同樣在python2上安裝jieba。同樣代碼進行測試:

221034nj0e1dd50xe0iash.png

比較上述兩個結果,發現樹莓派4b做同樣的工作只需要一小半的時間(71/177、174/466、16/34),這與我們之前用圓周率測試的結果MYS-8MMQ6-8E2D-180-C僅略弱于樹莓派4b(參看:http://bbs.eeworld.com.cn/thread-1175554-1-1.html)不太一樣。

另外,在MYS-8MMQ6-8E2D-180-C運行結果中的“東西:530”很奇怪的變成了“:11679”不知道是不是編碼錯誤。

 

 

回復評論 (8)

沙發 soso

2021-8-25 09:36

嘿嘿 挺好玩的。

不管是哪年,都要加油!繼續為中國電子行業做出小小的貢獻吧! 扣扣 1206973913

板凳 Jacktang

2021-8-25 09:42

圓周率測試米爾MYS-8MMX僅略弱于樹莓派4b,這個是什么原因

4樓 tobot

2021-8-25 14:58
引用: Jacktang 發表于 2021-8-25 09:42 圓周率測試米爾MYS-8MMX僅略弱于樹莓派4b,這個是什么原因

看我帖子啊(盡管有些圖片被吃掉了,有時間我重測補一下),測出來結果就是這樣

5樓 freebsder

2021-8-25 17:02

是不是SD卡的影響?SD卡的系統讀取確實慢很多。

默認摸魚

6樓 tobot

2021-8-25 22:04
引用: freebsder 發表于 2021-8-25 17:02 是不是SD卡的影響?SD卡的系統讀取確實慢很多。

不是,放在mmc里面。

樹莓的是sd卡,但還是很快。

而且我在代碼中計算時間起點的時候,已經將文本文件讀到ddr了,沒有計算讀取文本的時間。

7樓 freebsder

2021-8-26 17:08
引用: tobot 發表于 2021-8-25 22:04 不是,放在mmc里面。 樹莓的是sd卡,但還是很快。 而且我在代碼中計算時間起點的時候,已經將文本 ...

我之前用過不同速度的sd卡,對系統整體影響是體感能感覺的大。高速sd刷命令是刷刷刷的,速度慢的敲了回車還要明顯等一下才執行。

默認摸魚

8樓 tobot

2021-8-26 17:15
引用: freebsder 發表于 2021-8-26 17:08 我之前用過不同速度的sd卡,對系統整體影響是體感能感覺的大。高速sd刷命令是刷刷刷的,速度慢的敲了回車 ...

是的,我以前專門在pdd上買了不同廠商的sd卡(估計都是水貨)做過讀寫測試。。。

9樓 freebsder

2021-8-26 17:20
引用: tobot 發表于 2021-8-26 17:15 是的,我以前專門在pdd上買了不同廠商的sd卡(估計都是水貨)做過讀寫測試。。。

pdd。。。估計不是慢,那是卡了。

默認摸魚

電子工程世界版權所有 京B2-20211791 京ICP備10001474號-1 京公網安備 11010802033920號
    我也要說兩句
    發送
    評論
    萝卜大香蕉