練習1:制作文字云
step 1: 獲得文本。本例的歌詞文本見頁面底部的附件: "分詞素材"。
step 2: 分詞。在線分詞網(wǎng)站:http://www.78901.net/participle/
step 3: wordart制作文字云。https://wordart.com/
-------------------------------------------------------------------------------------------
英文分詞:
string.split()
words=nltk.corpus.gutenberg.words('austen-emma.txt')
略
----------------------------------------------------------------------
中文分詞
用的工具是Python里面的中文JIEBA分詞工具。
安裝jieba
pip install jieba
先進入anaconda的Prompt界面如下圖:

jieba的教程:https://www.cnblogs.com/jiayongji/p/7119065.html
https://blog.csdn.net/qq_27882113/article/details/78126952?locationNum=4&fps=1
import jieba
seg_list = jieba.cut("我來到北京清華大學,感到非常開心", cut_all=True)
print("Full Mode:"+"/".join(seg_list)) # 全模式
seg_list = jieba.cut("我來到北京清華大學,感到非常開心", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精確模式
seg_list = jieba.cut("我來到北京清華大學,感到非常開心")
print("/ ".join(seg_list)) # 默認精確模式
seg_list = jieba.cut_for_search("煙花從正面看,還是從側面看呢?") # 搜索引擎模式
print("/ ".join(seg_list))
注:Python join() 方法用于將序列中的元素以指定的字符連接生成一個新的字符串。
str.join(sequence)
seq = ["C", "h", "i", "n", "a"] # 字符串序列
print ("/".join( seq ))
print ("-*-".join( seq ))
輸出結果:
C/h/i/n/a
C-*-h-*-i-*-n-*-a
練習2:將
"北京故宮是中國明清兩代的皇家宮殿,舊稱為紫禁城,位于北京中軸線的中心,是中國古代宮廷建筑之精華。北京故宮以三大殿為中心,占地面積72萬平方米,建筑面積約15萬平方米,有大小宮殿七十多座,房屋九千余間。是世界上現(xiàn)存規(guī)模最大、保存最為完整的木質結構古建筑之一。"
分詞。并顯示。
學者網(wǎng)

評論 0