這篇文章是學(xué)習(xí)了老曹的微信直播,感覺WordCloud對我的《Python數(shù)據(jù)挖掘課程》非常有幫助,希望這篇基礎(chǔ)文章對你有所幫助,同時自己也是詞云的初學(xué)者,強烈推薦老曹的博客供大家學(xué)習(xí)。如果文章中存在不足或錯誤的地方,還請海涵~
一. 安裝WordCloud
在使用WordCloud詞云之前,需要使用pip安裝相應(yīng)的包。
pip install WordCloud
pip install jieba
其中WordCloud是詞云,jieba是結(jié)巴分詞工具。 問題:在安裝WordCloud過程中,你可能遇到的第一個錯誤如下。
error: Microsoft Visual C++ 9.0 is required. Get it from http://asa.ms/vcpython27
解決方法也很簡單,下載VCForPython27安裝(Microsoft Visual C++ Compiler for Python 2.7)。但是在微軟下載總是沒響應(yīng)。 這是最大的問題,下面我自己提供一個CSDN的地址供大家下載。下載完成,可以進行安裝響應(yīng)的庫函數(shù)。 資源地址:http://download.csdn.net/detail/eastmount/9788218
安裝完成之后,可以正常運行代碼啦。
二. 簡單詞云代碼
下面這部分代碼參考老曹的,希望對你有所幫助。 老曹說:什么是詞云呢?詞云又叫文字云,是對文本數(shù)據(jù)中出現(xiàn)頻率較高的“關(guān)鍵詞”在視覺上的突出呈現(xiàn),形成關(guān)鍵詞的渲染形成類似云一樣的彩色圖片,從而一眼就可以領(lǐng)略文本數(shù)據(jù)的主要表達意思。 代碼如下:
運行結(jié)果如下所示:
這是中文編碼問題,下面講解解決方法。
三. 中文編碼錯誤及解決
在WordCloud安裝的目錄下找到WordCloud.py文件,對源碼進行修改。
編輯wordcloud.py,找到FONT_PATH,將DroidSansMono.ttf修改成msyh.ttf。這個msyh.ttf表示微軟雅黑中文字體。
注意,此時運行代碼還是報錯,因為需要在同一個目錄下放置msyh.ttf字體文件供程序調(diào)用,如下圖所示,這是原來的字體DroidSansMono.ttf。
此時的運行結(jié)果如下所示,這是分析CSDN多篇博客的主題,"閱讀"和"評論"比較多。
也可以采用下面的代碼:
wordcloud = WordCloud(font_path = 'MSYH.TTF').fit_words(word)
四. 照片背景的詞云代碼
下面進一步深入,假設(shè)存在一個圖 "sss3.png",核心代碼如下:
運行結(jié)果如下圖所示,顯示我和寶寶我倆最近兩月的聊天記錄。
一弦一柱思華年,一co一ding夢嚴賢。 希望文章對你有所幫助,尤其是結(jié)合數(shù)據(jù)庫做數(shù)據(jù)分析的人。還是那句話,如果剛好需要這部分知識,你就會覺得非常有幫助,否則只是覺得好玩,這也是在線筆記的作用。如果文章中存在不足或錯誤的地方,還請海涵~
-
數(shù)據(jù)挖掘
+關(guān)注
關(guān)注
1文章
406瀏覽量
24230 -
python
+關(guān)注
關(guān)注
56文章
4792瀏覽量
84627
原文標題:Python數(shù)據(jù)挖掘:WordCloud詞云配置過程及詞頻分析
文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論