Python词云生成器文字云软件

admin · 发表于 2024-10-1 22:30:30

下载地址

尊敬的游客请先登录再下载

词云图制作软件V22等14个文件.rar

2024-10-1 22:30 大小：41.87 MB 下载次数：59

admin · 发表于 2024-10-1 22:31:08

前言

本文介绍了如何使用Python编写代码来生成词云图。在生成词云图之前，我们需要导入一些必需的库，包括numpy、wordcloud、PIL、matplotlib.pyplot和openpyxl。其中，numpy用于数据处理，wordcloud用于生成词云，PIL用于图像处理，matplotlib.pyplot用于在笔记本中显示图片，openpyxl用于读取词频Excel文件。此外，还需要准备一个背景图片作为词云的背景。
我们通过读取存放词频Excel文件的文件夹路径，获取文件夹下的所有文件，并将文件名与路径拼接起来，存放在一个列表中。然后，我们使用PIL库中的Image.open()函数读取背景图片，并将其转换为numpy.array格式。
使用循环依次处理每个词频Excel文件。首先，使用load_workbook()函数加载词频Excel文件，并通过wb.active获取活动工作表。然后，初始化一个空的字典wordFreq，用于存储每个单词及其对应的频率。通过遍历活动工作表中的行，获取单词和频率，并将它们存储到wordFreq字典中。
定义了词云的样式，并根据wordFreq字典生成词云图。生成的词云图将保存在指定文件夹下，并在notebook中显示出来。

导入所需库

2b232dc139cb4098c252ec9f7464df70.png.jpg

代码语言：javascript

复制

import numpy as np # numpy数据处理库import wordcloud # 词云库from PIL import Image # 图像处理库，用于读取背景图片import matplotlib.pyplot as plt # 图像展示库，以便在notebook中显示图片from openpyxl import load_workbook # 读取词频Excel文件import os # 获取词频Excel文件路径

numpy：用于处理数据的库。
wordcloud：用于生成词云的库。
PIL：用于图像处理的库，这里主要用于读取背景图片。
matplotlib.pyplot：用于在notebook中显示图片。
openpyxl：用于读取词频Excel文件的库。
os：用于获取词频Excel文件的路径。

将存好的Excel词频表读取成字典

28feb143a809da2f1758f17924907bb8.png.jpg

代码语言：javascript

复制

path = '词频' # 文件所在文件夹files = [path + "/" + i for i in os.listdir(path)] # 获取文件夹下的文件名，并拼接完整路径maskImage = np.array(Image.open('background.png')) # 定义词频背景图

path：存放Excel词频表的文件夹的路径。
files：使用列表解析式获取文件夹下的所有文件名，并将文件名与路径拼接起来，存放在files列表中。
maskImage：使用PIL库中的Image.open()函数读取一张背景图片，并将其转换为numpy.array格式。

循环处理每个词频Excel文件

e53600f7ea04cd42ffd71df702512e53.png.jpg

代码语言：javascript

复制

for file in files: wb = load_workbook(file) # 加载词频Excel文件 ws = wb.active # 获取活动工作表 wordFreq = {} # 存储单词和对应的频率的字典 for i in range(2, ws.max_row + 1): word = ws["A" + str(i)].value # 获取单词 freq = ws["B" + str(i)].value # 获取频率 wordFreq[word] = freq # 将单词和频率存储到字典中

遍历files列表中的每个文件名，用load_workbook()函数加载词频Excel文件。
使用wb.active获取活动工作表。
初始化一个空的字典wordFreq，用于存储每个单词及其对应的频率。
遍历活动工作表中的行（从第2行到最后一行），通过ws["A" + str(i)].value和ws["B" + str(i)].value分别获取单词和频率，并将它们存储到wordFreq字典中。

定义词云样式和生成词云图

66f1299be69f9e754efa7a24fadee241.png.jpg

代码语言：javascript

复制

wc = wordcloud.WordCloud( font_path='../PingFangBold.ttf', # 设置字体 mask=maskImage, # 设置背景图 max_words=500, # 最多显示词数 max_font_size=100 # 字号最大值)wc.generate_from_frequencies(wordFreq) # 根据字典生成词云图wc.to_file("词云图/{}.png".format(file.split("/")[1][:4])) # 将词云图保存到指定文件夹plt.imshow(wc) # 显示词云图plt.axis('off') # 关闭坐标轴plt.show() # 显示图像

创建一个词云对象wc，通过传入参数设置词云的样式，包括字体、背景图、最多显示词数和字号最大值等。
使用generate_from_frequencies()方法根据字典wordFreq生成词云图。
使用to_file()方法将词云图保存到指定文件夹下，文件名以原始文件名的前四个字符命名。
使用plt.imshow()显示词云图。
使用plt.axis('off')关闭坐标轴。
使用plt.show()显示图像。

完整代码代码语言：javascript

复制

import numpy as np # numpy数据处理库import wordcloud # 词云库from PIL import Image # 图像处理库，用于读取背景图片import matplotlib.pyplot as plt # 图像展示库，以便在notebook中显示图片from openpyxl import load_workbook #读取词频Excel文件import os #获取词频Excel文件路径#将存好的Excel词频表读取成字典path='词频' #文件所在文件夹files = [path+"/"+i for i in os.listdir(path)] #获取文件夹下的文件名,并拼接完整路径maskImage = np.array(Image.open('background.png')) # 定义词频背景图for file in files: #将词频Excel文件读取为字典 wb = load_workbook(file) ws = wb.active wordFreq = {} for i in range(2,ws.max_row+1): word = ws["A"+str(i)].value freq = ws["B"+str(i)].value wordFreq[word] = freq #定义词云样式 wc = wordcloud.WordCloud( font_path='../PingFangBold.ttf', # 设置字体 mask= maskImage, # 设置背景图 max_words=500, # 最多显示词数 max_font_size=100) # 字号最大值 #生成词云图 wc.generate_from_frequencies(wordFreq) # 从字典生成词云 #保存图片到指定文件夹 wc.to_file("词云图/{}.png".format(file.split("/")[1][:4])) #在notebook中显示词云图 plt.imshow(wc) # 显示词云 plt.axis('off') # 关闭坐标轴 plt.show() # 显示图像

运行效果截图

86b78a060959c23f7b981f6f3565c8e9.png.jpg

知识点

font_path：字体路径。字体存在的目录，在想要的字体上点右键，选择“属性”可查看其名称，然后连同路径复制，赋给font_path即可。比如本例使用的黑体。需要注意的是，若是中文词云，需要选中文字体。

width,height：画布的宽度和高度，单位为像素。若没设置mask值，才会使用此默认值400*200。 margin：词间距。 ranks_only：文档未说明。 prefer_horizontal：词语横排显示的概率(默认为90%，则竖排显示概率为10%) mask：用于设定绘制模板，需要是一个nd-array（多维数组），所以在用Image.open()读取图片后，需要用np.array转换成数组。另外mask参数有设定的话，画布的大小会由词频背景图的大小决定。这个经常使用，因为我们更倾向于自定义模板。 scale：比例尺，用于放大画布的尺寸。一般使用默认值。 color_func：颜色函数，一般不用。 max_words：词云图中最多显示词的字数，设定一个值，可让那些出现次数极少的词不显示出来。 min_font_size：字号最小值。 stopwords：设置不想显示的词。 random_state：文档未说明。 background_color：词云图背景色，默认为黑色。可根据需要调整。 max_font_size：字号最大值。 font_step：字体的步长，一般使用默认。大于1的时候可提升运算速度，但匹配较差。 mode：当设置为"RGBA" 且background_color设置为"None"时可产生透明背景。 relative_scaling：词频对字体大小的影响度，一般使用默认。 regexp：正则表达式分割输入的字符。一般是先处理好才给到wordcloud，所以基本不用。 collocations：是否包含两个词的搭配，若使用了generate_from_frequencies方法则忽略此参数。一般不用。 colormap：每个词对应的颜色，若设置了color_func则忽略此参数。 normalize_plurals：是否移除英文复数单词末尾的s，比如可将word和words视同为一个词，并将词频算到word头上。如果使用了generate_from_frequencies方法则忽略此参数。 contour_width：如果mask有设置，且contour_width>0，将会绘制mask轮廓。 contour_color：mask轮廓的颜色，默认为黑色。 repeat：当词不足以满足设定的max_words时，是否重复词或短语以使词云图上的词数量达到max_words include_numbers：是否将数字作为词。 min_word_length：设置一个词包含的最少字母数量。 collocation_threshold：界定英文中的bigrams，对于中文不适用。

结束语

本文介绍了如何使用Python编写代码来生成词云图。首先导入所需的库，然后通过循环处理每个词频Excel文件，将它们读取成字典。接下来定义词云的样式并生成词云图。最后将生成的词云图保存到指定文件夹，并在notebook中显示出来。通过本文的学习，我们可以轻松地使用Python生成词云图，从而更好地分析文本数据中的词频信息。

		自动登录	找回密码
密码			立即注册

[平面制作] Python词云生成器文字云软件

浏览过的版块

[平面制作] Python词云生成器 文字云软件

浏览过的版块

[平面制作] Python词云生成器文字云软件