Python可视化–词云

词云

词云创建的参考示例


安装wordcloud

pip install wordcloud

Single Word

用重复的单个单词组成单词云

Minimal Example

使用默认参数从美国宪法生成方形词云

Masked wordcloud

使用遮罩可以生成任意形状的词云

Using frequency

使用词频字典

Image-colored wordcloud

您可以使用ImageColorGenerator中实现的基于图像的着色策略为词云着色。它使用源图像中单词占据的区域的平均颜色。您可以将其与遮罩结合使用-当作为遮罩传递时,WordCloud对象会将纯白色解释为“不占用”。如果要将白色作为合法颜色,则可以将其他图像传递给“蒙版”,但要确保图像形状对齐

Using custom colors

使用重新着色方法和自定义着色功能

Image-colored wordcloud with boundary map

图像彩色词云的精巧版本,它也考虑了图像中的边缘。重新创建类似于鹦鹉示例的图像

Create wordcloud with chinese

显示了如何将wordcloud与中文一起使用。首先,您需要一个中文分词库jieba,现在jieba是python中最优雅,最受欢迎的中文分词工具。如您所见,同时使用jieba和wordcloud非常方便

Colored by Group Example

生成一个词云,该词云基于从颜色到词的预定义映射为词分配颜色

https://amueller.github.io/word_cloud/index.html

https://github.com/amueller/word_cloud

Python数据分析(1)概述

数据处理流程

获取数据 > 探索分析与可视化 > 预处理理论 > 分析建模 > 模型评估

数据获取来源

1、数据仓库

数据库/数据仓库

数据库面向业务存储,仓库面向主题存储

数据库针对应用,仓库针对分析

主题:较高层次上对分析对象数据的一个完整且一致的描述

2、监测与抓取

监测:传感器获取数据

抓取:解析网口、接口、文件的信息 (爬虫)

python常用工具

抓取包:urllib、urllib2、requests、scrapy

解析包:PhatomJS、beautifulSoup、Xpath(lxml)

3、填写、埋点、日志

用户填写

APP或网页埋点

操作日志

4、计算

数据学习网站

kaggle:https://www.kaggle.com/

阿里天池:https://tianchi.aliyun.com/

图片数据集:http://www.image-net.org/

https://opensource.google/projects/open-images-dataset

统计局、政府机构、公司财报

环境配置

IDE: PyCharm,Anaconda

第三库

慕课 python3数据分析与数据挖掘实战