Python数据分析(1)概述

数据处理流程

获取数据 > 探索分析与可视化 > 预处理理论 > 分析建模 > 模型评估

数据获取来源

1、数据仓库

数据库/数据仓库

数据库面向业务存储,仓库面向主题存储

数据库针对应用,仓库针对分析

主题:较高层次上对分析对象数据的一个完整且一致的描述

2、监测与抓取

监测:传感器获取数据

抓取:解析网口、接口、文件的信息 (爬虫)

python常用工具

抓取包:urllib、urllib2、requests、scrapy

解析包:PhatomJS、beautifulSoup、Xpath(lxml)

3、填写、埋点、日志

用户填写

APP或网页埋点

操作日志

4、计算

数据学习网站

kaggle:https://www.kaggle.com/

阿里天池:https://tianchi.aliyun.com/

图片数据集:http://www.image-net.org/

https://opensource.google/projects/open-images-dataset

统计局、政府机构、公司财报

环境配置

IDE: PyCharm,Anaconda

第三库

慕课 python3数据分析与数据挖掘实战