python 数据挖掘

数据挖掘概况 数据挖掘定义 数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法挖掘出未知的且具有价值的信息和知识的过程。 数据挖掘和数据分析的区别 项目 数据分析 数据挖掘 定义 根据分析的目的,使用适当的分析方法及工具,对收集来的数据进行处理和分析,提取有价值的信息,发挥数据的作用 从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且具有价值的信息和知识的过程 作用 现状分析、原因分析、预测分析 解决四类问题:分类、聚类、关联、预测 方法 对比分析、分组分析、交叉分析、回归分析等 决策树、神经网络、关联规则、聚类分析等 结果 指标统计量结果,如总和、平均值 输出模型或者规则 模型与算法 模型:定量(数学公式),定性:规则(年龄>30岁,收入>1万元) 算法:实现数据挖掘的技术、模型的具体步骤与方法 数据挖掘常见的问题 分类特点 分类型目标变量(Y)——有监督分类 使用已知目标分类历史的样本来训练 需要对未知分类的样本预测所属的分类 常见的分类方法:决策树、贝叶斯、KNN、支持向量机、神经网络、逻辑回归…… 聚类特点 无分类目标变量——无监督分类 物以类聚的思想 常见的聚类算法:划分聚类、层次聚类、密度聚类、网格聚类、基于模型聚类…… 关联特点 无目标变量——无监督分类 基于数据项关联,识别频繁发生的模式 关联常见的算法:Aprior算法、Carma算法、序列算法...

2019年12月08日 · 士子☀  · 

python 数据分析

python与数据分析概况 数据分析概况 数据分析,是指用适当的分析方法,对收集的数据进行分析,总结规律,提取有价值的信息,形成有效结论的过程。 数据分析的作用 现状分析 原因分析 预测分析 数据分析的流程 明确目的和思路 - 做任何事情都要有目标,一切都要以解决问题为中心 - 搭建分析框架,确定从哪几个角度,用那些指标进行分析 数据准备 - 主要数据来源有数据库、公开出版物、互联网以及市场调查 数据处理 - 数据处理是指对收集到的数据进行加工整理,形成适合数据分析的样式,是数据分析必不可少的阶段 数据分析 - 基础分析方法:对比分析、分组分析、结构分析、分布分析、交叉分析、矩阵分析等方法; - 高级分析方法:回归分析、聚类分析、决策树、神经网络、因子分析、时间序列分析等方法; 数据展示 - 数据分析结果主要通过表格和图形的方式来呈现,即用图表说话 报告撰写 - 数据分析报告是对整个数据分析的过程的一个总结和呈现,通过报告,把数据分析的起因、过程、结果以及建议完整诚信出来,供决策者参考 python 概况(3W2H法) What:什么是python: 一种免费的、自由的编程语言,是一款强大的数据分析、数据挖掘的工具。 Who:谁在使用python:系统应用、互联网、统计分析、数据挖掘、数据可视化等 Why:为什么使用python:python之一种解释性、动态语言,具有明确而高效的语法;python不断地从其他优秀的数学软件引入高效的数据开发包;python被称为可执行的伪代码,有着优美的代码风格。 How:如何学习python How Continue:如何持续地去提高python的技能:实战案例,熟练操作;理解算法,实战操作。 python 安装 安装anaconda 使用anaconda 数据准备 python 数据类型 定义:按照python定义的格式,将数据的数据类型告知python; 1 '1' True False 赋值:将定义好的数据,传递给变量的类型; a = 1, b = True, c = 2 变量:数据赋值的对象,通过变量去操作数据; d = a * c, b = 3 变量的命名规则 由a-z,A-Z,数字,下划线(_)组成,首字母不能为数字和下划线(_); 大小写敏感,变量a和变量A是不同的变量; 变量名不能为python中的保留字; # python 中的保留字 and or not assert finally exec break for pass class from print continue global raise def if return del import try elif in while else is with except lambda yield 三种常用的数据类型 类型 注释 Logical 逻辑型 Numberic 数值型 Character 字符型 Logical逻辑型:布尔型,只有两种取值(0和1、真和假) 值 注释 True 真 False 假 运算规则...

2019年10月08日 · 士子☀  ·