python 数据挖掘

数据挖掘概况 数据挖掘定义 数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法挖掘出未知的且具有价值的信息和知识的过程。 数据挖掘和数据分析的区别 项目 数据分析 数据挖掘 定义 根据分析的目的,使用适当的分析方法及工具,对收集来的数据进行处理和分析,提取有价值的信息,发挥数据的作用 从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且具有价值的信息和知识的过程 作用 现状分析、原因分析、预测分析 解决四类问题:分类、聚类、关联、预测 方法 对比分析、分组分析、交叉分析、回归分析等 决策树、神经网络、关联规则、聚类分析等 结果 指标统计量结果,如总和、平均值 输出模型或者规则 模型与算法 模型:定量(数学公式),定性:规则(年龄>30岁,收入>1万元) 算法:实现数据挖掘的技术、模型的具体步骤与方法 数据挖掘常见的问题 分类特点 分类型目标变量(Y)——有监督分类 使用已知目标分类历史的样本来训练 需要对未知分类的样本预测所属的分类 常见的分类方法:决策树、贝叶斯、KNN、支持向量机、神经网络、逻辑回归…… 聚类特点 无分类目标变量——无监督分类 物以类聚的思想 常见的聚类算法:划分聚类、层次聚类、密度聚类、网格聚类、基于模型聚类…… 关联特点 无目标变量——无监督分类 基于数据项关联,识别频繁发生的模式 关联常见的算法:Aprior算法、Carma算法、序列算法...

2019年12月08日 · 士子☀  ·