数据分析导论
数据分析是对原始数据进行分析得出结论的科学。数据分析指的是分析数据以提高生产力和企业利润的技术。从不同来源提取和清理数据,以分析各种模式。许多数据分析技术和流程被自动化为机械流程和算法,这些流程和算法处理原始数据供人类使用。
数据分析的类型
根据分析数据的目的,数据分析过程主观上分为三类:
Hadoop、数据科学、统计和;其他
- 描述性分析
- 预测分析
- 规定性分析
上述分析类型的特征如下所示:
1。描述性分析
描述性分析侧重于总结过去的数据以得出推论。
定量描述历史数据分布最常用的方法包括:
- 中心趋势的衡量标准:平均值、中位数、四分位数、模式
- 可变性或扩散的衡量标准:范围、四分位间范围、百分位
近年来,通过统计推断过程克服了收集、存储和理解海量数据堆的困难和局限性。利用抽样方法,结合中心极限理论,推导出关于人口数据集统计的广义推论。一家领先的新闻广播公司在选举日在投票站出口收集随机选择的选民的投票细节,以得出有关全体民众偏好的统计推断。
人口数据集的重复采样会产生大量样本。通常,为了生成分层良好、无偏的人口数据集代表,最好采用聚类抽样。在采样数据块上计算感兴趣的统计度量,以获得称为采样分布的样本统计值分布。利用中心极限理论,将抽样分布的特征与总体数据集的特征联系起来。
2。预测分析
预测分析利用历史或过去数据中的模式来估计未来的结果、识别趋势、发现潜在的风险和机会,或预测流程行为。由于预测用例在本质上是合理的,这些方法使用概率模型来测量所有可能结果的可能性。金融公司客户服务门户中的聊天机器人根据客户过去在其web域中的活动主动了解客户的意图或需求。根据预测的上下文,聊天机器人与客户进行交互对话,以快速提供apt服务,并获得更好的客户满意度。
除了根据可用的过去数据预测未来会发生什么的外推场景外,很少有应用程序借助可用的数据样本猜测遗漏的数据条目。给定数据样本范围内缺失值的这种近似在技术上称为插值。一个强大的图像编辑器应用程序支持通过在缺失块处插值特征函数来重建由于超文本而丢失的纹理部分。特征函数可以解释为扭曲图像纹理中图案的数学表示法。
影响预测模型/策略选择的重要因素包括:
- 预测精度:表示预测值和实际值之间的接近程度。预测值与实际值之差的方差越小,则表明预测模型的精度越高</李>
- 预测速度:在实时跟踪应用中,它的优先级很高
- 模型学习率:它取决于模型的复杂性和计算模型参数所涉及的计算</李>
3。规定性分析
规定性分析将所发现的知识作为描述性和预测性分析的一部分,来推荐一个上下文感知的行动方案。采用先进的统计技术和计算密集型优化方法来理解估计预测的分布。
准确地说,在预测分析过程中估计的每个结果的影响和益处都会被评估,以针对给定的一组条件做出启发式和时间敏感的决策。一家股票市场咨询公司对投资者投资组合中股票的预测价格进行SWOT(优势、劣势、机会和威胁)分析,并向客户推荐最佳买入卖出期权。
数据分析中的流程
数据分析过程包括以下不同的数据处理阶段:
1。数据提取
从不同类型的多个数据源(包括网页、数据库、遗留应用程序)摄取数据会产生不同格式的输入数据集。
输入数据分析流程的数据格式大致可分为:
- 结构化数据对数据类型以及相关字段长度或字段分隔符有明确的定义。这类数据可以像存储在关系数据库(RDBMS)中的内容一样轻松查询</李>
- 半结构化数据缺乏精确的布局定义,但可以根据标准模式或其他元数据规则识别、分离和分组数据元素。XML文件使用标记来保存数据,而Javascript对象表示法文件(JSON)以名称-值对的形式保存数据。NoSQL(不仅是SQL)数据库,比如MongoDB和Coach base,也用于存储半结构化数据</李>
- 非结构化数据包括社交媒体对话、图像、音频片段等。传统的数据解析方法无法理解这些数据。非结构化数据存储在数据池中</李>
结构化和半结构化数据的数据解析实现被整合到各种ETL工具中,如从头算、Informatica、Datastage和Talend等开源替代工具。
2。数据清理和转换
清理解析后的数据是为了确保数据的一致性和相关数据在流程的后期阶段的可用性。
数据分析中的主要清理操作包括:
- 检测和消除数据量中的异常值</李>
- 删除数据集中的重复项</李>
- 在理解功能或用例的情况下处理数据记录中缺失的条目</李>
- 数据记录(如“2月31日”)中允许的字段值的验证在任何日期字段中都不能是有效值</李>
清理后的数据被转换成合适的格式来分析数据。
数据转换包括:
- 不需要的数据记录的过滤器</李>
- 连接从不同来源获取的数据</李>
- 数据的聚合或分组</李>
- 数据类型转换</李>
3。关键绩效指标/洞察力推导
数据挖掘、深度学习方法用于评估关键绩效指标(KPI),或从清理和转换的数据中获得有价值的见解。基于分析的目标,使用各种模式识别技术(如k-means聚类、SVM分类、贝叶斯分类器等)和机器学习模型(如马尔可夫模型、高斯混合模型(GMM))进行数据分析。
概率模型在训练阶段学习最优模型参数,在验证阶段,使用k-折叠交叉验证测试对模型进行测试,以避免过拟合和欠拟合错误。数据分析最常用的编程语言是R和Python。两者都有一套丰富的库(SciPy、NumPy、Pandas),它们都是开源的,可以执行复杂的数据分析。
4。数据可视化
数据可视化是清晰有效地展示未发现模式的过程,使用图形、绘图、仪表盘和图形从数据中得出结论。
- QlikView、Tableau等数据报告工具以不同的粒度级别显示KPI和其他衍生指标</李>
- 报告工具使最终用户能够使用用户友好的拖放界面,使用pivot和drill-down选项创建自定义报告</李>
- 交互式数据可视化库,如D3。js(数据驱动文档)、HTML5图表等。。用于提高探索分析数据的能力</李>