SAS数据挖掘与分析项目实战

《SAS数据挖掘与分析项目实战》

  • 出版社:中国铁道出版社
  • ISBN:9787113268503
  • 版次:1
  • 商品编码:12941638
  • 品牌:中国铁道出版社
  • 包装:平装
  • 开本:16开
  • 出版时间:2020-08-01
  • 用纸:胶版纸
  • 页数:336
基本介绍书籍目录点评信息
  • 书籍内容

    本书讲述了在实际运营中核心的数据挖掘分析案例,为读者重点展示了SAS在精准营销、客户流失预警、客户分群、广告点击、信用卡欺诈、信用风险评分等领域中的具体应用。 本书分为16章,以数据挖掘基础知识介绍开始,循序渐进地讲述了Kaggle数据科学社区调查数据分析、考察汽车耗油量与里程数的关系分析、影响汽车销售的关键因子分析、健身运动中耗氧量回归分析、旅客量预测分析、客户群分类判别分析、销售公司的客户分群、员工离职预测、广告点击率预测、产品精准营销模型、电信客户流失预警、银行贷款用户风险分析、信用风险评分卡的开发以及信用卡反欺诈预测模型等案例。后一章介绍了与数据挖掘项目中的时间成本有较大关系的SAS数据清洗的相关技术。 本书案例丰富,实用性较强,特别适合从事数据挖掘、统计建模、机器学习、商业分析、运营分析等工作的人员使用,也可作为数学、统计学、金融管理、计算机等专业的学生学习SAS数据挖掘应用的参考书籍。

    编辑推荐

    本书的特色  案例丰富:本书不空讲SAS语法和模型算法,以大量企业实际案例、清晰简明的解释以及尽可能少的专用术语来介绍SAS的实际应用。  内容全面:覆盖企业中的热点应用案例,比如精准营销、流失预警、客户分群、信用评分、广告点击率预测等。如果读者是公司的数据分析师,则可以直接参考案例进行相关模型研发。  较新的软件版本:以SAS 94软件版本,向读者介绍如何使用SAS进行数据挖掘项目的开发工作。  配备数据和源代码:提供所有案例的数据文件和SAS源代码,供读者操作练习、快速学习。  学习路线图清晰:每个案例均按照数据挖掘项目的一般工作流程逐步展开。

    作者简介

    尚涛,毕业于上海交通大学数学系,拥有数学专业硕士学位,研究方向为数据挖掘及机器学习领域,曾任职于支付平台、平安科技、易方达基金,现任职于南方基金,专注于信用风险评分、精准营销、推荐系统、文本挖掘等领域数据挖掘项目的研发工作以及企业的数据化运营落地工作,拥有超过10年数据挖掘和优化建模的经验,以及多年使用SPSS、SAS、R、Python等建模软件的经验。在从业经历中,多次为所在公司的业务方提供数据挖掘技术服务,成功实施了众多深受好评的数据挖掘项目,取得了较好的业务价值。
  • 第1章数据挖掘知识介绍 11数据挖掘算法简介 111分类 112聚类 113关联 114预测 12分类模型的相关概念 121数据说明 122混淆矩阵 123ROC曲线和AUC面积 124提升(Lift) 125KS曲线 13数据挖掘过程中关键问题处理 131数据准备 132定义变量及数据抽样 133变量选择 134缺失值处理 135模型比较 14SAS STAT介绍 第2章Kaggle数据科学社区调查分析 21描述性统计分析的主要内容 211数据的频数分析 212数据的集中趋势分析 213数据的离散程度分析 214数据的分布 215绘制统计图 22SAS描述性分析过程介绍 221PROC FREQ过程 222PROC MEANS过程 223PROC UNIVARIATE过程 23调查数据说明 24数据探索 25Kaggle社区用户画像分析 251人员属性 252工作属性 253技能属性 254学习属性 第3章考察汽车耗油量与里程数的关系 31项目背景 32非线性回归简介 33非线性回归过程说明 34广义线性模型过程 35数据文件说明 36数据探索 37模型建立 38结果分析 第4章影响汽车销售的关键因子分析 41数据说明 42因子分析的基本原理 421因子分析模型 422因子旋转 423计算因子得分 43因子分析的步骤和SAS过程 431因子分析的步骤 432FACTOR过程说明 44模型开发及结果解释 45主成分分析和因子分析的区别 第5章健身运动中耗氧量回归分析 51线性回归模型 52REG过程 521过程选项 522MODEL语句选项 523关键字选项 524PLOT语句选项 53数据说明 54相关性分析 55回归分析 56逐步回归 561逐步回归过程 562利用逐步回归选择变量 第6章旅客量预测分析 61项目背景 62数据文件说明 63平稳随机过程概述 631自回归模型 632滑动平均模型 633自回归滑动平均模型 64ARMA模型的识别 641基于相关函数的定阶方法 642利用信息准则法定阶 65模型参数的估计 66时间序列的分析步骤 67SAS系统的ARIMA过程 671ARIMA语句选项 672IDENTIFY语句选项 673ESTIMATE语句选项 674FORECAST语句选项 675ARIMA建模过程 68数据探索 681平稳性检验 682序列变换 69自相关函数检验 610模型参数估计 611预测 第7章客户群分类判别分析 71业务背景及数据说明 72判别分析的数学原理 73判别分析的SAS过程 731DISCRIM过程 732CANDISC过程 733STEPDISC过程 74数据探索 75客户群判别模型建立 76模型应用 第8章销售公司的客户分群分析 81项目背景 811客户细分的概念 812客户细分模型 813客户细分模型的基本流程 814细分方法介绍 82聚类分析的数学原理 821聚类的数学原理 822距离和相似距离 823聚类方法 824聚类数的确定 825聚类分析步骤 83SAS中的聚类过程 831Cluster系统聚类过程 832Fastclus快速聚类过程 833Varclus方差聚类过程 834Tree聚类树型输出过程 84数据文件说明 85数据探索 851变量衍生 852变量标准化 853变量相关性分析 86模型建立 87客户画像分析 88模型应用 第9章员工离职预测 91项目背景 92数据说明 93数据探索 94数据建模 941变量相关分析 942决策树建模 95模型评估与应用 第10章广告点击率预测 101业务背景 1011网络广告发展情况 1012计算广告学 102数据说明 103数据不平衡的处理方式 1031收集更多的数据 1032改变模型性能评价指标 1033重新对样本进行采样 104模型开发与评估 1041样本欠抽样 1042模型开发 1043模型评估 105CTR模型的发展脉络 第11章产品精准营销推荐 111项目背景 1111业务背景 1112数据说明 1113项目目标 112数据探索 1121变量描述性统计分析 1122变量缺失值处理 1123变量衍生处理 113模型建设 1131欠抽样 1132数据集分割 1133模型开发 1134模型评估 114模型应用 1141产品自动化推荐系统 1142易受到市场环境等各种因素的影响 1143人群特征漂移需要不断优化模型 第12章通信客户流失预警模型 121项目背景 1211客户流失分析要解决的问题 1212分析客户流失的类型 1213如何进行客户流失分析 122数据说明 123因变量定义 124样本抽取 125数据探索 126模型开发 1261变量衍生 1262变量选择 1263相关性处理 1264模型结果 127模型评估 1271开发样本上的模型性能 1272验证样本上的模型性能 128模型应用 第13章银行贷款用户风险分析 131案例背景 132因变量定义 133样本抽取 134数据探索 1341为什么要进行数据探索 1342数据分布情况 135模型建设 1351变量衍生 1352变量选择 1353共线性处理 1354模型结果 136模型性能评估 1361开发样本上的模型性能 1362验证样本上的模型性能 137模型应用 第14章信用风险评分卡开发 141信用评分模型简介 142信用卡模型的开发过程 143案例背景及项目目标确定 1431项目背景说明 1432确定项目目标 144数据获取 145数据质量检验 146项目参数设定 1461排除规则确定 1462表现和观察窗口 1463确定“坏”的定义 1464滚动率分析 1465客户分群 147数据探索 1471数据分布分析 1472缺失值的处理 1473极端值的处理 148模型开发 1481证据权重(WOE) 1482信息值(IV) 1483变量选择 1484变量分组 1485变量相关性分析 1486模型迭代开发 149模型评估 1491混淆矩阵 1492KS统计量 1493ROC曲线 1410评分卡创建 14101评分尺度变换 14102变量分值分配 1411评分卡实施 1412监测与报告 1413拒绝推断 1414运用评分卡需要注意的事项 第15章信用卡反欺诈预测模型 151信用卡欺诈概述 1511信用卡欺诈的种类 1512智能反欺诈管理 1513其他反欺诈技术 152案例背景 153数据探索 154模型开发 1541不使用分层抽样策略 1542使用分层抽样策略 155总结 第16章SAS数据清洗技术 161数据清洗简介 1611数据清洗 1612数据探索 162数据导入 1621读入数据到SAS系统的方法 1622指定数据文件的位置 1623读入由空格分隔的原始数据 1624读入列对齐的原始数据 1625读入非标准格式的数据 1626读入一个观测占据多行的数据文件 1627读入原数据文件的一部分 1628IMPORT过程读入分隔数据文件 163数据格式处理 164SAS函数 1641字符函数 1642数值函数 165缺失值处理 166数据抽样 1661等比例分层抽样 1662不等比例分层抽样 1663分层抽样
微信公众号

热门文章

更多