




全书以识别数据谎言、造假和欺诈为目标,以数据挖掘为技术手段,以Python编程语言为实现工具,完整展现了数据挖掘的全过程。在业务层面,涉及互联网、财务、税务、审计、银行、电商、社保等行业具体应用场景。在技术层面,涉及统计分析、机器学习、深度学习等建模方法。本书具有“庞杂数据可视化,复杂模型简单化,技术语言通俗化”的特点。每个章节开始,综合运用各类图表进行可视化展示,帮助读者对庞杂的数据集有直观认识。在算法层面,将使用到的数学模型进行简化,用形象的比喻、简化的公式、简洁的图表等揭示复杂的算法原理。
作者简介:
刘宁,深圳大学信号与信息处理专业硕士研究生毕业,目前主要从事智慧城市、数字政府建设等工作。曾出版《Python大数据分析与应用实战》、《高维信息几何与几何不变量》等书籍,发表SCI论文“Content-basedimageretrievalusinghigh-dimensionalinformationgeometry”,获开源软件设计大赛大奖等。
目录:
第1章 Python编程基础知识 1
1.1 Python编程快速入门 3
1.2 常见类型数据载入 8
1.3 pandas数据处理 13
1.4 数据呈现 46
本章小结 62
第2章 不同阶段常见的数据陷阱 63
2.1 数据采集阶段 65
2.2 数据分析阶段 69
2.3 数据呈现阶段 83
2.4 数据建模中的常见问题 91
本章小结 97
第3章 利用本福特定律分析公司年报 99
3.1 准备工作 101
3.2 利用本福特定律判断 Meta公司年报可信度 103
3.3 利用本福特定律分析 A股上市公司的年报 114
3.4 本福特定律的延伸 124
本章小结 125
第4章 利用规模法则发现财务数据异常 127
4.1 规模法则 129
4.2 探索性数据分析 131
4.3 利用规模法则进行数据建模 139
本章小结 145
第5章 利用决策树进行信贷数据异常检测 147
5.1 数据可视化与异常数据处理 149
5.2 利用决策树进行逾期风险预判 161
本章小结 177
第6章 利用 AP聚类算法识别电商平台刷单行为 179
6.1 数据建模 181
6.2 探索性数据分析 184
6.3 利用 AP聚类识别刷评论行为 194
本章小结 204
点击下载