机器学习实战中文版怎么样?最新电子版pdf下载:
机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存、谋发展的决定性手段,这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。
本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。
全书通过精心编排的实例,切入日常工作任务,摒弃学术化语言,利用高效的可复用Python代码来阐释如何处理统计数据,进行数据分析及可视化。通过各种实例,读者可从中学会机器学习的核心算法,并能将其运用于一些策略性任务中,如分类、预测、推荐。另外,还可用它们来实现一些更高级的功能,如汇总和简化等。
目 录
第一部分 分类
第1章 机器学习基础 2
1.1 何谓机器学习 3
1.2 关键术语 5
1.3 机器学习的主要任务 7
1.4 如何选择合适的算法 8
1.5 开发机器学习应用程序的步骤 9
1.6 Python语言的优势 10
1.7 NumPy函数库基础 12
1.8 本章小结 13
第2章 k-近邻算法 15
2.1 k-近邻算法概述 15
2.2 示例:使用k-近邻算法改进约会网站的配对效果 20
2.3 示例:手写识别系统 28
2.4 本章小结 31
第3章 决策树 32
3.1 决策树的构造 33
3.2 在Python中使用Matplotlib注解绘制树形图 42
3.3 测试和存储分类器 48
3.4 示例:使用决策树预测隐形眼镜类型 50
3.5 本章小结 52
第4章 基于概率论的分类方法:朴素贝叶斯 53
4.1 基于贝叶斯决策理论的分类方法 53
4.2 条件概率 55
4.3 使用条件概率来分类 56
4.4 使用朴素贝叶斯进行文档分类 57
4.5 使用Python进行文本分类 58
4.6 示例:使用朴素贝叶斯过滤垃圾邮件 64
4.7 示例:使用朴素贝叶斯分类器从个人广告中获取区域倾向 68
4.8 本章小结 72
第5章 Logistic回归 73
5.1 基于Logistic回归和Sigmoid函数的分类 74
5.2 基于最优化方法的最佳回归系数确定 75
5.3 示例:从疝气病症预测病马的死亡率 85
5.4 本章小结 88
第6章 支持向量机 89
6.1 基于最大间隔分隔数据 89
6.2 寻找最大间隔 91
6.3 SMO高效优化算法 94
6.4 利用完整Platt SMO算法加速优化 99
6.5 在复杂数据上应用核函数 105
6.6 示例:手写识别问题回顾 111
6.7 本章小结 113
第7章 利用AdaBoost元算法提高分类
性能 115
7.1 基于数据集多重抽样的分类器 115
7.2 训练算法:基于错误提升分类器的性能 117
7.3 基于单层决策树构建弱分类器 118
7.4 完整AdaBoost算法的实现 122
7.5 测试算法:基于AdaBoost的分类 124
7.6 示例:在一个难数据集上应用AdaBoost 125
7.7 非均衡分类问题 127
7.8 本章小结 132
第二部分 利用回归预测数值型数据
第8章 预测数值型数据:回归 136
8.1 用线性回归找到最佳拟合直线 136
8.2 局部加权线性回归 141
8.3 示例:预测鲍鱼的年龄 145
8.4 缩减系数来“理解”数据 146
8.5 权衡偏差与方差 152
8.6 示例:预测乐高玩具套装的价格 153
8.7 本章小结 158
第9章 树回归 159
9.1 复杂数据的局部性建模 159
9.2 连续和离散型特征的树的构建 160
9.3 将CART算法用于回归 163
9.4 树剪枝 167
9.5 模型树 170
9.6 示例:树回归与标准回归的比较 173
9.7 使用Python的Tkinter库创建GUI 176
9.8 本章小结 182
第三部分 无监督学习
第10章 利用K-均值聚类算法对未标注数据分组 184
10.1 K-均值聚类算法 185
10.2 使用后处理来提高聚类性能 189
10.3 二分K-均值算法 190
10.4 示例:对地图上的点进行聚类 193
10.5 本章小结 198
第11章 使用Apriori算法进行关联分析 200
11.1 关联分析 201
11.2 Apriori原理 202
11.3 使用Apriori算法来发现频繁集 204
11.4 从频繁项集中挖掘关联规则 209
11.5 示例:发现国会投票中的模式 212
11.6 示例:发现毒蘑菇的相似特征 220
11.7 本章小结 221
第12章 使用FP-growth算法来高效发现频繁项集 223
12.1 FP树:用于编码数据集的有效方式 224
12.2 构建FP树 225
12.3 从一棵FP树中挖掘频繁项集 231
12.4 示例:在Twitter源中发现一些共现词 235
12.5 示例:从新闻网站点击流中挖掘 238
12.6 本章小结 239
第四部分 其他工具
第13章 利用PCA来简化数据 242
13.1 降维技术 242
13.2 PCA 243
13.3 示例:利用PCA对半导体制造数据降维 248
13.4 本章小结 251
第14章 利用SVD简化数据 252
14.1 SVD的应用 252
14.2 矩阵分解 254
14.3 利用Python实现SVD 255
14.4 基于协同过滤的推荐引擎 257
14.5 示例:餐馆菜肴推荐引擎 260
14.6 基于SVD的图像压缩 266
14.7 本章小结 268
第15章 大数据与MapReduce 270
15.1 MapReduce:分布式计算的框架 271
15.2 Hadoop流 273
15.3 在Amazon网络服务上运行Hadoop程序 275
15.3.1 AWS上的可用服务 276
15.4 MapReduce上的机器学习 282
15.5 在Python中使用mrjob来自动化MapReduce 283
15.6 示例:分布式SVM的Pegasos算法 286
15.7 你真的需要MapReduce吗? 292
15.8 本章小结 292
附录A Python入门 294
附录B 线性代数 303
附录C 概率论复习 309
附录D 资源 312
索引 313
版权声明 316