Machine Learning with PySpark - 2019.Pdf
使用PySpark构建机器学习模型,自然语言处理应用程序和推荐系统,以解决各种业务挑战。
本书从Spark的基础知识及其演变开始,然后介绍了传统机器学习算法的整个范围,以及使用PySpark的自然语言处理和推荐系统。使用PySpark进行机器学习向您展示如何构建有监督的机器学习模型,如线性回归,逻辑回归,决策树和随机森林。您还将看到无监督的机器学习模型,例如K-means和层次聚类。
本书的主要部分侧重于特征工程,以便使用PySpark创建有用的功能来训练机器学习模型。自然语言处理部分包括文本处理,文本挖掘和嵌入分类。阅读本书后,您将了解如何使用PySpark的机器学习库来构建和培训各种机器学习模型。此外,您可以熟悉相关的PySpark组件,例如数据提取,数据处理和数据分析,您可以使用它们来开发数据驱动的智能应用程序。您将学习如何构建一系列受监督和无监督的机器学习算法使用Spark MLlib库实现机器学习算法使用Spark MLlib库开发推荐系统处理与特征工程,类平衡,偏差和方差以及交叉验证相关的问题以构建最佳拟合模型。
本书适用于数据科学和机器学习专业人员。
参考资料
本文涉及的python测试开发库 谢谢点赞!
Format Pdf
Page Count 223 Pages
https://github.com/Apress/machine-learning-with-pyspark 20+ 星
另外一个开源教程 https://github.com/awantik/pyspark-tutorial 100+ 星
一个开源教程 https://github.com/zekelabs/machine-learning-using-pyspark <10 星