剑指Offer-数据结构与算法练习题
《剑指Offer》中的一些常见练习题,包含二叉树、链表以及其他的一些常见算法练习题;最近又系统性地做了下,大致整理了一下解题思路,均用Python实现,持续更新中…
《剑指Offer》中的一些常见练习题,包含二叉树、链表以及其他的一些常见算法练习题;最近又系统性地做了下,大致整理了一下解题思路,均用Python实现,持续更新中…
翻译自:http://spark.apache.org/docs/2.3.2/ml-tuning.html
介绍如何使用MLlib的工具来调整ML算法和Pipelines。 内置的交叉验证和其他工具允许用户优化算法和pipelines中的超参数。
挖掘频繁项目,项目集,子序列或其他子结构通常是分析大规模数据集的第一步,这是数据挖掘多年来一直活跃的研究课题。 可以参考一下维基百科中关于关联规则学习的基础知识。
协同过滤通常用于推荐系统。这些技术旨在根据user-item关联矩阵的缺失条目。 spark.ml目前支持基于模型的协同过滤,其中users和items由一小组可用于预测缺失条目的潜在因子(latent factors)描述。 spark.ml使用交替最小二乘(ALS)算法来学习这些潜在因素。 spark.ml中的实现具有以下参数:
本节主要讲Spark ML中关于聚类算法的实现。示例的算法Demo包含:K-means、LDA、高斯混合模型(GMM)等。
本节主要讲Spark ML中关于回归算法的实现。示例的算法Demo包含:线性回归、广义线性回归、决策树回归、随机森林回归、梯度提升树回归等。
本节主要讲Spark ML中关于分类算法的实现。示例的算法Demo包含:LR、DT、RF、GBTs、多层感知器、线性支持向量机、One-vs-Rest分类器以及NB等。
Spark MLlib中关于特征处理的相关算法,大致分为以下几组:
本文介绍第二组: 特征转换器(Transformers)
Spark MLlib中关于特征处理的相关算法,大致分为以下几组:
本文介绍第一组: 特征提取器(Extractors)
在本节中,我们将介绍ML Pipelines的概念。 ML Pipelines提供了一组基于DataFrame构建的统一的高级API,可帮助用户创建和调整实用的机器学习流程。