【Spark】频繁项集挖掘

挖掘频繁项目,项目集,子序列或其他子结构通常是分析大规模数据集的第一步,这是数据挖掘多年来一直活跃的研究课题。 可以参考一下维基百科中关于关联规则学习的基础知识。

阅读更多

【Spark】协同过滤

协同过滤通常用于推荐系统。这些技术旨在根据user-item关联矩阵的缺失条目。 spark.ml目前支持基于模型的协同过滤,其中users和items由一小组可用于预测缺失条目的潜在因子(latent factors)描述。 spark.ml使用交替最小二乘(ALS)算法来学习这些潜在因素。 spark.ml中的实现具有以下参数:

  • numBlocks,是users和items将被分区为多个块的数量,以便并行化计算(默认为10)。
  • rank,是模型中潜在因子(latent factors)的数量(默认为10)。
  • maxIter,是要运行的最大迭代次数(默认为10)。
  • regParam,指定ALS中的正则化参数(默认为1.0)。
  • implicitPrefs,指定是使用显式反馈ALS变体还是使用适用于隐式反馈数据的(默认为false,这意味着使用显式反馈)。
  • alpha,是适用于ALS的隐式反馈变量的参数,其控制偏好观察中的基线置信度(默认为1.0)。
  • nonnegative,指定是否对最小二乘使用非负约束(默认为false)。
阅读更多

【Spark】聚类分析

本节主要讲Spark ML中关于聚类算法的实现。示例的算法Demo包含:K-means、LDA、高斯混合模型(GMM)等。

阅读更多

【Spark】分类和回归算法-回归

本节主要讲Spark ML中关于回归算法的实现。示例的算法Demo包含:线性回归、广义线性回归、决策树回归、随机森林回归、梯度提升树回归等。

阅读更多

【Spark】分类和回归算法-分类

本节主要讲Spark ML中关于分类算法的实现。示例的算法Demo包含:LR、DT、RF、GBTs、多层感知器、线性支持向量机、One-vs-Rest分类器以及NB等。

阅读更多

【Spark】特征工程2-Transformers

Spark MLlib中关于特征处理的相关算法,大致分为以下几组:

  • 提取(Extraction):从“原始”数据中提取特征
  • 转换(Transformation):缩放,转换或修改特征
  • 选择(Selection):从较大的一组特征中选择一个子集
  • 局部敏感哈希(Locality Sensitive Hashing,LSH):这类算法将特征变换的各个方面与其他算法相结合。

本文介绍第二组: 特征转换器(Transformers)

阅读更多

【Spark】特征工程1-Extractors

Spark MLlib中关于特征处理的相关算法,大致分为以下几组:

  • 提取(Extraction):从“原始”数据中提取特征
  • 转换(Transformation):缩放,转换或修改特征
  • 选择(Selection):从较大的一组特征中选择一个子集
  • 局部敏感哈希(Locality Sensitive Hashing,LSH):这类算法将特征变换的各个方面与其他算法相结合。

本文介绍第一组: 特征提取器(Extractors)

阅读更多

【Spark】Pipelines

在本节中,我们将介绍ML Pipelines的概念。 ML Pipelines提供了一组基于DataFrame构建的统一的高级API,可帮助用户创建和调整实用的机器学习流程。

阅读更多