剑指Offer-数据结构与算法练习题

《剑指Offer》中的一些常见练习题,包含二叉树、链表以及其他的一些常见算法练习题;最近又系统性地做了下,大致整理了一下解题思路,均用Python实现,持续更新中…

阅读更多

【Spark】频繁项集挖掘

挖掘频繁项目,项目集,子序列或其他子结构通常是分析大规模数据集的第一步,这是数据挖掘多年来一直活跃的研究课题。 可以参考一下维基百科中关于关联规则学习的基础知识。

阅读更多

【Spark】协同过滤

协同过滤通常用于推荐系统。这些技术旨在根据user-item关联矩阵的缺失条目。 spark.ml目前支持基于模型的协同过滤,其中users和items由一小组可用于预测缺失条目的潜在因子(latent factors)描述。 spark.ml使用交替最小二乘(ALS)算法来学习这些潜在因素。 spark.ml中的实现具有以下参数:

  • numBlocks,是users和items将被分区为多个块的数量,以便并行化计算(默认为10)。
  • rank,是模型中潜在因子(latent factors)的数量(默认为10)。
  • maxIter,是要运行的最大迭代次数(默认为10)。
  • regParam,指定ALS中的正则化参数(默认为1.0)。
  • implicitPrefs,指定是使用显式反馈ALS变体还是使用适用于隐式反馈数据的(默认为false,这意味着使用显式反馈)。
  • alpha,是适用于ALS的隐式反馈变量的参数,其控制偏好观察中的基线置信度(默认为1.0)。
  • nonnegative,指定是否对最小二乘使用非负约束(默认为false)。
阅读更多

【Spark】聚类分析

本节主要讲Spark ML中关于聚类算法的实现。示例的算法Demo包含:K-means、LDA、高斯混合模型(GMM)等。

阅读更多