2020-01-15发表2020-02-26更新1 小时读完 (大约10684个字)

【Graph Embedding】struc2vec

关于Graph Embedding系列的论文翻译解读文章：

【Graph Embedding】DeepWalk

【Graph Embedding】line

【Graph Embedding】node2Vec

【Graph Embedding】SDNE

【Graph Embedding】struc2vec

参考资料

paper: https://arxiv.org/pdf/1704.03165.pdf

code: https://github.com/leoribeiro/struc2vec

2020-01-14发表2020-01-17更新1 小时读完 (大约10207个字)

【Graph Embedding】SDNE

关于Graph Embedding系列的论文翻译解读文章：

【Graph Embedding】DeepWalk

【Graph Embedding】line

【Graph Embedding】node2Vec

【Graph Embedding】SDNE

【Graph Embedding】struc2vec

参考资料

paper: https://www.kdd.org/kdd2016/papers/files/rfp0191-wangAemb.pdf

2020-01-05发表2020-10-06更新1 小时读完 (大约10315个字)

【Graph Embedding】node2vec

关于Graph Embedding系列的论文翻译解读文章：

【Graph Embedding】DeepWalk

【Graph Embedding】line

【Graph Embedding】node2Vec

【Graph Embedding】SDNE

【Graph Embedding】struc2vec

参考资料

paper: https://www.kdd.org/kdd2016/papers/files/rfp0218-groverA.pdf

code: https://github.com/aditya-grover/node2vec

2019-12-26发表2020-01-21更新29 分钟读完 (大约4333个字)

【Graph Embedding】DeepWalk

关于Graph Embedding系列的论文翻译解读文章：

【Graph Embedding】DeepWalk

【Graph Embedding】line

【Graph Embedding】node2Vec

【Graph Embedding】SDNE

【Graph Embedding】struc2vec

参考资料

paper: http://www.perozzi.net/publications/14_kdd_deepwalk.pdf

code: https://github.com/phanein/deepwalk

2019-12-21发表2020-07-20更新1 小时读完 (大约8418个字)

【Graph Embedding】line

关于Graph Embedding系列的论文翻译解读文章：

【Graph Embedding】DeepWalk

【Graph Embedding】line

【Graph Embedding】node2Vec

【Graph Embedding】SDNE

【Graph Embedding】struc2vec

参考资料

paper: https://arxiv.org/pdf/1503.03578.pdf

code: https://github.com/tangjianpku/LINE

2019-08-26发表2019-08-27更新1 小时读完 (大约8923个字)

剑指Offer-数据结构与算法练习题

《剑指Offer》中的一些常见练习题，包含二叉树、链表以及其他的一些常见算法练习题；最近又系统性地做了下，大致整理了一下解题思路，均用Python实现，持续更新中…

2019-08-09发表2019-08-12更新10 分钟读完 (大约1527个字)

【Spark】模型选择和调优

翻译自：http://spark.apache.org/docs/2.3.2/ml-tuning.html

介绍如何使用MLlib的工具来调整ML算法和Pipelines。内置的交叉验证和其他工具允许用户优化算法和pipelines中的超参数。

2019-08-09发表2019-08-09更新6 分钟读完 (大约838个字)

【Spark】频繁项集挖掘

挖掘频繁项目，项目集，子序列或其他子结构通常是分析大规模数据集的第一步，这是数据挖掘多年来一直活跃的研究课题。可以参考一下维基百科中关于关联规则学习的基础知识。

2019-08-08发表2019-08-08更新11 分钟读完 (大约1604个字)

【Spark】协同过滤

协同过滤通常用于推荐系统。这些技术旨在根据user-item关联矩阵的缺失条目。 spark.ml目前支持基于模型的协同过滤，其中users和items由一小组可用于预测缺失条目的潜在因子（latent factors）描述。 spark.ml使用交替最小二乘（ALS）算法来学习这些潜在因素。 spark.ml中的实现具有以下参数：

numBlocks，是users和items将被分区为多个块的数量，以便并行化计算（默认为10）。
rank，是模型中潜在因子（latent factors）的数量（默认为10）。
maxIter，是要运行的最大迭代次数（默认为10）。
regParam，指定ALS中的正则化参数（默认为1.0）。
implicitPrefs，指定是使用显式反馈ALS变体还是使用适用于隐式反馈数据的（默认为false，这意味着使用显式反馈）。
alpha，是适用于ALS的隐式反馈变量的参数，其控制偏好观察中的基线置信度（默认为1.0）。
nonnegative，指定是否对最小二乘使用非负约束（默认为false）。

2019-08-08发表2019-08-08更新6 分钟读完 (大约847个字)

【Spark】聚类分析

本节主要讲Spark ML中关于聚类算法的实现。示例的算法Demo包含：K-means、LDA、高斯混合模型(GMM)等。