databricks-spark-reference-applications.pdf.tar
代码说明:
摘要: 现有的聚类算法比如 CluStream 是基于 k-means 算法的。这些算法不能够发现任 意形状的簇以及不能处理离群点。 解决上述问题,本文提出了 而且, 它需要预先知道 k 值和用户指定的时间窗口。 为了 分将数据映射到一个网格, D-Stream 算法,它是基于密度的算法。这个算法用一个在线部 在离线部分计算网格的密度然后基于密度形成簇。 度衰减技术来捕获数据流的动态变化。 为了探索衰减因子、 数据密度以及簇结构之间的关系, 我们的算法能够有效的并且有效率地实时调整簇。 群点的稀疏网格是合理的, 算法采用了密 而且, 我们用理论证明了移除那些属于离 从而提高了系统的时间和空间效率。 该技术能聚类高速的数据流 而不损失聚类质量。 实验结果表明我们的算法在聚类质量和效率是有独特的优势, 并且能够 发现任意形状的簇,以及能准确地识别实时数据流的演化行为(Abstract: Existing clustering algorithms such as CluStream are based on the k-means algorithm. These algorithms can not be found Meaningful clusters and can not handle outliers. To solve the above problems, this paper presents)
文件列表:
8acd7b2daa6764345e368dd70ca6742e
下载说明:请别用迅雷下载,失败请重下,重下不扣分!