【Python】sklearn机器学习之Birch聚类算法
创始人
2024-05-04 03:47:32

文章目录

    • 基本原理
    • sklearn调用

基本原理

BIRCH,即Balanced Iterative Reducing and Clustering Using Hierarchies,利用分层的平衡迭代规约和聚类,特点是扫描一次数据就可以实现聚类,

而根据经验,一般这种一遍成功的算法,背后一定有一棵树,而这棵树的生成规则,往往就是算法的核心。Birch算法的核心,叫做聚类特征树(Clustering Feature Tree),简称CF树。

CF树由CF构成,每个CF都是三元组,表示为(N, LS, SS),其中N表示点数;LS表示点的向量和;SS表示CF各分量的平方和。

CF树常见的操作有两个,分别是添加样本点和CF分裂。而一个新的样本点到来之后,是融入现有的CF,还是另行开辟一个新的CF,则要受到至少两个参数的约束:

  1. 最大CF数
  2. 每个CF的最大样本半径

sklearn调用

sklearn中,Birch类的构造函数如下

Birch(*, threshold=0.5, branching_factor=50, n_clusters=3, compute_labels=True, copy=True)

其中

  • threshold表示CF最大样本半径,当新的样本加入到某个CF中后,如果大于threshold,则会发生CF分裂。
  • branching_factor 表示每个节点的最大CF个数

考虑到Birch适用于较大样本数量,所以下面

import numpy as np
from sklearn.cluster import Birch
from sklearn.datasets import make_blobs
import matplotlib.pyplot as pltxs, ys = np.indices([10,10])*5
n_centers = np.array(list(zip(xs.reshape(-1), ys.reshape(-1))))
X, y = make_blobs(n_samples=25000, centers=n_centers, random_state=0)
birch = Birch(threshold=1.7, n_clusters=None)
birch.fit(X)
plt.scatter(X[:,0], X[:,1], c=birch.labels_, marker='.')
plt.show()

效果为

在这里插入图片描述

貌似效果不太好,主要原因可能是没预设样本数,

birch = Birch(threshold=1.7, n_clusters=100)
birch.fit(X)
plt.scatter(X[:,0], X[:,1], c=birch.labels_, marker='.')
plt.show()

n_cluster设为100之后,效果为

在这里插入图片描述

接下来测试一下Birch算法的效率,通过make_blobs生成10万个点,然后通过Birch算法完成聚类

import time
X, y = make_blobs(n_samples=100000, centers=n_centers, random_state=0)
t = time.time()
birch = Birch(threshold=1.7, n_clusters=100)
birch.fit(X)
print(time.time()-t)
plt.scatter(X[:,0], X[:,1], c=birch.labels_, marker='.')
plt.show()

耗时2.79s,聚类结果为
在这里插入图片描述

相关内容

热门资讯

北京的名胜古迹 北京最著名的景... 北京从元代开始,逐渐走上帝国首都的道路,先是成为大辽朝五大首都之一的南京城,随着金灭辽,金代从海陵王...
世界上最漂亮的人 世界上最漂亮... 此前在某网上,选出了全球265万颜值姣好的女性。从这些数量庞大的女性群体中,人们投票选出了心目中最美...
苗族的传统节日 贵州苗族节日有... 【岜沙苗族芦笙节】岜沙,苗语叫“分送”,距从江县城7.5公里,是世界上最崇拜树木并以树为神的枪手部落...
猫咪吃了塑料袋怎么办 猫咪误食... 你知道吗?塑料袋放久了会长猫哦!要说猫咪对塑料袋的喜爱程度完完全全可以媲美纸箱家里只要一有塑料袋的响...
阿西吧是什么意思 阿西吧相当于... 即使你没有受到过任何外语培训,你也懂四国语言。汉语:你好英语:Shit韩语:阿西吧(아,씨발! )日...