【Python】sklearn机器学习之Birch聚类算法
创始人
2024-05-04 03:47:32

文章目录

    • 基本原理
    • sklearn调用

基本原理

BIRCH,即Balanced Iterative Reducing and Clustering Using Hierarchies,利用分层的平衡迭代规约和聚类,特点是扫描一次数据就可以实现聚类,

而根据经验,一般这种一遍成功的算法,背后一定有一棵树,而这棵树的生成规则,往往就是算法的核心。Birch算法的核心,叫做聚类特征树(Clustering Feature Tree),简称CF树。

CF树由CF构成,每个CF都是三元组,表示为(N, LS, SS),其中N表示点数;LS表示点的向量和;SS表示CF各分量的平方和。

CF树常见的操作有两个,分别是添加样本点和CF分裂。而一个新的样本点到来之后,是融入现有的CF,还是另行开辟一个新的CF,则要受到至少两个参数的约束:

  1. 最大CF数
  2. 每个CF的最大样本半径

sklearn调用

sklearn中,Birch类的构造函数如下

Birch(*, threshold=0.5, branching_factor=50, n_clusters=3, compute_labels=True, copy=True)

其中

  • threshold表示CF最大样本半径,当新的样本加入到某个CF中后,如果大于threshold,则会发生CF分裂。
  • branching_factor 表示每个节点的最大CF个数

考虑到Birch适用于较大样本数量,所以下面

import numpy as np
from sklearn.cluster import Birch
from sklearn.datasets import make_blobs
import matplotlib.pyplot as pltxs, ys = np.indices([10,10])*5
n_centers = np.array(list(zip(xs.reshape(-1), ys.reshape(-1))))
X, y = make_blobs(n_samples=25000, centers=n_centers, random_state=0)
birch = Birch(threshold=1.7, n_clusters=None)
birch.fit(X)
plt.scatter(X[:,0], X[:,1], c=birch.labels_, marker='.')
plt.show()

效果为

在这里插入图片描述

貌似效果不太好,主要原因可能是没预设样本数,

birch = Birch(threshold=1.7, n_clusters=100)
birch.fit(X)
plt.scatter(X[:,0], X[:,1], c=birch.labels_, marker='.')
plt.show()

n_cluster设为100之后,效果为

在这里插入图片描述

接下来测试一下Birch算法的效率,通过make_blobs生成10万个点,然后通过Birch算法完成聚类

import time
X, y = make_blobs(n_samples=100000, centers=n_centers, random_state=0)
t = time.time()
birch = Birch(threshold=1.7, n_clusters=100)
birch.fit(X)
print(time.time()-t)
plt.scatter(X[:,0], X[:,1], c=birch.labels_, marker='.')
plt.show()

耗时2.79s,聚类结果为
在这里插入图片描述

相关内容

热门资讯

youtube中文 youtu... 油管上的视频都是全世界不同地区的youtuber所上传的,有各式各样的语言。就算你懂得几种语言,也不...
苗族的传统节日 贵州苗族节日有... 【岜沙苗族芦笙节】岜沙,苗语叫“分送”,距从江县城7.5公里,是世界上最崇拜树木并以树为神的枪手部落...
北京的名胜古迹 北京最著名的景... 北京从元代开始,逐渐走上帝国首都的道路,先是成为大辽朝五大首都之一的南京城,随着金灭辽,金代从海陵王...
应用未安装解决办法 平板应用未... ---IT小技术,每天Get一个小技能!一、前言描述苹果IPad2居然不能安装怎么办?与此IPad不...
长白山自助游攻略 吉林长白山游... 昨天介绍了西坡的景点详细请看链接:一个人的旅行,据说能看到长白山天池全凭运气,您的运气如何?今日介绍...
脚上的穴位图 脚面经络图对应的... 人体穴位作用图解大全更清晰直观的标注了各个人体穴位的作用,包括头部穴位图、胸部穴位图、背部穴位图、胳...
猫咪吃了塑料袋怎么办 猫咪误食... 你知道吗?塑料袋放久了会长猫哦!要说猫咪对塑料袋的喜爱程度完完全全可以媲美纸箱家里只要一有塑料袋的响...
世界上最漂亮的人 世界上最漂亮... 此前在某网上,选出了全球265万颜值姣好的女性。从这些数量庞大的女性群体中,人们投票选出了心目中最美...
demo什么意思 demo版本... 618快到了,各位的小金库大概也在准备开闸放水了吧。没有小金库的,也该向老婆撒娇卖萌服个软了,一切只...
苗族的传统节日 贵州苗族节日有... 【岜沙苗族芦笙节】岜沙,苗语叫“分送”,距从江县城7.5公里,是世界上最崇拜树木并以树为神的枪手部落...
swot分析是什么意思 SWO... SWOT分析法又称态势分析法。是一种能够较客观而准确地分析和研究一个单位现实情况的方法。SWOT分析...
应用未安装解决办法 平板应用未... ---IT小技术,每天Get一个小技能!一、前言描述苹果IPad2居然不能安装怎么办?与此IPad不...
脚上的穴位图 脚面经络图对应的... 人体穴位作用图解大全更清晰直观的标注了各个人体穴位的作用,包括头部穴位图、胸部穴位图、背部穴位图、胳...
长白山自助游攻略 吉林长白山游... 昨天介绍了西坡的景点详细请看链接:一个人的旅行,据说能看到长白山天池全凭运气,您的运气如何?今日介绍...
demo什么意思 demo版本... 618快到了,各位的小金库大概也在准备开闸放水了吧。没有小金库的,也该向老婆撒娇卖萌服个软了,一切只...
世界上最漂亮的人 世界上最漂亮... 此前在某网上,选出了全球265万颜值姣好的女性。从这些数量庞大的女性群体中,人们投票选出了心目中最美...
猫咪吃了塑料袋怎么办 猫咪误食... 你知道吗?塑料袋放久了会长猫哦!要说猫咪对塑料袋的喜爱程度完完全全可以媲美纸箱家里只要一有塑料袋的响...