博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
K-mean聚类算法汇聚有用信息——学习笔记
阅读量:5153 次
发布时间:2019-06-13

本文共 642 字,大约阅读时间需要 2 分钟。

 

 

无监督-无标签

聚类,难点在于评估和调参。

k-means最简单实用

基本概念

K值:数据聚成多少类。

质心:各个维度算平均数。Centroid

相似度量:距离来算(欧式距离——直线距离,余弦距离)

样本之间的距离要先做标准化。(例如先都画到0-1之间)

优化,样本离质心间距离求和。(Ci是质心,x是样本)。越小越好,距离越小越相似,希望数据点到各自质心的距离越小越好(聚类)。

工作流程

 1、随机初始化

要聚成两类则随机初始化两个质心,

遍历所有的点,算两个质心距离;哪个离得近,分类

更新质心:红色算平均

 

还有基于密度聚类

dbscan

 

网页演示:

Visualizing K-Means Clustering

numpy矩阵运算的

matplotlib数据可视化

sklearn已经

 对花的数据聚类,一行一个样本。一列是一个特征。

画出来

 

 数据差别不大,可以不做标准化。

利用sklearn里的k-means建模

  • 实例化KM_model。
  • .fit,使用所有特征,四个特征。.fit训练
  • 查看聚类结果labels。

 

 

 

聚类评估:轮廓系数(Silhouette Coefficient)

ai同簇,越小越好。

bi到其他簇,取最小。越大越好,不同的差异大。

 

 算平均轮廓系数

 

使用全部4个特征,发现聚类效果并不理想

现在,只使用后面两个特征进行聚类

花瓣长度和花瓣宽度

 

 

 

转载于:https://www.cnblogs.com/wxl845235800/p/10110927.html

你可能感兴趣的文章
剑指offer——二叉搜索树的后序遍历序列
查看>>
2016集训测试赛(二十四)Problem C: 棋盘控制
查看>>
稳定土厂拌设备控制系统-基本介绍(图)
查看>>
测试计划
查看>>
POJ 3101 Astronomy (角速度啊,高中物理啊。。。T_T)
查看>>
linux 删除和安装java
查看>>
缓存问题引发的一系列优化
查看>>
merge into报错ORA-00926、ORA-38014
查看>>
Delphi:校验手机号及身份证号
查看>>
jQuery-Easyui 1.2 实现多层菜单
查看>>
python中的列表排序
查看>>
Java dom4j解析RESTFull风格发布的WebService的xml文件
查看>>
IP地址资源的分配和管理
查看>>
php.ini设置详解
查看>>
nginx 相关
查看>>
PL/SQL中的数据类型隐式转换规则
查看>>
Make your own mini Linux OS
查看>>
Object.prototype.toString.apply()方法得到对象类型
查看>>
剑指offer--面试题19
查看>>
TCP Traffic Analyzer
查看>>