问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

聚类分析:k-means和层次聚类

发布网友 发布时间:2022-09-08 14:44

我来回答

1个回答

热心网友 时间:2024-11-19 01:21

尽管我个人非常不喜欢人们被划分圈子,因为这样就有了歧视、偏见、排挤和矛盾,但“物以类聚,人以群分”确实是一种客观的现实——这其中就蕴含着聚类分析的思想。

前面所提到的机器学习算法主要都是 分类 和 回归 ,这两类的应用场景都很清晰,就是对分类型变量或者数值型变量的预测。 聚类分析 是一种根据样本之间的距离或者说是相似性(亲疏性),把越相似、差异越小的样本聚成一类(簇),最后形成多个簇,使同一个簇内部的样本相似度高,不同簇之间差异性高。

有人不理解 分类 和 聚类 的差别,其实这个很简单:分类是一个已知具体有几种情况的变量,预测它到底是哪种情况;聚类则是尽量把类似的样本聚在一起,不同的样本分开。举个例子,一个人你判断他是男是女这是分类,让男人站一排女人站一排这是聚类。

聚类分析算法很多,比较经典的有 k-means 和 层次聚类法 。

k-means的k就是最终聚集的簇数,这个要你事先自己指定。k-means在常见的机器学习算法中算是相当简单的,基本过程如下:

k-means的聚类过程演示如下:

k-means聚类分析的原理虽然简单,但缺点也比较明显:

值得一提的是,计算距离的方式有很多种,不一定非得是笛卡尔距离;计算距离前要归一化。

尽管k-means的原理很简单,然而层次聚类法的原理更简单。它的基本过程如下:

层次聚类不指定具体的簇数,而只关注簇之间的远近,最终会形成一个树形图。

通过这张树形图,无论想划分成几个簇都可以很快地划出。

以下以癌细胞细据为例,演示K-means和层次聚类法的过程。

可见选择不同的距离指标,最终的聚类效果也不同。其中最长距离和类平均距离用得比较多,因为产生的谱系图较为均衡。

图中一条红线将簇划分成4类,很容易看出哪些样本各属于哪一簇。

以上是层次聚类法的结果,但如果用k-means聚类的话,结果很可能就不一样了。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
ups快递客服电话24小时 贷款记录在征信保留几年? 安徽徽商城有限公司公司简介 安徽省徽商集团新能源股份有限公司基本情况 安徽省徽商集团有限公司经营理念 2019哈尔滨煤气费怎么有税? 快手删除的作品如何恢复 体育理念体育理念 有关体育的格言和理念 什么是体育理念 昆明到深圳线路 梦见金戒指断了 梦见黄金戒指断了 蓝牙耳机返厂维修电话 梦见僵尸咬自己 梦见僵尸咬我周公解梦 那十月二十五日的人是什么星座呢? 如果你发现一个世外桃源,你会独自去居住吗? 体现出农家生态归园田居的形容词、比如归园田居、田园牧歌 一种自然... 国内的电话怎么在加拿大给加拿大的电话打电话 手机清理空间误删了微信保留的图片和语音,还能找回嘛 卡通动漫系列的图片(要女的)像这样的 昙花花苞为什么枯萎 从哪里可以下到amr格式的音频编解码 我在使用超级转换秀转换AMR的音频格式时,跳出一个窗口说:没有安装音... AMR语音编码技术是什么意思 怎么折东南西北的方法 《丁丁历险记-向太阳飞去(二)》_动漫小说txt全集免费下载 ...电影、综艺、动漫、小说、全部免费且不用VIP? 哪里有免费的BL小说,动漫下载啊要完结的。 八:聚类算法K-means(20191223-29) K-Means 聚类算法 K-means 与KNN 聚类算法 惠普1010打印机开机后无运作,红灯一直闪 华为手机通知声音关闭 如何操作 旅游发圈的精致句子 女人肾虚的危害有哪些补肾方法 深呼吸能帮助情绪调节,其根本原因是什么? 每天深呼吸十分钟可以降血压减少焦虑,这是为什么呢? 写毛笔楷书是选兼毫还是选极品大长锋或是其他类型的毛笔 柿子里面好多黑点是什么? 如何挑选合适的木门 丸叶姬秋丽怎么变老桩 3※3的户外广告帐篷多少钱一把? 一般室内木门怎么挑选 有哪些挑选技巧 适合冬天养的十种花 已婚男人和其他女人有了孩子违法吗? 带乐和成字的诗有哪些? 同时带乐和诚的成语? 新学乐和成长乐是那个品牌