问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

豆瓣读书的优缺点有哪些?

发布网友 发布时间:2022-04-20 01:00

我来回答

1个回答

热心网友 时间:2023-06-29 06:21

        豆瓣读书的评分有非常非常明显的分野,具体是哪个时期我没有详细考证,但豆瓣的老用户,尤其是经常使用豆瓣读书的用户都应该有个类似的体验:某一天,你在豆瓣读书上的新书推荐看到了一本貌似很有意思的,评分很高的书。你把它买回家,读后却非常失望。至此,你突然意识到,某个时期之后出版的新书,它的豆瓣评分都是不可信的。

譬如《未来简史》这本书籍,我之前看过这部书,觉得并不好看,对不起8.5的高分。看了goodreads,发现评分也只有3.69星 ,并不像豆瓣这样高(图一),就国内外对此书评价差别还挺大的。

而且,在亚马逊上还能看到截然相反的短评,有的人觉得这是“靠谱的未来预测”,有的却说这本书籍"哗众取宠,没有科学支撑" (图二、图三)

另一方面,豆瓣上同样8.5分的书籍,比如《九故事》,《悟空传》,《庆余年》,我都觉得挺好看的,goodreads也都达到了4.15星的水平。于是就有疑问,豆瓣书籍的评分是否可靠?会不会存在一些很多书籍的评分不中肯,影响的因素主要是哪些?针对此,我选取了部分不同年代,国内外不同出版社的不同书籍做了对比。

1. 数据概况

选取2001-2017, 国内出版 的书籍。*豆瓣评分人数在2W以上,一方面讨论大家较为熟悉、主流的书籍,另一方面也尽量减少水军等的影响。总共997本。通过借助中信云机器学习平台,我们对其中书籍的评分做了比较和展示,其评分分布图如下(图四):

包含了很多我们耳熟能详的书籍 ,比如围城、肖申克的救赎、百年孤独等等(下图五)。

同时,我们通过应用中信云机器学习平台,对包含中信图书出版社在内的其它出版社出版的小说书籍,做了方差和评级分布图(如下图六所示),我们可以看到,中信小说的评分方范围在7分以上,STD差距主要分布在1.5-1.75之间,那让我们来看分析一下,到底评分的差异来自于什么?

2.评分的差异

2.1 未来简史VS时间简史

以上两本书(图七)的评分为例,两者评分相同,评价人数也很多(6K, 18K),但4星和2星的比例差别很大。什么意思呢?

● 时间简史:大家都觉得不错,所以评分集中在了4星

● 未来简史:同时有不少人觉得不错/较差,在2星和4星有不少的分布。

也就是说, 尽管两者(平均)分数相同,但是背后的看法非常不同,评分差异很大, 这也正好对应了上面,未来简史出现两种截然相反的热评的情况。

2.2 怎么衡量评分差异

评分分布的差异,可以用方差来衡量,计算方法如下:

也就是计算 评分偏离平均分的程度  。下文使用标准差(STD),方差开方即可。可以做出标准差(STD) - 豆瓣评分(Rating )散点分布图(图九)。为了便于比较,做标准差97%范围线。

可以看到时间简史和未来简史的STD差别确实很大,未来简史的标准差排在前3% ,争议性是巨大的,而时间简史则小很多。那么我们可以设问

这些小说的分数相同,但同样好看/不好看吗?

比如,时间简史和的未来简史分数一样,但他们一样好看吗?

当然不是。

如前面的比较,未来简史虽然评分较高,但其4星/2星和时间简史差别很大。为什么呢?大家可能早有耳闻,看评论也能看到。通常,我们总是在讨论一本书籍评分的高低,只是平均分,当大家看法一致的时候,这个分数会很有参考价值。如果 当评分差异很大(STD很大)的时候,这个分数的作用就有限了。

3.类别的差异

对于同一类别,不同的出版社,评分和标准差之间存在较大的差异,那么,对同一出版社,不同类别的书籍的评分,会有多少种形状呢?我们选取了中信出版社的图书部分做了数据分析,用K-Means,输入数据为四个评分等级的比例。实际可以把类别分得很细,这里简单分成4种,比较有代表性,结果如下(图十、图十一)

需要注意的是,高STD的书籍因为其形状差异很大,并不适用于进行分类判定。

从上图看出,在每个形状下,也能看到STD高/低的书籍,比如人人都该买保险 ,二手时间 等等,综合来看,中信出版的图书在评分的7.6-8.8的书,STD都是比较稳定的,没有波动特别大的情况,所以类别之间的评分差异其实相差也不大。

4. 爆款图书评分的差异

我们针对中信出版社的历年舆情变化,图书爆款做了类比(如图十二)。

爆款数量变化如下图(图十三)

从图十二、图十三我们可以看到,中信出版社历年爆款图书大致呈正态分布,说明使用的数据量基本足够。各个年代的爆款数量并没有一定的规律性。那对应的爆款书籍舆情分布又是怎样呢,如下图十四所示,

上图显示, 中信爆款书籍的STD展示效果主要集中在1.3-1.6之间,对于这部分书籍我们取出部分在图下进行了书籍展示(如图十五)

从上图可以看出, 经典书籍 的评分和STD高度相关,评分高,STD会比较低。也就是说,尽管书籍评分是非常个人化的事情,每个人对书籍的评价会有所差别,但是放到豆瓣的大用户量下,评分的大众性很强,经典书籍的评分STD还是很小的。也就是说,书籍的评分和出版的时间,爆款的程度没有正相关的联系。

5.评价差异最大的书籍是什么?

   从上图我们看到各个评分的STD都有高有低,那么我们看一下STD的最大临界值是怎样的一个情况,从样例中,我们进行了STD差异最大的书籍进行了筛选,如下图所示:

评价差异大的原因可能来自多个方面,这里我们就不进行讨论了。

6.搜索内容相近书籍和评分是否准确?

大家如有看过兰大的高手寂寞之类的书籍,是否会有想继续找一些在内容和评分,以及评级上都能够与之媲美的书籍?豆瓣本身是有推荐机制的,如下图所示:

我们可以看到,豆瓣关联推荐的书籍,在评分、评级、内容上有些和目标书籍相差有些大,为验证评分和评级的相似性,我们在中信云机器学习平台上,对豆瓣图书进行相似度建模,通过word2vec解析,来找到和目标书籍内容,评级,评分等最为接近的书籍。

例如输入硅谷钢铁侠,我们通过对硅谷钢铁侠的数据标签进行建模解析,查出最接近此书内容的词云如下图(图二十一)所示。

我们从豆瓣查出两本书的评价情况,评分和评级构成都是极为相似。

在推荐的时候,查询鞋狗,第一关联也是能看到硅谷钢铁侠名列前茅,豆瓣的推荐和机器学习实测的推荐是相吻合的。

总结

豆瓣的图书评分,大家都知道是显示的平均分,也都能看到分数的分布情况,在大多数情况下,这个平均分是有效的,因为大家的评价较为接近(STD较小),但是很少有人注意到评分的分歧大小(即STD的大小),当看到一部STD很大的书籍, 平均分和我们感受不符时,我们会感到疑惑,进而觉得豆瓣的评分不靠谱,实际上,只是因为人民的评价差异太大(STD太大),使平均分的意义变得有限了而已。

豆瓣的图书推荐,通过对目标图书的内容标签,评分构成和区间等进行综合对比,从而推荐和目标图书最相近的书籍,从目前的机器学习测量样本数据观察,这个评分是比较准确的。

最后,分析有什么疏漏,或者没讲清楚的地方,也欢迎大家指出~

安利一下: 中信机器学习平台 , 有兴趣的朋友可以注册登陆试用一下。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
小弟刚升到80级是法师 应该怎么弄装备啊 从哪里开始弄起 还有就是网上... 门上指纹锁要多少钱 手机百度如何搜索图片来源? 如何找出图片出处 win7电脑横屏如何处理笔记本电脑桌面变成横向了怎么办 win7电脑桌面反了怎么办电脑屏幕倒过来了怎么办 win7电脑变成竖屏快捷键我电脑变成竖屏了怎么调回来 win7系统电脑怎么横屏w7系统屏幕怎么横过来 win7系统更改电脑屏幕方向电脑屏幕旋转了怎么调整过来 调成竖屏模式电脑win7我电脑变成竖屏了怎么调回来 如何在豆瓣读书中添加已经读过的书籍 除了豆瓣读书,还有什么好点儿的书评网站 豆瓣电视剧排行榜是怎样的? 骆驼读书跟豆瓣读书,有啥区别呢?求解! 小说网站排名榜 谁有豆瓣读书top250部电子书。 豆瓣图书榜单出炉!2019年最受关注的10本书,你看... 豆瓣年度榜单排名第一的那些书都是什么? 豆瓣读书top250 读书豆瓣榜单有哪些? 2016年有哪些年度好书值得推荐? 搭是什么意思 微信公众号认证必须要满足什么条件? 公众号认证过程中主办方授权电话验证是怎么回事 微信公众号人工服务电话是多少? 微信公众平台的认证咨询 微信公众号怎么认证 微信公众号认证申请方法是什么? 白萝卜煮水喝有什么功效和作用 个人微信公众号怎么认证? 《寂寞的游戏》txt下载在线阅读,求百度网盘云资源 ipad和手机一起登录微信,为什么ipad显示消息不全,常常收不到信息 期货交易的基本功能有哪些?? 期货的功能 期货的主要功能 期货市场有哪些功能? 期货市场的主要功能 期货市场的作用是啥? 期货市场的基本经济功能是什么? 金融期货的功能主要有哪些? 期货市场的主要功能是 期货交易具有三大功能是什么 期货交易有哪些功能 期货交易具有哪些功能? 期货市场的功能和特点 期货的三大基本功能是什么 期货市场的功能怎样? 期货交易的基本功能有哪些? 期货市场在经济中有哪些作用? ipad和手机一起登录微信,为什么ipad显示消息不全,常