【数据分析】b站非正式会谈第六季
发布网友
发布时间:2022-12-07 22:51
我来回答
共1个回答
热心网友
时间:2023-07-16 02:59
首先要爬取视频信息以及弹幕,以下是用到的b站api接口:
1)https://api.bilibili.com/x/web-interface/view?bvid=BVID(这里的BVID就是具体视频的bv号)
可得到视频的弹幕数,评论数、收藏数、投币数,点赞数和转发数。
例:
2)https://comment.bilibili.com/CID.xml(CID就是具体视频的cid)
可得到视频弹幕(不过获取不到全部弹幕,并且每个视频获取的弹幕数不同)
例:
p字符串代表八个参数:
①弹幕在视频中出现时间(单位:秒)
②弹幕模式(1-3滚动,4底部,5顶部,6逆向,7精准,8高级)
③字号 ④弹幕颜色 ⑤Unix时间戳
⑥弹幕池(0普通,1字幕,2特殊) ⑦发送者标识
⑧用于历史弹幕
cid获取方法:①通过第一个接口可获取
②打开视频——点击播放——检查
对爬取到的数据进行一番分析,开播时观看数最高,第二期观看数下降幅度较大,很多节目都有这样的问题。第二期之后会谈停播了一段时间,中间插播卧谈,复播后观看数也有所影响但趋于稳定。
开播时热度是最高的,之后有了下降趋势。但在第六期有了反弹趋势,尤其是投币数,第六期有杨迪妈妈代班、b站UP主以及两位代表的妈妈来到现场,主要为亲子主题。
第一期爬取到12000条弹幕,不包含全部。以下仅在爬取到的弹幕中分析。
第一期发弹幕最多的用户达到了104条,相当于视频每播放不到一分钟就发了一条。
按每4.6分钟为区间进行统计,在第一期(下)开头互动最为频繁。
第一期弹幕词云(ps:这是大家的快乐源泉吗hahaha)
附上各期弹幕词云: