使用python爬取B站千万级数据

(编辑：jimmy 日期: 2024/9/29 浏览：2)

Python（发音：英["" src="/UploadFiles/2021-04-08/201806080836221.jpg">

粉丝独白

说起热门的B站相信很多喜欢玩动漫的，看最有创意的Up主的同学一定非常熟悉。我突发奇想学Python这么久了，为啥不用Python爬取B站中我关注的人，已经关注的人他们关注的人，看看全站里面热门的UP主都是是哪些。

要点：

- 爬取10万用户数据

- 数据存储

- 数据词云分析

写代码前先构思思路：既然我要爬取用户关注的用户，那我需要存储用户之间的关系，确定谁是主用户，谁是follower。

存储关系使用数据库最方便，也有利于后期的数据分析，我选择sqlite数据库，因为Python自带sqlite，sqlite在Python中使用起来也非常方便。

数据库中需要2个表，一个表存储用户的相互关注信息，另一个表存储用户的基本信息，在B站的用户体系中，一个用户的mid号是唯一的。

然后我还需要一个列表来存储所以已经爬取的用户，防止重复爬取，毕竟用户之间相互关注的现象也是存在的，列表中存用户的mid号就可以了。

先写建数据库的代码，数据库中放一个用户表，一个关系表：

我需要找到B站用户的关注列表的json接口，很快就找到了，地址是：

https://api.bilibili.com/x/relation/followings"" src="/UploadFiles/2021-04-08/201806080836223.jpg">

整个爬取页面的思路比较简单，首先设置header,用requests库进行API请求，获得关注的用户数据列表。

我们爬取前5页，每一页的数据进行简单的处理，然后转为字典数据进行获取mid,uname,sign3个维度的数据，最后save()函数存入db.

我们数据集里面一共有2个表，一个用户列表，用来存储所以的用户信息，一个是用户之间的关注信息。

打算利用已经爬取到本地的数据进行词云的生成，来看一下这10万用户中共同的关注的哪些UP主出现的次数最多。

代码的思路主要是从数据库中获取用户的名字，重复的次数越多说明越多的用户关注，然后我使用fate的一张图片作为词云的mask图片，最后生成词云图片。

最后一起来看一下词云图

可以看出蕾丝，暴走漫画，木鱼水心，参透之C君，papi酱等B站大UP主都是热门关注。

web开发和爬虫是比较适合零基础的

自动化运维运维开发和自动化测试是适合已经在做运维和测试的人员

大数据数据分析这方面是很需要专业的专业性相对而言比较强

科学计算一般都是科研人员在用

机器学习和人工智能首先学历要求高其次高数要求高难度很大