(编辑:jimmy 日期: 2024/12/27 浏览:2)
可以发现在div class ="one_entity"中存在页面中分别对应每一个问题
接着div class ="news_item"中h2标签下是我们想要拿到的数据
首先导入requests和BeautifulSoup
import requests from bs4 import BeautifulSoup
由于很多网站定义了反爬策略,所以进行伪装一下
headers = { 'User-Agent': 'Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 87.0.4280.141Safari / 537.36' }
在这里User-Agent只是其中的一种方式,而且大家的User-Agent可能不同。
爬取数据main代码
url = 'https://q.cnblogs.com/list/unsolved"htmlcode">url = 'https://q.cnblogs.com/list/unsolved"htmlcode">text_list = page_soup.select('.one_entity > .news_item > h2') for h2 in text_list: text = h2.a.string fp.write(text+'\n')完整代码如下:
最新资源