指定wb用户在指定日期范围内的wb内容抓取
创始人
2025-06-01 15:17:14

一、操作步骤

只记录过程,不讲述原理

1.获取用户ID和cookie

用户ID在进入个人主页时导航栏中就会有显示,例如下面这样:
在这里插入图片描述
cookie获取(有的代码无需cookie也能运行):
微博登陆后,进入个人主页,打开开发者工具,点击network和Fetch/XHR:
在这里插入图片描述

可以尝试点击“weibo”
在这里插入图片描述此时可以看到出现myblog开头数据包:
在这里插入图片描述
点击该数据包,点击"Headers",下翻,可以看到其“Header Request”中就有cookie,复制即可:
在这里插入图片描述

2.程序下载(也就是二、中的项目)

(1)下载git,然后在希望安装爬虫项目的文件目录下打开git bash(或克隆项目时指定文件位置),输入以下命令:

git clone https://github.com/dataabc/weibo-crawler.git

3.程序运行

(1)首先对config文件中的参数进行修改,改成自己需要的,包括ID,cookie,是否下载图片等,具体参数作者在README中写得很清楚。
(2)安装依赖,可能会有版本冲突报错,按提示该升级升级就行:

pip install -r requirements.txt

(3)运行就直接在git bash中输入:

python weibo.py

(4)时间可能较长,运行完毕后出现weibo文件夹,数据都存在里面

二、完整代码网址

https://github.com/dataabc/weibo-crawler

参考并感谢:

https://www.cnblogs.com/wangzheming35/
@misc{weibospider2020,
author = {Lei Chen, Zhengyang Song, schaepher, minami9, bluerthanever, MKSP2015, moqimoqidea, windlively, eggachecat, mtuwei, codermino, duangan1},
title = {{Weibo Spider}},
howpublished = {\url{https://github.com/dataabc/weiboSpider}},
year = {2020}
}

相关内容

热门资讯

玛雅人的五大预言 玛雅人预言2... 曾经玛雅人预言2012年是世界末日,但当时好像没有发生什么。没想到10年后的2022年,疫情,战争,...
长白山自助游攻略 吉林长白山游... 昨天介绍了西坡的景点详细请看链接:一个人的旅行,据说能看到长白山天池全凭运气,您的运气如何?今日介绍...
cad打印线条粗细设置 cad... 004-线型(下)打印样式设置和线型文件使用一、线宽设置方法制图规范里边的线宽要求,我们已经定义好,...
阿西吧是什么意思 阿西吧相当于... 即使你没有受到过任何外语培训,你也懂四国语言。汉语:你好英语:Shit韩语:阿西吧(아,씨발! )日...
世界上最漂亮的人 世界上最漂亮... 此前在某网上,选出了全球265万颜值姣好的女性。从这些数量庞大的女性群体中,人们投票选出了心目中最美...