Python获取 小黑子 弹幕数据+制作词云分析.........
创始人
2024-04-03 08:05:45

嗨害大家好鸭,我是小熊猫❤

最近在小破站热门上看见了这个:

在这里插入图片描述
不得不说还是挺不一样的

对吧?什么你说不是?

哎呦~ 你干嘛 ~

咳咳…话不多说,让我们一起来康康~

源码、资料电子书点击这里

基本开发环境💨

  • Python 3.6
  • Pycharm

相关模块的使用💨

  • requests
  • re

安装Python并添加到环境变量,
pip安装需要的相关模块即可。


一、💥明确需求

在这里插入图片描述

二、💥网页数据分析

现在点击历史弹幕数据,同样是有数据加载出来,但是里面的都是乱码了。

在这里插入图片描述

请求这个链接还是会得到想要的数据内容。

只需要使用正则表达匹配中文字符就可以匹配出来

请添加图片描述


三、💥解析数据并多页爬取

弹幕分页是根据日期来的,当点击日期的使用,
返回的给我的数据并不是弹幕数据,而是所有的日期。

那么看到这里有人就会问了,
那我想要爬取目标日期的弹幕数据怎么办?

这两个的url地址是不一样的,
seg.so 才是弹幕数据url地址。

import requests
import redef get_response(html_url):headers = {'cookie': '你自己的cookie','origin': 'https://www.****','referer': 'https://****/video/BV19E41197Kc','user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',}response = requests.get(url=html_url, headers=headers)return responsedef get_date(html_url):response = get_response(html_url)json_data = response.json()date = json_data['data']print(date)return dateif __name__ == '__main__':one_url = 'https://api.****.com/x/v2/dm/history/index?type=1&oid=120004475&month=2021-01'get_date(one_url)

返回的数据是json数据,
根据字典键值对取值就可以得到相关数据。


四、💥保存数据(数据持久化)

def main(html_url):data = get_date(html_url)for date in data:url = f'https://****/x/v2/dm/web/history/seg.so?type=1&oid=120004475&date={date}'html_data = get_response(url).textresult = re.findall(".*?([\u4E00-\u9FA5]+).*?", html_data)for i in result:with open('**弹幕.txt', mode='a', encoding='utf-8') as f:f.write(i)f.write('\n')

在这里插入图片描述
请添加图片描述


五、💥完整代码

import requests
import redef get_response(html_url):headers = {'cookie': '你自己的cookie','origin': 'https://www.bilibili.com','referer': 'https://www.bilibili.com/video/BV19E41197Kc','user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',}response = requests.get(url=html_url, headers=headers)return responsedef get_date(html_url):response = get_response(html_url)json_data = response.json()date = json_data['data']print(date)return datedef save(content):for i in content:with open('B站弹幕.txt', mode='a', encoding='utf-8') as f:f.write(i)f.write('\n')print(i)def main(html_url):data = get_date(html_url)for date in data:url = f'https://api.bilibili.com/x/v2/dm/web/history/seg.so?type=1&oid=120004475&date={date}'html_data = get_response(url).textresult = re.findall(".*?([\u4E00-\u9FA5]+).*?", html_data)save(result)if __name__ == '__main__':one_url = 'https://api.bilibili.com/x/v2/dm/history/index?type=1&oid=120004475&month=2021-01'main(one_url)

今天的文章就是这样啦

我是小熊猫,咱下篇文章再见啦❤

请添加图片描述

相关内容

热门资讯

埃菲尔铁塔在哪 中国仿建埃菲尔... 2019年4月26日,广西南宁市,街头惊现一座巨型山寨版埃菲尔铁塔,高约20米,白色塔身,造型逼真,...
苗族的传统节日 贵州苗族节日有... 【岜沙苗族芦笙节】岜沙,苗语叫“分送”,距从江县城7.5公里,是世界上最崇拜树木并以树为神的枪手部落...
北京的名胜古迹 北京最著名的景... 北京从元代开始,逐渐走上帝国首都的道路,先是成为大辽朝五大首都之一的南京城,随着金灭辽,金代从海陵王...
长白山自助游攻略 吉林长白山游... 昨天介绍了西坡的景点详细请看链接:一个人的旅行,据说能看到长白山天池全凭运气,您的运气如何?今日介绍...
应用未安装解决办法 平板应用未... ---IT小技术,每天Get一个小技能!一、前言描述苹果IPad2居然不能安装怎么办?与此IPad不...
脚上的穴位图 脚面经络图对应的... 人体穴位作用图解大全更清晰直观的标注了各个人体穴位的作用,包括头部穴位图、胸部穴位图、背部穴位图、胳...
猫咪吃了塑料袋怎么办 猫咪误食... 你知道吗?塑料袋放久了会长猫哦!要说猫咪对塑料袋的喜爱程度完完全全可以媲美纸箱家里只要一有塑料袋的响...
demo什么意思 demo版本... 618快到了,各位的小金库大概也在准备开闸放水了吧。没有小金库的,也该向老婆撒娇卖萌服个软了,一切只...
世界上最漂亮的人 世界上最漂亮... 此前在某网上,选出了全球265万颜值姣好的女性。从这些数量庞大的女性群体中,人们投票选出了心目中最美...
埃菲尔铁塔在哪 中国仿建埃菲尔... 2019年4月26日,广西南宁市,街头惊现一座巨型山寨版埃菲尔铁塔,高约20米,白色塔身,造型逼真,...
苗族的传统节日 贵州苗族节日有... 【岜沙苗族芦笙节】岜沙,苗语叫“分送”,距从江县城7.5公里,是世界上最崇拜树木并以树为神的枪手部落...
北京的名胜古迹 北京最著名的景... 北京从元代开始,逐渐走上帝国首都的道路,先是成为大辽朝五大首都之一的南京城,随着金灭辽,金代从海陵王...
长白山自助游攻略 吉林长白山游... 昨天介绍了西坡的景点详细请看链接:一个人的旅行,据说能看到长白山天池全凭运气,您的运气如何?今日介绍...
世界上最漂亮的人 世界上最漂亮... 此前在某网上,选出了全球265万颜值姣好的女性。从这些数量庞大的女性群体中,人们投票选出了心目中最美...
应用未安装解决办法 平板应用未... ---IT小技术,每天Get一个小技能!一、前言描述苹果IPad2居然不能安装怎么办?与此IPad不...
脚上的穴位图 脚面经络图对应的... 人体穴位作用图解大全更清晰直观的标注了各个人体穴位的作用,包括头部穴位图、胸部穴位图、背部穴位图、胳...
demo什么意思 demo版本... 618快到了,各位的小金库大概也在准备开闸放水了吧。没有小金库的,也该向老婆撒娇卖萌服个软了,一切只...
猫咪吃了塑料袋怎么办 猫咪误食... 你知道吗?塑料袋放久了会长猫哦!要说猫咪对塑料袋的喜爱程度完完全全可以媲美纸箱家里只要一有塑料袋的响...