R语言对推特twitter数据进行文本情感分析
创始人
2024-03-25 22:45:52


原文链接:http://tecdat.cn/?p=4012

我们以R语言抓取的推特数据为例,对数据进行文本挖掘,进一步进行情感分析,从而得到很多有趣的信息点击文末“阅读原文”获取完整代码数据)。

找到推特来源是苹果手机或者安卓手机的样本,清理掉其他来源的样本。

tweets <-tweets_df>%select(id, statusSource, text, created) %>%
extract(statusSource, "source", "Twitter for (.*?)<")>%filter(source %in%c("iPhone", "Android"))

对数据进行可视化计算不同时间对应的推特比例.。

并且对比安卓手机和苹果手机上的推特数量的区别。

43f6b9314903044ce7d036b2dff7c8ab.jpeg

从对比图中我们可以发现,安卓手机和苹果手机发布推特的时间有显著的差别,安卓手机倾向于在5点到10点之间发布推特,而苹果手机一般在10点到20点左右发布推特。同时我们也可以看到,安卓手机发布推特数量的比例要高于苹果手机。


点击标题查阅往期内容

3fcc208cd9d18080cc8460d1b07e67ec.jpeg

NLP自然语言处理—主题模型LDA案例:挖掘人民网留言板文本数据

outside_default.png

左右滑动查看更多

outside_default.png

01

94b56e59a107acf2612da2b8c2fd01fe.png

02

e9d6e7f8fb54cbed234f77781c971d28.png

03

4fa4a7cef04d9b462a9dc3ec1c751b06.png

04

52e7846d2997dcf33613c06bc473a418.png

然后查看推特中是否含有引用 ,并且对比不同平台上的数量。

ggplot(aes(source, n, fill = quoted)) +
geom_bar(stat ="identity", position ="dodge") +
labs(x ="", y ="Number of tweets", fill ="")

7753c276c465ce78d91506b9bf50adc7.jpeg

从对比的结果来看,安卓手机没有被引用的比例要明显低于苹果手机。而安卓手机引用的数量要明显大于苹果手机。因此可以认为,苹果手机发的推特内容大多为原创,而安卓手机大多为引用。

然后查看推特中是否有链接或者图片,并且对比不同平台的情况

ggplot(tweet_picture_counts, aes(source, n, fill = picture)) +
geom_bar(stat ="identity", position ="dodge") +
labs(x ="",

44f1de9ace0dd0116a839a93ecd002d4.jpeg

从上面的对比图中,我们可以看到安卓手机没有图片或者链接的情况要多于苹果,也就是说,使用苹果手机的用户在发推特的时候一般会发布照片或者链接。

同时可以看到安卓平台的用户把推特一般不使用图片或者链接,而苹果手机的用户恰恰相反。

spr <-tweet_picture_counts>%spread(source, n) %>%
mutate_each(funs(. /sum(.)), Android, iPhone)
rr <-spr$iPhone[2] /spr$Android[2]

然后我们对推特中的异常字符进行检测,并且进行删除然后找到推特中关键词,并且按照数量进行排序

reg <- "([^A-Za-zd#@']|'(?![A-Za-zd#@]))
"tweet_words <-tweets>%filter(!str_detect(text, '^"')) %>%m
utate(text =str_replace_all(text, "https://t.co/[A-Za-zd]+|&", "")) %>%
unnest_tokens(word, text, token ="regex", pattern = reg) %>%
filter(!word %in%stop_words$word,str_detect(word, "[a-z]"))tweet_words %>%count(word, sort =TRUE) %>%head(20) %>%
mutate(word =reorder(word, n)) %>%ggplot(aes(word, n)) +geom_b

ee0793050fec262a4045b1880b81b667.png

对数据进行情感分析,并且计算安卓和苹果手机的相对影响比例。

通过特征词情感倾向分别计算不同平台的情感比,并且进行可视化。

ba10464ca994a3bd6a209745e0b5521d.jpeg

在统计出不同情感倾向的词的数量之后,绘制他们的置信区间。从上面的图中可以看到,相比于苹果手机,安卓手机的负面情绪最多,其次是厌恶,然后是悲伤。表达积极的情感倾向很少。

然后我们对每个情感类别中出现的关键词的数量进行统计。

android_iphone_ratios %>%inner_join(nrc, by ="word") %>%
filter(!sentiment %in%c("positive", "negative")) %>%
mutate(sentiment =reorder(sentiment, -logratio),word =reorder(word, -logratio)) %>%

f43644880e67b2c2f28412a82b39dbd5.jpeg

从结果中我们可以看到,负面词大多出现在安卓手机上,而苹果手机上出现的负面词的数量要远远小于安卓平台上的数量。


2115a937fea62d23048795dc5a94c58c.jpeg

点击文末“阅读原文”

获取全文完整代码数据资料。

本文选自《R语言对推特twitter数据进行文本情感分析》。

点击标题查阅往期内容

【数据分享】维基百科Wiki负面有害评论(网络暴力)文本数据多标签分类挖掘可视化

R语言文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究

NLP自然语言处理—主题模型LDA案例:挖掘人民网留言板文本数据

Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本挖掘新闻组数据集

自然语言处理NLP:主题LDA、情感分析疫情下的新闻文本数据

R语言对NASA元数据进行文本挖掘的主题建模分析

R语言文本挖掘、情感分析和可视化哈利波特小说文本数据

Python、R对小说进行文本挖掘和层次聚类可视化分析案例

用于NLP的Python:使用Keras进行深度学习文本生成

长短期记忆网络LSTM在时间序列预测和文本分类中的应用

用Rapidminer做文本挖掘的应用:情感分析

R语言文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究

R语言对推特twitter数据进行文本情感分析

Python使用神经网络进行简单文本分类

用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类

R语言文本挖掘使用tf-idf分析NASA元数据的关键字

R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据

Python使用神经网络进行简单文本分类

R语言自然语言处理(NLP):情感分析新闻文本数据

Python、R对小说进行文本挖掘和层次聚类可视化分析案例

R语言对推特twitter数据进行文本情感分析

R语言中的LDA模型:对文本数据进行主题模型topic modeling分析

R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation

01aeb5751014b1c6a6bd0d430e421adb.png

08b4b1bfaa7bcc08a3abcec6e1c30d46.jpeg

9e1051caf404378b91f5324366e0241a.png

相关内容

热门资讯

埃菲尔铁塔在哪 中国仿建埃菲尔... 2019年4月26日,广西南宁市,街头惊现一座巨型山寨版埃菲尔铁塔,高约20米,白色塔身,造型逼真,...
苗族的传统节日 贵州苗族节日有... 【岜沙苗族芦笙节】岜沙,苗语叫“分送”,距从江县城7.5公里,是世界上最崇拜树木并以树为神的枪手部落...
北京的名胜古迹 北京最著名的景... 北京从元代开始,逐渐走上帝国首都的道路,先是成为大辽朝五大首都之一的南京城,随着金灭辽,金代从海陵王...
长白山自助游攻略 吉林长白山游... 昨天介绍了西坡的景点详细请看链接:一个人的旅行,据说能看到长白山天池全凭运气,您的运气如何?今日介绍...
脚上的穴位图 脚面经络图对应的... 人体穴位作用图解大全更清晰直观的标注了各个人体穴位的作用,包括头部穴位图、胸部穴位图、背部穴位图、胳...
应用未安装解决办法 平板应用未... ---IT小技术,每天Get一个小技能!一、前言描述苹果IPad2居然不能安装怎么办?与此IPad不...
世界上最漂亮的人 世界上最漂亮... 此前在某网上,选出了全球265万颜值姣好的女性。从这些数量庞大的女性群体中,人们投票选出了心目中最美...
猫咪吃了塑料袋怎么办 猫咪误食... 你知道吗?塑料袋放久了会长猫哦!要说猫咪对塑料袋的喜爱程度完完全全可以媲美纸箱家里只要一有塑料袋的响...
demo什么意思 demo版本... 618快到了,各位的小金库大概也在准备开闸放水了吧。没有小金库的,也该向老婆撒娇卖萌服个软了,一切只...
埃菲尔铁塔在哪 中国仿建埃菲尔... 2019年4月26日,广西南宁市,街头惊现一座巨型山寨版埃菲尔铁塔,高约20米,白色塔身,造型逼真,...
苗族的传统节日 贵州苗族节日有... 【岜沙苗族芦笙节】岜沙,苗语叫“分送”,距从江县城7.5公里,是世界上最崇拜树木并以树为神的枪手部落...
北京的名胜古迹 北京最著名的景... 北京从元代开始,逐渐走上帝国首都的道路,先是成为大辽朝五大首都之一的南京城,随着金灭辽,金代从海陵王...
长白山自助游攻略 吉林长白山游... 昨天介绍了西坡的景点详细请看链接:一个人的旅行,据说能看到长白山天池全凭运气,您的运气如何?今日介绍...