用python抓取小仙女2000+条微博后做的简单分析

动机


某天小仙女翻她微博发照片给我看,我打开她的微博,我的天,2000多条。刚好最近在做NLP相关的工作,需要爬各种数据,于是萌生了把小仙女微博爬下来看看的想法。(坑比微博不开放接口是很菜了)

知乎@路人甲大神每隔一段时间就爬爬豆瓣/知乎等等网站,做了很多有意思的分析,看的难免心痒痒,所以一直想深入爬虫,做做数据分析。本着学习 python, 爬取了小仙女2000 条微博,主要想看看仙女微博最常发的是什么,仙女的日常又是什么。

用python抓取小仙女2000 条微博后做的简单分析

思路


web端微博通过js渲染和ajax接口读取内容,爬取工作量太大。所以换了一下思路,用chrome爬取微博手机版,极大程度上避免了微博的反爬。

1、用chrome获取cookie。

chrome 进入 微博手机版,F12打开开发者工具,点击Network – Preserve log,使用小号登录微博手机版。(注意一定使用小号!)

用python抓取小仙女2000 条微博后做的简单分析

大幂幂微博

m.weibo.cn->Headers->Cookie 复制下自己的cookie,等会儿需要使用,也就是登录信息。

用python抓取小仙女2000 条微博后做的简单分析

cookie

2、获取你要爬取的仙女的微博uid。

F12打开开发者工具,ctrl F查找uid就ok了。

用python抓取小仙女2000 条微博后做的简单分析

uid

3、爬取文字和图片。

具体爬取过程有兴趣的可以去文末附带的GitHub项目链接看看啦。

需要使用的话,请注册一个小号登录,大规模爬取的话请注意ip更换。代码中有设置sleep时间,根据实际情况自行调整就好啦。

爬取过程如下:

用python抓取小仙女2000 条微博后做的简单分析

读取uid和cookie

抓取结果如下图所示:

用python抓取小仙女2000 条微博后做的简单分析

微博文字

用python抓取小仙女2000 条微博后做的简单分析

微博图片

1426张照片,我是服气的。。

用python抓取小仙女2000 条微博后做的简单分析

小仙女数据


接下来,就是一些数据清洗、处理、分析的工作。(此处省去1000万字)

直接看处理的结果吧嘻嘻!

  • 关键词

用python抓取小仙女2000 条微博后做的简单分析

词云图

用python抓取小仙女2000 条微博后做的简单分析

关键词词频

“一个”、“自己”、“真的” 占据了首位。哇,自己一个人开心?我是不信的,自己一个人只会哭哭吧。

“可爱”、“哈哈哈”、“开心”,这波可以的,仙女形象呼之欲出了。

“守望” “游戏” “英雄”,嗯哼 这是个电竞网瘾少女了。

现在到造句环节了,我先来一个仙女的freestyle:“觉得自己真的很可爱了哈哈哈开心”。

  • 微博分类

用python抓取小仙女2000 条微博后做的简单分析

微博分类

果然还是以 美食 为主的, 毕竟是没事雍和会,日常安野牧场的小公主。

购物 / 娱乐 / 美妆都不少,好了很符合小仙女的日常了。可是真的没有互联网类吗,难怪今年要拿不到奖学金了。

快递送餐类是十分可爱了哈哈哈。一个人带4份猪食回宿舍喂猪的美少女。。。

  • 常用表情

用python抓取小仙女2000 条微博后做的简单分析

微博表情

为了让大家更清晰看出每个表情,用微博直接显示出来文字和表情的对应。

哭哭占了最多是什么鬼,还有神秘的微笑和神秘的拜拜。

真是有故事的女同学嘻嘻。

  • 常用人名

用python抓取小仙女2000 条微博后做的简单分析

仙女使用的名字

好吧,这个词语识别和人名识别是很不完善啦。有空再改进。

国际惯例,附上源码:[GitHub CayleyMongo] :

https://github.com/CayleyMongo/weibo_spider

内容出处:,

声明:本网站所收集的部分公开资料来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。文章链接:http://www.yixao.com/procedure/4667.html

发表评论

登录后才能评论