各位大牛好,我想用python做一件事:在新浪微博上用关键词搜索微博,并尽可能多地抓取相关微博,然后抓取其评论,并进行文本分析。
现在得知可:
1、用API接口。但是我不知道个人可不可以申请使用,是不是要创建应用,审核通过才行?那么创建哪种应用好?万一审核不过怎么办?用SDK的话,怎么使用?
是不是只有自己的微博的评论才能抓取啊?、
2、用爬虫,模拟浏览器行为。据说抓得多了会被封号。
要怎么办?
另外,新浪微博有原创、评论、转发、评论后转发……我要怎么才能通过这个做网民对搜索的关键词的情感分析呢?
第一次做这个,所以连微博的机制都没有太搞懂,用的是javascript生成搜索结果吗?
谢谢!
用ip代理,同一个主机不要频繁请求,尽量使用sdk
需要通过weibo提供的SDK,需要申请开发者帐号
weibo对于抓取内容现在有一些限制。对于爬虫也会有一些block动作