调研:爬取微信公众号的方法

微信公众号爬虫梳理汇总

一、微信公众号数据源:

1.搜狗微信 :可以获取到 订阅号,近期没有做过变动的公众号。没有服务号,数据分析所需数据不全(点赞/打赏/阅读等等)

2.手机app :数据最全

3.微信公众平台后台历史链接:采集微信公共号历史信息,除了通过中间代理采集APP就是它了

二、优秀的新媒体爬虫:

1.新榜:数据源来自手机app
2.清博大数据:

3.新媒体管家

……太多,Clark没看,有时间再补充

三、爬取公众号的方法:

1.搜狗微信:网页响应解析+ua&ip代理(¥¥¥¥¥¥)+永久链接转换

2.手机app:自动化群控制(手机/小米盒子等等)+渲染后页面解析

3.微信公众号平台:注册多个微信公众平台账号(应对封号等情况)+selenium等。教程链接https://cuiqingcai.com/4652.html

四、公众号内容过滤问题(涉及到需求):

公众号内容使用,分两种情况

1.转载到自己的域名空间

2.直接使用其外链(永久链接)

(3.数据分析(阅读数,点赞等))

五、题外话:

大多数公众号爬虫的需求,无非是 获取内容数据分析

1.对于 获取内容 :建议采用的优先级方案

1.建立自媒体账号平台,设置奖励机制,引导搬砖户前来编辑。

2.爬取搜狗微信,分析响应+ip代理比较常见的爬虫套路,考虑到学习成本和经济成本,性价比高

3.开发 采集 微信公众号的插件,内容采集富文本(包括格式),图片从微信提供的链接(微信防盗链)上传至自己的图床地址。

4.手机群控

2.对于数据分析

1.样本只需要数据,可以对手机App数据进行抓包,再学习下手机自动化测试工具,从而实现爬虫。这里推荐掘金小册的一个微信公众号爬虫,卖18元好像,我买了,看了下挺好。

2.样本量大,成本就大,可以去买类似云服务器一样的手机/小米盒子等设备群控,这个设备不光可以爬手机App了,还可以刷App榜单等等。

未经允许不得转载:子航个人博客,记录生活点滴 » 调研:爬取微信公众号的方法

赞 (0)
分享到:更多 ()

评论 1

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
  1. 聆风 \(^o^)/~ 回复