twitter推文爬虫案例

案例内容:twitter的推文采集。

通过游客身份获取twitter中用户的推文。

用户推文:只能翻22页,1页45条左右。 每个用户最多获取最近900条推文 (登录后),不登录区别也不大。


UserByScreenName

一般只有用户名的时候,需要先通过UserByScreenName接口获取 rest_id 用于后续的请求。

在这里插入图片描述

比如未登录时:https://twitter.com/i/api/graphql/gr8Lk09afdgWo7NvzP89iQ/UserByScreenName?

【温馨提示:此处隐藏内容需要登录后才能查看!】


游客ID

分析数据包并搜索可发现,在JS中能找到游客访问ID,
在这里插入图片描述

需要注意的是,不同接口的游客ID是有区别的,operationName对应了不同的接口。

在这里插入图片描述

访问其他接口请求时,取的时候需要注意下。

authorization

authorization同上。
在这里插入图片描述

guest-token

全局搜索找到guest-token的生成位置,发现是通过POST请求返回的。

在这里插入图片描述

请求时需要携带 authorization。

在这里插入图片描述


UserTweets-API

当几个参数成功获取后就可以通过UserTweets接口获取用户推文了。
在这里插入图片描述

下一页的cursor在当前响应内容中。


完整代码

【温馨提示:此处隐藏内容需要付费订阅后才能查看!】

点赞
  1. 唐朝的宇宙说道:
    Google Chrome Mac OS X 10.15.7
    链接失效了
    1. Lx Lx说道:
      Google Chrome Windows 10
      阿里云盘太坑了,我存的全失效了

发表回复