偶然看到的,通过Google的webcache来获取站点的快照。
URL示例: https://webcache.googleusercontent.com/search?q=cache:https://www.piie.com/
比如piie站点,正常浏览会触发cloudflare的质询。
通过webcache访问:https://webcache.googleusercontent.com/search?q=cache:https://www.piie.com/
可以选择有渲染的完整版本,或者文字版本,或者源码版本
站点内容:
详情页对比,webcache内容:
页面内容:
笔者测试了一些站点,像 piie.com、ecfr.eu、wsj.com之类都可通过这种方法获取html内容。
虽然快照有半天到一天的延迟,但相对于Cloudflare防护的繁琐,也不失为一种解决方法。
而对一些特定采集场景,使用webcache可能有出其不意的效果。
除了google的快照,一些网站也提供类似服务,比如 https://web.archive.org/
不过效果并没有google好,快照的延迟更高。
大家有其他方法可留言