反爬虫-如何检测有没有使用Puppeteer

现在检测 Puppeteer 越来越难了,用户可以通过 js 对无头浏览器进行各种伪装,webdriver、webgl、plugins 都很难检测到爬虫,在这里有一个新思路。许多网页都有检测控制台是否开启的功能,其中大多数网页会直接禁用 F12 和右键,但这似乎并没有什么用处,因为浏览器也有其他办法开启控制台,偶然的机会,我看到这篇文章《判断控制台是否开启(chrome)》。其中提供了一个思...

如何利用Selenium实现更加高效的爬虫

1. 导语Selenium 作为浏览器自动化工具,由于其可以直接执行 js 代码的优越性,经常被用做爬虫工具。但是,毕竟需要控制浏览器,低效率高内存始终是其难以甩掉的标签。在我个人爬虫开发中,对如何高效利用 selenium 有了一套个人的理解。 2. 用 js 注入代替 selenium 原生操作selenium 库提供的 execute_script 方法使 js 注入成为可能。下面是一...

在ifvod上爬取m3u8播放链接

0:绪在上个月,我通过爬取 youtube 视频,提取 mp3,制作了一个基于云函数的搜索音乐网站。后来,我抱着解决 ifvod 广告的想法,阅读了 ifvod 的网站源码,并且通过修改 js 代码,成功删除了 ifvod 的广告。受上述两个过程的启发,我想,通过提取 ifvod 上的视频 m3u8 链接来制作一个基于云函数的视频搜索网站。 1:什么是 m3u8m3u8 文件是一种文本文件,...

爬取Youtube搜索结果

1:绪最近在做一个音乐下载软件,通过搜索音乐名称,下载youtube上信息匹配度最高的视频,提取其中的音频,来获取音乐。开源软件youtube-dl已经完成了视频下载和音频提取的全部工作,我要做的就是,获取目标视频的id或者视频链接,然后调用youtube-dl下载。 2:接口谷歌官方其实已经提供了获取YouTube搜索结果的api,直接调用即可。 12345678910#调用谷歌api获取...

外卖平台订单爬取之美团外卖商家版

1:root手机昨天,我利用mitmproxy成功拦截了饿了么服务器返回的订单信息。今天,我准备故技重施,获取美团订单。残酷的现实给我炽热地心浇了一盆冷水。无论我如何调整mitmproxy和美团外卖商家版,都无法获取到美团服务器返回的数据。更确切地说,美团服务器似乎发现,有这么一个小偷,准备偷取它返回给客户端地数据。因此拒绝给客户端传递数据。 我在网上找了一些解答,在安卓7.0之后,安卓系统...

外卖平台订单爬取之饿了么零售商家版

1:简单说两句这是我一个准备做的完整项目中的一个小部分。从很早以前,我就在思考,如何将美团和饿了么以及我自己做的小程序订单合并在一起,这样来实现统一的管理。。之所以要统一管理,是因为我母亲从事鲜花零售,在节假日里,会有大量的订单,而鲜花的包扎是个时间活。制作和配送,以及订单的处理,繁杂的程序会让人晕头转向。为了减轻我母亲的节假日压力,我想到了一些方法,来帮助她管理订单。 完整的项目是,汇总小...