Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

window.navigator.webdriver=true,请问是如何解决的? #5

Open
991567175 opened this issue May 9, 2019 · 8 comments
Open

window.navigator.webdriver=true,请问是如何解决的? #5

991567175 opened this issue May 9, 2019 · 8 comments

Comments

@991567175
Copy link

rt,thanks

@wqh0109663
Copy link
Owner

不懂你的意思

@991567175
Copy link
Author

TODO

2019-3-11更新

发现一个问题:就是使用驱动获取cookie,与使用浏览器自己打开,所弹出的登录页面有所不同,手动打开的网页中没有图片验证码,而使用驱动(无论是谷歌浏览器驱动还是火狐的浏览器驱动均没有用,亲测),根据相关文档查看到根据驱动是可以获取到指纹特征,所以拉钩也可能在这方面做过手脚,也看到使用驱动下面的一行代码会为true,‘window.navigator.webdriver’,所以应该还是挺多的方法可以检测是不是机器人在操作。

@wqh0109663
Copy link
Owner

后来没有做全站的 直接请求的接口 lagou2里面有部分参考

@991567175
Copy link
Author

= = 原来是手动添加cookies

@wqh0109663
Copy link
Owner

拉钩动态更新cookie 比较简单还是直接请求接口就完事了

@991567175
Copy link
Author

第一次运行的时候,手动加cookie,运行期间,调用接口去动态更新cookie吗?好像是个新方向,我去试试

@wqh0109663
Copy link
Owner

不是你说的意思 我的意思是先get页面 从页面中获取cookie 从这个cookie里面 获取到更新的字段 然后把其他三个字段全给更新了 然后去请求接口就不会出现问题 就能获取到数据 要不然你得到的就是访问频率过高之类的数据

@991567175
Copy link
Author

我之前爬拉钩的职位信息(不需要登录的就能进该页面),能够让程序自动去获取cookie。
但是现在在爬智联的简历信息,这种的是必须先登录,然后才能拿到cookie的。我目前的做法是手动复制cookie去请求。理论上,cookie是会过期的吧?那过期之后怎么处理...还有就是我这种做法(httpclient)会不会被识别出来,然后被封ip呢

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants