当前在线人数14466
首页 - 分类讨论区 - 电脑网络 - 葵花宝典版 - 同主题阅读文章

此篇文章共收到打赏
0

  • 10
  • 20
  • 50
  • 100
您目前伪币余额:0
未名交友
[更多]
[更多]
有对付anti-robot的高手吗?
[版面:葵花宝典][首篇作者:longtian] , 2019年09月20日01:39:29 ,1043次阅读,18次回复
来APP回复,赚取更多伪币 关注本站公众号:
[分页:1 ]
longtian
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 1 ]

发信人: longtian (有人的地方,就有江湖), 信区: Programming
标  题: 有对付anti-robot的高手吗?
发信站: BBS 未名空间站 (Fri Sep 20 01:39:29 2019, 美东)

想爬https://publicholidays.us/school-holidays/里每个州每个学区的放假信息。这
个网站用了3rd party的anti-robot.我用了python下各种工具,只要一读这个网站的页
面,立刻被识别出来是自动工具。

哪位高手能试试,找出他是怎么判断我是自动工具的。你用自动工具的链接会被拒绝,
但是你的ip不会被block,还能访问,所以不用担心立刻被blacklist


--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 68.]

 
zzxx53
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 2 ]

发信人: zzxx53 (zzxx53), 信区: Programming
标  题: Re: 有对付anti-robot的高手吗?
发信站: BBS 未名空间站 (Fri Sep 20 08:57:09 2019, 美东)

Change user agent header

================================
:
:想爬https://publicholidays.us/school-holidays/里每个州每个学区的放假信息。
这个网站用了3rd party的anti-robot.我用了python下各种工具,只要一读这个网站的
页面,立刻被识别出来是自动工具。

--
发自Android客户端Mitbbs X
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 107.]

 
longtian
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 3 ]

发信人: longtian (有人的地方,就有江湖), 信区: Programming
标  题: Re: 有对付anti-robot的高手吗?
发信站: BBS 未名空间站 (Fri Sep 20 11:30:30 2019, 美东)

这是最基本的方法,用了,没用。

这个网站的防robot方法是检测很多变量,工具生成的变量会不一样。还有说firefox,
chrome的webdriver在后来的版本键入了某些变量,我卸载了chrome 77,安装了73版,也
不行。


【 在 zzxx53 (zzxx53) 的大作中提到: 】
: Change user agent header
: ================================
: :
: :想爬https://publicholidays.us/school-holidays/里每个州每个学区的放假信息。
: 这个网站用了3rd party的anti-robot.我用了python下各种工具,只要一读这个网站的
: 页面,立刻被识别出来是自动工具。



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 68.]

 
longtian
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 4 ]

发信人: longtian (有人的地方,就有江湖), 信区: Programming
标  题: Re: 有对付anti-robot的高手吗?
发信站: BBS 未名空间站 (Fri Sep 20 11:34:17 2019, 美东)

我去试试
【 在 hardpack (hardpack) 的大作中提到: 】
: 码农灯塔说有专业下网页的service,试试呗。
: https://m.youtube.com/watch?v=L9pFcjIvZRs



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 68.]

 
walkrandom
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 5 ]

发信人: walkrandom (walkrandom), 信区: Programming
标  题: Re: 有对付anti-robot的高手吗?
发信站: BBS 未名空间站 (Fri Sep 20 13:19:33 2019, 美东)

看了一下,像个很穷的网站。
请人写了点Javascript防爬。
你跟他直接说买数据好了。
他们赚点钱也不容易
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 104.]

 
longtian
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 6 ]

发信人: longtian (有人的地方,就有江湖), 信区: Programming
标  题: Re: 有对付anti-robot的高手吗?
发信站: BBS 未名空间站 (Fri Sep 20 14:08:12 2019, 美东)

3rd party的service不便宜,比如著名的distil networks

直接买更贵。我们cheap所以要爬


【 在 walkrandom (walkrandom) 的大作中提到: 】
: 看了一下,像个很穷的网站。
: 请人写了点Javascript防爬。
: 你跟他直接说买数据好了。
: 他们赚点钱也不容易



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 50.]

 
repast
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 7 ]

发信人: repast (xebec), 信区: Programming
标  题: Re: 有对付anti-robot的高手吗?
发信站: BBS 未名空间站 (Fri Sep 20 14:51:51 2019, 美东)

实在不行用 selenium 呗

【 在 longtian (有人的地方,就有江湖) 的大作中提到: 】
: 3rd party的service不便宜,比如著名的distil networks
: 直接买更贵。我们cheap所以要爬



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 69.]

 
hamsterdam4
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 8 ]

发信人: hamsterdam4 (Tears in rain), 信区: Programming
标  题: Re: 有对付anti-robot的高手吗?
发信站: BBS 未名空间站 (Fri Sep 20 15:23:36 2019, 美东)

我试了下几种办法

唯一好用的就是selenium

const val USER_AGENT = "Mozilla/5.0 (X11; Linux i686; rv:64.0) Gecko/
20100101 Firefox/64.0"

val options = ChromeOptions()
options.addArguments("user-agent=$USER_AGENT")
val driver = ChromeDriver(options)
driver.get(BASE_URL)
val html = driver.pageSource
println(html)

【 在 repast (xebec) 的大作中提到: 】
:  实在不行用 selenium 呗



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2600:1:91c2:731]

 
hamsterdam4
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 9 ]

发信人: hamsterdam4 (Tears in rain), 信区: Programming
标  题: Re: 有对付anti-robot的高手吗?
发信站: BBS 未名空间站 (Fri Sep 20 15:31:22 2019, 美东)

悲剧,没试几次被屏蔽了
【 在 hamsterdam4 (Tears in rain) 的大作中提到: 】
: 我试了下几种办法
: 唯一好用的就是selenium
: const val USER_AGENT = "Mozilla/5.0 (X11; Linux i686; rv:64.0) Gecko/
: 20100101 Firefox/64.0"
: val options = ChromeOptions()
: options.addArguments("user-agent=$USER_AGENT")
: val driver = ChromeDriver(options)
: driver.get(BASE_URL)
: val html = driver.pageSource
: println(html)



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2600:1:91c2:731]

 
adler
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 10 ]

发信人: adler (鼎), 信区: Programming
标  题: Re: 有对付anti-robot的高手吗?
发信站: BBS 未名空间站 (Fri Sep 20 15:32:26 2019, 美东)

selenium能被检测出来
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 166.]

 
hamsterdam4
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 11 ]

发信人: hamsterdam4 (Tears in rain), 信区: Programming
标  题: Re: 有对付anti-robot的高手吗?
发信站: BBS 未名空间站 (Fri Sep 20 16:31:30 2019, 美东)

我用selenium试的时候刚开始可以,但是多几页就被检测到了

这个时候换user-agent又能看几页

我想可不可以网上找个user-agent的list,然后每次从里面选一个出来用,用完拉到那
种。
【 在 adler (鼎) 的大作中提到: 】
: selenium能被检测出来



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2600:1:91c2:731]

 
repast
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 12 ]

发信人: repast (xebec), 信区: Programming
标  题: Re: 有对付anti-robot的高手吗?
发信站: BBS 未名空间站 (Fri Sep 20 16:45:07 2019, 美东)

这种可能是 usage-based throttle? 你加个平均3秒的负指数分布的延迟,也会被查出
来?
它怎么查出来 是 selenium 的?

【 在 hamsterdam4 (Tears in rain) 的大作中提到: 】
: 我用selenium试的时候刚开始可以,但是多几页就被检测到了
: 这个时候换user-agent又能看几页
: 我想可不可以网上找个user-agent的list,然后每次从里面选一个出来用,用完拉到那
: 种。



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 69.]

 
longtian
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 13 ]

发信人: longtian (有人的地方,就有江湖), 信区: Programming
标  题: Re: 有对付anti-robot的高手吗?
发信站: BBS 未名空间站 (Fri Sep 20 16:49:08 2019, 美东)

人用的时候不会,你很快的点一大推都没有问题

但是你只要用自动工具,很快就会被识别出来

selenium的webdriver里边有写特殊字段,我用hex editor改了一些,但是还是不work


【 在 repast (xebec) 的大作中提到: 】
: 这种可能是 usage-based throttle? 你加个平均3秒的负指数分布的延迟,也会被查出
: 来?
: 它怎么查出来 是 selenium 的?



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 50.]

 
hamsterdam4
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 14 ]

发信人: hamsterdam4 (Tears in rain), 信区: Programming
标  题: Re: 有对付anti-robot的高手吗?
发信站: BBS 未名空间站 (Fri Sep 20 17:03:28 2019, 美东)

我查了一下selenium好像是cdn那边会用js检测window.navigator.webdriver这样的key

我试了拿很多user-agent的办法,也没成功
【 在 repast (xebec) 的大作中提到: 】
: 这种可能是 usage-based throttle? 你加个平均3秒的负指数分布的延迟,也会被查出
: 来?
: 它怎么查出来 是 selenium 的?



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2600:1:91c2:731]

 
funstock
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 15 ]

发信人: funstock (funstock), 信区: Programming
标  题: Re: 有对付anti-robot的高手吗?
发信站: BBS 未名空间站 (Fri Sep 20 18:17:44 2019, 美东)

有人能帮我看看这个网站如何对付么?

https://seekingalpha.com/earnings/earnings-call-transcripts

想下载所有公司的业绩发布会议记录。
--
※ 修改:·funstock 於 Sep 20 18:19:12 2019 修改本文·[FROM: 107.]
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 107.]

 
lsunspot
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 16 ]

发信人: lsunspot (小手), 信区: Programming
标  题: Re: 有对付anti-robot的高手吗?
发信站: BBS 未名空间站 (Sat Sep 21 11:23:37 2019, 美东)

自己写个http client呗

--
☆ 发自 iPhone 买买提 1.24.10
--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 2600:1:f16c:c72]

 
longtian
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 17 ]

发信人: longtian (有人的地方,就有江湖), 信区: Programming
标  题: Re: 有对付anti-robot的高手吗?
发信站: BBS 未名空间站 (Tue Sep 24 18:29:08 2019, 美东)

更容易识别

【 在 lsunspot (小手) 的大作中提到: 】
: 自己写个http client呗



--
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 50.]

 
zuzi
进入未名形象秀
我的博客
[回复] [回信给作者] [本篇全文] [本讨论区] [修改] [删除] [转寄] [转贴] [收藏] [举报] [ 18 ]

发信人: zuzi (过河卒), 信区: Programming
标  题: Re: 有对付anti-robot的高手吗?
发信站: BBS 未名空间站 (Wed Oct  2 15:39:45 2019, 美东)

IP address?
【 在 longtian (有人的地方,就有江湖) 的大作中提到: 】
: 想爬https://publicholidays.us/school-holidays/里每个州每个学区的放假信息。这
: 个网站用了3rd party的anti-robot.我用了python下各种工具,只要一读这个网站的页
: 面,立刻被识别出来是自动工具。
: 哪位高手能试试,找出他是怎么判断我是自动工具的。你用自动工具的链接会被拒绝,
: 但是你的ip不会被block,还能访问,所以不用担心立刻被blacklist



--
I crossed the Rubicon.
※ 来源:·WWW 未名空间站 网址:mitbbs.com 移动:在应用商店搜索未名空间·[FROM: 100.]

[分页:1 ]
[快速返回] [ 进入葵花宝典讨论区] [返回顶部]
回复文章
标题:
内 容:

未名交友
将您的链接放在这儿

友情链接


 

Site Map - Contact Us - Terms and Conditions - Privacy Policy

版权所有,未名空间(mitbbs.com),since 1996