用户名*
邮箱*
密码*
确认密码*
验证码* 点击图片更换验证码
找回密码
忘记密码了?输入你的注册邮箱,并点击重置,稍后,你将会收到一封密码重置邮件。
我看你的意思是像要做爬虫爬这个网站的数据,但是返回403是吧。那就按照我这几年的爬虫经验,来跟各位探讨一下。
首先,你是在模拟web请求,而不是在调用api,所以,我反对楼上说的ip限制的可能性。
第二,网站有可能会根据你的行为判断,但是那是发生在你有相应的行为之后。如果你是爬了一阵之后发现变成403了,那么这铁定是百分百的行为判断。
第三,如果你是第一次请求就403了,那我可以很负责的告诉你,问题出在你的header里面。最常见的验证就是验证ua。
最简单的方法,就是完全模拟用户,你可以在chrome中自己抓个包,然后将header完全同步成chrome中的header,我相信你会看到200的返回
另外,补充一下,cookie也属于header的,当初写我们学校教务系统的时候,登录页面post数据的时候会检查header,没有cookie的话居然还会报错,只能线模拟访问一下首页,获取了cookie然后再登录,蠢哭。。
谢邀,我不是很了解爬虫的实现以及相关技术,只略懂皮毛,根据我知道的瞎猜一下。
限制爬虫,我想到三种办法:
第一种是通过robot.txt,这个是种君子约定,你手动忽略它也不会有人给你判刑。
第二种是根据UserAgent,这个可以欺骗,你换了个Chrome浏览器的UserAgent,谁知道你是真Chrome还是假Chrome?
第三种是通过行为来判断。比如连续便利一系列网址,举个栗子:知乎的系统发现某个客户端连续访问了
………
这不是爬虫是什么?
其次似乎会发POST请求的爬虫比较少?如果你把你的网站,除了首页,都改成POST的,应该能屏蔽一部分吧?
——————————
至于你说的,你访问不了,应该是别的原因造成的吧?看起来“爬虫被限制了”的可能性有,但并没有100%…
验证码,机器学习
设置useragent就好了
还有你的CookieContainer那个地方没问题吗?
昵称*
E-Mail*
回复内容*
回复 ( 4 )
我看你的意思是像要做爬虫爬这个网站的数据,但是返回403是吧。那就按照我这几年的爬虫经验,来跟各位探讨一下。
首先,你是在模拟web请求,而不是在调用api,所以,我反对楼上说的ip限制的可能性。
第二,网站有可能会根据你的行为判断,但是那是发生在你有相应的行为之后。如果你是爬了一阵之后发现变成403了,那么这铁定是百分百的行为判断。
第三,如果你是第一次请求就403了,那我可以很负责的告诉你,问题出在你的header里面。最常见的验证就是验证ua。
最简单的方法,就是完全模拟用户,你可以在chrome中自己抓个包,然后将header完全同步成chrome中的header,我相信你会看到200的返回
另外,补充一下,cookie也属于header的,当初写我们学校教务系统的时候,登录页面post数据的时候会检查header,没有cookie的话居然还会报错,只能线模拟访问一下首页,获取了cookie然后再登录,蠢哭。。
谢邀,我不是很了解爬虫的实现以及相关技术,只略懂皮毛,根据我知道的瞎猜一下。
限制爬虫,我想到三种办法:
第一种是通过robot.txt,这个是种君子约定,你手动忽略它也不会有人给你判刑。
第二种是根据UserAgent,这个可以欺骗,你换了个Chrome浏览器的UserAgent,谁知道你是真Chrome还是假Chrome?
第三种是通过行为来判断。比如连续便利一系列网址,举个栗子:知乎的系统发现某个客户端连续访问了
………
这不是爬虫是什么?
其次似乎会发POST请求的爬虫比较少?如果你把你的网站,除了首页,都改成POST的,应该能屏蔽一部分吧?
——————————
至于你说的,你访问不了,应该是别的原因造成的吧?看起来“爬虫被限制了”的可能性有,但并没有100%…
验证码,机器学习
设置useragent就好了
还有你的CookieContainer那个地方没问题吗?