新闻  |   论坛  |   博客  |   在线研讨会
爬虫代理加强版使用指南
laical | 2021-04-20 17:06:36    阅读:188   发布文章

亿牛云爬虫代理IP通过固定云代理服务地址,建立专线网络链接,代理平台自动实现海量IP池管理及负载均衡,实时无感的毫秒级代理IP切换,提供企业级云服务的网络稳定性及请求响应速度,同时降低了客户端运算负载压力,避免了爬虫客户在代理IP策略优化上投入精力,整体提升了爬虫效率。

使用代理:

1、通过浏览器使用爬虫代理,请设置浏览器代理的服务器地址及端口。设置保存配置后,在浏览器中打开任意****,会弹出一个授权的验证窗口,输入用户名和密码后,确认之后方可使用。

2、在代码中使用爬虫代理,大多数的编程语言都有实现该授权方式的库,参考https://www.16yun.cn/help/ss_demo/demo进行实在,如果代码中的HTTP请求方法不支持以用户名,密码的形式设置身份认证信息,则需要手动为每个HTTP请求增加Proxy-Authorization协议头,其值为Basic<base64>,其中base64为用户名和密码通过:拼接后,再由BASE64编码得到的字符串。通过用户名和密码的形式进行身份认证,该认证信息最终会转换为Proxy-Authorization 协议头跟随请求一起发出 如用户认证错误,系统会返回401 Unauthorized 或 407 Proxy Authentication Required。

爬虫代理访问错误:

代理服务器域名解释失败: 本地DNS服务器故障 请设置 阿里云公共DNS 223.5.5.5  

HTTP代码407: 没有正确设置代理用户名密码 代理需要用户认证,请带上用户认证头Proxy-Authorization

HTTP代码401: 没有正确设置代理用户名密码 代理设置的用户名或密码错误  

HTTP代码408: 网速过慢导致的请求超时 需要检查用户带宽是否充足,目标网站是否过慢  

HTTP代码429:访问代理链接频率过快 如果遇到过多429,可以考虑减少线程数量(并发数量),或加上时间间隔(建议 >300ms)。

HTTP代码504: 代理正在切换IP或目标网站不可达 如果出现少量504属于正常情况。如大量出现,建议在不使用代理的情况下检查目标网站是否可以访问。 可能由目标网站的防护措施导致,建议请求时加上正确的cookie、referer、user-agent等。


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客