python爬虫思路及爬虫代理使用方案

laical | 2020-07-24 17:19:19 阅读：313

发布文章

爬虫是一个比较容易上手的技术，也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫，完全就是另一回事，并不简单，还会衍生出许多别的问题。

爬虫思路：

下载数据、解析数据、保存数据

15387567-14dfaea2ec539d3d.webp.jpg

今天先分享如何爬取数据和使用代理方案

爬取数据：

抓取大多数情况属于get请求，即直接从对方服务器上获取数据。

首先，Python中自带urllib及urllib2这两个模块，基本上能满足一般的页面抓取。另外，requests也是非常有用的包，与此类似的，还有httplib2等等。

import requestsurl = http://current.ip.16yun.cn:802response = requests.get(url)content = requests.get(url).contentprint("response headers:", response.headers)print("content:", content)

此外，对于带有查询字段的url，get请求一般会将来请求的数据附在url之后，以?分割url和传输数据，多个参数用&连接。

import requestsdata = {'wd':'nike', 'ie':'utf-8'}url='https://www.baidu.com'response = requests.get(url=url, params=data)

大部分网站都有反爬措施，也就是说网站服务器会根据某个ip在特定时间内的访问频率来判断是否为爬虫，然后把你把你拉进“黑名单”，素质好的给你返回403或者出来个验证码，素质不好的会给你返回两句脏话。

解决方案：

①降低爬虫请求速率，但是会降低效率；

②添加代理ip，代理ip又分为付费的和不要钱的，前者比较稳定，后者经常断线。

添加爬虫代理代码：

    import requests    import random    # 要访问的目标页面    targetUrl = "http://httpbin.org/ip"    # 要访问的目标HTTPS页面    # targetUrl = "https://httpbin.org/ip"    # 代理服务器(产品官网 www.16yun.cn)    proxyHost = "t.16yun.cn"    proxyPort = "31111"    # 代理隧道验证信息    proxyUser = "username"    proxyPass = "password"    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {        "host" : proxyHost,        "port" : proxyPort,        "user" : proxyUser,        "pass" : proxyPass,    }    # 设置 http和https访问都是用HTTP代理    proxies = {        "http"  : proxyMeta,        "https" : proxyMeta,    }    #  设置IP切换头    tunnel = random.randint(1,10000)    headers = {"Proxy-Tunnel": str(tunnel)}    resp = requests.get(targetUrl, proxies=proxies, headers=headers)    print resp.status_code    print resp.text

在一定的爬虫基础上做好相关爬虫优化，加上高质量爬虫代理进行数据采集，才能更高效稳定的采集到数据。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。