新闻  |   论坛  |   博客  |   在线研讨会
爬虫cookie的登录生成
laical | 2020-08-27 17:38:24    阅读:361   发布文章

什么是cookie

cookie就是一种服务器把你的信息记录在计算机上的,以方便服务器用来识别你的电脑。

就是当你在使用浏览器访问的时候 ,服务器会记录你的信息,你下次访问的时候就会根据cookie信息给你显示相关内容给你。

cookie的使用很常见。比如网络爬虫去采集数据,避免被反爬,就会利用cookie让服务器去辨认,防止出现爬虫限制。

cookie的缺点

1、cookie如果在HTTP中,会增加请求量

2、HTTP中的cookie信息会出现安全问题

3、cookie内存一般都有限制,基本上都是4KB左右

cookie生成

网络爬虫可以用利用chrome driver来进行登录和cookie的生成

import osimport timeimport zipfilefrom selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.ui import WebDriverWaitclass GenCookies(object):    USER_AGENT = open('useragents.txt').readlines()    # 16yun 代理配置    PROXY_HOST = 't.16yun.cn'  #  proxy or host    PROXY_PORT = 31111  # port    PROXY_USER = 'USERNAME'  # username    PROXY_PASS = 'PASSWORD'  # password
cookie的运行
API接口开始运行 * Running on http://0.0.0.0:5000/ (Press CTRL+C to quit)Cookies生成进程开始运行Cookies检测进程开始运行正在生成Cookies 账号 180000000 密码 16yun正在测试Cookies 用户名 180000000Cookies有效 180000000

网络爬虫在使用高匿优质爬虫代理IP的时候,一定要做爬虫策略的相关优化,cookie也一定要做优化策略。


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客