"); //-->
cookie就是一种服务器把你的信息记录在计算机上的,以方便服务器用来识别你的电脑。
就是当你在使用浏览器访问的时候 ,服务器会记录你的信息,你下次访问的时候就会根据cookie信息给你显示相关内容给你。
cookie的使用很常见。比如网络爬虫去采集数据,避免被反爬,就会利用cookie让服务器去辨认,防止出现爬虫限制。
cookie的缺点1、cookie如果在HTTP中,会增加请求量
2、HTTP中的cookie信息会出现安全问题
3、cookie内存一般都有限制,基本上都是4KB左右
cookie生成网络爬虫可以用利用chrome driver来进行登录和cookie的生成
import osimport timeimport zipfilefrom selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.support.ui import WebDriverWaitclass GenCookies(object): USER_AGENT = open('useragents.txt').readlines() # 16yun 代理配置 PROXY_HOST = 't.16yun.cn' # proxy or host PROXY_PORT = 31111 # port PROXY_USER = 'USERNAME' # username PROXY_PASS = 'PASSWORD' # password
API接口开始运行 * Running on http://0.0.0.0:5000/ (Press CTRL+C to quit)Cookies生成进程开始运行Cookies检测进程开始运行正在生成Cookies 账号 180000000 密码 16yun正在测试Cookies 用户名 180000000Cookies有效 180000000
网络爬虫在使用高匿优质爬虫代理IP的时候,一定要做爬虫策略的相关优化,cookie也一定要做优化策略。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。