博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python下Selenium PhantomJs设置header的方法
阅读量:6304 次
发布时间:2019-06-22

本文共 1270 字,大约阅读时间需要 4 分钟。

hot3.png

代码

话不多说,直接上代码

from selenium import webdriverfrom selenium.webdriver.common.desired_capabilities import DesiredCapabilitiesdef getSource(url):       headers = {        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',        'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4882.400 QQBrowser/9.7.13059.400',        'referer':'http://www.taobao.com'    }    #使用copy()防止修改原代码定义dict    cap = DesiredCapabilities.PHANTOMJS.copy()     for key, value in headers.items():        cap['phantomjs.page.customHeaders.{}'.format(key)] = value    # 不载入图片,爬页面速度会快很多    cap["phantomjs.page.settings.loadImages"] = False    driver = webdriver.PhantomJS(desired_capabilities=cap)    driver.get(encodeUrl(url))

部分博文提到设置User-Agent使用的是这个方法,好像也是可以的:

cap["phantomjs.page.settings.userAgent"] = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36'

 

检查

访问如下网址,可以回显你请求的数据,用来检查设置的header是否有效:

https://httpbin.org/get?show_env=1
例如我用如上的代码,访问这个地址,后面跟上两个实验参数:
https://httpbin.org/get?show_env=1&q=nihao&bbb=c
网页返回:
115858_detj_2396236.png

 

转载于:https://my.oschina.net/u/2396236/blog/1790714

你可能感兴趣的文章
TreeSet的用法
查看>>
防HTTP慢速攻击的nginx安全配置
查看>>
深入理解PHP内核(十四)类的成员变量及方法
查看>>
Spring Boot2.0+中,自定义配置类扩展springMVC的功能
查看>>
参与博客编辑器改版,我的礼物 感谢51cto
查看>>
JavaWeb笔记——JSTL标签
查看>>
Eclipse插件大全 挑选最牛的TOP30
查看>>
一些实用性的总结与纠正
查看>>
Kubernetes概念
查看>>
逻辑卷管理器(LVM)
查看>>
一个小代码,欢迎大佬的意见,求指正
查看>>
搭建LAMP架构
查看>>
神经网络注意力机制--Attention in Neural Networks
查看>>
Spring.Net+WCF实现分布式事务
查看>>
在Linux上高效开发的7个建议
查看>>
java数据结构 - 数组使用的代码
查看>>
个人简历-项目经验
查看>>
swoole异步任务task处理慢请求简单实例
查看>>
DHCP
查看>>
oracle数据泵导入分区表统计信息报错(四)
查看>>