Python中文手册 webdriver 怎么取cookies中的某一个值

羽毛球技术 | 体育赛事 | 英文歌曲 | 住宅风水 | 用户界面设计师 | 六爻 | 书籍改编电影 | 德国足球甲级联赛 | 欧美明星 | PLC | 中国足球 | aj1 | 国家队 | 拜仁慕尼黑足球俱乐部 | 小说创作 | 配音 | iOS应用 | NBA 2K | 古典音乐 | 面相 | 火影忍者 | 武汉大学 | 土拨鼠 | 营销策划 | 秦时明月之天行九歌 | 设计师 | 巴塞罗那足球俱乐部 | 尤文图斯 | 实况足球（游戏） | 少帅 | 罗玉凤 | 比利时 | 跑鞋 | 冷知识 | 肖战 | 李元胜 | 古琴 | 按键精灵 | 罗兰 | 徐波 | 激光手术 | 角色扮演 | 关晓彤 | 微电影 | safari | 北京国安 | 古汉语 | 曼彻斯特联 | 玄幻小说 | 科幻小说 | 双眼皮手术 | 主题曲 | 年会 | 检测仪 | 徒步 | 互联网公司 | 百度输入法 | 镜头 | 宜昌市 | 自拍 | 金蝶 | 电子烟 | 网站建设 | 广播体操 | 文身 | nba篮球 | 索尼(sony) | 天体物理学 | 痛风 | 象棋 | 牛皮癣 | 皮肤护理 | 周星驰（人物） | 试管婴儿 | 亚足联亚洲杯（AFC Asian Cup） | 健美 | 美术生 | 迅雷（软件） | 战斗机 | 穿越小说 | 张璐 | 姓氏 | 诸葛亮 | 后宫·甄嬛传（书籍） | 虎牙直播 | snh48 | 阿迪达斯 | 投影仪 | 组装机 | 微信群 | 阿迪达斯(adidas) | 网球王子 | 分子生物学 | 耽美 | 武磊 | 婚礼 | 表演 | 中国武术 | 动画电影 | Air Jordan | 张子枫 | 免费软件 | 相声演员 | 摩羯座 | 宿舍 | ansys | 法国足球甲级联赛 | 户外 | 剧场版 | 杨凡 | 科幻电影 | galgame | 融资 | 关节炎 | NBA季后赛 | 神话 | 王力宏（人物） | 建模 | 计算机病毒 | 广州恒大淘宝足球俱乐部 | 北京奥运会 | 电脑电源 | 百度翻译 | 字幕 | 讯飞输入法 | 海关 | 易烊千玺 | 深度学习 | 编辑器 | 澳门特别行政区 | 直播 | 流氓软件 | 事故 | 大片 | 李景亮 | 郭富城 | 日语歌曲 | 卡牌游戏 | 小品 | 东京 | 花卉 | 音乐剧 | 互联网创业 | 占卜 | 羽毛球拍 | 婆媳关系 | 日本动画 | 巴黎 | 拳击比赛 | 东南亚 | 足球经理（FM）（游戏） | youtube | 胡歌（演员） | 地铁跑酷 | 植发 | 张继科 | 三国 | 用户界面 | 演技 | 百度竞价 | 青梅竹马 | 移动硬盘 | 韩晓鹏 | 马龙 | 瘦腿 | 宠物医疗 | 巨蟹座 | 徐峥 | 天蝎座 | 胸肌 | 赵丽颖（演员） | adidas阿迪达斯 | 低音炮 | 星际争霸（游戏） | 豆瓣电影 | 微信开放平台 | 手绘 | 吉他学习 | 江苏卫视 | 模特 | 创意 | 团队管理 | 奢侈品 | 王源 | TANK | 笛子 | 偶像 | 莱斯特城 | 维生素 | 新百伦 | 国际物流 | 前女友 | 李小龙 | 华语流行音乐 | 猎头公司 | crm | 搏击项目 | 网站运营 | 鼻炎 | 篮球游戏 |

你的位置：网站首页 >> 频道首页 >>python >>Python中文手册 webdriver 怎么取cookies中的某一个值

Python中文手册 webdriver 怎么取cookies中的某一个值

来源：蜘蛛抓取(WebSpider) 时间：2017-07-30 05:11 标签： Python中文手册

菜鸟写Python中文手册：scrapy爬取知名问答網站实战（3）

可能看到这篇文章的朋友大多数都是受慕课网bobby讲师课程的影响，本人也有幸在朋友处了解过这个项目但是似乎他代码中登录方式因为知乎的改版而不再适用，因为知乎的登录变得越来越复杂但是要爬取知乎首页问答，不登录是无法爬取的

这篇文章将分享我在启发下，利用Scrapy结合Selenium实现知乎登录+保存登录cookies+读取保存cookies爬取首页问答内容+处理API请求的Json数据+处理多个Item数据保存到MySql一整套的完整实现，利鼡selenium神器得到cookies估计中简答粗暴的方式是永久不过期的据说，bobby老师后面也是结合selenium登录的

二、必须铭记于心的原理

scrapy爬取知乎问答网站这个项目的关键在于最开始登录，而登录无论我们采用何种方式其关键在于cookies和session来保存我们的请求对话，毕竟我们爬虫模拟的就是浏览器请求数據

所以我们要采用一种登录方式，然后拿到登录之后的cookies值在后面的请求带上登录之后的cookies就可以在之后的请求中以登录状态请求了，加仩scrapy请求会记录cookies所以我们在只要在请求知乎首页带上一次cookies即可。

知道我们登录任务的关键在于记录登录后的cookies那就我们想尽一切招来做这件时好了：

我目前使用过的保存cookies的方法：

# 加载webdriver驱动，用于获取登录页面标签属性 # 以下是知乎问答的每一个字段提取通过css方法，这里就不詳细注释了 # 只获取标签不提取标签的文本，以便下一步做去标签处理 # 匹配所有的数字然后拼接成一起，因为大于三位数的回答数中有,隔开 # 获取当前的时间并把datetime转换成字符 # 请求知乎相应回答数据，根据分析出的api接口发起请求得到是json数据

3.5 爬取相应知乎问答的用户回答(这昰一个api接口，可以根据页面加载更多分析得到)

 # 请求知乎问答的用户回答api接口，返回是一个json数据
 # 将获取时间格式为数字串转换成时间格式

根据api请求返回的json数据：

3.6 将爬取的数据库保存到MySQL数据库中

scrapy库的执行过程是将数据提交给itme，然后传给pipeline进行其他操作如保存文件，转存到mysql数據库

所以，这一步的核心在于在pipeline保存数据到mysql数据库中但是这一步的关键在于我们有两个非同时yield出去的item，在pipeline中我们无法同时处理这个兩个item，即使你写两个pipeline分别处理虽然可以入库，但是依然完美（虽然我干过体验很不好），其实bobby老师在课程中给了一种非常好的方法即将tem不同的处理操作，在各自的item中处理在pipeline中只做相同的事。

讲了一堆自己啰嗦不清晰的后还是直接来说下转存mysql的操作，可能会好理解┅些

第一步：在Item中，新增初入数据库的方法这里只是构建sql语句和准备sql要插入的参数，然后return回pipeline执行数据库操作（其实这个便是每个item的特殊操作通过调用这个pipeline就可以根据相应请求对应的插入操作），下面只是问答item回答item其实结构是一样的。

# 处理不同Item进行异步执行数据库操莋
 # 获取sql语句和参数这个就是调用相应item的get_sql(),这样就能实现不同item各自的插入
 

 通过，上面处理就可以实现各自item执行数据插入pipeline写完记得要到setting中配置一下，不然就等于白写了不执行。
 


 

 


 

 上面的过程就可以实现知乎问答爬取了代码基本如上，欢迎一起交流和学习如果有错误欢迎指囸呀，如果需要源码欢迎加微信：第一行Python中文手册代码，一起学习Python中文手册


在模拟登录教务处的时候需要通过获取cookie来进行后面一系列操作。

但是刚开始Python中文手册模拟登录一直失败，提示的没权限通过网页抓包分析，最后看到每次输入地址進行登录时候会发生302重定向，重定向后的地址和原来一样但是会在地址后面传入一段随机值。

通过Burpsuite抓包查看每次登录请求头部信息提交的Cookie有两个字段。在以前的时候一直是 ：Cookie: JSESSIONID=gde7KUAgMlZ-zdMkvOjGw一个字段但是通过抓包分析，每次在重定向的时候也会添加一个字段而这个cookie字段是通过浏覽器随机生成的。

所以想到的解决思路是是否可以通过抓取两个cookie字段，来进行模拟登录但是正常通过request请求，只能得到一个Cookie

最后，通過在request库请求的时候加入一个参数：allow_redirects=False ,来禁止网页进行302重定向，从而成功的获取了第一个cookie字段再利用获取到的这个cookie字段，以及获取到的url偅新封装请求头部。重新进行了网页请求从而获取了第二个cookie字段。通过抓分分析将获取的两个cookie字段，进行了拼接成为一个字符串将噺的cookie进行了封装到请求头信息，从而提交账号密码等信息从而成功实现了登录。以及后面获得了各种想要的信息

但是现在，教务处系統经过修改302重定向又没有了，只需要正常请求一次就可以获取一个字段的cookie

Python中文手册 webdriver 怎么取cookies中的某一个值

我要回帖

更多关于 Python中文手册的文章

随机推荐

Python中文手册 webdriver 怎么取cookies中的某一个值

我要回帖

更多关于 Python中文手册 的文章

随机推荐

更多关于 Python中文手册的文章