下载csol找不到指定模块网站的模块

15163人阅读
【Python】(19)
& & & 由于需要从某个网页上下载一些PDF文件,但是需要下载的PDF文件有几百个,所以不可能用人工点击来下载。正好Python有相关的模块,所以写了个程序来进行PDF文件的下载,顺便熟悉了Python的urllib模块和ulrllib2模块。
1、问题描述
需要从/cvpr2014.html上下载几百个论文的PDF文件,该网页如下图所示:
2、问题解决
通过结合Python的urllib模块和urllib2模块来实现自动下载。代码如下:
#!/usr/bin/python
# -*- coding:utf-8 -*-
import urllib
#导入urllib模块
import urllib2
#导入urllib2模块
#导入正则表达式模块:re模块
def getPDFFromNet(inputURL):
req = urllib2.Request(inputURL)
f = urllib2.urlopen(req)
localDir = 'E:\downloadPDF\\'
#下载PDF文件需要存储在本地的文件夹
urlList = []
#用来存储提取的PDF下载的url的列表
for eachLine in f:
#遍历网页的每一行
line = eachLine.strip()
#去除行首位的空格,习惯性写法
if re.match('.*PDF.*', line):
#去匹配含有“PDF”字符串的行,只有这些行才有PDF下载地址
wordList = line.split('\&')
#以&为分界,将该行分开,这样就将url地址单独分开了
for word in wordList:
#遍历每个字符串
if re.match('.*\.pdf$', word):
#去匹配含有“.pdf”的字符串,只有url中才有
urlList.append(word)
#将提取的url存入列表
for everyURL in urlList:
#遍历列表的每一项,即每一个PDF的url
wordItems = everyURL.split('/')
#将url以/为界进行划分,为了提取该PDF文件名
for item in wordItems:
#遍历每个字符串
if re.match('.*\.pdf$', item):
#查找PDF的文件名
PDFName = item
#查找到PDF文件名
localPDF = localDir + PDFName
#将本地存储目录和需要提取的PDF文件名进行连接
urllib.urlretrieve(everyURL, localPDF)
#按照url进行下载,并以其文件名存储到本地目录
except Exception,e:
getPDFFromNet('/cvpr2014.html')
(1)第1、6、8、23行分别多谢了一个“\”来进行转义;
(2)第27行的urlretrieve函数有3个参数:第一个参数就是目标url;第二个参数是保存的文件绝对路径(含文件名),该函数的返回值是一个tuple(filename,header),其中的filename就是第二个参数filename。如果urlretrieve仅提供1个参数,返回值的filename就是产生的临时文件名,函数执行完毕后该临时文件会被删除参数。第3个参数是一个回调函数,当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调。其中回调函数名称可任意,但是参数必须为三个。一般直接使用reporthook(block_read,block_size,total_size)定义回调函数,block_size是每次读取的数据块的大小,block_read是每次读取的数据块个数,taotal_size是一一共读取的数据量,单位是byte。可以使用reporthook函数来显示读取进度。
如果想显示读取进度,则可以讲第三个参数加上,将上述程序第27行改为如下:
urllib.urlretrieve(everyURL, localPDF, reporthook=reporthook)
而reporthook回调函数的代码如下:
def reporthook(block_read,block_size,total_size):
if not block_read:
print &connection opened&;
if total_size&0:
#unknown size
print &read %d blocks (%dbytes)& %(block_read,block_read*block_size);
amount_read=block_read*block_
print 'Read %d blocks,or %d/%d' %(block_read,block_read*block_size,total_size);
综上所述,这就是一个简单的从网页抓取数据、下载文件的小程序,希望对正在学习Python的同学有帮助。谢谢!
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:477920次
积分:2521
积分:2521
排名:第10338名
原创:39篇
转载:10篇
评论:96条
欢迎关注“中华文化精选”
(微信号:goto_china),
每天清晨,我们将为您送上精选历史故事一篇以及点评。
百度大牛的PHP专栏:
(4)(4)(4)(4)(2)(2)(4)(9)(1)(1)(2)(5)(7)当前位置: >
节日专题汇总
本站提供的图片仅供学习和交流使用,版权归原作者所有,请勿用于任何商业用途
更多信息请浏览本站免责声明一、 针对转换程序的简单介绍 动易模板标签转换精灵是
Ucenter整合模块主要是用于整合多个站的用户中心,主
仿雅虎首页网站快捷入口
无限级可刷新Js树型菜单
问题:文章添加图片,鼠标的轮子会放大(缩小)图片,
Float:left浮动后也可以使元素居中
十五个网页设计师不可缺少的网页配色资源网站,免费建
HTML的英文全称是Hypertext Marked Language,中文叫网狐自动更新模块_教程+模块下载_第三次更新修正
课程模块下载地址在最下面
第一步:修改源码下载文件路径
打开 “更新模块” --“AutoUpdateClientDlg.cpp”源文件,在104行左右。如图。
蓝色选中的地方是你XML文件的在你网站的具体路径。
修改完了,保存--编译 ,将生成好的GameLauncher.exe放到客户端目录下和大厅的GamePlaza.exe放同目录。
注:& 如果你是网页地址一定要在蓝色部分前面加& http://& ,否则访问会出错。
第二步:更新文件设置
在刚才源码里找到”更新组件配置工具“ 模块,编译--打开。
1.先添加要更新的文件,可以单个添加,也可以用添加目录批量添加。
2.将列表中的文件放到网站对应的Update目录里。
&&& 上图第二布是提供网站文件存放的绝对路径,不用写文件名,软件自动取列表文件名生成。
3.点击保存的名字要和第一步AutoUpdateClientDlg.cpp源文件里设置要一样,此处为Update。
4.XML文件存放位置,也要和第一步AutoUpdateClientDlg.cpp源文件里设置要一样,此处为网站根目录。也就是和网站首页是同目录。
5.软件会自动读取列表中文件的版本号(即最新版本号)
注:以上文件名及路径并不是固定的,可以根据情况修改,但都必须一致。
第三步, 网站IIS设置
1. IIS找到对应的网站,右键--属性--HTTP头下面MIME类型里设置,如图;
2.可以指定具体后缀,也可以用*通配符。
举例:.dll&& application/octet-stream
外篇1:指定客户端下载存放路径
1.我的大厅安装在c:\客户端,主程序GamePlaza.exe也在c:\客户端
2.用记事本或其他文本工具,打开刚才生成的Update.xml,找到&FileName&这行。
text.dll是我们要更新的文件,dsnh是我们要放到客户端的目标文件夹。
3.如图设置,运行自动更新程序GameLauncher.exe,就会把text.dll放到客户端的dsnh目录了。
4.网站上text.dll存放路径不需要和客户端一样,软件会读取&URL&这行来查找对应文件。(当然,养成好的习惯,归类存放也不错)
外篇2:运行
大厅打包时不要忘了将ISS里主程序的名字GamePlaza.exe换成GameLauncher.exe,GameLauncher.exe运行完会自动调用GamePlaza.exe。
运行过程:先运行GameLauncher.exe然后更新完会自动调用原来主程序GamePlaza.exe
这点要注意。
=======================================================================
模块下载地址:CSDN下载
-----------------------------------------& 呼啦啦 & ----------------------------------------------------------------------
以上只是为了演示,不是真实地址。
×××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××
本博客声明:
本博客是一个纯技术交流博客,写出来的文章是帮大家解决一些问题,或让大家有个参考和思路。
博主不会以博客的名义去向任何人售卖任何源码或其他涉及金钱的东西。
近期有网友反馈有人打着本博客的旗号去售卖东西,请大家擦亮眼睛。
如果遇到打着本博客的名义卖东西的,一定是和本博客无关的人员,本博客也不会授权任何人去卖东西。
望大家互相转告。
最新声明:点击查看最新声明
××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××
> 本站内容系网友提交或本网编辑转载,其目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请及时与本网联系,我们将在第一时间删除内容!
导读: &Visual C++ .NET技术内幕(第6版)&本书特色:·既有原理性的说明,也有指导性的介绍,还有很好的例子来帮助理解一些技术细节.·在讲解的时候语言简洁不啰嗦·作者对于前面部分的传统内容有所精简,以便为后面的内容腾出空间.本书新增内容(主要是与第四版相比较) ·本书的前三部分内容主要针对桌面应用程序的开发,这既是MFC的传统优势, ...
转载请注明出处-&草飞花.破(po)解(jie)吧 翻译:/rovo89/XposedBridge/wiki/Development-tutorial Xpoded模块开发教程 当然,你可以去学习如何创建一个Xposed模块.所以你可以阅读这篇教程(官方教程)去学习怎样解决这个问题.这不仅仅讲解如何新建模块.如何编写 ...
这篇文章主要介绍了在Python中使用第三方模块的教程,是Python学习当中的基础知识,需要的朋友可以参考下在Python中,安装第三方模块,是通过setuptools这个工具完成的.Python有两个封装了setuptools的包管理工具:easy_install和pip.目前官方推荐使用pip. 如果你正在使用Mac或Linux,安装pip本身这个步骤 ...
这篇文章主要介绍了Nginx服务器中用于生成缩略图的模块配置教程,包括实时生成缩略图到硬盘上的方法讲解,需要的朋友可以参考下ngx_image_thumb模块生成缩略图 ngx_image_thumb是nginx中用来生成缩略图的模块,生存缩略图的方法很多,本nginx模块主要功能是对请求的图片进行缩略/水印处理,支持文字水印和图片水印.支持自定义字体,文字 ...
Magento模块 -- Magento模块学习教程 转载请注明出处(http://blog.csdn.net/xinhaozheng)
Magento 模块
模块( module )是 Magento 的核心.站点上的任何一个动作( action ),无论是在前台和还是在后台的每一个操作都是通过模块来实现的.模块是可以视为一个容器,它可包含下面这几 ...
这篇文章主要介绍了在Python中编写数据库模块的教程,本文代码基于Python2.x版本,需要的朋友可以参考下在一个Web App中,所有数据,包括用户信息.发布的日志.评论等,都存储在数据库中.在awesome-python-app中,我们选择MySQL作为数据库. Web App里面有很多地方都要访问数据库.访问数据库需要创建数据库连接.游标对象,然后 ...
这篇文章主要介绍了在Python中使用模块的教程,示例代码基于Python2.x版本,需要的朋友可以参考下Python本身就内置了很多非常有用的模块,只要安装完毕,这些模块就可以立刻使用. 我们以内建的sys模块为例,编写一个hello的模块: #!/usr/bin/env python # -*- coding: utf-8 -*- ' a test mo ...
声明:原创作品,转载时请注明文章来自SAP师太技术博客( 博/客/园):/jiangzhengjun,并以超链接形式标明文章原始出处,否则将追究法律责任!原文链接:/jiangzhengjun/p/4296684.html 数据的更新(同步)有三种方式:V ...

我要回帖

更多关于 csol找不到指定模块 的文章

 

随机推荐