beautiful soup 下载soup怎么卸载

怎么使用beautifulsoup获取指定div标签内容_百度知道
怎么使用beautifulsoup获取指定div标签内容
提问者采纳
;class&3&quot:&quot.findAll(attrs={&})subId = content[0].body.string.div.stringsubFile = content[7].h1.split('})subTime = content[2];)[1]subName =,&#39.html:&quot.read()
soup = BeautifulSoup(req)content = soup.string
content = soup.findAll(attrs={&;:&quot.stringsubLeg = content[1];subdes_td&colspan&})subType = content[0].string
content = soup.findAll(attrs={&quotf = urllib2.urlopen(url)req =name&readonlycounter2&quot.span
网络工程师
其他类似问题
div标签的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁1)">1)">1" ng-class="{current:{{currentPage==page}}}" ng-repeat="page in pages"><li class='page' ng-if="(endIndex<li class='page next' ng-if="(currentPage
相关文章阅读developerWorks 社区
需要从 Web 页面收集数据时,可以使用 mechanize 库自动从 Web 站点收集数据并与之交互。通过 Mechanize 您可以填充表单并设置和保存 cookies,此外,Mechanize 提供了各种各样的工具来使 Python 脚本具备真正的 Web 浏览器的功能,可以与交互式 Web 站点进行交互。一款名为 Beautiful Soup 的常用配套工具帮助 Python 程序理解 Web 站点中包含的脏乱“基本是 HTML” 内容。
, 开发人员, Gnosis Software, Inc.
从 2000 年开始,David Mertz 就一直在为 developerWorks 专栏 Charming Python 和 XML Matters 撰稿。您可以阅读他撰写的书籍 。有关 David 的更多信息,请访问其 。
使用基本的 Python 模块,可以 编写脚本来与 Web 站点交互,但是如果没有必要的话,那么您就不希望这样做。Python 2.x 中的模块 urllib 和
urllib2,以及 Python 3.0 中的统一的 urllib.* 子包,可以在 URL 的末尾获取资源。然而,当您希望与 Web 页面中找到的内容进行某种比较复杂的交互时,您需要使用 mechanize
获得下载链接)。在自动化 Web scrap 或用户与 Web 站点的交互模拟中,最大的困难之一就是服务器使用 cookies 跟踪会话进度。显然,cookies 是 HTTP 头部的一部分,在 urllib 打开资源时会自然显示出来。而且,标准模块 Cookie(Python 3 中的 http.cookie)和 cookielib(Python 3 中的 http.cookiejar)有助于在比原始的文本处理更高的层次上处理这些头部。即使如此,在这个层次上执行处理也非常的繁琐。mechanize 库将这种处理提升到一个更高程度的抽象并使您的脚本 &#8212; 或交互性 Python shell &#8212; 表现出非常类似实际 Web 浏览器的行为。
Python 的 mechanize 受到 Perl 的
WWW:Mechanize 的启发,后者具有类似的一组功能。当然,作为长期的 Python 支持者,我认为 mechanize 更健壮,它看上去似乎继承了两种语言的通用模式。 mechanize 的一个亲密伙伴是同样出色的 Beautiful
Soup 库(参见
获得下载链接)。这是一个非常神奇的 “粗糙的解析器”,用于解析实际 Web 页面中包含的有效 HTML。您不需要 将 Beautiful Soup 用于 mechanize,反之亦然,但是多半情况下,当您与 “实际存在的 Web” 交互时,您将希望同时使用这两种工具。一个实际示例我曾在多个编程项目中使用过 mechanize。最近一个项目是从一个流行的 Web 站点中收集匹配某种条件的名称的列表。该站点提供了一些搜索工具,但是没有提供任何正式的 API 来执行此类搜索。虽然访问者可能能够更明确地猜出我过去在做什么,但我将修改给出的代码的细节,以避免暴露有关被 scrap 的站点或我的客户机的过多信息。一般情况下,我给出的代码对于类似任务是通用的。 入门工具在实际开发 Web scrap/分析代码的过程中,我发现以交互式方式查看、处理和分析 Web 页面的内容以了解相关 Web 页面实际发生的操作是非常重要的功能。通常,站点中的一些页面是由查询动态生成(但是具有一致的模式),或是根据非常严格的模板预先生成。完成这种交互式体验的一种重要方法就是在 Python shell 内使用 mechanize 本身,特别是在一个增强的 shell 内,比如 IPython(参见
获得一个链接)。通过这种方式,您可以在编写执行希望用于生产中的交互的最终脚本之前,请求各种已链接的资源、提交表单、维护或操作站点 cookies,等等。然而,我发现我与 Web 站点的许多实验性质的交互在实际的现代 Web 浏览器中得到了更好的执行。方便地呈现页面可以使您更加快速地了解给定页面或表单中正在发生的事情。问题在于,呈现页面仅仅完成了事情的一半,可能还不到一半。获得 “页面源代码” 会让您更进一步。要真正理解给定 Web 页面或与 Web 服务器的一系列交互的背后的原理,需要了解更多。要了解这些内容,我常常使用 Firebug(参见
获得链接)或面向 Firefox 的 Web Developer 插件(或最新 Safari 版本中的内置的可选 Develop 菜单,但是所针对的目标人群不同)。所有这些工具都可以执行诸如显示表单字段、显示密码、检查页面的 DOM、查看或运行 Javascript、观察 Ajax 通信等操作。比较这些工具的优劣需要另外撰写一篇文章,但是如果您要进行面向 Web 的编程的话,那么必须熟悉这些工具。 不管使用哪一种工具来对准备实现自动化交互的 Web 站点做实验,您都需要花比编写简洁的 mechanize 代码(用于执行您的任务)更多的时间来了解站点实际发生的行为。 搜索结果 scraper考虑到上面提到的项目的意图,我将把包含 100 行代码的脚本分为两个功能: 检索所有感兴趣的结果从被检索的页面中拉取我感兴趣的信息使用这种方式组织脚本是为了便于开发;当我开始任务时,我需要知道如何完成这两个功能。我觉得我需要的信息位于一个普通的页面集合中,但是我还没有检查这些页面的具体布局。 首先我将检索一组页面并将它们保存到磁盘,然后执行第二个任务,从这些已保存的文件中拉取所需的信息。当然,如果任务涉及使用检索到的信息构成同一会话内的新交互,那么您将需要使用顺序稍微不同的开发步骤。因此,首先让我们查看我的 fetch()
函数:清单 1. 获取页面内容import sys, time, os
from mechanize import Browser
LOGIN_URL = '/login'
USERNAME = 'DavidMertz'
PASSWORD = 'TheSpanishInquisition'
SEARCH_URL = '/search?'
FIXED_QUERY = 'food=spam&' 'utensil=spork&' 'date=the_future&'
VARIABLE_QUERY = ['actor=%s' % actor for actor in
('Graham Chapman',
'John Cleese',
'Terry Gilliam',
'Eric Idle',
'Terry Jones',
'Michael Palin')]
def fetch():
result_no = 0
# Number the output files
br = Browser()
# Create a browser
br.open(LOGIN_URL)
# Open the login page
br.select_form(name="login")
# Find the login form
br['username'] = USERNAME
# Set the form values
br['password'] = PASSWORD
resp = br.submit()
# Submit the form
# Automatic redirect sometimes fails, follow manually when needed
if 'Redirecting' in br.title():
resp = br.follow_link(text_regex='click here')
# Loop through the searches, keeping fixed query parameters
for actor in in VARIABLE_QUERY:
# I like to watch what's happening in the console
print && sys.stderr, '***', actor
# Lets do the actual query now
br.open(SEARCH_URL + FIXED_QUERY + actor)
# The query actually gives us links to the content pages we like,
# but there are some other links on the page that we ignore
nice_links = [l for l in br.links()
if 'good_path' in l.url
and 'credential' in l.url]
if not nice_links:
# Maybe the relevant results are empty
for link in nice_links:
response = br.follow_link(link)
# More console reporting on title of followed link page
print && sys.stderr, br.title()
# Increment output filenames, open and write the file
result_no += 1
out = open(result_%04d' % result_no, 'w')
print && out, response.read()
out.close()
# Nothing ever goes perfectly, ignore if we do not get page
except mechanize._response.httperror_seek_wrapper:
print && sys.stderr, "Response error (probably 404)"
# Let's not hammer the site too much between fetches
time.sleep(1)对感兴趣的站点进行交互式研究后,我发现我希望执行的查询含有一些固定的元素和一些变化的元素。我仅仅是将这些元素连接成一个大的 GET 请求并查看 “results” 页面。而结果列表包含了我实际需要的资源的链接。因此,我访问这些链接(当此过程出现某些错误时,会抛出 try/except 块)并保存在这些内容页面上找到的任何内容。很简单,是不是?Mechanize 可以做的不止这些,但是这个简单的例子向您展示了 Mechanize 的大致功能。处理结果现在,我们已经完成了对 mechanize 的操作;剩下的工作是理解在 fetch() 循环期间保存的大量 HTML 文件。批量处理特性让我能够在一个不同的程序中将这些文件整齐、明显地分离开来,fetch() 和
process() 可能交互得更密切。Beautiful Soup 使得后期处理比初次获取更加简单。对于这个批处理任务,我们希望从获取的各种 Web 页面的零散内容中生成表式的以逗号分隔的值(CSV)数据。清单 2. 使用 Beautiful Soup 从无序的内容中生成整齐的数据from glob import glob
from BeautifulSoup import BeautifulSoup
def process():
print "!MOVIE,DIRECTOR,KEY_GRIP,THE_MOOSE"
for fname in glob('result_*'):
# Put that sloppy HTML into the soup
soup = BeautifulSoup(open(fname))
# Try to find the fields we want, but default to unknown values
movie = soup.findAll('span', {'class':'movie_title'})[1].contents[0]
except IndexError:
fname = "UNKNOWN"
director = soup.findAll('div', {'class':'director'})[1].contents[0]
except IndexError:
lname = "UNKNOWN"
# Maybe multiple grips listed, key one should be in there
grips = soup.findAll('p', {'id':'grip'})[0]
grips = " ".join(grips.split())
# Normalize extra spaces
except IndexError:
title = "UNKNOWN"
# Hide some stuff in the HTML &meta& tags
moose = soup.findAll('meta', {'name':'shibboleth'})[0]['content']
except IndexError:
moose = "UNKNOWN"
print '"%s","%s","%s","%s"' % (movie, director, grips, moose)第一次查看 Beautiful Soup,process() 中的代码令人印象深刻。读者应当阅读有关文档来获得关于这个模块的更多细节,但是这个代码片段很好地体现了它的整体风格。大多数 soup 代码包含一些对只含有格式良好的 HTML 的页面的
.findAll() 调用。这里是一些类似 DOM 的 .parent、nextSibling 和 previousSibling 属性。它们类似于 Web 浏览器的 “quirks” 模式。我们在 soup 中找到的内容并不完全 是一个解析树。结束语诸如我之类的守旧者,甚至于一些更年轻的读者,都会记住使用 TCL Expect(或使用用 Python 和其他许多语言编写的类似内容)编写脚本带来的愉悦。自动化与 shell 的交互,包括 telnet、ftp、ssh 等等远程 shell,变得非常的直观,因为会话中的所有内容都被显示出来。Web 交互变得更加细致,因为信息被分为头部和内容体,并且各种相关的资源常常通过 href 链接、框架、Ajax 等被绑定在一起。然而,总的来说,您可以 使用 wget 之类的工具来检索 Web 服务器提供的所有字节,然后像使用其他连接协议一样运行与 Expect 风格完全相同的脚本。 在实践中,几乎没有编程人员过分执着于过去的老方法,比如我建议的 wget + Expect 方法。Mechanize 保留了许多与出色的 Expect 脚本相同的东西,令人感觉熟悉和亲切,并且和 Expect 一样易于编写(如果不是更简单的话)。Browser()
对象命令,比如 .select_form()、.submit() 和 .follow_link(),真的是实现 “查找并发送” 操作的最简单、最明显的方法,同时绑定了我们希望在 Web 自动化框架中具备的复杂状态和会话处理的所有优点。
“”(developerWorks,2006 年 11 月)讨论了 Web spider 和 scraper,并展示了如何使用 Ruby 构建一些简单的 scraper。
“”(developerWorks,2008 年 5 月)展示了如何使用 Firebug 来在查看页面源代码功能的基础上扩展 Web 和 Ajax 应用程序。
“”(developerWorks,2007 年 12 月)介绍了如何将 IPython 和 Net-SNMP 结合在一起来提供交互式的、基于 Python 的网络管理。
寻找为 Linux 开发人员(包括 )准备的更多参考资料,查阅我们 。 在 developerWorks 上查阅所有
和 。 随时关注 developerWorks 和。 。。
是 Python 的原生交互式 shell 的增强版,可以完成许多不同寻常的任务,比如帮助实现并行化计算;我主要使用它提供的交互性帮助,比如代码着色、改进了的命令行回调、制表符完成、宏功能以及改进了的交互式帮助。
您可以安装 ,它交付了丰富的编辑、调试和监视 Web 开发工具,在浏览时,只需从 Firefox 3.0+ 的 Tools/Add-ons 菜单就可以调用这些工具。可以添加 ,这向浏览器添加了一个菜单和一个工具栏,包含了各种 Web 开发人员工具。
使用可直接从 developerWorks 下载的
构建您的下一个 Linux 开发项目。
加入 ;通过您的个人文件和定制主页,根据您的兴趣定制 developerWorks 并与其他 developerWorks 用户交互。
developerWorks: 登录
标有星(*)号的字段是必填字段。
保持登录。
单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件。
在您首次登录 developerWorks 时,会为您创建一份个人概要。您的个人概要中的信息(您的姓名、国家/地区,以及公司名称)是公开显示的,而且会随着您发布的任何内容一起显示,除非您选择隐藏您的公司名称。您可以随时更新您的 IBM 帐户。
所有提交的信息确保安全。
选择您的昵称
当您初次登录到 developerWorks 时,将会为您创建一份概要信息,您需要指定一个昵称。您的昵称将和您在 developerWorks 发布的内容显示在一起。昵称长度在 3 至 31 个字符之间。
您的昵称在 developerWorks 社区中必须是唯一的,并且出于隐私保护的原因,不能是您的电子邮件地址。
标有星(*)号的字段是必填字段。
(昵称长度在 3 至 31 个字符之间)
单击提交则表示您同意developerWorks 的条款和条件。 .
所有提交的信息确保安全。
IBM PureSystems(TM) 系列解决方案是一个专家集成系统
通过学习路线图系统掌握软件开发技能
软件下载、试用版及云计算
static.content.url=/developerworks/js/artrating/SITE_ID=10Zone=Linux, Web development, Open sourceArticleID=460803ArticleTitle=可爱的 Python: 使用 mechanize 和 Beautiful Soup 轻松收集 Web 数据publish-date=如何在Windows上安装BeautifulSoup_百度知道
如何在Windows上安装BeautifulSoup
我有更好的答案
按默认排序
windows上安装个虚拟机就好了
其他类似问题
beautiful的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁

我要回帖

更多关于 beautifulsoup下载 的文章

 

随机推荐