一个springmvc乱码问题的问题,新手求助

【求助】新手求助乱码的问题【ultraedit吧】_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0成为超级会员,使用一键签到本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:1,444贴子:
【求助】新手求助乱码的问题收藏
本人新手,以前就是用这个汉化一下adobe的插件,好久不用了换了台电脑,安装以后打开插件之后是乱码
吧友指点迷经
登录百度帐号推荐应用帐号:密码:下次自动登录{url:/nForum/slist.json?uid=guest&root=list-section}{url:/nForum/nlist.json?uid=guest&root=list-section}
贴数:6&分页:天马发信人: yijiyizhong (天马), 信区: Python
标&&题: [求助]新手求助 大神们进来看一眼 爬虫乱码问题
发信站: 水木社区 (Fri Dec 29 10:26:14 2017), 转信 && 如题,新手一枚,PYTHON3写了个简单的爬虫程序,想用xpath提取结构信息里面的内容,但是提取不出来,最后发现可能是因为传给lxml的时候是乱码,但是我用gbk解码之后能print出正常的中文啊,昨晚上弄到2点没弄出来,一大早过来求助一下版里的大神们,能给我点拨一下吗?附上代码:
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.3; WOW64; rv:42.0) Gecko/ Firefox/42.0",'Accept-Encoding': 'deflate'}
url = "http://bbs.seu.edu.cn/bbsdoc.php?board=SecondHand&ftype=6" && r=requests.get(url,headers=headers)#
print('---------------------------------------------------')
r.encoding="gbk"
b=r.content
#print(b.decode('GB2312'))
c=b.decode('GB2312')
print('---------------------------------------------------')
#r=r.content. && print(r.encoding)
print(r.apparent_encoding)
#print(r.content.decode('GB2312')) &&
page = etree.HTML(b,parser=etree.HTMLParser(encoding='gbk'))
print(etree.tostring(page))#,encoding="utf-8"
neirong=page.xpath('/html/body/div[2]/table/tbody/tr[8]/td[6]/a/text()')
print(neirong) && -- && ※ 来源:·水木社区 ·[FROM: 58.213.51.*]
天马发信人: yijiyizhong (天马), 信区: Python
标&&题: Re: [求助]新手求助 大神们进来看一眼 爬虫乱码问题
发信站: 水木社区 (Fri Dec 29 10:50:19 2017), 转信 && 你的意思是说这个在网页源代码里面看到的内容是动态生成的呀?不是编码的问题吗 那请教一下我该怎么爬取这种网页的内容 非常感谢
【 在 NGYxYmQ 的大作中提到: 】
: 页面是用js生成的,div里面本身没内容&&
-- && ※ 来源:·水木社区 ·[FROM: 58.213.51.*] && 天马发信人: yijiyizhong (天马), 信区: Python
标&&题: Re: [求助]新手求助 大神们进来看一眼 爬虫乱码问题
发信站: 水木社区 (Fri Dec 29 10:55:46 2017), 转信 && 我在网页源代码里面是可以看到页面内容的 感觉好像不是js生成的吧?
【 在 NGYxYmQ 的大作中提到: 】
: 页面是用js生成的,div里面本身没内容&&
&& -- && ※ 来源:·水木社区 ·[FROM: 58.213.51.*]
天马发信人: yijiyizhong (天马), 信区: Python
标&&题: Re: [求助]新手求助 大神们进来看一眼 爬虫乱码问题
发信站: 水木社区 (Fri Dec 29 11:09:04 2017), 转信 && 奥 原来是这样 明白了 我朝你说的方向查查资料 非常感谢 我一直以为是编码的问题呢 谢谢
【 在 NGYxYmQ 的大作中提到: 】
: 可以用selenium,另外不要用查看元素来爬网页,要先看看源代码&&
&& -- && ※ 来源:·水木社区 ·[FROM: 58.213.51.*]
天马发信人: yijiyizhong (天马), 信区: Python
标&&题: Re: [求助]新手求助 大神们进来看一眼 爬虫乱码问题
发信站: 水木社区 (Tue Jan&&9 10:31:34 2018), 转信 && 大神你好,听了你的建议我用selenium+PhantomJS基本实现我想要的功能了,现在还想请教一些问题:
1.如图,程序运行的时候说PhantomJS已经弃用了推荐用chrome或者firefox这个有没有关系?
2.另一个就是程序运行的时候会产生如图PhantomJS exe的运行窗口,我在网上查好像没见过其他人有这个问题 不知道这个窗口本来就应该有还是有没有办法不显示,因为想要以后后台静默执行我的程序
3.实际运行起来这个程序感觉还是挺慢的 请问还有其他的方案吗? 可否介绍一下
非常感谢! && 【 在 NGYxYmQ 的大作中提到: 】
: 可以用selenium,另外不要用查看元素来爬网页,要先看看源代码&&
-- && ※ 来源:·水木社区 ·[FROM: 221.6.29.*] && 天马发信人: yijiyizhong (天马), 信区: Python
标&&题: Re: [求助]新手求助 大神们进来看一眼 爬虫乱码问题
发信站: 水木社区 (Tue Jan&&9 13:51:35 2018), 站内 && 终于等到你的回复啦 谢谢谢谢 我去研究研究&& &&&& 【 在 NGYxYmQ () 的大作中提到: 】
: 1. selenium好像是不再维护phantomjs,但是我从phantomjs官网下的driver没有这个警告,用chrome可能更好些
: 2. 可以参考
: 3. 换别的驱动试试,分析下瓶颈
发自xsmth (iOS版)
-- && ※ 来源:·水木社区 ·[FROM: 157.0.78.*]
文章数:6&分页:新手求助,关于乱码_百度知道
新手求助,关于乱码
我有更好的答案
而产生的不能正常阅读的混乱字符。常见的内码错误有GB码和BIG5码冲突,日文,韩文显示问题等。  乱码指的是电脑系统不能显示正确的字符  乱码是由于系统或软件缺乏对某种字符编码的支持
请具体描述问题。
为您推荐:
其他类似问题
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。

我要回帖

更多关于 tomcat乱码问题 的文章

 

随机推荐