学java web项目实例基础!谁能提供点实例锻炼锻炼呀!

零基础写Java知乎爬虫之先拿百度首页练练手
投稿:hebedich
字体:[ ] 类型:转载 时间:
本来打算这篇文章直接抓取知乎的,但是想想还是先来个简单的吧,初级文章适合初学者,高手们请直接略过
上一集中我们说到需要用Java来制作一个知乎爬虫,那么这一次,我们就来研究一下如何使用代码获取到网页的内容。
首先,没有HTML和CSS和JS和AJAX经验的建议先去W3C(点我点我)小小的了解一下。
说到HTML,这里就涉及到一个GET访问和POST访问的问题。
如果对这个方面缺乏了解可以阅读W3C的这篇:《GET对比POST》。
啊哈,在此不再赘述。
然后咧,接下来我们需要用Java来爬取一个网页的内容。
这时候,我们的百度就要派上用场了。
没错,他不再是那个默默无闻的网速测试器了,他即将成为我们的爬虫小白鼠!~
我们先来看看百度的首页:
相信大家都知道,现在这样的一个页面,是HTML和CSS共同工作的结果。
我们在浏览器中右击页面,选择“查看页面源代码”:
没错,就是这一坨翔一样的东西。这就是百度页面的源代码。
接下来我们的任务,就是使用我们的爬虫也获取到一样的东西。
先来看一段简单的源码:
import java.io.*;import java.net.*;public class Main {&public static void main(String[] args) {&&// 定义即将访问的链接&&String url = "";&&// 定义一个字符串用来存储网页内容&&String result = "";&&// 定义一个缓冲字符输入流&&BufferedReader in =&&try {&&&// 将string转成url对象&&&URL realUrl = new URL(url);&&&// 初始化一个链接到那个url的连接&&&URLConnection connection = realUrl.openConnection();&&&// 开始实际的连接&&&connection.connect();&&&// 初始化 BufferedReader输入流来读取URL的响应&&&in = new BufferedReader(new InputStreamReader(&&&&&connection.getInputStream()));&&&// 用来临时存储抓取到的每一行的数据&&&S&&&while ((line = in.readLine()) != null) {&&&&//遍历抓取到的每一行并将其存储到result里面&&&&result +=&&&}&&} catch (Exception e) {&&&System.out.println("发送GET请求出现异常!" + e);&&&e.printStackTrace();&&}&&// 使用finally来关闭输入流&&finally {&&&try {&&&&if (in != null) {&&&&&in.close();&&&&}&&&} catch (Exception e2) {&&&&e2.printStackTrace();&&&}&&}&&System.out.println(result);&}}
以上就是Java模拟Get访问百度的Main方法,
可以运行一下看看结果:
啊哈,和我们前面用浏览器看到的一模一样。至此,一个最最简单的爬虫就算是做好了。
但是这么一大坨东西未必都是我想要的啊,怎么从中抓取出我想要的东西呢?
以百度的大爪子Logo为例。
临时需求:
获取百度Logo的大爪子的图片链接。
先说一下浏览器的查看方法。
鼠标对图片右击,选择审查元素(火狐,谷歌,IE11,均有此功能,只是名字不太一样):
啊哈,可以看到在一大堆div的围攻下的可怜的img标签。
这个src就是图像的链接了。
那么在java中我们怎么搞呢?
事先说明,为了方便演示代码,所有代码均未作类封装,还请谅解。
我们先把前面的代码封装成一个sendGet函数:
import java.io.*;import java.net.*;public class Main {&static String sendGet(String url) {&&// 定义一个字符串用来存储网页内容&&String result = "";&&// 定义一个缓冲字符输入流&&BufferedReader in =&&try {&&&// 将string转成url对象&&&URL realUrl = new URL(url);&&&// 初始化一个链接到那个url的连接&&&URLConnection connection = realUrl.openConnection();&&&// 开始实际的连接&&&connection.connect();&&&// 初始化 BufferedReader输入流来读取URL的响应&&&in = new BufferedReader(new InputStreamReader(&&&&&connection.getInputStream()));&&&// 用来临时存储抓取到的每一行的数据&&&S&&&while ((line = in.readLine()) != null) {&&&&// 遍历抓取到的每一行并将其存储到result里面&&&&result +=&&&}&&} catch (Exception e) {&&&System.out.println("发送GET请求出现异常!" + e);&&&e.printStackTrace();&&}&&// 使用finally来关闭输入流&&finally {&&&try {&&&&if (in != null) {&&&&&in.close();&&&&}&&&} catch (Exception e2) {&&&&e2.printStackTrace();&&&}&&}&&&}&public static void main(String[] args) {&&// 定义即将访问的链接&&String url = "";&&// 访问链接并获取页面内容&&String result = sendGet(url);&&System.out.println(result);&}}
这样看起来稍微整洁了一点,请原谅我这个强迫症。
接下来的任务,就是从获取到的一大堆东西里面找到那个图片的链接。
我们首先可以想到的方法,是对页面源码的字符串result使用indexof函数进行String的子串搜索。
没错这个方法是可以慢慢解决这个问题,比如直接indexOf("src")找到开始的序号,然后再稀里哗啦的搞到结束的序号。
不过我们不能一直使用这种方法,毕竟草鞋只适合出门走走,后期还是需要切假腿来拿人头的。
请原谅我的乱入,继续。
那么我们用什么方式来寻找这张图片的src呢?
没错,正如下面观众所说,正则匹配。
如果有同学不太清楚正则,可以参照这篇文章:[Python]网络爬虫(七):Python中的正则表达式教程。
简单来说,正则就像是匹配。
比如三个胖子站在这里,分别穿着红衣服,蓝衣服,绿衣服。
正则就是:抓住那个穿绿衣服的!
然后把绿胖子单独抓了出来。
就是这么简单。
但是正则的语法却还是博大精深的,刚接触的时候难免有点摸不着头脑,
向大家推荐一个正则的在线测试工具:正则表达式在线测试。
有了正则这个神兵利器,那么怎么在java里面使用正则呢?
先来看个简单的小李子吧。
啊错了,小栗子。
&&// 定义一个样式模板,此中使用正则表达式,括号中是要抓的内容&&// 相当于埋好了陷阱匹配的地方就会掉下去&&Pattern pattern = pile("href=\"(.+?)\"");&&// 定义一个matcher用来做匹配&&Matcher matcher = pattern.matcher("<a href=\"index.html\">我的主页</a>");&&// 如果找到了&&if (matcher.find()) {&&&// 打印出结果&&&System.out.println(matcher.group(1));&&}
运行结果:
index.html
没错,这就是我们的第一个正则代码。
这样应用的抓取图片的链接想必也是信手拈来了。
我们将正则匹配封装成一个函数,然后将代码作如下修改:
import java.io.*;import java.net.*;import java.util.regex.*;public class Main {&static String SendGet(String url) {&&// 定义一个字符串用来存储网页内容&&String result = "";&&// 定义一个缓冲字符输入流&&BufferedReader in =&&try {&&&// 将string转成url对象&&&URL realUrl = new URL(url);&&&// 初始化一个链接到那个url的连接&&&URLConnection connection = realUrl.openConnection();&&&// 开始实际的连接&&&connection.connect();&&&// 初始化 BufferedReader输入流来读取URL的响应&&&in = new BufferedReader(new InputStreamReader(&&&&&connection.getInputStream()));&&&// 用来临时存储抓取到的每一行的数据&&&S&&&while ((line = in.readLine()) != null) {&&&&// 遍历抓取到的每一行并将其存储到result里面&&&&result +=&&&}&&} catch (Exception e) {&&&System.out.println("发送GET请求出现异常!" + e);&&&e.printStackTrace();&&}&&// 使用finally来关闭输入流&&finally {&&&try {&&&&if (in != null) {&&&&&in.close();&&&&}&&&} catch (Exception e2) {&&&&e2.printStackTrace();&&&}&&}&&&}&static String RegexString(String targetStr, String patternStr) {&&// 定义一个样式模板,此中使用正则表达式,括号中是要抓的内容&&// 相当于埋好了陷阱匹配的地方就会掉下去&&Pattern pattern = pile(patternStr);&&// 定义一个matcher用来做匹配&&Matcher matcher = pattern.matcher(targetStr);&&// 如果找到了&&if (matcher.find()) {&&&// 打印出结果&&&return matcher.group(1);&&}&&return "";&}&public static void main(String[] args) {&&// 定义即将访问的链接&&String url = "";&&// 访问链接并获取页面内容&&String result = SendGet(url);&&// 使用正则匹配图片的src内容&&String imgSrc = RegexString(result, "即将的正则语法");&&// 打印结果&&System.out.println(imgSrc);&}}
好的,现在万事俱备,只差一个正则语法了!
那么用什么正则语句比较合适呢?
我们发现只要抓住了src="xxxxxx"这个字符串,就能抓出整个src链接,
所以简单的正则语句:src=\"(.+?)\"
完整代码如下:
import java.io.*;import java.net.*;import java.util.regex.*;public class Main {&static String SendGet(String url) {&&// 定义一个字符串用来存储网页内容&&String result = "";&&// 定义一个缓冲字符输入流&&BufferedReader in =&&try {&&&// 将string转成url对象&&&URL realUrl = new URL(url);&&&// 初始化一个链接到那个url的连接&&&URLConnection connection = realUrl.openConnection();&&&// 开始实际的连接&&&connection.connect();&&&// 初始化 BufferedReader输入流来读取URL的响应&&&in = new BufferedReader(new InputStreamReader(&&&&&connection.getInputStream()));&&&// 用来临时存储抓取到的每一行的数据&&&S&&&while ((line = in.readLine()) != null) {&&&&// 遍历抓取到的每一行并将其存储到result里面&&&&result +=&&&}&&} catch (Exception e) {&&&System.out.println("发送GET请求出现异常!" + e);&&&e.printStackTrace();&&}&&// 使用finally来关闭输入流&&finally {&&&try {&&&&if (in != null) {&&&&&in.close();&&&&}&&&} catch (Exception e2) {&&&&e2.printStackTrace();&&&}&&}&&&}&static String RegexString(String targetStr, String patternStr) {&&// 定义一个样式模板,此中使用正则表达式,括号中是要抓的内容&&// 相当于埋好了陷阱匹配的地方就会掉下去&&Pattern pattern = pile(patternStr);&&// 定义一个matcher用来做匹配&&Matcher matcher = pattern.matcher(targetStr);&&// 如果找到了&&if (matcher.find()) {&&&// 打印出结果&&&return matcher.group(1);&&}&&return "Nothing";&}&public static void main(String[] args) {&&// 定义即将访问的链接&&String url = "";&&// 访问链接并获取页面内容&&String result = SendGet(url);&&// 使用正则匹配图片的src内容&&String imgSrc = RegexString(result, "src=\"(.+?)\"");&&// 打印结果&&System.out.println(imgSrc);&}}
这样我们就能用java抓出百度LOGO的链接了。
好吧虽然花了很多时间讲百度,但是基础要打扎实啦,下次我们正式开始抓知乎咯!~
您可能感兴趣的文章:
大家感兴趣的内容
12345678910
最近更新的内容
常用在线小工具Java入门基础必备练习试题【含答案】
看到这个试题是带答案的正好就分享给大家,有需要的可以下载来看看,记得给点好评什么的别就知道下载走人了。
游客,如果您要查看本帖隐藏内容请
1.下列语句序列执行后,m 的值是( C)。
&&int&&a=10, b=3, m=5;
if( a==b )&&m+=a;&&else& &m=++a*m;
A) 15& && &&&B) 50& &&&C) 55& &&&D) 5
2.下列语句序列执行后,k 的值是(B )。
&&int&&i=4,j=5,k=9,m=5;
&&if(i&j||m&k)&&k++;&&else k--;
A) 5& &&&B) 10& &&&C) 8& &&&D) 9
3.下列语句序列执行后,x 的值是(&&D )。&&int&&a=2, b=4, x=5;
&&if( a&--b ) x*=a;
A) 5& &&&B) 20& &&&C) 15& &&&D) 10
4.下列语句序列执行后,b 的值是( B)。
int&&a=2, b=4;
if( a & - - b )&&a*=a;
A) 5& &&&B) 3& &&&C) 15& &&&D) 10
来看看& && && && && && && && && && && && && && && && && && &
& && && && && && && && && && && && && &&&
XIEXIE&&分享& && && && && && && &&&
感谢整理和分享给大家赞一个
全部,我要全部
来看看精彩的内容是神马
程序员是怎样炼成的
hello ......
hello ......
兄弟你好敷衍我,我好伤心
感谢楼主~下下来学习
dgdgdffffffggggggggggfgf
感谢楼主的而分享
不错。。。。。。。。。
感谢整理和分享给大家赞一个
轻松打造安卓高级工程师打造会代码的全能UI设计师做被争抢的ios开发者
? ? ? ? ? ? ? ? ? ?
Powered by哪位大神有java练习的小项目、实例,视频或源码都可以的!-中国学网-中国IT综合门户网站-提供健康,养生,留学,移民,创业,汽车等信息
> 信息中心 >
哪位大神有java练习的小项目、实例,视频或源码都可以的!
来源:互联网 发表时间: 7:47:24 责任编辑:李志喜字体:
为了帮助网友解决“哪位大神有java练习的小项目、实例,视频或源码都可以的!”相关的问题,中国学网通过互联网对“哪位大神有java练习的小项目、实例,视频或源码都可以的!”相关的解决方案进行了整理,用户详细问题包括:反射:集合最好是基础部份的一些实例、多线程等等、io、xml!QQ,包含,具体解决方案如下:解决方案1:
baidu.baidu://pan。楼主学完javase之后就需要学习java web方面的知识了.baidu:DRP分销资源计划://pan:/s/1sjvvQUT" target="_blank">http,入门100例://pan,给你推荐一套java web项目的视频./s/1mgDQ1wk里面有题和程序经典小程序
解决方案2:
购买一本JAVA类的入门教材,会附光盘的,内容会比较全。
解决方案3:
大哥,如果你找到了顺便发给我一份吧,我也想练习练习,Thanks
解决方案4:
书上基础的最多了,项目上的比较零碎
解决方案5:
QQ给你,加我
5个回答1个回答2个回答2个回答4个回答3个回答2个回答1个回答1个回答1个回答1个回答1个回答1个回答1个回答1个回答1个回答1个回答1个回答1个回答
相关文章:
最新添加资讯
24小时热门资讯
Copyright © 2004- All Rights Reserved. 中国学网 版权所有
京ICP备号-1 京公网安备02号java基础50道经典练习题及答案_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
java基础50道经典练习题及答案
上传于||文档简介
&&如​果​您​初​学​j​a​v​a​,​那​么​这0​道​经​典​习​题​你​千​万​不​能​错​过​。​这​些​习​题​针​对​j​a​v​a​基​础​的​高​度​整​合​运​用​,​绝​对​能​让​你​夯​实​自​己​的​j​a​v​a​基​础​。
阅读已结束,如果下载本文需要使用1下载券
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,查找使用更方便
还剩37页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢刚学java,去哪找代码来练习啊!_java吧_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0成为超级会员,使用一键签到本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:520,488贴子:
刚学java,去哪找代码来练习啊!收藏
听别人说代码打多了就熟悉记住了,也能知道怎么写了,特别是开头,,,,,可是我怎么找不到代码练习呢?
上海达内上海java培训,免费试学,名师面授,0基础4个月速成为上海java开发工程师,高薪就业!上海达内上海java培训,美国上市机构,「Java培训之父」Sun联合办学,先就业后付款!
System.out.println(“”);把想到的人的名输出,那样你会很熟练的敲代码
算了算了,我对这方面也没有什么经验,不如水一贴捞点经验
我叫代码。你来打我啊。我放学不走。你要敢打我,等我叫我大哥无码来虐你。
直接搜索啊
最好是去拿本书看看
水一帖   狗富贵,勿相望,相望打死             ——来自卫星电话 
java新手入门 我赢全面提升java开发能力,5万行代码100个项目实战训练!java新手入门-我赢报名送豪礼!,先到先得!java新手入门!
开源代码管理网站,SVN,CVS,git
经常翻翻api,然后做几个项目。。。。
github上找
小伙伴一起耍
你去百度微软的codehunt。是一个java编程的游戏。
ACM 很多学校有在线评判系统的。可以锻炼编程思维又可以熟悉代码
谢谢大家啦,现在才知道,自学也是有老师的
能不能把JAVA编写程序发给我下 我也想学下JAVA
楼主可以随便去书店买本什么java实例的往上敲代码。
买本java基础开始练习
算了算了,我对这方面也没有什么经验,不如水一贴捞点经验
我觉得你应该效仿古人所说过的一句话。 书读百遍........ 代码打的多了当然的熟悉程度就高了。解答完毕
hello world
system.out.println()100遍啊。。100遍
刚开始写java代码像难产,LZ有收获到适合初学者的代码练习吗,求分享,一起进步<
github+1×××试题+1(比如:ACM)……
4楼大哥发的有链接
登录百度帐号推荐应用
为兴趣而生,贴吧更懂你。或

我要回帖

更多关于 java多线程编程实例 的文章

 

随机推荐