如何创建sessionfactoryhttpclientfactory

58610人阅读
Web/数据/云计算(67)
httpclient是apache的一个项目:
文档比较完善:
这里就不啰嗦了,主要是在做demo的时候遇到的一些问题在这里总结一下:
[引用请注明出处]
1、使用连接池
虽说http协议时无连接的,但毕竟是基于tcp的,底层还是需要和服务器建立连接的。对于需要从同一个站点抓取大量网页的程序,应该使用连接池,否则每次抓取都和Web站点建立连接、发送请求、获得响应、释放连接,一方面效率不高,另一方面稍不小心就会疏忽了某些资源的释放、导致站点拒绝连接(很多站点会拒绝同一个ip的大量连接、防止DOS攻击)。
连接池的例程如下:
SchemeRegistry schemeRegistry = new SchemeRegistry();
schemeRegistry.register(new Scheme(&http&, 80, PlainSocketFactory.getSocketFactory()));
schemeRegistry.register(new Scheme(&https&, 443, SSLSocketFactory.getSocketFactory()));
PoolingClientConnectionManager cm = new PoolingClientConnectionManager(schemeRegistry);
cm.setMaxTotal(200);
cm.setDefaultMaxPerRoute(2);
HttpHost googleResearch = new HttpHost(&&, 80);
HttpHost wikipediaEn = new HttpHost(&en.wikipedia.org&, 80);
cm.setMaxPerRoute(new HttpRoute(googleResearch), 30);
cm.setMaxPerRoute(new HttpRoute(wikipediaEn), 50);
SchemaRegistry的作用是注册协议的默认端口号。PoolingClientConnectionManager是池化连接管理器,即连接池,setMaxTotal设置连接池的最大连接数,setDefaultMaxPerRoute设置每个路由()上的默认连接个数,setMaxPerRoute则单独为某个站点设置最大连接个数。
从连接池中获取http client也很方面:
DefaultHttpClient client = new DefaultHttpClient(cm);
2、设置HttpClient参数
HttpClient需要设置合适的参数,才能更好地工作。默认的参数能够应付少量的抓取工作,但找到一组合适的参数往往能改善特定情况下的抓取效果。设置参数的例程如下:
DefaultHttpClient client = new DefaultHttpClient(cm);
Integer socketTimeout = 10000;
Integer connectionTimeout = 10000;
final int retryTime = 3;
client.getParams().setParameter(CoreConnectionPNames.SO_TIMEOUT, socketTimeout);
client.getParams().setParameter(CoreConnectionPNames.CONNECTION_TIMEOUT, connectionTimeout);
client.getParams().setParameter(CoreConnectionPNames.TCP_NODELAY, false);
client.getParams().setParameter(CoreConnectionPNames.SOCKET_BUFFER_SIZE, 1024 * 1024);
HttpRequestRetryHandler myRetryHandler = new HttpRequestRetryHandler()
public boolean retryRequest(IOException exception, int executionCount, HttpContext context)
if (executionCount &= retryTime)
// Do not retry if over max retry count
if (exception instanceof InterruptedIOException)
// Timeout
if (exception instanceof UnknownHostException)
// Unknown host
if (exception instanceof ConnectException)
// Connection refused
if (exception instanceof SSLException)
// SSL handshake exception
HttpRequest request = (HttpRequest) context.getAttribute(ExecutionContext.HTTP_REQUEST);
boolean idempotent = !(request instanceof HttpEntityEnclosingRequest);
if (idempotent)
// Retry if the request is considered idempotent
client.setHttpRequestRetryHandler(myRetryHandler);
5、6行分别设置了Socket最大等待时间、连接最大等待时间(单位都是毫秒)。socket等待时间是指从站点下载页面和数据时,两个数据包之间的最大时间间隔,超过这个时间间隔,httpclient就认为连接出了故障。连接最大等待时间则是指和站点建立连接时的最大等待时间,超过这个时间站点不给回应,则认为站点无法连接。第7行设置httpclient不使用NoDelay策略。如果启用了NoDelay策略,httpclient和站点之间传输数据时将会尽可能及时地将发送缓冲区中的数据发送出去、而不考虑网络带宽的利用率,这个策略适合对实时性要求高的场景。而禁用了这个策略之后,数据传输会采用Nagle's
algorithm发送数据,该算法会充分顾及带宽的利用率,而不是数据传输的实时性。第8行设置socket缓冲区的大小(单位为字节),默认是8KB。
HttpRequestRetryHandler是负责处理请求重试的接口。在该接口的内部类中实现RetryRequest方法即可。当httpclient发送请求之后出现异常时,就会调用这个方法。在该方法中根据已执行请求的次数、请求内容、异常信息判断是否继续重试,若继续重试返回true,否则返回false。
3、设置request header
设置request header也是很重要的,比如设置User-Agent可以将抓取程序伪装成浏览器,骗过一些网站对爬虫的检查,设置Accept-Encoding为gzip可以建议站点以压缩格式传输数据、节省带宽等等。例程如下:
HttpResponse response =
HttpGet get = new HttpGet(url);
get.addHeader(&Accept&, &text/html&);
get.addHeader(&Accept-Charset&, &utf-8&);
get.addHeader(&Accept-Encoding&, &gzip&);
get.addHeader(&Accept-Language&, &en-US,en&);
get.addHeader(&User-Agent&, &Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.22 (KHTML, like Gecko) Chrome/25.0. Safari/537.22&);
response = client.execute(get);
HttpEntity entity = response.getEntity();
Header header = entity.getContentEncoding();
if (header != null)
HeaderElement[] codecs = header.getElements();
for (int i = 0; i & codecs. i++)
if (codecs[i].getName().equalsIgnoreCase(&gzip&))
response.setEntity(new GzipDecompressingEntity(entity));
各个header的含义参考
需要的都设上就好了。如果需要很多不同的User-Agent轮流使用(同一个User-Agent对一个站点频繁访问容易被识别为爬虫而杯具),可以去网上找,也可以在自己的chrome浏览器里看或者用抓包软件抓。值得注意的是设置了Accept-Encoding为gzip之后,对站点回复的内容要检查是否是压缩格式的,如果是,则解压缩,如上面例程中第9行之后的代码所示。
[引用请注明出处]
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:686651次
积分:6485
积分:6485
排名:第3128名
原创:127篇
评论:142条
(4)(1)(3)(1)(1)(1)(1)(4)(3)(10)(5)(6)(11)(7)(6)(2)(1)(4)(2)(4)(5)(15)(3)(8)(12)(7)(6)(1)(3)HttpClient使用方法
HttpClient使用方法
本文是个人见解,有不到的地方请批评指正
HttpClient作为访问Http服务的客户端访问程序已经被广泛使用,对于HttpClient的使用方法也有很多blog进行介绍,本文简明扼要的介绍HttpClient的两种使用方式——简单连接管理的HttpClient(BasicClientConnectionManager)和池化的HttpClient(PoolingClientConnectionManager)。
HttpClient从4.2开始抛弃了先前的SingleClientConnManager和ThreadSafeConnManger,取而代之的是BasicClientConnectionManager和PoolingClientConnectionManager。
BasicClientConnectionManager内部只维护一个活动的connection,尽管这个类是线程安全的,但是最好在一个单独的线程中重复使用它。如果在同一个BasicClientConnectionManager对象中,多次执行http请求,后继请求与先前请求是同一个route,那么BasicClientConnectionManager会使用同一个连接完成后续请求,否则,BasicClientConnectionManager会将先前的connection关闭,然后为后续请求创建一个新的连接。换句话说,BasicClientConnectionManager会尽力复用先前的连接(注意:创建连接和销毁连接都是不小的开销),因此,如果对同一个service有多个连续请求,应该尽量使用同一个BasicClientConnectionManager完成。
PoolingClientConnectionManager可以在多线程中使用,连接按照route被缓存(pooled),当后续的请求route已经在pool中存在,就会使用pool中先前使用的connection获取请求结果。PoolingClientConnectionManager对每个router维护的connection数目有上限要求,默认情况下,每个router最多维护两个并发线程的connection连接,整个pool最多容纳20个并发的connections。当然可以通过设置来修改这些限制。
下面给出两个例子:
Demo 1:BasicClientConnectionManager
public static void basicClientTest() throws ClientProtocolException, IOException{
HttpClient httpClient = new DefaultHttpClient();
HttpGet httpGet = new HttpGet(".cn/data/.html");
HttpResponse response = httpClient.execute(httpGet);
String result = EntityUtils.toString(response.getEntity(),
Charset.forName("utf-8"));
System.out.println(result);
httpClient.getConnectionManager().shutdown();
Demo1中,使用最简单的方式创建的httpclient内部使用的是管理连接,并且使用HttpClient提供的EntityUtils将消息体转换成String输出。httpClient对象可以被重复使用,执行多个http请求,当你真正不需要他的时候,记得调用shutdown,关闭并且释放占用的资源。
Demo2:PoolingClientConnectionManager
public static void httpclientPool()
throws ClientProtocolException, IOException{
SchemeRegistry registry = new SchemeRegistry();//创建schema
SSLContext sslContext = null;//https类型的消息访问
&&&&&&&&&&
sslContext = SSLContext.getInstance("SSL");
&&&&&&&&&&
sslContext.init(null, null, null);
catch (Exception e) {
&&&&&&&&&&
e.printStackTrace();
SSLSocketFactory sslFactory = newSSLSocketFactory(sslContext,SSLSocketFactory.STRICT_HOSTNAME_VERIFIER);
registry.register(new Scheme("http",
PlainSocketFactory.getSocketFactory()));//http 80 端口
registry.register(new Scheme("https",
443, sslFactory));//https 443端口
PoolingClientConnectionManager cm = newPoolingClientConnectionManager(registry);//创建connectionManager
cm.setDefaultMaxPerRoute(20);//对每个指定连接的服务器(指定的ip)可以创建并发20
socket进行访问
cm.setMaxTotal(200);//创建socket的上线是200
HttpHost localhost = new HttpHost("locahost",
cm.setMaxPerRoute(new HttpRoute(localhost), 80);//对本机80端口的socket连接上限是80
HttpClient httpClient = new DefaultHttpClient(cm);//使用连接池创建连接
HttpParams params = httpClient.getParams();
HttpConnectionParams.setSoTimeout(params,
60*1000);//设定连接等待时间
HttpConnectionParams.setConnectionTimeout(params,
60*1000);//设定超时时间
&&&&&&&&&&
HttpGet httpGet = new HttpGet(".cn/data/.html");
&&&&&&&&&&
HttpResponse response = httpClient.execute(httpGet);
&&&&&&&&&&
String result = EntityUtils.toString(response.getEntity(),
Charset.forName("utf-8"));
&&&&&&&&&&
System.out.println(result);
&&&&&&&&&&
httpClient.getConnectionManager().shutdown();//用完了释放连接
PoolingClientConnectionManager的创建过程要比BasicClientConnectionManager复杂的多,当然,我们为了举例子,将PoolingClientConnectionManager可能涉及到的多个方面属性都列出来,可以根据需要设置或者使用默认的连接属性。首先我们创建了SchemeRegistry,之后注册了两种http访问方式http和https,创建,指定每个router最多保持20个活动的connection,这个pool最多保持200个活动的connection,对本地的访问可以保持80个活动的connection。最后创建httpClient,设置SO_TIMEOUT和CONNECTION_TIMEOUT,执行请求。在httpClient不再使用时,关闭connectionManager。
只是个例子,说明应当如何创建一个带有缓冲池的HttpClient,在实际应用中,可以对多个访问共用一个池化的HttpClient,即提高了性能(重用connection,connection和disconnect是非常耗时的,要选路由,三次握手等),也方便了管理,有利于代码的维护。
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。HttpClient 教程 (二) - 开始、 - 博客园
随笔 - 106, 文章 - 0, 评论 - 3, 引用 - 0
转自:/loveyakamoz/archive//2112832.html
第二章 连接管理
HttpClient有一个对连接初始化和终止,还有在活动连接上I/O操作的完整控制。而连接操作的很多方面可以使用一些参数来控制。
2.1 连接参数
这些参数可以影响连接操作:
'http.socket.timeout':定义了套接字的毫秒级超时时间(SO_TIMEOUT),这就是等待数据,换句话说,在两个连续的数据包之间最大的闲置时间。如果超时时间是0就解释为是一个无限大的超时时间。这个参数期望得到一个java.lang.Integer类型的值。如果这个参数没有被设置,那么读取操作就不会超时(无限大的超时时间)。
'http.tcp.nodelay':决定了是否使用Nagle算法。Nagle算法视图通过最小化发送的分组数量来节省带宽。当应用程序希望降低网络延迟并提高性能时,它们可以关闭Nagle算法(也就是开启TCP_NODELAY)。数据将会更早发送,增加了带宽消耗的成文。这个参数期望得到一个java.lang.Boolean类型的值。如果这个参数没有被设置,那么TCP_NODELAY就会开启(无延迟)。
'http.socket.buffer-size':决定了内部套接字缓冲使用的大小,来缓冲数据同时接收/传输HTTP报文。这个参数期望得到一个java.lang.Integer类型的值。如果这个参数没有被设置,那么HttpClient将会分配8192字节的套接字缓存。
'http.socket.linger':使用指定的秒数拖延时间来设置SO_LINGER。最大的连接超时值是平台指定的。值0暗示了这个选项是关闭的。值-1暗示了使用了JRE默认的。这个设置仅仅影响套接字关闭操作。如果这个参数没有被设置,那么就假设值为-1(JRE默认)。
'http.connection.timeout':决定了直到连接建立时的毫秒级超时时间。超时时间的值为0解释为一个无限大的时间。这个参数期望得到一个java.lang.Integer类型的值。如果这个参数没有被设置,连接操作将不会超时(无限大的超时时间)。
'http.connection.stalecheck':决定了是否使用旧的连接检查。当在一个连接之上执行一个请求而服务器端的连接已经关闭时,关闭旧的连接检查可能导致在获得一个I/O错误风险时显著的性能提升(对于每一个请求,检查时间可以达到30毫秒)。这个参数期望得到一个java.lang.Boolean类型的值。出于性能的关键操作,检查应该被关闭。如果这个参数没有被设置,那么旧的连接将会在每个请求执行之前执行。
'http.connection.max-line-length':决定了最大请求行长度的限制。如果设置为一个正数,任何HTTP请求行超过这个限制将会引发java.io.IOException异常。负数或零将会关闭这个检查。这个参数期望得到一个java.lang.Integer类型的值。如果这个参数没有被设置,那么就不强制进行限制了。
'http.connection.max-header-count':决定了允许的最大HTTP头部信息数量。如果设置为一个正数,从数据流中获得的HTTP头部信息数量超过这个限制就会引发java.io.IOException异常。负数或零将会关闭这个检查。这个参数期望得到一个java.lang.Integer类型的值。如果这个参数没有被设置,那么就不
强制进行限制了。
'http.connection.max-status-line-garbage':决定了在期望得到HTTP响应状态行之前可忽略请求行的最大数量。使用HTTP/1.1持久性连接,这个问题产生的破碎的脚本将会返回一个错误的Content-Length(有比指定的字节更多的发送)。不幸的是,在某些情况下,这个不能在错误响应后来侦测,只能在下一次之前。所以HttpClient必须以这种方式跳过那些多余的行。这个参数期望得到一个java.lang.Integer类型的值。0是不允许在状态行之前的所有垃圾/空行。使用java.lang.Integer#MAX_VALUE来设置不限制的数字。如果这个参数没有被设置那就假设是不限制的。
2.2 持久连接
从一个主机向另外一个建立连接的过程是相当复杂的,而且包含了两个终端之间的很多包的交换,它是相当费时的。连接握手的开销是很重要的,特别是对小量的HTTP报文。如果打开的连接可以被重用来执行多次请求,那么就可以达到很高的数据吞吐量。
HTTP/1.1强调HTTP连接默认情况可以被重用于多次请求。HTTP/1.0兼容的终端也可以使用相似的机制来明确地交流它们的偏好来保证连接处于活动状态,也使用它来处理多个请求。HTTP代理也可以保持空闲连接处于一段时间的活动状态,防止对相同目标主机的一个连接也许对随后的请求需要。保持连接活动的能力通常被称作持久性连接。HttpClient完全支持持久性连接。
2.3 HTTP连接路由
HttpClient能够直接或通过路由建立连接到目标主机,这会涉及多个中间连接,也被称为跳。HttpClient区分路由和普通连接,通道和分层。通道连接到目标主机的多个中间代理的使用也称作是代理链。
普通路由由连接到目标或仅第一次的代理来创建。通道路由通过代理链到目标连接到第一通道来建立。没有代理的路由不是通道的,分层路由通过已存在连接的分层协议来建立。协议仅仅可以在到目标的通道上或在没有代理的直接连接上分层。
2.3.1 路由计算
RouteInfo接口代表关于最终涉及一个或多个中间步骤或跳的目标主机路由的信息。HttpRoute是RouteInfo的具体实现,这是不能改变的(是不变的)。HttpTracker是可变的RouteInfo实现,由HttpClient在内部使用来跟踪到最大路由目标的剩余跳数。HttpTracker可以在成功执行向路由目标的下一跳之后更新。HttpRouteDirector是一个帮助类,可以用来计算路由中的下一跳。这个类由HttpClient在内部使用。
HttpRoutePlanner是一个代表计算到基于执行上下文到给定目标完整路由策略的接口。HttpClient附带两个默认的HttpRoutePlanner实现。ProxySelectorRoutePlanner是基于java.net.ProxySelector的。默认情况下,它会从系统属性中或从运行应用程序的浏览器中选取JVM的代理设置。DefaultHttpRoutePlanner实现既不使用任何Java系统属性,也不使用系统或浏览器的代理设置。它只基于HTTP如下面描述的参数计算路由。
2.3.2 安全HTTP连接
如果信息在两个不能由非认证的第三方进行读取或修改的终端之间传输,HTTP连接可以被认为是安全的。SSL/TLS协议是用来保证HTTP传输安全使用最广泛的技术。而其它加密技术也可以被使用。通常来说,HTTP传输是在SSL/TLS加密连接之上分层的。
2.4 HTTP路由参数
这些参数可以影响路由计算:
'http.route.default-proxy':定义可以被不使用JRE设置的默认路由规划者使用的代理主机。这个参数期望得到一个HttpHost类型的值。如果这个参数没有被设置,那么就会尝试直接连接到目标。
'http.route.local-address':定义一个本地地址由所有默认路由规划者来使用。有多个网络接口的机器中,这个参数可以被用于从连接源中选择网络接口。这个参数期望得到一个java.net.InetAddress类型的值。如果这个参数没有被设置,将会自动使用本地地址。
'http.route.forced-route':定义一个由所有默认路由规划者使用的强制路由。代替了计算路由,给定的强制路由将会被返回,尽管它指向一个完全不同的目标主机。这个参数期望得到一个HttpRoute类型的值。如果这个参数没有被设置,那么就使用默认的规则建立连接到目标服务器。
2.5 套接字工厂
LayeredSocketFactory是SocketFactory接口的扩展。分层的套接字工厂可HTTP连接内部使用java.net.Socket对象来处理数据在线路上的传输。它们依赖SocketFactory接口来创建,初始化和连接套接字。这会使得HttpClient的用户可以提供在运行时指定套接字初始化代码的应用程序。PlainSocketFactory是创建和初始化普通的(不加密的)套接字的默认工厂。
创建套接字的过程和连接到主机的过程是不成对的,所以套接字在连接操作封锁时可以被关闭。
PlainSocketFactory sf = PlainSocketFactory.getSocketFactory();
Socket socket = sf.createSocket();
HttpParams params = new BasicHttpParams();
params.setParameter(CoreConnectionPNames.CONNECTION_TIMEOUT, 1000L);
sf.connectSocket(socket, "locahost", 8080, null, -1, params);
2.5.1 安全套接字分层
LayeredSocketFactory是SocketFactory接口的扩展。分层的套接字工厂可以创建在已经存在的普通套接字之上的分层套接字。套接字分层主要通过代理来创建安全的套接字。HttpClient附带实现了SSL/TLS分层的SSLSocketFactory。请注意HttpClient不使用任何自定义加密功能。它完全依赖于标准的Java密码学(JCE)和安全套接字(JSEE)扩展。
2.5.2 SSL/TLS的定制
HttpClient使用SSLSocketFactory来创建SSL连接。SSLSocketFactory允许高度定制。它可以使用javax.net.ssl.SSLContext的实例作为参数,并使用它来创建定制SSL连接。
TrustManager easyTrustManager = new X509TrustManager() {
public void checkClientTrusted(X509Certificate[] chain,
String authType) throws CertificateException {
// 哦,这很简单!
public void checkServerTrusted(X509Certificate[] chain,
String authType) throws CertificateException {
//哦,这很简单!
public X509Certificate[] getAcceptedIssuers() {
SSLContext sslcontext = SSLContext.getInstance("TLS");
sslcontext.init(null, new TrustManager[] { easyTrustManager }, null);
SSLSocketFactory sf = new SSLSocketFactory(sslcontext);
SSLSocket socket = (SSLSocket) sf.createSocket();
socket.setEnabledCipherSuites(new String[] { "SSL_RSA_WITH_RC4_128_MD5" });
HttpParams params = new BasicHttpParams();
params.setParameter(CoreConnectionPNames.CONNECTION_TIMEOUT, 1000L);
sf.connectSocket(socket, "locahost", 443, null, -1, params);
SSLSocketFactory的定制暗示出一定程度SSL/TLS协议概念的熟悉,这个详细的解释超出了本文档的范围。请参考Java的安全套接字扩展[/j2se/1.5.0/docs/guide/
security/jsse/JSSERefGuide.html],这是javax.net.ssl.SSLContext和相关工具的详细描述。
2.5.3 主机名验证
除了信任验证和客户端认证在SSL/TLS协议级上进行,一旦连接建立之后,HttpClient能可选地验证目标主机名匹配存储在服务器的X.509认证中的名字。这个认证可以提供额外的服务器信任材料的真实保证。X509主机名验证接口代表了主机名验证的策略。HttpClient附带了3个X509主机名验证器。很重要的一点是:主机名验证不应该混淆SSL信任验证。
StrictHostnameVerifier:严格的主机名验证在Sun Java 1.4,Sun Java 5和Sun Java 6中是相同的。而且也非常接近IE6。这个实现似乎是兼容RFC 2818处理通配符的。主机名必须匹配第一个CN或任意的subject-alt。在CN和其它任意的subject-alt中可能会出现通配符。
BrowserCompatHostnameVerifier:主机名验证器和Curl和Firefox的工作方式是相同的。主机名必须匹配第一个CN或任意的subject-alt。在CN和其它任意的subject-alt中可能会出现通配符。BrowserCompatHostnameVerifier和StrictHostnameVerifier的唯一不同是使用BrowserCompatHostnameVerifier匹配所有子域的通配符(比如&*.&),包括&a.&。
AllowAllHostnameVerifier:这个主机名验证器基本上是关闭主机名验证的。这个实现是一个空操作,而且不会抛出javax.net.ssl.SSLException异常。
每一个默认的HttpClient使用BrowserCompatHostnameVerifier的实现。如果需要的话,它可以指定不同的主机名验证器实现。
SSLSocketFactory sf = new SSLSocketFactory(SSLContext.getInstance("TLS"));
sf.setHostnameVerifier(SSLSocketFactory.STRICT_HOSTNAME_VERIFIER);
2.6 协议模式
Scheme类代表了一个协议模式,比如&http&或&https&同时包含一些协议属性,比如默认端口,用来为给定协议创建java.net.Socket实例的套接字工厂。SchemeRegistry类用来维持一组Scheme,当去通过请求URI建立连接时,HttpClient可以从中选择:
Scheme http = new Scheme("http", PlainSocketFactory.getSocketFactory(), 80);
SSLSocketFactory sf = new SSLSocketFactory(SSLContext.getInstance("TLS"));
sf.setHostnameVerifier(SSLSocketFactory.STRICT_HOSTNAME_VERIFIER);
Scheme https = new Scheme("https", sf, 443);
SchemeRegistry sr = new SchemeRegistry();
sr.register(http);
sr.register(https);
2.7 HttpClient代理配置
尽管HttpClient了解复杂的路由模式和代理链,它仅支持简单直接的或开箱的跳式代理连接。
告诉HttpClient通过代理去连接到目标主机的最简单方式是通过设置默认的代理参数:
DefaultHttpClient httpclient = new DefaultHttpClient();
HttpHost proxy = new HttpHost("someproxy", 8080);
httpclient.getParams().setParameter(ConnRoutePNames.DEFAULT_PROXY, proxy);
也可以构建HttpClient使用标准的JRE代理选择器来获得代理信息:
DefaultHttpClient httpclient = new DefaultHttpClient();
ProxySelectorRoutePlanner routePlanner = new ProxySelectorRoutePlanner(
httpclient.getConnectionManager().getSchemeRegistry(),
ProxySelector.getDefault());
httpclient.setRoutePlanner(routePlanner);
另外一种选择,可以提供一个定制的RoutePlanner实现来获得HTTP路由计算处理上的复杂的控制:
DefaultHttpClient httpclient = new DefaultHttpClient();
httpclient.setRoutePlanner(new HttpRoutePlanner() {
public HttpRoute determineRoute(HttpHost target,
HttpRequest request,
HttpContext context) throws HttpException {
return new HttpRoute(target, null, new HttpHost("someproxy", 8080),
"https".equalsIgnoreCase(target.getSchemeName()));
2.8 HTTP连接管理器
2.8.1 连接操作器
连接操作是客户端的低层套接字或可以通过外部实体,通常称为连接操作的被操作的状态的连接。OperatedClientConnection接口扩展了HttpClientConnection接口而且定义了额外的控制连接套接字的方法。ClientConnectionOperator接口代表了创建实例和更新那些对象低层套接字的策略。实现类最有可能利用SocketFactory来创建java.net.Socket实例。ClientConnectionOperator接口可以让HttpClient的用户提供一个连接操作的定制策略和提供可选实现OperatedClientConnection接口的能力。
2.8.2 管理连接和连接管理器
HTTP连接是复杂的,有状态的,线程不安全的对象需要正确的管理以便正确地执行功能。HTTP连接在同一时间仅仅只能由一个执行线程来使用。HttpClient采用一个特殊实体来管理访问HTTP连接,这被称为HTTP连接管理器,代表了ClientConnectionManager接口。一个HTTP连接管理器的目的是作为工厂服务于新的HTTP连接,管理持久连接和同步访问持久连接来确保同一时间仅有一个线程可以访问一个连接。
内部的HTTP连接管理器和OperatedClientConnection实例一起工作,但是它们为服务消耗器ManagedClientConnection提供实例。ManagedClientConnection扮演连接之上管理状态控制所有I/O操作的OperatedClientConnection实例的包装器。它也抽象套接字操作,提供打开和更新去创建路由套接字便利的方法。ManagedClientConnection实例了解产生它们到连接管理器的链接,而且基于这个事实,当不再被使用时,它们必须返回到管理器。ManagedClientConnection类也实现了ConnectionReleaseTrigger接口,可以被用来触发释放连接返回给管理器。一旦释放连接操作被触发了,被包装的连接从ManagedClientConnection包装器中脱离,OperatedClientConnection实例被返回给管理器。尽管服务消耗器仍然持有ManagedClientConnection实例的引用,它也不再去执行任何I/O操作或有意无意地改变的OperatedClientConnection状态。
这里有一个从连接管理器中获取连接的示例:
HttpParams params = new BasicHttpParams();
Scheme http = new Scheme("http", PlainSocketFactory.getSocketFactory(), 80);
SchemeRegistry sr = new SchemeRegistry();
sr.register(http);
ClientConnectionManager connMrg = new SingleClientConnManager(params, sr);
// 请求新连接。这可能是一个很长的过程。
ClientConnectionRequest connRequest = connMrg.requestConnection(
new HttpRoute(new HttpHost("localhost", 80)), null);
// 等待连接10秒
ManagedClientConnection conn = connRequest.getConnection(10, TimeUnit.SECONDS);
// 用连接在做有用的事情。当完成时释放连接。
conn.releaseConnection();
} catch (IOException ex) {
// 在I/O error之上终止连接。
conn.abortConnection();
如果需要,连接请求可以通过调用来ClientConnectionRequest#abortRequest()方法过早地中断。这会解锁在ClientConnectionRequest#getConnection()方法中被阻止的线程。
一旦响应内容被完全消耗后,BasicManagedEntity包装器类可以用来保证自动释放低层的连接。HttpClient内部使用这个机制来实现透明地对所有从HttpClient#execute()方法中获得响应释放连接:
ClientConnectionRequest connRequest = connMrg.requestConnection(
new HttpRoute(new HttpHost("localhost", 80)), null);
ManagedClientConnection conn = connRequest.getConnection(10, TimeUnit.SECONDS);
BasicHttpRequest request = new BasicHttpRequest("GET", "/");
conn.sendRequestHeader(request);
HttpResponse response = conn.receiveResponseHeader();
conn.receiveResponseEntity(response);
HttpEntity entity = response.getEntity();
if (entity != null) {
BasicManagedEntity managedEntity = new BasicManagedEntity(entity, conn, true);
// 替换实体
response.setEntity(managedEntity);
// 使用响应对象做有用的事情。当响应内容被消耗后这个连接将会自动释放。
} catch (IOException ex) {
//在I/O error之上终止连接。
conn.abortConnection();
2.8.3 简单连接管理器
SingleClientConnManager是一个简单的连接管理器,在同一时间它仅仅维护一个连接。尽管这个类是线程安全的,但它应该被用于一个执行线程。SingleClientConnManager对于同一路由的后续请求会尽量重用连接。而如果持久连接的路由不匹配连接请求的话,它也会关闭存在的连接之后对给定路由再打开一个新的。如果连接已经被分配,将会抛出java.lang.IllegalStateException异常。
对于每个默认连接,HttpClient使用SingleClientConnManager。
2.8.4 连接池管理器
ThreadSafeClientConnManager是一个复杂的实现来管理客户端连接池,它也可以从多个执行线程中服务连接请求。对每个基本的路由,连接都是池管理的。对于路由的请求,管理器在池中有可用的持久性连接,将被从池中租赁连接服务,而不是创建一个新的连接。
ThreadSafeClientConnManager维护每个基本路由的最大连接限制。每个默认的实现对每个给定路由将会创建不超过两个的并发连接,而总共也不会超过20个连接。对于很多真实的应用程序,这个限制也证明很大的制约,特别是他们在服务中使用HTTP作为传输协议。连接限制,也可以使用HTTP参数来进行调整。
这个示例展示了连接池参数是如何来调整的:
HttpParams params = new BasicHttpParams();
// 增加最大连接到200
ConnManagerParams.setMaxTotalConnections(params, 200);
// 增加每个路由的默认最大连接到20
ConnPerRouteBean connPerRoute = new ConnPerRouteBean(20);
// 对localhost:80增加最大连接到50
HttpHost localhost = new HttpHost("locahost", 80);
connPerRoute.setMaxForRoute(new HttpRoute(localhost), 50);
ConnManagerParams.setMaxConnectionsPerRoute(params, connPerRoute);
SchemeRegistry schemeRegistry = new SchemeRegistry();
schemeRegistry.register(
new Scheme("http", PlainSocketFactory.getSocketFactory(), 80));
schemeRegistry.register(
new Scheme("https", SSLSocketFactory.getSocketFactory(), 443));
ClientConnectionManager cm = new ThreadSafeClientConnManager(params, schemeRegistry);
HttpClient httpClient = new DefaultHttpClient(cm, params);
2.8.5 连接管理器关闭
当一个HttpClient实例不再需要时,而且即将走出使用范围,那么关闭连接管理器来保证由管理器保持活动的所有连接被关闭,由连接分配的系统资源被释放是很重要的。
DefaultHttpClient httpclient = new DefaultHttpClient();
HttpGet httpget = new HttpGet("/");
HttpResponse response = httpclient.execute(httpget);
HttpEntity entity = response.getEntity();
System.out.println(response.getStatusLine());
if (entity != null) {
entity.consumeContent();
httpclient.getConnectionManager().shutdown();
2.9 连接管理参数
这些是可以用于定制标准HTTP连接管理器实现的参数:
'http.conn-manager.timeout':定义了当从ClientConnectionManager中检索ManagedClientConnection实例时使用的毫秒级的超时时间。这个参数期望得到一个java.lang.Long类型的值。如果这个参数没有被设置,连接请求就不会超时(无限大的超时时间)。
'http.conn-manager.max-per-route':定义了每个路由连接的最大数量。这个限制由客户端连接管理器来解释,而且应用于独立的管理器实例。这个参数期望得到一个ConnPerRoute类型的值。
'http.conn-manager.max-total':定义了总共连接的最大数目。这个限制由客户端连接管理器来解释,而且应用于独立的管理器实例。这个参数期望得到一个java.lang.Integer类型的值。
2.10 多线程执行请求
当配备连接池管理器时,比如ThreadSafeClientConnManager,HttpClient可以同时被用来执行多个请求,使用多线程执行。
ThreadSafeClientConnManager将会分配基于它的配置的连接。如果对于给定路由的所有连接都被租出了,那么连接的请求将会阻塞,直到一个连接被释放回连接池。它可以通过设置'http.conn-manager.timeout'为一个正数来保证连接管理器不会在连接请求执行时无限期的被阻塞。如果连接请求不能在给定的时间周期内被响应,将会抛出ConnectionPoolTimeoutException异常。
HttpParams params = new BasicHttpParams();
SchemeRegistry schemeRegistry = new SchemeRegistry();
schemeRegistry.register(
new Scheme("http", PlainSocketFactory.getSocketFactory(), 80));
ClientConnectionManager cm = new ThreadSafeClientConnManager(params, schemeRegistry);
HttpClient httpClient = new DefaultHttpClient(cm, params);
// 执行GET方法的URI
String[] urisToGet = {
// 为每个URI创建一个线程
GetThread[] threads = new GetThread[urisToGet.length];
for (int i = 0; i & threads. i++) {
HttpGet httpget = new HttpGet(urisToGet[i]);
threads[i] = new GetThread(httpClient, httpget);
// 开始执行线程
for (int j = 0; j & threads. j++) {
threads[j].start();
// 合并线程
for (int j = 0; j & threads. j++) {
threads[j].join();
static class GetThread extends Thread {
private final HttpClient httpC
private final HttpC
private final HttpG
public GetThread(HttpClient httpClient, HttpGet httpget) {
this.httpClient = httpC
this.context = new BasicHttpContext();
this.httpget =
public void run() {
HttpResponse response = this.httpClient.execute(this.httpget, this.context);
HttpEntity entity = response.getEntity();
if (entity != null) {
// 对实体做些有用的事情...
// 保证连接能释放回管理器
entity.consumeContent();
} catch (Exception ex) {
this.httpget.abort();
2.11 连接收回策略
一个经典的阻塞I/O模型的主要缺点是网络套接字仅当I/O操作阻塞时才可以响应I/O事件。当一个连接被释放返回管理器时,它可以被保持活动状态而却不能监控套接字的状态和响应任何I/O事件。如果连接在服务器端关闭,那么客户端连接也不能去侦测连接状态中的变化和关闭本端的套接字去作出适当响应。
HttpClient通过测试连接是否是过时的来尝试去减轻这个问题,这已经不再有效了,因为它已经在服务器端关闭了,之前使用执行HTTP请求的连接。过时的连接检查也并不是100%的稳定,反而对每次请求执行还要增加10到30毫秒的开销。唯一可行的而不涉及到每个对空闲连接的套接字模型线程解决方案,是使用专用的监控线程来收回因为长时间不活动而被认为是过期的连接。监控线程可以周期地调用ClientConnectionManager#closeExpiredConnections()方法来关闭所有过期的连接,从连接池中收回关闭的连接。它也可以选择性调用ClientConnectionManager#closeIdleConnections()方法来关闭所有已经空闲超过给定时间周期的连接。
public static class IdleConnectionMonitorThread extends Thread {
private final ClientConnectionManager connM
private volat
public IdleConnectionMonitorThread(ClientConnectionManager connMgr) {
this.connMgr = connM
public void run() {
while (!shutdown) {
synchronized (this) {
wait(5000);
// 关闭过期连接
connMgr.closeExpiredConnections();
// 可选地,关闭空闲超过30秒的连接
connMgr.closeIdleConnections(30, TimeUnit.SECONDS);
} catch (InterruptedException ex) {
public void shutdown() {
shutdown =
synchronized (this) {
notifyAll();
2.12 连接保持活动的策略
HTTP规范没有确定一个持久连接可能或应该保持活动多长时间。一些HTTP服务器使用非标准的头部信息Keep-Alive来告诉客户端它们想在服务器端保持连接活动的周期秒数。如果这个信息可用,HttClient就会利用这个它。如果头部信息Keep-Alive在响应中不存在,HttpClient假设连接无限期的保持活动。然而许多现实中的HTTP服务器配置了在特定不活动周期之后丢掉持久连接来保存系统资源,往往这是不通知客户端的。如果默认的策略证明是过于乐观的,那么就会有人想提供一个定制的保持活动策略。
DefaultHttpClient httpclient = new DefaultHttpClient();
httpclient.setKeepAliveStrategy(new ConnectionKeepAliveStrategy() {
public long getKeepAliveDuration(HttpResponse response, HttpContext context) {
// 兑现'keep-alive'头部信息
HeaderElementIterator it = new BasicHeaderElementIterator(
response.headerIterator(HTTP.CONN_KEEP_ALIVE));
while (it.hasNext()) {
HeaderElement he = it.nextElement();
String param = he.getName();
String value = he.getValue();
if (value != null && param.equalsIgnoreCase("timeout")) {
return Long.parseLong(value) * 1000;
} catch(NumberFormatException ignore) {
HttpHost target = (HttpHost) context.getAttribute(
ExecutionContext.HTTP_TARGET_HOST);
if ("www.".equalsIgnoreCase(target.getHostName())) {
// 只保持活动5秒
return 5 * 1000;
// 否则保持活动30秒
return 30 * 1000;

我要回帖

更多关于 java httpclient 创建 的文章

 

随机推荐