Java 獲取URL的內(nèi)容
更新時(shí)間:2008年12月10日 12:28:50 作者:
Java的網(wǎng)絡(luò)資源比較少,問(wèn)GG問(wèn)的比較失敗啊,自己在不斷的摸索中才知道了不少。
Java獲取URL內(nèi)容的,我這里只給出GET方式的,POST和其它方式的都是比較類似的。其技術(shù)要點(diǎn)就一下三點(diǎn)。
第一:創(chuàng)建HttpURLConnection
第二:打開URL,創(chuàng)建一個(gè)InputStream
第三:逐行(逐字節(jié))讀取,如果需要,轉(zhuǎn)換編碼,放入字符串。
好,一下就開始代碼吧:
public String getUrlContent(String path){
String rtn = "";
int c;
try{
java.net.URL l_url = new java.net.URL(path);
java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();
l_connection.setRequestProperty("User-agent","Mozilla/4.0");
l_connection.connect();
InputStream l_urlStream = l_connection.getInputStream();
while (( ( c= l_urlStream.read() )!=-1)){
int all=l_urlStream.available();
byte[] b =new byte[all];
l_urlStream.read(b);
rtn+= new String(b, "UTF-8");
}
//Thread.sleep(2000);
l_urlStream.close();
}catch(Exception e){
e.printStackTrace();
}
return rtn;
}
其中
l_connection.setRequestProperty("User-agent","Mozilla/4.0");
這句是必須的,很多服務(wù)器對(duì)于沒(méi)有User-agent頭的請(qǐng)求直接403了就。
然后采用InputStream.available()來(lái)一次性讀取,返回此輸入流方法的下一個(gè)調(diào)用方可以不受阻塞地從此輸入流讀取(或跳過(guò))的字節(jié)數(shù),如果需要的話,可以在后面稍微Sleep一下線程:
Thread.sleep(2000);
其中的
while (( ( c= l_urlStream.read() )!=-1)){
int all=l_urlStream.available();
byte[] b =new byte[all];
l_urlStream.read(b);
rtn+= new String(b, "UTF-8");
}
是個(gè)很重要的讀取過(guò)程,c表示讀取流的標(biāo)注,當(dāng)結(jié)束的時(shí)候是-1,然后all是本次循環(huán)可用的最大字節(jié)數(shù)目,然后讀取全部可用字節(jié)到byte[] b中,然后轉(zhuǎn)換成UTF-8類型的字符串,注意,這里可以自己寫方式,如果讀取GB2312,就要寫GB2312,至于有沒(méi)有萬(wàn)能的,可以獲取Meta,匹配下。自己想辦法吧。
第一:創(chuàng)建HttpURLConnection
第二:打開URL,創(chuàng)建一個(gè)InputStream
第三:逐行(逐字節(jié))讀取,如果需要,轉(zhuǎn)換編碼,放入字符串。
好,一下就開始代碼吧:
復(fù)制代碼 代碼如下:
public String getUrlContent(String path){
String rtn = "";
int c;
try{
java.net.URL l_url = new java.net.URL(path);
java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();
l_connection.setRequestProperty("User-agent","Mozilla/4.0");
l_connection.connect();
InputStream l_urlStream = l_connection.getInputStream();
while (( ( c= l_urlStream.read() )!=-1)){
int all=l_urlStream.available();
byte[] b =new byte[all];
l_urlStream.read(b);
rtn+= new String(b, "UTF-8");
}
//Thread.sleep(2000);
l_urlStream.close();
}catch(Exception e){
e.printStackTrace();
}
return rtn;
}
其中
l_connection.setRequestProperty("User-agent","Mozilla/4.0");
這句是必須的,很多服務(wù)器對(duì)于沒(méi)有User-agent頭的請(qǐng)求直接403了就。
然后采用InputStream.available()來(lái)一次性讀取,返回此輸入流方法的下一個(gè)調(diào)用方可以不受阻塞地從此輸入流讀取(或跳過(guò))的字節(jié)數(shù),如果需要的話,可以在后面稍微Sleep一下線程:
Thread.sleep(2000);
其中的
復(fù)制代碼 代碼如下:
while (( ( c= l_urlStream.read() )!=-1)){
int all=l_urlStream.available();
byte[] b =new byte[all];
l_urlStream.read(b);
rtn+= new String(b, "UTF-8");
}
是個(gè)很重要的讀取過(guò)程,c表示讀取流的標(biāo)注,當(dāng)結(jié)束的時(shí)候是-1,然后all是本次循環(huán)可用的最大字節(jié)數(shù)目,然后讀取全部可用字節(jié)到byte[] b中,然后轉(zhuǎn)換成UTF-8類型的字符串,注意,這里可以自己寫方式,如果讀取GB2312,就要寫GB2312,至于有沒(méi)有萬(wàn)能的,可以獲取Meta,匹配下。自己想辦法吧。
相關(guān)文章
JSP頁(yè)面間傳值問(wèn)題實(shí)例簡(jiǎn)析
這篇文章主要介紹了JSP頁(yè)面間傳值問(wèn)題,結(jié)合實(shí)例形式簡(jiǎn)單分析了JSP頁(yè)面中使用get方式傳值的使用技巧,需要的朋友可以參考下2016-04-04jsp項(xiàng)目中更改tomcat的默認(rèn)index.jsp訪問(wèn)路徑的方法
如何更改tomcat的默認(rèn)index.jsp訪問(wèn)路徑,jsp的工程下有一個(gè)叫做WEB-INF文件夾下的web.xml打開它,按照下面的方法即可修改2013-11-11JSP開發(fā)之生成圖片驗(yàn)證碼技術(shù)的詳解
這篇文章主要介紹了JSP開發(fā)之生成圖片驗(yàn)證碼技術(shù)的詳解的相關(guān)資料,希望通過(guò)本文能幫助到大家實(shí)現(xiàn)圖片驗(yàn)證碼技術(shù),需要的朋友可以參考下2017-09-09JSP中js傳遞和解析URL參數(shù)以及中文轉(zhuǎn)碼和解碼問(wèn)題
有關(guān)js傳遞和解析URL參數(shù)以及中文轉(zhuǎn)碼和解碼問(wèn)題,都是在js中很常見的,下面通過(guò)示例簡(jiǎn)單為大家介紹下,感興趣的朋友可以參考下2013-10-10