欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

java asp分析各種搜索引擎的關(guān)鍵字,自動(dòng)識(shí)別url 中關(guān)鍵字的編碼

 更新時(shí)間:2009年01月10日 21:39:18   作者:  
網(wǎng)上也有一些代碼,大部分都是通過(guò)輸入的關(guān)鍵字來(lái)識(shí)別編碼,并解碼。但是搜索引擎得到的referer來(lái)源地址上的關(guān)鍵字是通過(guò)URLencode編碼過(guò)的,而且各個(gè)網(wǎng)站的關(guān)鍵字Urlencode編碼都不一樣,gbk,utf-8,gb2312等等。
所以必須要通過(guò)編碼后的關(guān)鍵字,例如“解析關(guān)鍵字編碼”在google里面輸入搜索,得到編碼后的“%E8%A7%A3%E6%9E%90%E5%85%B3%E9%94%AE%E5%AD%97%E7%BC%96%E7%A0%81”
1.從以上地址中解析出關(guān)鍵字部分。
2.通過(guò)編碼后的關(guān)鍵字獲取編碼時(shí)的編碼名稱(如:gbk,utf-8等等)
3.用URLdecode(keywords,encodeCode)來(lái)解碼得到對(duì)應(yīng)的關(guān)鍵字。
以下是java代碼的實(shí)現(xiàn):
復(fù)制代碼 代碼如下:

package test;
import java.io.UnsupportedEncodingException;
import java.net.URLDecoder;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class ParseURLKeyword {
public static void main(String[] args) {
String url = "http://www.google.co.kr/search?hl=en&q=%ED%95%9C%EA%B5%AD%EC%96%B4+&btnG=Google+Search&aq=f&oq=";
System.out.println(ParseURLKeyword.getKeyword(url));
System.out.println("");
url = "http://www.google.cn/search?q=%E6%8F%90%E5%8F%96+%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E+%E5%85%B3%E9%94%AE%E5%AD%97&hl=zh-CN&newwindow=1&sa=2";
System.out.println(ParseURLKeyword.getKeyword(url));
System.out.println("");
url = "http://www.google.com.tw/search?hl=zh-CN&q=%E6%B9%98%E9%8B%BC%E4%B8%AD%E5%9C%8B%E9%A6%99%E7%85%99&btnG=Google+%E6%90%9C%E7%B4%A2&aq=f&oq=";
System.out.println(ParseURLKeyword.getKeyword(url));
System.out.println("");
url = "http://www.baidu.com/s?wd=%D6%D0%87%F8%D3%D0%BE%80%D8%9F%C8%CE%B9%AB%CB%BE";
System.out.println(ParseURLKeyword.getKeyword(url));
System.out.println("");
url = "http://www.baidu.com/s?wd=%C6%F3%D2%B5%CD%C6%B9%E3";
System.out.println(ParseURLKeyword.getKeyword(url));
System.out.println("");
}
public static String getKeyword(String url){
String keywordReg = "(?:yahoo.+?[\\?|&]p=|openfind.+?query=|google.+?q=|lycos.+?query=|onseek.+?keyword=|search\\.tom.+?word=|search\\.qq\\.com.+?word=|zhongsou\\.com.+?word=|search\\.msn\\.com.+?q=|yisou\\.com.+?p=|sina.+?word=|sina.+?query=|sina.+?_searchkey=|sohu.+?word=|sohu.+?key_word=|sohu.+?query=|163.+?q=|baidu.+?wd=|soso.+?w=|3721\\.com.+?p=|Alltheweb.+?q=)([^&]*)";
String encodeReg = "^(?:[\\x00-\\x7f]|[\\xfc-\\xff][\\x80-\\xbf]{5}|[\\xf8-\\xfb][\\x80-\\xbf]{4}|[\\xf0-\\xf7][\\x80-\\xbf]{3}|[\\xe0-\\xef][\\x80-\\xbf]{2}|[\\xc0-\\xdf][\\x80-\\xbf])+$";
Pattern keywordPatt = Pattern.compile(keywordReg);
StringBuffer keyword = new StringBuffer(20);
Matcher keywordMat = keywordPatt.matcher(url);
while (keywordMat.find()) {
keywordMat.appendReplacement(keyword, "$1");
}
if (!keyword.toString().equals("")){
String keywordsTmp = keyword.toString().replace("http://www.", "");
Pattern encodePatt = Pattern.compile(encodeReg);
String unescapeString = ParseURLKeyword.unescape(keywordsTmp);
Matcher encodeMat = encodePatt.matcher(unescapeString);
String encodeString = "gbk";
if (encodeMat.matches()) encodeString = "utf-8";
try {
return URLDecoder.decode(keywordsTmp, encodeString);
} catch (UnsupportedEncodingException e) {
return "";
}
}
return "";
}
public static String unescape(String src) {
StringBuffer tmp = new StringBuffer();
tmp.ensureCapacity(src.length());
int lastPos = 0, pos = 0;
char ch;
while (lastPos < src.length()) {
pos = src.indexOf("%", lastPos);
if (pos == lastPos) {
if (src.charAt(pos + 1) == 'u') {
ch = (char) Integer.parseInt(src.substring(pos + 2, pos + 6), 16);
tmp.append(ch);
lastPos = pos + 6;
} else {
ch = (char) Integer.parseInt(src.substring(pos + 1, pos + 3), 16);
tmp.append(ch);
lastPos = pos + 3;
}
} else {
if (pos == -1) {
tmp.append(src.substring(lastPos));
lastPos = src.length();
} else {
tmp.append(src.substring(lastPos, pos));
lastPos = pos;
}
}
}
return tmp.toString();
}
}

以下是Asp的實(shí)現(xiàn)代碼:
復(fù)制代碼 代碼如下:

Function DecodeURI(s)
s = UnEscape(s)
Dim reg, cs
cs = "GBK"
Set reg = New RegExp
reg.Pattern = "^(?:[\x00-\x7f]|[\xfc-\xff][\x80-\xbf]{5}|[\xf8-\xfb][\x80-\xbf]{4}|[\xf0-\xf7][\x80-\xbf]{3}|[\xe0-\xef][\x80-\xbf]{2}|[\xc0-\xdf][\x80-\xbf])+$"
If reg.Test(s) Then cs = "UTF-8"
Set reg = Nothing
Dim sm
Set sm = CreateObject("ADODB.Stream")
With sm
.Type = 2
.Mode = 3
.Open
.CharSet = "iso-8859-1"
.WriteText s
.Position = 0
.CharSet = cs
DecodeURI = .ReadText(-1)
.Close
End With
Set sm = Nothing
End Function
Response.Write DecodeURI("%B8%A7%CB%B3%C7%E0%CB%C9%D2%A9%D2%B5")
Response.Write DecodeURI("%E6%8A%9A%E9%A1%BA%E9%9D%92%E6%9D%BE%E8%8D%AF%E4%B8%9A")

相關(guān)文章

  • 解析jetbrains IDE的插件加載不出來(lái)的問(wèn)題(IDEA、pycharm等)

    解析jetbrains IDE的插件加載不出來(lái)的問(wèn)題(IDEA、pycharm等)

    這篇文章主要介紹了解析jetbrains IDE的插件加載不出來(lái)(IDEA、pycharm等),本文給大家分享解決方案,對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-10-10
  • 關(guān)于idea+centos7+zookeeper報(bào)錯(cuò)connectionloss,timeout問(wèn)題

    關(guān)于idea+centos7+zookeeper報(bào)錯(cuò)connectionloss,timeout問(wèn)題

    這篇文章主要介紹了idea+centos7+zookeeper報(bào)錯(cuò)connectionloss,timeout問(wèn)題,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2021-01-01
  • vscode 配置eslint和prettier正確方法

    vscode 配置eslint和prettier正確方法

    ESLint 是一款語(yǔ)法檢測(cè)工具而prettier 是一個(gè)代碼格式化插件,今天給大家分享vscode 配置eslint和prettier正確方法,感興趣的朋友一起看看吧
    2021-07-07
  • 使用postman進(jìn)行接口測(cè)試的方法(測(cè)試用戶管理模塊)

    使用postman進(jìn)行接口測(cè)試的方法(測(cè)試用戶管理模塊)

    這篇文章主要介紹了使用postman進(jìn)行接口測(cè)試的方法(測(cè)試用戶管理模塊),本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友參考下吧
    2021-01-01
  • 嘁,都2020了,你咋還在單純的使用if-else

    嘁,都2020了,你咋還在單純的使用if-else

    我們?cè)趯?xiě)程序時(shí),常常需要指明兩條或者更多的執(zhí)行路徑,使得程序執(zhí)行時(shí),能夠選擇其中一條路徑,去執(zhí)行相應(yīng)的語(yǔ)句,產(chǎn)生對(duì)應(yīng)的結(jié)果 —— 這也是條件語(yǔ)句在程序中的作用。下面通過(guò)例子給大家介紹下if-else的使用,感興趣的朋友一起看看吧
    2020-10-10
  • 都2019年了,還問(wèn)http中GET和POST的區(qū)別

    都2019年了,還問(wèn)http中GET和POST的區(qū)別

    最近看了一些同學(xué)的面經(jīng),發(fā)現(xiàn)無(wú)論什么技術(shù)崗位,還是會(huì)問(wèn)到 get 和 post 的區(qū)別,而搜索出來(lái)的答案并不能讓我們裝得一手好逼,那就讓我們從 HTTP 報(bào)文的角度來(lái)擼一波,從而搞明白他們的區(qū)別
    2019-02-02
  • 詳解Git.gitignore開(kāi)發(fā)必備建議收藏

    詳解Git.gitignore開(kāi)發(fā)必備建議收藏

    這篇文章主要介紹了Git.gitignore的全面詳解,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2021-08-08
  • 持續(xù)集成工具之Jenkins安裝部署的詳細(xì)教程

    持續(xù)集成工具之Jenkins安裝部署的詳細(xì)教程

    這篇文章主要介紹了持續(xù)集成工具之Jenkins安裝部署,本文通過(guò)圖文的形式給大家啊介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-10-10
  • Git基礎(chǔ)之git在項(xiàng)目中的協(xié)作模式

    Git基礎(chǔ)之git在項(xiàng)目中的協(xié)作模式

    這篇文章主要為大家介紹了Git基礎(chǔ)之git在項(xiàng)目中的協(xié)作模式,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2022-04-04
  • XMind?2021激活碼及安裝步驟

    XMind?2021激活碼及安裝步驟

    XMind?是一款非常實(shí)用的商業(yè)思維導(dǎo)圖,應(yīng)用Eclipse?RCP?開(kāi)發(fā)架構(gòu),打造易用、高效的可視化思維,強(qiáng)調(diào)該功能的可擴(kuò)展、跨平臺(tái)、穩(wěn)定性和性能,致力于幫助用戶提高生產(chǎn)率。本文給大家?guī)?lái)了XMind?2021激活碼,需要的朋友可以參考下
    2021-12-12

最新評(píng)論