在采集的项目中,遇到各种各样的URL,因为要采集国外的内容,涉及到.jp,.ca,hk等域名,但前面又有各类的二级域名,这就导致我们在取根域名的时候遇到一定难度,我们来看一下网址,如:http://blog.ab.cc.win.aisa.hk/index.php 突然一看,是不是懵逼得不行,当然,如果用人眼看的话,一眼就看出来是 .hk 的域名,但我想要把 .hk 的域名使用 php 给提取出来,网上有许多的代码,但都不能得到正确的答案,所以只能索性写一个,也希望大家给提出其中的bug来,代码如下:,首先我们定义一个 getBaseDomain 的 function 方法,然后直接使用实例来获取URL的根域名即可,实例如 echo getBaseDomain('http://blog.jp.goo.ne.jp/index.php')->domain;echo "\n";,获取到根域名之后,就可以得到下一步的使用。,

在采集的项目中,遇到各种各样的URL,因为要采集国外的内容,涉及到.jp,.ca,hk等域名,但前面又有各类的二级域名,这就导致我们在取根域名的时候遇到一定难度,我们来看一下网址,如:http://blog.ab.cc.win.aisa.hk/index.php 突然一看,是不是懵逼得不行,当然,如果用人眼看的话,一眼就看出来是 .hk 的域名,但我想要把 .hk 的域名使用 php 给提取出来,网上有许多的代码,但都不能得到正确的答案,所以只能索性写一个,也希望大家给提出其中的bug来,代码如下:

  1.   
  2. #使用示例  
  3.   
  4. echo getBaseDomain('http://blog.jp.goo.ne.jp/index.php')->domain;echo "\n";  
  5.   
  6. echo getBaseDomain('http://51.ca/index.php')->domain;echo "\n";  
  7.   
  8. echo getBaseDomain('http://blog.ab.cc.win.aisa.hk/index.php')->domain;echo "\n";  
  9.   
  10. function getBaseDomain($url=''){  
  11.   
  12.   if(!$url){  
  13.   
  14.     return $url;  
  15.   
  16.   }  
  17.   
  18.   #列举域名中固定元素  
  19.   
  20.   $state_domain = array(  
  21.   
  22. 'al','dz','af','ar','ae','aw','om','az','eg','et','ie','ee','ad','ao','ai','ag','at','au','mo','bb','pg','bs','pk','py','ps','bh','pa','br','by','bm','bg','mp','bj','be','is','pr','ba','pl','bo','bz','bw','bt','bf','bi','bv','kp','gq','dk','de','tl','tp','tg','dm','do','ru','ec','er','fr','fo','pf','gf','tf','va','ph','fj','fi','cv','fk','gm','cg','cd','co','cr','gg','gd','gl','ge','cu','gp','gu','gy','kz','ht','kr','nl','an','hm','hn','ki','dj','kg','gn','gw','ca','gh','ga','kh','cz','zw','cm','qa','ky','km','ci','kw','cc','hr','ke','ck','lv','ls','la','lb','lt','lr','ly','li','re','lu','rw','ro','mg','im','mv','mt','mw','my','ml','mk','mh','mq','yt','mu','mr','us','um','as','vi','mn','ms','bd','pe','fm','mm','md','ma','mc','mz','mx','nr','np','ni','ne','ng','nu','no','nf','na','za','aq','gs','eu','pw','pn','pt','jp','se','ch','sv','ws','yu','sl','sn','cy','sc','sa','cx','st','sh','kn','lc','sm','pm','vc','lk','sk','si','sj','sz','sd','sr','sb','so','tj','tw','th','tz','to','tc','tt','tn','tv','tr','tm','tk','wf','vu','gt','ve','bn','ug','ua','uy','uz','es','eh','gr','hk','sg','nc','nz','hu','sy','jm','am','ac','ye','iq','ir','il','it','in','id','uk','vg','io','jo','vn','zm','je','td','gi','cl','cf','cn','yr','com','arpa','edu','gov','int','mil','net','org','biz','info','pro','name','museum','coop','aero','xxx','idv','me','mobi','asia','ax','bl','bq','cat','cw','gb','jobs','mf','rs','su','sx','tel','travel'  
  23.   
  24.   );  
  25.   
  26.   if(!preg_match("/^http/is"$url)){  
  27.   
  28.     $url="http://".$url;  
  29.   
  30.   }  
  31.   
  32.   $res = null;  
  33.   
  34.   $res->domain = null;  
  35.   
  36.   $res->host = null;  
  37.   
  38.   $url_parse = parse_url(strtolower($url));  
  39.   
  40.   $urlarr = explode("."$url_parse['host']);  
  41.   
  42.   $count = count($urlarr);  
  43.   
  44.   if($count <= 2){  
  45.   
  46.     #当域名直接根形式不存在host部分直接输出  
  47.   
  48.     $res->domain = $url_parse['host'];  
  49.   
  50.   }elseif($count > 2){  
  51.   
  52.     $last = array_pop($urlarr);  
  53.   
  54.     $last_1 = array_pop($urlarr);  
  55.   
  56.     $last_2 = array_pop($urlarr);  
  57.   
  58.     $res->domain = $last_1.'.'.$last;  
  59.   
  60.     $res->host = $last_2;  
  61.   
  62.     if(in_array($last$state_domain)){  
  63. //www.xiariboke.net  
  64.       $res->domain=$last_1.'.'.$last;  
  65.   
  66.       $res->host=implode('.'$urlarr);  
  67.   
  68.     }  
  69.   
  70.     if(in_array($last_1$state_domain)){  
  71.   
  72.       $res->domain = $last_2.'.'.$last_1.'.'.$last;  
  73.   
  74.       $res->host = implode('.'$urlarr);  
  75.   
  76.     }  
  77.   
  78.     #print_r(get_defined_vars());die;  
  79.   
  80.   }  
  81.   
  82.   return $res;  
  83.   
  84. }  
  85. ?>  

首先我们定义一个 getBaseDomain 的 function 方法,然后直接使用实例来获取URL的根域名即可,实例如 echo getBaseDomain('http://blog.jp.goo.ne.jp/index.php')->domain;echo "\n";,获取到根域名之后,就可以得到下一步的使用。

,

在采集的项目中,遇到各种各样的URL,因为要采集国外的内容,涉及到.jp,.ca,hk等域名,但前面又有各类的二级域名,这就导致我们在取根域名的时候遇到一定难度,我们来看一下网址,如:http://blog.ab.cc.win.aisa.hk/index.php 突然一看,是不是懵逼得不行,当然,如果用人眼看的话,一眼就看出来是 .hk 的域名,但我想要把 .hk 的域名使用 php 给提取出来,网上有许多的代码,但都不能得到正确的答案,所以只能索性写一个,也希望大家给提出其中的bug来,代码如下:

  1.   
  2. #使用示例  
  3.   
  4. echo getBaseDomain('http://blog.jp.goo.ne.jp/index.php')->domain;echo "\n";  
  5.   
  6. echo getBaseDomain('http://51.ca/index.php')->domain;echo "\n";  
  7.   
  8. echo getBaseDomain('http://blog.ab.cc.win.aisa.hk/index.php')->domain;echo "\n";  
  9.   
  10. function getBaseDomain($url=''){  
  11.   
  12.   if(!$url){  
  13.   
  14.     return $url;  
  15.   
  16.   }  
  17.   
  18.   #列举域名中固定元素  
  19.   
  20.   $state_domain = array(  
  21.   
  22. 'al','dz','af','ar','ae','aw','om','az','eg','et','ie','ee','ad','ao','ai','ag','at','au','mo','bb','pg','bs','pk','py','ps','bh','pa','br','by','bm','bg','mp','bj','be','is','pr','ba','pl','bo','bz','bw','bt','bf','bi','bv','kp','gq','dk','de','tl','tp','tg','dm','do','ru','ec','er','fr','fo','pf','gf','tf','va','ph','fj','fi','cv','fk','gm','cg','cd','co','cr','gg','gd','gl','ge','cu','gp','gu','gy','kz','ht','kr','nl','an','hm','hn','ki','dj','kg','gn','gw','ca','gh','ga','kh','cz','zw','cm','qa','ky','km','ci','kw','cc','hr','ke','ck','lv','ls','la','lb','lt','lr','ly','li','re','lu','rw','ro','mg','im','mv','mt','mw','my','ml','mk','mh','mq','yt','mu','mr','us','um','as','vi','mn','ms','bd','pe','fm','mm','md','ma','mc','mz','mx','nr','np','ni','ne','ng','nu','no','nf','na','za','aq','gs','eu','pw','pn','pt','jp','se','ch','sv','ws','yu','sl','sn','cy','sc','sa','cx','st','sh','kn','lc','sm','pm','vc','lk','sk','si','sj','sz','sd','sr','sb','so','tj','tw','th','tz','to','tc','tt','tn','tv','tr','tm','tk','wf','vu','gt','ve','bn','ug','ua','uy','uz','es','eh','gr','hk','sg','nc','nz','hu','sy','jm','am','ac','ye','iq','ir','il','it','in','id','uk','vg','io','jo','vn','zm','je','td','gi','cl','cf','cn','yr','com','arpa','edu','gov','int','mil','net','org','biz','info','pro','name','museum','coop','aero','xxx','idv','me','mobi','asia','ax','bl','bq','cat','cw','gb','jobs','mf','rs','su','sx','tel','travel'  
  23.   
  24.   );  
  25.   
  26.   if(!preg_match("/^http/is"$url)){  
  27.   
  28.     $url="http://".$url;  
  29.   
  30.   }  
  31.   
  32.   $res = null;  
  33.   
  34.   $res->domain = null;  
  35.   
  36.   $res->host = null;  
  37.   
  38.   $url_parse = parse_url(strtolower($url));  
  39.   
  40.   $urlarr = explode("."$url_parse['host']);  
  41.   
  42.   $count = count($urlarr);  
  43.   
  44.   if($count <= 2){  
  45.   
  46.     #当域名直接根形式不存在host部分直接输出  
  47.   
  48.     $res->domain = $url_parse['host'];  
  49.   
  50.   }elseif($count > 2){  
  51.   
  52.     $last = array_pop($urlarr);  
  53.   
  54.     $last_1 = array_pop($urlarr);  
  55.   
  56.     $last_2 = array_pop($urlarr);  
  57.   
  58.     $res->domain = $last_1.'.'.$last;  
  59.   
  60.     $res->host = $last_2;  
  61.   
  62.     if(in_array($last$state_domain)){  
  63. //www.xiariboke.net  
  64.       $res->domain=$last_1.'.'.$last;  
  65.   
  66.       $res->host=implode('.'$urlarr);  
  67.   
  68.     }  
  69.   
  70.     if(in_array($last_1$state_domain)){  
  71.   
  72.       $res->domain = $last_2.'.'.$last_1.'.'.$last;  
  73.   
  74.       $res->host = implode('.'$urlarr);  
  75.   
  76.     }  
  77.   
  78.     #print_r(get_defined_vars());die;  
  79.   
  80.   }  
  81.   
  82.   return $res;  
  83.   
  84. }  
  85. ?>  

首先我们定义一个 getBaseDomain 的 function 方法,然后直接使用实例来获取URL的根域名即可,实例如 echo getBaseDomain('http://blog.jp.goo.ne.jp/index.php')->domain;echo "\n";,获取到根域名之后,就可以得到下一步的使用。

最后修改:2025 年 09 月 10 日
如果觉得我的文章对你有用,请随意夸赞