php中文汉字转Unicode编码,Unicode转中文的函数- /**
- * $str 原始中文字符串
- * $encoding 原始字符串的编码,默认GBK
- * $prefix 编码后的前缀,默认"&#"
- * $postfix 编码后的后缀,默认";"
- */
- function unicode_encode($str, $encoding = 'GBK', $prefix = '&#', $postfix = ';') {
- $str = iconv($encoding, 'UCS-2', $str);
- $arrstr = str_split($str, 2);
- $unistr = '';
- for($i = 0, $len = count($arrstr); $i < $len; $i++) {
- $dec = hexdec(bin2hex($arrstr[$i]));
- $unistr .= $prefix . $dec . $postfix;
- }
- return $unistr;
- }
复制代码- /**
- * $str Unicode编码后的字符串
- * $decoding 原始字符串的编码,默认GBK
- * $prefix 编码字符串的前缀,默认"&#"
- * $postfix 编码字符串的后缀,默认";"
- */
- function unicode_decode($unistr, $encoding = 'GBK', $prefix = '&#', $postfix = ';') {
- $arruni = explode($prefix, $unistr);
- $unistr = '';
- for($i = 1, $len = count($arruni); $i < $len; $i++) {
- if (strlen($postfix) > 0) {
- $arruni[$i] = substr($arruni[$i], 0, strlen($arruni[$i]) - strlen($postfix));
- }
- $temp = intval($arruni[$i]);
- $unistr .= ($temp < 256) ? chr(0) . chr($temp) : chr($temp / 256) . chr($temp % 256);
- }
- return iconv('UCS-2', $encoding, $unistr);
- }
复制代码
//GBK字符串测试
$str = '<b>哈哈</b>';
echo $str.'<br />';
$unistr = unicode_encode($str);
echo $unistr.'<br />'; // <b>哈哈</b>
$str2 = unicode_decode($unistr);
echo $str2.'<br />'; //<b>哈哈</b>
//UTF-8字符串测试
$utf8_str = iconv('GBK', 'UTF-8', $str);
echo $utf8_str.'<br />'; // <b>鍝堝搱</b> 注:UTF在GBK下显示的乱码!可切换浏览器的编码测试
$utf8_unistr = unicode_encode($utf8_str, 'UTF-8');
echo $utf8_unistr.'<br />'; // <b>哈哈</b>
$utf8_str2 = unicode_decode($utf8_unistr, 'UTF-8');
echo $utf8_str2.'<br />'; // <b>鍝堝搱</b>
//其它后缀、前缀测试
$prefix_unistr = unicode_encode($str, 'GBK', "\\u", '');
echo $prefix_unistr.'<br />'; // \u60\u98\u62\u21704\u21704\u60\u47\u98\u62
$profix_unistr2 = unicode_decode($prefix_unistr, 'GBK', "\\u", '');
echo $profix_unistr2.'<br />'; //<b>哈哈</b>
上边的是转载的,unicode_decode函数会丢失除unicode编码以外的字符
下边是自己简单修改的unicode_decode函数
- /**
- * $str Unicode编码后的字符串
- * $decoding 原始字符串的编码,默认GBK
- * $prefix 编码字符串的前缀,默认"&#"
- * $postfix 编码字符串的后缀,默认";"
- */
- function s_unicode_decode($unistr, $encoding = 'GBK', $prefix = '&#', $postfix = ';') {
-
- if(stristr($unistr,$prefix)){
- $arruni = explode($prefix, $unistr);
- $unistr = '';
- for($i = 1, $len = count($arruni); $i < $len; $i++) {
- if (strlen($postfix) > 0) {
- $arruni2 = array();
- $arruni2 = explode($postfix, $arruni[$i]);
- if(count($arruni2) > 1){
- if(is_numeric($arruni2[0])){
- $temp = intval($arruni2[0]);
- $unistr .= iconv('UCS-2', $encoding, ($temp < 256) ? chr(0) . chr($temp) : chr($temp / 256) . chr($temp % 256));
- if(!empty($arruni2[1])){
- $unistr .= $arruni2[1];
- }
- }else{
- $unistr .= $arruni[$i];
- }
- }else{
- $unistr .= $arruni[$i];
- }
- }else{
- $temp = intval($arruni[$i]);
- $unistr .= iconv('UCS-2', $encoding, ($temp < 256) ? chr(0) . chr($temp) : chr($temp / 256) . chr($temp % 256));
- }
- }
- }
- return $unistr;
- }
复制代码
|
上一篇: 转载:巴厘岛最初印象下一篇: Discuz X2.5利用计划任务每日下载Alexa的数据(炎藤)
|