本页主题: PHP版UTF-8文件BOM自动检测移除程序 打印 | 加为IE收藏 | 复制链接 | 收藏主题 | 上一主题 | 下一主题

Mike
群熵工程师
级别: 管理员


精华: 7
发帖: 951
威望: 714 点
金钱: 6601 RMB
贡献值: 0 点
好评度: 611 点
在线时间:1405(小时)
注册时间:2003-11-28
最后登录:2018-04-23

 PHP版UTF-8文件BOM自动检测移除程序

BOM信息是文件开头的一串隐藏的字符,用于让某些编辑器识别这是个UTF-8编码的文件。但PHP在读取文件时会把这些字符读出,从而形成了文件开头含有一些无法识别的字符的问题。

比如用UTF-8格式保存的生成图片的PHP文件,因为文件头隐藏的BOM信息也被下发,导致生成的图片数据不对,浏览器无法识别。

要检测一个UTF-8文件是否含有BOM信息,就是检测文件开头的字三个符,是否为0xEF, 0xBB, 0xBF。下面这个小程序,用户遍历某个目录下所有文件,并检测是否加了BOM。

Copy code
<?
//此文件用于快速测试UTF8编码的文件是不是加了BOM,并可自动移除
//By Bob Shen

$basedir="."; //修改此行为需要检测的目录,点表示当前目录
$auto=1; //是否自动移除发现的BOM信息。1为是,0为否。

//以下不用改动

if ($dh = opendir($basedir)) {
while (($file = readdir($dh)) !== false) {
if ($file!='.' && $file!='..' && !is_dir($basedir."/".$file)) echo "filename: $file ".checkBOM("$basedir/$file")." <br>";
}
closedir($dh);
}

function checkBOM ($filename) {
global $auto;
$contents=file_get_contents($filename);
$charset[1]=substr($contents, 0, 1);
$charset[2]=substr($contents, 1, 1);
$charset[3]=substr($contents, 2, 1);
if (ord($charset[1])==239 && ord($charset[2])==187 && ord($charset[3])==191) {
if ($auto==1) {
$rest=substr($contents, 3);
rewrite ($filename, $rest);
return ("<font color=red>BOM found, automatically removed.</font>");
} else {
return ("<font color=red>BOM found.</font>");
}
}
else return ("BOM Not Found.");
}

function rewrite ($filename, $data) {
$filenum=fopen($filename,"w");
flock($filenum,LOCK_EX);
fwrite($filenum,$data);
fclose($filenum);
}


将以上代码另存为a.php,修改需要检测的目录后运行。这样可能有助于检测是哪个文件带有了BOM信息导致所有页面开头都有那么一段空白。
顶端 Posted: 05-10-26 19:06 | [楼 主]
不羁的风
级别: 精灵王


精华: 0
发帖: 210
威望: 146 点
金钱: 490 RMB
贡献值: 360 点
好评度: 58 点
在线时间:44(小时)
注册时间:2005-09-07
最后登录:2007-06-02

 

有时候用DW做网页的时候,当保存时,总是提示当前网页含有UTF-8编码什么的,打开保存过的网页会出现乱码或者问号“?”,这是什么原因?
<br>
启天网络
http://www.7tsky.com
顶端 Posted: 05-10-26 21:54 | 1 楼
Mike
群熵工程师
级别: 管理员


精华: 7
发帖: 951
威望: 714 点
金钱: 6601 RMB
贡献值: 0 点
好评度: 611 点
在线时间:1405(小时)
注册时间:2003-11-28
最后登录:2018-04-23

 

这个比较麻烦,我也遇到过,删都不好删。用UltraEdit打开此文件,在File菜单里的Conversions里进行Unicode/UTF-8到ASCII的转换,大多数情况下可以去除UTF-8编码,去除乱码。
顶端 Posted: 05-10-27 10:24 | 2 楼
不羁的风
级别: 精灵王


精华: 0
发帖: 210
威望: 146 点
金钱: 490 RMB
贡献值: 360 点
好评度: 58 点
在线时间:44(小时)
注册时间:2005-09-07
最后登录:2007-06-02

 

关键是在dw里面找不到这些乱码,当时我只好把出现乱巴的表格删除,重新加内容
对于UltraEdit和winhex这样的工具还不会用
<br>
启天网络
http://www.7tsky.com
顶端 Posted: 05-10-27 13:29 | 3 楼
Mike
群熵工程师
级别: 管理员


精华: 7
发帖: 951
威望: 714 点
金钱: 6601 RMB
贡献值: 0 点
好评度: 611 点
在线时间:1405(小时)
注册时间:2003-11-28
最后登录:2018-04-23

 

我发现一个UltraEdit的诀窍:UltraEdit不仅根据文件头BOM或者UNICODE的头来判断文件编码,还根据文件里有没有"charset=UTF-8"这个字符串来判断。即使是对转成GB2312编码的UTF-8文件,如果不修改"charset=UTF-8",UltraEdit还是会识别为UTF-8编码文件。结果导致文件乱码。
顶端 Posted: 05-11-01 13:22 | 4 楼
帖子浏览记录 版块浏览记录
群熵信息 - 技术讨论区 » WEB脚本技术进阶

Total 0.015832(s) query 5, Time now is:10-21 10:09, Gzip enabled
Powered by PHPWind v6.3.2 Certificate Code © 2003-08 PHPWind.com Corporation

上海服务器租用 杭州世导双线服务器托管 云主机 VPS