要不要使用UTF-8编码?

王志勇 发表于 2006年10月22日 10:09

本Blog开通了近5个月,网页一直使用gb2312语言、文本使用标准ANSI编码。中文Blog在2005年、2006年这两年,呈现出了极其壮观的场面,Blog在网络中,几乎可以最大程度地促进和改善一个人的理性思考能力。中文Blog,UTF-8语言编码占多数,我估计约占70%,gb2312语言编码约占30%。

使用UTF-8编码唯一的好处是,国外的用户如果使用Windows XP英文版,浏览UTF-8编码的任何网页,无论是中文、还是日文、韩文、阿拉伯文,都可以正常显示,UTF-8是世界通用的语言编码,UTF-8的推广要归功于Google的应用,以及Blog开发者。而如果用Windows XP英文版的IE6.0浏览gb2312语言编码的网页,则会提示是否安装语言包。因此,可能会失去很多的国外浏览者。

使用gb2312编码的好处是,因为程序产生的网页文本使用ANSI编码格式,会比UTF-8文本编码节省一些体积,访问速度会稍微快一点点,体积比请见我这里做的精确的实验

我们来看看日本语的Blog,使用Japanese (EUC)编码、UTF-8编码都占多数;韩国语的Blog,UTF-8编码占多数,Korean (EUC)、Korean也同样占较大部分。

由此可以得出,使用UTF-8语言编码,还是使用本国的语言编码,与是否爱国没有多大关系,或者说,压根儿就没有关系,在中国,没有一个人是不爱国的。我一直在UTF-8和gb2312之间徘徊,要不要使用UTF-8编码?千万次地问。

35条评论:
1   Randolph 2006-10-22 11:36
用吧。用吧。

不是需要向国际化发展吗?

2   flavien 2006-10-23 09:08
用UTF-8吧,为了韩国语:)
3   王志勇 2006-10-23 11:54
谢谢两位的回复和建议:)偶会认真考虑大家的建议。
4   muyulu 2006-10-23 15:41
其实,在你写的东西中可以看出你心里的天平已经移到UTF-8上面了~呵呵~我也支持~30:38的比例不是很大,而且我相信不会为了一点点速度而放弃国外的访问吧~况且这里的速度已经很快了~~
5   wells 2006-10-25 20:21
建议使用UTF8编码,特别是在有的时候,
比如繁体中文的用户访问我们的BLOG,留下他的留言的时候,如果使用UTF8则绝对没有问题。

另外,向我这种使用LINUX/FreeBSD操作系统的用户,UTF8更没问题,操作系统的文件系统默认编码就是UTF8的,
听说简体中文的Windows Vista也要向Linux一样,把默认的文件系统编码从CP936(GB2312)改成UTF8了

毕竟UTF8是大势所趋

6   王志勇 2006-10-27 09:14
本Blog已改为UTF-8编码,谢谢大家回复。:)
7   javy 2006-11-18 00:39
我使用了utf-8进行编码,但在用一些搜索引擎模拟器时行搜索的时候,搜出来的都是乱码,而且输入的关键词也搜不到,实际引擎会不会这样?
还有就是请问一个问题用xenu进行网站地图制作的时候,为什么我的网站只搜到二个网址,头痛!!
8   王志勇 2006-11-18 21:49
回javy,使用UTF-8编码,有2个要注意的,搜索引擎就可以正常识别了。一是网页的meta部分,必须有这句:<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">,二是网页的文本格式,必须保存为UTF-8格式,方法是用记事本打开网页,点击“文件→另存为”,在最后的Encoding,默认是ANSI,改为UTF-8。
9   javy 2006-11-19 14:10
哦,谢谢你的回答,不知你对xenu这个软件了解不,反正我使用的时候出现点问题。
10   flymorn 2006-11-19 14:25
请教UTF-8格式在编写网页源程序时要和GB2312有什么区别Z@谢谢
11   王志勇 2006-11-24 22:12
回flymorn,同8楼。
12   zeal 2006-11-26 16:47
用不用utf-8, 最关键的还在于对现有gb2312内容的转化工作量的大小。如果工作量可以接受的话,那绝对应该改用utf-8,这样可以包容最大量的文字信息,而不至于由于某个繁体字或日语什么的导致rss输出错误等不必要的麻烦。
13   javy 2006-12-13 17:14
问题原来不是编码的问题,不知道为什么xunu在遇到脚本后就会停止向下搜索,删除掉就可以了!
14   tomokk 2006-12-18 01:42
Trackback来自 《关于UTF-8》

从网上找的一些关于UTF-8的内容,主要是想知道这个编码对国外访问简体中文页面是否不会显示乱码。这篇文章对我的帮助很大,非常感谢。copy了大部分和部分回复……因为存的blog好像没有trackback的选项……晕……

15   Barrios 2007-01-12 09:09
你好,为什么我用utf-8编码,数库据在页面显示的都是乱码呢!我户Golive cs 2.0完成转的编码
16   自由勇 2007-01-12 11:49
我这里的转化工作量不大,可能用了不到两三小时的时间,更改了一些程序。
回Barrios,按照8楼的步骤,做这2个设置就没问题了。
17   上海网站建设 2007-05-30 20:33
关于网页utf-8编码显示问题
具体请看一下,下面的链接。
http://www.8qq.net/info/info_219.html
18   cocaxl 2007-06-07 08:56
除了txt的中文文档之外还是都用utf-8吧, 手机上只能支持gb2312, 要是电脑用utf-8, 那每次存手机的时候还要转换一次编码, 甚是麻烦. 手机不看的文档还是支持utf-8!
19   问题 2007-06-14 15:29
有感7楼,我发现用搜索引擎模拟器(ttp://tool.chinaz.com/Seo/Spider.asp)
搜索楼主网站时,确实是乱码一堆?!
20   utfx 2007-12-12 16:02
感觉还是二字节UTF16编码更具有长远意义,处理起来也更简洁快捷方便,UTF8编码方式感觉有些复杂混乱,很不爽;
也许是西方人自我感觉太良好,觉得unicode里边一个拉丁字母要用两个字节太委屈了,结果弄了个这种不尴不尬的UTF8,我觉得这只能算是过渡方案,未来最终还是要回到UTF16
21   Qtz 2007-12-17 22:48
实际上UTF-16也并不是简单两个字节就行了,真正的Unicode空间是四维256位的,用两个字节仅能表示65536个,这个连一些生僻中文也不能表示呢。许多程序宣称自己支持UTF-16都是仅仅考虑2个字节,没有考虑更多的字符表示了,这种偏见曾经造成了不少程序的严重漏洞和缺陷。虽然用2个字节表示的BMP(基本映射平面)对于多数拉丁字符和CJK(中日韩)的常用字就够了,但是为了表示更多语言的字符,还是需要将两个以上的字当一个整体来用,这样不久和UTF-8一样吗,所以认为UTF-16的的这种编码方式有长远意义根本站不住脚。如果真是那样的话,那干脆都用UTF-32算了,还要16干什么?
另外UTF-8的最大优点就是和ASCII兼容,这个省去了很多麻烦呢。
另外UTF-16的一个大问题就是不同的硬件平台有不同的字节序,像Intel是Little-endian,而PowerPC是Big-endian,也就是一个字(WORD)的两个字节前后顺序的问题。用UTF-16的好处是编写操作系统时能更方便一些(如果只支持BMP,就把所有的宽字符都认为是2个字节为单位的),但是不方便硬件移植,尤其是Internet这个大环境里,什么机器都有,强迫用一个字节序会造成不必要的麻烦。而且还要在传输前实现用标志表示,但是这个标志可能和其它编码中的某些字符冲突。如果当初Windows像Linux一样用UTF-8的话,记事本就不会把UTF-8的“联通”变成乱码了。
22   lisachu 2008-01-23 11:32
爱国就用UTF-8 哈哈
23   口袋茶叶 2008-04-01 21:43
请问您有没有日文的 UTF-8 码表?~呵呵~谢谢。
24   led display 2008-04-18 16:10
但是听说用gb2312对搜索引擎跟友好!
百度就是完全基于GB2312的啊!
25   Qian 2008-05-07 15:01
所以说百度作为一个大的搜索引擎,导向有问题

但是听说用gb2312对搜索引擎跟友好!
百度就是完全基于GB2312的啊!

26   UD03 2008-05-24 22:03
UTF-8 当然是把事情简单化。
国外很多经典的程序都用UTF-8的。
27   crorts 2008-11-16 16:07
UTF-8 带来的是统一国际化,这样给我 带来方便 ! 这是好事!
28   天天健康 2008-12-13 09:59
有同感 ,我也是一部分用了gb2312,一部分用了utf8
29   guocc 2008-12-21 00:53
我把网站从ansi改为utf-8,文章内容出现乱码,怎么回事?!
30   Saturn 2008-12-23 07:42
@guocc
导致此问题是由于编码不一致造成的。如果是静态页面出现乱码,先添加META中的http-equiv为UTF-8编码,然后保存为UTF-8格式文件。如果是动态页面,在程序中也要加入HTTP头的编码格式为UTF-8。
不单上文件保存为UTF-8那么简单的。
31   自由勇 2009-02-08 08:43
Trackback来自 《Unicode和UTF-8,GB2312

20楼和21楼的朋友说得很好。

32   銀色 2009-07-23 02:00
用通用碼會比較好,知識的流通本就不該被各自為"陣"的狹隘封閉起來.
33   婚纱摄影 2009-08-05 19:51
还是用UTF-8比较好,国际通用
34   vintion 2011-11-14 13:57
内容不错,先keep起来了
35   你好 2020-12-15 16:46
我决定还行

发表评论:
名字: (*必填)
博客: (可省)

正文:

  记住信息?

王志勇:1980-09-26 (44周岁)
程序设计,前端设计。

版权声明:本博客所有文章,均符合原创的定义,禁止转载,违者将必究;正确的方法是贴原文的标题和网址即可。

与此相关的链接
自由勇专栏

Blog存档 Archives

2022年07月
2022年06月(15)
2022年05月(20)
2022年04月(16)
2022年03月(9)
2022年02月(9)
2022年01月(10)
2021年 +

2020年 +
2019年 +
2018年 +
2016年-2017年(9)
2014年06月-09月(10)
2013年 +
2012年 +
2011年 +
2010年 +
2009年 +
2008年 +
2007年 +
2006年 +
2005年09月(4)

Copyright © 2006-2024 auiou.com All rights reserved.
此Blog程序由王志勇编写