| | | 要不要使用UTF-8编码? 王志勇 发表于 2006年10月22日 10:09本Blog开通了近5个月,网页一直使用gb2312语言、文本使用标准ANSI编码。中文Blog在2005年、2006年这两年,呈现出了极其壮观的场面,Blog在网络中,几乎可以最大程度地促进和改善一个人的理性思考能力。中文Blog,UTF-8语言编码占多数,我估计约占70%,gb2312语言编码约占30%。使用UTF-8编码唯一的好处是,国外的用户如果使用Windows XP英文版,浏览UTF-8编码的任何网页,无论是中文、还是日文、韩文、阿拉伯文,都可以正常显示,UTF-8是世界通用的语言编码,UTF-8的推广要归功于Google的应用,以及Blog开发者。而如果用Windows XP英文版的IE6.0浏览gb2312语言编码的网页,则会提示是否安装语言包。因此,可能会失去很多的国外浏览者。 使用gb2312编码的好处是,因为程序产生的网页文本使用ANSI编码格式,会比UTF-8文本编码节省一些体积,访问速度会稍微快一点点,体积比请见我这里做的精确的实验。 我们来看看日本语的Blog,使用Japanese (EUC)编码、UTF-8编码都占多数;韩国语的Blog,UTF-8编码占多数,Korean (EUC)、Korean也同样占较大部分。 由此可以得出,使用UTF-8语言编码,还是使用本国的语言编码,与是否爱国没有多大关系,或者说,压根儿就没有关系,在中国,没有一个人是不爱国的。我一直在UTF-8和gb2312之间徘徊,要不要使用UTF-8编码?千万次地问。 UTF-8的Trackback: http://www.auiou.com/capable/trackbacksw.jsp?knsh00001129 » 直接发送Trackback到此文章 » GB2312及其它语言的Trackback地址
有和平天使们的26条评论 (26 Peaceful Angels' Comments):1 Randolph 发表于 2006-10-22 11:36 用吧。用吧。
不是需要向国际化发展吗? |
2 flavien 发表于 2006-10-23 09:08 用UTF-8吧,为了韩国语:) |
3 王志勇 发表于 2006-10-23 11:54 谢谢两位的回复和建议:)偶会认真考虑大家的建议。 |
4 muyulu 发表于 2006-10-23 15:41 其实,在你写的东西中可以看出你心里的天平已经移到UTF-8上面了~呵呵~我也支持~30:38的比例不是很大,而且我相信不会为了一点点速度而放弃国外的访问吧~况且这里的速度已经很快了~~ |
5 wells 发表于 2006-10-25 20:21 建议使用UTF8编码,特别是在有的时候, 比如繁体中文的用户访问我们的BLOG,留下他的留言的时候,如果使用UTF8则绝对没有问题。
另外,向我这种使用LINUX/FreeBSD操作系统的用户,UTF8更没问题,操作系统的文件系统默认编码就是UTF8的, 听说简体中文的Windows Vista也要向Linux一样,把默认的文件系统编码从CP936(GB2312)改成UTF8了
毕竟UTF8是大势所趋 |
6 王志勇 发表于 2006-10-27 09:14 本Blog已改为UTF-8编码,谢谢大家回复。:) |
7 javy 发表于 2006-11-18 00:39 我使用了utf-8进行编码,但在用一些搜索引擎模拟器时行搜索的时候,搜出来的都是乱码,而且输入的关键词也搜不到,实际引擎会不会这样? 还有就是请问一个问题用xenu进行网站地图制作的时候,为什么我的网站只搜到二个网址,头痛!! |
8 王志勇 发表于 2006-11-18 21:49 回javy,使用UTF-8编码,有2个要注意的,搜索引擎就可以正常识别了。一是网页的meta部分,必须有这句:<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">,二是网页的文本格式,必须保存为UTF-8格式,方法是用记事本打开网页,点击“文件→另存为”,在最后的Encoding,默认是ANSI,改为UTF-8。 |
9 javy 发表于 2006-11-19 14:10 哦,谢谢你的回答,不知你对xenu这个软件了解不,反正我使用的时候出现点问题。 |
10 flymorn 发表于 2006-11-19 14:25 请教UTF-8格式在编写网页源程序时要和GB2312有什么区别Z@谢谢 |
11 王志勇 发表于 2006-11-24 22:12 回flymorn,同8楼。 |
12 zeal 发表于 2006-11-26 16:47 用不用utf-8, 最关键的还在于对现有gb2312内容的转化工作量的大小。如果工作量可以接受的话,那绝对应该改用utf-8,这样可以包容最大量的文字信息,而不至于由于某个繁体字或日语什么的导致rss输出错误等不必要的麻烦。 |
13 javy 发表于 2006-12-13 17:14 问题原来不是编码的问题,不知道为什么xunu在遇到脚本后就会停止向下搜索,删除掉就可以了! |
14 tomokk 发表于 2006-12-18 01:42 Trackback来自 《关于UTF-8》从网上找的一些关于UTF-8的内容,主要是想知道这个编码对国外访问简体中文页面是否不会显示乱码。这篇文章对我的帮助很大,非常感谢。copy了大部分和部分回复……因为存的blog好像没有trackback的选项……晕……
|
15 Barrios 发表于 2007-01-12 09:09 你好,为什么我用utf-8编码,数库据在页面显示的都是乱码呢!我户Golive cs 2.0完成转的编码 |
16 自由勇 发表于 2007-01-12 11:49 我这里的转化工作量不大,可能用了不到两三小时的时间,更改了一些程序。 回Barrios,按照8楼的步骤,做这2个设置就没问题了。 |
17 上海网站建设 发表于 2007-05-30 20:33 关于网页utf-8编码显示问题 具体请看一下,下面的链接。 http://www.8qq.net/info/info_219.html |
18 cocaxl 发表于 2007-06-07 08:56 除了txt的中文文档之外还是都用utf-8吧, 手机上只能支持gb2312, 要是电脑用utf-8, 那每次存手机的时候还要转换一次编码, 甚是麻烦. 手机不看的文档还是支持utf-8! |
19 问题 发表于 2007-06-14 15:29 有感7楼,我发现用搜索引擎模拟器(ttp://tool.chinaz.com/Seo/Spider.asp) 搜索楼主网站时,确实是乱码一堆?!
|
20 utfx 发表于 2007-12-12 16:02 感觉还是二字节UTF16编码更具有长远意义,处理起来也更简洁快捷方便,UTF8编码方式感觉有些复杂混乱,很不爽; 也许是西方人自我感觉太良好,觉得unicode里边一个拉丁字母要用两个字节太委屈了,结果弄了个这种不尴不尬的UTF8,我觉得这只能算是过渡方案,未来最终还是要回到UTF16 |
21 Qtz 发表于 2007-12-17 22:48 实际上UTF-16也并不是简单两个字节就行了,真正的Unicode空间是四维256位的,用两个字节仅能表示65536个,这个连一些生僻中文也不能表示呢。许多程序宣称自己支持UTF-16都是仅仅考虑2个字节,没有考虑更多的字符表示了,这种偏见曾经造成了不少程序的严重漏洞和缺陷。虽然用2个字节表示的BMP(基本映射平面)对于多数拉丁字符和CJK(中日韩)的常用字就够了,但是为了表示更多语言的字符,还是需要将两个以上的字当一个整体来用,这样不久和UTF-8一样吗,所以认为UTF-16的的这种编码方式有长远意义根本站不住脚。如果真是那样的话,那干脆都用UTF-32算了,还要16干什么? 另外UTF-8的最大优点就是和ASCII兼容,这个省去了很多麻烦呢。 另外UTF-16的一个大问题就是不同的硬件平台有不同的字节序,像Intel是Little-endian,而PowerPC是Big-endian,也就是一个字(WORD)的两个字节前后顺序的问题。用UTF-16的好处是编写操作系统时能更方便一些(如果只支持BMP,就把所有的宽字符都认为是2个字节为单位的),但是不方便硬件移植,尤其是Internet这个大环境里,什么机器都有,强迫用一个字节序会造成不必要的麻烦。而且还要在传输前实现用标志表示,但是这个标志可能和其它编码中的某些字符冲突。如果当初Windows像Linux一样用UTF-8的话,记事本就不会把UTF-8的“联通”变成乱码了。 |
22 lisachu 发表于 2008-01-23 11:32 爱国就用UTF-8 哈哈 |
23 口袋茶叶 发表于 2008-04-01 21:43 请问您有没有日文的 UTF-8 码表?~呵呵~谢谢。 |
24 led display 发表于 2008-04-18 16:10 但是听说用gb2312对搜索引擎跟友好! 百度就是完全基于GB2312的啊! |
25 Qian 发表于 2008-05-07 15:01 所以说百度作为一个大的搜索引擎,导向有问题
但是听说用gb2312对搜索引擎跟友好! 百度就是完全基于GB2312的啊! |
26 UD03 发表于 2008-05-24 22:03 UTF-8 当然是把事情简单化。 国外很多经典的程序都用UTF-8的。 |
说明:请勿发送垃圾信息、垃圾邮件;本评论系统不支持HTML标签。(您的留言需要审核)
| | | |