<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>#raynix# &#187; unicode</title>
	<atom:link href="http://raynix.info/archives/tag/unicode/feed" rel="self" type="application/rss+xml" />
	<link>http://raynix.info</link>
	<description>Welcome to the real world, it sux, but you gonna luv it.</description>
	<lastBuildDate>Sat, 04 Sep 2010 07:51:14 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0.1</generator>
		<item>
		<title>Unicode编码中的简繁中文互转</title>
		<link>http://raynix.info/archives/522</link>
		<comments>http://raynix.info/archives/522#comments</comments>
		<pubDate>Thu, 30 Apr 2009 08:51:22 +0000</pubDate>
		<dc:creator>raynix</dc:creator>
				<category><![CDATA[Language!]]></category>
		<category><![CDATA[Opensource]]></category>
		<category><![CDATA[Python & Django]]></category>
		<category><![CDATA[Python]]></category>
		<category><![CDATA[unicode]]></category>
		<category><![CDATA[中文]]></category>

		<guid isPermaLink="false">http://raynix.cn/?p=522</guid>
		<description><![CDATA[现在简繁中文的转换已经不像从前那样，是gbk/ big5两种文字编码之间的转换，而是在同一个编码，Unicode，当中不同编码的映射。当然，简繁中文绝对不是简单的一一对应关系，有一对多的个别情况，例如简体的“后” 对应繁体的 “后”和“後”。行业词汇也有差别，例如大陆说“宽带”，而港台说“寬頻”；大陆说“操作系统”，而港台说“作業系統” 等等。 因此当我决定用Python程序将森海塞尔简体中文网站转换为繁体中文网站时，我的计划分三个步骤： 提取行业高频关键字，找到简体和繁体的对应，编成词典 利用现有的Python中文本地化工具包，将关键字之外的文字转换 请港台Freelancer人工校对，确保本土化 第一步，我的词典替换程序在此： #coding:utf8 import sys _dict = {'森海塞尔': 'Sennheiser', '耳机': '耳筒', '通讯耳机': '通話用耳機', '话筒': '咪高峰', '包耳式': '包圍耳殼式', '换能原理': '單元原理', '阻抑': '隔離', '便携包': '便攜袋', '质保': '保用', '带宽': '頻寬', '调制方式': '調節方式', '信噪比': '訊噪比', '杂散辐射': '雜散發射' } _dict_s2t = dict((k, v) for k, v in _dict.iteritems()) _dict_t2s = dict((v, k) [...]]]></description>
			<content:encoded><![CDATA[<p>现在简繁中文的转换已经不像从前那样，是gbk/ big5两种文字编码之间的转换，而是在同一个编码，Unicode，当中不同编码的映射。当然，简繁中文绝对不是简单的一一对应关系，有一对多的个别情况，例如简体的“后” 对应繁体的 “后”和“後”。行业词汇也有差别，例如大陆说“宽带”，而港台说“寬頻”；大陆说“操作系统”，而港台说“作業系統” 等等。</p>
<p>因此当我决定用Python程序将<a href="http://www.sennheiser.com.cn" target="_blank">森海塞尔简体中文网站</a>转换为<a href="http://www.sennheiser.com.hk" target="_blank">繁体中文网站</a>时，我的计划分三个步骤：</p>
<ol>
<li>提取行业高频关键字，找到简体和繁体的对应，编成词典</li>
<li>利用现有的Python中文本地化工具包，将关键字之外的文字转换</li>
<li>请港台Freelancer人工校对，确保本土化</li>
</ol>
<p>第一步，我的词典替换程序在此：</p>
<pre>#coding:utf8
import sys

_dict = {'森海塞尔': 'Sennheiser', '耳机': '耳筒',  '通讯耳机': '通話用耳機', '话筒': '咪高峰', '包耳式': '包圍耳殼式', '换能原理': '單元原理', '阻抑': '隔離',
'便携包': '便攜袋', '质保': '保用', '带宽': '頻寬', '调制方式': '調節方式', '信噪比': '訊噪比', '杂散辐射': '雜散發射' }

_dict_s2t = dict((k, v) for k, v in _dict.iteritems())
_dict_t2s = dict((v, k) for k, v in _dict.iteritems())

def translate2traditional(data):

    for k, v in _dict_s2t.iteritems():
        data = data.replace(k, v)
    return data

def translate2simplified(data):

    for k, v in _dict_t2s.iteritems():
        data = data.replace(k, v)
    return data

def test_dict():

    global _dict_s2t, _dict_t2s
    for k, v in _dict_s2t.iteritems():
        print k, v

    for k, v in _dict_t2s.iteritems():
        print k, v

if __name__ == '__main__':

    if len(sys.argv) &gt; 2:
        f = open(sys.argv[2], 'r')
        if sys.argv[1] == 's2t':
            print translate2traditional(f.read())
        elif sys.argv[1] == 't2s':
            print translate2simplified(f.read())
        else:
            print 'Wrong operation type.'
    else:
        print 'usage: python trans_dict.py [s2t | t2s] file.name'</pre>
<p>第二步，我利用的是<a href="http://code.google.com/p/pyzh/" target="_blank">pyzh中文工具包</a>中的fanjian.py完成。特别感谢pyzh项目组的全部成员和fanjian.py程序作者ne.manman和zsp007！</p>
<p>下面就交给香港的朋友了，希望不会累坏他:)</p>
<p>顺便说，Songbird很不错，有点山寨iTunes，那又怎样呢？毕竟Linux下面还没iTunes。</p>
<p><a href="http://getsongbird.com/" target="_blank"><img src="http://lh6.ggpht.com/_ZO8fi9o7nlg/SfbI1XAuY2I/AAAAAAAAA-4/Jh7xxolCcqk/s144/songbird.png" alt="" /><br />
Songbird</a></p>
<hr />
<p><small>© raynix for <a href="http://raynix.info">#raynix#</a>, 2009. |
<a href="http://raynix.info/archives/522">Permalink</a> |
<a href="http://raynix.info/archives/522#comments">2 条评论</a> |
Add to
<a href="http://del.icio.us/post?url=http://raynix.info/archives/522&title=Unicode编码中的简繁中文互转">del.icio.us</a>
<br/>
Post tags: <a href="http://raynix.info/archives/tag/python" rel="tag">Python</a>, <a href="http://raynix.info/archives/tag/unicode" rel="tag">unicode</a>, <a href="http://raynix.info/archives/tag/%e4%b8%ad%e6%96%87" rel="tag">中文</a><br/>
</small></p>
<p><small>Feed enhanced by <a href='http://planetozh.com/blog/my-projects/wordpress-plugin-better-feed-rss/'>Better Feed</a> from  <a href='http://planetozh.com/blog/'>Ozh</a></small></p>
]]></content:encoded>
			<wfw:commentRss>http://raynix.info/archives/522/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Foxmail 6 beta5与UTF-8的问题</title>
		<link>http://raynix.info/archives/92</link>
		<comments>http://raynix.info/archives/92#comments</comments>
		<pubDate>Fri, 11 May 2007 03:57:08 +0000</pubDate>
		<dc:creator>raynix</dc:creator>
				<category><![CDATA[Networking]]></category>
		<category><![CDATA[unicode]]></category>

		<guid isPermaLink="false">http://raynix.bjqnc.com/archives/92</guid>
		<description><![CDATA[这是我这几天遇到的问题： 邮件地址一般是 "姓名"&#60;xingming@xxx.com&#62; 但是如果姓名部分是中文，而且是UTF-8编码的，那么Foxmail beta5收到后就变成 ????????xingming@xxx.com&#62; ?部分是全部或部分乱码，但是这样的地址由于格式混乱已经无法回复了，只能重写。而我们并不是每次发Email都看一遍收件人地址对吧。一不小心发出去，就会给退回来，而普通用户肯定会被一堆出错信息弄晕的。 感觉这几年Foxmail有点不思进取了，不过还是希望Foxmail Team尽快加强对UTF-8的支持！ © raynix for #raynix#, 2007. &#124; Permalink &#124; 唉, 一个评论都没 &#124; Add to del.icio.us Post tags: unicode Feed enhanced by Better Feed from Ozh]]></description>
			<content:encoded><![CDATA[<p>这是我这几天遇到的问题：</p>
<p>邮件地址一般是<br />
"姓名"&lt;xingming@xxx.com&gt;<br />
但是如果姓名部分是中文，而且是UTF-8编码的，那么Foxmail beta5收到后就变成<br />
????????xingming@xxx.com&gt;</p>
<p>?部分是全部或部分乱码，但是这样的地址由于格式混乱已经无法回复了，只能重写。而我们并不是每次发Email都看一遍收件人地址对吧。一不小心发出去，就会给退回来，而普通用户肯定会被一堆出错信息弄晕的。</p>
<p>感觉这几年Foxmail有点不思进取了，不过还是希望Foxmail Team尽快加强对UTF-8的支持！</p>
<hr />
<p><small>© raynix for <a href="http://raynix.info">#raynix#</a>, 2007. |
<a href="http://raynix.info/archives/92">Permalink</a> |
<a href="http://raynix.info/archives/92#comments">唉, 一个评论都没</a> |
Add to
<a href="http://del.icio.us/post?url=http://raynix.info/archives/92&title=Foxmail 6 beta5与UTF-8的问题">del.icio.us</a>
<br/>
Post tags: <a href="http://raynix.info/archives/tag/unicode" rel="tag">unicode</a><br/>
</small></p>
<p><small>Feed enhanced by <a href='http://planetozh.com/blog/my-projects/wordpress-plugin-better-feed-rss/'>Better Feed</a> from  <a href='http://planetozh.com/blog/'>Ozh</a></small></p>
]]></content:encoded>
			<wfw:commentRss>http://raynix.info/archives/92/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
