簡體版 繁體版

| 首頁線上求助 | 聯絡太奇 | 網站地圖 |

虛擬主機郵件代管網址註冊簡繁互轉網頁設計網站樣板網路行銷資料庫主機

服 務 項 目





 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


 

繁簡體中文轉碼系統比較
 

文化的交流,資源的互通經過網際網路來傳達是對兩岸三地都非常有利的事情。然而,現在中文網路發展的現狀卻有點奇怪。事實上幾乎全部的網民都只局限於瀏覽使用自己所習慣使用的內碼字體的網站。比如,一般的大陸人會習慣於使用新浪、sohu這樣的中文門戶,卻很少問津在台灣同樣著名的Yahoo網站。除了網站在不同地區投入的宣傳力度不一樣的原因之外,我們認為文字上的障礙是一個致命的因素。試想,如果一個大陸人在瀏覽一個台灣網站時,看到的完全是平時所熟悉的簡體中文字,那麼被接受的幾率一定會大得多。因此,「兩岸通不通、先用太奇繁簡通」。

| 認識太奇簡繁通 | 產品比較 | 設定教學 | 常見問題 | 客戶列表 |

 

 
太奇簡繁通中文轉碼系統需求分析 (1) (2)

繁簡文字的差異

大陸採用的是gb2312內碼的中文字,台灣、香港及部分海外華人地區採用的是繁體中文big5碼的漢字。

繁體和簡體字的寫法有很大的差異。跟據信使網路繁簡通®開發前的市場調查,大陸對繁體字的辨認能力會比台灣人或香港人對簡體字的辨認能力強一點。這得益於中國大陸20年的對外開放,部分沿海地區的大陸人對繁體字已經沒有障礙。但是,對於大多數大陸人來說,閱讀繁體字依然存在障礙,特別是一些常用的香港字,根本讀不出來,更不用說了解其意思。

台灣人讀簡體字的障礙會更大一點。長期在港臺聊天系統中浸泡的人就會知道,大部分台灣人或香港人對異型簡體字幾乎不認識,除了部分是完全同型的之外,其他字結合上下文連蒙帶猜也只能讀對50%左右。這種情況是大陸網站所料不及的。因此,絕大多數的大陸網站實際上完全放棄了海外繁體用戶,卻連自己都不知道。 中文繁簡體轉換有多難?

繁簡轉換如果要做到100%精確,實際上是一個非常複雜的工作。根據轉換的精確性,大概可以分成4個等級:

  1. 字符碼表一對一映射。
  2. 對於一對多單字,根據詞語識別進行轉換。
  3. 對詞語表達方式差異的轉換。
  4. 根據上下文的詞彙翻譯。

等級1: 內碼映射

其轉換機制是按照內碼字符映射表,在簡繁轉換時,用GB2312內碼把Big5內碼替換掉,在繁簡轉換的時候就反過來。例如,GB 2312-80 0xB9FA 代表簡體字國, 簡繁轉換的時候就把它替換成0xB0EA 對應繁體BIG5碼的國字。根據實驗證明,如果按照字符的轉錯幾率來統計,對一般性質的文本,該處理方式可以達到98%的準確率。但其弱點是由於簡繁字體並非一對一的關係,因此忽略掉一些其他較不常用的字。

以下是一個一對一字符內碼映射表的例子:

簡體源 內碼GB(EUC) 繁體目標 BIG5 其他可能
B3F6 A558
B7A2 B56F
B8C9 A47A
B0B5 B774
C0EF B8CC
D5F7 BC78
C3C5 AAF9
CCC0 B4F6

轉換2: 一對多關係的字根據詞語識別轉換

對於一個單字應該翻譯成在當前有可能的異種內碼中的哪一個,我們可以根據該字所在的詞彙來決定。比如,下表:
簡體詞語 繁體詞語 拼音 英文意義
tou2fa0 hair
te4zheng1 characteristic
chu1fa1 start off
gan1zao4 dry
an4li3 secretly
qian1li3 long distance
qiu1qian1 a swing

在上表中,頭髮與出發的“發”字在簡體中是同一字型的,但繁體中卻不一樣。這樣就可以根據“發”字所在的詞彙來對該字進行準確的轉換。如果是頭髮就翻譯成“頭髮”,如果是出發就翻譯成“出發”。

轉換等級三 繁簡詞彙表達方式不同之轉換

有一些詞,在繁體與簡體用戶有不同的表達方式,下表顯示了一些詞彙表達方式差異的例子:

英文 簡體表達方式 中文拼音 繁體表達方式 中文拼音
bit wei4 wei4yuan2
byte zi4jie2 wei4yuan2zu3
CD-ROM guang1pan2 guang1die2
computer ji4suan4ji1 dian4nao3
database shu4ju4ku4 zi1liao4ku4
file wen2jian4 dang4'an4
information xin1xi4 zi1xun4
Internet yin1te4wang3 wang3ji4-wang3lu4
software ruan3jian4 ruan3ti3
week xing1qi1 li3bai4

轉換4: 根據上下文對詞彙翻譯

有一些詞需要根據上下文才能夠準確地決定如何翻譯的,比如在中國大陸的語言習慣中,「文件」可以是通常意義上的「文件」,也可以表達計算機磁片中存取的「文件」(file)。但是在繁體用戶的語言習慣中,這兩個東西就是分別用兩個詞來表達,通常意義上的「文件」和在電腦磁片中保存的「檔案」。

該層次的翻譯需要根據上下文的意思對文章進行斷句或分析。因此,是屬於繁簡互譯中最難做的,而且消耗的系統資源也最大。

太奇簡 繁通中文轉碼系統需求分析(2)

 

   :關於太奇   :   參觀機房   :   與我們聯繫   :   付款方式   :   申請流程   :   7天不滿意保證退款政策   :   隱私權政策   :
太奇數位科技股份有限公司 Copyright 1999-2003 All Rights Reserved 最佳瀏覽解析度 1024x768
公司電話: (02)2835-7080 傳真:(02)2835-8631 電子郵件:
service@taich.com.tw
地址: 111 台北市士林區福華路141巷8號1樓