Monday, December 13, 2004

浴血戰場中的「中國古代文明」

最近 Macworld 選出了 Unreal Tournament 2004 為 Mac 平台上的年度最佳遊戲。剛好我正是第一人稱射擊遊戲的愛好者,而且也擁有這款遊戲。這套遊戲的優點之一是它有中文界面,不過似乎得升級到新版本才能正常顯示中文。網路上還有更完整的中文化檔案可供下載,只是目前好像只有簡體中文的版本。

遊戲中有許多華麗的場景,有趣的是,其中有一個場景是以東方特色為主的,建築物內還隨處可見中國文字(請參考附圖)。只是這些中國文字有一些詭異的地方。例如,它將「中國古代文明」這個「名詞組」(noun phrase)寫在各個牌子或燈籠上,對我這個懂中文的人來說似乎沒什麼太大的意義。另外,就是燈籠上的文字是左右相反的,「中國古代文明」也只剩前三個字而顯得較無意義。而在牆上的那四個一組的藍色字雖然不太看得懂,但最大的問題是它經常是上下顛倒或左右相反的(圖片中較上方的四個字即與下方的四個字上下顛倒),這些都並不合理。而更怪的是遊戲裡說明這個場景是在「古代的朝鮮」,朝鮮用漢字不奇怪,但到處寫著「中國」兩字就比較怪異了。

這似乎顯示出做這些場景設計的人是不夠懂中文的,因而弄出了一些不盡合理的安排。這些文字的主要功能大概是為了營造出一種東方味道,對設計者來說這些文字裝飾的作用恐怕遠大於字義的表達。這讓我想起 Engrish.com 這個網站。Engrish.com 裡有許多來自世界各地(主要是日本)誤用英文的圖片,而其中許多令人摸不著頭腦的怪異英文之所以產生,常常也是因為文字本身的外型成為設計或裝飾的一部份,至於字義與語法的正確性反而不被仔細看待。 Fred 兄的抓包地帶討論區裡也有一些和台灣有關的類似例子。

不過在遊戲中,玩家們都在忙著置對方於死地,誰還管得了這麼多?

本文同步刊登於符號工作站


Saturday, November 13, 2004

希望猛虎不要變病貓

有幾位朋友能夠拿到蘋果提供的 Mac OS X 10.4(代號 Tiger)早期版本,因此提供了關於 Mac OS X 10.4 的中文環境方面的消息。有人說到在目前蘋果所釋出的 Tiger 預覽版本中,提供了較方便的繁簡中文轉換服務,也就是可以讓使用者利用「服務」選單來轉換繁簡中文,不過沒有提供快捷鍵。另外在繁體中文輸入法選單裡也有轉換為簡體字的功能,看起來應該是可以將輸入窗裡的字,在還未送出到應用程式之前加以轉換,不過將這樣的功能建立在輸入法中會有多少實用性還很難說。

另外 Tiger 中的輸入法也有了新的架構。各個中文輸入法現在不是包含在單一繁體中文輸入法中,而是各自獨立為單獨的輸入法而出現在輸入法選單中。在倉頡輸入法中使用者現在可以將動態提示視窗設定為直的或橫的。

看起來 Tiger 的輸入法做了相當程度的更動。但是有著嚴重問題的倉頡呢?很抱歉,有人表示在目前的版本中,倉頡的程式錯誤依然故我,完全沒改正。原來他們有時間東改西改,就是沒有時間把一個顯而易見的錯誤改掉。當然 Tiger 還在發展之中,但這項錯誤早應該在 10.3 的更新中就改正,本人也早已在今年初送出報告,結果在新版本的系統中只看到蘋果的相應不理。似乎碰到了中文(尤其是繁體中文), "Tiger" 就成了病貓、美麗的蘋果就成了爛蘋果。不相信?看看這張圖就知道了:


本文同步刊登於符號工作站


Saturday, October 16, 2004

Mac OS X 信件標題亂碼的解決之道

Mac OS X 自從升級到 10.3 後,所附的「Mail」電子郵件軟體就出現了一個怪問題。中文信件若未被認為是中文編碼而成為亂碼,使用者可以選擇 Message > Text Encoding (郵件 > 文字編碼)來選擇為中文編碼,內容即可正常顯示,可是糟糕的是信件的標題卻不為所動,不管如何更改信件的編碼,標題永遠都是亂碼。這在英文介面的系統裡尤其是個問題,因為編碼不詳的信件都會以預設的語言來顯示,而在英文介面下預設的語言是西方語系,中文信件自然就成了亂碼,需要更改編碼的機會也就多了。

一位朋友 Luke 發現解決之道。若您是以英文為作業系統及 Mail 的主要語言,那麼您可以開啟開機硬碟之下的 System/Library/Frameworks/ 這個檔案夾,並找到其中的 Message.framework,再打開裡面的 Resources,將 zh_TW.lproj 裡的 LocalizedDefaults.plist 取代 English.lproj 裡的 LocalizedDefaults.plist 即可。因為這個目錄無法任意更改,所以您最好有管理者的權限,並可能要把 zh_TW.lproj 裡的 plist 檔拷貝至桌面、再從桌面拷貝至 English.lproj 裡才能順利取代。

若在 Resources 裡沒有 zh_TW.lproj 這個檔案夾,也可以用 Property List Editor 來編輯 English.lproj 裡的 LocalizedDefaults.plist,並增加一項 NSPreferredMailCharset 的項目並將其值設為 big5 即可。若您也沒有 Property List Editor....,則請將該 plist 檔的內容用文字編輯器改為:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE plist PUBLIC "-//Apple Computer//DTD PLIST 1.0//EN" "http://www.apple.com/DTDs/PropertyList-1.0.dtd">
<plist version="1.0">
<dict>
<key>NSPreferredMailCharset</key>
big5
<key>SendFormat</key>
<string>MIME</string>
</dict>
</plist>

關掉 Mail 再打開,即會發現信件標題也會依所選語系來顯示了。以上方法適用於繁體中文信件,其他編碼的信件未能測試。

我不明白為什麼蘋果公司不立即解決像這樣的錯誤並發布軟體更新來讓使用者升級,我們似乎一定要等到下一次重大的系統升級(例如 10.3 -> 10.4)才有可能看到這類問題被解決。但是照以前的經驗來看,重大的更新都必須以相當的價格才能購得,而且竟然沒有任何升級價。換句話說,使用者必須付出昂貴的代價才能讓軟體的問題被解決,這顯然是極為不公平的。

本文同步刊登於符號工作站


Friday, September 24, 2004

我看注音文

注音文在台灣的網路上雖然廣為流傳,卻也引起許多人的撻伐。現在有許多網站明令禁止使用注音文,不少人對注音文更是痛恨得無以復加。不過除了無情的攻擊外,我們也可以看看注音文裡是否隱藏著什麼值得探討的語文問題。

注音文是用注音代替漢字,並且多半是把韻母去掉,只留下聲母,說穿了,就是只寫出一個字的注音中的第一個符號。不過除了比較極端的例子外,比較常見的用法是把ㄜ這個韻母去掉,因為許多表示聲母的注音符號在單獨念時本身後面就帶一個ㄜ,所以這對於閱讀文章來說還不至於造成嚴重的阻礙。例如「的」寫成「ㄉ」,「了」寫成「ㄌ」,都是應用得最廣的。

這樣的注音文令人想到日本的文字。現代的日文裡雖然經常用到漢字,但是那些只具有語法功能而無實質語意的虛詞,是只用假名來書寫的。例如標示主格的「が」、標示受格的「を」、標示來源的「から」等格標記都是用假名書寫。而早期漢字中用來表達虛詞的字,也多是由其他表示實詞的字假借而來的,例如「其」這個字本來指的是「畚箕」(象形),後來由於發音相同或相似,才借為書寫表示代詞的「其」,而代詞的語意算是較「虛」的。「或」字原是「國」之意,後來才轉為書寫虛詞的「或」一詞。現代文字中,「的」、「了」、「著」這些虛詞的韻母都是ㄜ,可是這些字都還有另一種韻母非ㄜ的讀法(ㄉㄧˋ、ㄌㄧㄠˊ、ㄓㄠˊ),並代表另一種語意較明確的實詞用法(用於「目的」、「了結」、「著火」等),我們可以看出這些虛詞的用字也是向實詞用字借來的。借字的根據,是發音的近似與否。

這樣看來,虛詞既無實質語意,在文字中似乎就較傾向於不用具表意功能的漢字來書寫,而多半用假名或假借這種表音的方式來書寫。而注音符號作為一種標音符號,用來書寫「的」、「了」這類虛詞也似乎是很自然的。

只是這樣說還是有點問題的。注音文的起源,多數人可能會認為主要是為了節省打字的動作。而且注音文省下的多半是韻母ㄜ,而中文裡虛詞的韻母也常常弱化為ㄜ,所以注音文才會剛好常常用注音代替虛詞。目前我們可能只能保守地說,注音文跟「用表音字書寫虛詞」的情形不謀而合,但這是不是代表現代中文的書寫,也有夾用純表音符號來書寫部份詞彙的傾向,還不得而知。

本文同步刊登於符號工作站


Wednesday, September 1, 2004

Google也懂中文拼音

最近發現廣受歡迎的 Google 網站,也接受以中文拼音來當作搜尋字串。只要在其簡體中文介面裡輸入拼音,Google 即會轉換為漢字,再讓使用者選擇是否要以被轉換後的漢字來做搜尋。例如,輸入「ping guo」來搜尋,Google 會提示「您是不是要找:蘋果」,這時點一下「蘋果」,即可用這兩個漢字來繼續搜尋。拼音的各音節可以分開,也可以連寫(例如:pingguo)。當然,他們使用的拼音是漢語拼音。在漢語拼音中,「ㄩ」的音有時是拼作「ü」,根據 Google 的說明,「ü」這個字母要以「v」代替。例如「綠色」要拼成 lv se。

我不太確定有多少人會使用這樣的功能。對於普遍缺乏拼音能力的台灣人來說,這可能是無用武之地了(這可能也是繁體介面的 Google 未提供類似功能的原因)。能用得上的,可能是那些住在中國大陸和新加坡、能說華語又使用漢語拼音的人了。當然,應該也有一些懂得中文的外國人會認為這是個方便的功能。但是有些使用者平常就使用拼音輸入法來打中文,我不知道這項功能對他們來說是否有很大的用處。

不管這項功能的使用率如何,這讓我們看到 Google 對於各種文字的支援還是有其用心之處的。Google 支援的語言之多令人驚訝,對於某些多語的國家常能提供多種語文的服務(服務對象甚至包括克林貢人和「駭客」)。而對於中文也提供了繁簡自動轉換及上述的拼音轉漢字的功能。照這樣看來,如果各國本土的類似網站沒有更多的創新,也許一時還很難跟 Google 相抗衡。

本文同步刊登於符號工作站


Friday, August 13, 2004

站不穩的字

相信大家都認識左方這個「出」字。這個字的筆畫大致是左右對稱的。當然,在楷書中由於橫筆都是由左下到寫到右上寫而略為傾斜的,所以嚴格來說有其不對稱的地方。但是在左邊這種方方正正的印刷字體中,其筆畫結構的確是左右對稱的。

但是我們再看看下面的這個「出」字。同樣是黑體字,卻又好像有點不一樣。其實下面這個「出」來自簡體中文字體,它最大的不同處就是在於最左下方的直筆畫一碰到橫筆畫就停住了,不像一般的「出」字(例如最上方的「出」),左方的直畫會往下延長而超過橫筆。

這樣的筆畫結構,使這個簡體中文字體裡的「出」變得相當怪異。因為這個字所有筆畫都是左右對稱,但卻出現一種例外:左下方的直筆未超過橫筆,右下方的直筆卻超過了。也因此,這個字好像「站不穩」,因為右下方少了支腳,似乎整個字就要往左邊倒。

為什麼簡體中文裡的「出」要設計成這樣呢?其實,這是一系列文字革新的產物。在中國共產黨主政後,除了推動文字簡化,還改變了傳統印刷體的筆畫。他們認為印刷體應該儘量和手寫楷書一致,以減少學習障礙。在「出」或「山」的楷書裡,第一筆是先寫一個直畫然後立刻繼續向右彎寫出橫畫,中間沒有間斷,全部只算作一筆。若是讓印刷體的第一筆超過橫畫,那麼看起來就像有間斷的兩筆了。因此,為了讓印刷體看起來符合連筆的樣子,字就被改成這個樣子了。

但這種做法不是沒有可議之處。因為這種直畫加上橫畫的連筆寫法,對於漢字的書寫來說是基本知識,我們也很難想像當「山」或「出」的印刷體被印成看起來像不連續的兩筆時,學習者就會跟著寫成兩筆。因為為了求書寫的順暢和方便,幾乎沒有人會在寫了這類的直筆後還把筆提起來,然後才繼續寫橫畫。

而印刷體本來就不等同於手寫體,有相當程度的差異是很平常的,講求設計上的整齊和對稱是天經地義的。在楷書裡,「山」或「出」這類字雖然右邊的直畫超出橫畫,而左邊的直畫卻沒有,但是楷書的橫畫都是由左下到右上傾斜,所以整個字的筆畫仍維持著某種均衡。而既然宋體和黑體的橫畫是作水平線的處理,那麼硬要在其他地方改成手寫式的外觀,恐怕就會造成結構的不平衡,怪異的字體設計也就因而產生了。

本文同步刊登於符號工作站


Thursday, July 22, 2004

一張會說話的舊光碟

在我手邊有一片 Mac OS 9 用的舊光碟,叫做「3D Talking Globe」,1997 年由一家叫 Now What Software 的美國軟體公司出版。顧名思義,叫出光碟的內容後,它會顯示一個地球,上面清楚地標明了世界各國的疆界及各城市的名稱,而只要將滑鼠游標指向一個城市,它就會以當地語言念出該城市的名稱。即使已經過了若干年,這個軟體的內容和概念對許多人來說仍應該是相當特別的。

而且 3D Talking Globe 也的確用了還算有點炫的 3D 的方式來呈現世界地圖,使用者除了轉動地球,也可以將地球大幅地放大,以看清楚各國大大小小的城市、甚至地形及河川。精細程度算是相當不錯的。

有趣的是當我們把滑鼠游標指向台灣的城市時,它會先後以國語和閩南語來發音 。只是,閩南語的發音人不知是哪裡找來的,他念的地名發音顯然有許多錯誤。例如,他把「嘉義」的「義」念成 i(ㄧ),但實際上「義」字應該念成 gi 才對。另外「屏東」的「東」他念成 tang(ㄉㄤ) ,但一般人是把「屏東」的「東」念成 tong。「台南」的「南」似乎被念成 lan(ㄌㄢˊ,不過聽得不很清楚),但實際上應該是 lam。 「桃園」的「園」則被念成帶鼻音的 iã(ㄧㄚˊ 帶鼻音),不知是哪裡的腔調???

除了台灣的地名以外,四川省的「雅安」也被念錯了。倒不是發音的問題,而是被念成「延安」了。不過這只是地名弄錯。像以上所提台灣地名發音的問題才是令人費解。看來我們在使用這類軟體時還是得小心點才好。除去這些問題不談,這張光碟還是非常有趣的。


本文同步刊登於符號工作站


Saturday, July 3, 2004

方音注音符號

在台灣,多數人都對注音符號很熟悉,不過卻很少有人知道,台灣的教育部也公布了專為方言而設計的注音符號。

目前通行的國語注音符號是為了作為標準語的國語而設計的。若要用於其他語言或方言,由於音韻系統的不同,自然必須修改或新創符號,才能合乎需求。在教育部公布的「方音符號系統」裡,有二、三十個新增符號,不過多半是由原有的符號改造而成的,也有些是把原有的符號縮小,以表示入聲字的韻尾。雖說是「方音」,但在公布的文件裡,顯然都只以閩南語為基礎。相關資料可以在這裡找到。

其實這些符號都已收錄於 Unicode,稱為 Bopomofo Extended。但很可惜地,市面上很少有 Unicode 字體會收錄這些符號。在網路上有少數字體包含這些符號,例如 Code2000 。這個字體雖是為 Windows 設計,但用於 Mac OS X 也應該沒有問題,只是裡面的字都挺醜的,字形甚至不盡正確。無論如何,裝好字體後,可以用這個網頁來測試一下。在 Mac OS X 下,還可以用「字元面板」選擇 Unicode,並在左方 Unicdoe Blocks 列表中選擇 Bopomofo Extended,即可觀看全部符號。

若真的不想裝字體,也可以下載 unicode.org 提供的PDF檔來觀看 Unicode 如何收錄這些符號。

雖然這套方音注音符號的使用並不算普遍,但在一些方言教學活動及辭典中,這類的符號仍被實際應用著。我們以前說過 Mac OS X 的簡體中文字體同時收錄了一些少數民族的文字。或許下一版的 Mac OS X 也應該把這些符號加入繁體中文的字體中。


本文同步刊登於符號工作站


Sunday, June 13, 2004

「神鬼傳奇」與古埃及文

神鬼傳奇」(The Mummy) 是一部挺有趣的美國電影。這部電影裡,有想發財的人,也有對古埃及歷史有研究的專家,當然,也有藝高膽大的英雄人物。他們共同前往一個埋藏無數寶藏的古埃及遺跡,並遇到了三千年前被下詛咒的木乃伊。

在劇中,有一個能解讀古埃及文字的人,用手指著器物上的文字,然後順利地將該段文字翻譯了出來。令我感到興趣的,是他閱讀的方向。

仔細端詳該器物上最上方的的文字,可以發現有兩個書寫方向。左半邊的文字,動物和人物的頭都是朝右,而右半邊的是朝左。根據今人的研究,古埃及文的書寫和閱讀的方向並不固定,有時是由右至左,有時是由左至右,而決定的因素,就是人物和動物的方向。若頭朝右,則必須由右至左讀,若頭朝左,則必須由左至右讀。

影片中器物上方的文字顯然有兩種書寫方向,左半邊既然動物朝右,就應由右念起,而右半邊的文字動物朝左,則應由左念起。不過劇中的「專家」在翻譯時,卻用手指著最左邊的字,然後慢慢地移向最右邊,顯然他一律都由左念起。這就與我們所認識的古埃及文書寫規則有所違背了。

看來那些電影工作者還要更考究一點,以免被我這種無聊的人抓包。

本文同步刊登於符號工作站


Friday, May 28, 2004

微軟辦公室二○○四

微軟公司終於推出了 Office 2004 for Mac。在台灣是定於六月上市。它過去幾個版本的中文相容性實在令人不敢領教,幸好這次終於與中文比較契合了。

可惜在玩過試用版後,還是發現 Excel 有中文方面的問題。Excel 裡的中文在拷貝到其他軟體裡之後都會變成亂碼。不過這情形只發生在拷貝到 Carbon 軟體時,若是拷貝到 Cocoa 軟體裡就沒問題。Excel 英文版及日文版都有這種現象。至於 Word 則沒這樣的問題。

若是使用英文版 Word,可能會碰到直排的問題,因為字會被不正確地轉九十度。另外使用者也無法用拖拉的方式把英文拉到中文字之間。不過這些問題在日文版裡都不存在。比方說在附圖中我們可以發現日文版的書寫方向選項比英文版多了一個:就是直排時文字不被轉動九十度。聽說英文正式版的使用者可以使用 Language Register 來解決前述英文版中的問題,而且也能增加日文版獨有的功能,像是加注音等。

不過,我還是會繼續用「文字編輯」(TextEdit) 來開啟別人寄來的 Word 檔。


附記:原來「OK」在日文裡是不用翻的。

本文同步刊登於符號工作站


Tuesday, May 18, 2004

終端機也把漢字變羅馬字了

上次我們提到在 Mac OS X Panther 裡,在為一個使用者命名時,系統會自動將漢字轉成日文的羅馬字。這次本人也發現,在終端機(Terminal)裡,電腦名稱也會被轉成日文羅馬字。

只要打開系統所附的 Terminal(在應用程式->Utilities檔案夾裡)或其他終端機軟體,就可以看到這樣的情況。右圖是我的 Terminal。因為我把自己的電腦命名為「阿傑仔的電腦」,所以就看到每行的提示文字成了:

aketsukomatodennou:~ rj$

顯然「阿傑仔的電腦」被硬轉成日文羅馬字了。原來我叫あけつこ。是不是很像女人的名字啊?

註:透明的 Terminal 還真有趣。

本文同步刊登於符號工作站


Saturday, May 1, 2004

Mac OS X 把日文變羅馬字了

>Mac OS X 10.3 裡有一項挺有趣的功能,可以把日文漢字自動轉成羅馬字。

請從左上角的蘋果選單裡選擇「系統偏好設定」 (System Preferences),然後點一下「帳號」。接著按左下角的加號來增加一個新的帳號,並在右方的「名稱」欄位中打入一個名字。我們在此打入「柳澤」(對不起,柳澤先生,借一下當例子 :P),然後按 Tab 鍵把游標移到「簡稱」這個欄位,就會發現「柳澤」的羅馬拼音「yanagisawa」被自動加到「簡稱」欄位裡。這算是一個對日本人來說很方便的功能。不過為什麼簡稱就要轉成羅馬字呢?因為一個帳號的簡稱只能包含羅馬字和阿拉伯數字。

有人可能會認為把漢字轉成拼音沒什麼了不起的。敝人也寫了一個小軟體,可用來將漢字轉成中文拼音。不過在國語裡,漢字的應用「大致上」還是一字一音的(當然也有很多例外)。但在日文裡,一個漢字對應很多個不同讀音的情況是很明顯的。而日本姓氏的念法更是千奇百怪,常常沒什麼規則可循。所以 Mac OS X 顯然具備了一個較完整的對應表,才能做到自動轉譯的功能。(不知是否和輸入法有共用的關係?)

當然站在中文使用者的立場,對於這種只適用於日文而無法支援中文的情況會有點抱怨。不過在現實上,中文的拼音種類多寡、 大眾運用拼音的傳統,都可能和日文不盡相同,所以也不一定能要求比照辦理。只是一般的中文使用者若發現自己的名字被轉成日語發音,可能頭上要打一個大問號。

後記:「柳澤」的「澤」在日文中通常是寫成另一個簡體的字型,但是打成「澤」仍然可以轉譯,挺有趣的。

本文同步刊登於符號工作站


Thursday, April 15, 2004

影像:海邊的告示牌

我們曾經說到異體字的問題。有些異體字是因為部首位置(或者說是聲符和意符的相對位置)的不同而產生的。像是「峰」與「峯」這兩個字都是由「山」與「夆」組成的,不過相對位置並不同,只是到頭來仍可當成同一字來用。但並不是說聲符和意符相同的字就可以算成同一字。像「暉」和「暈」兩字雖然組成的部件都一樣,但彼此並非異體字的關係,而是不同的兩個字,其讀音和語意都不相同。

拜 Unicode 之賜,這篇文章可以打出一些不被視為「正字」的異體字(例如「峯」字)。右邊這張照片裡的「㟁」字顯然是「岸」字的異體,Unicode 也收錄了這個字。

至於這張照片在哪裡拍的呢?答案是:綠島。照片裡的人顯然十分大膽,無視於告示牌上的警語,正靠近一個被認為具危險性的環境...。

本文同步刊登於符號工作站


Wednesday, April 7, 2004

影像:台南的藏廟

這張照片也是在台南拍的。這是一個位於台南市郊區的藏廟。在高處寫著一行藏文和一行英文翻譯。

最左方的༄༄།不代表任何的詞,只是句子開頭的標記。各音節之間是以點隔開。第一個音節གངས་直接用羅馬字轉寫是 gangs,是「雪」的意思,第二個音節དཀར་轉寫為 dkar, 是「白」的意思。至於後兩個音節དགོན་པ་是一個詞,轉寫成羅馬字為 dgon pa,是寺院的意思。

不過我們對照英文,會發現上述羅馬字轉寫和英文裡用的拼音略有出入。這是因為 gangs 一詞雖然在文字中記出了 s 的音,但這個屬於「再後加」的 s 在實際語言裡卻不發音,只對聲調有影響。而 dkar 一詞裡的 d 屬於「前加」,在這裡也不發音。

在過去的一篇文章裡我們曾經說到 Mac OS X 10.3 已經解決了藏文元音符號不能正確地加在輔音字母上的問題,不過 Safari 瀏覽器在顯示本篇文章的དགོན་པ་這個詞時, 卻仍不能在正確的位置上顯示元音符號(正確位置請參閱照片裡的文字)。只是在「文字編輯」(TextEdit) 裡這類元音符號的位置還是正常的,所以大概在一般的 Cocoa 文字編輯軟體裡是沒問題的,但在 Safari 瀏覽器和 Carbon 還有問題。

*要正常閱讀本網頁裡的藏文,您必須安裝 Unicode 藏文字體。


本文同步刊登於符號工作站


Tuesday, March 23, 2004

我被 Panther 的倉頡輸入法耍了

這兩天我被 Mac OS X 的倉頡耍了。在前面的一篇文章裡我們討論過 Mac OS X 10.3 Panther 裡的倉頡輸入法存在些許多令人發狂的問題。而這次使用它時,我不是打出亂碼或打不好字,而是被它愚弄了一番。話說本人在 Google 用一個包含「顏」這個字的名詞來搜尋網站時,竟然發現找不到東西,或只能找到一兩筆資料。我很確定我搜尋的詞不至於冷門到這種令人心寒的地步,所以心想 Google 竟然也有秀逗的時候。

不過我仍然不太願意相信 Google 會出這種問題。在試著增加字詞來重新搜尋幾次後,Google 告訴我繁體中文的網站都沒有符合我的搜尋條件的,反倒有不少日文網站符合條件。這使我想到:我該不會用到了什麼日本才會用到的漢字吧?於是我把我在 Google 打的「顏」給拉到「字元面板」裡,發現有兩個很相似的「顏」,糟糕的是我打出來的那個「顏」是一個未收錄於 Big 5 的字 。真正的 Big 5 編碼的「顏」是它左邊的那個。

我打「顏」這個字時,是輸入「卜竹一月金」的倉頡碼,然後按空白鍵。之後螢幕上出現兩個同碼的字可供選擇,第一個是「頻」,而第二個是「顔」。這時我當然是按下 2,並且也以為自己輸入了一般的「顏」字。但是這個字其實是一個日文的「顏」,而一般繁體中文網頁用的「顏」則是 Big 5 所收錄的,它們兩者雖然很像,但在字形上略有不同,在 Unicode 裡也被視為不同的字。我用一個日文的「顏」去搜尋繁體中文的「顏」,自然是找不到東西了。至於 Big 5 的「顏」到哪裡去了呢?為什麼在打倉頡時沒有列出來?在試驗之後我發現它必須輸入「X卜竹一月」的倉頡碼,也就是在前面加一個「X」,才能被打出來。

為什麼用倉頡輸入法會打出日文專用的「顏」呢?因為在 Mac OS X 10.3 Panther 裡的倉頡輸入法支援了 Big 5E 這種編碼,因此除了可以打出 Big 5 裡的漢字,還可以打出 Big 5E 所支援的各種罕用字、簡體字、異體字、和日文漢字等。

我們可能還想問一個問題。既然這兩個字這麼像且彼此相通,為什麼系統不當把它們成同一個字來處理呢?因為 Big 5E 為了能轉換到 Unicode,在漢字的收錄上是以 Unicode 為根據。而 Unicode 在收錄漢字時,只要各個漢字在字形上有差異,就把它們當做不同的字,並各自給予不同的內碼,而不管它們是否在字音、字義、和實際用法上可能根本沒有差別。

看到這裡可能有人會說,這種打錯字的情形應該是編碼本身的問題,而不能歸咎系統倉頡輸入法。但是事實上 Panther 還是要負很大的負任,因為既然兩種「顏」它都支援,而且兩者的倉頡碼都一樣,那麼在使用者輸入「卜竹一月金」並按空白鍵後,兩種「顏」都應該出現讓使用者選擇,而不是只有其中一個會出現供選擇,另一個卻非要在倉頡碼前加一個「X」才能打出。更何況它列出供選擇的根本竟是一個平常在繁體中文所不採用的日文漢字。在兩者字型這麼相似的情形下,自然會造成使用者莫大的困擾。

本文同步刊登於符號工作站


Saturday, March 13, 2004

影像─滿文碑

這次只想和大家分享一張照片。這是一年多前所拍的一個滿文碑。你可以從照片裡隱約看到直寫的文字。可能會有人認為這不是在台灣拍的,因為滿文碑似乎和台灣八竿子打不著。不過這個碑的確存在於台灣,並且是位於台南的赤崁樓。

據說這些赤崁樓旁的石碑是清廷在乾隆年間平定林爽文事件後,由皇帝所賜的。共有四座滿文碑、四座漢文碑、及一座滿漢合刻的碑。每個碑都各立在看起來像烏龜的動物石像上。這些石像雖然看起來像烏龜,不過據說其實是一種叫贔屭 (ㄅㄧˋ ㄒㄧˋ) 的動物。

至於碑上到底寫些什麼呢?因為我還沒發現哪裡有這些碑的相關釋文和翻譯,所以我也沒辦法提供了。

這次先說到這裡。下次有其他的發現再與各位分享。


本文同步刊登於符號工作站


Sunday, February 29, 2004

字元面板的「相關字元」功能

漢字裡有所謂的異體字,也就是某些漢字的字形雖然彼此相異,但在意義和發音上卻都是相同的,或者說它們代表的語言中相同的詞或詞素。異體字的成因很多,主要可能是因為這些字是在不同的時間或空間被創造出來,或一種字形在演變後有了多種變體,但彼此仍是相通的。而您可能沒有想到,在 Mac OS X 裡就有類似異體字查詢的功能!

請在輸入法選單選擇「顯示字元面板」,若你是使用 Mac OS X 10.3 Panther,則也可在「編輯」選單選擇「特殊字元」,之後字元面板就會出現。在面板裡打開左下角的「字元簡介」(Character Info) 可以看到目前所選字元的資料。然後請打開「文字編輯」(TextEdit) 或其他文字編輯軟體。在這裡我們在 TextEdit 裡打入「峰」這個字,並用滑鼠把這個字選取起來,然後拖曳到字元面板裡字元簡介下的框框裡,這樣字元面板就會選取「峰」這個字並顯示出它的字形及相關資料。此時在「相關字元」這個欄位裡就會顯示出目前所選字元的相關字元 (related characters)。在這裡我們可以看到「峰」有「峯」這個異體字。這兩個字是很典型的異體字,其間的差異只在部首與偏旁的組合方式而已。其他像「裡」與「裏」、「略」與「畧」、「夠」與「够」都是類似的例子。

另外有些異體字是因為對字義的標示有不同的做法而造成。像「棋」與「碁」都是指下棋的棋,但造字者所注重的材質不同(木頭與石頭)。其他像「耕」與「畊」、「礦」與「鑛」也是類似的例子。而鱉則似乎被當成三種動物(另外「蟞」字似乎也可相通):

有時我們在閱讀日文時,若是遇到不認識的日本式漢字,也可以利用這個功能。例如把「渋」這個字拉到字元面板裡,就可以知道他相當於我們所使用的「澀」這個字。「渕」是什麼字?字元面板會告訴你就是「淵」這個字。

不過相關字元的功能並不限於異體字。像繁簡體的對應、中文數字的大小寫及特殊符號也可查到。以下是一些好玩的例子:

你是否也找到什麼有趣的例子?


本文同步刊登於符號工作站


Saturday, February 21, 2004

從 Mac 使用者的角度看閩南語拼音的制定

許多人對於中文的拼音爭議都不陌生,但是其實閩南語的拼音系統更是百家爭鳴。教會羅馬字又稱為「白話字」,是最通行的閩南語拼音系統。不過許多學者都提出自己的方案,其中不乏一個人提出好幾套的,所以閩南語拼寫方式之多令人咋舌。

教會羅馬字不被採納的理由往往是電腦打字不方便。因為其標示聲調的方式,是在主要元音符號上附加符號(例如 ê),因此以英文為主的個人電腦系統就無法勝任。另外,教會羅馬字的拼音方式也有缺乏一致性的問題。其不送氣舌尖塞擦音在不顎化與顎化時是寫為兩種符號:ts, ch,而送氣舌尖塞擦音無論在顎化或不顎化時卻都只寫為一種符號:chh。

由於拼音種類繁多,台灣語文學會制定了「台灣語言音標方案」,並經過教育部公布,而成為一種標準。這個方案也改正了前述教會羅馬字裡的問題。而其另一大特色,就是它為了推廣使用,而只採用一般電腦能處理的符號,實際作法如下:

  1. 聲調都用數字標在最後,不再給字母「戴帽子」。
  2. 表示鼻音成份的小n(字縮小標在音節的右上方)也改寫為兩個一般的 n。
  3. 教會羅馬字裡有一種 o 右上方有一點,這種符號一律寫成兩個 o。

由此我們可以看出制定者的苦心。他們排除所有電腦難以處理的符號,來減少推廣及使用上的困難。而這套方案若能成為普遍的標準,閩南語拼音系統的亂象就可以統一起來。制定的學者辛苦的付出是無庸置疑的。

不過我也想表達一個觀點,就是這套拼音實在太遷就一般的電腦,造成處處受限的現象。這看在 Mac 使用者眼裡尤其奇怪,因為 Mac 早就可以處理那些有附加的元音字母。只因為 PC/Windows 過去對於處理中英文以外語言的拙劣,就把聲調符號就寫為一個個的數字,這種做法是有討論的空間的。

而從學術的角度來看,為了遷就電腦而把一些原非音段的成份寫為一個個的字母,會造成學習的困擾。例如鼻音應該是元音的附加成份或是整個音節的特徵,它本身不是任何一種獨立的輔音或元音,在音節後方寫出兩個n會使人以為該音節在最後存在著某種音段地位的語音,在拼寫時也有機會造成混淆。我也的確看過學習者對於這種拼法的困惑。

因此我建議任何一種拼音的制定者都可以配合電腦技術的進步而對拼音方式做檢討,並把其他的個人電腦系統納入考量,而非受到單一系統的桎梏。當然完全遷就電腦的做法的確有利於拼音方案的推廣,但是我們也可以思考一下,我們是否應該制定出一套最適當的系統,再讓科技來遷就我們,還是要讓人類的文化被應該為人類解決問題的電腦給限制住了。

本文同步刊登於符號工作站


Thursday, February 12, 2004

略談文字直寫與直排


































































































































































 

 


































































 

 







滿




























































































































































































































































































































使














































































































































































































 

 















































 

 


本文同步刊登於符號工作站


Saturday, January 31, 2004

令人抓狂的 Panther 倉頡輸入法

Mac OS X 升級到 Panther 之後,支援了 HKSCS 編碼,這種編碼與 Big 5 相容,但是支援許多 Big 5 不支援的漢字以及中國大陸所頒訂的簡體字。在 Panther 裡,使用系統所附的倉頡輸入法就可以打出這些原本打不出的字,比方說,用「田一土戈」可以打出簡體的「国」這個字。

但新版的倉頡輸入法卻充斥著嚴重的程式錯誤(也就是 bug)。在輸入一組倉頡碼並按下空白鍵後,只要該組倉頡碼對應超過一個字(也就是所謂的重複字,多個字的倉頡碼正好相同),再緊接著輸入另一個字就會出現問題。情況可能有下列幾種:
  1. 出現亂碼。還好通常在一連串亂碼後,按下 return 鍵,正確的字仍會被輸入到文章裡。
  2. 不會出現亂碼,但不選字就無法繼續打字,不會自動選取第一個字。
  3. 不會出現亂碼,但不選字而繼續打字時,打的倉頡碼不會顯示出來。
  4. 花很長的時間讀取怪異的字元。
  5. 文字消失。例如打一個逗號,不選字,再打兩個其他的字,這兩個字的第一個字會消失,其前方也留下一個半形的逗號,而非應該打出的全形逗號。
  6. 有時出現亂碼後,若不理會亂碼繼續打下一字而此字的倉頡碼打錯,則可能無法用 delete 鍵將之前所打的碼(包括亂碼)刪除。此時使用者可能會先按 return 鍵先將已打的文字(通常是亂碼)輸入文章,但輸入後繼續打字就可能會發生打出的字不出現在游標的位置,或甚至導致正在使用的應用程式當掉。(通常是 Carbon 程式。)
  7. 有的字根本打不出。例如在許多 Carbon 程式裡打「卜竹一月金」然後選 2 也無法打出「顏」這個字。

以上情況可能在 Cocoa 程式較不明顯或不會發生,但在許多 Carbon 程式裡就經常出現。

另外,對於重複字的處理也存在著不一致的現象。在輸入有重複字的倉頡碼時,有時其重複字會全部列出來讓打字者選擇,有時卻又不列出,而必須由打字者在倉頡碼最前方加打一個「X」(重)來打出。

可以想見,由於此版倉頡輸入法支援非常多的繁簡漢字,因此有更多的字具有相同的倉頡碼,而上述的 bug 就成了極端擾人的問題。

還有,若是按 shift + ~ 再按 tab 來叫出符號表,並且按數字鍵選擇一個符號時,在 Cocoa 程式裡實際打出的是其他不相干的符號;而在 Carbon 程式裡,這些符號會被下一個字覆蓋掉。

這就是蘋果給我們的倉頡輸入法。它傷害了我這個倉頡輸入法使用者對蘋果產品的信心。

本文同步刊登於符號工作站

Monday, January 26, 2004

蘋果網站的多國語言文件

以色列的蘋果電腦網站。兩種不同書寫方向的文字混合在一起。
很多人都知道 Mac 有著極佳的多國語文支援。在蘋果電腦的開發者網站上,就有一篇關於電腦多國語文處理的文件。裡頭詳細地介紹了世界各種文字系統的特性,以及在電腦處理時可能遇到的問題。您可以點這裡來閱讀這篇文章。

根據這篇文章的介紹,電腦處理各種文字系統時必須解決許多問題,像是書寫方向,斷詞,排序,連寫,文字樣式,數字與日期格式等。電腦為了支援多國語文,必須為每個文字系統提供獨特的支援,而且更要考慮如何將多種不同文字系統夾雜顯示在同一篇文章裡。

這篇文章顯示蘋果公司對於多國語文的處理相當用心,而事實上從多年前, Mac 的多國語文支援就相當不錯。過去中文版 Windows 只能顯示中文和英文,不但不能處理中英文以外的各種文字系統,甚至連一些特殊羅馬字母都不能支援。像德文的 ß 和其他西歐文字中具有附加符號的 é 和 ñ 等字母都會成為亂碼。而相形之下, Mac 從 System 7 起就有相當優秀的多國語文支援,不但能顯示和輸入各種文字系統,也能將由左寫到右的文字(像英文)和由右寫到左的文字(像阿拉伯文)並排在同一篇文章裡。但是蘋果公司似乎從來不曾大力宣揚這項比 Windows 優越許多的功能。

本文同步刊登於符號工作站


Friday, January 9, 2004

多語文的簡體中文字體

Mac OS X 提供了極佳的多國語文環境,能支援許多種文字。而從 Mac OS X Jaguar 以後,簡體中文字體除了支援 GBK 碼裡的簡體字和繁體字外,也支援了其他幾種在中國境內使用的文字,包括蒙文、藏文和彝文。想看到這些文字,您可以從輸入法選單裡選擇「字元面板」,即可打開字元面板。 若使用的是 Mac OS X Panther,也可在「編輯」選單裡選擇「特殊字元」。

打開字元面板後,請在最上方的彈出式選單裡選擇 Unicode。然後您會在左方的列表裡看到各種文字或符號的名字。選 Mongolian 即可看到蒙文,選 Tibetan 可看到藏文,選 Yi Syllables 可看到彝文。

蒙文是一種從左至右直寫的文字,一個詞裡的每個字母都是連寫的,因此在一般只能從左向右橫排的文書處理軟體裡是無法正確地打字及顯示的。而蒙文的每個字母在詞首詞中及詞尾都可能各有不同的寫法,由於目前系統未提供適當的輸入法,因此打字也較不方便。

至於藏文在 Mac OS X Jaguar 裡雖然已經支援,但表示元音的附加符號無法正確地附加在輔音字母上。這點在 Panther 裡已經解決。

彝語是一種用於中國西南地區的語言。目前的彝文是一種音節文字,即每個符號代表一個音節。若您對音節文字的概念不熟悉,可以參考日文的假名,因為假名就是一種音節文字。不過彝語裡獨特的音節遠比日語多,因此必須使用更多的符號。

說到這裡我們可以看出 Mac OS X 的簡體中文字體的確還算不錯,發揮了 Unicode 的長處,對多種漢字和非漢字都提供了支援。繁體中文環境也應該多加點油了。