Wednesday, December 14, 2005

有待改進的 Mac 繁體中文字體

日文ヒラギノ字體的三種粗細

前陣子看到 Linux 圈有人發起要求改進 OpenOffice.org 的中文字體,以正確顯示粗體及斜體的運動。看看 Mac OS X 內附的中文字體,其實也有相同的問題。 不知道為什麼 Mac 圈沒有這樣的活動,因為 Mac 的中文字體也實在不怎麼樣。雖然過去幾年 Mac OS 已經演進到大量使用文字柔邊效果的 Mac OS X,但繁體中文字體幾乎沒有較大的變化或改進。除了和 Linux 一樣沒有粗體、斜體外,也有缺乏行距的問題。

在粗體的問題上,若是比較日文「ヒラギノ角ゴ」 有三種粗細(W3、W6、W8),就會發現只有一種粗細的繁體中文黑體實在落後日文一截,至於明體的部份,日文的ヒラギノ明朝體有 W3、W6 兩種粗細,繁體中文卻只有一種非常細的儷宋體。中文字體的不足,除了讓使用者在打字時沒有粗細可選以外,也影響網頁的呈現。例如中文網頁的粗體標記 <b> 或 <strong> 可說是完全失效,讓有意為文字加入變化的網頁製作者白費苦心。另外由於儷宋體太細,有時瀏覽器預設使用「儷宋Pro」,結果文字就會變得非常模糊難辨,而若是使用日文明朝體,即使較細的W3也相當適合螢幕顯示。

日文字體行距(上)與繁體中文字體行距(下)
至於中文是否應該斜體,就還有些爭論了,畢竟羅馬字的斜體不單只是把文字弄歪,而中文並沒有完全等同的傳統。至於行距,只要比較儷黑體與ヒラギノ,就可以發現日文是留了某個距離的預設行距,而中文並沒有,因而所有的行都擠在一起。

有趣的是,在 Mac OS X 的 Unicode 架構下,大部份的繁體中文漢字已被收錄於日文字體之中,只有少數字(如「查」、「啟」等字)未收錄。既然這樣,而且日文字體的表現又較好,如果要翻新中文字體,也許蘋果公司不必另做或另買一套中文字體,而可以廢除現有的繁體中文字體,把日文字體中缺字的部份補足來做成一套新的中文字體。如果蘋果公司不願付出太多成本的話,這也許是個經濟又能解決問題的方法。

不管這個問題可以怎麼解決,還是需要使用者向蘋果公司反應,才有可能受到重視。只是要反應這樣的問題時,很無奈的是會面對不知該向誰反應的狀況。台灣的蘋果公司似乎不理會也沒有權限處理這樣的事情。而到美國 Mac OS X Feedback 網站直接反應,就怕意見淹沒在眾多信件中,而且以英語反應也不是這裡多數人拿手的事。蘋果的 Developer 網站裡的 Bug Reporter 應該是比較能下情上達的,而且可以知道他們是否已在處理問題,只是需要開發者的帳號。如果願意,上述提到的管道還是都可以試試。

本文同步刊登於符號工作站


Sunday, November 20, 2005

維基正音班

最近發現英文的維基百科上有全套 IPA 符號的示範發音。

IPA (International Phonetic Alphabet)是語言學家慣用的語音符號,除了整個 IPA 符號表可以在維基上找到,每個符號都可以點選然後播放出示範發音。由於每個語音都有非常詳盡的介紹,包括發音部位、發音方法、清濁、氣流等細節,所以研究語音的人可以很快查到有用的資料,並運用示範發音做進一步的分析或學習,對不懂語音學的人,也可以試著了解各種不同的語音聽起來是什麼樣子,尤其網站上還指出各個語音會出現在哪些語言裡,所以對於正在學習外語的人也可能有些用處。至於示範發音的正確性我認為是很高的。

對於我這個讀語言學的人來說,最大的驚訝在於這類知識取得的普及性和方便性。當然,即使網路這麼方便,一般人可能也不太會去接觸這類資訊,不過比起語言學的書籍難以在市面上買到、語音學專業機器是如此昂貴、想買語音示範CD必須向國外專門機構訂購等情形來說,已經不可同日而語了。如果以前在準備考試時有維基百科,我的分數大概會好看一些吧。

不過維基網站上的聲音檔多半是採用 Ogg 格式,對 Mac 來說算是較不方便。我的 Mac 上只有 Audion 這個免費軟體可以播放它,而且速度還會變得太快,必須打開 Console 加上減速的效果才能正常聆聽。另外,觀看 IPA 介紹網頁之時,可能也是測試自己電腦顯示特殊符號能力的時候。

本文同步刊登於符號工作站


Sunday, October 16, 2005

Mac OS X Tiger 的倉頡輸入法

Mac OS X 升級到 10.4 (Tiger) 之後,中文環境也有了一些變化。有些變化是不錯的改進,有些則令人不以為然。

在 10.3 的倉頡輸入法中,輸入碼重複的字經常出現問題,嚴重時甚至會使程式掛掉。在 10.4 中,雖然重複字終於不再出現亂碼,但這個問題只被解決了「一半」。之所以說是一半,是因為有的字在重複時可以在打下一個字時自動輸入並且不會出現亂碼,卻也有一大半的字仍然不行,一定要等使用者去按數字鍵選字,不然就無法輸入下一個字,因而造成不一致的現象。而程式因為重複字問題而掛掉的情形有時仍會發生。

此外還有一些奇怪的問題。例如在倉頡中按下 ] 或 [ 這些鍵,然後按 delete 想消除它,會無法消掉。Tiger 的倉頡還有一個改變,就是按下空白鍵拼出一個字後,該字會自動從輸入窗或行內輸入進入軟體的視窗,而不用再按 return 才會進入。可是在倉頡輸入法中,這個做法也不一致,因為只要是不用選字的字,就會在按下空白鍵後自動輸入,但要選字的字卻在使用者按下數字鍵選字後,仍留在輸入窗或輸入法內,而必須等待 return 鍵按下。

除了倉頡方面的問題之外,也有一些使用者反應在 10.4 中打中文會變成英文、或打英文會變成中文輸入。而 Tiger 輸入法的一大改變,就是中文的各種輸入法被打散,在輸入法選單裡各自和其他語言的輸入法並列,有些人對此可能不太習慣。另外,「嘗試搭配文字來選擇鍵盤」的選項在 Tiger 中不見了(10.4 以前會出現在系統偏好的國際設定中),本來以為這選項被取消,但後來發現新的「允許每個文件有不同的輸入來源」這個選項似乎有著相同的作用,只是不知為何改成現在的說法,頗讓人摸不著頭緒。

不過好的改進還是有的。蘋果的倉頡可輸入 Big 5 以外的擴充字集,像是簡體字、異體字、和香港字,但這有時反而造成困擾,例如之前提過的「」字。而且現在許多網頁仍是使用 Big 5 為編碼,並無法接受 Big 5 之外的字。如今 Tiger 的輸入窗會以綠色的警告符號來標示擴充字集,大大地減少了這方面的問題。

蘋果的輸入法的確在改進中,但是新的問題也產生了,舊的問題也沒完全解決,相關開發人員顯然要再加把勁了。而我個人也期待一個功能可以加入倉頡輸入法中,那就是「自動清除打錯的碼」。畢竟對於打字速度較快的人來說,重新打一次比檢查哪裡打錯再去修改的效率要高多了。我建議可以將此功能列為選項,讓使用者開啟或關閉。

本文同步刊登於符號工作站


Thursday, August 11, 2005

異體字查詢軟體:Unihan Variant Dictionary

最近根據友人 Joseph Wicentowski 的需求和意見,寫了一個叫做 Unihan Variant Dictionary 的小軟體。它其實就是個異體字字典,使用者可以輸入一個漢字來查到其他收錄於 Unicode 中的變體,但除此之外也能查詢到字義以及在各種東亞語言(包括中、粵、日、韓、越)中的發音。其實在 Mac OS X 內建的字元面板中也提供了類似的異體字查詢功能,不過 Unihan Variant Dictionary 在速度及方便性上有一些優勢,而且它支援系統的「服務」功能,因此使用者在使用其他應用程式時也可立即呼叫並查詢。目前它適用於 Mac OS X 10.2 以上。

這個軟體使用的異體字資料庫是來自 Unicode 組織所維護的 Unihan Database。Unihan 資料庫針對每個漢字收錄了許多資訊,除了異體、字音、字義之外,還有各種系統的文字編碼、倉頡碼、筆畫數、使用頻率、在各種字典中出現的位置、甚至在韻書和語言學著作中的位置等資料。當然在軟體中只納入了與形、音、義有關的資料。不過在編寫軟體的過程中我們了解到 Unihan 的異體字資料其實有許多不足之處,因此我們也加入了日本京都大學安岡孝一先生的異體字表。我們也發現 Mac OS X 的字元面板所提供的「相關字元」其實包含了相當豐富的資料,如果未來能再結合這其中的資料,應該可以提供最詳盡的查詢結果。此外 Joe 發現 Unihan 所用的韓語拼音似乎並非韓國常用的系統,因此在實用性上也許會打點折扣。

這樣的軟體對於學習東亞語言的外國人以及對漢字變異有興趣者應該是有相當用處的。若您有其他的需求或建議也請不吝讓我們知道。

本文同步刊登於符號工作站


Thursday, June 23, 2005

台灣龍捲風的火星台語

台灣龍捲風這部連續劇終於落幕了,這表示台灣戲劇史上的一場災難也終於結束了。這樣的戲劇本身存在著許多荒謬的地方,包括思考過度簡單、劇情荒腔走板、二分式的正邪對立、極度昧於現實、對描述的對象未盡考證之責、用灑狗血的方式爭取收視率、充斥著不宜闔家觀賞的內容、不斷複製其他戲劇出現過的情境和劇情發展、無限期拖戲、片頭片尾淪為打歌場所等,但我會想特別關注的問題,是其中怪異的語言。

不用說,這樣的本土八點檔使用的語言是台語。只是,也許是因為主要的編劇是個香港人,其劇本中的對白顯然原來是國語、或至少以國語為設計的基礎。但是在演員演出時又照本宣科、以僵硬的方式逐字轉換成台語,於是造成劇中人物所說的話極不自然,成為一種怪異的語言。在劇中,處處可見原本不存在於台語口語的詞硬生生地用念漢字的方式讀出,或是在原國語用詞與轉換後台語用詞間存在著太過簡單或太過規則的對應關係。另外比較有趣的,就是劇中存在著一種詭異的 code-switching(也就是國台語夾雜)現象,這顯然是因為有些用詞實在是怎麼樣也很難用台語念出,只好保留為國語,於是就出現了劇中人物在流利地說著台語句子時,突然在某個預料不到的地方轉為國語,又突然轉回台語的特殊情況。

不是說台語不能吸收國語的辭彙,語言接觸後彼此影響是天經地義、且無法由人為的方式來規範的。只是語言間的同義詞往往不是完全對等的,彼此並不能做一對一的轉換,而劇中未能針對台語使用的現實情況及其道地的用法來設計對白,也顯示了該劇想搭本土劇順風車卻未能精緻地呈現語言的問題。所以到最後,原來多樣而豐富且呈現生活智慧的眾多台語詞彙,消失在這場龍捲風中。

只是,這個龍捲風災難結束了,另一場災難可能正隨之而來。

(寫在最後:我想提及劇中一位演員王豪。他是劇中一個能加入許多生動語言材料的表演者。)

本文同步刊登於符號工作站


Monday, May 16, 2005

Tiger也把中文變羅馬字了

在 Mac OS X v10.4 "Tiger" 推出後,我們看到不少中文環境方面的變動和改進。這次想提出來的,是由站友 Ban 發現的中文轉羅馬拼音的功能。

在過去我們曾提到 Mac OS X 10.3 具有將漢字依日語發音轉成羅馬字的功能,但是無法轉成中文拼音。到了 Tiger 則終於出現了轉成中文拼音的功能。只要是以繁體中文介面開機(這可以在系統偏好設定中的「國際設定」中調整),系統即會在特定的情況下,將使用者輸入的中文自動轉為漢語拼音。

例如,到系統偏好設定的「帳號」開一個新帳號,輸入中文帳號名稱並移到下一個欄位,系統即會自動填上名稱的漢語拼音作為簡稱。而若是到系統偏好設定的「共享」裡輸入中文的電腦名稱,也可以看到系統會將名稱轉為拼音以作為內部網路連線的位址名稱,另外打開「終端機」這個工具程式同樣可以看到被轉成拼音的電腦名稱。只是電腦名稱似乎非得全部以中文命名才行,若是中英文夾雜則系統只會保留英文的部分作為羅馬字形式的名稱。

經過測試,這項功能也適用於簡體中文及韓文。以簡體中文介面開機,中文一樣會被轉為漢語拼音。而若以韓文開機,諺文的部份會被轉為羅馬拼音,漢字則無法依韓語發音轉換。

由於簡短形式的帳號名稱以及電腦名稱都只能以英數字的格式被系統辨認,但是 Mac OS X 又想接受使用者輸入自己習慣的語文作為全稱,因此自動地幫使用者產生英數格式的名稱,也算是 Mac OS X 為使用者著想的一種表現。只是,「阿傑仔」的「仔」他拼成了「zi」....。

本文同步刊登於符號工作站


Sunday, April 24, 2005

從一張舊地圖上的地名說起


Courtesy of the University of Texas Libraries, The University of Texas at Austin.

這張遼東半島一帶的地圖出現於 1912 年 Hachette & Company 的 Madrolle's Guide Book 一書。這張圖除了可以顯示當年當地的地理資訊外,也存在著其他有趣的訊息。

這張地圖裡出現的地名來自各種語言,包括漢、滿、英、日、俄等。漢語北方官話的地名最多,像 Fêng-t'ien(奉天,今瀋陽)、Chao-yang(朝陽)、K'ai-p'ing(開平)等等。奉天的另一名稱 Mukden 則是來自滿語。Dairen、Ryo-jun 是大連、旅順的日語發音,大連的另一名稱 Dalny 則是俄語。Port Arthur 指旅順港,改名的可能是俄國人,不過在這裡又被譯成了英文。這些地名顯示這個地區曾經有多種族群、國家牽涉其間。

另外我會特別注意的,是當時使用的中文拼音。從圖上明顯可知該地圖使用了「威妥瑪」式的拼音。威妥瑪拼音一直到前幾年都是在台灣佔有極大優勢的拼音法,不過一般人對於這個拼音有相當的誤解。

第一,有人以為威妥瑪拼音不區分送氣音與不送氣音,所以會把ㄅ與ㄆ(國際音標 p 與 ph)、ㄉ與ㄊ(t 與 th)、ㄗ與ㄘ(ts 與 tsh)等組發音相混,事實上威妥瑪會在所有送氣音之後加上 ' 符號,所以ㄆ拼為 p'、ㄊ 拼為 t'。第二、ㄜ常被拼成 e,例如「承」拼為 cheng、「德」拼為 te,其實威妥瑪拼音除了在舌根音後方之外,ㄜ是拼為有附加符號的 ê。 第三、 ㄩ的音常常被拼成u,例如「元」拼成 yuan,其實威妥瑪拼音是一律拼成附有兩點的 ü。第四、有人以為威妥瑪拼音「基」(ㄐㄧ)與「知」(ㄓ)都拼成 chi 而混淆、「欺」(ㄑㄧ)與「蚩」(ㄔ)都拼成 ch'i 而混淆,其實ㄓ是拼成 chih、 ㄔ是拼成ch'ih,也就是說,ㄓ、ㄔ、ㄕ的韻母(空韻)其實是拼成 ih,和ㄧ拼成 i 有所區別,h 不可省略。

這張地圖在使用威妥瑪拼音時,沒有混淆送氣音與不送氣音,開平拼為 K'ai-p'ing,而非省略送氣符號的 Kai-ping 。另外承德拼為 Ch'êng-tê,而非 Ch'eng-te 或 Ch'eng-teh(似乎有些人會以 eh 代替 ê)。而平泉的「泉」則拼為 ch'üan而非 chuan。顯然這張地圖上該有的附加符號也都有。整體來說,它在威妥瑪拼音的使用上還算嚴謹。

現在的人們基於誤解、偷懶、打字不便等原因常把威妥瑪拼音弄錯,尤其送氣與不送氣音的混淆最為常見。下次我們有機會使用威妥瑪拼音時,不妨多以謹慎的態度來拼寫。看到近百年前的地圖可以正確地印出這些符號,令人感到現代的人往往是不夠謹慎的,而那些無法或極不方便打出這些特殊符號的電腦作業系統,也算是一種荒謬的現代產品吧。

本文同步刊登於符號工作站


Wednesday, March 16, 2005

讓你的網站會說話

網路上有個叫 SitePal 的服務,它可以藉著 Flash 技術提供動態且具人工智慧的動畫虛擬人物,使用者只要把它整合到自己的網站上,就可以讓活靈活現的虛擬人物豐富自己的網站內容。例如,虛擬人物可以與網站參觀者藉由文字來互動並回答問題、甚至可以發出語音做網站導覽等等。而人物的外觀則可以由服務使用者來自行調整。不過這項服務是必須付費的。

我最感到興趣的是他們的語音功能。要讓虛擬人物發出語音,服務使用者除了可以自行錄音並上傳外,也可以直接使用其 text-to-speech 功能,也就是說,使用者想要人物念出什麼內容,只要把內容用打字的方式輸入,人物即會用語音合成的方式把它朗讀出來。這樣一來,就可以讓人物念出不受限制的内容,並輕易地配合自己的網站做變化。而且,其人物的嘴型還會配合所發出的語音做改變。

其實 text-to-speech 的技術對於很多 Mac 使用者來說並不陌生,因為 Mac 的作業系統一直內建有這種功能。過去的系統中除了英文之外,也具有中文(繁、簡體)與墨西哥西班牙文的文字朗讀功能,只是到了 Mac OS 9 和 Mac OS X 時代, 這兩種語言的朗讀功能就銷聲匿跡了。另外較為可惜的是,Mac OS 提供的語音合成品質一直以來似乎未有重大提昇。

相形之下,SitePal 的語音品質就好得多,更接近自然人聲,詞與詞、音節與音節之間的銜接都算是理想得多。而且 SitePal 可以朗讀十三種語文,其中也包括了中文,念起中文來比當初 Mac 上的「小趙」要優秀不少。不過中文的 text-to-speech 還必須處理一字多音以及上聲變調的問題,而要解決這些問題則經常需要一個資料庫來為文章做「斷詞」,SitePal 在這方面似乎還有不足之處。

看到 SitePal,我想到 text-to-speech 其實可以有多樣化的應用方式。

本文同步刊登於符號工作站


Tuesday, January 11, 2005

不完整的藏文?

在 #osxchat blog 網站上,刊出了一篇文章指出有一個新的 Mac OS X 藏文輸入法正在開發中,其中並描述了作者在製作時所遇到的問題,這套輸入法是以「OpenVanilla」為基礎進行開發,它所運用的也是 Unicode 裡提供的藏文字元。此套輸入法的出現對於想在 Mac OS X 上輸入藏文的朋友來說是相當好的消息。

我們除了感謝作者的努力之外,也慶幸 Mac OS X 不但支援 Unicode,而且在簡體中文字體中也加入了藏文字形。但是該篇文章也說到,有的藏文符號和拼字法似乎仍不在 Unicode 的支援之列。例如,當「上加」用的就沒有辦法適當地加在輔音字母上。下面是一個正確添加上加的例子:

從上面的範例中可以看到,rta (意思是「馬」)這個詞是由作為上加的 (r-) 加在 (ta) 這個字母上構成的,但必須省略最後一筆,然後才加在之上(本身的位置也可能也變得較低)。當作上加時可以加在多種字母上,有時對發音沒有影響,有時則會影響輔音送氣與否或造成聲調高低的不同。然而翻開 Unicode 的符號表,卻遍尋不著這種省略最後一筆的ར上加,這的確是相當奇怪的事。

而在網路上有一個 Java 版的藏英辭典,除了可以在 Windows 上執行,也可以在 Mac OS X 中運作。神奇的是這個辭典可以正常顯示這種添加ར上加的字。經對照後,才發現它使用的藏文字體和系統的並不相同,而似乎有自己的一套字體。這樣看來,它可能並未利用作業系統提供的藏文環境,甚至也不是採用 Unicode 作為內部編碼。

所以,現行版本的 Unicode 在藏文處理上似乎還是有不足之處,也許我們只能期待在未來的 Unicode 版本中能提供更完整的藏文符號。


本文同步刊登於符號工作站