符號工作小站: 2006

Wednesday, November 22, 2006

Mac OS X 的 VoiceOver Utility

上次我們談到 Mac OS X 的語音技術，而 Mac OS X 10.4 裡所謂的 VoiceOver 功能，其實就是利用 Mac OS X 裡的語音合成功能來輔助有障礙的使用者進行操作，例如它可以朗讀出使用者目前操作的狀態或正在操作的介面名稱，甚至可以把信件或網頁的內容讀出。 Mac OS X 裡有一個稱為 VoiceOver Utility 的小程式（位於「應用程式」>「工具程式」目錄中），可以用來控制 VoiceOver 這個輔助介面。

VoiceOver Utility 可以精細地控制很多 VoiceOver 的設定。就語音合成來說，它可讓使用者選擇每個語音要用在什麼場合，而且它還可以調整語音的速度、音高、以及音量。

不過 VoiceOver Utility 裡有個挺有趣的地方，就是在 Pronunciation （發音）這個標籤底下，如果使用者對一個詞的發音方式不滿意，可以在這裡把那個詞設定成特定的念法，而不要照電腦預設的方式念，例如把「GIF」強制念成「jiff」，而不要念成「G」、「I」、「F」。程式裡已經預先設定好幾個取代方法，除了「GIF」之外，還有的設定是把無線網路標準「802.11b」念成「8 oh 2 eleven b」、以及把表情符號「 :-) 」念成「smiley」。可惜現在 SCSI 傳輸方式已經不流行，不然可能會看到有的設定是用「scuzzy」來念「SCSI」一詞。

在這些預設的設定中，特別引起我注意的是它把「SQL」一詞用「sequel」的念法來取代。SQL 是 Structured Query Language 的縮寫，是一個很受歡迎的資料庫語言。它正式的念法其實應該是 S-Q-L（將字母直接念出），而且有些人認為這才是唯一正確的發音，sequel 的念法是錯誤的。不過從 VoiceOver Utility 裡的這項設定來看，把 SQL 念成 sequel 的做法顯然早已被廣泛採用，也許加入這項設定的人，已經認為 sequel 是更容易使人理解的念法。這或許也意味著，那些認為「S-Q-L」才對的人，其實大可不必去糾正別人「sequel」的念法。

不論 SQL 的念法如何，如果這種自定發音的功能可以加入未來的語音合成，那應該會使語音功能更加實用。例如，我們可以乾脆把「宏碁」設定成一律念成「宏基」，來個將錯就錯。

本文同步刊登於符號工作站

Thursday, October 26, 2006

Unihan Variant Dictionary 支援 Intel Mac

我們去年推出的異體字查詢工具 Unihan Variant Dictionary 現在也有 Universal Binary 版本了。這個可供查詢 Unicode 收錄的異體漢字、並能顯示五種語言字音與英語釋義的小軟體，現在是 1.1.0 版。它除了直接支援 PowerPC 與 Intel 處理器外，還增加了繁體中文介面，因此若是在系統偏好設定中將系統語系設定為繁體中文，開啟 Unihan Variant Dictionary 時它就會變成繁體中文介面。另外資料庫架構也有變動，現在查詢速度應該會快一些。

不過在轉換為 Universal Binary 時，也發現這個過程不如想像中順利，而軟體的大小也膨脹了一倍，這些大概都是 Mac 轉換到 Intel 平台的代價。 Intel 上的運作情形歡迎大家多多測試，若有問題還請不吝告知。

本文同步刊登於符號工作站

Sunday, September 24, 2006

Leopard 的語音合成


	2001 年的蘋果 Speech 網頁。

其實我已經嫌 Mac OS X 的語音合成功能很久了。大家若是看過蘋果創辦人之一 Steve Jobs 在 1984 年發表第一部 Macintosh 的影片，就知道那時的 Mac 已經有語音合成的功能了，而且 Jobs 似乎還為了那部小 Mac 一段感人肺腑的話而熱淚盈眶，就像第一次聽到兒子叫爸爸一樣。不過隨著時代的演進，Mac 的語音合成似乎沒多大進步，雖然後來是多了幾個較高品質的語音可選擇，但改進仍很有限。甚至自從進入 Mac OS X 時代後，原來的中文與西班牙文發音功能也無疾而終，我們也只能對「小趙」寄予無限的懷念。

我曾經介紹過一個在網上提供互動式動畫和語音的服務 SitePal，那時覺得這樣的服務都能有相當自然的發音，顯然 Mac OS X 也該加把勁了。終於在今年的全球開發者會議 (WWDC) 上，蘋果展示了新的語音合成技術，它使用的「Alex」語音可以發出相當接近人聲的英語發音。雖然現在我們仍無法有實際操作的機會，但從現場的展示以及官方網站的範例來看，它的表現的確有很大的進步。在展示時 Steve Jobs 還秀了一段超快速的朗讀，效果也相當不錯。而且根據網頁上所述，蘋果的語音合成支援雙位元的語文，所以有中文與日文發音的能力。目前看不出 Mac OS X 本身是否會直接內建中文語音、還是只是留下空間給外界開發，不過這樣的發展還是給我們很大的期待。

我自己在使用即時通訊軟體 Proteus 時，有時會設定成讓它在有人上線時自動用語音報上名來，這樣就算沒有看到電腦螢幕，也知道是什麼人上線。只是由於現在系統的語音只支援英文，所以遇到以中文為使用者名稱的人就無用武之地了。從蘋果公布的內容看來，未來 iChat 可以自動朗讀對方送來訊息，若是也有上線類似 Proteus 的上線通知，再加上中文支援，那就相當實用了（至少對某些人來說）。

更好的 text-to-speech 結合到 Mac OS X 這個豐富的作業系統後，相信有很多有趣的應用方式，也能減少很多人的障礙，未來的發展如何，就讓我們拭目以待吧。

本文同步刊登於符號工作站

Wednesday, August 16, 2006

可以 Google 一下嗎？

上個月韋氏字典才把 Google 一詞當成動詞收錄進去，但據說最近 Google 發函媒體，要求不得將 Google 當成動詞使用，以保護 Google 的商標。Google 還列出例句，來說明 Google 一詞正確的用法：

正確：I ran a Google search to check out that guy from the party.
錯誤：I googled that hottie.

第一句的 Google 還保留大寫，還是個專有名詞，指的也是 Google 本身，第二句則不再大寫，不再是專有名詞，還轉成動詞使用，結果被 Google 當成不當用法。顯然 Google 並沒有對於 Google 一詞普及化感到太高興，反而有些隱憂。從相關報導看起來，他們擔心的應該就是 Google 這個專有名詞和商標被一般人當成普通名詞來使用，甚至廣泛地指涉到同類型的事物上，進而造成 Google 失去此商標的相關權利。

對於 Google 的舉動，網上已有人提出不以為然的看法，還故意使用了 jacuzzi、hoover、xerox 等詞，來指出專有名詞變成普通名詞的現象。另一個很有名的的例子是「Walkman」，在一般人的用法中，這個 Sony 公司的商標早已成了普通名詞，現在不論是哪家廠商出的類似裝置，都會被一般人稱做「Walkman」（中文則稱為「隨身聽」）。而台灣人所說的「立可白」，原來也只是某一特定商品的名稱，後來也用作普通名詞，泛指所有的同類型產品。另一個年代久遠的例子是「非肥皂」，它原本是某家公司的商品名稱，在「洗衣粉」一詞興起前，據說它曾被普遍地用來指稱所有粉狀洗衣劑。（我沒經歷那個年代，若有錯誤敬請指正。）只是從大部份例子來看，廠商再怎麼採取行動捍衛商標，通常還是不敵「廣大群眾」的力量，不管在法律上能否保住商標，都無法阻止一般人繼續在口語中使用。

由這些例子看起來，一個商品名稱或商標如果經歷了專有名詞普通化的過程，通常代表該項商品在業界有開創性，因而被大眾當成同類商品的代名詞。如此看來，Google 應該是要驕傲的。可是如果他們想要搞些動作來擋住這個過程，不但在成效上要打一個大問號，而且對自己的企業形象也可能不太正面。雖然 Google 的影響力無遠弗屆，但我相信語言演變的力量仍是 Google 無法駕馭的。

本文同步刊登於符號工作站

Wednesday, July 26, 2006

南島語族是哪一族？

最近被問到跟南島文化節與南島語系有關的問題時，我發現有許多人在使用「南島語族」一詞時，的確是會有些誤解的，他們會把「南島語族」當成「使用南島語系的族群」來使用。但是「語族」一詞究竟是什麼意義呢？這種用法是否適當呢？我想可以在此做個澄清。

其實，在語言學上，「語族」指的並不是一群人，而是一個語言系屬的單位，目前學界常見的做法，是把「語族」用於「語系」的下一層。能找到同源關係的各語言，可全部歸類為同一「語系」，而語系之下再依親疏遠近分類，又有許多「語族」，「語族」之下則有「語支」。例如根據某些理論，漢藏語系之下有藏緬語族，被歸類為藏緬語族的語言包括藏語、彝語、緬語、羌語等，而這些語言還各可以屬於幾個不同的語支。所以，語族指的是一個語言的家族，而不是人的「民族」、「種族」、或「族群」。

「南島語系」原是歷史語言學上的概念，在廣為人知後，常被引用到許多地方，又有人會以此語系的概念，再衍生出「南島民族」、「南島語族」等稱呼。「南島語族」一詞如前所述有誤用的問題，而「南島民族」一詞其實也不無問題。

語言學家是根據同源詞以及語音對應等等線索，認定某些語言源自同一祖語，並將這些語言歸為同一語系。「南島語系」的建立，是完全靠著語言上的證據，和人無關。「南島語系」的成立，並不隱含著「講這一系語言的人是同一民族」、或「這些人在文化或體質等方面有共通性」的意味。而人的血緣、文化與語言之間對應關係經常是極其複雜的，人類學對於人的區分也有自有標準，若只是因為某些人講的語言被歸為同一語系，就將這些人直接放在一起，稱為某一民族，還以純語言學的語系名稱作為名字，其實是較輕率的做法。實際上，所謂的「南島民族」其實包含眾多各異的族群、文化，這樣多元且歧異的內容如何能在缺乏充分人類學理論的支持下，就合成一個單位呢？

所以我建議，在使用這些名詞時，不妨更謹慎一些。

本文同步刊登於符號工作站

Monday, May 15, 2006

真正的火星文：華康新篆體

華康公司有一款字體產品叫新篆體，裡面採用的是小篆的書體。對於想在設計中加入小篆的人來說，這種字體應該是極為方便的，畢竟設計者不需要懂小篆，也不必一個字一個字去查，就能馬上用打字的方式得到古意盎然的小篆字形。

問題是這新篆體還真「新」，絕大多數的字型看似小篆，實際上卻是錯誤連篇。上面我們列出華康新篆、以及字形較正確的漢儀篆書字體來做比較。看看圖中的華康篆字，「人」字寫得很像楷書的筆畫，但實際上「人」的小篆第一筆應該是從左上往右再往下，左邊再加上由上往下的一筆，而不是像華康的字一樣，第一筆變成往左下，第二筆又往右下。再舉「者」字為例，如漢儀篆書所示，正確的篆書比楷書繁複一點，且左右大致上較為對稱，而華康不僅自己發明篆字寫法，左撇和右撇還交叉在怪異的地方，右撇又特別短，實在是錯得離譜。比較兩種字體的「更」字，也可發現華康新篆的錯誤。又像「明」字，在小篆時代它的左半邊並不是「日」，然而華康卻是從現代楷書去想像小篆字形，「月」與「肉」又有混淆之虞。再看看「為」(說文作)、「書」、「女」，實在不知道還有誰比華康更會向壁虛造的了。至於「心」字，比較像少女體＋兒童體的混合體，實在看不出跟篆書有什麼關係。

其實小篆在歷史上也有向後起文字妥協的記錄。漢代印章裡的小篆印文，就有很多隷化的現象。但是這些變化只限於出現在印文一類的特定領域，有特殊的結構特色，而且也有道理可循，而不是像華康一樣把火星文當競爭對手而亂改一通。如果華康非要自己發明怪字不可，那麼請把「篆」這個字從字體名稱中拿掉。

上面提到的例子只是冰山一角，華康新篆體還另有其他不勝枚舉、罄竹難書的錯誤。這樣製作品質明顯有問題的字體，要向使用者收費，卻有著嚴重的誤導作用，實在令人遺憾，也讓人質疑華康公司（現名威鋒）的專業態度與能力。

本文同步刊登於符號工作站

Tuesday, April 18, 2006

英文書中挑毛病

看過英國 DK 出版的 Eyewitness Guides 系列叢書的讀者應該都對其中精采的圖文印象深刻。基於對文字的興趣，我自己也有這系列中的「Writing」這本書，而其內容就是從古到今世界各地的書寫與印刷的介紹。不過書中還是有個關於漢字的小地方有問題，在此提出來討論看看。

如圖所示，該書作者舉出「電影」兩字，註明是「Electric + shadow = Movie」，這問題不大，當然這裡的「影」不一定非解釋為「陰影」不可，不過「電影」的確可算是一個複合詞，由「電」與「影」所構成。但其底下的解釋就有問題了：

MODERN IDEAS
Any new idea needs a new Chinese character - often a combination of exisiting characters.

這意思是任何新的概念都需要一個新的漢字，這樣的字常常是現有字組合而成的。第一句話言下之意，似乎指漢字是表意文字，所以要表達新的意思就要再造新字。這話很明顯是錯的，因為在漢字實際的應用上，新詞經常用「假借」的方式來書寫，不一定要造新字，而假借就是表音而非表意了，例如英語的「show」借入漢語寫成「秀」。至於後面說到新字常是由已有的字組合而成，這並沒有錯，但是顯然不能用來說明「電影」，因為「電影」仍是兩個字，並未組合在一起。

「電影」的例子其實是語言上的問題，它說明了現代漢語的新詞往往是結合已有的單音節詞而形成的複合詞。這是「語言」裡的構詞方式，跟「文字」的結構無關，顯然作者把語言和文字兩個範疇的問題混在一起了。

上面提到的一部份問題，其實一般懂得漢語與漢字的人也能發現，所以很容易讓這本書的內容打折扣。這提醒我們，在描述自己不很熟悉的語文時，得更小心謹慎。另外，我想書中那兩個範例文字應該可以寫得好看一點。

本文同步刊登於符號工作站

Monday, February 20, 2006

誰是「好野人」？



	以「好野人」為名的電玩。圖片來源：瘋狂星球網站。

「好野人」，不知是誰發明的寫法，它最近大量流行在台灣。許多人都知道，這個詞就是閩南語的「有錢人」一詞，跟「野人」沒什麼關係。

看看「好野人」這個用法，它的第二個字「野」，在閩南語中讀作 iá (陰上聲)，而由於他後面接了另一音節，所以要變調，讀成高平調。但是閩南語中的「有錢人」是讀作 hó gia̍h lâng，第二個字是 gia̍h，首先，它的聲調是陽入聲，變調時變為低調，第二，它的最前面有個舌根濁塞音 g，這兩點都與「野」字不同，也就是說 gia̍h 與「野」的發音（包括聲母、韻尾、聲調）在閩南語中根本是不同的， hó gia̍h 絕對不能寫成「好野」。

當然，lâng 寫成「人」這個字可能也有問題，不過，至少 lâng 與「人」在語義上是相同的，至少可算作訓讀用法，沒記錯的話，在古代的歌仔冊裡有這種用法了。但是 gia̍h 與「野」在音、義上都不符，是個徹底的錯誤用法。我不是本字考證專家，不過從音、義上來判斷，「額」字作為 gia̍h 的漢字的確是合理的，也就是說，「好額」應該才是「有錢」一詞適當的寫法。

除了「好野人」的例子外，台灣現在還流行著一些類似的錯誤用法。如果只是要玩弄商業手段或文字遊戲，也許沒辦法苛求，但是要拿來當作普遍流行的書寫法，做法上還是應該嚴謹一點的。

本文同步刊登於符號工作站

Monday, January 16, 2006

「MacBook」為何不順口？


	Courtesy of Apple.

蘋果新一代使用 Intel 處理器的專業級筆記型電腦改稱 MacBook Pro，而不再稱 PowerBook。關於 MacBook 這個名字，除了很多人不喜歡以外，Fred 也提出了一些看法，而且也說到為何它不順口的原因。但是和 Fred 說的可能有點出入的是，PowerBook 其實應該是三個音節。不過除了音節數的問題外，我也在此試著從發音上來對此提出一點看法。

第一，MacBook 第一個音節「Mac」的元音 /æ/ 不是個長音，其後的輔音是個清塞音 /k/，其第二個音節「Book」的元音也非長音，也以清塞音結尾，所以前後兩個音節都較為短促，整個詞的發音就比較無力了。而 PowerBook 第一個音節的元音就是複合元音 /aʊ/，音長較長，也不會因為碰到清塞音而立即停止。

第二，MacBook 兩個音節間夾了一個清塞音 /k/，也是就「Mac」最後的一個音，這裡所謂的清音指的就是聲帶不振動的音，也因此整個詞的聲音到中間就有斷掉的感覺。相對之下，PowerBook 除了開頭與結尾是清音以外，中間都是濁輔音與響亮的元音，也就無中斷的感覺。

第三，Mac 與 Book 都以 /k/ 結尾，甚至兩者的音節結構都相同（輔音+元音+輔音），因此有重覆和生硬之感。

以上就是我對 MacBook 何以在在發音上不夠順口、不夠響亮的一點看法，謹供參考。

本文同步刊登於符號工作站

Tuesday, January 10, 2006

沒了 resource 的文字檔

Mac 的作業系統自從演進到 Mac OS X 之後，有一項不小的變革，就是 resource fork 在某種程度上被揚棄了。傳統的 Mac 檔案上可以由兩種部份組成，一是 data fork，一是 resource fork。一般的主要資料和程式碼多半存在於 data fork，而 resource fork 裡則記載著各種各具特定格式的資料，程式設計師只要運用適當的工具，即可方便且有系統地進行調整。雖然 resource 在 Mac OS X 中仍然可以使用，但 Cocoa 程式幾乎已完全不用傳統的 resource fork 來存放類似的資料，前幾年蘋果也曾刊出文件、希望開發者不要再用到 resource fork，不過由於 resource fork 在 Mac 上具有一些獨特的優勢，許多程式設計師對此有相當的反彈。

Resource fork 被放棄後是否已達到很大的好處我們無法斷言，但其壞處已經出現，這表現在文字處理上，就是軟體已無法自動辨識文字檔的語系。目前電腦上文字編碼種類繁多，但在 Mac OS 9 下即使是打開純文字檔，文書軟體也能知道裡頭的文字是什麼語系（或編碼），這是因為文字檔的字體、語系等資訊都可以記錄在 resource 中。相對之下，在 Mac OS X 下缺少 resource 的文字檔就不一定能被 TextEdit 順利打開，一定要事先在偏好設定中選好要用什麼編碼來開啟檔案，否則就會無法開啟，這在需要打開編碼各異的幾個文字檔時，就變得非常麻煩。例如我們要打開一個 Big 5 的文字檔、一個 GB 的文字檔、以及一個 UTF-8 的文字檔，前後可能必須分別到偏好設定中做三次設定才行。

當然，也許蘋果方面會認為這只是過渡時期的陣痛而已，因為往後系統的文件應該只會採用 Unicode，不再使用傳統的各式不同編碼，而且 RTF 也要取代純文字檔，成為 Mac OS X 通用的文字檔格式，也就不必用到 resource fork 來記錄文字樣式與語系。但問題是，即使 Unicode 也有多種編碼方式，例如 UTF-8 與 UTF-16，所以一個純文字檔會採用何種編碼仍無法預測，而且各式傳統文字編碼（例如中文的 Big 5、GB 及日文的 Shift JIS）短時間內也應不至於完全消失。另外許多文件存在的形式仍是純文字檔，例如網路上常用的 HTML、PHP、CSS 等，而現在的架構只是使得這類檔案的處理更為不便。

Resource fork 顯然還是有其優點的。當然因為 Mac OS 的基礎已轉換到 UNIX 上、且為了與其他平台能有更大的交換性，放棄 resource fork 似乎是不得不然的，只是這也不是蘋果放棄 Mac 特殊優勢的唯一例子，這些改變對傳統 Mac 使用者來說，不管在情感上或習慣上都不一定能很快接受吧。

本文同步刊登於符號工作站

Wednesday, November 22, 2006

Thursday, October 26, 2006

Sunday, September 24, 2006

Wednesday, August 16, 2006

Wednesday, July 26, 2006

Monday, May 15, 2006

Tuesday, April 18, 2006

Monday, February 20, 2006

Monday, January 16, 2006

Tuesday, January 10, 2006

Blog Archive