11/22/2008

MY GOD!GOOGLE!

我的天!
文章日期:2008年11月22日

【明報專訊】Google以網絡搜尋聞名,無出其右,想不到應用在翻譯上,也有一番貢獻,在國際賽上屢獲大獎。(http://Translate.google.com)
我曾試用不同的翻譯網站,發覺Google表現較佳。如:「我的天!」有的竟然譯成「My day!」;Google則準確無誤,輸出「My God!」,高下立見。鍵入「我阿扁」,Google輸出「I-Bian」;其他則譯成「My Bian」。再舉一例:「看扁了」Google譯成「look down on」;其他網站則譯作「think of as worthless」;翻查《漢語大詞典》,「看扁」解作「小看;低估別人」,前者明顯較好。
一般的電腦翻譯,大多採用「規則為本」的原則,由語言學家釐定文法及字義;Google則採用「統計為本」或「使用為本」的方式,蒐集大量的「翻譯原文」及「目標文本」,輸入電腦,然後逐字逐句比較,識別統計上的關連,尋找對應的模式。2003年,Google成立一個研究小組,首先以聯合國 的文件作為起點,輸入多種語言的文本,總數高達2000億,讓電腦找出語言之間的配對模式。Google的工作人員對英語以外的語言一無所知,竟然可以讓電腦自我學習,並且逐步改善。目前,Google可以提供34種語言之間的互相翻譯,共有561對應組合。
通常來說,在兩種語言間,最少需要大約1億字的配對文章,才能達至可以接受的翻譯效果。若然參考範本太少,例如希臘文及泰國文間,就沒有足夠配對文章供電腦學習,便需要第三種語言,例如英語,來作為翻譯的橋樑了。
Google的優越之處,就是擁有處理龐大的數據能力,他們的口號是:「更多的數據便是好數據!」「我們並沒有更好的演算法則,我們只是擁有較多的原始數據而已。」[陳耀華 cyiuwah@alumni.cuhk.net]