摘要:追根溯源、體會方法、欣賞超越。
第一章・文字、數字、語言、資訊#
相似性與一致性#
-
【原理】數字、文字和自然語言一樣,都是資訊的載體,它們之間原本有著天然的聯繫。其他文字一樣,數字在早期只是承載資訊的工具,並不具有任何抽象的含義。半個多世紀前香農博士提出資訊論,人們才開始把數學和資訊系統自覺地聯繫起來。
-
【聚類】在古埃及的象形文字中,讀音相同的詞可能用同一個符號記錄。這種概念的聚類,在原理上與今天自然語言處理或者機器學習的聚類有很大的相似性。
-
【消歧】文字按照意思來聚類,最終會帶來一些歧義性,通過上下文,大多數情況下多義字的去除歧義 (Disambiguation) 都可以做到。
-
【翻譯】翻譯這件事之所以能達成,僅僅是因為不同的文字系統在記錄資訊上的能力是等價的。(這個結論很重要。)進一步講,文字只是資訊的載體,而非資訊本身。
-
【語料】羅塞塔石碑的破譯,有兩點指導意義:1、資訊的冗余是資訊安全的保障;2、語言的資料,我們稱之為語料,尤其是雙語或者多語的對照語料對翻譯至關重要,它是我們從事機器翻譯研究的基礎。
-
【通信】在通信時,如果信道較寬,資訊不必壓縮就可以直接傳遞;而如果信道很窄,資訊在傳遞前需要盡可能地壓縮,然後在接收端進行解壓縮
-
【校驗位】做事認真的猶太人要求在抄寫《聖經》時發明了一種類似於我們今天計算機和通信中校驗碼的方法。他們把每一個希伯來字母對應於一個數字,這樣每行文字加起來便得到一個特殊的數字,這個數字便成為了這一行的校驗碼。
-
【語法】莎士比亞的作品在他的時代完全是通俗而大眾化的,其中包括大量違反古語法的名句,那個時代就開始有人試圖完善 (其實是篡改) 莎士比亞戲劇。可今天這些語言不但沒有消失,反而成了經典,而試圖完善他著作的人卻早已為大眾遺忘。這就涉及到一個語言學研究方法的問題:到底是語言對,還是語法對。自然語言處理的成就最終宣布了前者的獲勝。