您的位置:首頁>歷史>正文

彭軍輝:漢語智慧拼音文字及其應用

一、語言、文字和思維

從契丹文、西夏文和我國幾個少數民族文字以及日本等過文字產生的過程來看, 我們很容易得出這樣的結論:文字是用來記錄語言(語音)的;文字由語言產生, 隨著語言的變化而變化。 在大多數情況下, 成熟的文字產生以前, 成熟的語言就已經存在了。 黨項王元昊頒佈西夏文以前, 黨項人就有成熟的語言。 而在我們現在使用的現代漢語使用以前, 白話就已經在民間存在好幾百年了。 而另一方面我們可以看到, 文字有時也會對語言產生影響。 武則天創造了“曌”這個字作為自己的名字,

於是便有了“明亮”這個語義和“ZHAO”這個音之間的聯繫。 漢字對日語外來詞的使用是字產生語言的最廣泛的例證。 如:“幹部”, “旅行社”等。 那麼語言和文字之間的關係究竟是什麼樣的呢?

實際上我們沒有找到問題的根本。 無論語言還是文字, 都只是人類思維(即語義)的外在表現形式。

語言(語音)和文字(詞形)之間沒有直接的聯繫。 語言和文字的變化反映了人們思維的變化。 新詞彙(包括語音和詞形)的產生反映了新語義的產生。 武則天所以創造一個“曌”字是因為在她看來沒有一個當時已有的漢字可以代表自己至高無上的地位。

人類思維的表現形式不是只有語言和文字, 另外還有肢體語言、旗語等。 只不過語言最方便交流, 文字最方便保存。 或許在未來, 人們能找到比語言文字更好的語義表達形式。

二、漢語的特點

英語的特點是詞語有格、數、級、時態等形式的變化。

日語的特點是有很多助詞並且謂語經常在句末。 漢語也有自己的特點。

第一、在構詞上, 實詞基本是由語素加上語素構成的。 這種靈活的構詞方法使漢語實詞在詞彙容量上沒有上限;使漢語詞庫變得不那麼確定, 新詞隨時都會出現。 只能找到包含常用詞的詞典, 而找不到包含所有詞的詞典。

第二、在詞義和詞性上, 雖然詞由詞素構成, 但詞的詞義和詞性跟詞素的關係不是很密切。 比如:“烈火”“文火”“九味真火”都是名詞, 而“紅火”卻是形容詞。 “黃牛”“奶牛”是牛, 而“蝸牛”卻不是牛。 一個詞一旦組成就有了它獨立和明確的含義, 不再受組成它的詞素的影響。 所以在中文拼音文字裡詞一定要被明確表現出來,

而詞素(寫成漢字就是單個的字)卻不必明確表現。

第三、在句子中每個詞的詞形、發音固定不變。 漢語沒有格、數、級、時態等形式的變化。 名詞沒有數的變化。 通常用數量詞, 形容詞中的“眾”“群”等詞, 和詞綴“們”與名詞搭配表示複數。 如, “幾隻老鼠”“眾鼠”“群鼠”“老鼠們”(“老鼠們”和“老鼠”之間的差別不只是詞形的差別, 而且詞義也發生了變化,應當看作是兩個詞)。動詞沒有時態的變化。英語中動詞的時態變化,漢語中用副詞、助詞加上動詞表示。如,“我吃飯呢”“我正在吃飯”“我準備吃飯”“我吃過飯了”“我剛才吃的飯”“我早上已經吃了飯了”“在那個時候我正準備吃飯”。形容詞和副詞沒有比較級和最高級。用程度副詞修飾形容詞和副詞表示程度的高低深淺。

第四、虛詞在句子中使用頻率很高,功能也很強。虛詞中的介詞連詞助詞雖然不表示明確的含義,卻明確地表現了詞和詞、句和句的關係,使句子和句意的表達更加準確。代詞指代一定事物,可獨立充當句子成分。數詞和量詞表示數量。嘆詞表示感歎語氣。象聲詞表示聲音。虛詞不是由詞素構成的,它的數量也是有限的。

第五、獨立的實詞和實詞結構可以充當句子成分。虛詞(除代詞外)一般不能獨立充當語法成分。這裡所說的實詞結構包括片語、成語、歇後語、介詞結構、所有結構、修飾結構等。

第六、句子由主語、謂語、狀語、賓語、補語構成。主語是句子的施動者(在被動句裡是被動者),是句子的描述物件。謂語表示主語的動作、發展變化和其他狀況。狀語表示時間、地點。修飾謂語動詞的副詞不被當成狀語。它的功能是和動詞構成實詞結構一起充當謂語。賓語是謂語動詞的動作物件。補語是對句子做的補充說明。通常所講的定語不被當成獨立的語法成分,而被當成修飾結構的組成部分。

中文拼音文字是用來表達漢語語義的,它必須恰當反映漢語的特點。只要能達到正確表達漢語語義的要求,中文拼音文字甚至可以創造一些不發音的詞彙和符號。

三、漢語智慧拼音文字的產生

世界上最早產生的幾種文字都是象形文字。但一直到今天還在使用的只有漢字。大多數民族到最後都放棄了象形文字,而選用拼音文字。

人們使用語音交流的頻率遠遠高於文字和其他方式,而且人類思維也依靠語言。人們使用語音進行抽象、概括、判斷;人們使用語言表達情感。這使語言和語義高度統一,幾乎無法區分。也使文字在和語言的對決中始終處於被動地位。我們通常會認為文字是用來記錄語言的。實際上文字記錄的只是語言所要表達的語意。因此中文拼音文字也不是記錄漢字發音的,而是為了表達我們的思維設計的。

對於每個學習漢語的人來講,最大的困難都在於認知漢字。漢字的字形和讀音聯繫不大,難記。漢字的筆劃繁雜,難寫。我的幾個外國朋友可以用中文拼音和我聊天,卻認不了幾個漢字。我們在上小學的時候,對不認識的漢字,只要能讀出拼音就能弄明白詞義。有人在美國做過實驗,通過學習拼音,外國人很快就能讀說漢語。可以想像一旦成熟的拼音文字推出,漢字的障礙被掃除,學習漢語將成為輕鬆的事情,漢語在世界也將得到廣泛應用

什麼樣的中文拼音文字才能滿足我們的需要呢?幾十年來人們提出了各種各樣的方案。目前被認為是主流的方案採用了“現代漢語拼音+異拼+正詞法”的模式。我認為不妥。以現代漢語拼音為基礎我不反對。我也採用。關鍵在於分化同音詞的問題上,我主張從詞義的角度(而不是異拼+正詞法)出發去解決問題。在這個問題上人們容易犯這樣幾個方面錯誤:⒈為漢字編碼。中文拼音文字表達的物件是語意,不是漢字。當我們在使用中文拼音文字時,漢字就再也沒有在我們的腦子裡出現的必要了。⒉為漢語語音編碼。從表達語意的角度看,中文拼音文字標不標調不是首要問題,首先應該解決的是如何明確表達詞義的問題。為了準確表達詞義,我設計了大量表示詞義和詞類的詞綴。尾碼通常都要標,而四個表示聲調的首碼只在必要是才標。⒊隨意簡寫。哪些詞簡寫,應當根據表情達意的需要決定。對實詞的簡寫,很容易造成混亂。⒋使用數位標調。數位有專門的用途,用數字標調是違反慣例的,同樣會造成混亂。⒌對現代漢語拼音大動手腳。現代漢語拼音已經被廣泛採用和學習。過多改動必然增加人們的學習負擔,造成混亂。

從有利於漢語表情達意的需要出發,我設計了漢語智慧拼音文字。漢語智慧拼音文字首先將詞分為實詞和虛詞。實詞由拼音加上前尾碼構成。首碼表聲調,尾碼表詞義和詞類。虛詞有虛詞表加以規定。虛詞一般由中文拼音去掉母音產生,虛詞的構成字母不多於四個。在書寫時,數量詞連寫,詞和詞之間留空格,關係親密的詞有時可以用“—”連接。在句子中,主語前加z',謂語加w',賓語加b',狀語加k',補語加c'。

四、漢語智慧拼音文字的特點

隨手寫一段拼音,人腦就能夠理解。而電腦卻不能將它正確地轉寫為漢字。因為電腦不懂詞和詞之間的邏輯關係和搭配關係。漢語智慧拼音文字的設計是電腦能夠在一定程度上瞭解這種詞和詞之間的關係。例如:y-klz(一棵)tudingmg(圖釘)將被電腦認定為搭配錯誤。因為量詞詞尾-lz是和名詞詞綴-mz搭配使用的,兩者都表示與植物有關的。同樣,在介詞和名詞之間,助詞和名詞、動詞、形容詞之間也有一定的搭配關係。這種搭配關係在詞形上就得到了明確的表示。電腦只要對幾個相關詞的詞形進行計算,就能瞭解這種關係。用漢語智慧拼音文字書寫的句子,電腦比較容易判斷出句子中的錯誤。值得一提的是這種判斷不借助詞庫,只需對詞形進行計算就可以完成。直接將一段中文拼音轉寫成漢字電腦很難作到準確無誤。但如果先將中文拼音轉寫成漢語智慧拼音文字,再由漢語智慧拼音文字轉寫成漢字就簡單了。關鍵在將中文拼音轉寫成漢語智慧拼音文字這裡:程式能夠根據漢語智慧拼音文字的詞之間的搭配關係,通過對同音詞詞性和詞義的計算選擇出最合適的詞。這是簡單的人工智慧。智慧化是漢語智慧拼音文字的最大特點。漢語智慧拼音文字使電腦可以進行簡單的思維。像人腦用漢語語音進行思維一樣,電腦用漢語智慧拼音文字進行思維。

(技術上的部分機密已經在這裡被暴露了。實在無法再做更詳細的描述。)

五、漢語智慧拼音文字的應用

漢語智慧拼音文字使電腦能夠寫出正確率更高的句子。電腦對漢語智慧拼音文字語法錯誤的判斷過程就是一個簡單的思維過程。由此我們可以設計出一個具有簡單智慧的軟體。

⒈漢字無編碼整句輸入軟體軟體。如果鍵盤上輸入的是漢語智慧拼音文字,那麼可以直接得到沒有語法錯誤的句子。漢語智慧拼音文字幾乎沒有重碼,漢語智慧拼音文字的詞總是對應特定的一個漢文字的詞。如果輸入不標調的現代漢語拼音,軟體啟動智慧模組,通過拼音——拼音文字——漢字的轉換過程將拼音轉寫成適當的漢字。軟體同樣支援現代漢語拼音和漢語智慧拼音文字的混合輸入。這種輸入法是理想的漢字無編碼輸入。漢語智慧拼音文字不是一種漢字編碼,它和人類思維的關係是直接的。由於不使用編碼,使用者幾乎可以不進行任何學習。與現在市場上能見到的各種輸入法軟體相比,這種智慧整句輸入軟體將會被廣泛使用。

⒉漢文字校對軟體。按照漢字——漢語智慧拼音文字——漢字的步驟處理,通過對漢語智慧拼音文字的校對得到正確的句子

⒊智慧翻譯軟體。按照外文——漢語智慧拼音文字——漢字的步驟處理,得到正確率較高的句子。在電腦進行翻譯時,一個外文單詞經常會有幾個不同的漢語意思。目前的翻譯軟體一般選用使用頻率較高的詞(語意),而不是根據正確表情達意的需要選擇詞。這樣翻譯出的句子仍然看不懂。我們的軟體在遇到這種情況時用外文單詞對應的幾個詞(語意)分別和上下文的詞進行組合搭配,根據漢語智慧拼音文字的規則進行計算。

本文作者:彭軍輝(北京諦聽機器人CEO)最初發佈於2002年;可見其獨立及前瞻性。

而且詞義也發生了變化,應當看作是兩個詞)。動詞沒有時態的變化。英語中動詞的時態變化,漢語中用副詞、助詞加上動詞表示。如,“我吃飯呢”“我正在吃飯”“我準備吃飯”“我吃過飯了”“我剛才吃的飯”“我早上已經吃了飯了”“在那個時候我正準備吃飯”。形容詞和副詞沒有比較級和最高級。用程度副詞修飾形容詞和副詞表示程度的高低深淺。

第四、虛詞在句子中使用頻率很高,功能也很強。虛詞中的介詞連詞助詞雖然不表示明確的含義,卻明確地表現了詞和詞、句和句的關係,使句子和句意的表達更加準確。代詞指代一定事物,可獨立充當句子成分。數詞和量詞表示數量。嘆詞表示感歎語氣。象聲詞表示聲音。虛詞不是由詞素構成的,它的數量也是有限的。

第五、獨立的實詞和實詞結構可以充當句子成分。虛詞(除代詞外)一般不能獨立充當語法成分。這裡所說的實詞結構包括片語、成語、歇後語、介詞結構、所有結構、修飾結構等。

第六、句子由主語、謂語、狀語、賓語、補語構成。主語是句子的施動者(在被動句裡是被動者),是句子的描述物件。謂語表示主語的動作、發展變化和其他狀況。狀語表示時間、地點。修飾謂語動詞的副詞不被當成狀語。它的功能是和動詞構成實詞結構一起充當謂語。賓語是謂語動詞的動作物件。補語是對句子做的補充說明。通常所講的定語不被當成獨立的語法成分,而被當成修飾結構的組成部分。

中文拼音文字是用來表達漢語語義的,它必須恰當反映漢語的特點。只要能達到正確表達漢語語義的要求,中文拼音文字甚至可以創造一些不發音的詞彙和符號。

三、漢語智慧拼音文字的產生

世界上最早產生的幾種文字都是象形文字。但一直到今天還在使用的只有漢字。大多數民族到最後都放棄了象形文字,而選用拼音文字。

人們使用語音交流的頻率遠遠高於文字和其他方式,而且人類思維也依靠語言。人們使用語音進行抽象、概括、判斷;人們使用語言表達情感。這使語言和語義高度統一,幾乎無法區分。也使文字在和語言的對決中始終處於被動地位。我們通常會認為文字是用來記錄語言的。實際上文字記錄的只是語言所要表達的語意。因此中文拼音文字也不是記錄漢字發音的,而是為了表達我們的思維設計的。

對於每個學習漢語的人來講,最大的困難都在於認知漢字。漢字的字形和讀音聯繫不大,難記。漢字的筆劃繁雜,難寫。我的幾個外國朋友可以用中文拼音和我聊天,卻認不了幾個漢字。我們在上小學的時候,對不認識的漢字,只要能讀出拼音就能弄明白詞義。有人在美國做過實驗,通過學習拼音,外國人很快就能讀說漢語。可以想像一旦成熟的拼音文字推出,漢字的障礙被掃除,學習漢語將成為輕鬆的事情,漢語在世界也將得到廣泛應用

什麼樣的中文拼音文字才能滿足我們的需要呢?幾十年來人們提出了各種各樣的方案。目前被認為是主流的方案採用了“現代漢語拼音+異拼+正詞法”的模式。我認為不妥。以現代漢語拼音為基礎我不反對。我也採用。關鍵在於分化同音詞的問題上,我主張從詞義的角度(而不是異拼+正詞法)出發去解決問題。在這個問題上人們容易犯這樣幾個方面錯誤:⒈為漢字編碼。中文拼音文字表達的物件是語意,不是漢字。當我們在使用中文拼音文字時,漢字就再也沒有在我們的腦子裡出現的必要了。⒉為漢語語音編碼。從表達語意的角度看,中文拼音文字標不標調不是首要問題,首先應該解決的是如何明確表達詞義的問題。為了準確表達詞義,我設計了大量表示詞義和詞類的詞綴。尾碼通常都要標,而四個表示聲調的首碼只在必要是才標。⒊隨意簡寫。哪些詞簡寫,應當根據表情達意的需要決定。對實詞的簡寫,很容易造成混亂。⒋使用數位標調。數位有專門的用途,用數字標調是違反慣例的,同樣會造成混亂。⒌對現代漢語拼音大動手腳。現代漢語拼音已經被廣泛採用和學習。過多改動必然增加人們的學習負擔,造成混亂。

從有利於漢語表情達意的需要出發,我設計了漢語智慧拼音文字。漢語智慧拼音文字首先將詞分為實詞和虛詞。實詞由拼音加上前尾碼構成。首碼表聲調,尾碼表詞義和詞類。虛詞有虛詞表加以規定。虛詞一般由中文拼音去掉母音產生,虛詞的構成字母不多於四個。在書寫時,數量詞連寫,詞和詞之間留空格,關係親密的詞有時可以用“—”連接。在句子中,主語前加z',謂語加w',賓語加b',狀語加k',補語加c'。

四、漢語智慧拼音文字的特點

隨手寫一段拼音,人腦就能夠理解。而電腦卻不能將它正確地轉寫為漢字。因為電腦不懂詞和詞之間的邏輯關係和搭配關係。漢語智慧拼音文字的設計是電腦能夠在一定程度上瞭解這種詞和詞之間的關係。例如:y-klz(一棵)tudingmg(圖釘)將被電腦認定為搭配錯誤。因為量詞詞尾-lz是和名詞詞綴-mz搭配使用的,兩者都表示與植物有關的。同樣,在介詞和名詞之間,助詞和名詞、動詞、形容詞之間也有一定的搭配關係。這種搭配關係在詞形上就得到了明確的表示。電腦只要對幾個相關詞的詞形進行計算,就能瞭解這種關係。用漢語智慧拼音文字書寫的句子,電腦比較容易判斷出句子中的錯誤。值得一提的是這種判斷不借助詞庫,只需對詞形進行計算就可以完成。直接將一段中文拼音轉寫成漢字電腦很難作到準確無誤。但如果先將中文拼音轉寫成漢語智慧拼音文字,再由漢語智慧拼音文字轉寫成漢字就簡單了。關鍵在將中文拼音轉寫成漢語智慧拼音文字這裡:程式能夠根據漢語智慧拼音文字的詞之間的搭配關係,通過對同音詞詞性和詞義的計算選擇出最合適的詞。這是簡單的人工智慧。智慧化是漢語智慧拼音文字的最大特點。漢語智慧拼音文字使電腦可以進行簡單的思維。像人腦用漢語語音進行思維一樣,電腦用漢語智慧拼音文字進行思維。

(技術上的部分機密已經在這裡被暴露了。實在無法再做更詳細的描述。)

五、漢語智慧拼音文字的應用

漢語智慧拼音文字使電腦能夠寫出正確率更高的句子。電腦對漢語智慧拼音文字語法錯誤的判斷過程就是一個簡單的思維過程。由此我們可以設計出一個具有簡單智慧的軟體。

⒈漢字無編碼整句輸入軟體軟體。如果鍵盤上輸入的是漢語智慧拼音文字,那麼可以直接得到沒有語法錯誤的句子。漢語智慧拼音文字幾乎沒有重碼,漢語智慧拼音文字的詞總是對應特定的一個漢文字的詞。如果輸入不標調的現代漢語拼音,軟體啟動智慧模組,通過拼音——拼音文字——漢字的轉換過程將拼音轉寫成適當的漢字。軟體同樣支援現代漢語拼音和漢語智慧拼音文字的混合輸入。這種輸入法是理想的漢字無編碼輸入。漢語智慧拼音文字不是一種漢字編碼,它和人類思維的關係是直接的。由於不使用編碼,使用者幾乎可以不進行任何學習。與現在市場上能見到的各種輸入法軟體相比,這種智慧整句輸入軟體將會被廣泛使用。

⒉漢文字校對軟體。按照漢字——漢語智慧拼音文字——漢字的步驟處理,通過對漢語智慧拼音文字的校對得到正確的句子

⒊智慧翻譯軟體。按照外文——漢語智慧拼音文字——漢字的步驟處理,得到正確率較高的句子。在電腦進行翻譯時,一個外文單詞經常會有幾個不同的漢語意思。目前的翻譯軟體一般選用使用頻率較高的詞(語意),而不是根據正確表情達意的需要選擇詞。這樣翻譯出的句子仍然看不懂。我們的軟體在遇到這種情況時用外文單詞對應的幾個詞(語意)分別和上下文的詞進行組合搭配,根據漢語智慧拼音文字的規則進行計算。

本文作者:彭軍輝(北京諦聽機器人CEO)最初發佈於2002年;可見其獨立及前瞻性。

Next Article
喜欢就按个赞吧!!!
点击关闭提示