新聞中心

新聞中心

為什么 中文 不 需要 空格

2024-09-16

當我們閱讀英文時(shí),如果單詞之間沒(méi)了空格,一個(gè)句子在我們看來(lái)會(huì )變成!@#¥%……&*()這樣的一串近似亂碼的字符。然而,當我們在中文句子的詞與詞之間添加空格時(shí),似乎又顯得有些冗余,例如 當 你 看到 這 句 話(huà) 的 時(shí)候……


不加空格的英文與加空格的中文(圖片來(lái)源:編輯自制)

事實(shí)上,即使對于英語(yǔ)母語(yǔ)者來(lái)說(shuō),用空格分隔單詞對閱讀也是十分必要的。那么,為什么英語(yǔ)需要空格來(lái)分隔單詞,而中文卻不需要呢?這種差異背后有什么深層原因?中國科學(xué)院心理研究所的科學(xué)家們通過(guò)研究,發(fā)現這里面有一個(gè)“經(jīng)濟”問(wèn)題。
空格自帶“信息量”

中英文里還不一樣

英語(yǔ)作為一種字母書(shū)寫(xiě)系統,每個(gè)字母表示一個(gè)音素,通常由多個(gè)字母組成一個(gè)單詞。英語(yǔ)文本用空格清晰而明確地標記了一個(gè)詞的起始和結束位置,即詞邊界。中文就不需要標記詞邊界么?
中文是一種典型的表意書(shū)寫(xiě)系統,每個(gè)漢字表示一個(gè)音節或語(yǔ)素。中文文本由連續的漢字組成,不同的詞之間沒(méi)有用空格分隔。大多數中文詞可以用一到兩個(gè)漢字表示,詞長(cháng)較短且變化較?。ㄆ骄~長(cháng)為1.40個(gè)漢字,標準差為0.57)。因此,中文讀者在閱讀時(shí)容易預測詞的長(cháng)度,從而更快識別詞的開(kāi)始和結束位置,即中文詞邊界位置的不確定性較小。
相比之下,英語(yǔ)單詞往往由多個(gè)字母組成,且詞長(cháng)的變化較大(平均詞長(cháng)為3.78個(gè)字母,標準差為2.04),這使得英語(yǔ)讀者較難預測每個(gè)單詞的開(kāi)始和結束位置,即英語(yǔ)詞邊界位置的不確定性較大。
研究者基于大規模語(yǔ)料庫,運用信息論方法量化了27種語(yǔ)言中空格為確定詞邊界提供的信息量。研究結果表明,不同書(shū)寫(xiě)系統是否采用空格標記詞邊界與空格提供的詞邊界信息量有關(guān):在采用空格的書(shū)寫(xiě)系統如英語(yǔ)中,空格提供的信息量更大(2.90比特);而在不采用空格的書(shū)寫(xiě)系統如中文中,插入的空格提供的信息量更?。?.10比特)。

27種語(yǔ)言中詞間空格為確定詞邊界提供的信息量

空格信息量差異的根本原因與不同書(shū)寫(xiě)系中詞邊界位置的不確定性有關(guān)。**中文詞邊界位置的不確定性較小,即使在詞和詞之間插入空格,其為確定詞邊界提供的額外信息有限;而英語(yǔ)詞邊界位置不確定性較大,詞間空格可以為確定詞邊界提供更多的信息量。**空格的“信息量”

對讀者到底有啥用?

空格為詞邊界提供的信息量反映了在閱讀無(wú)空格文本時(shí),讀者為詞切分付出的認知努力。
**在沒(méi)有空格的情況下,讀者需要將一行連續的字符串切分為不同的詞,即詞切分,也就是平時(shí)我們所說(shuō)的“斷句”。**在這個(gè)過(guò)程中,讀者需要利用語(yǔ)境信息和語(yǔ)言知識進(jìn)行詞切分。并且在一些情況下詞切分的結果可能是錯誤的,這時(shí)讀者需要檢測和修正詞切分錯誤。例如,不少讀者在看到“世界杯中日韓進(jìn)入16強”這一新聞標題時(shí),會(huì )將其切分為“世界杯/中日韓/進(jìn)入16強”。而在閱讀了新聞內容后,讀者發(fā)現新聞并不像預想的那樣,從而意識到切分錯誤,并將標題的切分修正為“世界杯中/日韓/進(jìn)入16強”。
**讀者在詞切分過(guò)程和檢錯糾錯過(guò)程中付出的認知努力都將影響閱讀速率。**英語(yǔ)的空格信息量較大,文本去掉空格后,讀者需要付出更多認知努力進(jìn)行詞切分,更容易出現詞切分錯誤;但中文如果在文本中插入空格,空格提供的信息量較小,讀者不需要付出太多認知努力切分無(wú)空格文本。因此,英語(yǔ)傾向于使用空格以減少詞切分的認知負擔,而中文則選擇不使用空格。
與該研究發(fā)現一致,以往研究表明改變詞邊界的標記方式對不同語(yǔ)言讀者的閱讀效率產(chǎn)生了不同影響。這些研究發(fā)現,在空格信息量較大的書(shū)寫(xiě)系統(如英語(yǔ))中去掉空格,閱讀速率大幅下降約50%;而在空格信息量較小的書(shū)寫(xiě)系統(如中文),即使插入空格,閱讀速率也不會(huì )顯著(zhù)提升。

詞邊界的標記方式對閱讀效率的影響

用空格與不用空格

都是為了更“經(jīng)濟”?

英語(yǔ)選擇用空格,中文選擇不用空格,這可能都是為了實(shí)現閱讀的經(jīng)濟性而做出的選擇。
**在閱讀時(shí),一個(gè)注視點(diǎn)的視覺(jué)感知范圍有限,空格的插入會(huì )導致讀者在一個(gè)注視點(diǎn)上感知的字符變少,從而降低視覺(jué)感知效率。**對中文而言,插入的空格提供的信息量小,讀者不需要付出太多的認知努力切分無(wú)空格的文本。因此,在中文中空格為詞切分帶來(lái)的效益不足以抵消它在視覺(jué)感知方面導致的代價(jià),故中文不采用空格是更經(jīng)濟的。相對地,英語(yǔ)等字母書(shū)寫(xiě)系統中空格提供的信息量較大,去掉空格會(huì )導致讀者付出更多的認知努力進(jìn)行詞切分。因此,對于英語(yǔ),空格為詞切分帶來(lái)的效益遠大于它在視覺(jué)感知方面導致的代價(jià)。
由此可見(jiàn),雖然不同書(shū)寫(xiě)系統或采用或不采用空格標記詞邊界,但都是為了達到高效閱讀,在權衡詞切分需要付出的認知努力和閱讀時(shí)的視覺(jué)加工效率后,選擇了更經(jīng)濟的詞邊界標記方式。歷史演化的證據

從字母書(shū)寫(xiě)系統的演化歷史來(lái)看,人們逐漸改革書(shū)寫(xiě)系統,以實(shí)現最經(jīng)濟的詞邊界標記。
歷史上,字母書(shū)寫(xiě)系統并非始終使用空格標記詞邊界。由于轉錄的口語(yǔ)中沒(méi)有詞邊界信息且書(shū)寫(xiě)材料昂貴,早期書(shū)寫(xiě)文本中沒(méi)有空格。讀者為了理解文本意義不得不出聲閱讀,導致閱讀效率較低。這一時(shí)期的書(shū)寫(xiě)系統僅由少數抄寫(xiě)員或傳教士使用。直到文藝復興時(shí)期,隨著(zhù)大眾閱讀需求增加,這些書(shū)寫(xiě)系統才逐漸加入詞間空格,提高了識字率和閱讀效率。由此可見(jiàn),字母語(yǔ)言中加入詞間空格這一書(shū)寫(xiě)系統的變革逐漸適應了人類(lèi)的認知需求,更符合經(jīng)濟性原則。
相較之下,中文文本在歷史上一直沒(méi)有使用空格來(lái)標記詞邊界。標點(diǎn)符號的使用降低了中文文本的閱讀難度,使句子邊界更加清晰,幫助讀者更快理解句子的結構和意思,從而提高了閱讀效率。
然而,**即使在使用標點(diǎn)符號后,中文仍未像字母語(yǔ)言那樣采用詞間空格。這表明標點(diǎn)符號的使用足以減輕中文讀者閱讀中的認知負荷,而空格帶來(lái)的額外效益不足以抵消其對視覺(jué)加工效率的負面影響。**中文這種與字母書(shū)寫(xiě)系統不同的演化路徑也同樣遵循了經(jīng)濟性原則,在保留原有書(shū)寫(xiě)形式的基礎上,通過(guò)較少的改動(dòng)有效提升了閱讀效率。

2024 /

09-16

所屬分類(lèi):

新聞中心

公司新聞

相關(guān)資訊—

亚洲无码网站在线免费观看_久久久久看夜夜爽无码不卡_人妻精品久久字幕妓女网_亚洲av综合色区无码一区爱av