機器翻譯是指利用計算機把一種自然語言翻譯成另一種自然語言的技術,是一門結合了語言學和計算機科學等學科的交叉學科。認知智能是人工智能的最高階段,自然語言理解是認知智能領域的“皇冠”。機器翻譯這一自然語言處理領域最具挑戰性的研究任務,則是自然語言處理領域“皇冠上的明珠”。近年來,機器翻譯發展十分迅猛,但對於機器翻譯與人工翻譯孰優孰劣、機器翻譯能否取代人工翻譯,一直存在爭議。機器翻譯之父韋弗曾提出“翻譯即解碼”的結構主義觀點,但是,數年之后,他自己又推翻了這一論斷,表示“機器成不了普希金,機器翻譯永遠都無法傳達出語言本身的優雅與格調”。
機器翻譯發展迅速
語言能力是區分人類和動物的重要特征之一,是人類有效交流的保証。用機器來進行語言翻譯的想法,最早可追溯到古希臘時期。現代意義上的“機器翻譯”一詞,由古圖拉特(Couturat)和洛(Leau)1903年在《通用語言的歷史》一書中最早提出。1949年,韋弗發表了具有廣泛影響力的名為《翻譯》的備忘錄,正式提出了機器翻譯的思想。直到2006年Hinton提出深度學習技術,才為實現這一目標提供了更好的解決途徑。目前的前沿技術是基於人工神經網絡的機器學習,其技術核心是一個擁有海量節點(神經元)的深度神經網絡,可以自動地從語料庫學習翻譯知識。一種語言的句子被向量化之后,在網絡中層層傳遞,轉化為計算機可以“理解”的表示形式,再經過多層復雜的傳導運算,生成另一種語言的譯文。
2015年,蒙特利爾大學引入注意力機制,使得神經機器翻譯達到實用階段。此后,神經機器翻譯不斷取得進展。2016年,谷歌GNMT發布,該系統可模仿人腦的神經思考模式,翻譯出與人工翻譯相媲美的譯文。同年,微軟在Switchboard對話語義識別達到人類水平,訊飛上線NMT系統,神經機器翻譯開始被大規模應用。科學雜志Nature梳理了2016年科技領域的十大突破,排在首位的就是人工智能,其中提及人工智能的機器翻譯使錯誤減少了約60%。隨后,Facebook的人工智能研究團隊開發了一種新的神經機器翻譯算法,在三種機器翻譯任務上得分高於所有同類系統。2017 年,微軟在斯坦福問答數據集 SQuAD 上達到人類水平。機器翻譯的發展速度遠遠超出人們的想象,但是對於機器翻譯是否能夠真正完全代替人工翻譯,學界仍舊爭論不休。
機器翻譯取代人工翻譯
目前而言,一部分專家認為機器翻譯很快會達到人工翻譯水平,在不遠的將來會完全取代人工翻譯。2010年,谷歌機器翻譯專家歐赫認為文本機器翻譯是合理有效的,真正的挑戰隻在語音識別方面。他提出,未來幾年即有可能實現手機端語音到語音的自動翻譯。2019年2月《衛報》刊登《機器翻譯的時代是否已經到來》一文,美國韋弗利實驗室(Waverly Labs)的安德魯·奧喬亞表示“在未來十到十二年內,機器翻譯技術可與人工翻譯相媲美,甚至超過人工翻譯的水平”。
專家們對於機器翻譯的信心來自最新一代的翻譯技術——神經網絡翻譯。神經網絡翻譯打造的機器翻譯系統,採用了一系列新的學習手段來模擬人工翻譯。首先,利用人工智能任務的天然對稱性進行對偶學習。當訓練集中的一個中文句子被翻譯成英文后,系統會將相應的英文結果再翻譯回中文,並與原始的中文句子進行比對,進而從這個比對結果中學習有用的反饋信息,對機器翻譯模型進行修正。其次,利用推敲網絡,模擬人們寫作時不斷推敲、修改的過程。這樣,通過多輪翻譯,不斷地檢查、完善翻譯的結果,使翻譯的質量得到大幅提升。再次,採用聯合訓練的方法迭代改進翻譯系統。用中英翻譯的句子對去補充反向翻譯系統的訓練數據集,同樣的過程也可以反向進行。最后,採用一致性規范讓翻譯可以從左到右進行,也可以從右到左進行,最終讓兩個過程生成一致的翻譯結果。這一系列技術有效模仿了人工翻譯的過程,極大提升了機器翻譯的整體質量。
除此之外,機器翻譯相關學科之間的互動更加頻繁,合作更加緊密。翻譯界和技術界都呈現出了更大的包容性,相關人士達成一定共識,即過去那種把語言學家排除在外,僅依賴技術界,埋頭做數據、分析開發系統的做法是不可取的。在語言學和翻譯學領域,越來越多的人開始關注機器翻譯,對技術應用探索也不再一味抵觸,開始從用戶和市場需求的角度來客觀看待不同層級和不同受眾的語言服務,計算機輔助翻譯在專業翻譯領域發揮著越來越重要的作用。 機器翻譯技術仍備受質疑
對於現有的機器翻譯技術,很多學者也表示質疑。一方面,他們認為機器翻譯的廣泛適用性還有待考察。盡管機器翻譯在某些測試中正確率較高,而且在某些領域接近或超過人工譯員,但是這些測試只是針對特定范圍的文本,要想達到測試水平,必須滿足對於源語言和環境的苛刻要求。在筆譯方面,馮志偉在《機器翻譯研究》中表示,目前的機器翻譯系統對普通文本的翻譯在可讀性和准確性方面離人們的實際需求還有相當大的距離。機器翻譯系統對普通文本的翻譯,通常需要大量的譯后審校工作才能使譯文達到出版的要求,所花費的時間和費用往往會超過純人工翻譯。在口譯方面,中國科學院自動化研究所宗成慶在《機器翻譯的夢想與現實》中指出,在日常口語對話中,目前口語機器翻譯僅能對資源較為充分的語言(如英漢、日漢等),在說話場景不是非常復雜、口音基本標准、語速基本正常、使用詞匯和句型不是非常生僻的情況下,可基本滿足正常交流的需要。
另一方面,針對機器翻譯的譯文整體水平,目前還沒有建立起專業合理的評價體系。目前使用較多的是BLEU和METEOR標准,BLEU評測由IBM公司於2002年提出,認為翻譯系統的譯文越接近人工翻譯,翻譯的質量就越高。該評測通過分析候選譯文和參考譯文中n元組共同出現的程度來定義系統譯文與參考譯文之間的相似度,缺點在於沒有考慮翻譯的召回率。METEOR標准於2004年由Lavir提出。研究表明,召回率基礎上的標准相比於那些單純基於精度的標准(如BLEU),其結果和人工判斷的結果有較高相關性。微軟全球技術院院士黃學東表示,“當機器翻譯質量很差的時候,使用 BLEU 評分還行,但是當機器翻譯質量提高以后,就需要靠人類來評價”。但人工評價很難保持統一的標准,所以有些專家直接否定了現有的評價體系以及將譯文水平量化的做法。美國印第安納大學侯世達教授在《論谷歌翻譯的淺薄》一文中表示,“這是一種對無法量化的事物進行量化的偽科學,用看上去很科學的圖表去証明翻譯質量,不過是對科學方法的濫用而已”。
機器翻譯不可能代替人工翻譯
神經網絡翻譯技術的應用帶動了機器翻譯的飛速發展,使得一部分學者對此非常樂觀,但也有許多學者對此提出了批評。語言學和翻譯學界的很多學者認為目前機器翻譯的發展有限,“信”尚且未達成,更遑論取代人工翻譯。多位學者表示人在翻譯中的主動性和創造性是機器無法比擬的。如美國加州大學伯克利分校語言學系教授喬治·萊考夫與美國俄勒岡大學哲學系教授馬克·約翰森在《我們賴以生存的隱喻》一書中提出,語言在本質上更多是隱喻性而非事實性的。人類語言習得常基於對抽象的、具有比喻意義的概念的學習,向機器解釋這些概念非常困難,文學翻譯更是機器翻譯難以逾越的鴻溝。胡壯麟在《語言學教程》中提出,僅靠文本分析、忽略現實、沒有“人”這一主體參與的“機器翻譯”,是站不住腳的。
專家們認為測試中機器翻譯技術的進步帶來的譯文雖有改善,但不論文本翻譯還是口譯,機器翻譯的質量遠沒有達到令人滿意的水平。盡管機器翻譯已迭代至神經網絡翻譯,宗成慶研究員在《機器翻譯的夢想與現實》中指出,目前的翻譯系統“難以准確處理篇章范圍內的指代問題,無法准確區分由於細微文字或句法差異造成的句子語義反轉,無法從譯員譯后編輯過程中自動學習翻譯知識。在復雜長句翻譯中大量出現漏翻、錯翻和次序顛倒﹔面對原文的噪聲束手無策﹔俚語成語的翻譯仍是不可攻克的堡壘,機器同聲傳譯的語音識別問題仍然沒有很好地解決”。清華大學智能技術與系統實驗室主任劉洋在《基於深度學習的機器翻譯》的報告中提到了機器翻譯的進展和面臨的三個挑戰,知識整合、解釋性和對噪聲具有魯棒性。現有的研究正針對這三個挑戰進行系統優化,但從理論研究到應用還需要繼續努力。
人機協同是必然趨勢
筆者認為機器翻譯和人工翻譯各有優勢,人機協同是必然趨勢。隨著語言學、計算機科學、認知心理學等學科的發展以及以上學科在機器翻譯領域的進一步合作,機器翻譯技術的迭代必將以更快的速度持續發生,從而推動機器翻譯的質量不斷提升至接近甚至在一定條件下達到或超過人工翻譯的水平。但是在情感、文化等需要對語言進行深度理解的情況下,機器翻譯並不能完全代替人工翻譯。二者將在理論發展、技術進步與市場推動的多重作用下,成為緊密結合互補的有機整體,實現真正意義上的人機協同。
人工智能旨在讓計算機復制人類的行為。看、聽、行動、計劃都是典型的人類行為,而其中最復雜的任務是溝通,最難的是具備翻譯的能力。這就是人工智能研究人員將解決機器翻譯問題看作實現人工智能關鍵的原因。人工智能的時代已經到來,與語言服務業蓬勃發展態勢相適應的是,傳統意義上的譯者角色已滿足不了新時代語言服務提出的新要求。技術必將逐漸改變人們的工作、生活方式,實現消滅語言障礙的終極目標。在這個過程中,機器翻譯可以減少譯員大量重復、翻譯難度較低的勞動,避免翻譯疲勞、提高翻譯效率,替代諸如天氣預報查詢、旅館預訂服務、交通信息咨詢等低端翻譯人員,但不可能取代高端翻譯(如重要文獻、文學名著等翻譯)人員,更不會消除翻譯職業。如劉星光在《中國機器翻譯研究述評:問題與對策》一書中提出,機器翻譯與人工翻譯並不矛盾,機器翻譯和人工翻譯我們都需要,這要根據所翻譯的材料而定。
“機器會翻譯了,人類就不需要學習外語”的思維邏輯與“有了計算器,就可以不用學算術”一樣無稽。即使未來人工智能翻譯在准確性和速度上超越了人工翻譯,人工翻譯在傳達情感、文化以及語言深層含義方面的作用仍不可替代。低端譯員的淘汰,本質上講,是行業內部優勝劣汰加速的結果,機器翻譯的出現只是加快了這一進程。人機協同是人工翻譯在人工智能時代下的必然選擇,也是提升行業質量與競爭力的必由之路。正如趙聯斌在《論機器翻譯時代人工譯員與機器譯員的共軛相生》一文中提到,“未來的人工譯者絕不是僅懂計算機技術或僅具備雙語能力的人,而應是集計算機能力與雙語能力於一體的復合型人才”。
(作者單位:廈門大學嘉庚學院)