漫谈巴别塔和机器翻译引擎
最近人类的世界的确热闹非凡。除了可控核聚变实验取得历史性突破外,去年年底发布的ChatGPT就颇让上帝惊呼了一番人类的疯狂,前几日常温超导的新闻横空出世也让人们浮想联翩。未来,一切常规工种也许都被AI和AI指挥的各种机器人承包了;人类也许解决了能源问题,出行不再依赖地面交通网络。那时候,世界必定更加精彩,也许更加无趣。
巴别塔的故事
《圣经旧约创世记》第11章里面讲了一个关于巴别塔的故事。在很久很久以前,人类都讲着同一种语言。疯狂的人类产生了修建一座通天之塔,顺着通天之塔爬到天堂的想法。由于大家的语言统一,协调起来很快,通天之塔很快就进入修建状态。这座修建中的通天之塔被命名为Babel Tower,中文世界一般将之翻译为巴别塔。万能的上帝很不满于人类的狂妄自大和对神灵的亵渎,决定惩罚一下愚蠢的人类。上帝施展魔法,让全世界有了各种各样的语言。从此,人类世界的沟通不再畅顺,误解和嫌隙很快出现,巴别塔的修建因为这种误解半途而废。正是因为有了不同的语言和文化背景,人类世界从此冲突不断,战乱频仍。
获得奥斯卡提名的影片《Babel》在结束语中讲到,“the brightest light in the darkest night”,即便是在沟通困难重重的环境下,人类还是克服一切阻力来达到信息传递和交流。据说,巴别塔的故事,便是翻译这门职业的起源。在中国,最早的翻译起源于《越人歌》的翻译,相传是中国第一首译诗。鄂君子皙泛舟河中,打桨的越女爱慕他,用越语唱了一首歌,歌词中唱到“山有木兮木有枝,心悦君兮君不知”鄂君请人用楚语译出,就是这一首美丽的情诗。有人说鄂君在听懂了这首歌,明白了越女的心之后,就微笑着把她带回去了。不管是西方的故事还是东方的故事,翻译所起到的作用都是信息的传递和沟通。信息的传递和沟通是消除一切误会和嫌隙的必要手段。巴别塔的修建虽然半途而废,但是人类世界修建新的巴别塔,以消弥不同种族之间沟通的努力从来没有停止过。这“新的巴别塔”便是机器翻译引擎,它被誉为AI领域的明珠,人工智能的终极目标。
机器翻译引擎简史
说起来,机器翻译引擎的发展也有了近百年的历史了。
1933年,苏联科学家Peter Troyanskii、法国科学家G.B. Artsouni提出了“自动翻译机”的想法。1954年1月7日,美国乔治敦大学在IBM协助下,首次完成了机器翻译试验,使用IBM 701计算机完成了史上首例机器翻译,自动将60个俄语句子翻译成了英语,正式拉开了机器翻译研究的序幕。1966年11月,美国科学院语言自动处理咨询委员会公布了一份名为《语言与机器》(简称 ALPAC 报告)的报告,全面否定了机器翻译的可行性,导致机器翻译的发展陷入了十几年的停滞。1976 年由加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发了TAUM-METEO 系统;1980年IBM开发了“翻译助手”工具。这些古老的翻译系统都是通过对句子的语法结构进行分析,构建语法树,通过词语及其形变等进行对应的翻译和修改。基于语法和结构构建翻译引擎的思路试图使用规则的方法来解释不规则的语言,这注定了它的结局。
1990年代,人类开发的机器翻译系统进入了基于机器统计引擎Statistical Machine Translation的时代,其特点是通过统计分析大量的翻译语料库Translation Corpus建立翻译模型来完成翻译任务。它背后的逻辑很简单,就是“如果人们都这么翻译,我也这么翻”。翻译引擎的质量终于达到了实用的阶段,但是仍然不够准确。
2014年,蒙特利尔大学学者Kyunghyun Cho等人发表论文《Learn Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation》,被称为是在机器翻译中应用神经网络的定鼎制作,这催生了两年之后谷歌翻译引擎的诞生。神经网络技术本身提出时间很早,但是人类重新注意到它也只是20年前的事情。今天,人们熟悉的谷歌翻译、DeepL,都采用了这一技术。简单来说,神经网络技术通过寻找语言文本里面的特征,对语言进行“理解”之后,用另外一种语言进行重新描述,从而达成翻译的任务。DeepL采用改进的神经网络技术,其翻译结果准确性较谷歌翻译引擎更为优异。
2022年底,美国OpenAI发布了基于大型语言模型Large Language Model理论的聊天机器人ChatGPT,把机器翻译的算法再次向前推进了一大步。ChatGPT通过处理大量数据来响应提示,这注定了其算法的优异之处在于,只要给它足够的数据,其翻译的结果必定会越来越准确。和别的翻译引擎不同的是,可以告诉ChatGPT需要翻译的句子的一些环境信息,这被称为提示词(Prompt)翻译。比如,你可以告诉它“这是医疗领域的一个句子,请将它从法语翻译成德语”。目前业界普遍认为,通过不同领域、不同语种的大量数据训练之后,ChatGPT前景光明。ChatGPT将来既可以适用于口语化的翻译,也足以适用于专业化的翻译。但是,就目前的实际测试结果来看,ChatGPT相较人工专业翻译,不论是准确性还是鲁棒性,仍然存在不小的差距。专业的翻译会对ChatGPT翻译的结果提出很多优化建议。不管怎么说,现在的谷歌翻译、DeepL和ChatGPT,已经能够解决很多问题。那么,机器翻译引擎何时能够达到并超过人工专业翻译的水平?人们对以ChatGPT为代表的AI 3.0充满了期盼。时间,会告诉我们一切问题的答案,不是么?可以想象,随着人工智能引擎的发展,人类修建的新的巴别塔将越来越高,万能的上帝给人类设置的惩罚将迟早有一天不复存在。
结束语
文章最后,顺便探讨一个话题,人类是不是就可以不再学习新的语言了呢?说起来,人们在整个婴幼儿阶段、小学阶段、中学阶段,花费最大的精力进行学习的,其实是自己的母语。人们连自己的母语尚且需要花费大量的精力进行学习,何况一门全新的语言乎?更不用说,学习语言不仅仅只是为了推翻上帝的惩罚,不仅仅只是简单的沟通,更重要的,其实是在学习语言的过程中,体验各种文化的魅力。Ludwig Wittgenstein的一句名言:“我的语言之局限,即我的世界之局限”,可以作为这个问题的the Best Answer。
原创文章,转载请联系并取得许可。