古人說,給我一個支點,給我一個足夠長的杠桿我能撬起地球;程曦介紹說,谷歌翻譯幕后功臣曾經說,給我足夠的平行語料庫,我可以在一個小時之內把任何兩種語言互譯出來。
能夠讓谷歌的工程師實現這句話,依靠的是谷歌堅持的“統計翻譯”的方式和谷歌大量的、并不斷增長的數據。程曦表示,谷歌翻譯能夠依靠統計翻譯理念發(fā)展到今天,其實要感謝IBM在1993年提出這個理念,這是具有劃時代意義的。
谷歌從2003年開始研發(fā)翻譯產品,經過不斷改進和添加功能,現在可以實現實時的翻譯、為網站提供語言翻譯轉換插件、在翻譯同時提供相關搜索結果,等等功能。隨著通過谷歌搜索納入數據量的增加,統計翻譯帶來的翻譯質量理論上也會相應不斷提高。
很顯然,谷歌翻譯已經不是一個純粹的翻譯產品,或者說是改變了人們印象中的翻譯產品的概念。谷歌宣稱自己的使命是“管理全世界的信息”,如谷歌程曦所說,谷歌產品的發(fā)展目標是為了“使全世界的信息能夠變得非常易用,而且讓世界上所有人都用”。
但語言是其中的一個障礙;轿幕械膫髡f是,上帝為了阻止人類建造能登臨天堂的巴別塔,讓人類開始說各種不同的語言,因此引起紛爭。但時至今日,全球化讓不同語種人間的溝通顯得空前重要,科技的巨大進步讓各種科技產品的實現成為可能。
精彩觀點:
肯定一點的就是我們的這個團隊不會有人說所有的51種語言,然而這正是基于統計的機器翻譯和數學所最美麗的地方,它可以利用這些統計規(guī)律,讓你在不懂這些語言的情況下,讓你以足夠的理性去分析這些語言所共同出現的這種現象,然后用計算機這個完全不懂人類語言的東西從中找出規(guī)律,幫助我們進行翻譯。
隨著互聯網不斷的發(fā)展,我們看到的爆炸性的趨勢,2003年整個互聯網上產生的所有的文本的數量比人類在2002年以前所有產生的文本數量還要大,隨著這樣的一個爆炸趨勢,人們越來越多的能夠產生很多很多的內容,我們希望通過這些數據能夠進一步提高我們的翻譯的質量,這是最重要的。
有意思的故事,我想最有名的一句話可能是“谷歌翻譯幕后功臣曾經說過一句話,他效仿的是一句古人說過的話,古人說給我一個支點,給我一個足夠長的杠桿我能撬起地球,但是他曾經說過一句話,給我足夠的平行語料庫,我可以在一個小時之內把任何兩種語言把你翻譯出來,這是一句非常有意思的話。也是展現了科學家對于這個行業(yè)的理解。
其實我們所有的人都應該感謝IBM曾經在1993年的時候它有四個研究型的科學家提出了當時基于統計的翻譯模型,這是具有劃時代意義的,這個開創(chuàng)了整個基于統計的機器翻譯的理論基礎。
從計算機科學的角度來講,我們所說的數據給了我們這個機器學習的樣本,這個算法決定了我們學習這個樣本的準確程度和速度,這兩者完全是一樣重要的,丟了哪個都不能繼續(xù)下去。大家甚至可以繼續(xù)想一想,數據就好象是大家學習的本身的材料,課本本身,但是算法決定著你學了這個東西以后去應用它的時候有多么準確和多么的快。
谷歌有一個使命,我們不斷地重復,產品的所有發(fā)展都是沿著這個方向來的,“使全世界的信息能夠變得非常易用,而且讓世界上所有人都用”,大家可以看到語言就是這樣的一個障礙,我們希望翻譯在線,甚至是翻譯在線所延展出去的這些翻譯能夠解決人們這樣的問題。
我曾經在摩洛哥旅行,我會說英語,我會說中文,然后到了那兒以后,那兒的官方語言是法語和阿拉伯文,看著路牌上的豆芽完全不懂,這個時候我突然意識到一點,我即使拿上一本字典,我也不知道怎么查。大家可以想一想,未來翻譯發(fā)展的空間實際上是非常大的,人們去說,人們去寫,人們去拍照,這些東西將會和翻譯的這種功能結合起來,讓人們解除所有的溝通上的障礙。
以下是谷歌中國用戶運營部經理程曦專訪實錄:
騰訊科技:各位騰訊科技的網友,大家好!非常感謝大家關注我們騰訊科技的嘉賓訪談節(jié)目。
我們今天非常高興請到的是谷歌中國用戶運營部經理程曦,我們知道在今年11月26號,谷歌的翻譯產品全新改版上線,這是中國的工程師團隊第一次主導谷歌的一個產品。
我們今天非常高興請到了谷歌中國的用戶運營部的代表來跟我們討論一下新版上線的新的一些功能和谷歌翻譯這個產品發(fā)展上的一些策略上的想法和未來的一些趨勢。
程曦你好!首先請你跟我們的網友打一個招呼。
程曦:騰訊科技你好,各位觀眾,各位網友們,大家好!
騰訊科技:我們知道新版的谷歌翻譯上線是谷歌中國的團隊第一次主導這個產品,那么為什么谷歌會把這樣一個產品給到中國的工程師團隊呢?
程曦:其實原因也很簡單,谷歌在全球的工程部它是分散在全球的,所以谷歌在中國部門正好被選中來做這樣的一個產品,然后我們實際上還有其他很多工程師負責的是全球的產品,例如說有地圖,包括有網頁搜索的中文部分,還有例如說有社區(qū)類的產品都是全球的項目,但是會分散在全世界的各個地方去開發(fā)。
騰訊科技:這次把翻譯的這個項目給中國的團隊來做,那是有一個什么樣的特別的考慮嗎?因為我們知道中文是在全世界擁有最大的人口范圍,是有這樣一個特別的考慮嗎?
程曦:大家可以想一想,考慮到所有的語言之間的翻譯來講,中文和英文加起來就能夠囊括世界上將近一半的人口,所以這個也是很顯然的一個理由,會把翻譯這個產品放在中國來做。
主要語種:英語翻譯 日語翻譯 韓語翻譯 法語翻譯 德語翻譯 俄語翻譯 西班牙語翻譯 意大利語翻譯
|