圖、歐洲專利局的Patent Translate機器翻譯品質再提升
自2013年起,歐洲專利局(EPO)提供免費的Patent Translate機器翻譯工具,使任何對專利有興趣的人都可以查找全球不同語文的專利文獻,最近EPO再推出由Google開發的新技術「類神經網路機器翻譯」(Neural Machine Translation,NMT),進一步改善該項服務的翻譯品質,除英文之外,NMT還可用於8種語言,即中文、法文、德文、日文、韓文、葡萄牙文、西班牙文及土耳其文。以正確性和流暢性來說,新的NMT大幅改善了譯文的品質。
這個顯著進步部分歸因於EPO和Google長期以來的積極合作,Google的機器翻譯專家在最近的演說中坦率表示,和EPO的合作是Google能達到目前機器翻譯品質的關鍵一步,一個成功因素是EPO能持續提供大量資料,因為好的機器翻譯品質,其先決條件是先要有相關兩種語文的高品質人工翻譯,電腦可以分析這些人工翻譯並從中學習,但需已存在大量的已翻譯好的文本,也就是來自EPO專利家族資料庫所收錄不同語文的專利文件,EPO在Patent Translate在考慮推出一種語文前,都已先建立數以萬計人工翻譯的語料庫(corpus)。
機器翻譯不僅正在取代人工翻譯,並使以前無法利用的巨量資料可進行專利檢索,例如在2013年時,EPO預估將當時所有的中文專利文件譯為英文需要16,000人/年,現在Patent Translate只要一瞬間就完成英文、法文和德文翻譯,還包括其後公告的文件,品質水準亦足以讓使用者瞭解該發明的本意。
Patent Translate使用Google最新發展的機器翻譯技術 “Attention”,利用不斷地嘗試錯誤(trial and error)找到正確的單字和片語,建立與人腦類似的人工神經通路,隨著神經通路增加而形成網路,由於是利用現有已翻譯好的專利文件中的語言對(language pairs),產出的譯文非常精確。
利用NMT和EPO的專利資料,Google自動翻譯已到達一個新水平,其他多種語文亦正在規劃中。
進一步資訊可參閱 Issue 2/2017 Patent Information News
--------------------------------------------------------------------------------------------------------------------------------------------