分享會上,搜狗公司專家研究員翟飛飛、搜狗杭州研究院首席研究員張奇分別分享了搜狗在翻譯及問答領域的技術研究及成果。翟飛飛表示,“目前的翻譯常見于基于一個句子進行,但實際生活中的應用范圍卻是場景和篇章,希望通過我們的分享,能夠幫助大家在翻譯上做更多探索。”張奇則對機器問答技術進行了介紹,“整個問答就是搜索加上閱讀理解,搜索引擎已從‘搜關鍵詞得鏈接’發(fā)展到‘搜問句得答案’的時代。”
擁有龐大用戶量的搜狗,積累了海量數據集,此次為大賽開放企業(yè)級數據集,一方面,有效解決了AI技術落地中數據集缺失的問題,讓AI技術更加實用化地應對真實世界的問題。另一方面,為人工智能產業(yè)發(fā)掘并培養(yǎng)優(yōu)秀人才,促進行業(yè)發(fā)展創(chuàng)新。
全球規(guī)模最大數據集,助力翻譯體驗更加人性化
2017年,搜狗作為主辦方之一,在第一屆AI Challenger中主持翻譯賽道,開放1000萬規(guī)模的中英雙語數據集,吸引超2000個團隊的6000名左右選手參賽。今年,搜狗再次開設翻譯領域賽道——英中文本機器翻譯,在去年1000萬級中英雙語數據的基礎上,新增300萬帶有上下文情景的雙語數據,開放1300萬全球規(guī)模最大的口語領域英中雙語對照數據集,在開放的中英語料里,搜狗超過千萬級的語料規(guī)模,僅次于聯(lián)合國平行語料庫(億級)。真實有價值的企業(yè)級數據為機器翻譯的研究提供更多探索空間,推動翻譯產品使用體驗更加人性化。
企業(yè)級的數據來自于搜狗在機器翻譯領域的多年積累,翻譯是搜狗AI戰(zhàn)略中的重要一環(huán),且搜狗已取得階段性成果突破,不僅在國際學術賽事WMT 2017中層獲得中英和英中機器翻譯雙向冠軍,并且發(fā)布了全球首次商用基于深度神經網絡的同傳翻譯技術,在領先技術的支持下,搜狗推出英文搜索、翻譯寶pro等軟硬件產品,率先推動AI翻譯技術走向實用化,將技術真正落到實處。
全球難度最大數據集,為提供更精準的答案積蓄力量
機器的使命之一是和人做溝通,如何讓人和機器能夠更自然地溝通交互是當前發(fā)展人工智能技術的前沿議題。隨著人工智能的發(fā)展,問答技術成為推動人與機器自然溝通的下一個發(fā)力點,問答相當于搜索加閱讀理解,即讓機器先理解問題,然后從海量網頁中尋找問題的答案。
今年的AI Challenger上,除翻譯賽道外,搜狗增設問答領域賽道:觀點型問題機器閱讀理解,開放總共30萬規(guī)模的數據集,數據中包括問題及對應短文本和答案。此次開放的問答數據,不僅是全球難度最大的中文閱讀理解開源數據集,同時也是全球最大的觀點型機器閱讀理解公開數據集。
事實上,在很多問答比賽中,使用的數據并不是真實問題,而是人為構建,與現(xiàn)實存在很大差距。而搜狗搜索擁有超5億用戶規(guī)模,積累了大量豐富且真實的數據。此次AI challenger大賽,搜狗在問答賽道中針對閱讀理解中較為復雜的,但是十分典型的觀點型問題構建了大規(guī)模語料,語料均來自于用戶的真實問題和真實需求,幫助參賽團隊實現(xiàn)實用化程度高的研究,提升閱讀理解的研究水平,推動問答技術研究向更高階段發(fā)展。
用AI應對真實世界的問題,讓技術真正走向生活
在2018 AI Chanllenger開幕式上,搜狗CEO王小川表示,“數據是AI研發(fā)的核心,如果沒有真實的數據,應用場景就會走偏,技術研究的方向具體的算法就會走向錯誤。”
真實的互聯(lián)網數據是展開前沿技術研究最重要的依靠,早在2006年,搜狗就與清華大學聯(lián)合成立“清華搜狗搜索技術聯(lián)合實驗室”,將積累的大數據資產開放給高校,共同推動前沿技術研究與進步。
此次挑戰(zhàn)賽上,搜狗不僅給出題目和賽道,并在賽道中開放企業(yè)級數據集,其重量級、真實的數據集為人工智能的實際需求研究提供助力,為技術的應用場景保駕護航。同時,搜狗也將與優(yōu)秀人才進一步溝通交流,共同提升研究的實用性價值,讓人工智能更加實用化。
王小川認為,“人工智能與人不是取代的關系,而是配合的關系,最終將成為人類能力的延伸。”作為人工智能領域的開拓者,搜狗用開放的力量整合創(chuàng)新能力,為人工智能行業(yè)培養(yǎng)并輸送人才,為行業(yè)進步和發(fā)展提供內驅力,推動中國人工智能領域科研創(chuàng)新。
責任編輯: