欧美两性人xxxx高清免费_国产婷婷综合在线视频中文_国产免费久久精品99reswag_在厨房乱子伦在线观看_一边写作业一边c她

取消
搜索歷史
熱搜詞
原創(chuàng)
活動
創(chuàng)新2.0
I T
產業(yè)
當前位置:首頁 >人工智能 > 正文
搜狗AI進化之路:從應用為王,到顛覆式創(chuàng)新
來源:量子位  作者:雷剛 2019-05-29 13:54:21
談論中國AI的時候,恐怕你依然會有這樣的印象:中國應用有優(yōu)勢,但基礎研究方面差距太大。但從搜狗“變聲”突破和應用來看,一種越來越明顯的趨勢正在展現。

\

5月25日,成都,“高曉松”聲音響徹會場,歡迎聽眾參會:

大家好,歡迎來到極客公園2019年現場和大家一起分享人和機器的共創(chuàng)未來。

但實際站在舞臺中央的人,卻是王小川。

王小川,搜狗CEO,成都七中知名校友,中國互聯網進程里最知名的川娃子,中學時代就打響了IT天才名氣,后來又在歷史際會創(chuàng)造出一方天地。

現在,因一場活動,王小川帶著一項全球領先的技術再次回到成都,沒錯,就是那一聲“高曉松”的歡迎。

因為它在秒秒鐘經過手機App前,還是王小川的原聲。

搜狗“變聲”,顛覆性進展

通過計算機合成某一個人的“聲音”,自然在AI江湖里算不上什么。

但如果真正實現“千人千聲”也能瞬間“遷移”,并且在小小手機上實現,那確實得豎大拇指。

因為全球AI第一大廠,Google,也還沒做到。

就在一年一度亮肌肉的Google I/O上,也有“變聲”方面的進展演示,但體現的是一種語料輸入到另一種語料輸出的“平行遷移”。

更AI的方式來說,one to one,從指定A到指定B。

\

但像王小川展示,無論說話者是誰,無論說什么,不用考慮說話人的特點(如王小川的“川普”),最后能夠將“任意說話人”音色實時高逼真度變換到“指定說話人”音色,則是 Any to one.

該過程中,不光是輸入輸出兩端的映射關系變化,更是技術實現難度上指數級提升。

因為核心問題在于,每一個人的音調、音色和語言節(jié)奏都不盡相同,正如同世上沒有兩片相同的樹葉一樣,世上也沒有兩個完全相同的說話人。

如何將“千人千聲”通過技術處理,變?yōu)橥环N指定聲音,同時還不丟失原說話人的語言習慣?

離不開展現真正技術的語音表征學習和遷移學習的突破,簡要來說三步:

首先,使用表征學習技術學習到源端說話人語音的音色、內容和韻律(講話節(jié)奏、情感語氣等信息)三大特征。

其次,將學習到的源端說話人音色特征替換成目標說話人。

最后,基于新的語音變聲技術,使用內容(源端)、韻律(源端)、音色(目標端)三類特征,合成最終生成變聲音頻。

所以大會現場,王小川的“說”到高曉松的“聲”,實際經歷了這樣的過程。

然而,這樣一短句,實現背后也有數千層深度學習網絡的努力。

\

如表征學習使用,上圖所示,A部分對目標音色語料進行聲紋特征編碼,提取說話人的音色embedding。

B和C分別從輸入音頻中學習內容和韻律embedding,通過“說話人歸一化”模塊對內容embedding進行統(tǒng)一規(guī)整,去除音色信息,通過對音頻特征的壓縮編碼及特征抽取,學習表征韻律的風格特征。

而語音變聲,基于表征學習得到的特征,通過Attention和Decoder模塊進行加權特征編碼,并利用WaveRNN神經網絡聲碼器恢復成波形,最終得到帶有目標音色的音頻。

當然,最具現實意義也最具技術挑戰(zhàn)的還是落地。

這也是搜狗突破稱得上顛覆性的原因——這是全球首次將如此難度的變聲能力落實到消費級產品中。

并且還不是自家用軟件專門定義打造的終端硬件,而是融會貫通到小小“搜狗輸入法”App中。

通過App,無論安卓還是iOS,無論什么品牌、何種價位的手機,都能實現“變聲”,實時遷移成“表情語音包”。

未來應用自然不止于此。

\

語音屆的“換臉”術

之前,Deepfakes帶動的“換臉”已經實現了風靡,嗶哩嗶哩就出現了不少楊冪主演的《射雕英雄傳》,惟妙惟肖,真假難辨。

但相比換臉的道德問題和法律危機,“變聲”卻能立竿見影創(chuàng)造價值。

凡有音頻處,皆能讓AI變聲發(fā)揮效用。

比如在線教育、景點導游、電商廣告等等場景的音頻制作。

一個有口音的老師,一個普通話不標準的地方導游,以及各種流量奶生。

特別是實力待豐的流量偶像們,雇傭一個熟練掌握“換臉”和“變聲”技術的AI團隊,就完全能靠臉吃飯,人在家中坐,錢源源不斷來。

總之,只要有音頻的需求,變聲就能降低成本、提高效率。

王小川還想借此應用表明,我們正在身處一個怎樣的技術時代。

跟技術結合,人類才能更強大。不要狂妄心懷碾壓排斥,而是接受技術的變革和改造,成為新人類,真正人與機器協(xié)同,變得更強大,創(chuàng)造更迷人的未來。

搜狗CEO毫無疑問想推動這樣的未來。

\

AlphaGo洗禮,搜狗進化

在活動上,王小川也再次從AlphaGo講起。

他認為這是這個時代的文藝復興、啟蒙運動,讓我們開始換另外的世界觀看待技術和未來。

對于他自己,這種進化更是顯著。

在AlphaGo期間,他就是“機器必勝”的篤定支持者。而AlphaGo獲勝后,搜狗CEO更是直接為此開辟了一天“狗勝節(jié)”的帶薪假。

很多人都說搜狗會借勢,但少有人了解王小川的遺憾。

因為在AlphaGo宣布挑戰(zhàn)李世石之時,王小川就感嘆過,搜狗內部其實也認真討論過深度學習下圍棋的可能性和可行性。

但后來不少工程師認為需要太多資源、小公司更該務實……最終沒有真正展開,直到AlphaGo在Nature上的論文發(fā)表,才慨嘆思路和技術所見略同。

這讓搜狗CEO學到一課:光有務實主義不夠,工程師也得展現出敢想敢上的“浪漫主義”那一面。

所以“狗勝節(jié)”與其說是慶祝,不如說警醒。

這也是搜狗蛻變和進化的開始。

之前搜狗是產品力突出的形象,從瀏覽器、搜索到輸入法,江湖享有名氣,特別是輸入法,在國內堪稱“國民應用”。

但現在,搜狗的旗幟也越來越多出現在全球AI的“華山論劍”中。

全球CoQA機器閱讀理解大賽奪冠;

世界MegaFace百萬級人臉識別競賽中奪冠;

WMT2017機器翻譯頂級評測大賽中英和英中第一;

國際頂級口語機器翻譯大賽IWSLT決賽第一;

《基于模態(tài)注意力的端到端音視覺語音識別》中標國際頂級學術會議ICASSP;

……

此外,還有人工智能應用領域的引領性創(chuàng)新。

比如全球首個AI合成主播上崗新華社、CCTV,以及剛剛取得突破的“千人千聲”變聲落地輸入法。

還需要提及的是,這只不過王小川和搜狗將自己的技術底色更鮮明地亮出來而已。

對于技術、AI的投入,更早之前就能從兩件公益大于其他的“投資”事件中窺見一斑。

清華學子的年度AI“華山論劍”——智能體大賽,創(chuàng)辦21年的搜狗連續(xù)贊助15年,至今都是王小川必會參加的活動。

另一件也跟清華有關。2016年,搜狗向清華捐資1.8億元用于成立“清華大學天工智能計算研究院”,集中研究AI等前沿領域技術。

值得一提的是,最近發(fā)表于全球頂會的端到端音視覺語音識別論文,正是搜狗和清華天工研究院的聯手之作。

\

中國AI創(chuàng)新縮影

最后,也是時候借搜狗重新認知中國AI的發(fā)展現狀和未來了。

談論中國AI的時候,恐怕你依然會有這樣的印象:中國應用有優(yōu)勢,但基礎研究方面差距太大。

但從搜狗“變聲”突破和應用來看,一種越來越明顯的趨勢正在展現。

圖靈獎唯一華人得主、清華姚班創(chuàng)始人姚期智教授更是有準確概況,在接受《人民日報》采訪時,姚院士這樣說:

中國的人工智能在應用上絕對是杰出的,相對來講對于算法基礎研究沒有那么強,但是對于這個問題從長期的觀點來看,我還是相當樂觀的。

姚期智教授認為,AI正在變得熱門,受到越來越多重視,也有越來越人才投身其中,基礎算法和理論研究也都被更集中攻堅。

我覺得我們現在沒那么強,但是以后的幾年我們能夠追上。

所以結合王小川和搜狗的種種努力及其結果,姚期智教授之言,并非單純樂觀而已。

雖要戒驕戒躁,但也沒必要妄自菲薄。

如今局勢,我們希望更多創(chuàng)新誕生,既要有信心、也要給耐心,同時也要給予更多關注,不吝給每一次突破獻上掌聲。

編輯:張清
關鍵字:       人工智能    搜狗  王小川 
活動 直播間  | CIO智行社

分享到微信 ×

打開微信,點擊底部的“發(fā)現”,
使用“掃一掃”即可將網頁分享至朋友圈。

同心县| 江川县| 景洪市| 陇川县| 凤冈县| 常熟市| 瑞安市| 五家渠市| 西乌珠穆沁旗| 伊宁县| 观塘区| 嵩明县| 天祝| 方城县| 玉山县| 西宁市| 东丰县| 和硕县| 怀集县| 巢湖市| 安溪县| 苏尼特右旗| 青铜峡市| 瑞金市| 大宁县| 依兰县| 宣威市| 清水河县| 防城港市| 丹寨县| 栖霞市| 兴隆县| 衢州市| 奉化市| 博野县| 沅江市| 临颍县| 康定县| 长沙市| 广州市| 会宁县|