在過去十年中,機器學習在很多領域都取得了前所未有的進展,如圖像識別,自動駕駛汽車、和玩復雜游戲如「GO」等。這些成就在很大程度上都是通過采用監(jiān)督學習和強化學習兩種范式中的一種來訓練深度神經網絡得以實現(xiàn)的。這兩種范式都要求人為設定「訓練信號」并將其傳遞給計算機。在監(jiān)督學習的示例中,這些信號被視為「目標」(例如某個圖像的正確標簽);在強化學習中,它們是行為正確時獲取的「獎勵」(例如在 Atari 游戲中獲得高分)。因此,機器學習的界限是由人類訓練者所定義的。
雖然一些科學家認為,擁有足夠包容的訓練體制,如使智能體具備完成各類任務的能力,就應該足以達到通用的智能水平,但其他人則認為真正的智能需要更多的獨立學習策略。例如,回歸到人類幼童如何學習的場景,她的祖母可能會坐在她身旁,耐心地舉出什么是「鴨子」的例子(該行為像是監(jiān)督學習中的指示信號),或者在她完成木版拼圖時用掌聲表示獎勵(如同在強化學習中一樣)。但是,幼兒在絕大多數(shù)時間里都是在天真地探索世界,通過好奇心、游戲和觀察的方式來理解她周圍的環(huán)境。無監(jiān)督學習是一種旨在通過獎勵智能體(即計算機程序)來創(chuàng)建自主智能以便在不考慮特定任務的情況下學習其觀察到的數(shù)據(jù)的范式。換句話說,智能體是為了學習而學習。
無監(jiān)督學習的一個關鍵動機是,雖然傳遞給學習算法的數(shù)據(jù)擁有很豐富的內部結構(如圖像、視頻和文本),但用于訓練的目標和獎勵通常都非常稀疏(例如,標簽「狗」指的是尤其多變的物種,標簽「0」或「1」表示游戲中的「失敗」或「成功」)。這表明算法學到的大部分內容必須包括對數(shù)據(jù)本身的理解,而不是將這種理解應用于特定任務。
解碼視覺元素
2012 年是深度學習的里程碑年,這一年,AlexNet (以其首席架構師 Alex Krizhnevsky 命名)席卷ImageNet 分類競賽,其識別圖像的能力被認為是前所未有的,而更令人矚目的則是它的內部結構。當研究人員分析 AlexNet 時,發(fā)現(xiàn)它通過構建圖像輸入更復雜的內部表示來解釋圖像。在底層表示如紋理和邊緣之類的低層特征,然后將它們組合在一起形成高級概念,如輪子和狗。
這與我們的大腦處理信息的方式非常相似,在初級感官處理區(qū)域的簡單邊緣和紋理被聚合成復雜對象,如更高區(qū)域中的面部。因此,復雜場景的表示可以由視覺基元構建,這種方式大致類似于構成句子的單個詞所帶來的意義。即使沒有明確的指導,AlexNet 的層級也已經發(fā)現(xiàn)了一個基本的視覺「詞匯」來解決其任務。從某種意義上說,它已經學會了玩 Wittgenstein 所謂的「語言游戲」,該游戲會反復地將像素轉換為標簽。
卷積神經網絡的視覺詞匯。在網絡的每一層都會生成最大程度地激活特定神經元的圖像。然后,這些神經元對其他圖像的響應可以被解釋為視覺上看不見的「單詞」,如紋理、書架、狗鼻子、鳥等。(圖源:特征可視化,Olah et al,2017)。
遷移學習
從通用智能的角度來看,關于 AlexNet 詞匯的最有趣的事情,就是它可以被重復使用或遷移到正在訓練以外的視覺任務中,例如識別整個場景而不是單個對象。在不斷變化的世界中,遷移是必不可少的,并且也是人類所擅長的,我們能夠將從已有經驗(世界認知模型)中得到的技能和理解迅速地順手應用到任何場景中。例如,一位古典樂鋼琴家可以相對輕松地演奏爵士鋼琴。理論上,塑造了對于世界正確的內部表征的人工智能體,應該能夠做類似的事情。
盡管如此,AlexNet 等分類器所學到的表示仍具有局限性。特別是,由于該網絡只訓練成單一類別(如貓、狗、汽車、火山)的標注圖像,因此標注推理中任何不需要的信息都易于被忽略,無論這些信息對其他任務有多重要。例如,如果標簽推導的總是前景,那表示可能就無法捕獲圖像的背景特征。一種可行的解決方案是提供更全面的訓練信號,如將描述圖像的標題更詳細化:不僅僅在標題中提到「狗」,而要完整地寫出「柯基犬在陽光明媚的公園中追趕飛盤」。然而,這些目標很難獲取,特別是在規(guī)模上,可能不足以捕獲完成任務所需的所有信息。無監(jiān)督學習的基本前提是,學習內容豐富、廣泛可遷移性的表示的最佳途徑就是嘗試學習能被學到數(shù)據(jù)的所有信息。
如果通過表示學習的遷移概念看起來過于抽象,那么可以試想一個學過將人畫成火柴人的小孩。她發(fā)現(xiàn)了一種高度緊湊和具有快速適應性的人類形態(tài)的表示。她可以通過為每個火柴人增加具體細節(jié),為她所有的同學繪制肖像畫:例如為她最好的朋友畫一幅眼鏡,給她同桌「穿」上他最喜歡的紅色 T 恤。而且她學習這項技能不是為了完成一項特定任務或獲得獎勵,而是對反映了她周圍世界的基本需求的回應。
從創(chuàng)造中學習:生成式模型
也許無監(jiān)督學習的簡單的目標是訓練算法以生成其本身的數(shù)據(jù)實例。所謂的生成式模型不應該簡單地再現(xiàn)他們正在上面訓練的數(shù)據(jù),這是一種無趣的記憶行為。生成式模型的目的是建立一個基礎類,并能夠從中抽取數(shù)據(jù)的模型:不是特定的馬或彩虹的照片,而是馬和彩虹的所有照片集;不是來自特定發(fā)言者的特定表達,而是說話表達方式的通用性分布。生成式模型的指導原則是,能夠構建一個令人信服的數(shù)據(jù)例子就是智能體已經理解了該數(shù)據(jù)的最有力證據(jù):正如 Richard Feynman 所說,「對于我所無法理解的東西,我就無法創(chuàng)造出來?!?/p>
對于圖像,迄今為止最成功的生成式模型要數(shù)生成式對抗網絡(簡稱 GAN),它包含兩個網絡,即一個生成網絡和一個判別網絡,二者在 GAN 中的作用就如同參與一場類似于藝術品偽造和甄別的識別競賽。生成網絡產生圖像的目的是誘使鑒別者相信它們是真實的;與此同時,判別網絡則會因發(fā)現(xiàn)贗品而獲得獎勵。所生成的圖像,先是雜亂和隨機的,隨后在許多次迭代中被細化,并且在網絡之間的持續(xù)動態(tài)會讓圖像變得更加逼真——在許多情況下,這些圖像甚至與真實照片無法區(qū)分。生成對抗性網絡還可以由用戶大致用草圖勾勒出其定義的場景細節(jié)。
掃一眼下面的這些圖像,它們足以讓我們相信,網絡已經學會了如何表示其訓練的圖片的許多關鍵特征,如動物身體的結構、草的紋理以及光影的細節(jié)效果(即使是通過肥皂泡折射的)。但仔細觀察下面這些圖,就不免能發(fā)現(xiàn)些許小異常,如白狗明顯多了條腿,噴泉其中一個噴嘴的水流呈奇怪的直角狀。雖然生成式模型的開發(fā)者在努力避免這種不完美,但這些可見的不完美也突顯了重建熟悉的數(shù)據(jù)(如圖像)的一個好處,即研究人員可以通過檢查樣本,推斷出模型學到了什么以及沒有學到什么。
從預測中創(chuàng)造
無監(jiān)督學習中另一個著名的成員是自回歸模型,該模型其中的數(shù)據(jù)被分成一連串小部分,然后對每個小部分依次進行預測。這類模型可以通過連續(xù)預測接下來會發(fā)生什么,從而來生成數(shù)據(jù),并將上輪預測結果作為新的輸入繼續(xù)進行預測。語言模型可能就是最好的例子,語言模型中每個單詞都是它上一個的單詞的預測結果,這些模型可用于在某些電子郵件和消息應用程序中彈出的文本預測。語言建模的最新進展是能夠生成看似合理的段落,例如下圖所示的 OpenAI 的 GPT-2生成的段落。
文本中一個有趣的謬誤就是獨角獸被描述為有四個角:再次證明了對于網絡理解局限性的探討是非常有趣的。
通過控制用于決定輸出預測的輸入序列,自回歸模型也可以用來將一個序列轉換為另一個序列。這個 demo使用了一個假定的自回歸模型將文本轉換為逼真的手寫。WaveNet 可以將文本轉換為自然語音,并且現(xiàn)在也應用于為 Google 智能助理生成語音。條件和自回歸生成的類似處理過程也可用于語種間的翻譯。
自回歸模型通過嘗試以特定順序預測數(shù)據(jù)來學習數(shù)據(jù)。通過一部分數(shù)據(jù)來預測其他數(shù)據(jù)的方法可以用來構建一種更泛化的無監(jiān)督學習的算法類。例如,這可以看做是從句子中刪除一個單詞,并嘗試用剩余的內容來預測這個被刪掉的單詞。通過學習來進行大量的局部預測,模型逐漸能夠從整體上學習數(shù)據(jù)。
關于生成式模型的一個擔憂,就是它們有可能被濫用。人類雖然早就能夠通過照片,視頻和音頻編輯操縱證據(jù),但借助生成式模型可以更容易地惡意編輯媒體數(shù)據(jù)。我們可以看到所謂的「deepfakes」的例子,比如對奧巴馬總統(tǒng)的偽造視頻片段。鼓舞人心的是,針對這些挑戰(zhàn),業(yè)界已經開展了幾項主要的應對工作,其中包括使用統(tǒng)計技術來幫助檢測合成媒體和驗證真實媒體、提高公眾意識以及圍繞限制訓練好的生成式模型的可用性的討論。此外,生成式模型本身可用于檢測合成媒體和異常數(shù)據(jù),如模型可用于檢測虛假語音或識別支付異常以保護客戶免受欺詐。而研究人員則需要研究生成式模型,以便更好地理解它們并降低其應用風險。
重新想象的智力
生成式模型本身就很吸引人,但 DeepMind 對于它們主要感興趣的是,該模型能夠在通往通用智能的道路上起到「墊腳石」的作用。賦予智能體生成數(shù)據(jù)的能力就是一種賦予其想象力的方式,從而使其具備規(guī)劃和推理未來的能力。我們的研究表明,即使沒有明確的數(shù)據(jù)支持,學習預測環(huán)境的方方面面也可以豐富智能體的世界模型,從而提高其解決問題的能力。
這些結果與我們對人類思維的認知非常一致。我們所擁有的在沒有明確監(jiān)督的情況下了解世界的能力,是我們所認為的智力的基礎。在乘坐火車時,我們可能會無精打采地凝視著窗戶,將手指劃過座位的天鵝絨,看著坐在我們對面的乘客。我們沒有帶著任何任務去做這些事,然而幾乎都在情不自禁地收集信息,并且我們的大腦也在無意識地不斷地解我們周圍的世界,以及我們所處的位置。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網頁分享至朋友圈。