本文由騰訊數(shù)碼獨家發(fā)布
直到最近幾十年,相機的作用才專門為普通人而設(shè)計。無論是為了好玩,為了藝術(shù),還是為了記錄歷史。隨著機器人技術(shù)的快速發(fā)展,以及各種各樣的自動駕駛汽車,需要從自己所處的環(huán)境中觀察和學(xué)習(xí),許多相機都是專門用于完成機器視覺任務(wù)的。其中一些最明顯的,比如自動駕駛汽車,嚴(yán)重依賴于物體識別,這幾乎是普遍的意思是神經(jīng)網(wǎng)絡(luò)對常見的物體進行訓(xùn)練。在包括電動汽車在內(nèi)的許多嵌入式系統(tǒng)中,機器視覺的部署是一個限制,這是必要的計算和電力。因此,重新設(shè)計相機的設(shè)計,考慮什么是特定應(yīng)用程序的理想相機架構(gòu),而不是簡單地重新設(shè)計現(xiàn)有的相機模型是有意義的。
本著這樣一種精神,來自斯坦福大學(xué)由助理教授Gordon Wetzstein和研究生Julie Chang領(lǐng)導(dǎo)的一個團隊,建立了一個系統(tǒng)的原型,將一個物體識別神經(jīng)網(wǎng)絡(luò)的第一層直接移動到相機的光學(xué)上。這意味著所需的推理的第一部分基本上沒有時間,也沒有權(quán)力。雖然他們目前的原型是有限的和笨重的,但它為一些新穎的方法指明了在物聯(lián)網(wǎng)、車輛和其他嵌入式應(yīng)用程序中創(chuàng)建低功耗、高性能、推理解決方案的方法。這項研究從人工智能、成像和光學(xué)上得到了大量的研究,因此我們沒有任何方法可以在一篇文章中詳細(xì)描述整個系統(tǒng)。下面我們會帶你去看那些讓原型變得如此有趣的亮點和一些突破。
基本對象識別 神經(jīng)網(wǎng)絡(luò)風(fēng)格
大多數(shù)當(dāng)前的對象識別系統(tǒng)都使用一個多層神經(jīng)網(wǎng)絡(luò)。藝術(shù)系統(tǒng)的狀態(tài)通常包括幾十層,但有可能解決簡單的測試套件,比如MNIST、谷歌的QuickDraw、和Cifar 10,只有一層或兩層。無論網(wǎng)絡(luò)有多深,第一層或?qū)佣际堑湫偷木矸e層。卷積是在圖像上傳遞一個矩陣(稱為內(nèi)核)的過程,在每個位置乘以它,并對結(jié)果求和以創(chuàng)建一個激活矩陣。簡單地說,這個過程突出顯示了與內(nèi)核模式相似的圖像區(qū)域。典型的系統(tǒng)涉及多個內(nèi)核,每個內(nèi)核都反映了被研究對象中發(fā)現(xiàn)的一個特性。當(dāng)網(wǎng)絡(luò)被訓(xùn)練時,這些內(nèi)核應(yīng)該開始看起來像那些特性,因此產(chǎn)生的激活映射將幫助稍后的網(wǎng)絡(luò)級別識別特定的對象,其中包括各種特性的例子。
之后的網(wǎng)絡(luò)層通常是完全連接的,這比卷積層更容易計算。斯坦福的混合光學(xué)數(shù)碼相機并沒有解決這些問題,而是用一種光學(xué)替代品代替了計算昂貴的初始卷積層,而這個團隊稱之為opt-conv層。傳統(tǒng)的光學(xué)系統(tǒng)沒有任何簡單的方法可以在圖像上與任意的內(nèi)核進行卷積,更不用說多個同步的卷積了。然而,如果圖像首先使用傅里葉變換將其轉(zhuǎn)換為頻率,那么快速卷積就有可能成為可能——因為在頻域中相乘就像在傳統(tǒng)的空間域中執(zhí)行卷積一樣。
為了利用這一特性,研究小組利用傅里葉光學(xué)技術(shù),建立了所謂的4F光學(xué)系統(tǒng)。一個4F系統(tǒng)依靠一個初始透鏡來呈現(xiàn)圖像的傅里葉變換。該系統(tǒng)允許使用中間過濾器或過濾器處理轉(zhuǎn)換后的圖像,然后用最后一個鏡頭反轉(zhuǎn)轉(zhuǎn)換,并呈現(xiàn)修改后的結(jié)果。
光學(xué)計算
進入到斯坦福的原型技術(shù)中,包含了很多很深奧的光學(xué)部分,但是它基本上把一些強大的技術(shù)結(jié)合在一起我們可以很簡潔地描述(如果沒有完全解釋的話)
首先,它是傅里葉變換的一個眾所周知的特征(它接受一個信號或圖像,并以頻率的形式呈現(xiàn)它),你也可以翻轉(zhuǎn)它,把原始圖像放回去。重要的是,你可以用一個簡單的光學(xué)系統(tǒng)來做這個,只有幾個透鏡,叫做4F光學(xué)系統(tǒng)(這整個光學(xué)領(lǐng)域叫做傅里葉光學(xué))。
第二,如果你通過一個部分不透明的表面來過濾圖像的傅里葉變換,這和執(zhí)行卷積是一樣的。
第三,你可以將多個內(nèi)核平鋪到一個過濾器中,并將它們應(yīng)用到原始圖像的填充版本中。這模擬了一個多內(nèi)核系統(tǒng)的行為,它通常會產(chǎn)生一個多通道輸出,通過創(chuàng)建一個輸出一個平鋪的等效項,如下所示:
所以通過計算所需的內(nèi)核使用傳統(tǒng)的機器學(xué)習(xí)技術(shù),他們可以用來創(chuàng)建一個自定義過濾器——的形式階段不同厚度的面具,可以添加到午夜4F系統(tǒng)立即執(zhí)行玲瓏如光穿過設(shè)備。
訓(xùn)練和實現(xiàn)光學(xué)卷積層
建議的光學(xué)系統(tǒng)的一個限制是,硬件過濾器必須根據(jù)訓(xùn)練的重量來制造。所以用這個系統(tǒng)來訓(xùn)練自己是不現(xiàn)實的。培訓(xùn)是通過對系統(tǒng)的模擬來完成的。一旦確定了所需的最終重量,它們就被用來制造一個相位掩模(一個具有不同厚度的過濾器,它改變了通過它的光的相位),有16個可能的值,可以與4F光管道一起放置。
混合光學(xué)電子攝像系統(tǒng)的性能
斯坦福的研究團隊在模擬和使用他們的物理原型時評估了他們的解決方案的性能。他們測試了這兩種方法,既可以使用谷歌的QuickDraw數(shù)據(jù)集來創(chuàng)建獨立的光學(xué)相關(guān)器,也可以作為兩層神經(jīng)網(wǎng)絡(luò)的第一層,與一個完全連接的層相結(jié)合,使用Cifar-10數(shù)據(jù)集完成基本的對象識別。即使考慮到光學(xué)系統(tǒng)的限制,所有的重量都必須是非負(fù)的,作為一個相關(guān)器,系統(tǒng)的精度在70%到80%之間。
這類似于使用標(biāo)準(zhǔn)機器學(xué)習(xí)技術(shù)創(chuàng)建的更傳統(tǒng)的卷積層,但不需要有驅(qū)動計算元素來執(zhí)行卷積。類似的,使用混合光學(xué)電子第一層的兩層解決方案在cifar 10上實現(xiàn)了大約50%的性能,與傳統(tǒng)的兩層網(wǎng)絡(luò)差不多,但其計算能力的一小部分,以及典型解決方案的電能的一小部分。
雖然目前的原型體積龐大,而且需要單色光源,而且只需要使用灰度圖像,但該團隊已經(jīng)開始考慮如何在更典型的光照條件下和全彩色圖像進行擴展。類似地,4F系統(tǒng)本身也可以通過使用平面衍射光學(xué)元件來代替當(dāng)前的透鏡來縮小尺寸。
該團隊還表示,他們將針對自己的系統(tǒng)公開提供完整的源代碼。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。