編譯:麥姆斯咨詢
計算機視覺將再次重塑?
Prophesee聯(lián)合創(chuàng)始人、匹茲堡大學眼科教授、卡耐基梅隆大學機器人研究所兼職教授Ryad Bensoman認為,事實確實如此。作為基于事件的視覺技術的開創(chuàng)人之一,Bensoman預計神經形態(tài)視覺(基于事件相機的計算機視覺),將成為計算機視覺的下一個發(fā)展方向。
“計算機視覺已經經歷了多次重要革新?!彼f,“我至少見證了兩次相當于從頭開始的重塑?!?/span>
Bensoman認為首先是20世紀90年代的一次轉變,即從涉及一些攝影測量的圖像處理轉向基于幾何學的視覺方案,然后是如今向機器學習的快速轉變。盡管經歷了這些革新,但現(xiàn)代計算機視覺技術仍然主要基于圖像傳感器,即生成近似人眼所見圖像的可見光成像傳感器。
Bensoman認為,在這種圖像傳感模式打破之前,它實際阻礙了替代技術的創(chuàng)新。GPU等高性能處理器的開發(fā),推遲了尋找替代解決方案的需要,從而延長了這種影響。
“為什么我們要用圖像進行計算機視覺?這是一個非常值得深究的問題。”他說,“我們使用圖像,完全是歷史原因。”
成像相機
自公元前五世紀針孔成像技術誕生以來,成像相機就一直伴隨著我們。到了16世紀,藝術家們建造了房間大小的裝置,用于將設備外的人或風景記錄到畫布上。經過多年的發(fā)展,這些畫布逐漸被膠片所取代,以記錄圖像。隨后,數(shù)碼攝影等技術創(chuàng)新,最終使相機成為現(xiàn)代計算機視覺技術的基礎。
然而,Bensoman認為,基于成像相機的計算機視覺技術效率極低。他將之類比中世紀城堡的防御系統(tǒng):利用城墻周圍的守衛(wèi)監(jiān)視四面八方接近的敵人。鼓手敲擊穩(wěn)定的節(jié)拍,每個守衛(wèi)會在每個鼓點上,大聲喊出他們所看到的情況。在眾多守衛(wèi)的呼喊聲中,明辨其中一位發(fā)現(xiàn)遙遠森林中的敵人并非易事。
來到21世紀,鼓聲硬件相當于電子時鐘信號,而守衛(wèi)好比每個像素——它們產生了大量數(shù)據(jù),并且必須在每個時鐘周期捕捉信號,這意味著大量冗余的信息和大量不必要的計算。
Bensoman說道:“守衛(wèi)的監(jiān)視和匯報相當于城堡的算力。他們需要一直監(jiān)視沒有事情發(fā)生的情況,并匯報,相當于一直在搜集大量無用的信息,造成很大的帶寬。如果這座城堡還非常龐大且復雜,要捕捉到有用的信息是何其費事且困難?!?/span>
來到神經形態(tài)視覺,其基本思想受生物系統(tǒng)工作方式的啟發(fā),即檢測動態(tài)場景中的變化,而不是連續(xù)分析整個場景。對于剛才的城堡類比,這意味著守衛(wèi)在沒有情況發(fā)生時,可以保持靜默無需持續(xù)匯報,直到他們發(fā)現(xiàn)敵人,然后大聲喊出他們的位置以發(fā)出警報。對于傳感器來說,這意味著可以讓單個像素決定它們是否看到相關的東西。
“像素可以自己決定應該發(fā)送什么信息,它們可以選擇捕捉有意義的‘特征’信息,而不是捕捉所有信息,這就是區(qū)別所在?!彼f。
與固定頻率的系統(tǒng)采集相比,這種基于事件的方法可以節(jié)省大量能耗,并減少延遲。
他說:“我們需要更具適應性的東西,而這正是基于事件的視覺技術可以提供的,一種自適應的采集頻率。當考量振幅變化時,如果某個物體移動得很快,我們就會得到很多樣本。如果某個物體沒有變化,那么樣本量幾乎為零。因此,這能夠根據(jù)場景的動態(tài),調整采集頻率。”
Bensoman于2000年進入神經形態(tài)視覺領域,他堅持認為過去基于圖像的先進計算機視覺不是最好的方案。他說:“最大的轉變是,我們可以在沒有灰度和圖像的情況下進行視覺處理,這個概念的提出在2000年前后可以說是‘無稽之談’?!?/span>
Benosman提出的技術成為當今事件傳感的基礎,它是如此具有開創(chuàng)性,以至于當時提交給最重要的IEEE計算機視覺期刊的論文未經審查就被拒絕了。事實上,直到2008年開發(fā)出動態(tài)視覺傳感器(DVS),這種方案才開始獲得廣泛關注。
Prophesee的部分客戶應用展示了常規(guī)相機和DVS傳感器輸出的差異(來源:Prophesee)
神經科學的啟示
神經形態(tài)技術源自生物系統(tǒng)的啟發(fā),包括終極計算機,大腦及其計算元素,神經元。問題是我們還沒有完全理解神經元是如何工作的。雖然我們知道神經元是對被稱為尖峰的電信號起作用,但直到最近,研究人員對神經元的表征還相當草率,認為只有尖峰的數(shù)量才重要。
這一假設持續(xù)了幾十年。最近的研究已經證明,這些尖峰的時間信息絕對關鍵,而大腦結構在這些尖峰中產生延遲來編碼信息。
如今的尖峰神經網(wǎng)絡模擬了大腦中的尖峰信號,是尖峰信號的一種二進制(‘0’或‘1’)表達?!笆盏揭粋€‘1’信號,喚醒,計算,然后休眠。”Bensoman解釋道。但實際要復雜得多。當尖峰信號出現(xiàn)時,神經元開始對尖峰值進行積分;神經元也會有遺漏,這意味著結果是動態(tài)的。還有大約50種不同類型的神經元,具有50種不同的整合模式。當前的電子化版本缺少集成的動態(tài)路徑、神經元之間的連接以及不同的權重和延遲。
Bensoman說:“問題在于要制造一款高效的產品,由于我們還不不夠理解它,不能模仿所有的復雜性。如果我們掌握了完善的大腦理論,就可以解決它,但問題是我們理解得不夠。”
現(xiàn)在,Bensoman運營著一個獨特的實驗室,致力于理解大腦皮層計算背后的數(shù)學問題,旨在創(chuàng)建新的數(shù)學模型,并將其復制到硅基器件。這包括直接監(jiān)測來自真實視網(wǎng)膜的尖峰信號。
但是,Bensoman反對完全復制生物神經元,他認為這種方法不可取。他表示:“在硅芯片上復制神經元的想法,源自人們在晶體管中看到了類似真實神經元的機制。不過,我們無法制造并利用腦細胞,但我們有硅芯片。我們需要根據(jù)硅芯片的特性來因地制宜。如果我們知道在計算什么,利用硅芯片,我們就可以優(yōu)化這個方程式,并以最低的成本、最低的功耗、最低的延遲運行?!?/span>
數(shù)據(jù)處理能力
認識到沒有必要精確復制神經元,再加上DVS傳感器的開發(fā),驅動了現(xiàn)在神經形態(tài)視覺系統(tǒng)的發(fā)展。盡管現(xiàn)在已經有產品上市,但要實現(xiàn)完全類人的視覺傳感器商業(yè)化,還有一段路要走。
最初的DVS傳感器像素“較大”,因為光電二極管周圍的組件本身大大降低了填充因子。雖然對這類相機開發(fā)的投入加速了這項技術的發(fā)展,但Bensoman明確表示,目前的事件相機仍然只是對2000年最初研究的改進。
索尼、三星和豪威最先進的DVS傳感器具有更微小的像素,采用3D堆疊等先進技術,降低了噪音。Bensoman考慮的是,目前使用的傳感器類型能否成功擴大生產規(guī)模。
他說:“問題是,一旦增加像素的數(shù)量,就會得到更大量的數(shù)據(jù)?,F(xiàn)在,由于處理速度仍然非常快,可能仍然可以實時處理它,但太多的像素會帶來太多的相對變化?,F(xiàn)在,再這樣下去可能會進入死胡同,因為人們知道它的潛力,但現(xiàn)在還沒有合適的處理器來支持它的運行?!?/span>
通用神經形態(tài)處理器落后于對應的DVS傳感器。一些業(yè)內最大的廠商(IBM Truenorth、Intel Loihi)仍在努力開發(fā)中。Bensoman說,合適的處理器加上正確的傳感器,將成為無與倫比的組合。
Bensoman表示:“今天的DVS傳感器速度極快,帶寬超低,動態(tài)范圍大,所以可以支持室內和室外的廣泛應用。這是確定的未來,市場起飛是可以預見的。”他還補充道:“誰能推出優(yōu)異的處理器并提供完整的堆棧,就能贏得未來的競爭,因為這必將無可匹敵!”