在“未來5-10年計(jì)算機(jī)視覺發(fā)展趨勢(shì)”的專題中,各位專家從計(jì)算機(jī)視覺發(fā)展歷程、現(xiàn)有研究局限性、未來研究方向以及視覺研究范式等多方面展開了深入的探討。
主題組織者:林宙辰,劉日升,闞美娜
討論時(shí)間:2019年9月27日
發(fā)言嘉賓:查紅彬,陳熙霖,盧湖川,劉燁斌,章國(guó)鋒
參與討論嘉賓[發(fā)言順序]:謝曉華,林宙辰,林倞,山世光,胡占義,紀(jì)榮嶸,王亦洲,王井東,王濤,楊睿剛,鄭偉詩(shī),賈云得,魯繼文,王亮
我們將研討內(nèi)容按專題實(shí)錄整理,盡最大可能以原汁原味的形式還原觀點(diǎn)爭(zhēng)鳴現(xiàn)場(chǎng),希望有助于激發(fā)頭腦風(fēng)暴,產(chǎn)生一系列啟發(fā)性的觀點(diǎn)和思想,推動(dòng)計(jì)算機(jī)視覺領(lǐng)域持續(xù)發(fā)展。
一、開場(chǎng):山世光、林宙辰
山世光:上次計(jì)算機(jī)視覺專委會(huì)常委會(huì)上,在譚院士的倡議下這次RACV嘗試一下相對(duì)比較小規(guī)模的、以討論未來與問題為主的這樣一種形式。這次的RACV希望所有的發(fā)言人,都不是講自己的或已經(jīng)做的工作,而是圍繞著每一個(gè)主題講一講自己的觀點(diǎn)和看法。大家在發(fā)言的時(shí)候可以無所顧忌,可以爭(zhēng)論。我們會(huì)有記錄和錄音,但最后的文字會(huì)經(jīng)過大家的確認(rèn)之后才發(fā)布。
林宙辰: RACV是希望大家有一些深入的研討,互相挑戰(zhàn),以達(dá)到深入討論的目的。第一個(gè)主題是未來5-10年CV的發(fā)展趨勢(shì)。希望我們這次研討會(huì)尤其是CV發(fā)展趨勢(shì)這個(gè)主題能夠類似達(dá)特茅斯會(huì)議,產(chǎn)生一些新的思想。
二、嘉賓主題發(fā)言
1. 查紅彬
未來五年或十年CV的發(fā)展趨勢(shì)是很難預(yù)測(cè)的,有時(shí)候想的太多,反而容易跑偏。所以,今天我主要從自己認(rèn)識(shí)的角度說說后面我們?cè)撟鲂┦裁礃拥氖虑椤?
首先,說說什么叫計(jì)算機(jī)視覺?我這里給了一個(gè)比較嚴(yán)格的定義,即使用計(jì)算機(jī)技術(shù)來模擬、仿真與實(shí)現(xiàn)生物的視覺功能。但這個(gè)定義并沒有將事情完全講清楚,這里把計(jì)算機(jī)和視覺兩個(gè)概念揉到了一起,但到底什么叫計(jì)算機(jī)、什么叫視覺并沒有說。什么叫計(jì)算機(jī)大家是能夠公認(rèn)的。但什么叫視覺,其實(shí)在計(jì)算機(jī)視覺領(lǐng)域里還沒有一個(gè)大家都認(rèn)可的定義。
我們不妨先看看現(xiàn)在計(jì)算機(jī)視覺領(lǐng)域里有哪些研究?jī)?nèi)容。先來看看今年ICCV各個(gè)分會(huì)的關(guān)鍵詞,其中最大的幾個(gè)領(lǐng)域是deep learning;recognition;segmentation, grouping and shape等。這些領(lǐng)域是視覺嗎?說是圖像處理、分析與理解也能說的通。關(guān)鍵問題在于,我們講來講去到底是不是真的在做視覺?這點(diǎn)有必要再想想。
舉個(gè)例子--人臉識(shí)別:人臉識(shí)別現(xiàn)在能識(shí)別大量的人臉圖像與視頻,幾十萬、幾百萬人都能夠識(shí)別。它是用大數(shù)據(jù)驅(qū)動(dòng)的方式來達(dá)到目的的,而且是離線學(xué)習(xí)的。但識(shí)別算法在實(shí)際應(yīng)用中對(duì)光照、遮擋等的魯棒性比較差。我們回過頭看看人的人臉識(shí)別有些什么樣的功能呢?我們?nèi)俗R(shí)別人臉的功能很強(qiáng),但只能識(shí)別很少數(shù)量的人臉,如親戚、朋友、同事等,超過一定范圍之后人是很難識(shí)別出來陌生人的人臉的,我們能看到有差別但分不清誰是誰。
第二個(gè),人是在生活情景當(dāng)中進(jìn)行主動(dòng)性的樣本學(xué)習(xí)。我們之所以能夠認(rèn)識(shí)親屬,是因?yàn)槲覀冊(cè)谌粘I町?dāng)中與他們生活在一起,建立了各種各樣的關(guān)系。我們主動(dòng)地用樣本來學(xué),利用了不同層次的特征。所以,盡管我們識(shí)別人臉的數(shù)量少,但是我們對(duì)抗干擾的能力很強(qiáng)。所以我覺得這是人的人臉識(shí)別和現(xiàn)在機(jī)器的人臉識(shí)別之間的差別。也就是,人的視覺中的人臉識(shí)別有它明顯的特點(diǎn),它能很好地應(yīng)對(duì)現(xiàn)實(shí)環(huán)境中的視覺處理任務(wù)。
那么現(xiàn)實(shí)環(huán)境中的視覺處理應(yīng)該考慮哪些因素呢?我們有計(jì)算機(jī)、機(jī)器人這些智能機(jī)器,同時(shí)還有其它兩個(gè)關(guān)鍵的部分。第一個(gè)部分是要通過視覺這個(gè)接口來同外部世界建立聯(lián)系,同環(huán)境進(jìn)行互動(dòng);第二個(gè)是我們講視覺的時(shí)候,生物的感知機(jī)理給我們提供了很多依據(jù)。這其中,我們要應(yīng)對(duì)的是現(xiàn)實(shí)環(huán)境的開放性,以及三維世界的復(fù)雜性,我們要面對(duì)場(chǎng)景當(dāng)中很多動(dòng)態(tài)的變化以及層次性結(jié)構(gòu)的多樣性。
另一方面,生物的感知機(jī)理有什么呢?它是一個(gè)學(xué)習(xí)過程,但這個(gè)學(xué)習(xí)是柔性的,并不是我們現(xiàn)在這樣的離線學(xué)習(xí)并固定的方式。我們現(xiàn)在的機(jī)器學(xué)習(xí)用起來就只是測(cè)試。但我們?nèi)说膶W(xué)習(xí)中測(cè)試和學(xué)習(xí)過程并不是嚴(yán)格可分的,它有結(jié)構(gòu)上的柔性,也需要層次化的處理。此外,它有主動(dòng)性,能夠根據(jù)它的目的和任務(wù)主動(dòng)地進(jìn)行學(xué)習(xí)。同時(shí),我們?nèi)粘I町?dāng)中所需要的是一種時(shí)序數(shù)據(jù)的處理,是一種增量型的處理過程。從這樣的角度來看,我們將來的計(jì)算機(jī)視覺研究需要考慮把真實(shí)環(huán)境的特點(diǎn)與生物的感知機(jī)理融合進(jìn)來。這樣就會(huì)更接近“視覺”這個(gè)詞本來的意義。
那這其中有哪些事情我們可以去考慮呢?
首先是學(xué)習(xí)的問題。現(xiàn)在,深度學(xué)習(xí)用的很多,但它只是我們?nèi)说哪J阶R(shí)別當(dāng)中的一部分功能,對(duì)于視覺研究來說,還有很大的挖掘空間。也就是說,我們考慮計(jì)算機(jī)視覺中的機(jī)器學(xué)習(xí)的時(shí)候,不僅僅是深度,還要把網(wǎng)絡(luò)的寬度、結(jié)構(gòu)可重構(gòu)性與結(jié)構(gòu)柔性結(jié)合起來。我們要把不同的結(jié)構(gòu)層次研究明白,同時(shí)把不同模塊之間的連接關(guān)系考慮到網(wǎng)絡(luò)里來。我們?nèi)说拇竽X就是這樣的,大腦從視覺的低層特征抽取往上,它具有很多不同的功能性結(jié)構(gòu)在里面,而且這個(gè)功能性結(jié)構(gòu)是可塑的。
其次,除了通常講的識(shí)別功能之外,我們要把記憶、注意等一些認(rèn)知機(jī)制通過學(xué)習(xí)的方式實(shí)現(xiàn)出來。目前已經(jīng)有一些這方面的工作了。將來這些機(jī)制在計(jì)算機(jī)視覺里面可能會(huì)作為學(xué)習(xí)的一個(gè)核心目標(biāo),融到我們現(xiàn)在的整個(gè)體系當(dāng)中。
另外,還應(yīng)考慮通過環(huán)境的交互這種方式來選擇需要的樣本進(jìn)行自主學(xué)習(xí)等。所以,這種學(xué)習(xí)方式上的結(jié)構(gòu)柔性應(yīng)該是我們追求的一個(gè)目標(biāo)。
另外一點(diǎn),我們現(xiàn)在的計(jì)算機(jī)視覺還比較缺乏對(duì)動(dòng)態(tài)場(chǎng)景的處理。我們現(xiàn)在很多工作是在靜態(tài)場(chǎng)景里面,像人臉識(shí)別也是在靜態(tài)場(chǎng)景里面來做。盡管有時(shí)候我們用視頻來做,但并沒有深入考慮整個(gè)場(chǎng)景的動(dòng)態(tài)特性。現(xiàn)在動(dòng)態(tài)目標(biāo)的跟蹤、檢測(cè)、分析、行為的識(shí)別與理解等這些工作都有在做,但還沒有上升到一個(gè)系統(tǒng)化的水平。我們也應(yīng)該把更多的注意力放到像移動(dòng)傳感器的定位、三維動(dòng)態(tài)場(chǎng)景的重建與理解等一些事情上面來。所以,我認(rèn)為動(dòng)態(tài)視覺是未來的另一個(gè)重要研究方向。
還有一個(gè)是主動(dòng)視覺。主動(dòng)視覺是把感知與運(yùn)動(dòng)、控制結(jié)合起來,形成一個(gè)閉環(huán)。計(jì)算機(jī)視覺里很早就有一個(gè)研究課題,叫視覺伺服,是想把控制和感知很好地結(jié)合起來。我們的感知一部分是為任務(wù)目的服務(wù),另外一部分是為感知本身服務(wù),即從一種主動(dòng)控制的角度來考慮感知功能的實(shí)現(xiàn),以提高感知系統(tǒng)的自適應(yīng)能力,遷移學(xué)習(xí)、無間斷學(xué)習(xí)或終身學(xué)習(xí)等都可以應(yīng)用進(jìn)來。此外,還應(yīng)當(dāng)考慮常識(shí)、意識(shí)、動(dòng)機(jī)以及它們之間的關(guān)系。也就是說,我們要把視覺上升到有意識(shí)的、可控制的一個(gè)過程。
如果我們把前面提到的時(shí)序與動(dòng)態(tài)處理等結(jié)合起來之后,應(yīng)該更多考慮在線學(xué)習(xí)。我們不應(yīng)該全部依賴目前這種離線學(xué)習(xí)、僅使用標(biāo)注數(shù)據(jù),而是應(yīng)該在動(dòng)態(tài)的環(huán)境當(dāng)中,根據(jù)運(yùn)動(dòng)與動(dòng)態(tài)數(shù)據(jù)流本身的特性來做預(yù)測(cè)與學(xué)習(xí)。這樣可以把前面提到的記憶與注意力等一些機(jī)制結(jié)合起來,最終實(shí)現(xiàn)一種無監(jiān)督的在線學(xué)習(xí)系統(tǒng)。這樣一來就能把現(xiàn)實(shí)環(huán)境中的一些特點(diǎn)與變化考慮進(jìn)來,形成一套新的理論。而這個(gè)理論,跟現(xiàn)在的深度學(xué)習(xí)、圖像處理分析與理解等相比,會(huì)更接近我們講的視覺這個(gè)概念。
2. 陳熙霖
預(yù)測(cè)可見未來是一件風(fēng)險(xiǎn)極大的事,對(duì)于這個(gè)命題作文我只能說個(gè)人的觀點(diǎn)。我更愿意從歷史的角度來看這件事情。
首先,我們回顧一下計(jì)算機(jī)視覺的發(fā)展歷程。我把過去幾十年的過程分為以下幾個(gè)階段。第一個(gè)階段我稱之為啟蒙階段,標(biāo)志性的事件是1963年L. Robert的三維積木世界分析的博士論文(Machine Perception of Three-dimensional Solids)和1966年夏天Minsky安排幾個(gè)本科生做的手眼系統(tǒng)。這個(gè)階段對(duì)計(jì)算機(jī)視覺的估計(jì)過于樂觀,認(rèn)為這事太容易了,很快就可以解決,正如S. Papert的報(bào)告中寫到的“The summer vision project is an attempt to use our summer workers effectively in the construction of a significant part of a visual system”。啟蒙階段的重要啟示就是發(fā)現(xiàn)這個(gè)問題遠(yuǎn)比想象的困難。
從七十年代初期開始進(jìn)入第二個(gè)階段,我稱之為重構(gòu)主義,這是以D. Marr的視覺框架為代表的。這個(gè)框架在Marr的總結(jié)性著作“Vision --A Computational Investigation into the Human Representation and Processing of Visual Information”中有很好的闡述。其核心是將一切對(duì)象恢復(fù)到三維表達(dá)。其基本過程是:圖像à基本要素圖(primal sketch)à以觀察者為中心的三維表達(dá)(2.5D skecth)à以觀察對(duì)象為中心的3D表達(dá)。這個(gè)過程看起來很漂亮,但卻存在兩方面的問題——首先是這樣的過程是否是必須的,其次是如果都試圖恢復(fù)三維,這樣不論對(duì)感知測(cè)量還是計(jì)算是否現(xiàn)實(shí)。我個(gè)人認(rèn)為三維在計(jì)算機(jī)視覺中的作用也是有限的。這個(gè)階段的工作也導(dǎo)致了上世紀(jì)90年代初對(duì)計(jì)算機(jī)視覺研究的反思和爭(zhēng)論。有興趣的各位可以看看1991年CVGIP: Image Understanding第53卷第1期上的討論文章。
第三個(gè)階段我稱之為分類主義,反正只要能識(shí)別就好,不管白貓黑貓抓住老鼠就好。人臉識(shí)別、各種多類物體識(shí)別等都在這個(gè)階段大行其道,研究者們采用各種各樣的方法,從研究各類不變算子(如SIFT、HOG等)到分類方法(如SVM、AdaBoost等)。這個(gè)階段推進(jìn)了識(shí)別問題的解決,但似乎總差最后一公里。
最近的一個(gè)階段我稱之為拼力氣比規(guī)模階段,其核心是聯(lián)結(jié)主義的復(fù)興,這得益于數(shù)據(jù)和計(jì)算資源的廉價(jià)化。這類方法在各種分類問題上似乎得到了很好的解決。但這些方法背后缺少了很多研究需要追求和思考的東西,過去我們都在講找一個(gè)美妙的辦法。如同我們希望瞄準(zhǔn)目標(biāo),以最小的代價(jià)擊中目標(biāo)。現(xiàn)在這類方法更像是炮決,今天我們似乎進(jìn)入了這樣的炮決時(shí)代。
那么未來會(huì)是怎么樣的?從前面的發(fā)展歷史來看,計(jì)算機(jī)視覺經(jīng)過幾十年的發(fā)展進(jìn)入了野蠻人的時(shí)代。什么叫進(jìn)入野蠻人的時(shí)代了?今天大家說人工智能熱,可幾乎所有拿來驗(yàn)證人工智能的例子都是和計(jì)算機(jī)視覺相關(guān)的。而今天很多所謂的計(jì)算機(jī)視覺研究就是拿深度學(xué)習(xí)訓(xùn)練一個(gè)模型,所以說這是個(gè)野蠻人的時(shí)代。那么野蠻人時(shí)代有什么問題?
我們看上一個(gè)和野蠻人時(shí)代相關(guān)的歷史——羅馬帝國(guó)。羅馬帝國(guó)是被野蠻人消滅的,羅馬(更具體的是指西羅馬)從建國(guó)到被滅亡,中間大概有500年。而且西羅馬被滅了以后,還有一個(gè)叫神圣羅馬帝國(guó),按照尤瓦爾·赫拉利《人類簡(jiǎn)史》上的說法后者既不神圣也不是帝國(guó)。當(dāng)年羅馬帝國(guó)也是所有的東西都講究漂亮美麗——斗獸場(chǎng)、引水渠以及打到哪修到哪的條條大路(通羅馬)。計(jì)算機(jī)視覺早年的研究者也是天天追求漂亮,要數(shù)學(xué)上美、物理上美等等,就和當(dāng)年羅馬帝國(guó)一樣。現(xiàn)在也真的和羅馬帝國(guó)一樣了,我們遇到了蠻族人。
這個(gè)蠻族人是誰?就是深度學(xué)習(xí),和過去羅馬人關(guān)心文明,蠻族人關(guān)心財(cái)富一樣,在計(jì)算機(jī)視覺的研究上,我們也面臨著如何選擇的問題。當(dāng)然,歷史也會(huì)驚人地相似,蠻族人占領(lǐng)羅馬以后也不是什么都沒干。后來他們建立神圣羅馬帝國(guó),到后來導(dǎo)致文藝復(fù)興。今天計(jì)算機(jī)視覺的研究在我們看來也需要一個(gè)文藝復(fù)興。
什么是我們的文藝復(fù)興?我們當(dāng)下的計(jì)算機(jī)視覺就處在這么一個(gè)需要思考的時(shí)期。而不是一味地倒向深度學(xué)習(xí)。現(xiàn)在有些研究走向比蠻力的階段,就跟打仗比坦克、大炮的數(shù)量一樣,靠拼GPU的規(guī)模和計(jì)算能力。下一步,我們需要往哪里走?這是現(xiàn)在這個(gè)野蠻人時(shí)代需要思考的。
預(yù)測(cè)未來五到十年這是一個(gè)風(fēng)險(xiǎn)極大的問題。所以我只能通過前面講的歷史和我的一點(diǎn)思考談?wù)剬?duì)未來的一些可能。
首先,一個(gè)值得關(guān)注的未來趨勢(shì)是從識(shí)別到理解,套用古人的說法就是從知其然到知其所以然。過去十多年計(jì)算機(jī)視覺在識(shí)別方面取得了顯著的進(jìn)展,但是現(xiàn)在的識(shí)別遠(yuǎn)遠(yuǎn)不是我們所期望的識(shí)別。例如你教它識(shí)別一個(gè)杯子,它不會(huì)想到杯子和水有任何關(guān)系,不會(huì)想到杯子有任何的其他功能,因而完全是填鴨式的。今天的識(shí)別遠(yuǎn)遠(yuǎn)不是可解釋的。談到可解釋,我認(rèn)為在計(jì)算機(jī)視覺領(lǐng)域的可解釋應(yīng)該是對(duì)結(jié)論的解釋,而不是解釋網(wǎng)絡(luò)行為,前者應(yīng)該更有價(jià)值。那么要解釋這一切靠什么?應(yīng)該是靠某種形式的邏輯關(guān)系,這種關(guān)系可以通過語言表達(dá),語言應(yīng)該起到橋接作用。這里的語言和自然語言有關(guān)系也有區(qū)別,可以是獨(dú)立于我們自然語言的,是機(jī)器自己對(duì)世界理解的語言。換句話說,我們把世界的物體重新編碼起來,然后把物體和物體,物體和環(huán)境的聯(lián)系建立起來就好。有了這樣的從基本屬性到對(duì)象直至環(huán)境的關(guān)系,就有可能實(shí)現(xiàn)從知其然到知其所以然。所以我覺得未來最重要的趨勢(shì)就是從無需知識(shí)支撐的識(shí)別到需要知識(shí)支撐的理解,或者說從單純的Bottom-up的識(shí)別到需要知識(shí)啟發(fā)的具有反饋、推理的更廣義的計(jì)算機(jī)視覺,這也是我自己這幾年特別關(guān)注的研究方向。
其次,值得關(guān)注的一個(gè)趨勢(shì)就是對(duì)空間感的有限需求。關(guān)于為什么動(dòng)物需要視覺,主要是兩方面的需求——首先要保證尋找食物和不被天敵吃掉——識(shí)別能力;其次是保證不會(huì)因?yàn)閷?duì)空間的錯(cuò)誤判斷而造成意外傷害(摔倒或者撞擊等)。視覺最重要的就是解決這兩件事情。那么為什么講對(duì)空間感的有限需求?我們的三維空間感,只是在相對(duì)比較近的時(shí)候,才需要很精確。在距離稍遠(yuǎn)一點(diǎn)的情況下,大多數(shù)時(shí)候其實(shí)不關(guān)心精確的空間位置,而可能關(guān)心一些如遮擋、順序等關(guān)系。另外,如果你試圖把一切對(duì)象都用三維來表示的話,不管是從計(jì)算的代價(jià)還是從可實(shí)現(xiàn)性來講都很難。試想恢復(fù)一個(gè)一米遠(yuǎn)處的對(duì)象,可以做得很精確,而對(duì)于一百米或者更遠(yuǎn)的對(duì)象,如果希望保持相同的量化精度,對(duì)深度值的量化就會(huì)成問題。這就是說的有限需求的含義,但是我覺得這件事情一定很重要,特別是在較近的時(shí)候。
第三個(gè)值得關(guān)注的趨勢(shì)就是不同模態(tài)的結(jié)合,即所謂聰明合一,人的聰明離不開耳聰目明。這里的模態(tài)不僅僅限于視聽覺,還可以包括不同的二維、三維的視覺傳感信息等。生物的感知從來不是僅靠單一模態(tài)的。在多模態(tài)中需要解決好的一個(gè)問題是不同模態(tài)間的對(duì)齊與因果問題。如果同時(shí)存在從多個(gè)模態(tài)獲取的信息,時(shí)空對(duì)齊是非常重要的挑戰(zhàn)。與時(shí)空對(duì)齊相關(guān)的另一個(gè)問題是因果關(guān)系,雖然我們希望獲得因果,但絕大多數(shù)時(shí)候得到的僅僅是關(guān)聯(lián),兩個(gè)現(xiàn)象之間可以是第三個(gè)因素導(dǎo)致的,如同云層間放電導(dǎo)致電閃和雷鳴,這兩件事是關(guān)聯(lián)的,但絕不是電閃導(dǎo)致雷鳴。在絕大多數(shù)情況下我更傾向于去探索關(guān)聯(lián)而不是因果,特別是在數(shù)據(jù)驅(qū)動(dòng)的模型下,離開機(jī)理試圖發(fā)現(xiàn)因果是困難的。但在未來的計(jì)算機(jī)視覺研究中不同模態(tài)的結(jié)合和關(guān)聯(lián)是一個(gè)重要的趨勢(shì)。
第四個(gè)需要關(guān)注的趨勢(shì)是主動(dòng)視覺,所謂主動(dòng)就是在視覺系統(tǒng)中納入了反饋的機(jī)制,從而具有選擇的可能。視覺如果僅僅以獨(dú)立的形式存在,則不論是從感知所需的精度、分辨率以及處理的能力都需要成指數(shù)規(guī)模的增加,生物視覺由于有了主動(dòng)選擇的機(jī)制,因而在視野、分辨率、三維感知與能量消耗方面得到了很好的平衡。當(dāng)計(jì)算機(jī)視覺的研究不僅僅是為了驗(yàn)證某個(gè)單一的功能時(shí),上述生物視覺的平衡一樣需要在計(jì)算機(jī)視覺系統(tǒng)中考慮,實(shí)現(xiàn)從感知、響應(yīng)到行為的閉環(huán)。從被動(dòng)感知走到主動(dòng)的感知,這是從算法到系統(tǒng)的一個(gè)重要趨勢(shì)。將視覺的“看”與“響應(yīng)”和“行為”構(gòu)成廣義的計(jì)算機(jī)視覺系統(tǒng),通過有主動(dòng)的“行為”進(jìn)行探索,實(shí)現(xiàn)“魂”和“體”的合一。這對(duì)視覺應(yīng)用系統(tǒng)是至關(guān)重要的——例如一個(gè)經(jīng)過預(yù)訓(xùn)練的服務(wù)機(jī)器人,可以通過在新環(huán)境中的主動(dòng)探索,實(shí)現(xiàn)整體智能的提升。所以我認(rèn)為這是未來視覺應(yīng)用系統(tǒng)的重要趨勢(shì)。
我沒有講具體的算法哪些是重要的。我想說一件事情,就是關(guān)于深度學(xué)習(xí),我覺得未來深度學(xué)習(xí)就會(huì)像今天計(jì)算機(jī)里看到的寄存器、觸發(fā)器、存儲(chǔ)器乃至CPU一樣,成為基本構(gòu)件。關(guān)于趨勢(shì),延續(xù)前面的劃分,計(jì)算機(jī)視覺將進(jìn)入一個(gè)知識(shí)為中心的階段。隨著深度學(xué)習(xí)的廣泛應(yīng)用,計(jì)算機(jī)視覺系統(tǒng)將不僅處理單一任務(wù)。在復(fù)雜視覺任務(wù)的處理中,主動(dòng)視覺將起到重要的作用。通過主動(dòng)的響應(yīng)和探索,構(gòu)建并完善視覺系統(tǒng)對(duì)觀察世界的關(guān)聯(lián)(因果)關(guān)系并借此理解空間對(duì)象的時(shí)空關(guān)系、物理屬性等。這算是我對(duì)今天討論問題的個(gè)人預(yù)測(cè)。
3. 盧湖川
剛才前面兩位老師已經(jīng)提綱挈領(lǐng)的提了一些觀點(diǎn),我可能有一些和他們是相似的。
從理論方面來講,我覺得目前深度學(xué)習(xí)的理論好像有點(diǎn)走不太動(dòng)了。具體來說,從Backbone的發(fā)展來看,網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì),基本上沒有更多新的內(nèi)容。另一方面,某些領(lǐng)域還是比較熱門的,發(fā)展比較快。比如說自然語言處理(NLP)和視覺的結(jié)合,這幾年取得了很多進(jìn)展,特別是聊天機(jī)器人等相關(guān)的實(shí)際需求,驅(qū)動(dòng)著VQA等技術(shù)都有較大的進(jìn)展。尤其是基于圖的方法和視覺結(jié)合在一起可能會(huì)越來越熱。
以知識(shí)圖譜為例,如果知道一些先驗(yàn)知識(shí),知道一些知識(shí)圖譜的話,可能會(huì)更好的去理解圖像或者視頻。例如,給定一幅圖像,里面有一只貓和一個(gè)魚缸,貓用爪子抱住了魚缸,還盯著魚缸里面的魚,如果我們知道知識(shí)圖譜里貓和魚的關(guān)系, 我們就能很好的描述出貓想吃魚缸里的魚,從而更好的幫助視覺理解圖像或視頻里目標(biāo)和目標(biāo)之間的關(guān)系。所以說,我覺得基于圖或圖譜的方法和視覺結(jié)合在一起未來幾年會(huì)有更大的發(fā)展。
第二方面,我覺得三維視覺會(huì)繼續(xù)快速發(fā)展。從前兩年開始冒頭,到現(xiàn)在已經(jīng)較為火爆,不僅僅局限于三維場(chǎng)景重構(gòu)等領(lǐng)域,最近基于三維視覺的檢測(cè)與分割等都有一些優(yōu)秀的工作涌現(xiàn)。隨著基于各種各樣的嵌入式設(shè)備和手機(jī)端的需求,像華為手機(jī)已經(jīng)有三個(gè)背面的攝像頭,甚至多個(gè)攝像頭(它的三個(gè)攝像頭的定義,一個(gè)是超廣角的,一個(gè)是廣角的,另外一個(gè)是高精度的攝像頭,不同的分辨率,可以更多的去模仿人的視覺方式)。由于人觀測(cè)世界本身是三維的,所以移動(dòng)端的這種大量的應(yīng)用會(huì)牽引著三維視覺在這方面越來越走向更深入的發(fā)展。
第三方面,最初我們提到深度學(xué)習(xí)時(shí),通常都會(huì)說手工設(shè)計(jì)的特征(handcrafted feature)有各種各樣的不好,而深度學(xué)習(xí)是一個(gè)端到端的網(wǎng)絡(luò)。實(shí)際上,深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)也是手工設(shè)計(jì)的(handcrafted)。目前,網(wǎng)絡(luò)結(jié)構(gòu)搜索NAS興起之后,我覺得在這方面可能會(huì)有更多的一些改善,能夠把一些常規(guī)的操作,包括一些常規(guī)的模塊都融入進(jìn)去,來不斷優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)而不是手工設(shè)計(jì)(handcrafted design)。我覺得未來幾年在這方面,甚至包括網(wǎng)絡(luò)結(jié)構(gòu)的壓縮和裁剪方面都會(huì)有更多的進(jìn)步。
第四方面,深度學(xué)習(xí)興起之后,我們看到誕生了一大堆的數(shù)據(jù)集,并且都是有g(shù)round truth標(biāo)注的數(shù)據(jù),在其驅(qū)動(dòng)下,深度網(wǎng)絡(luò)達(dá)到了一個(gè)比較好的性能,目前絕大多數(shù)的數(shù)據(jù)集在性能方面基本上也趨于飽和了,但是距離實(shí)際問題仍然有較大的距離。另一方面,人對(duì)世界的認(rèn)知基本都是小樣本學(xué)習(xí)的結(jié)果,和目前的大數(shù)據(jù)驅(qū)動(dòng)的模式不太一樣。所以能否將當(dāng)前大數(shù)據(jù)驅(qū)動(dòng)的方式和人參與的方式結(jié)合起來?現(xiàn)在也有很多這樣的論文來研究人主動(dòng)參與的或者是human in the loop的學(xué)習(xí)方式,可以把人對(duì)ground truth的主動(dòng)標(biāo)記結(jié)合起來,引導(dǎo)快速的學(xué)習(xí),甚至把性能提高到一個(gè)更高的高度。
第五方面,視頻理解在前幾年開始有初步的發(fā)展,特別是到這幾年有更多的需求和深入的趨勢(shì)。因?yàn)楝F(xiàn)在基于圖像的所有任務(wù)做到一定程度之后可能都做不動(dòng)了,或者說沒有更多的花樣了,那么對(duì)視頻的各種理解越來越多,包括視頻摘要、視頻場(chǎng)景分類、廣告識(shí)別、臺(tái)標(biāo)識(shí)別等等,很多這方面的應(yīng)用,我覺得未來幾年會(huì)有更長(zhǎng)足的發(fā)展。
我覺得在主題(topic)方面,未來會(huì)有更多的發(fā)展領(lǐng)域。隨著剛才陳老師說到野蠻人的時(shí)代來了,大家參與視覺研究的熱情很高,不光是學(xué)術(shù)界,產(chǎn)業(yè)界對(duì)這種需求也是非常巨大的。因此我覺得目前深度學(xué)習(xí)領(lǐng)域,視覺會(huì)在各個(gè)行業(yè)縱深發(fā)展。
舉個(gè)例子,這兩天有一個(gè)公司提出這樣的一個(gè)需求,即鞋印踩上去之后,希望能識(shí)別是哪個(gè)犯罪嫌疑人來踩的,這個(gè)就是足跡識(shí)別。進(jìn)一步,他們想通過這個(gè)足跡來判斷這個(gè)鞋的鞋面是什么樣的,是什么牌子的。然后通過這些線索進(jìn)而去庫(kù)里搜索比對(duì),搜索完了之后,再去視頻里面去找犯罪嫌疑人,即穿這種鞋的人到底是誰。這個(gè)過程中,一步一步的從源頭開始到后面,形成了一系列的視覺問題,行業(yè)的這種縱深發(fā)展需求是無限巨大的。
視覺里面還有很多之前沒有想到的事情在不斷進(jìn)步,兩天前我參加了工業(yè)機(jī)器人展,看到有一個(gè)撿包裹的機(jī)器人。我們都知道快遞小哥要送了一大堆包裹,各種各樣的包裹都有,能否在包裹車?yán)瓉硪卉嚢螅寵C(jī)器人去分類呢?我在展會(huì)上看到就有這么個(gè)機(jī)器人,它會(huì)自動(dòng)的去識(shí)別是什么樣的包裹,而且知道它的三維的曲面是怎么樣,因?yàn)榘诺慕嵌榷纪耆煌鼤?huì)調(diào)整機(jī)械臂,適應(yīng)包裹的三維曲面的法線方向,去吸附它。我感覺在不同行業(yè)實(shí)際需求下,像分割、三維建模等視覺技術(shù)都會(huì)快速在各個(gè)行業(yè)里得到深入的發(fā)展。
另外,我覺得在醫(yī)療圖像方面也會(huì)有很大的進(jìn)展。醫(yī)療圖像現(xiàn)在更多的是各個(gè)疾病的檢測(cè)。昨天跟一個(gè)醫(yī)療單位在一起交流,他們提供了一個(gè)很大的平臺(tái),它的最終目標(biāo)是通過病人的不同模態(tài)的信息,來最后綜合判斷病人到底是什么樣的病。不僅僅是關(guān)注醫(yī)學(xué)影像信息的,還有一些其他的一些檢查結(jié)果,其實(shí)是一個(gè)跨模態(tài)的融合,包括圖像標(biāo)注、病案標(biāo)注等等,他們都使得醫(yī)療圖像未來和視覺的結(jié)合會(huì)越來越緊密。
目前5G不光是速度快容量大,它其實(shí)給計(jì)算機(jī)視覺AI帶來了一個(gè)更廣闊的前景,特別是無人車方面,剛才幾位也提到了三維的地圖等。跟中國(guó)移動(dòng)交流了之后,發(fā)現(xiàn)他們的高精度地圖,可以通過5G帶寬實(shí)時(shí)傳輸,是可以看到馬路崖子這種厘米級(jí)的精細(xì)度。所以我覺得5G+AI會(huì)為我們視覺相關(guān)領(lǐng)域的發(fā)展帶來巨大的機(jī)會(huì)。以上就是我對(duì)未來5-10年視覺發(fā)展趨勢(shì)的一些理解。
4. 劉燁斌
我主要圍繞三維視覺、虛擬現(xiàn)實(shí)和人工智能的發(fā)展談點(diǎn)想法。虛擬現(xiàn)實(shí)是2016年火了之后一直發(fā)展比較平穩(wěn)。2018年習(xí)總書記有過關(guān)于虛擬現(xiàn)實(shí)的重要性的指示,虛擬現(xiàn)實(shí)技術(shù)改變了未來的交互方式,主要是這種人與環(huán)境、人與人之間的交互方式可能會(huì)變得更加自然簡(jiǎn)單,并且取代鍵盤、手機(jī)觸屏等現(xiàn)有的功能。
三維視覺的趨勢(shì)是做視覺信息的重構(gòu),提供三維的內(nèi)容給虛擬現(xiàn)實(shí),這個(gè)是三維重建,三維虛擬現(xiàn)實(shí)通過真實(shí)渲染能夠產(chǎn)生很多數(shù)據(jù),為視覺問題服務(wù)。很多視覺問題皆有數(shù)據(jù)驅(qū)動(dòng),數(shù)據(jù)如何得來,越來越多的部分時(shí)通過三維引擎來得到。計(jì)算機(jī)視覺的研究對(duì)象有好幾類,室外的、室內(nèi)的、包括人體人臉還有手,還有一些醫(yī)學(xué)和生命對(duì)象。以人為本是計(jì)算機(jī)視覺的核心,所以我主要以人作為視覺研究對(duì)象,舉例說明計(jì)算機(jī)視覺的發(fā)展趨勢(shì)。
從人為研究對(duì)象的角度,虛擬現(xiàn)實(shí)有三個(gè)目標(biāo),也即三個(gè)I,一個(gè)Immersion,一個(gè)Interaction,一個(gè)Imagination。三者都是虛擬人(AI、機(jī)器等)和真實(shí)人之間的作用關(guān)系。首先,虛擬人在視覺外觀上是真實(shí)的,未來的虛擬人不管是真實(shí)做出來的機(jī)器人還是存儲(chǔ)在計(jì)算機(jī)中的,都有逼近真人的發(fā)展趨勢(shì),使得交互更加友好。而這個(gè)目標(biāo),本質(zhì)上就是人體的三維重建。第二個(gè)要素是人機(jī)的交互,虛擬人一定要能感知真實(shí)人的行為,包括手勢(shì)識(shí)別,行為識(shí)別,情緒等這樣的一些理解。最后,虛擬人需要對(duì)場(chǎng)景有反應(yīng),能夠智能化,他能夠根據(jù)你的行為智能地做下一步的處理,保證產(chǎn)生一個(gè)真實(shí)的虛擬人。
總體來說,虛擬現(xiàn)實(shí)的智能建模技術(shù)被列為新一代人工智能發(fā)展規(guī)劃里的八大關(guān)鍵共性技術(shù),重點(diǎn)突破虛擬對(duì)象智能的行為建模技術(shù),提升虛擬現(xiàn)實(shí)中智能對(duì)象行為的社會(huì)性、多樣性、交互逼真性,實(shí)現(xiàn)虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)等技術(shù)與人工智能的有機(jī)結(jié)合和高效互動(dòng)。上述定義中的重點(diǎn)是行為建模,行為必須是接近人的智能的行為,才能有交互的逼真性等等。圍繞這個(gè)人體的建模,目前的目標(biāo)一個(gè)是要精準(zhǔn)的重建,第二是要規(guī)模化的采集,第三是要便攜式(手機(jī)單圖像也能做),第四是速度足夠快,能夠響應(yīng)交互的要求,第五就是現(xiàn)在一個(gè)大的發(fā)展趨勢(shì),建模的結(jié)果含有語義信息,即語義化建模,包括服裝,人臉,頭發(fā)等。最后第六就是智能生成,即重建結(jié)果能真實(shí)動(dòng)畫展示。現(xiàn)有的三維視覺重建技術(shù)很難滿足這六個(gè)方面的要求,所以圍繞這些目標(biāo)還有很多研究需要做。
人體重建主要目的之一是全息通信。這里展示微軟做的holoportation系統(tǒng),它實(shí)現(xiàn)實(shí)時(shí)的,多相機(jī)下的人體動(dòng)態(tài)三維重建。但這個(gè)系統(tǒng)的缺點(diǎn)是,它要求具有主動(dòng)光,導(dǎo)致系統(tǒng)復(fù)雜度高,實(shí)時(shí)性和便捷性成為矛盾。實(shí)現(xiàn)實(shí)時(shí)高精度三維動(dòng)態(tài)重建,也是未來的一個(gè)學(xué)術(shù)研究趨勢(shì)。我們研制的單個(gè)深度相機(jī)實(shí)時(shí)的重建,雖然速度和便捷性都趨于完美,但精度還有待提高。單圖像人體三維重建,雖然現(xiàn)在的質(zhì)量還不算完美,但我覺得這是一個(gè)很實(shí)用的技術(shù)應(yīng)用趨勢(shì)。通過單個(gè)圖像我們就可以來簡(jiǎn)便地重建它的三維模型,未來肯定是能大放光彩的。單圖像人手動(dòng)態(tài)三維重建,通過單個(gè)RGB監(jiān)控相機(jī)就可以來實(shí)現(xiàn)實(shí)時(shí)性,可以看出三維重建輸出了語義信息,已經(jīng)取代了傳統(tǒng)二維計(jì)算機(jī)視覺識(shí)別問題成為發(fā)展趨勢(shì)。
服裝產(chǎn)業(yè)占據(jù)國(guó)民生產(chǎn)總值的6%,數(shù)字化服裝是一個(gè)非常重要的計(jì)算機(jī)視覺應(yīng)用之地。這個(gè)是展示我們最新做的一些事情,通過單個(gè)視頻,可以網(wǎng)上的視頻,就能通過語義的建模來實(shí)現(xiàn)比較高質(zhì)量的服裝三維建模,對(duì)一些VR、AR都可以應(yīng)用,它是通過對(duì)人體和服裝的解耦,語義信息的加入,包括光照和紋理的解耦來實(shí)現(xiàn)。這種東西未來可以產(chǎn)生一些應(yīng)用,包括改變體型,包括增強(qiáng)現(xiàn)實(shí)的模擬,右邊就是一個(gè)互聯(lián)網(wǎng)視頻的重構(gòu),它可以改變服裝的顏色等等。我覺得這種便攜實(shí)時(shí)的三維重建的趨勢(shì)就是從低層次的三維建模,包括體素的、網(wǎng)格的,逐漸走向高層次的三維建模,包括部件級(jí)的重建、物理信息分離、感知物理動(dòng)力學(xué)、特征空間的提取。這些高維信息能夠智能地建模和生成,響應(yīng)環(huán)境,控制和預(yù)測(cè)。包括圖形學(xué)里做的一些研究,好玩的比如能讓一個(gè)人去動(dòng)的虛擬對(duì)象的這種物理的約束,包括我們自己去爬山這種增強(qiáng)現(xiàn)實(shí)的技術(shù)也會(huì)引入進(jìn)來,把物理、智能響應(yīng)引入進(jìn)來。
最后再談?wù)劯袕V泛意義的一些動(dòng)態(tài)三維重建問題。例如,醫(yī)療方面的比如外科手術(shù)的術(shù)野場(chǎng)景的三維感知,就是個(gè)非剛性復(fù)雜動(dòng)態(tài)場(chǎng)景的三維建模問題。這是展示肝臟手術(shù)的視頻,能夠動(dòng)態(tài)跟蹤它的形狀,三維掃描的CT可以在動(dòng)態(tài)的場(chǎng)景下實(shí)時(shí)非剛性映射,輔助醫(yī)療和手術(shù)。
還有就是在生命科學(xué)領(lǐng)域的動(dòng)物行為三維重建,我覺得動(dòng)物是未來視覺的一個(gè)很大的可以應(yīng)用的點(diǎn),我們叫計(jì)算行為學(xué),也叫神經(jīng)行為學(xué)。它研究的是行為跟神經(jīng)活動(dòng)的映射關(guān)系,通過采集動(dòng)物行為數(shù)據(jù)來進(jìn)行分析。行為學(xué)上對(duì)人進(jìn)行分析非常難,因?yàn)槿说幕虿顒e非常大。但對(duì)于動(dòng)物來說,可以做到每個(gè)小鼠基因都是一樣的,像譬如在豬、猴子上也比較容易控制一些其他的差別的因素,所以對(duì)醫(yī)療,包括基因控制都會(huì)有幫助。在Nature子刊、Nature methods、Neural Science上都有一些相關(guān)的文章。
這里面其實(shí)有很多問題,包括群體對(duì)象自然環(huán)境下的交互,非剛性的捕捉,高層語義檢測(cè),互遮擋三維恢復(fù),時(shí)間序列分析,有很多研究發(fā)表在Nature上。動(dòng)物行為三維重建研究趨勢(shì)就是希望動(dòng)物更加自由地在實(shí)驗(yàn)環(huán)境里去生活,被記錄,藥物干預(yù)后提早發(fā)現(xiàn)行為差別。這樣的研究還是很多的,包括可以提取維度更高的特征。我們也是在做這樣一些研究,這里面有四個(gè)小豬,有兩個(gè)是有漸凍癥的,我們通過多視點(diǎn)拍攝,希望重構(gòu)三維小豬的動(dòng)作,通過重建動(dòng)作來識(shí)別漸凍癥小豬的行為特點(diǎn),對(duì)未來的基因調(diào)控和藥物治療帶來幫助。
5. 章國(guó)鋒
幾位老師已經(jīng)從計(jì)算機(jī)視覺大的層面對(duì)未來5-10年發(fā)展趨勢(shì)做了展望,我從我熟悉的三維視覺和AR方面對(duì)未來5-10年的發(fā)展趨勢(shì)發(fā)表一下自己的看法。
我的研究方向主要是SLAM,所以我就先從SLAM的角度做一些發(fā)展趨勢(shì)的展望。我們都知道視覺SLAM是很依賴特征的,未來SLAM技術(shù)的發(fā)展趨勢(shì)必然會(huì)從以前的底層特征比如點(diǎn)、線、面,向高層特征比如語義、文字、物體等趨勢(shì)發(fā)展。并且,現(xiàn)在已經(jīng)有一些提取運(yùn)動(dòng)規(guī)律的工作比如人的步態(tài)規(guī)律、機(jī)器人和無人車的運(yùn)動(dòng)規(guī)則等等,來進(jìn)一步提高定位的穩(wěn)定性。
有一個(gè)趨勢(shì)是朝著多傳感器融合的方向發(fā)展,其實(shí)每個(gè)傳感器都有著它的優(yōu)點(diǎn)和缺點(diǎn),那么最好的方法就是把這些傳感器的信息都融合起來,比如說隨著深度相機(jī)的流行,一些手機(jī)上都安裝了深度攝像頭,還有Wifi、藍(lán)牙、地磁信號(hào)等等,把這些信號(hào)都融合起來肯定可以提升定位的穩(wěn)定性。未來還會(huì)有更多類型的傳感器出現(xiàn),比如這幾年新出來的事件相機(jī)、偏振相機(jī),相信未來5-10年還會(huì)有一些新的傳感器出來。通過多傳感器融合,我相信SLAM技術(shù)會(huì)做的越來越精準(zhǔn)和魯棒。
還有一個(gè)趨勢(shì)就是隨著5G時(shí)代的到來SLAM會(huì)朝著云和端結(jié)合的趨勢(shì)發(fā)展,比如說現(xiàn)在高精度地圖的構(gòu)建是放在云上,并且支持動(dòng)態(tài)的更新。這就很自然地涉及到移動(dòng)端上的SLAM和云上的高精度地圖如何做緊耦合,如何利用語義地圖的信息來更好地定位,不同終端如何協(xié)同來做SLAM。
現(xiàn)在主要是深度學(xué)習(xí)的時(shí)代,對(duì)于SLAM來說,目前已有不少基于深度學(xué)習(xí)的工作,相信未來還會(huì)有更多這方面的工作涌現(xiàn)出來,比如如何學(xué)習(xí)一個(gè)更好的特征,如何學(xué)習(xí)更好的策略去解決SLAM中手寫規(guī)則的困境,可能還會(huì)有做得很好的端到端的位姿學(xué)習(xí)。還有一個(gè)非常重要的就是語義信息的融合,比如說,結(jié)構(gòu)的信息怎么跟語義信息做更好的融合,就像人眼一樣看世界。我覺得這是未來的一個(gè)發(fā)展趨勢(shì)。
以上是關(guān)于SLAM方面的。然后,三維重建,劉老師前面已經(jīng)討論得很多了,尤其是動(dòng)態(tài)場(chǎng)景的重建,我這里稍微再做一點(diǎn)補(bǔ)充。我覺得未來物體的三維掃描方面,一些便攜式、移動(dòng)式的RGBD傳感器會(huì)越來越流行,比如說基于結(jié)構(gòu)光和ToF的深度傳感器,未來我相信還會(huì)有一些新的傳感器出現(xiàn),可以幫助實(shí)現(xiàn)實(shí)時(shí)高效的三維重建。這里重建的不只是幾何和紋理,還包括材質(zhì)、語義等等。基于照片/視頻的三維重建技術(shù)未來幾年也還會(huì)有一些進(jìn)展,比如實(shí)現(xiàn)更高的幾何精度和紋理,能得到更細(xì)粒度的語義,并且結(jié)合分布式平臺(tái)的算力實(shí)現(xiàn)更高效的重建。
在大規(guī)模場(chǎng)景的三維掃描方面,目前基于相機(jī)拍攝的視頻或者照片已經(jīng)可以做到城市級(jí)場(chǎng)景的三維重建。一般都是通過無人機(jī)航拍,然后重建出來。如果進(jìn)一步結(jié)合深度傳感器(比如Lidar),相信可以實(shí)現(xiàn)更高精度的場(chǎng)景構(gòu)建。再結(jié)合分布式平臺(tái)的計(jì)算能力,實(shí)現(xiàn)整個(gè)城市甚至整個(gè)地球的完整三維地圖的重建將不是問題。當(dāng)然只是靜態(tài)場(chǎng)景的重建還不算太難,更難的是怎么實(shí)現(xiàn)動(dòng)態(tài)物體的重建和場(chǎng)景的動(dòng)態(tài)更新,因?yàn)檎鎸?shí)的世界不是靜態(tài)的,而是動(dòng)態(tài)變化的。我覺得未來可能會(huì)通過相對(duì)低成本比如多傳感器融合的方式來實(shí)現(xiàn)四維的場(chǎng)景地圖的動(dòng)態(tài)更新。包括前面講的通過三維掃描獲得的物體模型可以注冊(cè)到真實(shí)世界的三維地圖中,來實(shí)現(xiàn)三維信息的共享和傳遞。
然后,我想談一下識(shí)別和重建的關(guān)系。識(shí)別和重建未來5到10年會(huì)往更深層次的融合。目前三維重建基本上是bottom-up的方式,對(duì)先驗(yàn)知識(shí)的利用不夠充分,未來5-10年可能會(huì)誕生top-down的方式,比如說先識(shí)別后重建,或者兩者同步進(jìn)行。識(shí)別能夠提供更高層次的結(jié)構(gòu)先驗(yàn),反過來重建能夠幫助做更好的物體識(shí)別,因此未來會(huì)更加緊密的融合。另外,也還需要深度學(xué)習(xí)和幾何優(yōu)化算法的融合,才能最終構(gòu)建出兼具幾何外觀、語義信息、結(jié)構(gòu)化的、可動(dòng)態(tài)更新的3D場(chǎng)景表示。
另外,因?yàn)槲冶救艘恢痹谧鯝R方面的應(yīng)用,所以也想談一下關(guān)于AR/VR、AI和三維視覺協(xié)同發(fā)展的趨勢(shì)。其實(shí)AR主要是AI和三維視覺的應(yīng)用。這三者如果能夠緊密協(xié)同發(fā)展,那么我相信未來五到十年就可以實(shí)現(xiàn)一個(gè)地球級(jí)的現(xiàn)實(shí)世界的數(shù)字化。左邊這個(gè)圖是華為前不久提出的Cyberverse數(shù)字現(xiàn)實(shí)技術(shù),它主要是通過相機(jī)、Lidar等傳感器對(duì)真實(shí)世界進(jìn)行掃描并構(gòu)建高精度地圖,然后基于高精度地圖來實(shí)現(xiàn)室內(nèi)外精準(zhǔn)的定位和導(dǎo)航以及各種AR效果。Cyberverse實(shí)際上也不是一個(gè)完全新的概念,Magic Leap在2018年就提出過類似的概念Magicverse,旨在將大規(guī)模物理世界和數(shù)字世界持續(xù)地融合在一起。如右圖所示,Magicverse包括好幾個(gè)層,主要兩種類型,一類是叫做基礎(chǔ)層(包含物理世界和數(shù)字世界),還有一類叫空間應(yīng)用層。基礎(chǔ)層最底下是物理世界,然后在物理世界上構(gòu)造一個(gè)對(duì)應(yīng)的數(shù)字世界,然后再上面就是空間應(yīng)用層,包括流動(dòng)性、能源與水、健康與保健、通訊、娛樂等。
要實(shí)現(xiàn)這樣一個(gè)數(shù)字化的現(xiàn)實(shí)世界,最關(guān)鍵的一點(diǎn)就是對(duì)物理世界進(jìn)行三維數(shù)字化,也就是如何對(duì)高精度地圖進(jìn)行采集、構(gòu)建和更新。我相信未來必然是朝著多模態(tài)、多傳感器采集和融合的方式發(fā)展,因?yàn)槊總(gè)傳感器都有著它的優(yōu)點(diǎn)和缺點(diǎn),需要融合互補(bǔ)。這里最難的問題可能是怎么進(jìn)行動(dòng)態(tài)更新。我相信眾包式的采集和更新是實(shí)現(xiàn)這個(gè)目標(biāo)的有效方式,可以實(shí)現(xiàn)低成本、高頻次的更新。高精度地圖除了三維還應(yīng)該包括語義信息,因此語義信息的提取也是非常重要的,而且需要滿足不同應(yīng)用的語義信息,比如說定位、AR/VR的展示、行為分析等等。這就要實(shí)現(xiàn)不同粒度語義信息的提取,這里面的粒度可以大到整個(gè)商場(chǎng),再到一個(gè)門店,再小一點(diǎn)就是一個(gè)商品。除了物理世界的三維數(shù)字化,還需要對(duì)人的行為進(jìn)行數(shù)字化,運(yùn)動(dòng)行為、消費(fèi)的行為、社交行為等等。
對(duì)于這樣構(gòu)建的人的行為也好、三維空間也好,再結(jié)合SLAM、AR技術(shù),我們可以實(shí)現(xiàn)地球級(jí)的AR應(yīng)用。當(dāng)然,這里首先需要解決云端的高精度地圖怎么與終端SLAM緊耦合,這樣才能夠?qū)崿F(xiàn)長(zhǎng)時(shí)間大范圍的精準(zhǔn)定位和高品質(zhì)虛實(shí)融合。松耦合模式會(huì)有一些缺陷,誤差累積會(huì)很快,穩(wěn)定性也不夠好。基于這樣的一種方式,我們可以實(shí)現(xiàn)室內(nèi)外的分米級(jí)甚至到厘米級(jí)的定位和導(dǎo)航。
另外,我們知道5G時(shí)代很快就要到來了。目前的AR計(jì)算還主要是在終端,比如手機(jī)、AR眼鏡等。未來有5G的情況下很多計(jì)算都可以放到云或邊上,對(duì)終端的計(jì)算要求相對(duì)弱化,終端未來更多的是提供數(shù)據(jù)采集、連接和顯示的能力。因?yàn)橛性贫怂懔Φ募映郑咂焚|(zhì)的AR效果可以得以實(shí)現(xiàn),比如高逼真的物理效果模擬,準(zhǔn)確的遮擋效果和虛實(shí)交互,精準(zhǔn)的光照估計(jì)和電影級(jí)的真實(shí)感繪制與虛實(shí)融合效果就成為可能。在5G時(shí)代,一方面?zhèn)鬏斔俣确浅?欤硪环矫嬗性贫怂懔映郑磥響?yīng)用APP甚至都不要預(yù)裝,我們打開一個(gè)APP就像在瀏覽器上輸入網(wǎng)址或電視機(jī)上切換頻道一樣便捷。
以上是我對(duì)三維視覺和AR方面未來發(fā)展趨勢(shì)的看法,供大家參考。
三、專家討論發(fā)言
謝曉華:
我感覺我們是不是忽略了一點(diǎn),就是硬件發(fā)展。例如我們之前做超分辨率,做了很多,但是后來高清相機(jī)一出來,很多工作就白做了。那會(huì)不會(huì)在未來的十年范圍內(nèi)視覺傳感器這一塊會(huì)有比較大的突破,然后剛才提到的一些工作就沒有必要去做了。
林宙辰:
我想說一說什么樣的計(jì)算體系適合做計(jì)算機(jī)視覺?現(xiàn)在我們都是基于馮諾依曼體系,但是人的視覺處理過程跟馮諾依曼體系有很大的差別。如果是在新型的計(jì)算平臺(tái)上面,是不是很多計(jì)算機(jī)視覺的問題能更好或更高效的解決,我覺得是可以探討的。另外一個(gè),我贊成主動(dòng)視覺和在線學(xué)習(xí)。我覺得現(xiàn)在的視覺系統(tǒng)觸碰到了一點(diǎn)是,每個(gè)人都是from scratch,這樣的話精力有限你就只能做一個(gè)非常簡(jiǎn)單的任務(wù)。我覺得將來可以做一個(gè)像wiki一樣的項(xiàng)目,全世界都可以貢獻(xiàn),這樣的話大家都在共同構(gòu)建一個(gè)統(tǒng)一的系統(tǒng),而且這個(gè)系統(tǒng)可以利用網(wǎng)絡(luò)上的所有數(shù)據(jù),可以自我進(jìn)化(evolution)。然后這個(gè)系統(tǒng)大家都可以公用,這樣就可以解決每個(gè)人的系統(tǒng)不停的從頭學(xué)習(xí)的問題,因?yàn)閱蝹(gè)人做的話只能做很小的一部分。
林倞:
我想談一談關(guān)于benchmark或者關(guān)于AI的評(píng)價(jià)系統(tǒng)或者CV評(píng)價(jià)系統(tǒng)的好壞的基準(zhǔn)。因?yàn)槲艺J(rèn)為我們很多的研究是受這個(gè)基準(zhǔn)所驅(qū)動(dòng)的,或者說是跟這個(gè)benchmark是相互驅(qū)動(dòng)的。現(xiàn)在CV的趨勢(shì)是融合、協(xié)同等,那么未來我們可能會(huì)需要一種新的評(píng)價(jià)體系來看CV的狀況,可能不需要在一個(gè)特別的識(shí)別問題或者分割問題上達(dá)到特別高的精度,但是我們同時(shí)接入理解、分析、可解釋性等,這樣才能評(píng)價(jià)一個(gè)AI或者CV系統(tǒng)的魯棒性,更像人一樣的而不是把它歸類為一個(gè)分類問題或者重建問題,我覺得這個(gè)可能是我們要很具體的去討論和去發(fā)現(xiàn)的問題。
山世光:
我們討論十年后視覺可以發(fā)展到一個(gè)什么樣的水平,可是我們并沒有定義清楚,我們?cè)撊绾螐目傮w上度量視覺智能的進(jìn)步,比如說現(xiàn)在視覺智能水平是60分,十年后我們可以做到80分,這個(gè)沒有明確的標(biāo)準(zhǔn)。包括什么是視覺理解、圖像理解,怎么定義呢?比如我們做人臉識(shí)別,很清楚,就是以某個(gè)數(shù)據(jù)庫(kù)上的識(shí)別率為準(zhǔn)。可是作為一個(gè)general的視覺我們好像沒有這樣的一個(gè)標(biāo)準(zhǔn)。
另外,作為一個(gè)標(biāo)準(zhǔn)的benchmark的角度來說的話,是不是人的視覺也是分兩種,一種是通用的視覺,一種是專用的視覺。比如我們普通人看不懂醫(yī)療影像但專業(yè)醫(yī)師就可以,但是我們都有通用的視覺的能力。這兩類視覺實(shí)現(xiàn)的路徑是一樣的還是不一樣的?
還有一個(gè)就是剛才提到的十年后我們可能把地球都數(shù)字化了,但是這個(gè)數(shù)字話不見得是個(gè)簡(jiǎn)單的數(shù)字化,比如是地圖化的,那地圖化的話對(duì)我們做視覺的有什么樣的幫助呢?我覺得是不是類似于出現(xiàn)了一個(gè)視覺智能測(cè)試的“靶場(chǎng)”,我們的很多東西都可以在這個(gè)“靶場(chǎng)”里去測(cè)試。例如很多做自動(dòng)駕駛的系統(tǒng)初步的訓(xùn)練都是用的合成的模擬數(shù)據(jù)。那么也許我們有了一個(gè)很好的關(guān)于地球的數(shù)字化模擬的時(shí)候,我們就有了一個(gè)很好的視覺的“靶場(chǎng)”,這個(gè)“靶場(chǎng)”既可以做訓(xùn)練也可以做測(cè)試。
此外,要不要做視覺常識(shí)?大家都在說知識(shí),我覺得知識(shí)這個(gè)體系如果沒有常識(shí),感覺有些空中樓閣。我們做視覺先得有視覺常識(shí),有常識(shí)才有可能有所謂的理解,我不知道是否正確,我覺得這個(gè)問題可以討論。
陳熙霖:
關(guān)于理解的評(píng)價(jià)問題,我們可以想想人是怎么做的。對(duì)于人類形成體系的知識(shí)我們確實(shí)有benchmark,確實(shí)有考題。可是對(duì)人類探索中的知識(shí)是沒有考題的。大家理解的知識(shí)最后形成一個(gè)公共認(rèn)可的交集,最后逐步拓展。所以,我個(gè)人認(rèn)為在未來的推動(dòng)理解的研究中,benchmark不能沒有,但是不能唯Benchmark。如果說過去近30年中Benchmark推動(dòng)了計(jì)算機(jī)視覺的發(fā)展,今天可能成為束縛了計(jì)算機(jī)視覺發(fā)展的一個(gè)因素。我經(jīng)常跟學(xué)生為此爭(zhēng)論,一些學(xué)生認(rèn)為離開可評(píng)測(cè)數(shù)據(jù)集的工作就不是研究。而對(duì)真正智能的研究可能就是沒有Benchmark——沒有最聰明,只有更聰明。對(duì)于場(chǎng)景理解一類的任務(wù)而言,一個(gè)機(jī)器可能發(fā)掘出100組關(guān)系,另一個(gè)機(jī)器可能發(fā)掘出300組關(guān)系,那后者的理解能力可能就超越了前者,如果前者的關(guān)系是后者的真子集,那后者就一定具有更強(qiáng)的理解能力。當(dāng)然更多的是兩者可能具有互補(bǔ)性,如同人類的三人行必有我?guī)煛?
第二件事情是說通用視覺與專用視覺,我的觀點(diǎn)是對(duì)于醫(yī)療判讀這類的所謂專用視覺其實(shí)遠(yuǎn)遠(yuǎn)超越了視覺本身,它不僅僅是視覺,醫(yī)生的判斷是在視覺現(xiàn)象基礎(chǔ)上的知識(shí)/邏輯推理。
胡占義:
這個(gè)觀點(diǎn)我有點(diǎn)不大同意。我最近十多年一直在研究生物視覺,視覺絕不是說就是感知,視覺包含認(rèn)知。僅僅視覺物體識(shí)別這個(gè)具體問題,人類就有約三分之一的大腦皮層參與。當(dāng)然,某個(gè)大腦皮層區(qū)域參與視覺問題,絕不能說該皮層就是視覺皮層。大腦的大多數(shù)高級(jí)皮層,都在于加工多種感覺信息融合后的信息,進(jìn)行認(rèn)知決策和行為規(guī)劃。所以說視覺問題,它涉及真?zhèn)大腦,包括皮層和皮下組織的聯(lián)合加工,絕不是完全由大腦的視覺皮層完成。視覺皮層是指主要對(duì)視覺信息進(jìn)行加工的皮層,很多皮層參與視覺信息加工,但不是視覺皮層。
我先說第一個(gè)觀點(diǎn),人的視覺和計(jì)算機(jī)視覺是有區(qū)別的,如果說把人類視覺的腦加工機(jī)制完全解釋清楚,我覺得和搞清楚宇宙起源的難度沒有區(qū)別,我研究了差不多十五六年生物視覺,據(jù)我所知,神經(jīng)科學(xué)領(lǐng)域目前對(duì)視覺V1區(qū)研究的比較清楚,V2區(qū)已不太清楚,更不用后面的V4和IT區(qū),以及前額葉(PFC)等高級(jí)皮層。視覺問題處理基本涉及到大腦皮層的各個(gè)區(qū)域。所以說研究計(jì)算機(jī)視覺我覺得我們要弄清楚到底什么是計(jì)算機(jī)視覺,什么是計(jì)算機(jī)視覺的核心科學(xué)問題,我們不能夠把什么東西都往上加。我覺得我們要好好討論討論,五到十年內(nèi)我們到底主要是研究視覺感知還是視覺認(rèn)知?如果研究視覺認(rèn)知那是一萬年的事。我目前不怎么研究計(jì)算機(jī)視覺了,我主要關(guān)注生物視覺了,也許我說的不對(duì),但我覺得大家還是聚焦一些,目標(biāo)可實(shí)現(xiàn)一些。
我們討論五到十年的計(jì)算機(jī)視覺研究方向,不是指具體的算法,我們十年前也不知道深度學(xué)習(xí)能達(dá)到今天這樣的一個(gè)高度,我們要討論到底哪些方向是值得研究的,我自己覺得有三個(gè)需要關(guān)注的方向:1.基于神經(jīng)生理的計(jì)算機(jī)視覺,估計(jì)在五到十年以內(nèi)是一個(gè)重大方向;2.視頻理解;3.涉及中國(guó)特色的全球戰(zhàn)略相關(guān)的視覺研究:如衛(wèi)星數(shù)據(jù)理解(全球戰(zhàn)略),深海水下視覺信息處理(深海戰(zhàn)略)。
紀(jì)榮嶸:
我自己覺得我從博士畢業(yè)到現(xiàn)在大概10年的時(shí)間,我認(rèn)為計(jì)算機(jī)視覺是遠(yuǎn)遠(yuǎn)超過了我當(dāng)時(shí)讀書時(shí)的任何方向,比如說自然語言理解,信息檢索等等。我覺得一個(gè)重要的原因是深度學(xué)習(xí)帶來的收獲。但另一個(gè)方面,我們的這些系統(tǒng)太大太厚重,有沒有可能把這個(gè)系統(tǒng)做的小一些,做的開銷更小一些,這里面有幾個(gè)維度。大家能馬上想到的維度就是把系統(tǒng)做小,做小就可以把它放到端上,放到嵌入式設(shè)備上。
第二個(gè)就是把系統(tǒng)做快,現(xiàn)在自動(dòng)駕駛或者端上的設(shè)備的計(jì)算,有可能需要系統(tǒng)處理數(shù)據(jù)要遠(yuǎn)遠(yuǎn)快于實(shí)時(shí)。
第三點(diǎn),現(xiàn)在我們很多時(shí)候都是在做單點(diǎn)的系統(tǒng),每個(gè)攝像機(jī)執(zhí)行的功能都是一個(gè)完整的閉環(huán),花了很多的計(jì)算代價(jià)做了很多重復(fù)的事情,未來的視覺系統(tǒng)有沒有可能由點(diǎn)到面進(jìn)行大范圍系統(tǒng)之間的協(xié)同。就是說有沒有可能由專到廣的,為什么是由專到廣,現(xiàn)在每個(gè)模型只能解決一個(gè)任務(wù),為了解決目標(biāo)識(shí)別用的是目標(biāo)識(shí)別的模型,為了解決語義分割用的是語義分割的模型,為了解決人臉而用人臉的模型,我覺得我們的人腦并沒有分得那么清楚。one by one或者 1 v 1的我個(gè)人感覺太消耗資源了,有沒有可能有一種更靈活的機(jī)制,網(wǎng)絡(luò)結(jié)構(gòu)可以由不同的形式組合在一起,比如說一套模型的backbone,它往上的話既可以做識(shí)別又可以做分割還可以檢索,還可以做相關(guān)的理解。這樣的話就可以把整個(gè)計(jì)算量給降下來。我相信人類進(jìn)化到現(xiàn)在這個(gè)階段,我們用我們的大腦實(shí)現(xiàn)了多任務(wù)的,高效能的,并行而且只占用極小的存儲(chǔ)開銷,我們每天只用吃三碗米飯,我們能完成這個(gè)計(jì)算機(jī)系統(tǒng)消耗多少的計(jì)算量來完成的事情。
第四個(gè)觀點(diǎn),我覺得我們的系統(tǒng)現(xiàn)在“吃”數(shù)據(jù)“吃”的太厲害。我覺得我們?nèi)祟愖陨碚娴臎]有用到這么多的數(shù)據(jù)進(jìn)行學(xué)習(xí),我們用了大量的數(shù)據(jù)復(fù)用,比如說我識(shí)別消防車,只需要在車子上加一些特殊的部件,我就能識(shí)別消防車,我們?nèi)耸呛苤悄艿摹5俏覀儸F(xiàn)在的計(jì)算機(jī)系統(tǒng)太吃這些硬性的資源,所以我覺得在計(jì)算資源的消耗上和訓(xùn)練數(shù)據(jù)消耗上我們也應(yīng)該探索更多的機(jī)制。
然后,從我自己的感受來說,過去的時(shí)間我們看到世界往前發(fā)展,我特別希望未來的五到十年里面,計(jì)算機(jī)視覺的發(fā)展是由我們中國(guó)的學(xué)者去引領(lǐng)的,因?yàn)槲覀儸F(xiàn)在有巨量的市場(chǎng),這個(gè)市場(chǎng)有我們能馬上可以看到的技術(shù)痛點(diǎn),這痛點(diǎn)就在我們身邊,應(yīng)該是我們來做,而不是讓外國(guó)人來做我們的痛點(diǎn),我們應(yīng)該去引領(lǐng)它,所以我覺得未來的五到十年有很多是我們這些中國(guó)計(jì)算機(jī)視覺的學(xué)者應(yīng)該去做的事情。
林宙辰:
在手機(jī)上要越做越小,我覺得這不是正確的方向。將來的視覺系統(tǒng)應(yīng)該越做越大,不是越做越小。所有的運(yùn)算通過5G放在云上面運(yùn)算是未來的一個(gè)趨勢(shì)。我們大家都在云端上建立一個(gè)大系統(tǒng),這樣的話能夠解決多樣性的問題。因?yàn)橐靡粋(gè)小系統(tǒng)來解決各種各樣的問題,我覺得這個(gè)概率上講是不可能的,就是要建立一個(gè)跟人腦一樣復(fù)雜的一個(gè)系統(tǒng),它才能夠解決各式各樣的問題,這個(gè)系統(tǒng)肯定只能放在云上面,手機(jī)端愿意多算就多,少算就少算,不要把所有的計(jì)算都擠到一個(gè)小的手機(jī)上面來。
紀(jì)榮嶸:
我覺得不一定完全正確。我覺得端上可以做一些輕量級(jí)的計(jì)算,云上做更重量的計(jì)算。而且端上的計(jì)算可以使數(shù)據(jù)的傳輸由重量級(jí)變輕量級(jí)。比如說原來傳圖像,現(xiàn)在可以只傳特征,原來要傳所有的區(qū)域,現(xiàn)在只要傳特定的區(qū)域。因?yàn)槭謾C(jī)只用作攝像設(shè)備感覺太浪費(fèi)了,手機(jī)其實(shí)是一個(gè)很好的計(jì)算設(shè)備。
林宙辰:
我們并不矛盾。我是說想在手機(jī)上解決所有的問題這一點(diǎn)我是反對(duì)的。一開始你說要在手機(jī)上做小網(wǎng)絡(luò)這個(gè)東西,肯定是越小功能越差。
胡占義:
對(duì)于這個(gè)問題我提個(gè)建議,5G對(duì)我們計(jì)算機(jī)視覺影響有多大,其實(shí)就是小終端和大終端的問題。如果5G網(wǎng)絡(luò)很快,終端干脆就可以很小,不需要在這里處理,直接放到云上。我覺得5G對(duì)計(jì)算機(jī)視覺的影響確實(shí)要好好理解。
王亦洲:
你倆說的沒有矛盾,在專業(yè)任務(wù)上一定要壓縮。處理是與任務(wù)相關(guān)的,只要滿足任務(wù)的需求就行。視覺是一個(gè)ill-defined problem。什么是視覺這個(gè)概念太大了,但如果局限到圖像,又太小了。所以怎么去把握它呢?我們丟這個(gè)陣地,就丟在了問題的復(fù)雜度上面。現(xiàn)在已經(jīng)被深度學(xué)習(xí)占領(lǐng)了,我們?cè)倨恋睦碚摗⑿阅芏疾恍小?然后我們丟在哪兒了呢?視覺問題是不是深度學(xué)習(xí)就解決了?視覺并不僅僅是一個(gè)學(xué)習(xí)問題,剛才說視覺可以很大,它可以是個(gè)認(rèn)知的問題,top-down、bottom-up、然后各種任務(wù),我們定義的視覺問題的復(fù)雜度不夠,系統(tǒng)的復(fù)雜度也不夠。所以我們要把系統(tǒng)的復(fù)雜度給加上去,把任務(wù)的復(fù)雜度也加上去,但是在每個(gè)具體的專項(xiàng)的任務(wù)上面, 我們要盡量讓它簡(jiǎn)潔(compact), 讓它適合于任務(wù)(fit for task)就夠, 所以怎么去拿回這個(gè)陣地,我覺得要在這兩方面,復(fù)雜度上面加大,然后才能夠有可能把這個(gè)視覺的東西給拿回來。但視覺其實(shí)不單單是視覺問題,應(yīng)該是視覺主導(dǎo)的任務(wù)完成的一個(gè)問題。所以,以后CVPR它有沒有存在的意義,或者說是不是還是那個(gè)趨之若鶩的東西都不一定。
山世光:
我們值得討論的問題是,怎么撇清計(jì)算機(jī)視覺與機(jī)器學(xué)習(xí)的關(guān)系?我們?cè)谖磥韼啄晔遣皇蔷驼J(rèn)慫了,是不是計(jì)算機(jī)視覺的問題就是機(jī)器學(xué)習(xí)的問題。這個(gè)我覺得我們年輕人還是特別困惑,比如說有什么問題是機(jī)器學(xué)習(xí)肯定搞不定,只能靠計(jì)算機(jī)視覺理論和方法來去搞定的呢?
陳熙霖:
是現(xiàn)在很多東西都被劃到機(jī)器學(xué)習(xí)了。可以對(duì)比一下30年前機(jī)器學(xué)習(xí)的書和30年前模式識(shí)別的書,再拿今天機(jī)器學(xué)習(xí)和模式識(shí)別的書,看差別就行。
胡占義:
我覺得機(jī)器學(xué)習(xí)這個(gè)東西,是一種手段,它可以用于計(jì)算機(jī)視覺,也可以用于自然語言處理。模式識(shí)別和數(shù)學(xué)沒有區(qū)別,我比較理想,我覺得一個(gè)是一種解釋手段,一個(gè)是說要解決什么科學(xué)問題。
王井東:
接著剛才山老師提到這個(gè)問題。現(xiàn)在計(jì)算機(jī)視覺這么火,有多少是機(jī)器學(xué)習(xí)能做出來的東西。像alexnet也是做視覺問題,其實(shí)根本沒必要擔(dān)心。我自己也做過機(jī)器學(xué)習(xí),可以舉個(gè)例子,早先做過加速、大規(guī)模等,在Matlab上面做,這怎么能證明這是個(gè)大規(guī)模的問題,所以說同樣根本不用擔(dān)心這個(gè)問題。
剛才討論到一個(gè)問題,就是說計(jì)算機(jī)視覺5到10年怎么走。現(xiàn)在遇到一個(gè)狀況,不管是中國(guó)還是美國(guó),今年年視覺方向的工作機(jī)會(huì)(opening)特別少,從2012起視覺火了8年,應(yīng)該怎么繼續(xù)走。計(jì)算機(jī)行業(yè)外的人給予CV很高的期望,比如超越人類。其實(shí)這件事情不靠譜,根本沒有超越人類。但是不做計(jì)算機(jī)視覺的人總覺得計(jì)算機(jī)視覺的人應(yīng)該做些什么東西。但是現(xiàn)在到這個(gè)階段,也許這跟當(dāng)年神經(jīng)網(wǎng)絡(luò)一樣,像過街老鼠一樣,說計(jì)算機(jī)視覺的人吹牛皮。其實(shí)不是我們吹得,是別人吹的。我們要思考,我們視覺如果繼續(xù)往前走,科學(xué)研究方面是一個(gè)問題,另一方面是如何去得到持續(xù)關(guān)注真正做一些能夠work的系統(tǒng)出來。盡管我們今天已經(jīng)在很多方面做得不錯(cuò),但坦白來講還沒真正work。計(jì)算機(jī)視覺是不是應(yīng)該純粹從視覺的角度解決,其實(shí)多模態(tài)是一個(gè)很好的方向,單單靠視覺這一點(diǎn),在監(jiān)控系統(tǒng)里面還是很大的一個(gè)問題。從方向上來講我比較看好多模態(tài)這個(gè)方向。
王濤:
關(guān)于未來計(jì)算機(jī)視覺發(fā)展的趨勢(shì)很多。我感覺一個(gè)最重要的趨勢(shì)應(yīng)該是主動(dòng)視覺。Imagenet競(jìng)賽能識(shí)別很多的物體,但是圖像分類真正在實(shí)際場(chǎng)景中就不管用。真正管用的是基于物體檢測(cè),然后再進(jìn)行識(shí)別的像人臉識(shí)別這種技術(shù)。為什么人臉識(shí)別成功了,圖像分類系統(tǒng)還不成熟。輸入一張圖像,你必須得按不同的區(qū)域不同的粒度進(jìn)行分析,比如在會(huì)場(chǎng)我們拍張照片,識(shí)別人,那我們?nèi)?shù)人頭。但是如果要識(shí)別投影儀設(shè)備,必須定位到這個(gè)投影儀圖像才能找到。第二個(gè)問題是投影儀的信息有多種層次,比如說有人想知道牌子,那你必須再細(xì)看到那個(gè)Logo,但是另外有人想知道怎么操作這個(gè)投影儀,那你必須得識(shí)別它的各種接口,你才能把它的功能識(shí)別出來。我感覺最近的Imagenet和ActivityNet行為識(shí)別競(jìng)賽,大家現(xiàn)在做的這兩類競(jìng)賽都是用圖像分類的競(jìng)賽做。用圖像分類做競(jìng)賽,實(shí)際中都不能用,為什么呢?它沒有像人一樣主動(dòng)去識(shí)別,你得看到這個(gè)人,看到那個(gè)人真正發(fā)生動(dòng)作的那一幀,這才能把它識(shí)別出來,所以我感覺主動(dòng)是非常重要的。
第二個(gè),要有層次。層次就是不僅要識(shí)別出一些基本的要素,還要把里面的不同層次關(guān)系能夠結(jié)構(gòu)化的提取出來。我們實(shí)驗(yàn)發(fā)現(xiàn)把東西拿在一起學(xué)的效果會(huì)很差,但是如果把這個(gè)東西分成兩個(gè)部分,先固定解碼器學(xué)編碼器,然后再固定編碼器學(xué)解碼器,系統(tǒng)就學(xué)出來了。我們的學(xué)習(xí)得有一些像搭積木一樣的層次,先把基本的比如人臉、水杯、花識(shí)別出來,然后拍一張照片能把物體之間的關(guān)系給識(shí)別出來。
第三個(gè),應(yīng)該怎么研究。視覺研究很廣,想要做成功,得針對(duì)具體的應(yīng)用。人臉識(shí)別系統(tǒng)很成熟,但是用在自動(dòng)駕駛上識(shí)別行人就不行,得一類一類來,在不同應(yīng)用場(chǎng)景中,需要看到不同的數(shù)據(jù)和不同的性質(zhì)。所以我認(rèn)為針對(duì)具體應(yīng)用,未來除了在深度學(xué)習(xí)基礎(chǔ)上主動(dòng)視覺,發(fā)揮層次融合推理應(yīng)該是一個(gè)比較好的趨勢(shì)。
胡占義:
我覺得主動(dòng)視覺很重要,但5-10年主動(dòng)視覺不可能取得巨大進(jìn)展。這涉及到生物里面反饋(feedback)的高層知識(shí),但反饋很難短期內(nèi)取得進(jìn)展。關(guān)于視覺的目的1994年CVGIP組織了一個(gè)專刊,曾經(jīng)有過一個(gè)辯論。從1994年到現(xiàn)在,可以說主動(dòng)視覺沒有任何的進(jìn)展。在生物神經(jīng)系統(tǒng)里面有大量的反饋,但不知道反饋是什么東西。如果神經(jīng)科學(xué)很難給出一點(diǎn)啟示的話,那么我們計(jì)算機(jī)視覺就很難把它做成。這是我的一點(diǎn)個(gè)人觀點(diǎn)。
王濤:
我覺得以前主動(dòng)視覺不成功是因?yàn)檠芯糠椒ú粚?duì)和技術(shù)限制。
胡占義:
Recurrent有兩個(gè),一個(gè)是同層的抑制,一個(gè)是高層的反饋,而高層的反饋在生物視覺里面大家知道有大量的反饋,但是反饋的是什么東西還不清楚。所以說根據(jù)我的理解,我覺得3-5年內(nèi)生物視覺很難有較大進(jìn)展。
王亦洲:
我補(bǔ)充一下,回到學(xué)習(xí)上,學(xué)習(xí)是視覺的核心。視覺其實(shí)是個(gè)偽問題,但學(xué)習(xí)是一個(gè)永恒的本質(zhì)問題。沒有學(xué)習(xí),視覺存不存在都不太重要了。與其叫計(jì)算機(jī)視覺還不如叫computational visual intelligence. 視覺是一種智能,智能的核心是學(xué)習(xí)怎么去獲得知識(shí),反饋只是學(xué)習(xí)和推理的一個(gè)環(huán)節(jié)。學(xué)習(xí)是什么?是簡(jiǎn)單的模式識(shí)別,還是高級(jí)學(xué)習(xí),這可能是學(xué)習(xí)下一步應(yīng)該走的,給學(xué)習(xí)起一個(gè)俗的名字叫元學(xué)習(xí),如果要和計(jì)算機(jī)視覺對(duì)應(yīng),我們叫元認(rèn)知。核心就是學(xué)習(xí),不搞學(xué)習(xí)是不行的。
楊睿剛:
我覺得機(jī)器視覺與生物視覺應(yīng)該有區(qū)別,不一定機(jī)器視覺要學(xué)習(xí)生物視覺。舉個(gè)例子,比如說看全局我要大照片,然后看局部我要小照片,但是如果你有一個(gè)攝像頭,可以一下子拍10億像素,或者有一個(gè)攝像裝置能把光場(chǎng)記錄下來,那active learning與passive learning就沒有區(qū)別了。這種硬件區(qū)別至少在二維圖像上,將來我覺得十億像素應(yīng)該是很快到來的事情。
陳熙霖:
這個(gè)地方我補(bǔ)充一句,這里的主動(dòng)不僅指分辨率,其本質(zhì)是通過主動(dòng)的“行為”進(jìn)行探索,從而達(dá)到有限資源的最大化利用。
楊睿剛:
你說的是一種主動(dòng)感知的explore,還有一種不改變環(huán)境不改變物體的。
陳熙霖:
即使是不做改變,比如從一個(gè)角度看和從另一個(gè)角度看,光場(chǎng)相機(jī)并不解決這類問題,我們無法獲得對(duì)象背后的光場(chǎng)。
楊睿剛:
光場(chǎng)相機(jī)陣列。
林宙辰:
楊睿剛的意思是說干脆把所有的信息都采集了,這個(gè)機(jī)制還是有點(diǎn)不一樣。
王亦洲:
主動(dòng)學(xué)習(xí)有一個(gè)停機(jī)問題,有一個(gè)選擇的問題。就是說,你所有信息都在這兒,你什么時(shí)候停下來,你決定采哪一塊,這是最重要的。所以主動(dòng)學(xué)習(xí),它并不是你把所有東西都拍上去,你也得要選擇。
楊睿剛:
選擇的問題肯定要在里面,但是現(xiàn)在做主動(dòng)學(xué)習(xí)肯定涉及到機(jī)器人等問題,超出了計(jì)算機(jī)視覺的范疇。
王亦洲:
所以就不要抱著計(jì)算機(jī)視覺了,這個(gè)就是我的意思。
胡占義:
主動(dòng)學(xué)習(xí)這里面有兩個(gè)概念。第一個(gè)是要有探索和注視,否則的話就沒有主動(dòng)性。第二個(gè)是記憶,主動(dòng)視覺是從生物來的概念。在計(jì)算機(jī)視覺里面,主動(dòng)視覺這個(gè)概念太大了。
查紅彬:
我想這里可以將主動(dòng)視覺與深度學(xué)習(xí)進(jìn)行對(duì)比。深度學(xué)習(xí)的問題在于要有標(biāo)注數(shù)據(jù)庫(kù),需要事先整理好的數(shù)據(jù)。而視覺系統(tǒng)在實(shí)際場(chǎng)景中工作時(shí),需要自己選擇對(duì)自己有用的樣本。這樣,將樣本選擇與視點(diǎn)選擇,結(jié)構(gòu)重構(gòu),計(jì)算優(yōu)化等策略結(jié)合起來,就能有效地發(fā)揮其主動(dòng)性,而不需要讓人把所有的數(shù)據(jù)都收集好喂給它。
鄭偉詩(shī):
學(xué)習(xí)對(duì)視覺很重要。Benchmark推動(dòng)也束縛了目前計(jì)算機(jī)視覺的發(fā)展,ReID做到97%,大家就想不到該做什么,但問題本身并沒解決。數(shù)據(jù)庫(kù)太有限,采集的東西沒有完全反映整個(gè)問題,比如說行人的遮擋問題,各種各樣的問題。在有限數(shù)據(jù)的時(shí)候,學(xué)習(xí)可能不能完完全全地解決它。有限數(shù)據(jù)下的學(xué)習(xí),有沒有可能受到3D方面的啟發(fā)?把一個(gè)人整個(gè)3D的信息,還有行人整個(gè)行為的3D信息都能捕捉到的話,我們就可以去掉開放環(huán)境下所受到的這些影響,然后我們就可以重構(gòu)。像我們可以構(gòu)造一個(gè)靶場(chǎng),這個(gè)靶場(chǎng)很重要,無論我們做任何的系統(tǒng)都要做測(cè)試,但如果只在有限數(shù)據(jù)上或片面的數(shù)據(jù)上做測(cè)試的話,我們?cè)谡鎸?shí)應(yīng)用的時(shí)候可能就會(huì)有受限。因此如果我們能夠把3D這種因素嵌入到現(xiàn)在以2D圖像為主導(dǎo)的計(jì)算機(jī)視覺里面的話,可能會(huì)對(duì)我們整個(gè)計(jì)算機(jī)視覺在未來3到5年的發(fā)展能有另外一個(gè)維度的推動(dòng)作用。
那么為什么做3D?另外一件事情就是現(xiàn)在可能在全世界都在談的數(shù)據(jù)隱私問題。數(shù)據(jù)采集的隱私問題越來越重要,如果你用的是一個(gè)虛擬的靶場(chǎng)的話,這種隱私問題就完全不存在。所以,在未來包括可能在國(guó)外人臉識(shí)別、行人識(shí)別,甚至一些行為識(shí)別都有可能會(huì)受到嚴(yán)重的法律因素的滯后的影響的話,那么我們更需要從3D的角度,從另外一個(gè)維度去考慮,是不是在這方面可以拓寬計(jì)算機(jī)視覺的發(fā)展方向,這是我的觀點(diǎn)。
賈云得:
我們做視覺很早了,早先把它作為一條小河,我們流那么多年,突然下大暴雨,現(xiàn)在是洪水猛獸(深度學(xué)習(xí))來了。五年以后估計(jì)這個(gè)模式都過去了。我覺得那條河還會(huì)在。因?yàn)椋瑥囊暰W(wǎng)膜到視皮層這條通路在那擺著呢,非常高效。因此,還會(huì)有好多人研究,五年十年以后我們中國(guó)實(shí)驗(yàn)室做什么?肯定還是小河里面。
我看好兩個(gè)方向。第一個(gè)是三維視覺,三維視覺不會(huì)很熱,也不會(huì)很冷,會(huì)一直往下走。第二,就是胡老師說的視頻理解。這個(gè)好幾個(gè)老師也說了,多模態(tài),就像我們看電影也是一樣的,看會(huì)兒畫面看字幕,看會(huì)兒字幕看畫面,來回互相理解,現(xiàn)在好像挺熱的。原來我們遇到的是數(shù)據(jù)-語義的鴻溝。后面我們?cè)谧R(shí)別結(jié)果和意識(shí)間的鴻溝也會(huì)出現(xiàn),一旦有鴻溝就變成熱點(diǎn),因?yàn)槔镞呏饔^加的東西太多了。我覺得視頻理解應(yīng)該是一個(gè)熱點(diǎn)。
魯繼文:
我覺得我們現(xiàn)在用了很多機(jī)器學(xué)習(xí)的知識(shí)。下一步,我自己更愿意做一些特別的工作,就是從機(jī)器學(xué)習(xí)到機(jī)器推理。比如給你一幅圖像,你一看就知道這個(gè)圖像未來應(yīng)該怎么樣發(fā)展,但對(duì)于計(jì)算機(jī)再?gòu)?qiáng)的網(wǎng)絡(luò)都不行。我覺得現(xiàn)在計(jì)算機(jī)視覺里面很多時(shí)候性能之所以好,是在于我們對(duì)這個(gè)問題的定義,在這種定義基礎(chǔ)上已經(jīng)基本上可以解決。現(xiàn)在我們可能要再去找一些更能夠描述或者更能夠匹配人類視覺能力的計(jì)算機(jī)視覺任務(wù)。現(xiàn)在比如說檢測(cè)、分割、檢索、識(shí)別,都是單獨(dú)的視覺任務(wù),這種單純的視覺任務(wù)還是有點(diǎn)簡(jiǎn)單。當(dāng)然有的老師可能有不同的觀點(diǎn),就是說他們的變化這種東西可能比較難。但實(shí)際上人的視覺更多的時(shí)候可能不是這樣子的。所以,我覺得在計(jì)算機(jī)視覺里面一個(gè)很重要的問題是怎么樣找到這樣的任務(wù),能夠更好的與我們?nèi)祟惖囊曈X任務(wù)匹配起來,這樣的任務(wù)既不能太難也不能太簡(jiǎn)單。這樣的任務(wù)我覺得還需要我們多花時(shí)間去思考討論,我自己也不知道是什么任務(wù)。
王亮:
未來5到10年的CV發(fā)展趨勢(shì)這個(gè)主題的主要目的是希望聽聽我們國(guó)內(nèi)視覺界專家們的新見解。今天聽了各位講了很多,方方面面都有。如果說個(gè)趨勢(shì)的話,每一個(gè)方面可能都會(huì)有一定的趨勢(shì),但大家的意見有不相同,也有相同的地方。這個(gè)主題的定位是希望通過這次的深度研討梳理幾個(gè)視覺領(lǐng)域中最重要的大家都認(rèn)可的這樣一個(gè)發(fā)展趨勢(shì),有不同的意見沒有關(guān)系,而且這個(gè)討論也是有交叉的。
查紅彬:
這種討論我覺得挺好。講一些發(fā)展趨勢(shì),然后大家能夠有一些思想上的碰撞和火花。做視覺研究,大家在發(fā)展趨勢(shì)上,如果有完全一樣的看法會(huì)很奇怪。要整理出比較明確的發(fā)展趨勢(shì)也很難。為什么呢? 誰要想做出很好的工作,他就應(yīng)該有一些與別人不一樣的看法,如果大家都是同樣的看法,這事情就很難往下做。所以我覺得,我們更多的是通過交流各自的想法,啟發(fā)我們自己能有一些新的思路,或者在我自己的這些想法上能找到一些更多的理由、依據(jù),然后把這個(gè)事情做下去。所以我想通過這些討論,更多的是咱們能不能將來在國(guó)際會(huì)議上,在研究成果方面,我們也有自己的一些特色在里邊。到目前為止,我們寫文章是在拼什么?就拼數(shù)據(jù)庫(kù)測(cè)試上性能提高了百分之幾,而且大多數(shù)是在別人方法上改進(jìn)一下,然后做個(gè)實(shí)驗(yàn)說我提高了百分之多少。但是我們很少有說你的想法跟別人在什么地方不一樣,然后你這個(gè)不一樣的東西在某個(gè)地方用起來會(huì)有一些效果。一開始你可能效果會(huì)比較差,而且你也不容易輕松地打動(dòng)別人,但是在你的帶領(lǐng)之下很多人都會(huì)來做這個(gè)事情的時(shí)候就不一樣了。所以我想說,能不能將來不是只盯著這個(gè)數(shù)據(jù)庫(kù)上的數(shù)據(jù)去拼,而是有更多的比較好的創(chuàng)意出來。
山世光:
是不是可以倡議建立一個(gè)只評(píng)價(jià)idea、方法原理,不評(píng)價(jià)在benchmark或者數(shù)據(jù)庫(kù)上的好壞的審稿機(jī)制?
陳熙霖:
胡老師剛才提到的1994年CVGIP組織的一個(gè)專刊中,當(dāng)年提出了三個(gè)需要改進(jìn)的方面,今天真正實(shí)現(xiàn)的只有一件——就是benchmark。那場(chǎng)討論中說我們這個(gè)領(lǐng)域里的工作缺乏比較,自說自話,之后就產(chǎn)生了各種各樣比較的數(shù)據(jù)集。所以我剛才有一句話,在過去近30年中Benchmark推動(dòng)了計(jì)算機(jī)視覺研究的進(jìn)步,就是指的那場(chǎng)討論開始的。
查紅彬:
我同意你的觀點(diǎn)。現(xiàn)在回過頭來看看,計(jì)算機(jī)視覺研究了這么多年,也許就是在那些文章出來之后,我們?cè)贈(zèng)]有看到什么新的主意、新的理論出來了。在那之前百家齊放,好像有很多新的說法出來。在那個(gè)benchmark出來之后大家都在做同樣的事情,最后整個(gè)領(lǐng)域就變得不怎么活躍了。
胡占義:
我們既然研究計(jì)算機(jī)視覺,我建議大家讀一讀Marr的書。
盧湖川:
剛才說到的benchmark,我覺得至少計(jì)算機(jī)視覺這個(gè)benchmark的存在,使得計(jì)算機(jī)視覺有別于純粹的機(jī)器學(xué)習(xí),而且特別是起到了該有的歷史作用。現(xiàn)在大家對(duì)它的詬病最主要的原因就是它還是一個(gè)單一的benchmark。那只能說這個(gè)benchmark并不像人一樣,那如果有人再去定一個(gè)更復(fù)雜的benchmark,它是多維的,也許這個(gè)benchmark就能夠驅(qū)動(dòng)下一個(gè)時(shí)代的發(fā)展,也許就能夠完成像人一樣的學(xué)習(xí)或者識(shí)別等等。我覺得benchmark本身并沒有太大問題,因?yàn)槿藦男∈芙逃臅r(shí)候就是教他這是什么那是什么,只是人是一個(gè)綜合的智能體。現(xiàn)在的benchmark如果再往更高的維度發(fā)展,也許能夠有更好的收獲。
楊睿剛:
現(xiàn)在的benchmark太多了,哪些benchmark重要,哪些benchmark不重要,還有隨之而來的各種各樣的比賽,哪些是重要的,哪些不重要。在某種意義上是不是也跟大家說,我又拿了個(gè)世界第一,但可能這個(gè)世界第一里面只有十個(gè)人參加。那有沒有一種方法可以有這樣的一個(gè)更加好的量化機(jī)制,可以給benchmark一個(gè)benchmark。
王井東:
Benchmark現(xiàn)在有個(gè)很大的問題是很多人做不了。Imagenet很多人做不了,那做不了從我們研究人員的角度來講,就是文章可能出不去,這是一個(gè)可能不好的地方。 但從另外一個(gè)角度來講benchmark挺重要的。視覺的任務(wù)目的很多,我們做視覺還有一個(gè)重要目的就是培養(yǎng)學(xué)生,那至于視覺培養(yǎng)學(xué)生這個(gè)功能可能是區(qū)別于其他的,比如Multimedia。Multimedia從培養(yǎng)學(xué)生的角度上我覺得是很好的。但它有個(gè)很大的缺點(diǎn),是沒有benchmark。從這個(gè)角度來講benchmark還是需要的。只是現(xiàn)在審稿人對(duì)數(shù)據(jù)集的規(guī)模期望更大了,這對(duì)很多人來講尤其是學(xué)校里面是很有挑戰(zhàn)的,現(xiàn)在可能就少數(shù)幾個(gè)公司比較強(qiáng)。這是我對(duì)benchmark的觀點(diǎn)。
王亦洲:
建議PRCV單開一個(gè)track,鼓勵(lì)創(chuàng)新性。單開一個(gè)不看性能的track。
商用機(jī)器人 Disinfection Robot 展廳機(jī)器人 智能垃圾站 輪式機(jī)器人底盤 迎賓機(jī)器人 移動(dòng)機(jī)器人底盤 講解機(jī)器人 紫外線消毒機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 服務(wù)機(jī)器人底盤 智能送餐機(jī)器人 霧化消毒機(jī) 機(jī)器人OEM代工廠 消毒機(jī)器人排名 智能配送機(jī)器人 圖書館機(jī)器人 導(dǎo)引機(jī)器人 移動(dòng)消毒機(jī)器人 導(dǎo)診機(jī)器人 迎賓接待機(jī)器人 前臺(tái)機(jī)器人 導(dǎo)覽機(jī)器人 酒店送物機(jī)器人 云跡科技潤(rùn)機(jī)器人 云跡酒店機(jī)器人 智能導(dǎo)診機(jī)器人 |