有趣又有料:任意操控靜態圖片中人的眼球


轉載: http://mp.weixin.qq.com/s/PF3sb5mgFEgtYRrw5YJDEQ

最近深度學習學術圈出現了一個很有趣的演示demo:DeepWarp。輸入一張包含人臉的靜態圖片,通過該demo上傳至服務器,經過雲端處理,一兩秒內就可以生成旋轉、左右移動、上下移動、斗雞眼四種方式的眼球運動。這種技術稱之為視線操控(Gaze Manipulation)。


這款demo你值得擁有


DeepWarp 的 演示demo 地址如下,不需要翻牆哦:http://163.172.78.19/


該demo目前只支持png, jpg, jpeg三種圖片格式,圖片最大不能超過300KB,長寬超過400個像素會被自動重置大小。操作也非常簡單,如下圖所示:

上傳好圖片,點擊選擇右邊任意一種眼球運動方式,下方就會生成對應的視頻。對着視頻右鍵可以保存為mp4格式的視頻。如果想要做成動態圖,推薦使用這個在線的視頻生成動態圖網站,無需下載軟件,一鍵操作,非常好用。

https://ezgif.com/video-to-gif


先不談學術,先看看好不好玩再說!不好玩不要錢!下面是根據該demo的測(搞)試(怪)結果。


眼睛清晰度較高

先來個美女養養眼~

這張圖片大小適中,人物面部清晰,眼睛也比較清晰。從圖上來看,眼皮、眼睫毛和眼球的運動是統一的。如果仔細看的話,瞳孔里的反光也是和眼球運動統一的。總之,這張圖看起來毫無違和感,效果棒棒噠!

背后的技術


玩的差不多了,可以稍微了解一下背后的技術。


團隊背景

這款看起來非常逗逼的demo實際上背后的技術非常高端大氣上檔次。沒錯,你猜對了,正是目前火到爆的深度學習技術。


DeepWarp是由俄羅斯Skolkovo Institute of Science and Technology的Yaroslav Ganin、Daniil Kononenko、Diana Sungatullina 和 Victor Lempitsky聯合研發的。其成果在2016年發表在計算機視覺領域的三大世界頂級會議之一的ECCV上。文章標題為:《DeepWarp: Photorealistic Image Resynthesis for Gaze Manipulation》,可以在網上下載到。


目前的demo是今年3月份最新更新的,效果比當時發論文時提高了不少。


技術簡介

該技術的算法流程如下:

1、首先進行人臉檢測,然后使用第三方的人臉對齊庫找到眼睛所在的區域。所以該算法無法處理卡通形象和動物等非人類面部,這在前面實驗階段也得到了驗證。

2、神經網絡輸入:人眼的區域、眼部特征點、需要校正的視線角度alpha。

3、將上述的輸入傳入訓練好的前饋多尺度卷積神經網絡中,然后該網絡可以輸出一個預測的光流場。預測過程是從粗糙到精細(coarse-to-fine)的兩個階段。

4、將上一步得到的光流場應用到輸入圖像里的人眼區域,就產生了經過視線校正后的人眼圖像。

5、最后利用訓練 好的專門用於光線自適應校正的神經網絡對輸出圖像進行光線調整,使得結果表現自然。


數據集

由於沒有公開的專門用於連續變化角度的視線校正數據集,該demo的創建者們只能自力更生。他們請了33個人用如下自創的設備進行視頻采集。


每一個視頻需要被試者看200個固定的位置點,每個人錄制2-10個視頻,包括不同的頭部姿態和光照條件。最后他們還要人工去除那些眨眼的、沒看對位置的等不能用的部分。想想這其實是很大的工作量了(科研不易啊。。)。


他們的訓練集中視線范圍是-30°到+30°。所以前面我的測試中可以看到,當視線偏移角度較大時效果會急劇下降,因為訓練集中缺乏這樣的樣本


實驗對比結果

作者拿該算法和同類的算法做了量化的結果比較和視覺結果的比較。


下面是在不同矯正角度下的誤差分布,縱坐標值越小算法性能越好。可以看到作者提出的CFW(coarse-to-fine warping) + LCM(lightness correction module)方法的性能在所有的算法中效果最佳。

下圖是和同類算法的視覺效果對比。其中+LCM對應的是本文提出的方法的結果,GT(ground truth)是真正的結果。圖有點小對比結果看起來不是很明顯,如果仔細看大圖的話可以發現該算法在細節、光照的自適應上都是更勝一籌的。


算法魯棒性

DeepWarp算法在應對不同頭部姿勢時表現還是相當穩定的,這得益於訓練數據集中提供了從-30°到+30°頭部姿態變化范圍內的視頻。另外,考慮到很多戴眼鏡的美女和帥哥,所以訓練集中也已經包含了這種情況,實驗也驗證了如果佩戴普通透明眼鏡並且沒有強烈反光的情況下效果還是崗崗的。


但是也會有失敗或者效果很差的情況。包括:極度傾斜的頭部姿勢、較大的重定向角度等。不過,這些可以通過增加對應的訓練數據集來得到解決。


應用場景

1、視頻會議中的視線調整。

2、頭部特寫情景。比如節目錄制時,講話者看攝像機旁邊的提詞器從而導致視線偏離鏡頭時。

3、圖片編輯。

4、影視后期制作。可以根據導演的需要對演員的視線進行重定向。

5、腦洞有多大,應用就有多廣。






注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
粤ICP备14056181号  © 2014-2021 ITdaan.com