來源:中國電商物流網(wǎng) 發(fā)布時(shí)間:2019-5-4 11:10
隨著深度學(xué)習(xí)的迅猛發(fā)展,計(jì)算機(jī)視覺已成為人工智能領(lǐng)域影響最深遠(yuǎn)的技術(shù)之一。在計(jì)算機(jī)視覺領(lǐng)域深入研究、有著強(qiáng)大技術(shù)積累的百度,以17篇論文入選計(jì)算機(jī)視覺和模式識別大會CVPR 2019,其不俗成績再次成為國際視覺頂級盛會中受矚目的“中國面孔”。
據(jù)了解,CVPR 2019即將于6月在美國長灘召開,作為人工智能領(lǐng)域計(jì)算機(jī)視覺方向的重要學(xué)術(shù)會議,CVPR每年都會吸引全球最頂尖的學(xué)術(shù)機(jī)構(gòu)和公司的研究人員投稿。
CVPR官網(wǎng)顯示,今年有超過5165篇的大會論文投稿,最終錄取1299篇,錄取率約為25%。據(jù)了解,去年的CVPR 2018共有979篇論文被主會收錄,錄用率約為29%。相比2018,今年的競爭更加激烈。
今年百度公司有17篇論文被CVPR接收,內(nèi)容涵蓋了語義分割、網(wǎng)絡(luò)剪枝、ReID、GAN等諸多方向,以下為百度入選CVPR 2019的17篇論文。
1)Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation
論文作者:Yawei Luo; Liang Zheng; Tao Guan; Junqing Yu; Yi Yang
論文介紹:在虛擬圖像集(源域)上訓(xùn)練出的語義分割網(wǎng)絡(luò),往往在真實(shí)圖像集(目標(biāo)域)上表現(xiàn)不佳。網(wǎng)絡(luò)分割性能下降是由于兩個(gè)域間存在較大差異,而深度模型泛化能力不足。傳統(tǒng)方法嘗試通過全局對齊源域和目標(biāo)域間特征分布的來解決此問題,而該類方法往往忽略了特征間的局部語義一致性。本文首次結(jié)合了聯(lián)合訓(xùn)練和對抗訓(xùn)練來處理此問題。不同于傳統(tǒng)方法,本文根據(jù)每一個(gè)特征的語義對齊程度,自適應(yīng)的調(diào)整特征對齊的力度。該方法解決了傳統(tǒng)方法中特征語義不一致問題和負(fù)遷移的問題。實(shí)驗(yàn)結(jié)果證明我們的方法能大大提高網(wǎng)絡(luò)在目標(biāo)域圖像上的分割精度。
應(yīng)用場景:自動駕駛。本方法將電腦合成圖像訓(xùn)練出的網(wǎng)絡(luò)直接泛化到現(xiàn)實(shí)數(shù)據(jù)集上,大大減少了自動駕駛領(lǐng)域中街景數(shù)據(jù)采集和數(shù)據(jù)標(biāo)注的工作量。
論文地址:
https://arxiv.org/abs/1809.09478
2)Filter Pruning via Geometric Median for Deep Convolutional Neural Networks Acceleration
論文作者:Yang He, Ping Liu, Ziwei Wang, Zhilan Hu, Yi Yang
論文介紹:在本文中,我們分析了關(guān)于網(wǎng)絡(luò)剪枝的“小范數(shù) -低重要性”的標(biāo)準(zhǔn)。以前的工作利用“小范數(shù) -低重要性”的標(biāo)準(zhǔn)來修剪在卷積神經(jīng)網(wǎng)絡(luò)中具有較小范數(shù)值的濾波器,但出它的有效性取決于兩個(gè)并不總是滿足的要求:(1)濾波器的范數(shù)的標(biāo)準(zhǔn)差應(yīng)該很大; (2)濾波器的最小范數(shù)應(yīng)該很小。為了解決這個(gè)問題,我們提出了一種新的濾波器修剪方法,即通過"幾何平均數(shù)"進(jìn)行濾波器剪枝,以便在不考慮這兩個(gè)要求的情況下對模型進(jìn)行壓縮,我們稱之為FPGM。與之前的方法不同,F(xiàn)PGM通過去掉冗余的濾波器來壓縮CNN模型,而不是去掉那些范數(shù)小的過濾器。我們在圖像分類任務(wù)上的兩個(gè)數(shù)據(jù)集上,驗(yàn)證了FPGM的有用性。在Cifar-10數(shù)據(jù)集上,F(xiàn)PGM在ResNet-110上的計(jì)算量降低了52%以上,相對精確度提高了2.69%。此外,在ILSVRC-2012數(shù)據(jù)集上,F(xiàn)PGM還在ResNet-101上減少了超過42%的計(jì)算量。
應(yīng)用場景:本文提出的方法能夠有效提升神經(jīng)網(wǎng)絡(luò)壓縮率。可以將壓縮后的網(wǎng)絡(luò)部署到便攜式設(shè)備,比如手機(jī)、攝像機(jī)等,加快處理速度。
論文地址:
https://arxiv.org/abs/1811.00250
GItHub地址:
https://github.com/he-y/filter-pruning-geometric-median
3)Detailed Human Shape Estimation from a Single Image by Hierarchical Mesh Deformation
論文作者:Hao Zhu; Xinxin Zuo; Sen Wang; Xun Cao; Ruigang Yang
論文介紹:本文提出了一個(gè)新的框架,可以根據(jù)單個(gè)圖像恢復(fù)詳細(xì)的人體形狀。由于諸如人體形狀、身體姿勢和視角的變化等因素,因而這是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。現(xiàn)有方法通常嘗試使用缺少表面細(xì)節(jié)的基于參數(shù)的模板來恢復(fù)人體形狀。因此,所得到的身體形狀似乎沒有衣服。在本文中,我們提出了一種新穎的基于學(xué)習(xí)的框架,它結(jié)合了參數(shù)模型的魯棒性和自由3D變形的靈活性。我們使用深度神經(jīng)網(wǎng)絡(luò)在層次網(wǎng)格變形(HMD)框架中利用身體關(guān)節(jié)、輪廓和每像素著色信息的約束來細(xì)化3D形狀。我們能夠恢復(fù)除皮膚模型之外的詳細(xì)人體形狀。實(shí)驗(yàn)證明,我們的方法優(yōu)于先前的最先進(jìn)方法,在2D IoU數(shù)和3D度量距離方面實(shí)現(xiàn)了更好的準(zhǔn)確性。
論文地址:
https://arxiv.org/abs/1904.10506v1
GItHub地址:
https://github.com/zhuhao-nju/hmd.git
4)GA-Net: Guided Aggregation Net for End-to-end Stereo Matching
論文作者:Feihu Zhang; Victor Adrian Prisacariu; Yang Ruigang; Philip Torr
論文介紹:在立體匹配任務(wù)中,為了準(zhǔn)確估計(jì)差異,匹配成本聚合在傳統(tǒng)方法和深度神經(jīng)網(wǎng)絡(luò)模型中都是至關(guān)重要的。我們提出了兩個(gè)新的神經(jīng)網(wǎng)絡(luò)層,分別用于捕獲局部和整個(gè)圖像的成本相關(guān)性。第一個(gè)是半全局聚合層,它是半全局匹配的可微近似;第二個(gè)是局部引導(dǎo)聚合層,它遵循傳統(tǒng)的成本過濾策略來細(xì)化薄結(jié)構(gòu)。這兩層可以用來代替廣泛使用的3D卷積層,該層由于具有立方計(jì)算/存儲器復(fù)雜性而計(jì)算成本高且消耗存儲器。在實(shí)驗(yàn)中,我們表明,具有雙層引導(dǎo)聚合塊的網(wǎng)絡(luò)很輕易地超過了具有19個(gè)3D卷積層的最先進(jìn)的GC-Net。我們還訓(xùn)練了深度引導(dǎo)聚合網(wǎng)絡(luò)(GA-Net),它比場景流數(shù)據(jù)集和KITTI基準(zhǔn)測試中的最新方法具有更好的準(zhǔn)確性。
論文地址:
https://arxiv.org/abs/1904.06587
GitHub地址:
https://github.com/feihuzhang/GANet
5)Invariance Matters: Exemplar Memory for Domain Adaptive Person Re-identification
論文作者:Zhun Zhong, Liang Zheng, Zhiming Luo, Shaozi Li, Yi Yang
論文介紹:本論文旨在解決行人再識別中的跨數(shù)據(jù)集問題:利用有標(biāo)注的源數(shù)據(jù)集和無標(biāo)注的目標(biāo)數(shù)據(jù)集學(xué)習(xí)一個(gè)在目標(biāo)數(shù)據(jù)集具有很好的魯棒性的模型。主流的研究方法主要通過降低源域和目標(biāo)域之間的特征分布的差異。然而,這些方法忽略了目標(biāo)域的域間變化,這些變化中包含了影響目標(biāo)域測試性能的重要因素。在本文的工作中,我們?nèi)娴奶接懥四繕?biāo)域中的域間變化,并基于三種潛在的域內(nèi)不變性(樣例不變性,相機(jī)不變性和領(lǐng)域不變性)提出了一個(gè)新的模型泛化方法。為了實(shí)現(xiàn)這個(gè)方法,我們在模型訓(xùn)練過程中引入了一個(gè)樣例記憶模塊用以存儲目標(biāo)數(shù)據(jù)在訓(xùn)練過程中的中間特征。該樣例記憶模塊可以使我們快速的計(jì)算目標(biāo)域中局部訓(xùn)練樣本和全局樣本的相似性,同時(shí)有效的在模型訓(xùn)練中加入提出的三個(gè)不變性限制。實(shí)驗(yàn)證明本文提出的三個(gè)不變性性質(zhì)對提升領(lǐng)域適應(yīng)的性能是不可或缺的。同時(shí),我們的方法在三個(gè)行人再識別的目標(biāo)域中的準(zhǔn)確率大大的超過了當(dāng)前現(xiàn)有的方法。
應(yīng)用場景:本文提出的方法能夠有效提升行人再識別模型在跨場景下的泛化能力。使得我們可以在現(xiàn)有的標(biāo)注數(shù)據(jù)情況下,以無監(jiān)督的方式提升模型在新的場景下的性能。
論文地址:
https://arxiv.org/abs/1904.01990
GitHub地址:
https://github.com/zhunzhong07/ECN
6)Searching for A Robust Neural Architecture in Four GPU Hours
論文作者:Xuanyi Dong, Yi Yang
論文介紹:本論文旨在解決神經(jīng)網(wǎng)絡(luò)搜索算法消耗GPU資源過大的問題。目前很多神經(jīng)網(wǎng)絡(luò)搜索算法在小數(shù)據(jù)集CIFAR上,都需要消耗成百上千的GPU/TPU。為了提高神經(jīng)網(wǎng)絡(luò)的搜索效率,我們提出了一種利用可微網(wǎng)絡(luò)結(jié)構(gòu)采樣器的基于梯度的搜索方法。我們的方法將整個(gè)搜索空間用一個(gè)有向無環(huán)圖來表示,這個(gè)圖包含了成百萬多個(gè)子圖,每一個(gè)子圖都代表了一種網(wǎng)絡(luò)結(jié)構(gòu)。針對這個(gè)有向無環(huán)圖,我們設(shè)計(jì)了一個(gè)可微的采樣器,利用Gumbel-Softmax技術(shù)將離散的采樣過程變成可微可導(dǎo)的;在訓(xùn)練過程中,通過驗(yàn)證集上的目標(biāo)損失函數(shù)來優(yōu)化這個(gè)采樣器,使得采樣器最終能過獲得一個(gè)性能較好的網(wǎng)絡(luò)結(jié)構(gòu)。在實(shí)驗(yàn)中,我們在一個(gè)GPU上,通過幾個(gè)小時(shí)的搜索時(shí)間,就可以在CIFAR上找到一個(gè)高性能的網(wǎng)絡(luò)結(jié)構(gòu)。
應(yīng)用場景:本文提出的方法能夠有效地在較短時(shí)間利用少量GPU搜索出魯棒的網(wǎng)絡(luò)結(jié)構(gòu),可以廣泛地應(yīng)用在大部分任務(wù)里,搜索出對更小更快精度更高的網(wǎng)絡(luò)模型。
GitHub地址:
https://github.com/D-X-Y/GDAS
7)DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-image Synthesis
論文作者:Minfeng Zhu, Pingbo Pan, Wei Chen, Yi Yang
論文介紹:本論文旨在提升基于文本生成的圖片的真實(shí)性。當(dāng)前的方法都是先生成比較粗糙的初始圖像,然后再優(yōu)化圖像從而生成高分辨率的真實(shí)圖像。然而,目前大多數(shù)方法仍存在兩個(gè)問題:(1)當(dāng)前方法的結(jié)果很大程序上取決于初始圖像的質(zhì)量。如果初始圖像質(zhì)量不高,則第二階段優(yōu)化很難將圖像優(yōu)化到令人滿意的程度。(2)每個(gè)單詞對于不同的圖片內(nèi)容都有不同的信息量,但當(dāng)前方法在兩個(gè)階段中仍然保持了相同的單詞重要性。
在本文工作中,我們提出動態(tài)記憶生成對抗網(wǎng)絡(luò)(DM-GAN)來生成高質(zhì)量的圖片。我們提出了一個(gè)動態(tài)記憶模塊來優(yōu)化粗糙的初始圖像,即使初始圖像生成不良,它也可以生成高質(zhì)量的圖像。具體來說,動態(tài)記憶模塊包括一個(gè)根據(jù)初始圖像選擇重要文本信息的記憶寫入門和一個(gè)自適應(yīng)融合圖片特征和文本信息的反饋門。我們在COCO和CUB數(shù)據(jù)集上評估了我們的模型。實(shí)驗(yàn)結(jié)果表明,我們的方法在FID和IS指標(biāo)以及真實(shí)性上都超過了當(dāng)前方法。
應(yīng)用場景:文本提出的方法可以顯著提升基于文本生成圖片的真實(shí)性,我們可以實(shí)現(xiàn)文章自動配圖等功能,可以大大降低創(chuàng)作者的配圖成本。
論文地址:
https://arxiv.org/abs/1904.01310
8)Sim-Real Joint Reinforcement Transfer for 3D Indoor Navigation
論文作者:Fengda Zhu, Linchao Zhu, Yi Yang
論文介紹:在室內(nèi)3D導(dǎo)航中,環(huán)境中的機(jī)器人根據(jù)指令移動到目標(biāo)點(diǎn)。但是在物理世界中部署用于導(dǎo)航的機(jī)器人,需要大量的培訓(xùn)數(shù)據(jù)來學(xué)習(xí)有效的策略。為機(jī)器人訓(xùn)練獲得足夠的真實(shí)環(huán)境數(shù)據(jù)是代價(jià)昂貴的,因此我們提出通過合成數(shù)據(jù)渲染環(huán)境隨后將策略遷移到真實(shí)環(huán)境中。雖然合成環(huán)境有利于來促進(jìn)現(xiàn)實(shí)世界中的導(dǎo)航訓(xùn)練,但真實(shí)環(huán)境與合成環(huán)境有兩個(gè)方面不同。首先,兩種環(huán)境的視覺表示具有顯著的差異。其次,兩個(gè)環(huán)境的房屋計(jì)劃有很大不同。因此,需要在強(qiáng)化模型中調(diào)整兩種類型的信息,即視覺表示和策略行為。視覺表征和策略行為的學(xué)習(xí)過程是互惠的。
我們提出聯(lián)合調(diào)整視覺表現(xiàn)和策略行為,以實(shí)現(xiàn)環(huán)境和策略的相互影響。具體來說,我們的方法采用了用于視覺表征轉(zhuǎn)移的對抗特征適應(yīng)模型和用于策略行為模仿的模擬策略。實(shí)驗(yàn)結(jié)果表明,我們的方法在沒有任何額外的人類注釋的情況下優(yōu)于基礎(chǔ)模型高達(dá)21.73%。
應(yīng)用場景:本文提出的視覺特征適應(yīng)模型和策略模擬模型可以有效將機(jī)器人在虛擬環(huán)境中學(xué)習(xí)到的策略和特征遷移到實(shí)際場景中,有利于導(dǎo)航機(jī)器人,無人車等需要大量數(shù)據(jù)訓(xùn)練的應(yīng)用在缺乏復(fù)雜場景的真實(shí)數(shù)據(jù)時(shí),通過渲染環(huán)境獲得更好的策略。
論文地址:
https://arxiv.org/abs/1904.03895
9)Contrastive Adaptation Network for Unsupervised Domain Adaptation
論文作者:Guoliang Kang, Lu Jiang, Yi Yang, Alexander G. Hauptmann
論文介紹:無監(jiān)督域適應(yīng)旨在利用帶標(biāo)簽源域數(shù)據(jù)和無標(biāo)簽?zāi)繕?biāo)域數(shù)據(jù),獲得在目標(biāo)域數(shù)據(jù)上的優(yōu)良的預(yù)測性能。以往的方法在消除域差異的過程中沒有充分利用類別信息,導(dǎo)致對齊錯(cuò)誤,影響泛化性能。為了解決這些問題,這篇文章提出了新的域差異度量指標(biāo) “對比域差異” 來刻畫類內(nèi)和類間域差異,并且提出 “對比適應(yīng)網(wǎng)絡(luò)” 來優(yōu)化這個(gè)指標(biāo)。我們設(shè)計(jì)了新的類感知采樣方法,采用交替更新的方式端到端地優(yōu)化我們的網(wǎng)絡(luò)。我們在兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上取得了比現(xiàn)有的方法更好的性能。
應(yīng)用場景:可以提高單一場景訓(xùn)練模型在缺乏標(biāo)簽的新場景下的識別性能,如利用人工合成帶標(biāo)簽數(shù)據(jù)集,在實(shí)際場景圖片上進(jìn)行識別等任務(wù)。
論文地址:
https://arxiv.org/abs/1901.00976
10)ApolloCar3D: A Large 3D Car Instance Understanding Benchmark for Autonomous Driving
論文作者:Xibin Song, Peng Wang, Dingfu Zhou, Rui Zhu, Chenye Guan, Yuchao Dai, Hao Su, Hongdong Li, Ruigang Yang
亮點(diǎn)介紹:(1)本文提出了目前已知自動駕駛領(lǐng)域最大規(guī)模的三維車輛姿態(tài)數(shù)據(jù)集,共包含5000+高分辨率圖像(3384*2710)、6萬+車輛的三維姿態(tài)信息及對應(yīng)的車輛二維語義關(guān)鍵點(diǎn)信息。圖像中每輛車使用工業(yè)級高精度的三維車輛模型進(jìn)行三維與二維的匹配獲取車輛姿態(tài)。本數(shù)據(jù)集的規(guī)模是目前自動駕駛領(lǐng)域相關(guān)數(shù)據(jù)集的20倍左右,如PASCAL3D+,KITTI等;(2)基于此數(shù)據(jù)集,本文提出了不同的方法進(jìn)行車輛三維姿態(tài)估計(jì),包括基于關(guān)鍵點(diǎn)的方法和非關(guān)鍵點(diǎn)的方法;(3)本文提出了完整的車輛三維信息評估方法,包括車輛的形狀和姿態(tài)信息,相比目前自動駕駛領(lǐng)域相關(guān)數(shù)據(jù)集的評估標(biāo)準(zhǔn),本文的評估更加全面。
落地場景:自動駕駛領(lǐng)域,基于單張圖像的車輛姿態(tài)估計(jì)。
論文地址:
https://arxiv.org/abs/1811.12222
11)UnOS: Unified Unsupervised Optical-flow and Stereo-depth Estimation by Watching Videos
論文作者:Yang Wang, Peng Wang, Zhenheng Yang, Chenxu Luo, Yi Yang, and Wei Xu
亮點(diǎn)介紹:只通過雙目攝像頭的視頻,通過深度學(xué)習(xí),就能學(xué)習(xí)到 雙目深度視覺,光流和相機(jī)姿態(tài)。
落地場景:可以輔助支持自動駕駛雙目視覺模型,從而更好的從激光的離散深度變換到稠密深度。
論文地址:
https://arxiv.org/abs/1810.03654
12)Look More Than Once: An Accurate Detector for Text of Arbitrary Shapes
論文作者:Chengquan Zhang, Borong Liang, Zuming Huang, Mengyi En, Junyu Han, Errui Ding, Xinghao Ding
亮點(diǎn)介紹:受限于神經(jīng)網(wǎng)絡(luò)感受野大小約束和簡單的文字包圍盒表達(dá)(比如矩形框或四邊形),以往的文字檢測器在長詞和任意形狀的文字場景容易失敗。本文提出了一個(gè)新的文字檢測器框架,針對性的解決了這兩個(gè)問題。新的文字檢測器框架由三部分組成,直接回歸器(Direct Regressor, DR)、迭代改善模塊(Iterative Refinement Module, IRM)和文字形狀表達(dá)模塊(Shape Expression Module, SEM)。
DR輸出四邊形表達(dá)的文字檢測候選;IRM基于四邊形對應(yīng)的特征塊逐步感知和改善完整的四邊形文字包圍盒以解決長詞檢測問題;SEM模塊則通過回歸完整四邊形候選框內(nèi)的文字實(shí)例幾何信息,來重建更加精準(zhǔn)的上下頂點(diǎn)線對稱的多邊形文字表示。IRM和SEM作為可學(xué)習(xí)的和可插入的模塊,能夠聯(lián)合DR一起進(jìn)行端到端的訓(xùn)練。在包含多方向、長詞、任意彎曲和多語種場景的五個(gè)具有權(quán)威性的公開數(shù)據(jù)集合(ICDAR2017-RCTW, SCUT-CTW1500, Total-Text, ICDAR2015 and ICDAR17-MLT)上,我們提出的新檢測器和所有已公開論文中的純檢測方法作對比指標(biāo)都達(dá)到了最好的效果(SOTA)。
論文地址:
https://arxiv.org/abs/1904.06535
13)STGAN: A Unified Selective Transfer Network for Arbitrary Image Attribute Editing
論文作者:Ming Liu, Yukang Ding, Min Xia, Xiao Liu, Errui Ding, Wangmeng Zuo, Shilei Wen
亮點(diǎn)介紹:提出了STGAN方法用于圖片/視頻的端到端屬性轉(zhuǎn)換。對傳統(tǒng)方法提出了兩點(diǎn)改進(jìn):1) 在自編碼網(wǎng)絡(luò)結(jié)構(gòu)中引入選擇性屬性編輯單元強(qiáng)化了屬性編輯的效果 ;2) 提出了基于屬性更改的訓(xùn)練機(jī)制。在celebA數(shù)據(jù)集上轉(zhuǎn)換效果全方位好于已有方法。
落地場景:視頻拍攝特效、物料樣式生成。
論文地址:
https://arxiv.org/abs/1904.09709
GitHub地址:
https://github.com/csmliu/STGAN
14)Attentive Feedback Network for Boundary-Aware Salient Object Detection
論文作者:Mengyang Feng, Huchuan Lu, and Errui Ding
論文介紹:最近基于深度學(xué)習(xí)的顯著目標(biāo)檢測方法在完全卷積神經(jīng)網(wǎng)絡(luò)(FCN)的基礎(chǔ)上實(shí)現(xiàn)了可喜的性能。然而,他們中的大多數(shù)都遭受了邊界挑戰(zhàn)。目前最先進(jìn)的方法采用特征聚合技術(shù),并且可以精確地找出其中的顯著目標(biāo),但是它們經(jīng)常無法將具有精細(xì)邊界的整個(gè)對象分割出來,尤其是那些凸起的窄條紋。因此,基于FCN的模型仍有很大的改進(jìn)空間。在本文中,我們設(shè)計(jì)了注意反饋模塊(AFM),以更好地探索對象的結(jié)構(gòu)。我們還采用邊界增強(qiáng)損失(BEL)進(jìn)一步學(xué)習(xí)精細(xì)邊界。我們提出的深度模型在目標(biāo)邊界上獲得了令人滿意的結(jié)果,并在5個(gè)廣泛測試的顯著目標(biāo)檢測基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的性能。該網(wǎng)絡(luò)采用完全卷積方式,以26 FPS的速度運(yùn)行,不需要任何后期處理。
論文地址:
https://github.com/ArcherFMY/AFNet
15)A Mutual Learning Method for Salient Object Detection with intertwined Multi-Supervision
論文作者:Runmin Wu, Mengyang Feng, Wenlong Guan, Dong Wang, Huchuan Lu, Errui Ding
論文介紹:盡管近來深度學(xué)習(xí)技術(shù)在顯著目標(biāo)檢測方面取得了很大進(jìn)展,但由于目標(biāo)的內(nèi)部復(fù)雜性以及卷積和池化操作中的步幅導(dǎo)致的不準(zhǔn)確邊界,預(yù)測的顯著圖仍然存在不完整的預(yù)測。為了緩解這些問題,我們建議通過利用顯著目標(biāo)檢測,以及前景輪廓檢測和邊緣檢測的監(jiān)督來訓(xùn)練顯著性檢測網(wǎng)絡(luò)。首先,我們以交織的方式利用顯著目標(biāo)檢測和前景輪廓檢測任務(wù)來生成具有均勻高光的顯著圖。其次,前景輪廓和邊緣檢測任務(wù)同時(shí)相互引導(dǎo),從而導(dǎo)致精確的前景輪廓預(yù)測并減少邊緣預(yù)測的局部噪聲。此外,我們開發(fā)了一種新穎的相互學(xué)習(xí)模塊(MLM),它作為我們方法的構(gòu)建模塊。每個(gè)MLM由多個(gè)以相互學(xué)習(xí)方式訓(xùn)練的網(wǎng)絡(luò)分支組成,性能得意大大提高。我們對七個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集進(jìn)行的大量實(shí)驗(yàn)表明,我們所提出的方法在顯著目標(biāo)檢測和邊緣檢測方面都能達(dá)到最好的效果。
GitHub地址:
https://github.com/JosephineRabbit/MLMSNet
16)L3-Net: Towards Learning based LiDAR Localization for Autonomous Driving
論文作者:Weixin Lu, Yao Zhou, Guowei Wan, Shenhua Hou, Shiyu Song
亮點(diǎn)介紹:自定位模塊是無人車系統(tǒng)的基礎(chǔ)模塊之一,一個(gè)成熟的L4級別無人車定位系統(tǒng)需要提供厘米級定位精度的輸出結(jié)果。百度提出了一種基于學(xué)習(xí)的點(diǎn)云定位技術(shù),不同于傳統(tǒng)的人工設(shè)計(jì)的復(fù)雜算法,該技術(shù)對傳統(tǒng)的定位方法進(jìn)行拆解,使用深度學(xué)習(xí)網(wǎng)絡(luò)來取代傳統(tǒng)的各個(gè)環(huán)節(jié)和步驟,并在一個(gè)包含多種場景路況和大尺度時(shí)間跨度的數(shù)據(jù)集上驗(yàn)證了算法效果,實(shí)現(xiàn)了厘米級的定位精度。該方案是全球范圍內(nèi),業(yè)界首次通過使用直接作用于激光點(diǎn)云的深度學(xué)習(xí)網(wǎng)絡(luò)來解決自動駕駛的自定位問題。數(shù)據(jù)集包含了城市道路、園區(qū)道路和高速等多種富有挑戰(zhàn)的路況場景,數(shù)據(jù)總里程達(dá)380km,即將在百度Apollo平臺開放。
落地場景:百度無人車
論文地址:
https://songshiyu01.github.io/publication/cvpr2019_localization/
17)Improving Transferability of Adversarial Examples with Input Diversity
論文作者:Cihang Xie; Yuyin Zhou; Song Bai; Zhishuai Zhang; Jianyu Wang; Zhou Ren; Alan Yuille
論文介紹:盡管CNN已經(jīng)在各種視覺任務(wù)上取得了非常好的表現(xiàn),但它們很容易受到對抗性示例的影響,這些示例是通過在清晰的圖像中加入人類不易察覺的擾動而精心制作的。然而,大多數(shù)現(xiàn)有的對抗性攻擊在具有挑戰(zhàn)性的黑盒設(shè)置下只能獲得相對較低的成功率,因?yàn)楣粽卟涣私饽P徒Y(jié)構(gòu)和參數(shù)。為此,我們建議通過創(chuàng)建不同的輸入模式來提高對抗性示例的可遷移性。我們的方法不是僅使用原始圖像來生成對抗性示例,而是在每次迭代時(shí)將隨機(jī)變換應(yīng)用于輸入圖像。
ImageNet上的大量實(shí)驗(yàn)表明,我們所提出的攻擊方法生成的對抗性示例可以比現(xiàn)有基線更好地遷移到不同的網(wǎng)絡(luò)。通過評估我們針對NIPS 2017對抗性競爭中的頂級防御解決方案和官方基線的方法,增強(qiáng)型攻擊的平均成功率達(dá)到73.0%,在NIPS競爭中的前1次攻擊提交率大幅提高6.6%。我們希望我們提出的攻擊策略可以作為評估網(wǎng)絡(luò)對抗的穩(wěn)健性和未來不同防御方法的有效性的強(qiáng)大基準(zhǔn)基線。
論文地址:
https://arxiv.org/abs/1803.06978
GitHub地址:
https://github.com/cihangxie/DI-2-FGSM
關(guān)注ITBear科技資訊公眾號(itbear365 ),每天推送你感興趣的科技內(nèi)容。
特別提醒:本網(wǎng)內(nèi)容轉(zhuǎn)載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,并請自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時(shí)聯(lián)系我們,本站將會在24小時(shí)內(nèi)處理完畢。