文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.222725
中文引用格式: 雷根華,王蕾,張志勇. 基于Light-BotNet的激光點云分類研究[J].電子技術應用,2022,48(6):84-88,97.
英文引用格式: Lei Genhua,Wang Lei,Zhang Zhiyong. Research on laser point cloud classification based on Light-BotNet[J]. Application of Electronic Technique,2022,48(6):84-88,97.
0 引言
大多的深度學習點云分類方法都是采用卷積層與池化層交替實現的,卷積層中的神經元僅與上一層的部分區域相連接,學習局部特征,在點云數據特征提取時容易丟失部分特征,從而導致分類精度下降等問題。而Transform的提出則帶來了一種新的思路,主要利用自我注意機制提取內在特征[1-3]。Transform最初應用在自然語言處理(NLP)領域,并且取得了重大的成功,受到NLP中Transformer功能的啟發,研究人員開始將Transformer應用在計算機視覺(CV)任務。研究發現CNN曾是視覺應用的基本組件[4-5],但Transformer正在顯示其作為CNN替代品的能力。Chen等人[6]訓練序列變換器,以自回歸預測像素,并在圖像分類任務上與CNN取得競爭性結果。卷積操作擅長提取細節,但是在大數據量的大場景三維點云數據分類任務中,要掌握三維點云的全局信息往往需要堆疊很多個卷積層,而Transform中的注意力善于把握整體信息,但又需要大量的數據進行訓練。
BotNet[7]網絡是伯克利與谷歌的研究人員在Convolution+Transformer組合方面一個探索,它采用混合方式同時利用了CNN的特征提取能力、Transformer的內容自注意力與位置自注意力機制,取得了優于純CNN或者自注意力的性能,在ImageNet中取得了84.7%的精度。將CNN與Transform結合起來,達到取長補短的效果。BoTNet與ResNet[8]網絡框架的不同之處在于:ResNet[8]框架在最后3個bottleneck blocks中使用的是3×3的空間卷積,而BotNet框架則是采用全局自我注意替代空間卷積。帶自注意力模塊的Bottleneck模塊可以視作Transformer模塊。
本文詳細內容請下載:http://www.j7575.cn/resource/share/2000004426。
作者信息:
雷根華1,王 蕾1,2,張志勇1
(1.東華理工大學 信息工程學院,江西 南昌330013;
2.江西省核地學數據科學與系統工程技術研究中心,江西 南昌330013)