快速检索        
  武汉大学学报·信息科学版  2017, Vol. 42 Issue (7): 884-889

文章信息

黄为, 李永刚, 汪毅, 张龙
HUANG Wei, LI Yonggang, WANG Yi, ZHANG Long
基于空间共现核的遥感影像分类
Spatial Co-occurrence Kernel Based Aerial Image Classification
武汉大学学报·信息科学版, 2017, 42(7): 884-889
Geomatics and Information Science of Wuhan University, 2017, 42(7): 884-889
http://dx.doi.org/10.13203/j.whugis20150099

文章历史

收稿日期: 2015-08-05
基于空间共现核的遥感影像分类
黄为1, 李永刚1, 汪毅1, 张龙1     
1. 中国卫星海上测控部, 江苏 江阴, 214431
摘要:采用了基于模糊关系的图像空间共现核来进行高分辨率遥感影像的分类。首先分析了遥感影像的特点,指出其不存在绝对的参考帧。针对该特点,采用了具有较好方向不变性的描述子MROGH(multi-support region order-based gradient histogram)来进行遥感影像底层特征的描述;随后针对图像编码时的软编码情形采用了基于模糊关系的图像空间共现核来构建遥感影像的全局特征汇聚。在公用基准数据集上进行的遥感影像分类实验表明,采用本文方法得到的分类正确率显著优于传统的方式。此外,针对遥感影像分类时采用的不同分类框架进行了评估。
关键词词袋模型     图像空间共现核     特征描述     遥感影像分类    
Spatial Co-occurrence Kernel Based Aerial Image Classification
HUANG Wei1, LI Yonggang1, WANG Yi1, ZHANG Long1     
1. China Satellite Maritime Tracking and Control Department, Jiangyin 214431, China
First author: HUANG Wei, PhD, specializes in computer vision and aerial image classification.E-mail:weeihuang@hotmail.com
Foundation support: The National Natural Science Foundation of China, No. 61103081
Abstract: We propose to use fuzzy relation based co-occurrence kernel for classification of high-resolution aerial images. By analyzing the characteristics of aerial images, it points out that the imagery does not have an absolute reference frame. For this reason, it uses a local descriptor called MROGH which is inherently rotation invariant to extract low-level features of aerial images. It then uses fuzzy relation based spatial co-occurrence kernel to build the holistic representation of aerial images. Experiments results on publicly available aerial scene imagery dataset show that our method gets a better classification result. In addition, we make a consistent comparative analysis of different classification frameworks based on aerial image dataset.
Key words: BoVW     SPCK     feature description     high-resolution aerial image classification    

随着对地观测水平的提高,人们可以获取到的遥感影像数据规模越来越大、分辨率越来越高。如何高效地分析、识别这些影像数据是一项具有挑战性的工作。传统的遥感影像分类采用自下向上的特征聚集方式[1-3],通过对遥感图像中各类地物的光谱特征和空间结构进行分析,按照一定的规则将影像空间划分到不同的类别。随着遥感影像空间分辨率的提高,它与自然图像在视觉上的差异正在逐步缩小,文献[4-5]采用自然图像分类中常见的词袋模型方法来对高分辨率遥感影像进行分类识别。

相对于自然图像,遥感影像往往不存在绝对的参考帧,即这类图像对方向不具有敏感性。常见的特征描述方法如SIFT(scale invariant feature transform)[6]并不具有完全的旋转不变性[7]。针对这一特点,本文提出了采用MROGH(multi-support region order-based gradient histogram)描述子[7]来进行高分辨率遥感影像的底层特征描述,该描述子采用了基于序空间特征汇聚的方式构建,具有较好的旋转不变性。此外,鉴于遥感影像不存在绝对的参考帧,图像各个子部件之间的局部空间依赖关系就变得尤为关键。基于此,文献[5]构建了视觉单词的图像空间共现核,以此来描述图像中视觉单词相互间的空间依赖关系,并将其用于遥感影像的特征汇聚。然而,图像空间共现核仅考虑了对硬编码得到的特征向量进行汇聚。实际上,词袋模型采用软编码如LLC(locality-constrained linear coding)[8]等,往往可以获取优于硬编码的分类性能。

传统的遥感影像分类方法通过空间上下文关系来对特征空间进行划分,达到对图像进行分类的目的。然而,这些算法的效果在很大程度上依赖于初始的影像分割[1]。基于词袋模型(bag of visual words, BoVW)方法已开始应用于遥感影像分类[9, 10]。基本的词袋模型方法可以分为特征学习与特征编码两个阶段。在特征学习阶段,对图像底层特征提取并进行聚类,得到视觉词典;随后将底层特征以视觉词典为基,进行编码,得到逐个的视觉单词,整个图像块中视觉单词的直方图统计向量作为图像的整体描述向量。

SPMK(spatial pyramid matching kernel)是对BoVW的一种扩展[11],它考虑了词袋模型中视觉单词的空间分布,在图像空间中进行了多尺度、多区域的视觉单词直方图统计。文献[5]特别关注了图像块中视觉单词的空间位置信息,以视觉单词的图像空间共现核来描述图像中视觉单词相互间的空间依赖关系,并将其用于遥感影像的特征汇聚。

针对BoVW特征描述过程中的硬编码进行了多种改进。ScSPM(SPM based on sparse coding)[12]在SPMK的基础上,采用稀疏编码的方式代替k-均值聚类来进行特征学习与编码,该方法性能优于基于k-均值聚类的方法,但计算复杂度较大。LLC[8]采用了局部限制的方法来进行特征编码,该编码方式均获得了优于硬编码的分类性能,且计算复杂度远低于稀疏编码。

文献[13]计算了局部图像块中纹理结构的相似性,以此作为遥感影像的底层特征描述。此外,与自然图像的分类工作类似,大量的遥感影像分类文献采用了密集采样SIFT作为底层特征[4, 15]。然而,这些特征描述子,如SIFT、GLOH等都不具有完全的旋转不变性。

本文针对遥感影像底层特征向量采用软编码进行量化的情形,提出采用基于模糊关系的图像空间共现核来进行影像的全局特征汇聚。根据高分辨率遥感影像对方向不具有敏感性的特征,采用MROGH描述子来进行底层特征的描述;针对图像底层特征采用软编码量化的情形,采用基于模糊关系的方式进行图像特征的共现核汇聚。

1 基于空间共现核的遥感影像分类算法

本文针对高分辨率遥感影像的特点,采用了基于序的特征描述方法MROGH进行底层特征的提取,随后针对软编码采用了基于模糊关系的图像空间共现核来对影像块进行全局特征汇聚,最后基于SVM分类器进行了遥感影像的分类。

1.1 遥感影像特点分析

相对于自然图像,遥感影像有其自身的特点,这里以UcMerced数据集[5]为例进行遥感影像特点的分析。UcMerced数据集为现阶段规模最大的公用遥感影像数据集,它提取自USGS发布的航空正射影像,空间分辨率为1英尺/像素。数据集包含21类典型的高分辨率影像,每一类包含100幅图像,均为256像数×256像数的TIF格式图像。本文从数据集的每类中选取了一幅图像,并以较低分辨率展示,如图 1所示。

图 1 UcMerced数据集样本 Figure 1 UcMerced Dataset Examples

图 1中可以看出,相对于自然图像,遥感影像往往不存在绝对的参考帧,也就是说这类图像对方向不具有敏感性。选择自然图像数据集Caltech101[14]作为对比,将UcMerced和Caltech101数据集中都存在的airplane类别进行了比较,图 2(a)2(b)为分别从两个图像集中选取的airplane类图片,通过对比可以看到遥感影像没有固定的方向性。

图 2 Airplane数据类 Figure 2 Images of Airplane
1.2 MROGH特征描述子

传统的特征描述算法,如SIFT,采用了基于坐标系网格的方式对图像空间进行划分,然后分别对每个子区域中的像素点特征进行直方图统计。针对遥感影像的特点,本文采用了基于序的方式对图像空间进行划分、汇聚。

本文采用了MROGH[7]特征描述方法。该方法采用了基于序的特征块划分方式,如图 3所示,将特征块内像素点以亮度排序并分割,随后在每个基于亮度序分割的子段中进行直方图统计。

图 3 基于亮度序的特征汇聚策略 Figure 3 Schematic Diagram of MROGH Descriptor

MROGH采用的像素点特征为极坐标梯度。以特征块中心为极坐标原点,分别在特征块的径向方向和角向方向逐像素点计算差分,以得到的径向差分、角向差分作为像素点特征。在点特征汇聚阶段,极坐标梯度的汇聚采用了与SIFT类似的梯度方向直方图,将梯度离散为8个方向。像素点以亮度排序后,被分割为6个子段,此外,假设特征块尺度为S,为了增强尺度不变性,上述描述子在尺度S、1.5S、2S上分别进行了特征提取,这样,描述向量的长度为3×8×6=144。

1.3 基于模糊关系的图像空间共现核

假定图像中一系列的特征向量X经过编码为U=[u1, u2, …, uM],向量ui的坐标位置为(xi,yi)。ρ为向量ui、uj所在的图像空间的关系判断,若ui、uj的坐标位置在图像空间中的距离小于等于r,则ρ为1:

$ {u_i}\rho {u_j} = \left\{ \begin{array}{l} 1, \sqrt {{{\left( {{x_i}-{x_j}} \right)}^2} + {{\left( {{y_i} + {y_j}} \right)}^2}} \le r\\ 0, 其他 \end{array} \right. $

图像空间的视觉单词共现矩阵(visual word co-occurrence matrix,VWCM)[5]定义为:

$ \begin{array}{*{20}{c}} {{\rm{VWCM}}\left( {u, v} \right) = }\\ {\left\| {\left( {{c_i}, {c_j}} \right)\left( {{c_i} = u} \right) \wedge \left( {{c_j} = v} \right) \wedge \left( {{c_i}\rho {c_j}} \right)} \right\|} \end{array} $

上述的视觉单词共现核仅能对硬编码得到的编码向量进行全局汇聚。如图 4(a)所示,在将每个局部特征向量采用视觉单词进行量化后,统计每个视觉单词半径为r的邻域内出现的其他视觉单词的个数。

图 4 基于图像空间共现核的特征汇聚方式 Figure 4 Spatial Co-occurrence Kernel Based Feature Pooling

当局部特征向量采用软编码的方式进行量化时,我们提出采用基于模糊关系的方式进行特征的汇聚,如图 4(b)所示。每当特征点ci、cj满足关系ρ,即ρ为1,假定两个特征点的软编码特征向量分别为encoding(ci)、encoding(cj),记[value1 index1] =max(encoding(ci)); [value2 index2]=max (encoding(cj)),则汇聚方式如下:

$ \begin{array}{l} {\rm{VWCM}}({\rm{inde}}{x_1}, {\rm{inde}}{x_2}) = {\rm{VWCM}}({\rm{inde}}{x_1}, {\rm{ }}\\ {\rm{inde}}{x_2}){\rm{ }} + {\rm{ valu}}{{\rm{e}}_1}*{\rm{valu}}{{\rm{e}}_2}。\end{array} $
2 实验与结果

基于词袋模型的框架来进行遥感影像的分类实验。局部不变特征描述子包括SIFT、MROGH两种,图像特征点采用了稠密采样的方式,局部图像块的尺寸为16像素×16像素,采样步长为8像素。视觉词典采用了k-均值聚类,分类器采用了LibSvm的实现。我们从数据集样本的每一类中随机选取80%的样本进行训练,将剩余20%的样本用来进行测试。该过程被重复30次,然后将多次实验的均值作为分类准确率。

2.1 UcMerced数据集

UcMerced数据集是现阶段最大的公用遥感影像分类数据集。基于该数据集,对特征描述子在不同的分类框架、编码方式下进行了评估。

参与比较的分类框架包括以下几种:① 基准的BoVW; ② 空间金字塔匹配核(SPMK)。在实验中,将图像空间划分为1×1、2×2以及4×4的方格;③ 空间金字塔共现核(SPCK);④ SPCK+。该框架为SPCK与BoVW的简单线性组合。

编码方法包括基准的量化编码(VQ)与局部限制的线性编码(LLC)。

考虑到编码的效率,LLC编码的非零元数目设置为不大于5。实验中词典数的设置与文献[5]类似:对于BoVW,词典大小为1 000;对于SPMK,词典大小为500;对于SPCK,词典大小为100,图像空间共现核半径设置为150像素;对于SPCK+,BoVW词典为1 000,共现词典为100,共现核半径为150。

表 1中的对比可知,采用MROGH描述子在各种情形下均可以获得优于SIFT的分类性能;不同特征描述子得到的分类结果验证了LLC编码相对于硬编码的优越性。与其他分类框架相比,SPCK+获得了更好的性能。SPCK与SPMK接近,这也验证了SPCK框架中基于视觉单词的空间布局信息进行图像表达的合理性。此外,SPCK与BoVW在进行图像的全局表达时具有互补性。‘SPCK+’+ LLC情形下,使用MROGH描述子获得了最佳分类性能84.88%,实验结果验证了本文提出方法的有效性。

表 1 基于UcMerced数据集得到的分类正确率/% Table 1 The Classification Accuracy Based on UcMerced Dataset/%
SIFTMROGH
BoVW + VQ74.43±1.3479.51±1.46
BoVW + LLC78.55±1.5383.80±1.27
SPMK + VQ77.63±1.5278.07±2.10
SPMK + LLC80.47± 1.7080.99±1.35
SPCK + VQ76.06±1.2377.31±1.06
SPCK + LLC75.92±1.3178.46±1.37
‘SPCK+’ + VQ80.26±1.0482.77±1.46
‘SPCK+’ + LLC81.88±1.3584.88±1.42

MROGH特征描述向量在BoVW框架下的性能甚至优于在SPMK下的性能。一个可能的解释是遥感影像不存在绝对的参考帧,而在SPMK框架下,它需要按照一种固定的模式对图像空间进行划分,这与底层特征的旋转不变性相违背。

SVM的泛化能力与核函数密切相关,核函数可以代替原模型空间中的向量内积运算以实现非线性变换。假定xy为实验中得到的归一化图像描述向量,在上述实验中采用的线性核函数可表述为K(x, y)=xTy,为了分析本文方法在不同核函数下的性能,采用了交叉核K(x, y)=$\sum {_{\rm{i}}\min \left( {{x_i}, {y_i}} \right)} $表 2选取了实验中的一些典型结果并将其与其他文献[3, 14]得到的遥感影像分类结果进行了比较。可以看到,相对于基本的线性核,在交叉核下本文算法可以获得更好的性能,采用MROGH(‘SPCK+’+ LLC)利用交叉核SVM分类器时获得了最好的分类正确率86.5%。

表 2 本文结果与其他文献得到的分类结果的比较 Table 2 Comparison with Previously Reported Classification Accuracies on UcMerced Dataset
核函数正确率/%
SIFT(BoVW+ VQ)线性核
交叉核
74.4
79.9
SIFT(‘SPCK+’ + LLC)线性核
交叉核
81.9
83.9
MROGH(BoVW + VQ)线性核
交叉核
79.5
84.1
MROGH(‘SPCK+’ + LLC)线性核
交叉核
84.9
86.5
NN-STSIM 4 × 4[13]N/A83.4
ScSPM[4]线性核82.7
ScST[4]线性核81.6
2.2 WhU遥感数据集

为了进一步地对遥感影像分类进行比较,本文采用了武汉大学遥感影像数据集[15]。该数据集手动提取自Google Earth。每个图像类拥有50幅图像,每个图像均为600像素×600像素,如图 5所示。

图 5 武汉大学遥感数据集样本 Figure 5 Samples of Images from Wuhan University Dataset

同样地,采用了线性SVM分类器对特征描述子在不同编码框架和编码方法下的性能进行了比较,如表 3所示。

表 3 武汉大学数据集下得到的分类正确率比较/% Table 3 Classification Accuracy Based on WhU Dataset/%
SIFTMROGH
BoVW + VQ76.64±2.6482.28±1.93
BoVW + LLC78.09±2.6382.59±1.55
SPMK + VQ78.47±2.0979.97±2.16
SPMK + LLC79.94±2.9081.22±1.80
SPCK + VQ69.99±2.2479.80±2.18
SPCK + LLC70.28±2.0879.70±2.13
‘SPCK+’ + VQ76.68±2.1283.75±2.17
‘SPCK+’ + LLC77.10±2.0783.68±2.31

表 3可以看出,不同于在UcMerced数据集上的情形,在WhU数据集下,各种编码框架、编码方式相对于基准的BoVW + VQ在分类性能上的提升幅度并不大,但MROGH(‘SPCK+’+ LLC)得到的分类准确率相对于基准的SIFT(BoVW+VQ)还是有较大幅度的提升。此外,在此数据集下由于样本数目相对较少,导致分类正确率的方差有所增大。

3 结语

针对遥感影像的特点,本文提出采用基于序的特征描述方法MROGH进行影像的底层特征提取,并针对特征向量软编码情形采用了基于模糊关系的图像空间共现核来进行全局特征汇聚。在基准数据集上的实验表明,采用MROGH方法优于传统的SIFT算法,且基于模糊关系的图像空间共现核得到的遥感影像分类正确率有显著的提升。

参考文献
[1] Zhao Y D, Zhang L P, Li P X, et al. Classification of High Spatial Resolution Imagery Using Improved Gaussian Markov Random Field Based Texture Features[J]. IEEE Transactions on Geoscience and Remote Sensing, 2007, 45(5): 1458–1468 DOI:10.1109/TGRS.2007.892602
[2] Tang Yunwei, Zhang Jingxiong. Land Cover Classification of Remotely Sensed Imagery Using Multiple-point Geostatistics[J]. Geomatics and Information Science of Wuhan University, 2014, 39(5): 546–550 ( 唐韵玮, 张景雄. 遥感影像土地覆盖分类的多点地统计学方法[J]. 武汉大学学报·信息科学版, 2014, 39(5): 546–550. )
[3] Huang Dengshan, Yang Minghua, Xu Haiwei, et al. Fusion of Multi-spectral and Panchromatic Images Using Optimal Estimation Theory[J]. Geomatics and Information Science of Wuhan University, 2011, 36(9): 1039–1042 ( 黄登山, 杨敏华, 胥海威, 等. 利用最优估计理论进行多光谱与全色影像融合[J]. 武汉大学学报·信息科学版, 2011, 36(9): 1039–1042. )
[4] Cheriyadat A. Aerial Scene Recognition Using Efficient Sparse Representation[C].The 8th Indian Conference on Computer Vision, Graphics and Image Processing, Chennai, India, 2012
[5] Yang Y, Newsam S. Spatial Pyramid Co-occurrence for Image Classification[C]. ICCV, Barcelona, Spain, 2011
[6] Lowe D G. Distinctive Image Features from Scale-invariant Keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91–110 DOI:10.1023/B:VISI.0000029664.99615.94
[7] Fan B, Wu F, Hu Z. Aggregating Gradient Distributions into Intensity Orders:A Novel Local Image Descriptor[C]. CVPR, CO, USA, 2011
[8] Wang J, Yang J, Yu K, et al. Locality-constrained Linear Coding for Image Classification[C]. Computer Vision and Pattern Recognition, San Francisco, CA, USA, 2010
[9] Xu Qiuhui, She Jiangfeng, Song Xiaoqun, et al. Matching Low Altitude RS Image with Harris-laplace and SIFT Descriptor[J]. Geomatics and Information Science of Wuhan University, 2012, 37(12): 1443–1447 ( 徐秋辉, 佘江峰, 宋晓群, 等. 利用Harris-laplace和SIFT描述子进行低空遥感影像匹配[J]. 武汉大学学报·信息科学版, 2012, 37(12): 1443–1447. )
[10] Zhou Weixun, Shao Zhengfeng, Hou Jihu. Remote Sensing Imagery Retrieval Method Based on Visual Attention Model and Local Features[J]. Geomatics and Information Science of Wuhan University, 2015, 40(1): 46–52 ( 周维勋, 邵振峰, 侯继虎. 利用视觉注意模型和局部特征的遥感影像检索方法[J]. 武汉大学学报·信息科学版, 2015, 40(1): 46–52. )
[11] Lazebnik S, Schmid C, Ponce J. Beyond Bags of Features:Spatial Pyramid Matching for Recognizing Natural Scene Categories[C]. CVPR, New York, USA, 2006
[12] Yang J, Yu K, Gong Y, et al. Linear Spatial Pyramid Matching Using Sparse Coding for Image Classification[C]. CVPR, Miami, Florida, USA, 2009
[13] Risojevic V, Babic Z. Aerial Image Classification Using Structural Texture Similarity[C]. Signal Processing and Information Technology, IEEE International Symposium on, Bilbao, Spain, 2011
[14] Li F F, Fergus R, Perona P. One-shot Learning of Object Categories[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(4): 594–611 DOI:10.1109/TPAMI.2006.79
[15] Dai D, Yang W. Satellite Image Classification via Two-layer Sparse Coding With Biased Image Representation[J]. IEEE Geoscience and Remote Sensing Letters, 2011, 8(1): 173–176 DOI:10.1109/LGRS.2010.2055033