中国航空学会信息融合分会-航空学会,信息融合

首页 » 科技之窗 » 图像处理 » SIFT中的尺度空间和传统图像金字塔

SIFT中的尺度空间和传统图像金字塔

作者：管理员来源：本站原创  2016-10-25

想要得知图像中哪些是有意义的，必须先要明确这样一个问题：在一幅图像中，只有在一定的尺度范围内，一个物体才有意义。举一个例子，树枝这个概念，只有在几厘米到几米的距离去观察它，才能感知到它的确是树枝；如果在微米级或者千米级去观察，就不能感知到树枝这个概念了，这样的话可以感知到的是细胞或者是森林的概念。

因而，如果想要描述现实世界的结构，或者将三维物体映射到二维的图像上去，多尺度表示将会至关重要。多尺度表示的概念很容易理解，举例说明，绘制地图时会有比例尺的概念。世界地图中就只能够显示大洲大洋，以及较大的地域和国家；而一个城市地图，甚至可以详细的显示出每条街道。
这里需要强调一点，事物是实实在在的存在的，但是通过图像这个媒介，观察者可以感知到的概念是不同的。

一种比较老的尺度表示方法是图像金字塔。金字塔是结合降采样操作和平滑操作的一种图像表示方式。它的一个很大的好处是，自下而上每一层的像素数都不断减少，这会大大减少计算量；而缺点是自下而上金字塔的量化变得越来越粗糙，而且速度很快。（需要强调的是，这里的金字塔构造方法和小波金字塔的构造方法是类似的，对某一层的图像进行平滑之后，再做降采样，平滑目的是为了降采样后的像素点能更好的代表原图像的像素点，与多尺度表示中的平滑完全不是一个目的）

SIFT中提到的“尺度空间”（Scale-Space）表示法是多尺度表示的另外一种有效方法，它的尺度参数是连续的，并且所有尺度上空间采样点个数是相同的（实际上，一个尺度上得到的就是一幅图像，尺度空间采样点也就是该尺度上图像的像素点。也就是说，尺度空间表示法在各个尺度上图像的分辨率都是一样的）。尺度空间表示的主要思想是，由原始信号（例如一幅图像）生成一系列信号，并用这些信号来表示原始信号，这个过程中，精细尺度的信息被逐步的平滑掉（可以认为是细节信息被丢弃）。

尺度可变高斯函数 $G \left( x, y, \sigma \right) = \frac{1}{2\pi\sigma^2}e^-(x^2+y^2)/2\sigma^2$

所以，这里的尺度空间和传统图像金字塔的表示是不同的，尺度空间可以理解为用高斯对图像做了卷积，图像的分辨率还是那么大，像素还是那么多，只是细节被平均（平滑）掉了，原因就是高斯了，用周围的信号比较弱的像素和中间那个信号比较强的点做平均，平均值当然比最强信号值小了，这就起到了平滑的作用。传统图像金字塔关键在于降采样，每四个像素，求平均作为一个像素，显然分辨率降低了。

下面就是Octave和sigma这两个参数的影响，行与行之间的差距，可以理解为金字塔或者降采样；行内部其实是因为高斯sigma参数作用的结果，高斯卷积其实是起到了一个平滑的作用：

下面这个就是DOG，高斯查分，其实这和边缘检测的原理是差不多的，通过查分，将边缘留下来了。这就是图像中的关键点的原始的结合，什么是关键点，最起码能够代表图像中有变化比较明显的特征点，但是，对于那些平滑的特征，如果丢失了，是不是可惜呢？

关于SIFT的理解，Cauthy的博文有几篇，了解的要比我深好多呢。

另外最近还有一种金字塔的表示，用来做金字塔匹配The Pyramid Match等，其原理其实是采样窗口的大小，采样窗口由小到大，包含的局部特征也会越来越丰富。关于这个，推荐两篇论文

1、The Pyramid Match: Efficient Matching for Retrieval and Recognition

2、Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories

» 上一篇：无
« 下一篇：机器视觉辅助冬季道路状况监测

联系我们

综合管理部 010-84924375

组织工作与会员服务部 010-84924385

学术交流、国际合作与科技咨询部 010-84924387

扫一扫关注我们