【深度学习】多通道图像卷积过程及计算方式

之前,有写了一篇博文,【深度学习入门】——亲手实现图像卷积操作介绍卷积的相应知识,但那篇文章更多的是以滤波器的角度去讲解卷积。但实际上是神经网络中该博文内容并不适应。

之前的文章为了便于演示,针对的是二维卷积,比如一张图片有 RGB 三个颜色通道,我的方式是每个通道单独卷积,然后将各个通道合成一张图片,再可视化出来。但真实工程不会是这样的,很多东西需要进一步说明白。

熟悉 TensorFlow 的同学大概对这个函数比较熟悉。

tf.nn.conv2d(
    input,
    filter,
    strides,
    padding,
    use_cudnn_on_gpu=True,
    data_format='NHWC',
    dilations=[1, 1, 1, 1],
    name=None
)

其中 input 自然是卷积的输入,而 filter 自然就是滤波器。
它们的格式说明如下:

input:
[batch, in_height, in_width, in_channels]

filter
[filter_height, filter_width, in_channels, out_channels]

input 的 4 个参数很好理解,分别是批数量、高、宽、通道数。

但是,我当时在学习时有一个疑惑不能理解,那就是为什么 filter 有 2 个通道相关的参数呢?

按照网络上的建议,我大概知道 input 的 in_channels 和 filter 的 in_channels 要对应起来,而 out_channels 是卷积后生成的 featuremap 的通道数量,但是其中的计算细节,我并不知道。

为什么颜色通道为 3 的图像,经过卷积后,它的通道数量可以变成 128 或者其它呢?这是我的疑问。

后来,我发现自己有这个疑问是因为对卷积的概念理解不清楚。

我误以为,卷积过程中滤波器是 2 维的,只有宽高,通道数为 1.

这里写图片描述

实际上,真实的情况是,卷积过程中,输入层有多少个通道,滤波器就要有多少个通道,但是滤波器的数量是任意的,滤波器的数量决定了卷积后 featuremap 的通道数。

在这里插入图片描述

如果把输入当做一个立方体的话,那么 filter 也是一个立方体,它们卷积的结果也是一个立方体,并且上面中 input、filter、Result 的通道都是一致的。

但卷积过程的最后一步要包括生成 feature,很简单,将 Result 各个通道对应坐标的值相加就生成了 feature,相当于将多维的 Result 压缩成了 2 维的 feature。

可能有同学会问,为什么需要压缩 Result 到 2 维呢?

我们回顾,卷积的公式。

y ( n ) = ∑ i = − ∞ ∞ x ( i ) ∗ h ( n − i ) y(n) = \sum_{i=-\infty}^{\infty} x(i)*h(n-i) y(n)=i=x(i)h(ni)

卷积无非就是一个累乘然后累加的过程,所以从数学上来看,这并不违背规则,实际上真实的情况是为了卷积过程的通道对应,原因下面分析。

之前我们会困扰是因为所有的文献都以 3x3 或者 5x5 的形式指代滤波器,让我们误以为滤波器只能是 2 维的。

也有细心的同学会问,卷积过程,怎么改变输入层的通道数?

比如,输入层是一张彩色图片,它有 RGB 3 个通道,但经过卷积后的 featuremap 却有 128 个通道,那它是怎么实现的呢?

奥秘在于滤波器的数量
在这里插入图片描述

大家注意上图,我们假定用 N 表示滤波器的数量,那么每一个滤波器会生成一个 2 维的 feature,N 个滤波器就生成 N 个 feature,N 个 feature 组成了卷积后的 featuremap,而 N 就是 featuremap 的通道数。

input:
[batch, in_height, in_width, in_channels]

filter
[filter_height, filter_width, in_channels, out_channels]

我们再看 Tensorflow 中 filter 的参数说明,是不是就一目了然了呢?

我们也可以再仔细体会,单个滤波器卷积结果要压缩成 2 维的妙处,这样保证了卷积后的输出通道和卷积滤波器的数量对应上了。

代码实现

之前的文章,我实现卷积的过程只考虑到了 2 维,并且实现手法比较传统。

def _con_each(src_block,kernel):
    pixel_count = kernel.size;
    pixel_sum = 0;
    _src = src_block.flatten();
    _kernel = kernel.flatten();
    
    
    for i in range(pixel_count):
        pixel_sum += _src[i]*_kernel[i];
        
    return pixel_sum 

现在,可以进行改进。

前面说过,卷积公式本质就是一个累乘然后累加的过程,它的结果是一个数值。而线性代数中两个向量的內积恰恰可以这样表示,所以完全可以改写。

import numpy as np

def _conv_epoch(src_block,filter):
    input = src_block.flatten()
    filter = filter.flatten().T

    return np.dot(input,filter)

当然,完整的图像卷积需要扫描式地重复许多次。

"""
input_size:(h,w,c)
filter_size:(h,w,ic,oc)
"""
def conv(img,input_size,filter_size,stride=1):
    ih = input_size[0]
    iw = input_size[1]
    ic = input_size[2]

    filter_oc = filter_size[3]
    filter_h = filter_size[0]
    filter_w = filter_size[1]
    filter_ic = filter_size[2]

    l = int((ih - filter_h) / stride + 1)
    m = int((iw - filter_w) / stride + 1)

    result = np.zeros(shape=(l,m,filter_oc),dtype=np.uint8)

    for i in range(l):
        for j in range(m):
            for k in range(filter_oc):
                f = np.random.uniform(0,1,filter_w*filter_h*filter_ic).T
                input = img[i:i+filter_h,j:j+filter_w,:]

                result[i,j,k] = _conv_epoch(input,f)

    return result

现在,我们可以测试一下我们的代码效果。

def test():
    img = plt.imread("../datas/cat.jpg")

    print("img shape ",img.shape)

    result = conv(img,img.shape,(3,3,img.shape[2],3))

    plt.figure()
    plt.subplot(121)
    plt.imshow(img)
    plt.subplot(122)
    plt.imshow(result)
    plt.show()

test()

读入一张猫的照片,然后对照它的卷积效果,需要注意的是我设置的滤波器的数量为 3 ,这是为了便于演示。

最终效果如下:
在这里插入图片描述

需要注意的是,滤波器的数值我完全是随机选择,但从效果上来看,它们还是抽取了一些轮廓细节。可见卷积操作的威力之大。在深度学习中,一个神经网络通常有成百上千个 filter,它们通过一反复学习,最终形成了可靠的特征表达能力。

最后,我要说明的是,卷积过程很慢,特变是又 python 实现,虽然我已经在前一篇文章的基础上更改了卷积代码,让 for 循环改成了向量点积的方式,但整个图像的卷积过程,还可以改善,这涉及到一个叫做 im2col 的技术,它大致的原理是让卷积过程中,矩阵的乘法参与的更彻底,最后整个卷积过程用一个矩阵乘法表示,因为篇幅有限,有兴趣的同学可以自行搜索对应的文献。

frank909 CSDN认证博客专家 CV(computer vision)
爱阅读的程序员,专注于技术思考和分享。关注架构设计、Android 开发、AI、数学、自动驾驶领域,个人公号:Frankcall
©️2020 CSDN 皮肤主题: 编程工作室 设计师:CSDN官方博客 返回首页
实付 19.90元
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值