↓Skip to main content

D2L 6.4 Multiple Input & Output

Mar 25 2025·619 words

D2L Computer Science Docs

D2L - This article is part of a series.

Part : D2L 6.5 Pooling Layer

Part : D2L 6.6 LeNet

Part : D2L 6.3 Padding & Stride

Part : This Article

Part : D2L 6.2 Image Convolution

Part : D2L 5.4 Custom Layer

Part : D2L 5.3 Deferred Initialization

Part : D2L 5.2 Parameter Management

Part : D2 5.1 Layer & Block

Part : D2L 4.1 Multilayer Perceptron

Part : D2L 4.2 Example of MLP

Part 1: D2L 6. ConvolutionNeuronNetwork

Part 1: D2L 5. Deep Learning Computation

Part 1: Linear Regression

Part 1: Chapter 3. Linear Neural Network

Part 1: Chapter 4. Multilayer Perceptron

Part 1: Dive Into Deep Learning

Part 2: D2L 3.1 Linear Regression

Part 3: D2L 3.2 Object-Oriented Design for Implementation

Part 4: D2L 3.3 A concise implementation of linear regression

Part 5: D2L 3.4 Softmax Regression

Part 6: D2L 3.5 Image classification datasets

Part 7: D2L 3.6 Implementation of softmax regression from scratch

Part 9: D2L 4.1 MultilayerPerceptron

Part 10: D2L Weierstrass Approximation Theorem

Part 10: D2L 4.4 Model Selection, Underfitting, and Overfitting

Last Edit: 3/25/25

一张常规的图像通常包含了 RGB 三种颜色，也是就是为互相关运算添加了一个维度

6.4.1 Multiple Input Channel
#

当输入包含多个通道时，需要构造一个与输入数据具有相同输入通道数的卷积核，这个很好理解，就是对每一个通道分别做不同的互相关运算
在每一个通道的互相关运算结果出来了之后，则采取相加的方式得到所有通道互相关运算的结果的和作为最终的输出

图中展示了 2 个通道的运算结果
其中拿出蓝色部分举例，两个通道运算分别为

$$ 00+11+32+34=19 $$

$$ 11+22+34+45=36 $$

然后将两个通道结果相加得到 56 作为输出

def corr2d_multi_in(X, K):
    # 初始化输出为第一个通道的互相关结果
    res = d2l.corr2d(X[0], K[0])
    # 从第二个通道开始逐个累加
    for i in range(1, len(X)):
        res += d2l.corr2d(X[i], K[i])
    return res

6.4.2 Multiple Output Channel
#

到现在为止，无论计算涵盖多少个输入通道，他们最终都会被加到一块得到一个输出
然而在真实的网络中即使上存在多个 Output Channel，这可以帮助模型的提取出更多不同的 Feature 比如边缘、颜色变化、形状等等
这样做就会得到一个形状为 $co × ci × kh × kw$ 的 Kernel，举例来说
输入张量是：2 个通道（ci = 2）卷积核大小是：3×3（kh = kw = 3）我想要输出 4 个通道（co = 4）那么我们需要： 4 个输出通道 × 每个通道有 2 个核 × 每个核大小是 3×3→ 卷积核张量的总形状是：[4, 2, 3, 3]

6.4.3 1x1 Convolution Layer
#

一个 1x1 的 Convolution Layer 看上去啥也没干，这是因为这个 Layer 的功能不是提取特征，而是同于通道的变换和组合

一个 $3\times3\times3$ 的输入，$1\times2\times3$ 的 Kernel 也就做到了 Linear Algebra 中的 Projection
所有它本质上就是一个矩阵的乘法，Linear Transformation，还是 Not Full Full Rank 的

D2L - This article is part of a series.

Part : D2L 6.5 Pooling Layer

Part : D2L 6.6 LeNet

Part : D2L 6.3 Padding & Stride

Part : This Article

Part : D2L 6.2 Image Convolution

Part : D2L 5.4 Custom Layer

Part : D2L 5.3 Deferred Initialization

Part : D2L 5.2 Parameter Management

Part : D2 5.1 Layer & Block

Part : D2L 4.1 Multilayer Perceptron

Part : D2L 4.2 Example of MLP

Part 1: D2L 6. ConvolutionNeuronNetwork

Part 1: D2L 5. Deep Learning Computation

Part 1: Linear Regression

Part 1: Chapter 3. Linear Neural Network

Part 1: Chapter 4. Multilayer Perceptron

Part 1: Dive Into Deep Learning

Part 2: D2L 3.1 Linear Regression

Part 3: D2L 3.2 Object-Oriented Design for Implementation

Part 4: D2L 3.3 A concise implementation of linear regression

Part 5: D2L 3.4 Softmax Regression

Part 6: D2L 3.5 Image classification datasets

Part 7: D2L 3.6 Implementation of softmax regression from scratch

Part 9: D2L 4.1 MultilayerPerceptron

Part 10: D2L Weierstrass Approximation Theorem

Part 10: D2L 4.4 Model Selection, Underfitting, and Overfitting

Related

D2L 6.3 Padding & Stride

Mar 25 2025·500 words

D2L Computer Science Docs

D2L 6.2 Image Convolution

Jan 28 2025·1357 words

D2L Computer Science Docs

D2L 5.4 Custom Layer

Jan 19 2025·353 words

D2L Computer Science Docs

D2L 5.3 Deferred Initialization

Jan 18 2025·411 words

D2L Computer Science Docs

D2L 5.2 Parameter Management

Jan 17 2025·992 words

D2L Computer Science Docs

D2 5.1 Layer & Block

Dec 21 2024·861 words

D2L Computer Science Docs