TensorFlow 和 Keras 的相同实现之间的不同行为

2024-01-06

我的机器上有 TensorFlow 1.9 和 Keras 2.0.8。当使用一些玩具数据训练神经网络时,TensorFlow 和 Keras 之间产生的训练曲线非常不同,我不明白为什么。

对于 Keras 实现,网络学习得很好,损失持续减少,而对于 TensorFlow 实现,网络没有学到任何东西,损失也没有减少。我试图确保两种实现都使用相同的超参数。为什么行为如此不同?

网络本身有两个输入:图像和向量。然后,在连接之前,它们会通过自己的层。

这是我的实现。

张量流:

# Create the placeholders
input1 = tf.placeholder("float", [None, 64, 64, 3])
input2 = tf.placeholder("float", [None, 4])
label = tf.placeholder("float", [None, 4])

# Build the TensorFlow network
# Input 1
x1 = tf.layers.conv2d(inputs=input1, filters=30, kernel_size=[5, 5], strides=(2, 2), padding='valid', activation=tf.nn.relu)
x1 = tf.layers.conv2d(inputs=x1, filters=30, kernel_size=[5, 5], strides=(2, 2), padding='valid', activation=tf.nn.relu)
x1 = tf.layers.flatten(x1)
x1 = tf.layers.dense(inputs=x1, units=30)
# Input 2
x2 = tf.layers.dense(inputs=input2, units=30, activation=tf.nn.relu)
# Output
x3 = tf.concat(values=[x1, x2], axis=1)
x3 = tf.layers.dense(inputs=x3, units=30)
prediction = tf.layers.dense(inputs=x3, units=4)

# Define the optimisation
loss = tf.reduce_mean(tf.square(label - prediction))
train_op = tf.train.AdamOptimizer(learning_rate=0.001).minimize(loss)

# Train the model
sess = tf.Session()
sess.run(tf.global_variables_initializer())
training_feed = {input1: training_input1_data, input2: training_input2_data, label: training_label_data}
validation_feed = {input1: validation_input1_data, input2: validation_input2_data, label: validation_label_data}
for epoch_num in range(30):
    train_loss, _ = sess.run([loss, train_op], feed_dict=training_feed)
    val_loss = sess.run(loss, feed_dict=validation_feed)

Keras:

# Build the keras network
# Input 1
input1 = Input(shape=(64, 64, 3), name='input1')
x1 = Conv2D(filters=30, kernel_size=5, strides=(2, 2), padding='valid', activation='relu')(input1)
x1 = Conv2D(filters=30, kernel_size=5, strides=(2, 2), padding='valid', activation='relu')(x1)
x1 = Flatten()(x1)
x1 = Dense(units=30, activation='relu')(x1)
# Input 2
input2 = Input(shape=(4,), name='input2')
x2 = Dense(units=30, activation='relu')(input2)
# Output
x3 = keras.layers.concatenate([x1, x2])
x3 = Dense(units=30, activation='relu')(x3)
prediction = Dense(units=4, activation='linear', name='output')(x3)

# Define the optimisation
model = Model(inputs=[input1, input2], outputs=[prediction])
adam = optimizers.Adam(lr=0.001)
model.compile(optimizer=adam, loss='mse')

# Train the model
training_inputs = {'input1': training_input1_data, 'input2': training_input2_data}
training_labels = {'output': training_label_data}
validation_inputs = {'input1': validation_images, 'input2': validation_state_diffs}
validation_labels = {'output': validation_label_data}
callback = PlotCallback()
model.fit(x=training_inputs, y=training_labels, validation_data=(validation_inputs, validation_labels), batch_size=len(training_label_data[0]), epochs=30)

这是训练曲线(每次实现两次运行)。

张量流:

Keras:


在仔细检查您的实现后,我发现除了批量大小之外,所有超参数都匹配。我不同意@Ultraviolet 的答案,因为默认kernel_initializer of tf.layers.conv2d也是 Xavier(参见 TF 实现conv2d https://github.com/tensorflow/tensorflow/blob/r1.9/tensorflow/python/layers/convolutional.py#L323).

由于以下两个原因,学习曲线不匹配:

  1. Keras 实现(版本 2)中的参数比 TF 实现(版本 1)中的参数接收到更多的更新。在版本 1 中,您在每个时期将完整数据集同时输入到网络中。这导致只有 30 个 adam 更新。相比之下,版本 2 的性能30 * ceil(len(training_label_data)/batch_size)亚当更新,与batch_size=4.

  2. 版本 2 的更新比版本 1 的更新噪音更大,因为梯度是在更少的样本上平均的。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

TensorFlow 和 Keras 的相同实现之间的不同行为 的相关文章

随机推荐