将数值和分类数据混合到具有密集层的 keras 序列模型中

2024-05-02

我在 Pandas 数据框中有一个训练集，我将此数据框传递到model.fit() with df.values。以下是有关 df 的一些信息：

df.values.shape
# (981, 5)

df.values[0]
# array([163, 0.6, 83, 0.52,
#       array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#       0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#       0, 0, 0, 0, 0, 0, 0])], dtype=object)

正如您所看到的，df 中的行包含 5 列，其中 4 列包含数值（int 或 float），一列包含表示某些分类数据的热编码数组。我正在创建我的 keras 模型，如下所示：

model = keras.Sequential([
    keras.layers.Dense(1024, activation=tf.nn.relu, kernel_initializer=init_orth, bias_initializer=init_0),
    keras.layers.Dense(512, activation=tf.nn.relu, kernel_initializer=init_orth, bias_initializer=init_0),
    keras.layers.Dense(256, activation=tf.nn.relu, kernel_initializer=init_orth, bias_initializer=init_0),
    keras.layers.Dense(128, activation=tf.nn.relu, kernel_initializer=init_orth, bias_initializer=init_0),
    keras.layers.Dense(64, activation=tf.nn.relu, kernel_initializer=init_orth, bias_initializer=init_0),
    keras.layers.Dense(1, activation=tf.nn.sigmoid)
])

opt = keras.optimizers.Adam(lr=0.001, beta_1=0.9, beta_2=0.999, epsilon=None, decay=0.0, amsgrad=True)

model.compile(optimizer=opt, 
      loss='binary_crossentropy',
      metrics=['accuracy'])

model.fit(df.values, df_labels.values, epochs=10, batch_size=32, verbose=0)

df_labels.values只是一个由 0 和 1 组成的一维数组。所以我相信最后确实需要一个 Dense(1) sigmoid 层，以及“binary_crossentropy”损失。

如果我只传递数值数据，这个模型效果很好。但是一旦我引入热编码（分类数据），我就会收到此错误：

ValueError                                Traceback (most recent call last)
<ipython-input-91-b5e6232b375f> in <module>
     42     #trn_values = df_training_set.values[:,:,len(df_training_set.columns)]
     43     #trn_cat = df_trn_wtid.values.reshape(-1, 1)
---> 44     model.fit(df_training_set.values, df_training_labels.values, epochs=10, batch_size=32, verbose=0)
     45 
     46     #test_loss, test_acc = model.evaluate(df_test_set.values, df_test_labels.values)

~\Anaconda3\lib\site-packages\keras\engine\training.py in fit(self, x, y, batch_size, epochs, verbose, callbacks, validation_split, validation_data, shuffle, class_weight, sample_weight, initial_epoch, steps_per_epoch, validation_steps, **kwargs)
   1037                                         initial_epoch=initial_epoch,
   1038                                         steps_per_epoch=steps_per_epoch,
-> 1039                                         validation_steps=validation_steps)
   1040 
   1041     def evaluate(self, x=None, y=None,

~\Anaconda3\lib\site-packages\keras\engine\training_arrays.py in fit_loop(model, f, ins, out_labels, batch_size, epochs, verbose, callbacks, val_f, val_ins, shuffle, callback_metrics, initial_epoch, steps_per_epoch, validation_steps)
    197                     ins_batch[i] = ins_batch[i].toarray()
    198 
--> 199                 outs = f(ins_batch)
    200                 outs = to_list(outs)
    201                 for l, o in zip(out_labels, outs):

~\Anaconda3\lib\site-packages\keras\backend\tensorflow_backend.py in __call__(self, inputs)
   2713                 return self._legacy_call(inputs)
   2714 
-> 2715             return self._call(inputs)
   2716         else:
   2717             if py_any(is_tensor(x) for x in inputs):

~\Anaconda3\lib\site-packages\keras\backend\tensorflow_backend.py in _call(self, inputs)
   2653                 array_vals.append(
   2654                     np.asarray(value,
-> 2655                                dtype=tf.as_dtype(tensor.dtype).as_numpy_dtype))
   2656         if self.feed_dict:
   2657             for key in sorted(self.feed_dict.keys()):

~\Anaconda3\lib\site-packages\numpy\core\numeric.py in asarray(a, dtype, order)
    536 
    537     """
--> 538     return array(a, dtype, copy=False, order=order)
    539 
    540 

ValueError: setting an array element with a sequence.

请不要建议将 one_hot 数组中的每个值扩展到它们自己的列中。此示例是我的数据集的精简版本，其中包含 6-8 个分类列，其中一些 one_hots 是大小超过 5000 的数组。所以这对我来说不是一个可行的解决方案。我希望改进我的顺序模型（或彻底修改 keras 模型），以便处理分类数据和数值数据。

请记住，训练标签是 0/1 值的一维数组。我需要用数值/分类训练集来预测一组结果，我不能从数值数据中得到一组预测，并从分类数据中得到一组预测。

如果展平 5000+ one-hot 编码数组是一个问题，也许可以使用嵌入第一层 https://keras.io/layers/embeddings/反而。另外，您可以做的是拥有一个模型（用函数式API https://keras.io/models/model/而不是像您那样使用顺序 API），它需要 2 个输入，一个用于数字输入，另一个用于分类数据。然后分类数据可以经过嵌入，然后经过连接 https://keras.io/layers/merge/具有数字输入的层。从那时起，您的模型将按照当前的方式继续进行（1024 个单元层...）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将数值和分类数据混合到具有密集层的 keras 序列模型中

python

Keras

neuralnetwork

keraslayer

onehotencoding

将数值和分类数据混合到具有密集层的 keras 序列模型中的相关文章

在 Python 中使用 Selenium 处理“接受 Cookie”弹出窗口

一次将Python dict的内容分配给多个变量？

Python BeautifulSoup XML 解析

Pandas重置索引未生效[重复]

如何使用 python urllib 在 HTTP/1.1 中保持活力

创建一个类似于 Tkinter 的表

如何在 Python 中将彩色输出打印到终端？

spacy 如何使用词嵌入进行命名实体识别 (NER)？

将 Pandas 列中的列表拆分为单独的列

Django 在选择列表更改时创建毫无意义的迁移

Matplotlib Scatter - ValueError：RGBA 序列的长度应为 3 或 4

将一个列表的元素除以另一个列表的元素

查找给定节点的最高权重边

Scipy 稀疏 Cumsum

全局变量是 None 而不是实例 - Python

如何在sphinx中启用数学？

如何禁止 celery 中的 pickle 序列化

将数值和分类数据混合到具有密集层的 keras 序列模型中

将数值和分类数据混合到具有密集层的 keras 序列模型中 的相关文章

将数值和分类数据混合到具有密集层的 keras 序列模型中的相关文章