你会如何合并 scikits-learn分类器 http://scikit-learn.org/stable/modules/svm.html一个对词袋进行操作的词袋,一个对任意数字字段进行操作的词袋?
我知道这些在幕后基本上是相同的事情,但我很难弄清楚如何通过现有的库方法来做到这一点。例如,我的词袋分类器使用管道:
classifier = Pipeline([
('vectorizer', HashingVectorizer(ngram_range=(1,4), non_negative=True)),
('tfidf', TfidfTransformer()),
('clf', OneVsRestClassifier(LinearSVC())),
])
classifier.fit(['some random text','some other text', ...], [CLS_A, CLS_B, ...])
而我的其他用法是这样的:
classifier = LinearSVC()
classifier.fit([1.23, 4.23, ...], [CLS_A, CLS_B, ...])
我如何构建一个可以同时使用两组数据进行训练的 LinearSVC 分类器?例如
classifier = ?
classifier.fit([('some random text',1.23),('some other text',4.23), ...], [CLS_A, CLS_B, ...])