textclassification

如何在 bertopic 建模中获取每个主题的所有文档

我有一个数据集并尝试使用 berTopic 建模将其转换为主题但问题是我无法获取主题的所有文档 berTopic 每个主题仅返回 3 个文档 topic model BERTopic verbose True embedding mod

NLP textclassification bertlanguagemodel topicmodeling

如何使用 Tensorflow 中的 Hugging Face Transformers 库对自定义数据进行文本分类？

我正在尝试使用 Hugging Face Transformers 库提供的不同变压器架构对自定义数据 csv 格式进行二进制文本分类我正在用这个张量流博客文章 https blog tensorflow org 2019 11 hug

python tensorflow textclassification huggingfacetransformers

使用 NLTK 生成字典以将推文分类为预定义类别

我有一个 Twitter 用户 screen names 列表我需要根据他们的兴趣领域将他们分为 7 个预定义类别教育艺术体育商业政治汽车技术我用 Python 提取了用户的最后 100 条推文并在清理推文后为每个用户创

python machinelearning NLP NLTK textclassification

如何使用Bert进行长文本分类？

我们知道 BERT 有 token 的最大长度限制 512 因此如果一篇文章的长度远大于 512 例如文本中有 10000 个 token 如何使用 BERT 您基本上有三个选择您可以剪掉较长的文本并仅使用前 512 个令牌最初的 BE

NLP textclassification bertlanguagemodel

sklearn 中带有词袋和附加情感特征的文本分类器

我正在尝试构建一个分类器除了词袋之外还使用情绪或主题 LDA 结果等特征我有一个包含文本和标签的 pandas DataFrame 并且想添加情感值 5 到 5 之间的数字和 LDA 分析结果带有句子主题的字符串我有一个工作词

python scikitlearn textclassification

如何对URL进行分类？ URL 的特点是什么？如何从 URL 中选择和提取特征

我刚刚开始研究分类问题这是一个两类问题我的训练模型机器学习必须决定预测是允许 URL 还是阻止它我的问题非常具体如何对 URL 进行分类我应该使用普通的文本分析方法吗 URL 的特点是什么如何从URL中选择和提取特征我假

McNemar 在 Python 中的测试以及分类机器学习模型的比较 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有没有用 Python 实现的好的 McNemar 测试我在 Scipy stats 或 Scikit

python machinelearning statistics Classification textclassification

Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？

我对 PyTorch 和 Huggingface transformers 比较陌生并对此尝试了 DistillBertForSequenceClassificationKaggle 数据集 https www kaggle com c

NLP Pytorch textclassification lossfunction huggingfacetransformers

在java中使用朴素贝叶斯（weka）进行简单的文本分类

我尝试在我的java代码中使用朴素贝叶斯weka库进行文本分类但我认为分类的结果不正确我不知道问题是什么我使用 arff 文件作为输入这是我的训练数据 relation hamspam attribute text string a

Java Weka textclassification naivebayes arff

从多类分类算法输出前 2 个类

我正在研究文本的多类分类问题其中我有很多不同的类 15 我训练了一个 Linearsvc svm 方法方法只是示例但它只输出概率最高的单个类有没有一种算法可以同时输出两个类我正在使用的示例代码 from sklearn svm i

python3x scikitlearn textclassification multiclassclassification

改进现有的基本 GloVe 模型

我正在使用 GloVe 作为我研究的一部分我已经从以下位置下载了模型here https nlp stanford edu projects glove 我一直在使用 GloVe 进行句子分类我正在分类的句子特定于特定领域例如某些 S

NLP textclassification GloVe

BERT 问答中长文本的滑动窗口

我读过解释滑动窗口如何工作的帖子但我找不到有关其实际实现方式的任何信息据我了解如果输入太长可以使用滑动窗口来处理文本如果我错了请纠正我说我有一条短信 2017 年 6 月 Kaggle 宣布注册用户突破 100 万给定一些s

如何在 scikit-learn 中正确地将数字特征与文本（词袋）结合起来？

我正在为网页编写一个分类器因此我混合了数字特征并且我还想对文本进行分类我正在使用词袋方法将文本转换为大数值向量代码最终是这样的 from sklearn feature extraction text import CountV

python scikitlearn Classification textclassification

多标签分类中的 Spacy TextCat 分数

在spacy的文本分类中火车文本猫 https github com explosion spaCy blob master examples training train textcat py例如指定了两个标签Positive and

spacy textclassification multilabelclassification

如何使用 Spark Naive Bayes 分类器通过 IDF 进行文本分类？

我想使用 tf idf 将文本文档转换为特征向量然后训练朴素贝叶斯算法对它们进行分类我可以轻松加载没有标签的文本文件并使用 HashingTF 将其转换为向量然后使用 IDF 根据单词的重要性对单词进行加权但如果我这样做我就会去

python apachespark tfidf textclassification apachesparkmllib

R：将 LIME 应用于 Quanteda 文本模型的问题

这是我的修改版本上一个问题 https stackoverflow com q 50273919 6327771 我正在尝试在我的设备上运行 LIMEquanteda依赖的文本模型特朗普和克林顿推文数据 https www kaggle c

r Text textclassification quanteda lime

FastText 使用预先训练的词向量进行文本分类

我正在研究文本分类问题也就是说给定一些文本我需要为其分配某些给定的标签我尝试过使用 Facebook 的快速文本库它有两个我感兴趣的实用程序 A 带有预训练模型的词向量 B 文本分类实用程序然而这些似乎是完全独立的工具因为我

NLP Word2Vec textclassification fasttext

无法恢复 TextVectorization 类的图层 - 文本分类

系统信息谷歌合作实验室当我运行官方张量流基本文本分类提供的示例时一切运行良好直到模型保存但是当我加载模型时它给了我这个错误运行时错误无法恢复 TextVectorization 类的图层 TextVectorization

python tensorflow Keras tensorflow20 textclassification

FastText 0.9.2 - 为什么召回是“nan”？

我使用 Python 接口在 FastText 中训练了一个监督模型并且在精确度和召回率方面得到了奇怪的结果首先我训练了一个模型 model fasttext train supervised train txt wordNgrams

python3x NLP textclassification precisionrecall fasttext

使用 TensorFlow 进行多标签文本分类

文本数据被组织为具有 20 000 个元素的向量例如 2 1 0 0 5 0 第 i 个元素表示文本中第 i 个单词的频率真实标签数据也表示为具有 4 000 个元素的向量例如 0 0 1 0 1 0 第 i 个元素指示第 i 个标签

python tensorflow textclassification multilabelclassification