Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何在 bertopic 建模中获取每个主题的所有文档
我有一个数据集并尝试使用 berTopic 建模将其转换为主题 但问题是 我无法获取主题的所有文档 berTopic 每个主题仅返回 3 个文档 topic model BERTopic verbose True embedding mod
NLP
textclassification
bertlanguagemodel
topicmodeling
如何使用 Tensorflow 中的 Hugging Face Transformers 库对自定义数据进行文本分类?
我正在尝试使用 Hugging Face Transformers 库提供的不同变压器架构对自定义数据 csv 格式 进行二进制文本分类 我正在用这个张量流博客文章 https blog tensorflow org 2019 11 hug
python
tensorflow
textclassification
huggingfacetransformers
使用 NLTK 生成字典以将推文分类为预定义类别
我有一个 Twitter 用户 screen names 列表 我需要根据他们的兴趣领域将他们分为 7 个预定义类别 教育 艺术 体育 商业 政治 汽车 技术 我用 Python 提取了用户的最后 100 条推文 并在清理推文后为每个用户创
python
machinelearning
NLP
NLTK
textclassification
如何使用Bert进行长文本分类?
我们知道 BERT 有 token 的最大长度限制 512 因此如果一篇文章的长度远大于 512 例如文本中有 10000 个 token 如何使用 BERT 您基本上有三个选择 您可以剪掉较长的文本并仅使用前 512 个令牌 最初的 BE
NLP
textclassification
bertlanguagemodel
sklearn 中带有词袋和附加情感特征的文本分类器
我正在尝试构建一个分类器 除了词袋之外 还使用情绪或主题 LDA 结果 等特征 我有一个包含文本和标签的 pandas DataFrame 并且想添加情感值 5 到 5 之间的数字 和 LDA 分析结果 带有句子主题的字符串 我有一个工作词
python
scikitlearn
textclassification
如何对URL进行分类? URL 的特点是什么?如何从 URL 中选择和提取特征
我刚刚开始研究分类问题 这是一个两类问题 我的训练模型 机器学习 必须决定 预测是允许 URL 还是阻止它 我的问题非常具体 如何对 URL 进行分类 我应该使用普通的文本分析方法吗 URL 的特点是什么 如何从URL中选择和提取特征 我假
McNemar 在 Python 中的测试以及分类机器学习模型的比较 [关闭]
Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 有没有用 Python 实现的好的 McNemar 测试 我在 Scipy stats 或 Scikit
python
machinelearning
statistics
Classification
textclassification
Fine-Tuning DistilBertForSequenceClassification:不是学习,为什么loss没有变化?权重没有更新?
我对 PyTorch 和 Huggingface transformers 比较陌生 并对此尝试了 DistillBertForSequenceClassificationKaggle 数据集 https www kaggle com c
NLP
Pytorch
textclassification
lossfunction
huggingfacetransformers
在java中使用朴素贝叶斯(weka)进行简单的文本分类
我尝试在我的java代码中使用朴素贝叶斯weka库进行文本分类 但我认为分类的结果不正确 我不知道问题是什么 我使用 arff 文件作为输入 这是我的训练数据 relation hamspam attribute text string a
Java
Weka
textclassification
naivebayes
arff
从多类分类算法输出前 2 个类
我正在研究文本的多类分类问题 其中我有很多不同的类 15 我训练了一个 Linearsvc svm 方法 方法只是示例 但它只输出概率最高的单个类 有没有一种算法可以同时输出两个类 我正在使用的示例代码 from sklearn svm i
python3x
scikitlearn
textclassification
multiclassclassification
改进现有的基本 GloVe 模型
我正在使用 GloVe 作为我研究的一部分 我已经从以下位置下载了模型here https nlp stanford edu projects glove 我一直在使用 GloVe 进行句子分类 我正在分类的句子特定于特定领域 例如某些 S
NLP
textclassification
GloVe
BERT 问答中长文本的滑动窗口
我读过解释滑动窗口如何工作的帖子 但我找不到有关其实际实现方式的任何信息 据我了解 如果输入太长 可以使用滑动窗口来处理文本 如果我错了 请纠正我 说我有一条短信 2017 年 6 月 Kaggle 宣布注册用户突破 100 万 给定一些s
如何在 scikit-learn 中正确地将数字特征与文本(词袋)结合起来?
我正在为网页编写一个分类器 因此我混合了数字特征 并且我还想对文本进行分类 我正在使用词袋方法将文本转换为 大 数值向量 代码最终是这样的 from sklearn feature extraction text import CountV
python
scikitlearn
Classification
textclassification
多标签分类中的 Spacy TextCat 分数
在spacy的文本分类中火车文本猫 https github com explosion spaCy blob master examples training train textcat py例如 指定了两个标签Positive and
spacy
textclassification
multilabelclassification
如何使用 Spark Naive Bayes 分类器通过 IDF 进行文本分类?
我想使用 tf idf 将文本文档转换为特征向量 然后训练朴素贝叶斯算法对它们进行分类 我可以轻松加载没有标签的文本文件 并使用 HashingTF 将其转换为向量 然后使用 IDF 根据单词的重要性对单词进行加权 但如果我这样做 我就会去
python
apachespark
tfidf
textclassification
apachesparkmllib
R:将 LIME 应用于 Quanteda 文本模型的问题
这是我的修改版本上一个问题 https stackoverflow com q 50273919 6327771 我正在尝试在我的设备上运行 LIMEquanteda依赖的文本模型特朗普和克林顿推文数据 https www kaggle c
r
Text
textclassification
quanteda
lime
FastText 使用预先训练的词向量进行文本分类
我正在研究文本分类问题 也就是说 给定一些文本 我需要为其分配某些给定的标签 我尝试过使用 Facebook 的快速文本库 它有两个我感兴趣的实用程序 A 带有预训练模型的词向量 B 文本分类实用程序 然而 这些似乎是完全独立的工具 因为我
NLP
Word2Vec
textclassification
fasttext
无法恢复 TextVectorization 类的图层 - 文本分类
系统信息 谷歌合作实验室 当我运行官方张量流基本文本分类提供的示例时 一切运行良好 直到模型保存 但是当我加载模型时 它给了我这个错误 运行时错误 无法恢复 TextVectorization 类的图层 TextVectorization
python
tensorflow
Keras
tensorflow20
textclassification
FastText 0.9.2 - 为什么召回是“nan”?
我使用 Python 接口在 FastText 中训练了一个监督模型 并且在精确度和召回率方面得到了奇怪的结果 首先 我训练了一个模型 model fasttext train supervised train txt wordNgrams
python3x
NLP
textclassification
precisionrecall
fasttext
使用 TensorFlow 进行多标签文本分类
文本数据被组织为具有 20 000 个元素的向量 例如 2 1 0 0 5 0 第 i 个元素表示文本中第 i 个单词的频率 真实标签数据也表示为具有 4 000 个元素的向量 例如 0 0 1 0 1 0 第 i 个元素指示第 i 个标签
python
tensorflow
textclassification
multilabelclassification
1
2
»