如何对搜索引擎关键词进行聚类？

2024-05-04

从 Google Analytics 中，我有一个（长）关键字列表，人们在搜索引擎中使用这些关键字来查找我的网站。我想找到“核心关键词”，假设的例子：

java online training
learning java
scala training
training for java
online training java
learn scala programming

理想的结果是：“java”、“在线训练”、“训练”、“scala”和“学习”。

困难似乎在于检测完整的短语、忽略常用词（for）和处理变体（学习-学习）。

有没有一个库可以做到这一点（最好是 JVM）？或者有一个合适的算法我可以自己实现吗？

这是一个术语或关键词提取问题。我进行了搜索，结果出现了Kea http://current.com/1vi9m4c，这看起来正是您想要的。

您可以通过以下算法实现简单的解决方案：

在文档中生成具有所需短语长度的 ngram 列表（选择任意短语长度限制，例如 3 或 4）
将 ngram 放入Multiset http://google-collections.googlecode.com/svn/trunk/javadoc/com/google/common/collect/Multiset.html
按照程度或计数的顺序迭代多重集的条目，也许可以使用任意截止值

就像你说的，这会有一个停用词的问题。您可以做一些简单的事情，例如拥有一本停用词词典，或者您可以做类似的事情词频-逆文档频率 http://en.wikipedia.org/wiki/Tf%E2%80%93idf它可以帮助您自动识别非常频繁的术语。 KEA 会为您做这件事，最好先调查一下。

希望有帮助！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

clusteranalysis

keyword

如何对搜索引擎关键词进行聚类？的相关文章

如何在Netbeans中插入main方法（快捷方式）

有时您想运行单个文件来快速测试某些代码正在输入public static void main String args 每次都很乏味怎样才能做得更快呢由于 Netbeans 中预定义的代码模板这很简单只需输入psvm并按 Tab 键
Maven 2：如何将当前项目版本打包在WAR文件中？

我正在使用 Maven 2 构建我的 Java 项目并且正在寻找一种向用户呈现 pom xml 当前版本号的方法例如使用 Servlet 或 JSP 据我所知最好的方法是 Maven 将版本号作为文本文件打包到 WAR 中这使我能够
将 Hibernate 对象序列化为 JSON 时抛出异常

好吧我正在使用 Hibernate 将一个小型数据库加载到一些表示表的类并与数据库交互一切都很好我真的可以看到所有结果而且我没有任何空字段所有这些都已被使用这里我展示了主类表 import javax persistenc
Google App Engine with Java - 运行 javac.exe 编译器时出错

在 Windows XP 上刚刚下载并解压谷歌应用程序引擎java sdk to C Program Files appengine java sdk 我已经安装了jdk C Program Files Java jdk1 6 0 20
防止 Spring Boot 注册 Spring Security 过滤器之一

我想禁用安全链中的 Spring Security 过滤器之一我已经看到了防止 Spring Boot 注册 servlet 过滤器 https stackoverflow com questions 28421966 prevent s
Java、Oracle 中索引处缺少 IN 或 OUT 参数:: 1 错误

您好我使用 Netbeans 8 0 2 和 Oracle 11g Express Edition 在 JSF 2 2 中编写了一个图书馆管理系统我有几个名为书籍借阅者等的页面以及数据库中一些名为相同名称的表我的问题是这样的
如何在远程 WebSphere 上进行 JNDI 查找期间解决 sun/io/MalformedInputException

我使用 WebSphere 8 5 来托管我的应用程序并在应用程序服务器上配置了一些 JDBC 资源我还使用瘦客户端运行时库开发了一个客户端应用程序当按以下方式执行 JNDI 查找时 env put Context INITIAL C
哪个 Swing 布局管理器可以获得我想要的布局？

我正在尝试按照这个模型制作一个基本的登录菜单我决定将整个菜单放入 JPanel 中以便在连接成功后我可以切换到另一个面板所以我决定使用 Borderlayout 将标题放在北区将连接按钮放在南区我将边框布局的中心本身设置为面板我
将过滤器添加到 Eclipse 中的 Project Explorer

我想向 Project Explorer 添加一个新的过滤器以向用户隐藏一些在 Eclipse RCP 应用程序中自动创建的项目到目前为止我已经找到了两个扩展点 org eclipse ui ide resourceFilters 允许
尝试使用 JRI 将 R 与我的 Java 应用程序集成，但出现错误。谁能解释一下原因和解决办法吗？

我需要将 Java 与 R 集成来运行一些数学命令并使用 R 的功能进行绘图以下部分代码给出了错误 public static void main String args HelloRWorld r new HelloRWorld r h
JFace ColumnWeigthData 导致父级增长

我有一个 Eclipse RCP 应用程序并且想要在TableViewer using ColumnWeigthData as ColumnLayoutData 问题是父表单 ScrolledForm在示例代码中每当我布局表格时都会增加
所有平台上的java

如果您想用 java 为 Windows Mac 和 Linux 编写桌面应用程序那么所有这些代码都相同吗您只需更改 GUI 即可使 Windows 应用程序更像 Windows 等等如果不深入细节它是如何工作的 Java 的卖点之
线程“main”中的异常 java.lang.StackOverflowError

我有一段代码但我无法弄清楚为什么它在线程 main java lang StackOverflowError 中给出异常这是问题 Given a positive integer n prints out the sum of the
从 @JsonProperty 值获取枚举常量

我有一个标有 JsonProperty 的枚举用于使用 Jackson 进行 JSON 序列化反序列化并且希望获取给定字符串 JsonProperty 的枚举值 public enum TimeBucket JsonProperty
异步迭代器

我有以下代码 while slowIterator hasNext performLengthTask slowIterator next 由于迭代器和任务都很慢因此将它们放入单独的线程中是有意义的这是对迭代器包装器的快速而肮脏的尝试
如何找到被点击的JLabel并从中显示ImageIcon？

这是我的代码我想知道哪个l单击然后在新框架中显示该 ImageIcon e getSource 不起作用 final JFrame shirts new JFrame T shirts JPanel panel new JPanel n
Android Gradle 同步失败：无法解析配置“：classpath”的所有工件

错误如下 Caused by org gradle api internal artifacts ivyservice DefaultLenientConfiguration ArtifactResolveException Could n
春季 CORS。在允许的来源中添加模式

查看CORS的弹簧指南以下代码启用所有允许的来源 public class MyWebMVCConfigurer extends WebMvcConfigurerAdapter Override public void addCorsMa
摩尔斯电码至英语

我现在的问题是让摩尔斯电码转英语正常工作将英语转换为莫尔斯电码的第一部分工作正常我知道以前已经有人问过这个问题但我不知道我做错了什么我知道我需要在某个地方进行拆分但我只是不确定将其放在代码中的何处现在莫尔斯电码到英语的部分
为什么范围为“provided”的依赖项会隐藏 Maven 中的传递依赖项？

我的 Maven 项目中有三个模块这稍微简化了 model包含JPA注释的实体类坚持实例化一个实体管理器并调用它的方法应用创建类的实例model 设置一些值并将它们传递给坚持 model and 坚持显然取决于javax persis

随机推荐

尝试将 CLI 登录到 Firebase 时出现“出现问题”

大约 2 年后我重新开始使用 Firebase 现在我在尝试将 CLI 登录到 Firebase 时遇到问题是的我已经安装了npm i g firebase tools 我已经尝试了 3 个不同的命令所有这些命令都会生成下面的图像之
WCF：配置已知类型

我想知道如何在 WCF 中配置已知类型例如我有一个Person类和一个Employee班级这Employee类是的子类Person班级两个类都标有 DataContract 属性我不想对类的已知类型进行硬编码例如将 Servi
xamarin 谷歌地图不工作

我使用以下链接创建了地图http developer xamarin com guides android platform features maps and location maps part 2 maps api http deve
在正投影中绘制世界地图给出“非有限点”

我有一个世界国家的形状文件从下载here http thematicmapping org downloads TM WORLD BORDERS 0 3 zip 我可以使用 R 在 R 中绘制它 countries lt readOGR
如何将异步函数传递给 Python 中的线程目标？

我有以下代码 async some callback args await some function 我需要将它作为目标传递给线程 thread threading Thread target some callback args som
查找返回的 mysql 结果中的行数（nodejs）

当使用 felixge 的 mysql for node js 时如何向结果对象询问返回的行数我有一个相当昂贵的查询所以我不想运行COUNT 首先只是为了第二次运行查询如果是选择查询则只需获取返回数组的长度即可 connecti
如何获取 Visual Studio 2017 的离线安装程序？

我最近尝试安装视觉工作室 2017 但没有离线安装程序如何获取它的离线安装程序我也尝试安装Xamarin 尽管我有最新的安卓软件开发工具包它要求我下载安卓软件开发工具包再次如何纠正提前致谢要生成离线安装程序您首先需要下载相应的
如何在 NetBeans 中执行“git Blame”？

NetBeans 内置了对 git 的支持我可以做一个git blame在 NetBeans 内如果是这样怎么办 I googled https www google nl search q netbeans git blame它但
为什么 Resources.Load 返回 null？

我的项目有多个精灵位于 Assets Sprites 中我想使用 C 脚本加载它们我已经测试过这个 Sprite myFruit Resources Load
使用服务器帐户模拟用户以访问其 Google 云端硬盘时出现 401 未经授权错误

我正在用 Java 编写一个后端进程它将模拟用户并在其 Google Drive 上添加删除文档服务器帐户似乎验证正确但是当我尝试冒充用户时我得到一个401 Unauthorized error 请参阅下面的详细信息配置我已配
Python：Tkinter Treeview 可搜索

相当直接的问题尽管我用了最好的谷歌搜索但我找不到任何相关内容我有一个 Python 应用程序它使用 Tkinter Treeview 小部件作为表格这对于我需要使用它的用途来说效果很好但最终会在一些树中出现几百个项目无论如何
如何将 NHibernate 和 DTO 与 RIA 服务结合使用

我将 NHibernate 与 RIA 服务和 Silverlight 4 一起使用我创建 DTO 来通过 RIA 服务传输数据而不是分发我的域层对象根据 Martin Fowler 的分布式对象设计第一定律不要分发您的对象 DTO
Azure 上的 Laravel 应用程序：用户“azure”@“localhost”的访问被拒绝

我正在将 Laravel 应用程序部署到 Azure Web 应用程序 Mysql 到目前为止我执行了以下步骤 1 在应用程序中激活Mysql 2 连接到 BitBucket 存储库并确保代码已同步 3 创建 env文件并设置数据库变量如下
android:clickable="true" 意味着它不可点击？

我有一个 ListView 其中包含一些自定义部分每个部分都有自己的标题视图我希望列表中的元素可单击但显然不希望节标题可单击所以在我添加的节标题的 xml 中android clickable false 调试时我注意到节标题仍然响
如何仅使用 XAML 标记在单击另一个控件时打开 WPF 弹出窗口？

我有两个控件一个 TextBlock 和一个 PopUp 当用户在文本块上单击 MouseDown 时我想显示弹出窗口我认为我可以使用弹出窗口上的 EventTrigger 来完成此操作但我不能在 EventTrigger 中使用设
在主窗体上使用 BeginInvoke 调用的网络任务未执行

我使用 Visual Studio 2013 构建了一个具有单个表单的 C 应用程序并且该应用程序有两个更新屏幕的例程更新屏幕的例程需要在主线程上运行因此我自己的线程不与屏幕交互在需要更新时调用主窗体上的 BeginInvoke
Lua中如何在另一个表的表成员中搜索

我正在编写一个 lua 程序它有一个表该表是另一个表的成员当我向该成员表添加新日期时一切正常但是当我想在该表中搜索时无论我给出什么键我总是会将最后一行添加到表中如何在该成员表中正确搜索 Stream name functi
防止 iOS 上的反射（objc/运行时）

我正在开发一个处理敏感数据的静态库使用该库的开发人员必须不能在该库上使用反射在Android上我们通过开发一个来解决这个问题aar文件与service并运行service进入单独的进程当服务运行到另一个进程中时开发人员不能使用反射
当用户在单元格中输入触发器时执行子例程

Excel 中的示例数据 A B C 1 9 5 2 4 y 3 3 1 9 4 66 4 5 5 9 我想做的是当我进入Y在 B 列中我想要一些东西执行我不认为If Active Cell Y将在这里工作因为当我进入Y然后按 E
如何对搜索引擎关键词进行聚类？

从 Google Analytics 中我有一个长关键字列表人们在搜索引擎中使用这些关键字来查找我的网站我想找到核心关键词假设的例子 java online training learning java scala train

如何对搜索引擎关键词进行聚类？

如何对搜索引擎关键词进行聚类？ 的相关文章

随机推荐

热门标签

如何对搜索引擎关键词进行聚类？的相关文章