使用 Hadoop MapReduce 的计算语言学项目构想

2024-04-19

我需要做一个关于计算语言学课程的项目。是否有任何有趣的“语言”问题,其数据密集程度足以使用 Hadoop MapReduce 来解决。解决方案或算法应尝试分析并提供“语言”领域的一些见解。但是它应该适用于大型数据集,以便我可以使用 hadoop。我知道hadoop有一个python自然语言处理工具包。


如果您拥有某些“不寻常”语言的大型语料库(即“已对其执行了有限数量的计算语言学”),请重复一些已针对非常流行的语言(例如英语、中文、阿拉伯语,...)是一个非常合适的项目(特别是在学术环境中,但它也可能非常适合工业界——当我在 IBM 研究中心从事计算语言学工作时,我通过整理一个语料库获得了有趣的成果意大利语,并重复 [[在罗马相对较新的 IBM 科学中心]] 与约克敦高地的 IBM 研究团队 [[我曾参与其中]] 已经为英语所做的工作非常相似。

艰苦的工作通常是找到/准备这样的语料库(这绝对是我当时工作中最重要的部分,尽管意大利 IBM 竭尽全力帮助我与拥有相关数据的出版公司取得联系)。

因此,这个问题迫在眉睫,只有您才能回答:您可以访问或可以获得哪些语料库(并进行清理等),特别是在“不寻常”的语言中?如果你所能做的就是,例如英语,使用已经流行的语料库,那么做新颖有趣的工作的机会当然会更难,尽管当然可能有一些。

顺便说一句,我假设您正在严格考虑处理“书面”文本,对吗?如果你有一个语料库spoken材料(理想情况下with好的成绩单),机会将是无穷无尽的(在处理口语文本方面的工作要少得多,例如,在同一书面文本上参数化不同母语人士的发音变体——事实上,这些问题通常甚至不是提及在本科 CL 课程中!)。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Hadoop MapReduce 的计算语言学项目构想 的相关文章

随机推荐

  • IE7
  • 悬停之外的项目符号/数字
  • 此处的另一篇文章的后续内容 IE7 li 项目符号或数字显示在 div 外部 https stackoverflow com questions 6076730 ie7 li bullet or number shown outside o
  • 在大型 C++ 遗留应用程序中查找“死代码”[关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我目前正在开发一个大型且古老的 C 应用程序 在我之前已有许多开发人员 项目中有很多 死代码 类和函数
  • PostgreSQL 序列的下一个值?

    我的 Codeigniter 网站使用 PostgreSQL 我正在使用杂货杂货进行添加 编辑和删除操作 在进行编辑或添加时 我想根据内容的 ID 动态重命名上传的文件 我可以使用杂货做到这一点callback after upload功能
  • Python 中的嵌套函数如何工作?

    def maker n def action x return x n return action f maker 2 print f print f 3 print f 4 g maker 3 print g 3 print f 3 st
  • 嵌入.Net运行时

    我是否可以嵌入 net 运行时 以便主机操作系统不需要 net 我正在考虑用 Mono 来做到这一点 如下所示 http mono project com Embedding Mono http mono project com Embed
  • 创建具有任意数量参数的 python lmfit 模型

    有没有办法根据具有任意数量因变量的函数构建 lmfit 模型 例如 from lmfit import Model def my poly x params func 0 for i in range len params func par
  • 如何在 Core Data 上下文之外使用 Core Data 模型子类?

    我正在尝试在 Swift 中制作一个天气应用程序 它将保存我添加到核心数据的城市 每个城市都包含一个天气对象 该对象也保存到核心数据和其他各种变量 但我很快就发现 在 Core Data 上下文之外使用 Core Data NSManage
  • Tensorflow 版本与 Tensorboard 版本

    我想问一下tensorflow版本是否可以与tensorboard版本不同 我有个问题 404 problem 有人建议安装一个新版本的张量板 https github com tensorflow tensorboard issues 9
  • 通过 Android 应用程序安全地使用 Google Plus 登录 Web 应用程序

    我正在开发一个 Android 应用程序 我希望用户使用 Google 登录来登录我的应用程序 目前 我在 PHP 登录脚本中传递从 Google 获得的用户名 该脚本使用用户 ID 加载新会话 目前 该网站非常不安全 任何知道其他用户用户
  • 如何在jstl中使用三元运算符编写if else条件?

    我想在 JSTL 中使用三元写一个 if else 条件 我是用jsp做的 我的代码使用jsp 我怎样才能使用jstl实现它 你的意思是表达语言 https stackoverflow com tags el info 简称 EL 因为这是
  • Maven 程序集插件未使用 FinalName 进行 Attach=true 安装?

    我配置了以下程序集
  • 在 bash 脚本中期望

    我正在尝试将 Expect 脚本实现到 bash 脚本中 请耐心等待 因为我对 bash expect 还很陌生 这是按预期工作的期望脚本 log user 0 file delete foo txt set fh open foo txt
  • 什么是列表与数组列表? [复制]

    这个问题在这里已经有答案了 这两个对象之间的根本区别是什么 是不是效率更高 还有更多方法吗 List是接口 而ArrayList是类 See 数组列表 https docs oracle com javase 8 docs api java
  • Jquery 无法在加载的内容中工作

    它似乎有一个简单的解决方案 但我还无法弄清楚 有一千个类似的主题 但没有一个对我有用 所以我以一种非常简单的方式问这个问题 我有一个按钮 假设按钮 A 我想在单击此按钮时加载外部页面的一部分 加载该部分后 有另一个按钮 B 在加载的内容内
  • Vim 滚动时保持光标位置

    有没有办法在滚动时使 Vim gVim 中的 cusror 位置保持在屏幕外 与许多 Windows 编辑器类似 我了解标记 并且确实使用它们 我也知道 标记 最后编辑位置 但正在寻找其他想法 我问这个问题是因为有时我想将光标保留在某个位置
  • Symfony2:--重新安装问题

    我一直在尝试为 Symfony2 安装 Buzz 我将其添加到 deps 文件中 并尝试更新我的供应商 php bin vendors update 该命令只是告诉我我已经安装了标准版本 并且我应该尝试使用 php bin vendors
  • 使用三个 JS 和 React JS 加载 GLTF 模型

    我使用 React JS 加载从 sketchfab 下载的 GLTF 文件时遇到问题 当我尝试在不使用React 使用常规index html和index js 的情况下执行此操作时 它可以工作 但是当我将代码带入React应用程序时 它
  • 使用 Ember.js 为每个模型添加额外的 url 参数

    我有两个模型 App Providers DS Model extend name DS attr string description DS attr string logo DS attr string products DS hasM
  • Get-AzureWebsite:找不到请求的值“动态”

    我们有一组使用 Azure powershell cmdlet 的自定义 powershell 模块 它们已经正常工作一年多了 我刚刚设置了一台新计算机 每当我尝试运行 Get AzureWebsite 时 我都会收到以下错误 PS C W
  • 使用 Hadoop MapReduce 的计算语言学项目构想

    我需要做一个关于计算语言学课程的项目 是否有任何有趣的 语言 问题 其数据密集程度足以使用 Hadoop MapReduce 来解决 解决方案或算法应尝试分析并提供 语言 领域的一些见解 但是它应该适用于大型数据集 以便我可以使用 hado