语料库
![](https://img-blog.csdnimg.cn/20201020182633515.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NlcmVhc3Vlc3Vl,size_16,color_FFFFFF,t_70)
定义 :语料库(corpus)就是存放语言材料的仓库(语言数据库)
语料库技术的发展
早期:语料库在语言研究中被广泛使用:语言习得、方言学、语言教学、句法和语义、音系研究等
沉寂时期:1957年Chomsky 的《句法理论》及其以后一系列著作的发表,根本改变了语料库语言学的发展状况。Chomsky 及其转换生成语法学派批判早期的语料库研究方法
复苏与发展时期:
特征之一:第二代语料库相继建成
1983年英国Lancaster 大学建成Lancaster-Oslo / Bergen Corpus (LOB语料库): 研究英国英语,500 语篇,每个语篇约2000词。
法国国家科学研究中心与美国芝加哥大学联合建成法语语料库(Tremor de la Langue Francaise, TLF语料库):2000书面法语文本,1.5 亿词
芬兰赫尔辛基大学建成历史英语语料库(The Helsinki Corpus of Historical English):850-1720年, 1600万词。
1988年伦敦大学建成国际英语语料库(The International Corpus of English, ICE): 语料来自所有英语国家,各100万词,1990-1993年,口语和书面语各一半,18 岁以上接受英语教育的成人。
特征之二:基于语料库的研究项目增多
语料库的类型
按内容构成和目的划分(4种类型)
异质的(heterogeneous)-[黄昌宁,2002] 最简单的语料收集方法,没有事先规定和选材原则。
同质的(homogeneous) 与“异质”正好相反,比如美国的TIPSTER 项目只收集军事方面的文本。
系统的(systematic)充分考虑语料的动态和静态问题、代表性和平衡问题以及语料库的规模等问题。
专用的(specialized)如:北美的人文科学语料库
按语言种类划分
- 单语的
- 双语的或多语的 篇章对齐/ 句子对齐/ 结构对齐
是否标注?
-具有词性标注
-句法结构信息标注(树库)
-语义信息标注
语料库建设中的问题
语料库设计需要考虑的问题 静态和动态
平衡和非平衡
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)