国外个主流语料库使用

更新时间:2024-04-08 01:32:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

1. The Complete Lexical Tutor http://www.lextutor.ca/

参考期刊网上刘玉山,胡志军的介绍。

是一个语料库中心词索引软件(concordancer),加拿大魁北克大学Tom Cobb the University of Quebec at Montreal (UQAM), 开发

三部分:learners, researchers, teachers自我学习,研究,教师命题。

特别是concordance中有13个语料库为检索对象。还可以用来对学生作文中的用词分析。 http://www.lextutor.ca/concordancers/concord_e.html

可以同时提供多个语料库的在线搜索,但缺点是每次只能对一个文本加工。

2. BNC

2014年开始,免费获得,通过BYU的申请。

British National Corpus

一亿词,书面语90%,口语10%,共4124篇文本,从1980到1993年的语料

英国牛津出版社﹑朗文出版公司﹑钱伯斯—哈洛普出版公司﹑牛津大学计算机服务中心、兰卡斯特大学英语计算机中心以及大英图书馆等联合开发建立的大型语料库 共有七类

口语spoken,小说fiction,流行杂志magazine,报纸newspaper和学术期刊academic 还有COCA分类中没有的两类 non-academic, miscellaneous

second edition BNC World (2001) third edition BNC XML Edition (2007)

extracts from regional and national newspapers, specialist periodicals and journals for all ages and interests, academic books and popular fiction, published and unpublished letters and memoranda, school and university essays, among many other kinds of text 通常可进入的那个链接是BYU, 美国杨百翰大学提供的

BYU大学在2012年对语料库经行了重新附码,用的CLAWS 7

3. COCA: the corpus of contemporary American English Brigham Young University 美国犹他州杨百翰大学 Doctor Mark Davies

3.6亿, 1990-2007年间,美国国内各种语料

口语spoken,小说fiction,流行杂志magazine,报纸newspaper和学术期刊academic共五类语料来源

且持续更新中,每年以2000万词递增,目前到1990-2012,共4.5亿词

Display:显示方式,compare选项可以用来比较两个词的搭配区别,排列方式选择relevance相关度

标记了语料的时间,便于研究语言历时与共时的变化 教学中相关用法

查找同义词,如 [=scold].[V*]表示查找所有scold的同义词

查找某一话题的词汇,如 flower.[N*],表示查找与花有关的词汇,如果需要查找更为专业的词汇,就利用互信息。 查找某一词汇的语体分布

查找词汇的搭配 如 [head].[v*] up表示head作为动词搭配up

4. 同时BYU提供在线搜索的其他语料库,例如 Time Magazine Corpus, Corpus of American Soap Operas, Google Books , 可以以后继续学习。

5. 布朗家族语料库

第一个Brown 创建于60年代,美国布朗大学 500个文本,每个2000词,共一百万词,文本来源于1961年美国出版物。

our broad genres refer to newspaper texts (A-C, 88 texts), miscellaneous informative prose or general prose (D-H, 206 texts), learned and scientific English (J, 80 texts), and fictions (K-R, 126 texts), cf. http://icame.uib.no/archives/No_5_ICAME_News_index.pdf)

第二个LOB ,创建于79年代,LOB语料库创建时间:1970年代初创建单位:G. Leech (Lancaster大学),S. Johansson (Oslo大学)和K. Hofland (Bergen大学) 三方协同,依据布朗语料库的模式,建起了“兰开斯特—奥斯陆/卑尔根语料库”(The Lancaster-Oslo / Bergen (LOB) Corpus)。英国Lancaster大学和挪威Oslo大学以及Bergen大学规模层级:100万词次基本情况:研究当代英国英语,与美国英语对比,The Lancaster-Oslo/Bergen Corpus (LOB)

第四Frown和Flob是德国Freiburg大学分别按照原来Brown和LOB语料库抽样方案而建成的1991年的美国英语和英国英语语料库。

第五个是Crown_CLOB语料库是由北京外国语大学中国外语教育研究中心的许家金副教授和梁茂成教授于2012年建成的通用语料库。

语料库 语体 子库容量 总库容 小说 259467 Brown 1961 通用 423160 学术 163309 新闻 181085 小说 260414 Frown 1992 通用 421933 学术 163228 新闻 181748 小说 259250 Crown 2009 通用 422799 学术 163197 新闻 180980

因此Crown有700个文件,CLOB有744个文件

6. LOCNESS

1026226 CLOB 2009 1027323 FLOB 1991 1027021 LOB 1961 语料库 语体 子库容量 总库容 小说 258722 通用 418137 学术 162322 新闻 179604 小说 260664 通用 419990 学术 163286 新闻 180703 小说 259484 通用 421163 学术 163139 新闻 179680 1023466 1024643 1018785

7. BAWS

8. BFSU CQPweb多语言在线语料库检索平台

CQPweb是开源的四代语料库分析工具。CQPweb的主要特点是:1、将语料库与分析工具合二为一;2、支持多语种语料库的分析;3、运用了索引技术,检索速度大大快于单机版语料库;4、充分利用语料库的元信息,提供更多呈现语料分析结果的呈现方式。CQPweb可以实现WordSmith Tools等三代语料库软件的绝大部分功能。

概括说来,CQPweb可以实现以下功能。

(1)在线生成语料库的词频表(frequency list);(2)查询(query)字词、语言结构等,以获取大量语言实例或相应结构的出现频次(frequency),并可以按语体、年代、章节、学生语言水平级别、写作题材等分别呈现查询结果。(3)计算特定词语在语料库中的典型搭配(collocation);(4)计算语料库中的核心关键词(keywords),等。

有老友记的,时代周刊, China Daily等,其他的语料库,不足的是,时代周刊等不全,都只是部分年份的文本。

BYU大学时代周刊语料库(1923-2006) http://corpus.byu.edu/time/ 库容量1亿词

本文来源:https://www.bwwdw.com/article/9irr.html

Top