【资源】免费的英汉词典数据库
分享一个免费的英汉词典数据库,链接如下:
https://github.com/skywind3000/ECDICT
简介
这是一份英文->中文字典的双解词典数据库,根据各类考试大纲和语料库词频收录数十万条各类单词的英文和中文释义,并按照各类考试大纲和词频进行标注。
最初开发看书软件时需要给软件添加一个内嵌字典,在网上找到了一份别人提供的 EDictAZ.txt 的文本文件,里面有差不多两万英文单词的释义,于是开始用这个文件来提供字典查询,用着用着不够用了,又找到一份四六级到 GRE 包含释义的词汇表,但是缺少音标,于是写了个爬虫从各种资料里面把音标给爬下来,外加自己补充了一些组成了一份三万基本词汇的数据库。
其后数年根据各种资料和网友贡献词库增长到 10 万左右,又找到 Linux 下面的 cdict-1.0-1.rpm 这个开源字典数据(mdict 的主词库也是根据 cdict 转换得到),并按照英国国家语料库的前 16 万单词进行校对,补全很多语料库里词频较高但是却没有收录的词条。
单词标注
给数据库中每个单词标注:是否是各类考试大纲词汇?以及他们在 BNC 和其他语料库里的词频顺序。BNC 词频统计的是最近几百年的历史各类英文资料,而当代语料库只统计了最近 20 年的,为什么两者都要提供呢?
很简单,quay(码头)这个词在当代语料库里拍两万以外,你可能觉得是个没必要掌握的生僻词,而 BNC 里面却排在第 8906 名,基本算是一个高频词,为啥呢?可以想象过去航海还是一个重要的交通工具,所以以往的各类文字资料对这个词提的比较多,你要看懂 19 世纪即以前的各类名著,你会发现 BNC 的词频很管用。
而你要阅读各类现代杂志,当代语料库的作用就体现出来了,比如 Taliban(塔利班),在 BNC 词频里基本就没收录(没进前 20 万词汇),而在当代语料库里,它已经冒到 6089 号了,高频中的高频。
BNC 较为全面和传统,针对性学习能帮助你阅读各类国外帝王将相的文学名著,当代语料库较为现代和实时,以和科技紧密相关。所以两者搭配,干活不累。
经过标注后,你查任何一个单词,都会告诉你这个词汇是不是四六级词汇?雅思词汇?柯林斯星级是多少?是否是牛津 3000 核心词汇?传统词频和现代词频各是多少?这样单词的重要程度你就能了解个大概了。
其次是标注动词的各个时态,每个动词有现在分词,过去式,过去分词,第三人称现在时等四种时态,用 NodeBox 和 WordNet 工具包可以方便的查询每个动词的变化形式,如此你查单词时能够给你显示出来各种变体,同时将这些变体作为新的生词再次加入到字典中,大部分字典都没法查询动词的各种时态,ECDICT 可以让你方便的查询一万多个动词(几乎所有动词)的所有派生词。
数据格式
采用 CSV 文件存储所有词条数据,用 UTF-8 进行编码,用 Excel 的话,别直接打开,否则编码是错的。在 Excel 里选择数据,来自文本,然后设定逗号分割,UTF-8 编码即可。
字段 | 解释 |
---|---|
word | 单词名称 |
phonetic | 音标,以英语英标为主 |
definition | 单词释义(英文),每行一个释义 |
translation | 单词释义(中文),每行一个释义 |
pos | 词语位置,用 “/” 分割不同位置 |
collins | 柯林斯星级 |
oxford | 是否是牛津三千核心词汇 |
tag | 字符串标签:zk/中考,gk/高考,cet4/四级 等等标签,空格分割 |
bnc | 英国国家语料库词频顺序 |
frq | 当代语料库词频顺序 |
exchange | 时态复数等变换,使用 “/” 分割不同项目,见后面表格 |
detail | json 扩展信息,字典形式保存例句(待添加) |
audio | 读音音频 url (待添加) |
提供一段 Python 程序来读取这些数据,可以用它转换到 SQLite 和 MySQL 的数据库里,方便你用更高级的方法筛选查询。词条数据大小写不敏感,不论从查询还是排序,还是编程接口。
词形变化
某个动词的各种时态是什么?某个形容词的比较级和最高级又是什么?某个名词的复数呢?这个单词是由哪个单词怎么演变而来的?它的原型单词(Lemma)是什么?
可能大家注意到上表有一个 Exchange
字段,它就是来做这个事情的,这是本词典一大特色之一,格式如下:
类型1:变换单词1/类型2:变换单词2
比如 perceive 这个单词的 exchange 为:
d:perceived/p:perceived/3:perceives/i:perceiving
意思是 perceive 的过去式(p
) 为 perceived,过去分词(d
)为 perceived, 现在分词(’i’)是 perceiving,第三人称单数(3
)为 perceives。冒号前面具体项目为:
类型 | 说明 |
---|---|
p | 过去式(did) |
d | 过去分词(done) |
i | 现在分词(doing) |
3 | 第三人称单数(does) |
r | 形容词比较级(-er) |
t | 形容词最高级(-est) |
s | 名词复数形式 |
0 | Lemma,如 perceived 的 Lemma 是 perceive |
1 | Lemma 的变换形式,比如 s 代表 apples 是其 lemma 的复数形式 |
这个是根据 BNC 语料库和 NodeBox / WordNet 的语言处理工具生成的,有了这个 Exchange ,你的 App 能为用户提供更多信息。
词典使用
同时支持 CSV, SQLite, MySQL 三种格式,github 上放的字典数据是 .csv,因为基于文本,便于 PR 和更改看 differ,但是本地使用 csv 很痛苦,文件大了打开速度很慢。所以自己使用时,一般都是转换成本地的 SQLite 数据库,这样快速很多,基本没有等待,查单词也很迅速。
日常使用,比如整理自己的卡片,生成 anki 数据等,SQLite 是首选,stardict.py 中提供完整的 SQLite 字典接口。如果自己要修订,建议先新生成一个比较小的 .csv,配合本地的大的 SQLite .db 数据库一起用,查一个单词时先查小的 .csv 里面有没有,没有的话再去查 SQLite 的库去,这样现在 .csv 里面把修订的工作干了,自己用一段时间没大问题,数据比较稳定的时候,一次性从 .csv 中合并到大的 SQLite 数据库中。 不合并也行,同时使用两个库。
如果你要提交 PR,可以把你的整个 SQLite 数据库导回 .csv 格式,然后在网上提交 differ 或者 patch。本地可能有多个 SQLite 数据库,一个就是这个 ECDICT 的数据,一些可能是你从其他什么某些资料里面导出来的比较好的释义例句等,就是你日积月累整理收集的各种材料。
生成 Anki 卡片的时候,你可以优先使用你自己的库的信息,你自己的库里没有了,再找 ECDICT。而 ECDICT 里面的各种词频标注,考试大纲标注,也可以给你提供不同层次的参考。比如你想把托福里面去除六级的词汇筛选出来(很多重合),这时 EDICT 本身的标注信息就能让你方便的完成这个工作了,你也可以把词频三万以下的单词导出来成为 Excel,进行更多处理。
最新版数据太大,我已经把数据库压缩成 stardict.7z 了,外面默认的 ecdict.csv 算是一个基础版本(76 万词条)。