
(第六期,2013年4月10日)
2013年4月10日下午,北京师范大学外文学院语言学沙龙在后主楼1020举行第六次活动。
本次沙龙邀请曲阜师范大学外国语学院秦洪武教授做报告,主题为“双语语料库:制作与应用”。秦教授从语料库的基本知识入手,步步深入,带领大家走进语料库的神秘世界。
报告主要包括五个方面:(一)语料库的基本特征。语料库是一系列结构合理的文本的集合,语料以txt、xml、html等方式存储;语料格式要具有一致性,不能有多余的空格或断行等;存储语料时要加Header,用以表示文本的元信息,如作者、语言、年代、体裁等。(二)语料库抽样——理论与抽样操作。建设语料库时,要注意语料库的平衡性和代表性;可采用分层抽样或随机抽样的方法选取语料;语料不需要是一个完整的文本,可使用小抽样,其功能性与大抽样是相同的。(三)文本处理。选取的语料可能存在不必要的空格、软回车、硬回车等现象,会影响语料的规范,因此首先要进行去噪处理。可利用的工具包括Microsoft Word中的宏、EditPlus、Headadder等,其中EditPlus可打开所有文件并一次性替换所有不规范格式,Headadder不仅能够对文本进行去噪处理,还可以为文本加上显示元信息的Header。(四)双语语料库的对齐。语料库中的对齐方式包括段对齐、句对齐以及段对齐中的句对齐,可使用的对齐软件有Paraconc、Bitext2tmx、wordfisher等,其中Paraconc可处理英汉文本,同时具有对齐和检索功能,是使用最广、最方便的软件。(五)语料库赋码。语料标注包括自动标注和手工标注,前者一致性和准确性差,后者费时费力,但准确性高。因此,为确保语料库的准确性和一致性,可以使用半自动标注软件,辅以人工检查。
语料库为语言研究提供新的思维视角,通过大量真实语料的研究可以减少主观性和片面性。秦老师的报告使大家对语料库的制作有了深入的认识,大家的学习热情都很高涨。在以后的学习中,大家可以根据研究需要尝试建立自己的语料库。
(刘玉洁 张冉冉 报道)
本次活动参加人员:召集人——张树堂
安昊,白丽娜,陈玉娟,崔冬梅,丁振琴,高灵芝,高淼,高璇,郭辰,郭菲,黄婷,鞠志勤,李红霞,李兆娜,刘国庆,刘玉洁,苗兴伟,彭宣维,齐豪杰,孙静,孙哲,谭波,唐娇梅,陶延华,王海波,卫昭慧,夏竞成,解敏,解素伟,叶敏,于爽,张宏钰,张妮,张冉冉,张树堂,张政,赵晶,赵倩莹,周今由