(续上篇)
乐耀:您跟信息学界联系很多?
王洪君:的确如此。不仅跟汉语语音信息处理学界有密切的联系,注意吸收他们新的研究成果,还两次参与了跟文本自动分词有关的信息处理的工作,这主要是跟属于语法层次的汉语的“词”和词库有关。
第一次是参加由当时还在北工大人工智能所任所长的宋柔老师领衔的“两字结构库”项目的一个下级小课题,是宋柔老师看到我的《从字和字组看词和短语》那篇文章后邀请我参与的,希望能够解决两字结构收词库而引发的新问题——引发了机器自动切分结果的歧义切分大量增多。他把他们科研的最新成果,包括大规模无标记语料库,自动切分后的所有歧义切分库,按五种结构分别统计的两字结构的前接字、后接字频率统计库,还有各种检索统计工具。我和我当时的硕士生梁源有一年多时间在这些资料、工具和数据库中反复游荡,在数据库中加各种新的分类属性,根据这些属性重新做各种排序,最后终于提出了一个解决方案。这就是梁源的硕士论文。估计,我们的方案还是太书生气,大约是很难直接运用到自动分词的工程上。不管怎样,通过这些工作,我们对于汉语“词”的复杂性、自由生成性以及某些虚词和特别高频词在两字组合中的特殊性有了充分的实际感受。
第二次是参加由清华计算机系主任孙茂松老师领衔的国家社科重点项目《信息处理用现代汉语通用词表》的研发工作。信息处理用词表比各种语文词典所收的词条都多,孙老师用自己设计的软件在10亿字节的大语料库中跑,得到了各词条同形之字串的出现频率(串频,不等于词频),并把各词条初步分为7个子库:单字词库、带字母词库、普通词库、专名库、常用接续库、成语库、俗语库。记得我们的主要任务是:①根据大语料库的随机抽样计算跨层非实际接续的比例并估算各词条的真实词频并提出非词;②根据估算的真实词频将词条分加注一级常用、二级常用的频率特征;③加注三音节以及以上词条的层次属性,主要是音节组合紧密度是1+2还是2+1,还是2+2;④加注词条的层次属性,主要标是否述宾、述补结构。在这些工作中,更加体会到汉语字本位理论的合理性。
王洪君老师在青海湖
第六个领域就是语篇研究了,这是你的主要领域。前面介绍过我很早就接触并长年教授韩礼德功能语法导论,而韩礼德是当代语言学界从事语篇研究的开创者。这个领域其实应该与我第二个接触的领域合并。但是我接触虽然非常早(年),研究成果却又最晚,非常晚(年);放在一起谈不方便,就分开来谈吧。
我在语篇方面的研究,一个是纯语法的《“了2”与话主显身的主观近距交互式语体》()。这个题目我白癜风是否传染用什么药白癜风是否可以根治
转载请注明地址:http://www.djehdnde.com/wbnr/9561.html