旧版网站入口

站内搜索

“现代汉语计量语言学研究”中期检查报告

2014年02月21日08:59来源:全国哲学社会科学工作办公室

一、研究计划总体执行情况及各子课题进展情况

1. 研究计划总体执行情况

自立项以来,课题组积极、认真开展研究活动。截止到2013年8月,基本完成了本时间段原定的研究计划。具体来说,(1)完成了用于开展研究的“多语体现代汉语语料库”“汉语历时语料库”“汉英平行语料库”“依存语法树库”“汉语(句法)网络”等语言数据资源库的构建和部分数据统计、分析工作;(2)完成了大量文献调研工作,尤其是计量语言学重要文献的收集整理、翻译、校订等,已完成两部译著;(3)设计并实施了多种共计近1500人次的心理语言学实验;(4)在上述基础上开展研究,已发表10余项阶段性研究成果,其中大多数成果发表于国内外高水平学术期刊,被SCI、SSCI、A&HCI等检索系统收录的论文达到6篇。

目前,本课题的多个研究方向均处于紧锣密鼓的研究阶段,预计会产生不少高水平成果;部分研究方向在完成既定研究计划后,将针对研究过程中遇到的问题进行调整、补充,继续深入追踪相关问题,或增加新的研究方向。

就课题研究计划来说,已经完成的工作和取得的成果相对较多、质量较好。一方面,这说明课题组态度积极、工作努力,采用的研究方法科学、高效,能够在跨学科语言研究方面取得有价值的新发现;另一方面,也说明本课题研究还有很大的拓展空间,值得继续努力,深入开展研究。下面分子课题具体介绍研究进展情况。

2. 子课题一“现代汉语文本的计量研究”进展情况

子课题一的研究主要基于词典数据和文本(包括口语转写文本)。目前已经建立了一个涵盖12种语体的百万字规模的“现代汉语多种语体文本语料库”,并在此基础上开发了一系列计算机程序,形成了一个面向计量语言学研究的语言结构特征数据库。虽然在语料规模、样本代表性与多样性等方面还有待加强,但是其架构与内容、计算方法与工具等,除了能够满足既定研究的需要外,还在一定程度上为开展其他层面的汉语计量语言学研究奠定了基础。

除资源建设外,该子课题主要开展了汉语语音、词长、词长与词义关系、词性、词频、词汇丰富程度等词汇层面的计量研究,以及基于词汇层面语言结构的语体计量研究和历时研究。以下前四项研究已经发表或已录用待发表,后三项研究处于论文写作、修改阶段。

(1)汉语语音计量研究,详见“代表性成果简介”第2项。

(2)汉语词长与词义关系研究。基于《人民日报》和《现代汉语词典(第五版)》(动静结合)的词长分布与词长-词义函数关系研究发现:第一,汉语最大限度的实现了经济原则,即在不扩大单字符字库的情况下,最大程度使用最短组合(两字词);第二,词长分布一方面具有共性,如汉语词长的静态、动态词型(type)、动态词例(token)都符合Positive Cohen-negative Binomial分布,另一方面,动态词例具有特殊性,除了符合Positive Cohen-negative binomial分布,与Dacey-negative Binomial分布的拟合度更高。该函数的特点在于,它融合了Dacey-泊松、伽马、贝塔3种分布。虽然共同属于Negative Binomial分布的衍生形式,但较之Positive Cohen-negative Binomial分布更为复杂。此语言学现象结合统计学理论可解释为,静态与动态语料的最大区别就在于频率因素,而语境需求、语义明确化、词汇多样化、语言编码解码最优化、传输准确性保障都在频率中有所体现。在频率的影响下,词长呈现了更复杂、多融合性的分布特点、表现出不同于静态分布的特殊性质;第三,词长-词义双向数量关系在动、静态条件下都符合幂律函数,即词长越长所承载词义越少,词长越短多义程度越高。

(3)汉语兼类词计量研究。基于《现代汉语词典(第五版)》的词性计量研究,在汉语学界首次给出汉语词汇兼类的全部模式,首次提出新的语言学概念——词性兼类度(Polyfunctionality),即词汇所能承载的词性数量,并得出其词例和模式层面的分布规律。研究了兼类词形成的原因,并从语言学理论角度进行了解释,即:汉语词汇产生了功能性变体,却由于缺乏形态变化而保持了原本词形。该研究创新性地列出12种词性的兼类度分布,发现其图形呈双曲线。该成果已被国际计量语言学权威刊物Journal of Quantitative Linguistics录用,该刊为SSCI与A&HCI收录期刊。

(4)汉语词汇结构的协同研究,详见“代表性成果简介”第3项。

(5)汉语词频分布研究。基于多语体文本语料库的汉语词频分布规律研究发现,汉语文本中词频符合Zipf分布、Zeta分布、Zipf-Mandelbort分布、Negative Hypergeometric分布、Waring分布、Hyperpoisson分布等规律;词频谱符合Zeta分布、Zipf-Mandelbrot分布、Waring分布、Yule分布、Johnson-Kotz分布等规律。汉语文本中的词频(谱)分布规律与其他语言相比没有特殊性。

(6)汉语语体词汇丰富性研究。基于词频(谱)的词汇丰富性计量研究发现,词频分布规律中的参数、词频指数、词频几何学指标、词频熵和重复率指标等,在不同语体中具有不同的计量特征,即这些指标可以用于区别不同语体。不同指标在区别不同语体方面具有显著差异。

(7)汉语新诗形式的计量研究。基于不同时期的诗歌语料开展了历时研究,从单现词(hapax)、N元组、词汇丰富程度(包括型例比TTR、词频指标h点和a指数、洛伦茨曲线、基尼系数等)、词频熵等角度,对不同时期的诗作文本进行计量描写与比较,初步发现了一些能够体现汉语新诗特征的计量指标。

3. 子课题二“现代汉语句法计量研究”进展情况

该子课题已经基本完成了“汉英平行语料库”“汉语历时语料库”“依存语法树库”“汉语(句法)网络”等研究资源的构建工作,并在此基础上开展了汉语配价的协同特征、人类语言句中信息分布研究、汉语多层级系统、汉语句法历时比较、汉语文体比较、英汉句法比较、依存句法网络特性及其在语言类型学领域的应用等方面的研究。详细进展情况如下:

(1)汉语句法历时演化研究。以唐前、唐五代、宋代、元明、清代和现代六个汉语依存树库为基础对汉语句法的演化进行了一些计量研究。就句法功能的词类构成而言,主语、定语以及“的”字补足语的词类构成具有较大的历时变化。其他句法功能的词类构成相对变化较小。就词类的句法功能来看,除了形容词之外,其他词类的主要句法功能历时变化不大。汉语的演化过程,支配词居后这个词序逐渐占据了主导的地位。与此同时,汉语的平均依存距离持续增加,意味着句法结构变得更为复杂。这与定语关系以及状语关系所占比例的持续增加可能密切相关。而“的”字补语关系以及量词补语关系的大量出现可能体现了人们用以应对这种复杂度增加的某种认知策略。该研究立足于真实语料,以定量的方式清晰的展示了所研究语料在历时维度上的句法变化。目前有关该研究的论文正在写作与修改中。

(2)汉语句法语体比较研究,详见“代表性成果简介”第3项。。

(3)英汉句法比较研究。以《中国日报》英汉双语平行新闻语料为基础,进行了分词、词性标注、依存关系句法标注,从而构建了英汉双语依存句法树库。在此基础之上,对两个树库中词类、词类频率、主要依存关系频率、依存距离、依存方向、依存关系构成、词类句法功能以及特殊结构等方面进行了计量研究,获得了大量反映了英汉两种语言句法层面差异与相似之处的定量数据。这一研究从整体上更精确地把握了英汉句法差异。传统的语言对比研究大都基于直觉内省或简单例句的分析讨论,这往往难以全面地概括不同语言的结构特点。以经过标注的真实语料为基础,借助定量的研究方法对不同语言进行对比分析,有助于从语言整体的角度更清楚、更准确地观察语言的共性以及不同语言的特殊性。此外,我们并未止步于这些数据的描写,而是结合其他语言学科的相关理论就英汉对比研究所获得的数据进行了语言学分析与讨论,提出了能够解释这些差异的可能原因。目前该研究的相关论文正在撰写中。

(4)句法复杂网络研究。基于句法复杂网络的类型学研究成果已发表于国际语言学SSCI、A&HCI期刊和国内自然科学综合类顶级期刊《科学通报》(SCI收录)之上,详见“代表性成果简介”第7、8项。此外,我们也进行了句法复杂网络作为语体分类知识源的研究,基于6种语体的句法树库构建了6个依存句法网络,对这些网络的边数、节点数、节点平均度、聚类系数、平均最短路径长度、网络中心势、直径、节点度幂律分布的幂指数、度分布与幂律拟合的决定系数等整体特征进行了对比分析。以这些整体特征为变量,采用欧几里得的“最短距离”法,对这6种语体的句法网络进行了聚类分析。研究结果显示,通过一些网络的主要参数,即网络节点数、聚集系数、平均路径长度、中心势以及节点度幂律分布的幂指数,可以对所研究的文本进行分类。与传统的文本聚类方法相比,其结果更容易从语言学的角度进行合理的解释。该研究成果已发表于国内刊物《计算机工程与应用》2013年第8期。

(5)汉语动词配价的协同特征研究。以汉语依存树库和(《现代汉语词典(第五版)》)为基础,抽取出动词的配价信息,对汉语动词配价的协同特征进行研究,结果发现:汉语动词的补足语形式分布和动词的多义度分布遵循一定的规则,动词配价及其序之间的关系遵循幂律分布。同时,汉语动词的多义度、词长、频率、多文度与配价之间的关系表现为:第一,汉语中动词的多义度越大,配价越大;第二,汉语动词的词长越短,配价越大;第三,动词出现的频次越高,配价越大;第四,多文度越大,配价越大。为了找到最适合测量汉语词长的单位,引入了体现汉语书面特点的“笔画”和“部件”,提出并验证了关于汉语动词笔画数的系列相关假设:第一,动词部首的笔画数越多,整个汉字笔画数越多;第二,动词的笔画数越少,多义度越大;第三,动词词长越短,笔画越少;第四,动词的笔画越少,出现频率越高;第五,动词的笔画越少,配价越大。将笔画数、部首数与体现汉语口语特点的拼音字母数相对比,我们认为汉语的拼音字母数更适合测量汉语词长。这项研究已被国际计量语言学权威刊物Journal of Quantitative Linguistics录用,该刊为SSCI与A&HCI收录期刊。

(6)基于概率配价模式理论的花园幽径句研究。花园幽径句是在英语和汉语中都存在的一种特殊句子,该句子会造成人们理解的困难。为了更好地解释花园幽径句理解困难的原因,在概率配价模式理论的指导下,从定性和定量的角度对汉语花园幽径句的理解过程进行了分析,阐释了花园幽径句的理解机理。将汉语依存树库中提取出的数据与语言学中的统计规律相结合,证明理解花园幽径句前面的歧义段,不同的歧义结果之间往往具有优先性,同时提出受概率的影响和当前概率优先原则的支配是导致花园幽径句理解困难的一个重要原因。本研究成果《基于概率配价模式理论的花园幽径句研究》已被《语言文字应用》录用,待发表。

(7)现代汉语多层级网络研究。现代语言学普遍将语言视作一个在意义-形式维度上具有不同层面的系统。这些层面都是语言系统的子系统,可定义为相关的语言单位及其关系。在语言的较深层面,语言单位之间的关系表现为非线性的结构关系(如句法结构和语义结构关系)。而在较浅的层面,语言单位之间的关系则是线性的同现关系(如词同现和字同现关系)。如果语言是一个系统,那么其在宏观尺度上涌现出来的组织方式(整体特征)就无法用偏重语言局部结构特征的语言学传统方法来进行研究。换言之,目前的语言学研究方法无法揭示语言是一个什么样的系统。复杂网络方法已用于研究不同的语言子系统。然而,这些研究存在着两个较明显的问题。一方面,这些研究多停留于对所研究的语言网络模型的参数本身的探讨,并没有结合语言学及其周边学科的观点来解读这些参数对于语言系统来说意味着什么。另一方面,这些研究一般只探讨某一个语言子系统的宏观组织方式,这样就无法全面揭示语言作为一个分层系统的整体情况。因此,要研究某个语言作为一个分层系统的组织特征,理想的方法是基于相同的语料,在该语言的不同层面上分别构建语言网络模型,通过描述和比较这些模型的组织特征来获得该语言作为分层系统的整体概观。同时,应结合语言学及其周边学科的观点对研究的发现进行解读,以期让复杂网络的方法能够真正地加深我们对于语言系统的理解。本研究采用复杂网络方法研究作为分层系统的现代汉语。采用现代汉语真实语料构拟了汉语在意义-形式维度上的(作为语言子系统的)四个层面的语言网络模型,分别是:动态语义网络(实词/词汇概念作为节点,其语义结构关系作为边)、句法依存网络(词作为节点,其句法依存关系作为边)、词同现网络(词作为节点,其同现关系作为边)和字同现网络(字作为节点,其同现关系作为边)。研究计算了四个网络模型的主要复杂网络参数。这些参数表明:四个网络均在不同程度上呈现小世界(较短的平均路径长度和较高的聚集系数)、无尺度(度分布符合幂律)、负相关和层级组织的拓扑结构特性。小世界属性意味着汉语在各个层面上的知识具有高效的组织方式。节点之间较短的距离能够有效地减少扩散激活过程中的能量损耗。无尺度属性意味着在各个层面上只有极少数语言单位具有极强的结合能力,而大多数语言单位的结合能力都相对较弱。这是省力原则的一种体现,反映了说话人在语言表达和听话人在语言理解这两方面的省力需求所达到的平衡。而小世界和无尺度属性共同保证了汉语在各个层面上的知识网络的“适航性”,保证了扩散激活这一蛮力的、无指导的过程能够顺利进行。层级组织特征则确保了小世界和无尺度特征能同时存在,而它又与负相关特征有着密切联系。因此,汉语的四个子系统所体现出的宏观组织特征是相辅相成的,共同保证了它们的高效组织方式。同时,四个网络模型的拓扑结构特征也存在着差异,反映着四个子系统之间的关系。动态语义网络的拓扑结构特征与其他网络具有较大差异。这表明,语义结构子系统(作为概念表征子系统)相比于其他三个子系统(作为语言表达子系统)来说,是一个相对独立的语言子系统。该网络的某些拓扑结构特征(如小世界和负相关)弱于其他网络,这是由于该层面缺少具有极强结合能力的语言单位。较弱的拓扑结构特征在宏观尺度上体现了语义结构的前语言性。对单个拓扑结构特征的比较以及聚类分析均发现,句法依存网络与词同现网络具有极高的相似性。这种相似性源于句法依存关系与词同现关系的高度重合(50%以上的依存关系存在于相邻的两词之间)。这种重合使得汉语句法在产出、理解和习得方面的难度都控制在一个较低的水平。而句法依存网络与词同现网络之间的高度相似在系统层面上反映了汉语为句法产出、理解和习得所提供的便利。字同现网络的某些拓扑结构特征明显强于其他三种网络,这是由于其中枢节点的相对结合能力明显较强。该网络的中枢节点是单字的汉语虚词,其在汉语理解的分词过程中发挥着分隔符的作用,其较强的结合能力对于汉语这种缺乏显式分词机制的语言来说尤为重要。总之,本研究以定量的方式首次揭示了汉语作为分层系统的宏观特征,并以语言学、认知科学和网络科学的观点对研究发现进行了解读,拓展了我们对于语言作为分层系统的认识。本研究已被国际著名汉语语言学研究刊物Journal of Chinese Linguistics录用,该杂志为SSCI、A&HCI收录期刊。

(8)汉语句子信息量分布研究。语言是一个通讯系统,语言系统在通讯方面的性质就是语言的重要性质。信息理论证明,通讯系统在噪声信道中最优的信息传递方式是与信道能力相近的稳定的传递速率。如果人类在语言进化中在通讯方面已经得到优化,那么人类的语言和言语就应该具有稳定的信息传递速率或均匀信息密度(即UID假说或CER假说)。信息论可以解释很多层面上的语言现象,但信息量是如何在句子中分布的这个可以使我们从信息量的角度理解句子的生成和理解的关键问题却至今没有一个满意的答案。UID和CER假说只给出了一个一般性的观点,并没有给出句子内部的详细说明。我们以与信息量相关的、具有明确意义的统计量开展了句子中信息量分布研究。这些统计量有:平均语境外信息量(熵),各位置上出现的词的频率特性、词数、词的幂律指数等。另外,一个句子是一个具有结构的相对完整的语言单位,句中信息量是分布在整个句子上的,由于句尾可能具有不同信息量的分布,即句尾效应,因此,在不同长度的句子中同样的位置上信息分布特征可能会不同,因此,统计句中不同位置上的平均信息量应该在相同长度的句子上进行。此研究结果发现,句子中各位置的熵以及相关统计量均呈3步阶梯式递增,即,句首显著小于句中间各位置(除去句首和句尾的位置),句中间显著小于句尾,而句中间各位置上没有显著差异。这说明:第一,句中词提供的语境信息并不是随着词的增加而累加,这意味着句中词与句子整体的关系并不是多层递进,而是多方面平行;第二,句中词提供的语境信息呈现“整体大于部分之和”的模式,结构也提供了信息。此研究不但发现了句中信息量的分布特性,提示我们处理通讯优化约束以外还需要另外的参数来解释句中信息量的分布,而且还表明在计算句中词的信息量时,常使用马尔科夫模型建模语境的方法存在本质上问题,为进一步研究语境建模提供了指导。此研究成果正处于论文修改阶段。

4. 子课题三“面向计算语言学的自然语言形式化计量研究”进展情况

本子课题重点围绕依存结构树的计数、枚举、层次化等方面展开研究。

(1)依存结构树计数研究。现有的研究成果给出的依存结构树计数算法存在着两个局限性:一是数据精度问题,由于计算机字长的限制,该算法能得到的正确结果非常少,其他结果都因为数据溢出而不正确;二是算法的时间复杂度过高,在现实中无法应用。为了克服上述局限,我们做了两方面的准备:一方面,我们提出一套基于字符数组的超长整数表示方法和四则运算算法;另一方面,在超长整数表示方法和四则运算的基础上改进了依存结构树的计数算法,能得到依存结构树的精确计数结果。改进的计数算法依赖于“直接子树”和在此基础上定义的“依存结构森林”这两个概念,算法的核心思想是递归计算:具有给定结点数的依存结构树的不同形态数目可用若干依存结构森林的计数结果来表示,依存结构森林的计数结果可用若干更小的依存结构树的计数结果来表示。研究依存结构树的精确计数有助于深入了解依存结构树的形式特征,为依存结构树的枚举提供理论支持,并在依存句法分析过程中预估问题的规模与复杂度。这部分成果正处于后期的整理和写作当中。

(2)依存结构树枚举研究。我们提出了两种不同的枚举算法。一个是基于后继思想的算法,另一个是基于后进先出栈的算法。两种算法都是以依存结构树的编码为基础的,它们使用的编码是相同的。第一种算法定义了一种能将依存结构树形态编码进行排序的线序关系“前于”,并根据机械过程理论提出了求解任何一棵依存结构树在前于关系中的后继树的算法,按照这种算法可以顺次生成所有可能的依存结构树。其特点是下一棵依存结构树的生成仅仅跟上一棵依存结构树有关。第二种算法定义了一种截然不同的线序关系,提出了一种基于栈的算法,根据这种线序关系顺次生成所有可能的依存结构树。根据该算法产生的两棵相邻的依存结构树之间没有直接关系,但该算法的一个优点是它可以在满足依存结构树部分结点间的依存关系的前提下来生成所有可能的依存结构树。两种算法各有优点,后继算法的空间复杂度优于栈算法,但栈算法的时间复杂度优于后继算法。依存结构树枚举算法研究给出了依存结构树的全部编码空间,为下一步的基于依存结构的语言分析与理解研究打下坚实的理论基础,也为构建基于概率统计的自然语言歧义消解机制研究创造了条件。这部分成果已经初步完稿,待进一步修改之后即可投稿。

(3)依存结构树层次化研究。我们提出一种算法,使用一种由纯字符组成的图形来表示依存结构树的结构形态。这种图形的好处有两点:一是不必借助专门的绘图和看图工具来查看依存结构树的结构形态,借助于普通的文本编辑软件就可以查看;二是这种图能清楚地表示依存结构树的层次。研究依存结构树的层次,有助于我们加深对依存距离最小化的认识,从而有助于对大脑的句子理解机制的研究。这部分内容正在整理中,很快会完成数据梳理和论文撰写的工作。

5. 子课题四“汉语计量研究与认知结构关系研究”进展情况

本子课题已经进行了大量的材料收集和实验测量,积累了丰富的资料(包括评定后的500个分类学概念词、100个情感词、100个一般意义上的抽象词、30万字的聋人作文文本),构建了多个不同语体、不同时期的汉语句法标注树库和两个英语树库,为下一步研究工作打下坚实基础。

在此基础上,本子课题对中文词识别机制、词形态和语义认知机制、长距离依存关系处理认知机制等方面进行了研究。其中,中文词识别机制、词形态和语义认知机制研究以心理语言学实验方法为主,基于分类学概念理论体系,以不同特点群体为对象,参照文本语义网络资源(http://corpora.uni-leipzig.de/)确定实验内容(经常出现在同一文本语境下的常见中文词)并重点开展词形态和语义认知机制研究;依存距离与语言处理认知机制研究以句法标注语料库计量方法为主,辅之以适当的心理学实验。从目前研究来看,这几方面之间可能存在密切的关系,词识别机制和语义认知机制对长距离依存关系的处理可能有较为重要的影响。这些方面的研究现在已经取得了一些重要的成果,为今后全面系统地将计量语言研究与语言认知结构研究有机融合并进行更深一步的研究打下了基础。详细的研究进展如下:

(1)基于语义加工导向的中文单、双字词识别机制研究。中文句法结构和句子的最小构成成分(词)之间的语义关系相互交融。在非语境中考察词的语义加工受其他词的影响是系统研究中文认知结构的前提。我们使用启动范式下的语义归类任务,同时以分类学概念中基本水平概念单、双字词为目标刺激,操纵SOA和启动词在形音义方面与目标词的关系,共对200人进行实验测量(实验1和实验2),结果发现单、双字词的情况有相似也有差异。在反应时上相似的是,启动效应在137 ms及之后的几个SOA水平(187、237和287 ms)上显著;实验1形态轮廓、读音和语义三种条件下,形态轮廓(两/手表)和目标词(雨/小麦)相似启动词对的启动效应最小,其次是读音(骨/消息)和目标词(故/小溪)相似的情况,启动效应最大的是语义(狼/剧院)和目标词(豹/教堂)相近的情况;实验2启动刺激是目标词(餐厅或盘)的同位概念词的字序颠倒(室教)或部件位置颠倒(木字旁在右不字在左)——类内倒序,是目标词(地震或盘)的同位概念词的字序颠倒(室教或球)或部件位置颠倒(王字旁在右求字在左)——同词颠倒、是目标词(剧院或狼)的语义相近词(教堂或豹)——语义相近,在这三种条件下,本词颠倒情况的启动效应最小,同类颠倒和语义相近情况的启动效应大小差不多。单、双字词的不同是,在反应时上,实验1中,单字词条件下的启动效应较小,双字词条件下的启动效应较大。在准确率上,实验1与单字目标词轮廓相似的启动刺激对目标刺激的判断有干扰效应,与双字词语义相近的启动刺激对目标刺激的判断有有干扰效应。实验2,启动刺激和目标刺激语义相近时,双字词条件下,目标刺激的判断受到启动刺激较大干扰。这两个实验的发现不仅补充了以往研究,而且系统揭示了常见具体事物概念词的语义判断在形音义方面受其他相关信息加工方面的影响。相关论文正在撰写之中。

(2)第二语言词形态和语义加工的心理机制研究。作为第一、二语言句法结构认知研究的前提,在词的层面,我们对近1000人经数次测量,比较了一、二语言条件下分类学概念中上位和基本水平概念词之间的概念联系意识(实验3)、情感词语义加工与词呈现的上下空间位置的隐喻关联(实验4)、一般意义抽象词间的语义关系意识(实验5),考察了英文派生词和曲折词的形态加工过程(实验6)。结果发现,实验3在一、二语言条件下,分类学概念中不同水平概念词间的联系意识有不同的模式:在第二语言条件下,对上位水平概念词的语义加工机制不同于对基本水平概念词。不同水平概念词的自动化识别有明显孤立性倾向;上位水平词的有意识识别能够激活它与基本水平概念词间的概念联系,但是,基本水平词的有意识识别却不能够激活它与上位水平概念词间的概念联系。实验4在知识层面,一、二语言情感词的语义加工机制有相似,但是,第二语言情感词的自动化加工不能激活词义与空间位置之间的隐喻关联。实验5结果和实验4相似,第二语言词的有意识的识别似乎是借助于翻译完成,但是,二语词的自动化识别却不能激活抽象词间的语义联系。实验6与其他国家研究发现不同的是,中国大学生(浙大一二年级理工科学生)对于曲折词发展有明确构词意识;对于派生词,他们也能发展一定程度的构词意识。所以如此可能得益于中文字词识别习惯的影响。有关这些研究的论文正在审稿与撰写中。

(3)聋人青少年书面词形态和语义加工的心理机制研究。聋人作为特殊群体,他们在书面语认知活动中表现出的认知规律对于普遍意义上的书面语研究有独特的价值。我们也初步完成了对聋人青少年在具体词间分类学联系和主题关联联系方面的比较(实验7)和在分类学概念词间的语义联系意识的考察(实验8、9),结果发现,实验7对于具体事物概念词,聋人青少年能够发展分类学联系意识,但是,相比之下,他们较难发展主题关联联系意识。本研究已经发表于American Annals of the Deaf 156(5)。实验8对于基本水平概念词,聋人青少年能够发展概念词之间的语义联系意识,只是相对健听人较弱,但是,在上位水平概念词自动化识别加工过程中,他们产生概念间联系的意识特别弱。实验9聋人青少年识别上位水平概念词的过程中,他们不可避免的需要经过多个相应的典型性水平较低概念成员的心理表征的激活。相关论文正在审稿与撰写中。。

(4)汉语长距离依存关系研究。对依存标注语料库的计量研究表明汉语中主语、宾语、介词宾语以及介词状语关系是最高频的长距离依存关系。对主语进行的计量研究表明,主语本身的信息特点与依存距离有密切关系。新主语(新信息)的依存距离往往较短,旧主语(前文已出现过的信息)的依存距离往往较长,两者之间具有显著差异。这显然与启动效应有密切的关系:语义启动词具有非常强的启动效应。这表明就主语的处理而言,依存距离与主语的信息特点之间可能存在协同作用,长距离主语关系可能未必一定难以处理。介词往往涉及长距离介词宾语关系与介词状语关系,对汉语中最常见的介词是“在”进行的反应时实验表明,长依存距离对“在”涉及的介词宾语以及状语关系的处理并无显著影响。其原因可能在于“在”作为高频虚词可能主要扮演了格标记的角色,对句法及语义结构起到标示作用,本身不涉及语义关系,处理较为简单。高频虚词的激活可能较为容易,长依存距离带来的工作记忆衰退问题可能相应并不严重。其次,汉语的结构特点使得介词“在”的宾语往往与谓语距离较近,其长距离介宾关系往往意味着较短的语义依存距离,从语义加工的角度来看,这可能也有利于语言处理。值得注意的是,汉语中大多数的虚词可能都具有这些特点。在汉语小句的各种依存关系中,宾语的平均依存距离是最长的。但是宾语位于句尾,如果语言的处理是一个增量的、不断进行预测和判断的过程,宾语的位置可能也可以在某种程度上减少处理的复杂度,因为处理宾语时句子的大部分信息是已知的信息。对长距离宾语的概率p(obj|pre,atr)进行的计量研究表明,相当一部分(45%)的长距离宾语的概率p(obj|pre,atr)大于0.1,其余宾语的概率则极低,或者无法统计。对于这些宾语,完型填空问卷研究表明p(obj|pre,atr)大于0.1的宾语的正确率基本都在0.2以上。根据现有文献来看,这个正确率说明处理难度有效地减少了。p(obj|pre,atr)大于0.1反映了较高的可预测度。对于其余的低正确率宾语,在提供语境(前一个句子)的情况下的研究,结果表明一部分宾语的正确率也提高到0.2。这些研究表明,长距离宾语往往可能伴随着较高可预测度与较低的信息度,这无疑有利于宾语词的识别与加工。这两个因素往往可能也使得长依存距离对宾语处理复杂度不会带来显著的影响。该研究表明在较微观的具体依存关系层面,真实语言中的长依存距离可能仅仅是影响处理复杂度的一个因素,同时受到其他诸多因素(如词的识别与语义处理机制等)的制约。这些因素协同作用,可能使得真实语言中高频出现的长依存距离往往不会显著增加真实使用的语言的处理难度。目前课题组正在根据该研究成果撰写论文,拟投稿语言学及认知类的SSCI期刊。

(5)语码转换机制的认知与计量研究。该研究阶段性成果已发表于国际著名普通语言学刊物Lingua,详见“代表性成果简介”第5项。

二、调研及学术交流情况

1. 调研情况

国内计量语言学研究尚处于起步阶段,课题组在申请课题时已经对国内外计量语言学研究现状有过较为详细的了解,立项后课题组主要进行了以下两方面的工作。

第一,文献资料收集整理。课题组虽然已经掌握大量的计量语言学及相关领域文献资料,但是为了本课题研究能够处于国际学术前沿水平,始终注重文献收集与整理工作。除了已有的几种计量语言学学术期刊的全部期数和计量语言学主要经典著作外,还继续收集了大量论文和著作,以及同一著作的不同语言版本。其中不乏一些稀缺资源,包括英语、德语、俄语、法语等语种的文献。在此基础上,完成了《协同语言学》和一些计量语言学领域重要论文的翻译、校订工作。

第二,与国内外高校和科研机构开展多种形式的合作交流。为了提升国内学者对计量语言学的关注热情、加强不同学科领域的交流合作、增强课题研究成果的影响与价值,课题组对西安交通大学、北京外国语大学、黑龙江大学、大连海事大学、宁夏大学、浙江师范大学、宁波大学等学术机构进行了走访,就课题研究内容与进展同国内学者进行交流讨论,商讨合作研究等事宜。

2. 学术交流情况

为了开阔学术视野,寻求广泛和深入的合作,增强研究成果宣传推介力度,课题组积极组织、大力支持各类学术交流活动。一方面,“请进来”,邀请国内外专家学者参与本课题研究或给予指导;另一方面,“走出去”,积极参加国内外学术会议,出国访问学习,走访国内外相关研究单位,开展学术报告,向国内外学界介绍我们的研究进展与成果。

目前,课题组与国际计量语言学的几个主要研究机构,如德国特里尔大学、波鸿大学、法兰克福大学、奥地利维也纳大学、捷克奥洛穆茨帕拉茨基大学、西班牙加泰伦尼亚理工大学等机构的学者保持着密切的学术交流关系,并已展开一些实质性的研究。项目首席专家刘海涛为Journal of Quantitative Linguistics、Glottometrics、Glottotheory三本国际著名的计量语言学期刊的编委会成员,这一方面保证了本课题组各项研究内容的前沿性,另一方面也为课题组研究成果的国际交流与共享创造了条件。

课题组2012年年度会议于2012年12月16日在浙江大学紫金港校区举行。会议特邀教育部语言文字应用研究所冯志伟研究员出席指导。冯志伟研究员听取课题组关于已取得的研究成果与正在开展的研究课题的汇报后给予充分肯定,并就研究中遇到的一些具体问题给出了指导性建议。同时他还鼓励课题组要争取更多地在国际上发表课题相关研究成果,以增强我国人文社会科学研究在国际学术界的影响力。

课题组成员已有数人出国访问、学习,如:王璐目前在德国特里尔大学跟随国际计量语言学会前会长Reinhard K?hler学习计量语言学,开展汉语计量研究;陈芯莹于2013年8月赴意大利参加国际计量语言学暑期班(IQLA-GIAT International Summer School on Quantitative Analysis of Textual Data)进修;瞿云华曾赴美国跟随著名语料库专家Douglas Biber学习,开展语料库语言学研究;乐明也曾赴美随著名语言学家Joan Bybee学习,开展语言的历时计量研究。

课题组成员何莲珍、马博森、李德高、王永、梁君英、陈芯莹等多次参加国内外学术会议并在会上宣读了与本课题有关的学术论文。

三、代表性成果简介

课题组在计量语言学理论与方法、汉语(语音、词汇、句法、语义、语体等)计量研究、多语计量研究、语言认知、语言计量研究方法创新等方面取得了丰富的研究成果。以下选取各方面代表性成果进行简要介绍。

1. 《计量语言学的现状、理论与方法》(发表于《浙江大学学报(人文社会科学版)》2012年第2期)

本文从理论、方法、历史与现状等方面,系统地总结和介绍了计量语言学这一新兴的和重要的语言学分支学科。计量语言学以真实语料为基础,用精确的方法来研究语言结构与发展规律,揭示各种语言现象形成的内在原因,探索语言系统的自适应机制和语言演化的动因。计量语言学认为语言是一种生物-认知现象和心理-社会现象,语言系统是一个自组织、自适应的动态系统,是一个复杂系统。计量语言学具有精确、真实、动态三大特点,是一个典型的文理交叉学科,具有鲜明的跨学科研究特质。计量语言学研究对于构建一种现代科学意义上的语言学理论是非常重要的。本文在回顾历史、把握现状的基础上,厘清了该学科进一步发展的走向,在向国内学界引介国际计量语言学研究的同时,对汉语的计量研究给予了特别关注,旨在引起国内学者对该学科领域的重视,进而推动中国语言学的国际化与语言学研究的科学化水平。

2. Statistical Analysis of Chinese Phonemic Contrast(发表于Phonetica, 68, 2011,SCI、SSCI、A&HCI收录)

在语音层面对旨在说明音位演化的Martinet假设进行了深入研究。研究表明,如果以音位对立度(phonemic contrast)作为功能负荷(functional load)的量化指标,那么音位的功能负荷大小与某些音位的消失并无直接关系,这从定量与统计的角度对传统的Martinet假设提出了有力的质疑,也就是说音位的功能负荷(对立度)并非越大越好。我们的研究表明,元音与辅音的音位对立度与词长之间可以分别用两个函数来描述:f(x)=7.249*exp(-2.673*x),f(x)=2.864*exp(-2.716*x),即:汉语的音位对立度普遍较低。较低的音位对立度意味着较高的稀疏度,从而提高了语言的冗余度。从语言的交际功能与认知心理基础来看,这种高冗余度非常有利于提高语言交际过程中信息传递的可靠性。这一发现也为设计更好的自动语音识别系统提供了重要的启发。

3. Synergetic Study on Chinese Lexical Structure(已录用,将发表于Journal of Quantitative Linguistics,SSCI与A&HCI收录期刊)

本研究在协同语言学理论框架下,使用《人民日报》标注语料库,在汉语词汇层面使用频率、词长、多义度和多文度4个属性,实验了协同模型,取得良好结果。具体来说,首先,模型的直接关系,间接关系,双重间接关系拟合结果与其他语言研究得到的结果类似。说明词汇层面,语言是一个自适应系统,汉语与其他语言在这方面是一致的。其次,频率-词长关系,即词长受到频率的影响程度,较为特殊,其图线噪声较大,数据点围绕理论曲线在一定面积内分布。仿照此前的协同模型研究,使用时序分析的处理方法,平均移动,得到了与其他语言一样的图形,即围绕理论曲线上下波动的线图。虽然幂律关系尚不能精确描述词长受频率的影响,但还是在一定程度上揭示了语言的共性。对于汉语,我们又发现,平均移动后的线图,更符合指数方程。该研究一方面在语言类型上丰富了协同模型的可应用范围,另一方面明确了汉语自身的特点以及与其他语言的异同。

4. 《基于依存句法标注树库的汉语语体差异研究》(发表于《语言文字应用》2012年第4期)

以前期建设的依存句法标注语料库为基础,我们首次尝试在句法层面对语体进行精确的定量研究。研究表明,书面语中主语大多数由名词充当,口语中主语大多数由代词充当;书面语的定语构成中名词占绝对优势;口语中定语构成中量词结构和“的”字结构占多数;书面语中副词占29.8%,介词结构占24.8%;口语中副词占57.5%,介词结构占10.6%;书面语中补语构成较分散,口语中补语构成较集中,主要是动词。不同语体在谓语、宾语的词类构成方面差别较小,定语、状语、补语等在词类构成上分布较为分散。该研究基于大量真实语料,将句法计量研究与语体比较研究相结合,对不同语体进行定量的描写与比较,有助于发现潜在的语言规律。

5. Syntactic Variations in Chinese-English Code-switching(发表于Lingua, 123(1), 2013,SSCI与A&HCI收录)

语码转换是指在日常交际中两种或两种以上语言或语言变体的语言运用。基于汉英语码转换的依存树库,我们发现:汉英语码转换树库存在依存距离的变异和以依存方向为测量指标的词序变异。混杂依存比具有相同支配词的单语依存的平均依存距离长。具体而言,汉英语码转换语料库的平均依存距离比英语单语的平均依存距离长,比汉语单语的平均依存距离短。在语码转换树库中,存在两类依存关系:单语依存和混杂依存。混杂依存类型比单语依存类型的平均依存距离长。主要语法关系(主语、宾语、定语和状语)在句法变异中发挥着重要作用。依存方向在单语依存和混杂依存中的分布差异导致了语码转换的词序变异。主要语法关系在单语依存和混杂依存中的分布差异导致了依存方向的分布差异。本研究以基于真实语料库的计量语言学方法来研究语言在实际使用中呈现的趋势和倾向,并进而探究了这些趋势和倾向背后的认知功能等机制。把计量语言学研究成果和认知科学研究有机地结合起来无疑将使我们对语言有更为深入的认识。

6. Probability Distribution of Semantic Roles in a Chinese Treebank Annotated with Semantic Roles(发表于Synergetic Linguistics: Text and Languages as Dynamic Systems. Wien: Praesens Verlag. 2012)

语义是语言学的重要研究领域,但是目前该领域的计量研究非常少见。以语义标注语料库为基础,我们首次对汉语语义角色的分布进行了研究。研究表明,汉语中语义角色的的频率(frequency)以及频率秩(frequency-rank)之间存在函数关系。语义角色的分布符合右截尾Zipf-Alekseev分布。这一发现有力地说明,在语义层面上语言的演化同样经历了其他语言层面曾经出现过的多样化(diversification)过程。也就是说,各种不同的语义角色都是由某一个原型角色通过多样化过程不断演化发展而产生的。

7. Quantitative Typological Analysis of Romance Languages(发表于Poznań Studies in Contemporary Linguistics, 48(4), 2012,SSCI与A&HCI收录)

以依存树库和相应的句法复杂网络为基础,将句法计量研究方法与句法复杂网络研究方法应用于罗曼语族的语言历时研究和类型学共时研究。结果表明,着眼于整体的句法复杂网络参数聚类分析和句法依存方向定量分析很好地体现了语言变化与差异的连续性,可以较好的揭示语言的历时变化以及共时的类型学差异,为罗曼语族的历史句法演变以及共时区分问题提供了令人满意的答案。传统的语言学解构观点可以对语言中某些细节的具体的问题做出描述。物理学中的复杂网络分析方法和基于真实语料的计量方法则可以帮助我们从整体的角度来观察语言。这种整体的观点对于语言类型学的研究具有重要的意义。因为不同语言之间的差异是连续的,这意味着定性的传统类型学研究方法有很大局限性。因为从不同的细节着眼,人们会对不同语族(如罗曼语族)的划分得出完全不同的观点。该研究将句法复杂网络方法、依存树库计量方法与语言历时研究、语言类型学研究结合起来,具有较强的研究方法指导意义。

8. Language Clustering with Word co-occurrence Networks based on Parallel Texts(发表于Chinese Science Bulletin, 58(10), 2013,SCI收录)

将语言作为一个系统的观念是现代语言学中最重要的假设之一。语言学的传统方法无法揭示语言在宏观尺度上的整体特征。而能够以整体观考察各种系统的复杂网络可以弥补语言学在这方面的欠缺。对语言网络的定量分析可望成为语言学中不同领域的潜在研究方法。语言分类就是一个有代表性的例子。以往研究表明,基于真实语料构建句法依存网络,并采用这些网络的主要参数进行聚类分析,能够大致反映出对应的语言在语言谱系中的亲缘关系。由于语言复杂网络反映的正是语言在宏观尺度上的整体特征,基于复杂网络的语言分类是对整体类型学的一大贡献。然而,这些研究所获得的语言分类并不精细,一般只满足于将不同的语言大致划入各自的语族。从方法上讲,这些研究存在两大问题。一是构建句法依存网络所采用的语料在语义内容和语体方面不一致,可能会影响分类结果。二是句法依存网络的构建费时费力,不适用于对较多语言进行分类。考虑到以上这些问题,本研究采用了在语义和语体上均一致的平行文本作为语料,采用可以自动方式构建的词同现网络作为网络模型来进行语言分类实验。研究采用的平行文本共14个,其中12个为斯拉夫语族不同语言的文本,其余2个为汉语和英语文本。因此,本研究能够检验复杂网络方法对同一语族的不同语言的分类,即较为精细的语言分类的适用性。研究分别计算了14个词同现网络的10个主要参数,采用这些参数的64种不同组合进行聚类实验。结果表明,有15种组合能够得出较为理想的分类结果,即,既能将斯拉夫语言与非斯拉夫语言区分开来,又能将12种斯拉夫语言正确地划分到各自的语支中去。此外,聚类结果还能反映出某些斯拉夫语言在其语支内部的亲缘关系。该分类结果要稍好于基于斯拉夫语言中的型例关系而得出的结果,与采用包括词汇统计学在内的其他方法所得到的结果大致具有可比性。结果也表明,这些语言在书写系统上的差异对其分类并无影响。这也引起我们对语言与书写系统之间关系的思考。另外,由于本研究所采用的方法依据的是语言作为一个系统的整体特征,其分类结果明显好于采用依存方向等语序指标所得到的结果。这也表明, 对于像斯拉夫语言这样具有较丰富的屈折形态变化的语言来说, 语序可能不是其分类的最佳依据。由于本研究的方法完全是从定量的角度去进行语言分类,它反映出来的语言之间的异同是连续性的,而非离散的。本研究的结论是:平行词同现网络能够被用于语言的精细分类,而且在基于复杂网络的语言分类中可被用作句法依存网络的一种更为便捷的替代品。本研究所采用的方法也有助于建立一种注重整体特征的、定量的、能反映语言之间连续性差异的语言类型学研究路向。

四、成果宣传推介情况

1. 开题研讨会

本课题开题研讨会于2012年2月26日在浙江大学外语学院举行。专家组由教育部语言文字应用研究所、大连海事大学、北京大学、清华大学、广东外语外贸大学的知名学者构成。浙江省社会科学界联合会、浙江省哲学社会科学规划办公室、浙江大学、浙江大学社会科学研究院等单位的领导同志到会指导。与会专家和领导认真听取了课题组的报告,对本课题的选题意义与价值、研究思路与方法、课题组人员配置分工等给予了充分肯定,就多方面相关问题与课题组成员展开广泛和深入的讨论,希望并一致认为课题组能够在语言学跨学科研究方面取得突破性进展、取得丰硕成果,增强与提高中国语言学在国际学术界的声望与话语权。开题研讨会的已被国家社科规划办以及浙江大学相关网站报道。

2. 《光明日报》刊登《计量语言学:语言研究的科学化途径》一文

2012年2月15日,《光明日报》(第16版)刊登了本课题首席专家刘海涛撰写的文章《计量语言学:语言研究的科学化途径》。这是该报“国家社科基金”专刊开辟“跨学科研究”专栏后的首篇文章。文章指出,语言研究的科学化一直是现代语言学家的一个主要努力方向与重要目标;在语言学中引入计量方法可能是语言学科学化的必要途径;开展多层次的汉语计量语言学研究不仅是对国际计量语言学的补充与发展,也有助于提高中国语言学的国际化与语言学的科学化,是一个值得更多语言学家参与的领域。文章还对计量语言学的理论、方法、历史与现状进行了介绍。

3. 国际著名计量语言学期刊Glottometrics对本项目进行了专题报道

国际著名计量语言学刊物Glottometrics在2011年出版的第22期中,对本项目进行了较详细的报道与介绍。鉴于这本期刊在国际计量语言学中的重要地位,该报道使得几乎所有的国际计量语言学同行都对我们的项目有了一个较详细的了解,起到了很好的宣传效果,为项目进一步的国际合作奠定了基础。

4. 课题组研究工作与成果的相关报道

课题组2012年年度会议于12月16-17日在浙江大学外语学院举行。浙大相关单位的网站对会议召开(以及上述开题研讨会与《光明日报》刊文等)进行了详细报道。课题组成员共30余人参加了会议。会议回顾了课题研究的目标、内容、计划进度等,总结了已经取得的成果,讨论并明确了研究中存在的一些问题和下一步的研究计划。

浙江大学人文学院网站于2013年1月以《语言与认知研究中心博士生王琳在国际知名语言学期刊发表论文》为题报道课题组成员在Lingua发表研究成果。报道称,“该论文的发表是长期以来坚持跨学科研究、问题意识引导以及培养学生具有国际视野的成果体现”。Lingua创刊于1949年,是被SSCI和A&HCI同时收录的最重要的国际普通语言学专业期刊之一。

阶段性成果

序号

成果名称

作者

成果形式

刊物名或出版社、刊发或出版时间

字数

转载、引用、获奖等情况

1

计量语言学的现状、理论与方法

刘海涛
黄伟

论文

浙江大学学报(人文社会科学版)
2012年第2期

15000

 

2

基于依存句法标注树库的汉语语体差异研究

刘丙丽
牛雅娴
刘海涛

论文

语言文字应用
2012年第4期

12000

 

3

Statistical Analysis of Chinese Phonemic Contrast

于水源

徐春山

刘海涛

论文

Phonetica, 68. 2011.

15000

SSCI, SCI, A&HCI

4

Language Clustering with Word Co-occurrence Networks based on Parallel Texts

刘海涛

丛进

论文

Chinese Science Bulletin, 58(10), 2013.

8000

SCI

5

Quantitative Typological Analysis of Romance Languages

刘海涛

徐春山

论文

Poznań Studies in Contemporary Linguistics, 48(4), 2012.

25000

SSCI, A&HCI

6

Syntactic Variations in Chinese-English Code-switching.

王琳

刘海涛

论文

Lingua, 123(1), 2013.

25000

SSCI, A&HCI

7

Probability Distribution of Semantic Roles in a Chinese Treebank Annotated with Semantic Roles

刘海涛

论文

In: Synergetic Linguistics: Text and Language as Dynamic Systems. Wien: Praesens Verlag. 2012.

7000

 

8

Word Length in Chinese

王璐

论文

In: Issues in Quantitative Linguistics 3. Ram-Verlag. 2013.

16000

 

9

Chinese Deaf and Hard of Hearing Adolescents’ Awareness of Thematic and Taxonomic Relations among Ordinary Concepts Represented by Pictures and Written Words

李德高等

论文

American Annals of the Deaf, 10, 2012.

16000

SSCI

10

Mosuos’ Awareness of Taxonomic Relations in Word Associations, Lexicon Decisions and Semantic Categorizations

李德高等

论文

Scandinavian Journal of Psychology, 2012, 6.

18000

SSCI

11

句法复杂网络作为语体分类的知识源研究

陈芯莹
刘海涛

论文

计算机工程与应用
2013, 49 (8).

7500

 

(课题组供稿)

(责编:赵晶)