旧版网站入口

站内搜索

藏文自动分词研究

--《藏文自动分词研究》成果简介

2011年05月15日16:51

  西北民族大学于洪志教授主持完成的国家社会科学基金项目《信息处理用藏语分词研究》(项目批准号为02BYY038),最终成果为专著《藏文自动分词研究》。课题组成员有:祁坤钰。

  藏语属于汉藏语系的藏缅语族下的藏语支,与汉语相比较,藏语的语法特点体现在:词的形态曲折变化主要表现在动词的时态上(三时一式);名词没有单、复数之分,没有黏着现象,也不具有曲折变化;形容词没有程度级的变化,级是由程度副词来限制;藏文有六种形式逻辑格,格助词丰富有黏着现象,且具有明确的语法功能;语序相对稳定,是典型的SOV语言;没有像汉语那样丰富的量词,个别存在;书写过程中,词与词之间没有明显的边界标志;动词和虚词是表达句法结构的主要手段;藏语中词与词之间的界限靠语义来区分,从形式上无法区分。因此,藏语与汉语有很大差异,应建立面向信息处理用的藏语词类语法体系。该成果主要内容如下:

  一、制定了藏语词性标记集规范

  为了使藏文与汉文信息处理同步,建立统一的中文多文种信息处理平台,本项研究借鉴北京大学现代汉语词类及词性标记集规范、语料库词性标记集,制定了藏语词性标记集规范。包括:名词n(普通名词ng、专有名词np、人名nph、团体机构名npi、地名npp、辞藻nm),处所方位词f,时间词t,数词m(基数词mc、序数词mo、分数词mf、陪数词mi、5概数词ma、总数词mg、点数词md),量词q(名量词qn、动量词qv),代词r(人称代词rp、指示代词rd、疑问代词ri、不定代词rin),形容词a(性质形容词aq,形状形容词as,颜色形容词ac,数量形容词am),拟声词o,副词d(程度副词de、时频副词d、范围副词db、情态副词dm、否定副词dd),动词v(及物动词vt、不及物动词vi、助动词vu、断词vp、形动词vx、名动词vd),简别词b,状态词z,助词u(时态助词ut、语气助词uy、原因助词uc、目的助词ui、终结助词ue、祈使词um),叹词e,介词p,连词c,成语i,习惯语l,简语略j,前接成分h,中接成分zh,后接成分k,首饰符号sh,标点符号x,非藏文字符w。

  二、研究了藏文切分特征

  1、藏文字切分特征

  音节特征:藏文是拼音文字,由30个辅音字母、4个元音字母以及上、下加字组成。藏文字以音节为单位,每个音节最少可由一个辅音字母构成,最多可由7个字母拼合而成,各音节间用音节点分隔。

  拼写特征:藏文自左向右书写,组成音节时以基字为中心分为前加字、后加字和又后加字,基字可横向和纵向双向拼写,而前加字和后加字只能横向拼写。

  形态特征:藏文由确定的10个辅音字母作后加字,其形态特征都发生在这10个确定的后加字上。

  标点符号特征:藏文有一套独立而完整的标点符号体系,主要在篇章、段落、句子和字之间起分界符作用。

  2、藏文词切分特征

  藏语词从总体上分为实词和虚词两大类。从藏文词语的形态特征来看,明显的切分特征主要有以下几点。

  格助词接续特征:藏文格助词的个数不多,但使用频率极高。大多数藏文格助词在添接时,要严格按前一词(或字)后加字的黏着性形态变化规则添接。

  动词的曲折形态特征:现代藏语只有动词还保留着时、式、态等曲折形态变化。这是动词有别于其他词类的重要特征。

  名物化词缀特征:藏文动词、形容词在句子中修饰名词性成分或作非谓成分时,一般都要进行名物化转换,即要添接名物化后缀。

  重叠结构特征:藏文的重叠结构主要发生在形容词当中,常见的重叠形式有AA式、ABB式、ABCB式等三种。

  动名词的动词性词缀特征:藏文动名词兼有动词和名词两种语法功能,是藏文特有的一类词。其特点是通过后接固定的几个动词性词缀实现词性转化。

  3、句切分特征

  藏语语序特征:藏语是SOV型语言,即谓语动词后置型语言。动词是句子的核心,决定着格助词的添接类别。

  借助格助词来表达句子含义的作格特征

  藏语短语的后修饰特征:一般情况下,藏语形容词、数词、代词等与名词结合构成短语以及动词与助动词结合构成短语时,其中心语在前,修饰语在后。

  三、研究了藏文分词的单位与原则

  分词系统可以面向解决实际问题的需求和真实语料中使用的频繁程度来规定“分词单位”。

  1、分词既要符合语言学的一般规则,同时也要便于词类和句法分析,不能分得过细,也不能分得过粗。

  2、分词单位必须是在藏语言中出现的,而不是凭空臆造的任何字符串。

  该成果采用《信息处理用现代汉语分词规范》和《资讯处理用中文分词规范》两者之长,为藏文分词单位确立两条基本原则和诸多辅助原则。

  四、藏文自动分词研究

  1、藏文分词方法

  一是格分析法:这是藏语语法理论体系中固有的语法规律,藏语有比较完善的形式逻辑格语法理论体系。格关系理论和方法可以分析藏文句子的语义逻辑关系;可以做格关系的逆过程,就是通过格助词与格关系来判断通过格切分后词汇的准确度。

  二是HNC(Hierarchical Network Concepts)概念层次网络理论。HNC主要应用在藏文词汇概念的语义网络中,藏文词汇语义网络用手工加统计的方法创建,其核心是联想意义和上下位所属关系。

  三是二元属性描写方法。

  四是匹配方法:在藏文中将格分析之后的藏语短语作为匹配的对象。根据匹配单位的需求可分为最大匹配法和最小匹配,根据消歧需求可分为正向匹配和逆向匹配等。

  五是统计方法:主要应用在获取先验知识方面,如:藏文大丁字符信息表、藏文音节(擦青)表,藏文各种语言单位的二元模型、藏文格助词的配价概率、藏文动词词表等。

  2、分词系统模块

  藏文自动分词系统,在基于规则和统计的基础上,增加了联想回溯算法,引入了句法、语义信息。系统包含预处理模块、分割模块、匹配识词和规则识词四个模块。

  预处理模块:包括切分句子和语言分类两个部分。切分句子是将源藏文文本语料依据藏文分句形态标志信息(主要是藏文分句符号)分解成相对独立的藏文句子,这个过程要考虑英、藏、汉多语种混排文本,即切句要考虑多语言的句子边界信息。同时要保留原始文本的所有信息,保证文本的原貌不发生变化。语言分类是以句子为处理单位,把句子按不同的语言分割成若干不同的语块。在以后的处理过程中,根据不同的语言块进行处理。

  分割模块:以预处理后的藏文语块为对象识别藏文词。此模块分词边界特征识别和改进的MM算法。词边界特征识别是以特征词库中的词作为词切分标志,依靠联想规则将一个音节串语块分割成更小的语块,对每个特征词建立不同的规则来处理特征词的左右边界。改进的MM算法是依据分词词表将藏文语块识别成词,MM方法中正向和逆向合一进行,然后判断并确定歧义结构,将歧义结构交付排歧模块处理,以便修改错误的分词结果。该分词系统可以对藏文文本分词正确率已经达到了95%以上。

  3、藏文分词测评

  一是开放性:易扩充性、可维护性和可移植性等特点。要求在开放环境下切分精度和处理速度稳定在实用的程度。

  二是通用性:藏文自动分词是高层藏语言信息处理的共同基础。分词系统应该支持不同的应用领域;支持不同学科领域的应用;支持不同地区的语言处理需要;要适应不同地区的语言风格。

  三是独立性:不同的应用系统对分词系统的要求不同,因此分词系统要有不同的版本,系统内部的各种信息资源,以及处理信息资源的各个模块要具有较高的独立性,方便装入系统或者从系统中卸载,提高系统处理精度和处理速度。

  该成果从藏文字的产生,藏文的文字、音节、结构、语法特征,讨论了藏语词类划分,词与其语言单位的区别,信息处理用藏语词类,藏语词性标记集,研究了藏文分词规范的设计,藏语分词的基本特征,使用范围,用途,参考标准、藏语分词用术语、藏语分词单位、藏语分词原则,这些工作在国内学术界相关研究较少。藏文自动分词是藏文自然语言理解的一项基础性工程,藏语自然语言理解在机器翻译、信息检索、智能输入、校对、自动摘要、自动分类和词典编纂等领域有着广泛的应用价值。
(责编:陈叶军)