一、研究进展情况
主要内容:
一、研究计划总体执行情况及各子课题进展情况
1 研究计划总体执行情况
第一阶段(2017年11月立项—2018年10月):继续完善研究的总体设计与各子课题的具体设计;进行与文本可读性研究相关的中英文文献收集和整理;开始采集中小学语文教材课文语料、课外读物语料;为项目开题做准备。
第二阶段(2018年11月开题—2019年7月中检):1)举行项目开题咨询会。课题组在第一个阶段研究工作的基础上,于2018年11月5日召开项目开题咨询会,杨玉芳、储泽祥、张赪、崔永华、宋柔等五位专家以及张旺喜副校长、科研处张健处长出席会议。首席专家、五位子课题负责人以及课题组主要成员、硕博研究生共六十余人参加了会议。2)课题组在已有研究计划的基础上,积极吸收开题咨询会专家的意见和建议,对研究设计进行了微调,继续推进各项研究工作,并取得了初步的研究成果。
目前课题总体上已经完成的研究工作包括以下几个方面:
(1)系统收集和整理了相关的中英文文献资料。
课题组通过多种途径和方法,完成了有关文本可读性研究的国内外文献(主要为中英文文献)资料的收集和整理工作,包括中英文期刊论文、会议论文、硕博论文等5000余篇,图书(包括电子书)1000余册,为进一步的研究积累了丰富的文献资料。
(2)自建了6个汉语文本语料库。
大规模文本语料库的建设是本课题研究的基础。从立项至今(共20个月),课题组花费了大量的人力、物力和财力,自建了课题研究急需的6个汉语文本语料库,语料规模达1280万字。其中,汉语母语文本语料库3个:分别为《中小学语文教材文本语料库》(224万字)、《中小学课外读物文本语料库》(871万字)和《汉语句子难度标注语料库》(61万字);汉语二语文本语料库3个:分别为《对外汉语教材文本语料库》(85万字)、《对外汉语课外读物文本语料库》(27万字)和《新HSK阅读文本语料库》(12万字)。
这6个语料库的具体信息如下:
《中小学语文教材文本语料库》:共105册,3,773篇,2,561,439字。涵盖现行主流的语文教材版本,三个出版社(北师大版、人教版和苏教版)、两个系列(义务教育课程标准、实验教科书)。
《中小学课外读物文本语料库》:共212册,7,895,617字。包括人民教育出版社出版的《语文素养读本(丛书)》(北京大学语文教育研究所,2015)中的读物以及杨红樱、郑渊洁、曹云轩等著名儿童作家的作品。
《句子难度标注语料库》:18,411句,615,314字。句子来源于中小学语文教材文本语料库,剔除使用特殊语言的和不完整的文本,如文言文、诗歌、诗词、剧本、识字文本等。对句子进行去重后,1392篇课文共产生51,298个句子,句子的平均长度为24.6字。使用成对比较的标注任务,通过众包标注确定大规模句子的难度级别。每个句子被标注为1到5共5个难度级别,级别1表示很简单,级别5表示很难。
《对外汉语教材文本语料库》:1690篇,856,416字,562,457个词,73,959个句子。涵盖最近10年(2008年—2018年)出版或修订的主流代表性汉语精读教材9套,共计68册。包括北京语言大学出版社出版的《成功之路》《发展汉语》《尔雅中文》《HSK标准教程》《汉语教程》《新实用汉语课本》(6套),北京大学出版社出版的《博雅汉语》(1套)、华语教学出版社出版的《当代中文》(1套)、美国波士顿剑桥出版社出版的《中文听说读写》(1套)。
《对外汉语课外读物文本语料库》:493篇,270,153字。所选读物包括《中文天天读》(外语教学与研究出版社)、《汉语阅读速成》(北京语言大学出版社)、《阶梯汉语(中级阅读)》(华语教学出版社)、《实用汉语分级阅读丛书》(北京语言大学)等8套课外读物中的16册。
《新HSK阅读文本语料库》:500篇,12万字。包括2010年到2018年59套新HSK考试真题的阅读测试文本(部分年份有缺失),其中5级18套、6级31套。
上述语料库的建设,为课题开展下一步的研究奠定了基础。
(3)各子课题根据研究任务开展实证研究,目前已经初步实现对母语者文本可读性的量化测评。
各个子课题分别开展语料分析、实验研究、调研、预测试、计算建模等实证研究工作。包括面向可读性研究的文本语言特征定性分析、汉语文本阅读理解机制及其影响因素的心理语言学实验、汉语阅读能力测验的设计和预测试、可读性自动化分析的指标体系设计和汉语文本可读性计算模型的初步建立等。目前已经通过多元回归方程建立了的汉语文本可读性公式,并建立了基于字、词、句和语篇四个层面特征的可读性预测模型,已经初步实现对母语者文本可读性的量化测评。
(4)取得了丰富的阶段性研究成果。
课题组出版了专著1部,英文编著1部(由国际知名出版社Routledge出版);共完成论文36篇,其中在国际国内权威期刊上发表了17篇论文(含录用3篇),已给期刊投稿4篇,在国际国内会议上发表论文15篇;自建了6个汉语文本语料库(共计1280万字)。
此外,指导课题组的研究生完成与课题相关的硕士、博士论文10余篇。
2 各子课题进展情况
(1)子课题一:面向可读性测评的汉语文本语言特征分析
该子课题从语言学的角度,在汉字、词语、句子、语篇等层面对不同难度的汉语文本语言特征进行描写分析,全面考察影响文本可读性的语言因素,分析不同语言因素对文本可读性的影响力强弱,为汉语文本可读性测评奠定语言学基础。
目前该子课题已完成以下几项工作:1)完成了低、中、高三级文本库的建设工作,并在子课题组内部实现了语料共享。2)对不同难度等级的汉语文本在汉字、词汇、语法、语篇等特征上的研究方案进行了总体设计和组内的交流讨论。3)课题组成员分头进行面向可读性测评的汉字特征分析、汉语词汇特征分析、语法特征分析和语篇特征分析。
目前已完成研究论文5篇,另有2篇文章正在撰写中,包括:
孟 凯(2019)现代汉语词法中虚义动词性成分的功能分工与语义作用,《世界汉语教学》第1期。
田 然(2018)基于语篇的“你好吗”“你好”对比研究,《国际汉语教学研究》第4期。
此外,该子课题组成员参加国内外会议6场次,举办学术讲座4场次。
(2)子课题二:面向可读性测评的汉语阅读认知机制研究
该子课题从心理学的角度,针对汉语文本阅读理解的认知机制问题,以汉语母语者和二语学习者为实验研究的对象,完成了一系列反应时实验、眼动跟踪实验和脑电实验,从字、词、句三个层面探究影响汉语母语者和二语学习者阅读理解难度的文本因素,为汉语文本可读性测评奠定心理学的理论基础。
目前该子课题已完成的工作包括:1)从理论和应用两个角度切入,具体从可读性定义及相关研究、影响可读性的因素,以及阅读文本的可读性测评及阅读文本的分级等方面收集文献资料。2)对文献资料进行梳理,将其整理为以下几个方面:字、词、句子、段落、篇章、概念、内容及运用、可读性的度量及阅读材料分级、读者阅读能力与阅读文本的匹配、可读性应用实例。3)完成有关的实验研究4项,目前已完成论文4篇,其中,论文Effects of self-enhancement on eye movements during reading已在国际权威期刊Frontiers in Psychology(SSCI期刊,影响因子2.129)发表,另有3篇论文已经给国际期刊投稿。
(3)子课题三:汉语文本可读性测评公式和计算模型研究
该子课题在子课题一、二研究的基础上,进行汉语文本可读性公式和计算模型研究。主要包括汉语母语者文本可读性公式和计算模型研究、汉语二语文本可读性公式和计算模型研究。
目前已经完成的工作分为以下两个方面:
第一,面向可读性测评的文本阅读理解和认知加工的心理学研究。通过一系列实验,从字、词、句三个层面,研究了影响汉语母语者和二语学习者文本阅读理解和认知加工的因素,为可读性公式和模型的建立奠定基础。目前共完成了10项实验,测试汉语母语者和二语学习者被试共计800多人次。
第二,子课题一、五的团队合作,建立了6个汉语文本语料库(具体如前所述),并以此为基础开展了可读性公式和模型的建构工作。这些工作包括:
1)以《中小学语文教材文本语料库》为基础,利用机器学习初步建构了汉语母语者文本可读性自动化分析模型。
2)以《中小学课外读物文本语料库》和文本难度的人工评定为基础,并且通过人工评定获取读物中常见的3000多个词的语义指标(具体性、透明度),利用多元回归模型建构了一个中小学生课外读物的可读性公式。通过这一文本可读性公式,目前可以初步实现对母语者文本可读性的量化测评。
3)在《对外汉语教材文本语料库》的基础上,完成了其中1690多篇文本难度的人工评定(6个等级,与《欧洲语言共同参考框架》对应),并对人工评定的效度和信度进行多维度检验。
4)开始尝试建立针对汉语二语学习者的可读性特征体系,并对一些特殊特征或指标进行量化和提取,为下一步建立汉语二语学习者的文本可读性公式和计算模型奠定基础。
子课题团队目前已经完成了有关论文11篇,其中已在核心期刊发表论文5篇(含录用1篇),在国际国内学术会议发表论文6篇。
目前部分实验研究工作集中在探究能够预测不同水平汉语学习者阅读加工的认知变量上,已经收集了部分数据,基于这些数据的两篇文章正在投稿中。
(4)子课题四:汉语阅读能力测评研究
该子课题研究汉语阅读能力测评方法,包括汉语母语者阅读能力测试和汉语二语者阅读能力测试,目的是将读者/学习者的阅读能力和读物的难度等级进行匹配。
目前该子课题已经取得了以下几个方面的进展:1)完成了文献搜集和整理工作。2)对汉语阅读能力的测评体系进行了充分的调研和论证。3)编制了针对本科来华留学预科生(汉语二语学习者)的汉语阅读能力测验,并对国内10所高等院校的2650名本科来华留学预科生的汉语阅读能力进行了预测试,对测试数据进行了初步分析。4)在系统考察现有的英语阅读能力测验和汉语阅读能力测验的基础上,以英语Lexile阅读能力测试为蓝本,正在编制针对中小学生(汉语母语者)的汉语阅读能力测验。
目前已经出版《第二语言阅读测试问题研究》专著1部(33万字)。
(5)子课题五:基于文本可读性和阅读能力测评的分级阅读网络平台建设
该子课题有两个任务:一是与子课题三的团队合作,研究和建立汉语可读性自动化分析系统;二是在子课题三、子课题四研究成果的基础上,实现文本可读性算法和阅读能力测试算法的集成,以及有关数据、服务的整合,研制面向公众开放的服务平台。
目前该子课题已经完成的工作包括:1)文献收集:整理了可读性相关的文献近400篇。2)文献综述:课题组对近年来文本可读性的自动分析工作进行了综述,并从特征选择方式和应用领域两个角度分析了汉语可读性研究的现状,并将综述撰写成文,发表在《中文信息学报》上。3)数据库建设:建立了《中小学语文教材文本语料库》和《汉语句子难度标注语料库》两个数据库(参见“研究计划总体执行情况)。4)构建了表征汉语文本可读性的特征集合,基于机器学习模型验证了特征集合的效度。5)面向篇章级和句子级的汉语文本,构建了基于特征工程的自动评价模型。
目前已经完成的成果:1)完成论文4篇,其中正式发表1篇,投稿1篇,在会议上发表论文2篇。2)建立《中小学语文教材文本语料库》1个,《对外汉语教材文本语料库》1个;3)建立《汉语句子难度标注语料库》1个。
二、调查研究及学术交流情况
1 调查研究
(1)文献资料的收集整理。课题组总共收集和整理了可读性和阅读能力测验方面的中英文期刊论文、会议论文和硕博论文5000余篇,中英文图书(含电子书)近1000余册。
(2)汉语文本语料的收集和语料库建设。建设了6个语料库,共计1280万字,包括:《中小学语文教材文本语料库》《中小学课外读物文本语料库》《汉语句子难度标注语料库》《对外汉语教材文本语料库》《对外汉语课外读物文本语料库》《新HSK阅读文本语料库》。
(3)文本阅读理解实验数据的收集。完成了针对汉语母语儿童、成人和汉语二语学习者的14项实验研究,参加实验的被试近1300名。
(4)阅读能力测试的预测数据收集。对国内10所高等院校的2650名本科来华留学预科生的汉语阅读能力进行了预测试。
(5)文本难度人工评定数据的收集。完成了1690多篇汉语二语教材文本的难度评定,每篇文本有10名评定者;完成了120多篇中小学课外读物的难度评定,每篇文本有3名评定者。
(6)句子难度人工评定数据的收集。使用成对比较的标注任务,通过众包标注确定大规模句子的难度级别。
(上述具体内容参见“研究进展”)
2 学术交流情况(学术会议、学术交流、国际合作等)
(1)学术会议和学术交流
立项以来,首席专家、各个子课题负责人、课题组成员和研究生围绕课题研究工作,参加了主题丰富、形式多样的学术会议和学术交流活动,具体如下:
首席专家参加的学术会议和学术交流:
1)2017年11月22日,江新教授应邀在中央民族大学国际教育学院举办了题为“汉语第二语言学习者语块加工研究”的学术讲座。
2)2017年11月23日,江新教授应邀出席国家开放大学《第二语言习得》课程教学大纲审定会。
3)2017年12月7日,江新教授应邀在首都师范大学国际文化学院举办了题为“汉语语块认知加工研究”的学术讲座。
4)2017年12月9日至10日,江新教授应邀赴西北师范大学做系列学术报告,报告的题目分别为“汉语第二语言认知加工的研究方法” “汉语语块认知加工研究”。
5)2017年12月2日,江新教授应邀出席北京大学对外汉语教育学院举办的“黉门对话”专家主题论坛“汉语作为第二语言的认知与习得”,并在论坛上作了题为“汉语第二语言学习者阅读知觉广度的眼动研究”的主题发言。
6)2018年5月26日至28日,江新教授和硕士生史未卿、张嫚应邀参加了在南京师范大学举办的“第八届中国国际眼动研究研讨会”。
7)2018年5月28日至31日,张博教授、江新教授应邀参加了在新疆喀什大学举办的“一带一路”核心区语言教育与服务高端论坛,并在会上做了大会报告。
8)2018年6月7日,江新教授应邀到中国人民大学举办了题为“汉语第二语言学习者语块加工和学习研究”的讲座。这是该校“心理语言学系列讲座”的第四场报告。
9)2018年6月22日至24日,江新教授和近10名硕士、博士研究生一起赴天津参加了在天津师范大学举办的“语言发展评估研讨会”。
10)2018年11月3日至4日,江新教授及其课题组研究生应邀参加了中国心理学会举办的“第二十一届全国心理学学术会议”,江新教授组织并主持了“汉语第二语言字词和阅读认知加工”的专题报告。
11)2018年11月8日至9日,江新教授应邀出席北京大学和中国国家汉办/孔子学院总部联合举办的“北京大学首届世界汉语研讨会暨第十三届国际汉语教学研讨会”,并在北京大学首届世界汉语研讨会做了题为“汉语教学的跨学科研究:现状与发展”的特邀发言。
12)2019年4月13日至14日,江新教授、田然教授以及硕士生袁若琳参加了“首届新西兰汉语作为第二语言教学与研究国际研讨会”,并应邀在会上做了题为“语素位置信息对汉语二语学习者阅读影响的眼动研究”、“二语学习者汉语语篇话题链习得研究”、 “汉语儿童和二语学习者图画书阅读的眼动研究”的学术报告。
13)2019年5月18日至19日,江新教授应邀在中山大学“第一届语言与语言习得研究工作坊”作主题报告,报告的题目为“汉语二语学习者语块加工优势的眼动研究”。工作坊结束后,江新教授还应邀为中文系(珠海)的研究生和本科生作了题为“汉语二语学习者名名复合词认知加工和学习研究”的学术讲座。
14)2019年5月31日至6月1日,江新教授应邀在浙江师范大学国际文化与教育学院作了题为“汉语二语学习者名名复合词认知加工和学习研究”的学术讲座,并出席了首届“一带一路”华侨华人与华文教育研讨会。
15)2019年7月5日至7日,江新教授应邀赴英国兰卡斯特大学参加“第17届英国汉语教学国际研讨会暨2019年英国汉语教学研究会”,并在会上做了题为“语块分行呈现对汉语母语者和二语学习者阅读中语块加工影响的眼动研究”的学术报告。
子课题一的学术会议和学术交流:
近两年来,子课题组负责人、成员多次参加国内外学术会议和学术交流,例如:
1)2018年5月,田然教授参加美国哥伦比亚大学汉语教学会议。
2)2018年6月,田然教授参加悉尼大学会议,宣读了本课题论文《基于语篇的“你好吗”、“你好”对比研究》,并与参会学者进行了讨论。
3)2018年6月15日至17日,孟凯副教授应邀参加《语言教学与研究》编辑部和安徽师范大学文学院联合主办的“第二届语言教学与研究国际学术研讨会”,并做了题为“现代汉语词法中虚义动词性成分的功能分工与语义作用”的报告。
4)2018年11月18日,孟凯副教授应邀参加中国人民大学文学院主办的“第五届北京青年语言学者(U50)学术交流会”。
5)2017年11月3日至5日,张博教授赴美国塔夫茨大学参加由北京师范大学、塔夫茨大学和俄克拉荷马大学共同主办的“第三届国际汉字汉语文化研讨会”,做了题为“提高汉语第二语言词汇教学效率的两个前提”的报告。
6)2018年5月10日,张博教授应邀在上海外国语大学国际文化交流学院作学术报告,题目是“汉语外来词的界定原则与基于借用等级的判定方法”。
7)2019年4月26日,张博应邀到北京大学对外汉语教育学院做题为《汉语并合造词法对词义结构与词义发展的影响》的讲座。
子课题一举办学术交流活动4次:
1)2018年9月25日,香港教育大学中国语言学系朱庆之教授应邀做学术讲座,讲座题目为“佛教文献与汉语词汇史研究”。
2)2018年10月24日,北京大学中文系董秀芳教授应邀做学术讲座,讲座题目为“汉语词法的几个突出特征及其历史根源”。
3)2018年11月8日,中国社会科学院语言研究所谭景春研究员应邀做学术讲座,讲座题目为“动词的目的义和名词的用途义及其在词典释义中的处理”。
4)2019年5月16日,浙江理工大学王艳助理研究员应邀做学术讲座,讲座题目为“汉语OVX结构的语义条件——兼论OVX结构与VOX结构的指称化路径”。
子课题二的学术会议和学术交流:
1)2018年4月26日至28日,李兴珊教授应邀在澳大利亚悉尼市举办的澳大利亚眼动大会上作题为“中文阅读过程中的眼动控制”的报告。
2)2018年5月26日至28日,李兴珊教授在江苏南京举办的第8届中国国际眼动大会上做了题为“中文阅读中的字的位置编码”的重点报告。
3)2018年6月25日至30日,李兴珊教授应邀在加拿大蒙特利尔举办的第29届国际应用心理学大会做了题为“中文阅读特异性的认知机制”的特邀报告。
子课题三的学术会议和学术交流:
1)Jin, L., Ren, Q., & Wang, J. (2019). Multimodal Measures for Writing Curriculum in a University Setting in Southwest China, 2019 Conference of College Composition & Communication, Pittsburgh.
2)Zhang, M., & Jiang, X. (2018). The effects of word segmentation on Chinese Pinyin text reading: Evidence from eye movements, CICEM2018, Psychological college of Nanjing Normal University.
3)Yuan, R. Y., & Jiang, X. (2019). Eye movements on picture book reading with Chinese elementary school students and second language learners of Chinese, Acquisition of Chinese: Bilingualism and Multilingualism, University of Cambridge, United Kingdom.
4)蔡建永、江新(2018)完形填空测验和汉语二语者语言水平的相关研究,北京语言大学第12届科研报告会,三等奖,北京。
5)蔡建永、江新(2018)完形填空测验在汉语二语者语言水平测评中的作用,第六届国际汉语应用语言学研讨会,美国爱荷华。
6)曹艺凡、江新(2018)字音和字形在汉语二语者双字词加工中的作用,第二十一届全国心理学学术会议,北京。
7)侯枫芸、江新(2018)部件标识和笔顺动画对二语学习者汉字学习的影响——来自反应时和ERP的证据,第三届《当代外语研究》二语加工国际学术研讨会,哈尔滨。
8)侯枫芸、江新(2018)部件标识和笔顺动画对汉语二语者汉字学习的影响,第二十一届全国心理学学术会议,北京。
9)史未卿、江新(2018)使用篇章阅读中的眼动指标区分读者的阅读理解水平:来自汉语母语者和二语者的证据,第八届中国国际眼动研讨会,南京。
10)史未卿、江新(2018)预测汉语二语者阅读理解水平的眼动指标体系的研究,第二十一届全国心理学学术会议,北京。
11)史未卿、江新(2018)预测汉语学习者阅读水平的眼动指标体系的研究,第六届国际汉语应用语言学研讨会,美国爱荷华。
12)邢滨钰(2018)汉字位置信息对阅读影响的眼动研究,2018对外汉语博士生论坛暨第十一届对外汉语教学研究生学术论坛,一等奖,北京大学。
13)邢滨钰、江新(2018)语素位置信息对汉语母语者和二语学习者阅读影响的眼动研究,第三届《当代外语研究》二语加工国际研讨会,哈尔滨。
14)邢滨钰、江新(2018)语素位置信息对汉语母语者阅读影响的眼动研究,第二十一届全国心理学学术会议,北京。
15)邢滨钰、江新(2019)语素位置颠倒对汉语二语学习者阅读影响的眼动研究,The First Symposium on Chinese as Second Language Teaching and Research in New Zealand: Inheritance and Innovation, University of Auckland.
16)徐晶晶、江新(2018)汉语二语者注音文本阅读的眼动模式研究,《世界汉语教学》青年学者论坛(第6届),北京。
17)徐晶晶、江新(2018)文本类型对汉语二语者眼跳目标选择的影响,第二十一届全国心理学学术会议,北京。
18)徐晶晶、江新(2018)文本类型对汉语母语者和二语者眼跳目标选择的影响,语言教学与研究国际学术研讨会(2018),安徽。
19)徐晶晶、江新(2019)汉字和拼音文本阅读效率的眼动研究,双语与多语语境下的汉语习得研讨会,英国剑桥大学丘吉尔学院。
20)徐晶晶、江新(2019)文字呈现形式对汉语母语者和二语者阅读效率的影响,第十七届英国汉语教学研究会年会,英国兰卡斯特大学孔子学院。
21)许宏鉴(2018)大会报告点评,第五届北京青年学者(G50)学术交流会, 中国人民大学。
22)许宏鉴(2018)对外汉语进修课程学习成绩和汉语水平考试成绩的相关性研究,首届汉语进修教育研讨会,北京语言大学
23)许宏鉴、江新(2018)汉语第二语言学习者语块使用及其与作文质量关系的研究,北京语言大学第十二届科研报告会,北京语言大学。
24)袁若琳、江新(2019)汉语儿童和二语学习者图画书阅读的眼动研究,首届新西兰汉语作为第二语言教学与研究国际研讨会,新西兰奥克兰大学。
25)张嫚、江新(2018)分词呈现对汉语拼音文本阅读影响的眼动研究,2018对外汉语博士生论坛暨第十一届对外汉语教学研究生学术论坛,北京大学。
26)2018年10月8日至11日,课题组主要成员蔡建永以及课题组研究生吴思远和姜悦赴湖北武汉参加了由华中师范大学心理学院主办的第六届“网络时代的心理与行为研究前沿”研讨会。会议专门开设主题为“文本分析工具Coh-Metrix的理论基础及应用”的工作坊。Coh-Metrix团队核心成员——美国孟菲斯大学蔡志强教授作为工作坊主讲人系统介绍了该工具的研发历史、理论基础、指标体系以及具体应用,而且特别提到了中文Coh-Metrix工具的研发情况。这些最新的学术前沿信息极大地加深了课题组成员对Coh-Metrix的深层理解,对于研发具有汉语特点的文本可读性分析工具有重要的借鉴意义。
子课题四的学术会议和学术交流:
1)课题组召开内部研讨会6次,每次研讨会要求课题组全员参加,并先后邀请课题组以外的汉语阅读测试专家8人次,高校汉语阅读教学专任教师15人次参与课题研究意见征求会议,并将专家调查问卷数据进行了录入、整理和分析。
2)召开2次关于汉语阅读能力测评方面的专题学术会议,重点探讨了汉语阅读能力测评体系的构想、测量对象、测量目标、测试内容、测试方式以及项目分析和分数体系等问题,对于测评体系的主要问题已经达成了共识。
3)课题组负责人和成员先后参加了两次国际学术会议,并提交了与汉语能力测评有关的论文,同时还邀请西班牙、英国等语言测试专家开展学术讲座。
子课题五的学术交流:
1)于东、吴思远、江新,汉语文本可读性特征体系构建及其效度验证,荣获2018年北京语言大学第十二届科研报告会二等奖。
2)吴思远、蔡建永、于东、江新,文本可读性的自动分析研究综述,第十七届中国计算语言学大会(CCL2018)。
3)吴思远、耿朝阳、唐玉玲、于东 (已投稿)基于众包标注的语文教材句子难易度评估研究,第十八届中国计算语言学大会(CCL2019)。
(2)国际合作
课题组邀请了美国卡内基梅隆大学Keiko Koda教授、马里兰大学蒋楠教授、宾夕法尼亚州立大学李平教授等来访,举办学术讲座,并与课题组研究人员和研究生座谈。通过这些活动,课题组与国际上著名学者建立密切的学术联系和交流,并且开始进行了初步的国际合作研究。具体国际学术交流和合作如下:
1)2017年10月30日至11月1日,第二语言阅读研究领域的国际著名学者、美国卡内基梅隆大学Keiko Koda教授应邀到北语对外汉语研究中心举办三场学术讲座。讲座由江新教授主持,先后参加讲座的师生近200人次。Koda教授的三场讲座分别以二语测评、二语词汇以及二语阅读发展为主题展开,第一场题为“外语教学与测评的综合方法”,第二场题为“提高外语词汇学习能力”,第三场题为“一语对二语阅读发展的促进作用”。Koda教授的三场讲座精彩纷呈。她不但将二语测评、词汇与阅读发展的理论研究与实践应用紧密结合,而且将研究问题与研究方法紧密结合,在每场讲座中她都以问题的形式启发、引导大家思考和讨论,在提问与回答之中将讲座推向高潮。每场讲座大家都用英语积极参与讨论,气氛热烈。子课题负责人柴省三教授等课题组成员参加了讲座,并与Koda教授进行了学术交流。除三场学术讲座外,Koda教授还应邀出席了两场座谈会,讨论与课题研究密切相关的阅读研究,并介绍了国际上可读性研究的著名学者和日语文本的可读性研究,为课题组成员和研究生进行相关研究提出了很多建议和帮助,并讨论了将来可以开展的合作研究。
2)2017年12月17日至12月22日,第二语言习得研究专家、美国马里兰大学蒋楠教授应张博教授的邀请来北语举办为期6天的“第二语言习得研究方法及期刊论文写作工作坊”,并做了题为“第二语言加工研究:目的、方法、内容”“汉外语义结构对比和对外汉语教学”两场学术报告。工作坊的报告和两场讲座均由江新教授主持。在工作坊中,蒋楠教授从论文选题、宏观设计、微观设计、结果—结论—论文等四个方面进行了精彩的讲解。蒋楠教授通过深入浅出的解释、精心挑选的文献、丰富生动的案例,系统清晰地阐述了如何确定研究的问题、阅读文献、设计实验、解释研究结果和撰写论文;通过不断拓展的提问、形式多样的互动、幽默风趣的语言,步步深入地引导大家思考研究选题、设计和结果解释中的问题。在蒋楠教授来访期间,课题组利用这个难得的机会,就课题研究工作的开展与蒋楠教授进行了深度的交流和讨论。工作坊结束之后,课题组与蒋楠教授保持了密切的交流,并开始了两项合作研究,第一项研究的成果已经撰写成文,给国际英文期刊投稿。
3)2018年10月30日至11月1日,国际知名的心理语言学家、美国宾夕法尼亚州立大学李平教授应邀在北语举办系列学术讲座。李平教授为美国宾夕法尼亚州立大学心理学、语言学、信息科学与技术等专业终身教授,脑、行为、认知中心联合主任,脑、语言与计算实验室主任,计算科学研究院副主任,神经科学研究生专业负责人;Journal of Neurolinguistics主编, Frontiers in Psychology: Language Sciences副主编;美国自然科学基金(NSF)评审专家,美国白宫脑计划、美国科学基金会科研课题首席科学家。在心理语言学、语言习得、计算机模型及双语的认知神经机制等领域出版了大量的研究专著及学术论文。李平教授两场讲座分别以第二语言学习的脑机制、科技论文阅读的认知加工为主题展开,两场讲座的题目分别为“Understanding the Second Language Learning Brain: Neurocognitive and Computational Approaches”“How Students Understand STEM Concepts: An fMRI study of Conceptual Representation through Expository Text Comprehension”。讲座由江新教授主持,子课题负责人郝美玲教授等课题组成员与李平教授进行了深入的交流。李平教授还与课题组进行了两场座谈,就可读性和阅读能力研究中的问题提出了自己的意见和进一步研究的建议。
4)2018年11月27日爱尔兰利默里克大学? Ceallaigh博士应邀到北语进行学术访问,并做了题为“基于内容的语言加工(Processing language through content)”的学术讲座。T. J. ? Ceallaigh博士在爱尔兰科克(Cork)大学教育学博士,现任教于爱尔兰利默里克大学玛丽伊玛克特学院(Mary Immacurate College, University of Limerick)语言与读写教育系。这是? Ceallaigh博士级2017年1月访问北语之后的第二次来访。这次来访,达成了爱尔兰方资助课题组两名博士研究生赴爱尔兰利默里克大学研修半年的合作意向,两名博士生即将于2019年9月启程赴爱尔兰研修。项目首席专家江新教授、子课题负责人郝美玲教授已先后获爱尔兰方资助赴爱尔兰进行为期10天的学术交流和课题合作研讨。
三、成果宣传推介情况
1 项目开题报告已通过学校科研处报送国家社科基金规划办;
2 课题组通过参加学术会议、讲座、召开座谈会等形式宣传课题的研究成果;
3 通过网站、微信公众号等途径发布课题的有关信息。
四、研究中存在的主要问题、改进措施,研究心得、意见建议
1 主要问题和改进措施
(1)大规模文本的难度标注问题。建立有难度等级标签的大规模文本训练集(黄金语料库)需要花费大量的人力,而且需要取得评定者的合作,保证评定者在主观上和客观上都能够认真完成评定,这有较大难度。课题组通过选择多名评定者进入实验室,进行分阶段多次评定的方法,在一定程度上解决了这个问题。
(2)通过近两年的研究,子课题四(汉语阅读能力测试课题组)发现如下问题:1)针对汉语能力测评体系的测量对象尚缺乏明确的界定。2)聘任兼具汉语阅读能力测试命题经验和专业素养的教师具有一定的难度。3)测量方式究竟采用纸笔测试方式还是机考方式,在成本、可行性方面尚未取得重要突破。4)研究人员在具体的测试开发中,对于汉语文本难度的把握存在一定的主观性。
针对上述存在的主要问题,课题组经过交流、讨论和权衡后准备采取如下改进措施,进一步推动项目的进展速度。一是再设计一份问卷,对于汉语作为第二语言阅读能力测试的对象进行需求分析(need analysis),对测量对象进行详细的分类界定,从而针对不同水平、不同需求的测试对象进行测试分级体系设计;二是加大国内外汉语阅读命题人员的培训力度,招聘更多地汉语阅读命题人员,满足项目推进的客观需要;三是对纸笔测试和机考测试的成本进行核算,最终确定测试方式;四是充分与子课题一和子课题二的研究人员进行沟通,借鉴子课题一和子课题二的研究成果,对命题人员初选的阅读文本进行量化统计分析,基于量化指标对文本进行选择,然后参考专家的意见制定文本选择的统一标准。
(3)在可读性模型建立时,遇到以下几个问题:1)在数据标注方法上,可读性研究中文本可读性的确定主要是请有经验的专家或教师为文本可读性打分,但是专家标注数据代价高,获取难度大。2)在数据规模上,本课题组目前构建了规模较大的《汉语句子难度标注语料库》和《中小学语文教材文本语料库》,但两个语料库的规模无法满足构建深度学习模型的需要。3)在建模方法上,本课题组使用特征工程方法构建了机器学习模型,但基于特征工程的方法学习能力有限,无法捕捉到文本语义层信息,且专家知识代价较高。
针对这些问题,课题组提出以下改进措施:1)在数据标注方法上,使用众包标注的方法收集文本难度的标注数据。与专家标注不同,众包标注面向大规模的人群,通过众包模式完成数据标注工作,适用于大规模标注工作。2)在数据规模上,未来的研究会考虑扩大《汉语句子难度标注语料库》的标注规模。在篇章级语料库上,考虑收集教辅材料中的文本数据,扩大篇章级语料库的规模。3)在文本表示方法上,除了基于专家知识的语言特征表征方法,本课题组拟使用眼动追踪技术的方法,通过记录读者在阅读时的在线加工表现,作为新的文本表征方法。4)在建模方法上,使用深度学习模型提高模型的学习能力,构建性能更好,准确率更高的模型。
(4)课题组研究时间和精力的问题。由于个别子课题负责人和成员同时承担了其他课题的研究工作,有时候时间和精力不能集中本课题的研究上。有的课题组成员教学工作量大,或手头有其他项目,因而投入本项目研究的精力有限。不同子课题的研究进展不太一致。今后要进一步加强课题组内部的交流,建立督促机制,推进课题研究;还应加强课题组研究团队的建设、加强子课题之间的协调沟通与合作;结合研究生的培养和学位论文的指导,支持和鼓励课题组的研究生更积极地参与项目的研究。
(5)研究经费的缺口问题。通过申请滚动资助解决。
2 研究心得、意见建议
(1)随着研究的深入,课题组越来越深刻地认识到,该课题的研究意义重大,甚至超过立项时的预想程度。随着网络文本的大量涌现,文本分析日益成为热点,文本可读性分析是文本分析的重要内容。而且,本课题的研究是一个大工程,需要分阶段逐步完成研究目标。
(2)从可读性公式的研制,到可读性自动分析工具和模型的建立,自然语言处理技术的进步为可读性的自动分析提供了多种思路和方法。
(3)机器学习模型可以有效预测汉语句子的难度级别,加入语言特征可以提升模型的预测准确率。句子是语言学习中常用的语言单位,也是多项自然语言处理任务的基本处理单元。句子级的可读性研究受到越来越多的关注。
(4)汉语阅读能力测验的研究,不仅具有理论价值,而且对于高校来华留学生汉语阅读能力的教学与培养具有较高的推动作用,同时间接提高留学生的培养质量,对于回应目前国内针对来华留学生招生、培养质量的社会质疑也具有一定的社会价值。基于该考虑,我们建议相关教育职能部门与课题立项的主管部门联动,共同推进针对来华留学生汉语阅读能力测评体系的研发、构建和推广力度,科学、全面地评价来华留学生的汉语阅读能力,维护我国高等教育的国际形象。
二、研究成果情况
主要内容:
一、代表性成果简介
1 专著:柴省三(2018)《第二语言测试问题研究》,对外经济贸易大学出版社,2018年9月
该著作对汉语作为第二语言测试的效度问题、信度问题、阅读测试的公平性问题、测评体系的长度问题、测试的信息化问题进行了系统的研究。该专著的主要观点是:语言测试体系的研发必须充分重视信度和效度问题,要充分考虑到不同考生的文化背景,避免测试文本在内容方面涉及到敏感问题(比如宗教、战争、领土争端、性别歧视等);该专著对于汉语作为第二语言阅读能力测评体系的研发在测量构想(construct)、测量内容、文本选择、测量方法等方面具有一定的学术价值,同时在高校汉语国际教育、语言测试专业研究生培养中也具有一定的社会影响。
2 编著:Xiaohong Wen and Xin Jiang(江新)(Eds.) Studies on Learning and Teaching Chinese as a Second Language. Routledge, 2019/1.
Studies on Learning and Teaching Chinese as a Second Language represents the current advances in the field. It showcases theoretically motivated empirical studies and diverse methods used for better understanding how Chinese language is acquired as a second or foreign language. This contributes to L2 acquisition research in general and L2 Chinese specifically. Furthermore, this research is useful for teachers seeking to understand their students’ learning processes and adjust their pedagogical approach for more effective instruction. The book bridges the gap between research and instruction by providing pedagogical implications rooted in empirical findings.
3 论文:Lou, Y., Cai, H., Liu, X., & Li, X(李兴珊). (2019). Effects of self-enhancement on eye movements during reading. Frontiers in psychology, 10.
基本内容:已有的研究表明读者的眼动受到文本属性和读者个人的认知特征的影响。本研究进一步表明,读者阅读汉语文本时的眼动特征受到自我增强的社会动机的影响。实验要求读者默读句子,这些句子用积极或消极特质描述自我或他人,同时记录他们的眼动轨迹。结果发现,当积极词汇被用来描述自我而不是描述他人时,首次注视时间和凝视时间更长,但是对于消极词汇没有发现该效应。这些结果提示,除了文本的视觉特征和认知因素,阅读过程的眼动行为还受到自我增强动机的影响。主要观点:人类动机尤其是自我增强动机,能够影响阅读中的眼动行为。为了增强或保持积极的自我,人们通常会选择性地记住他们的优势而非弱势,所以会更多地关注描述自我的积极词汇。学术价值:拓宽了我们对汉语文本阅读过程中眼动控制机制的多种影响因素的理解;提示眼动跟踪技术可以用来研究汉语文本阅读理解过程中读者的动机。
4 论文:吴思远、蔡建永、于东、江新(2018)文本可读性的自动分析研究综述,《中文信息学报》第12期
文本可读性问题最初由教育学家提出,初衷是辅助教师为语言学习者推荐适合其阅读水平的文本。随着计算机技术的发展及网页文本的涌现,对文本进行可读性分析有了更加丰富的技术手段和应用场景。该文对可读性自动分析的相关研究进行了梳理,将可读性自动分析的方法总结为公式法、分类法和排序法三类;然后进一步介绍了可读性自动分析中的两项重要内容:文本特征的选择和数据集的使用;最后对可读性研究的发展方向进行展望。
5吴思远、于东、江新(2019)汉语文本可读性特征体系构建及其效度验证,《世界汉语教学》(投稿,在审)
本文主要研究如何利用汉语文本的语言特征对汉语文本的可读性进行分析。目前,汉语可读性研究多使用字词层面的表层特征,较少涉及句法和篇章层面的特征,也缺乏对特征效度的对比分析。本研究首先从汉字、词汇、句法和篇章四个层面出发,构建了一个预测汉语文本可读性的多层面、多维度特征体系,然后以12个年级的《中小学语文教材文本语料库》为基础,通过建立机器学习模型考察了不同层面语言特征的预测能力。实验结果显示:基于汉字层面特征的模型、基于词汇层面特征的模型预测准确率最高,基于篇章层面特征的模型准确率次之,基于句法层面特征的模型准确率最低;虽然基于单一层面特征的模型可以有效预测汉语文本可读性,但多层面特征组合的模型预测力更强。我们还发现,不同层面语言特征的预测能力受文本的可读性级别影响。
6 论文:孟凯(2019)现代汉语词法中虚义动词性成分的功能分工与语义作用,《世界汉语教学》第1期。
现代汉语中由虚义动词性成分(V虚)“打、为、行、作、做”构成的“V虚+V”是古汉语遗存。这5个V虚的构词力不同,“打”属强势构词,其他几个属零星构词。产生构词力差异的原因主要在于这几个V虚各有功能分工:“打”主要在词法上构造“打虚+V ”,可组配的V语义类型丰富;构词力一般的“行”与“作”,可组配的V语义类型的互补性较明显,前者倾向于与强动作性或动作凸显的V组配,后者倾向于与弱动作性或动作不凸显的V组配;“为”和“做”的构词力都较弱,“做”主要在句法上充当实义动词前的形式动词。V虚在词法中的语义作用主要是:1)使“V虚+V”比V语义抽象,表现在使“V虚+V”与V的语义倾向不同和将V的[+动作]转变为“V虚+V”的[+活动];2)使“V虚+V”与V的语体附属义不同;3)使“V虚+V”与V多义关系的表现不同。轻动词性V虚在汉、英词法中都呈现出与其句法表现不同的功能分工与语义作用,这种词法、句法差异具有一定的类型学意义。
7 论文:李润生(2019)汉字教学中正确运用“联想识字法”应遵循的原则,《汉语学习》(录用,将刊)。
联想识字法是汉字教学领域运用广泛而又充满争议的识字法。实践证明,恰当地运用联想识字法,有利于提高汉字学习效率,但如果运用不当,就会给汉字教学造成混乱。正确运用联想识字法,需遵循以下四个原则:(1)对汉字形义关系的联想不能误解成汉字的造字理据;(2)联想识字法仅适用于部分汉字,特别是难学易错的汉字,避免错误类推;(3)联想具有多样性和个体性,个人联想的内容不宜随意推广;(4)形义联想的内容不能冲击汉字符号系统,以免引起学习者文字观念的混乱。
8 论文:田然(2018)基于语篇的“你好吗”“你好”对比研究,《国际汉语教学研究》第4期。
本文从话语分析视角对“你好吗”“你好”这两个问候语进行了对比分析。从使用频率与适用广度上看,“你好”具有显著高频特征,适用于从陌生到熟识的各种话语角色;而“你好吗”则具有显著低频特征,只适用于高熟识度的亲人、老友及情侣间。从情感功能方面看,“你好”情感量值显著低于“你好吗”。从历史方面看,“你好”在清朝时出现,清朝中期“你好”根据语境应为疑问语气,后人以问号标识,清朝末期用法与今日相同,今日用法与英语中问候语 hello 类似; “你好吗”最早见于元朝,明朝、清朝均有用例,用法基本与今日相同,不能认为其来自英语,用法也与how are you不同。这两个小句难度等级不同,“你好吗”有更高的习得坡度,所以不适合在教材开篇时便教授给初级水平的汉语学习者。
9 论文:郝美玲(2018)高级汉语水平留学生汉字认读影响因素研究,《语言教学与研究》第5期。
汉字的学习和掌握是留学生汉语学习的核心和难点,本研究旨在探讨影响汉字认读的客体因素,以期为留学生汉字教学提供参考。采用相关和回归分析方法,本研究考察了35名高级汉语水平留学生对1200个常用汉字的即时认读情况及其主要影响因素。结果表明,汉字使用频率是留学生汉字认读任务最重要的影响因素,语义具体性、读音规则性和构词能力,也对汉字认读有显著预测作用,但汉字基本视觉属性,包括笔画数和部件数未能表现出显著影响。文章还比较了留学生与汉语母语者在汉字认读影响因素上的异同。最后简单讨论了留学生汉字教学中需关注的几个方面。
10 论文:郝美玲、周思浓(2019)汉语初学者汉字阅读准确性与流畅性影响因素研究,《世界汉语教学》(录用,将刊)。
元语言意识与认知技能在儿童字词习得中扮演着重要角色,但是它们在汉语第二语言字词习得中作用如何却鲜有研究。本研究以初学汉语三个月左右的学习者为被试,考察了影响他们汉字阅读准确性与流畅性的元语言意识和认知技能。回归分析发现,声调意识和正字法意识可以显著预测学习者汉字阅读的准确性,而视觉加工技能、语音意识和快速命名却可以显著预测学习者汉字阅读的流畅性。该结果模式表明,汉字阅读准确性与流畅性是阅读能力不可或缺的成分,二者的发展需要不同的认知能力。基于此,我们建议,在未来的汉字教学中,除了要帮助学习者准确认读汉字,还应加强流畅性的训练,而元语言意识的培养可以从根本上促进汉字阅读的准确性与流畅性。
11 论文:房艳霞(2018)提高语块意识的教学对汉语第二语言学习者口语产出的影响,《世界汉语教学》第1期。
语块在语言中大量存在,语块加工是否存在优势,对此学界还存在争议。本研究以包含语块和相对应非语块的72个汉语句子作为实验材料,以62名中级、高级汉语第二语言学习者和33名汉语母语者作为被试,考察阅读过程中语块与非语块加工的差异。实验结果显示,在目标词组(指语块和非语块)、目标词组末尾字、目标词组后位词和整句四个兴趣区,汉语母语者和第二语言学习者都表现出稳定的语块加工优势。这种加工优势表现为更短的注视时间和更少的注视次数,且在阅读的早期阶段和后期阶段都有所体现。在目标词组兴趣区母语者的语块加工优势比第二语言学习者更大。
12 论文:徐晶晶、江新、张习文(2018)拼音文字背景的外国学生汉字书写表征单位的初步研究,《汉语国际教育(中英文)》第3期。
本研究采用基于数字墨水技术的实验方法,探讨拼音文字背景的外国学生在汉字书写中的表征单位,并考察书写表征单位是否与学生汉语水平和汉字结构有关。实验以36名学习汉语的拼音文字背景留学生为被试,要求被试用Anoto数码纸笔抄写24对形近字(例如“窄”与“容”),考察关键笔画间隔的停顿时间。结果发现:(1)关键笔画间隔在部件之内的停顿时间显著短于在部件之间,这种间隔位置效应与汉语水平无关,表明第二语言学习者与母语者一样,将部件作为其书写表征单位;(2)书写上下结构和左右结构汉字时,关键笔画间隔在部件之内的停顿时间都要比部件之间短,这表明部件作为书写表征单位不受汉字结构的影响。本研究结果提示我们在汉字书写教学中应重视部件的作用。
13论文:华丽娅、江新(2018)摩尔多瓦人汉字抄写和字形知觉的实验研究,《汉语国际教育(中英文)》第3期。
汉字对母语为字母语言的人来说是一种复杂的图画,对以罗马尼亚语或俄语为母语的摩尔多瓦人来说也是如此。对没有学过汉字的摩尔多瓦人来说,面对这样一幅幅既繁杂又没有意义的图画时,他们对汉字字形的感知有什么特点?本文通过抄写实验考察了22名摩尔多瓦人对不同结构类型汉字的字形知觉,使用数码笔记录汉字书写的动态过程,以分析被试抄写汉字时笔画、部件书写的先后顺序。结果发现:(1)汉字书写存在优势笔画;(2)被试的汉字书写受母语负迁移的影响;(3)被试书写笔画数多的汉字容易出现缺少笔画的现象;(4)多部件的汉字书写可能受汉字结构的影响。
三、下一步研究计划
1 各个子课题在已有工作基础上继续按计划推进。
2 扩大汉语文本收集范围。1)计划收集中小学教材中的文言文和课外读物中的文言文,将可读性的研究范围从现代汉语扩展到古代汉语,尝试研究文言文阅读理解的难度因素并建立文言文可读性分析模型。2)计划收集海外主流的汉语教材课文,将汉语二语教材课文的收集范围从国内扩展到海外。虽然自建的汉语二语教材语料库已经包括了一套美国出版的教材,但是还应增加海外教材的数量。3)继续收集和补充汉语水平考试的阅读测试文本。除了收集真题语料,还可以收集模拟题语料,为考试文本语料的难度/可读性分析奠定基础。
3 扩大研究对象。除了以中小学生、来华汉语学习者为研究对象进行实验和调查,还计划扩大研究对象的范围:1)以新疆等少数民族地区汉语/国语学习者为研究对象进行实验和调查,研究新疆少数民族汉语/国语学习者文本阅读的难度和影响因素,比较他们与内地中小学生汉语文本理解难度影响因素的异同,研究适应新疆少数民族汉语/国语学习者的文本可读性分析系统。2)以海外汉语学习者(包括成人和儿童青少年)为研究对象进行调查,考察他们理解汉语文本的普遍性和特殊性,研究适应海外汉语学习者的文本可读性分析系统。3)对来华留学生的研究从普通的汉语教学阶段扩展到入系学习专业的学术汉语教学阶段。
4 课题总体研究进度计划和工作方案。
(1)第一阶段(2019年8月至2020年7月)
1)扩大文本语料库的规模,完善和补充现有自建语料库(子课题一、三、四、五);
2)继续进行文本难度的人工评定数据的收集,完善黄金语料库的建设,为可读性计算建模准备好大规模的数据集(子课题三、五);
3)继续开展不同难度等级文本的语言特征分析、不同类型学习者阅读理解的心理语言学实验研究,在前期对不同难度文本进行字、词层面特征分析和实验研究的基础上,重点聚焦句子、语篇层面的分析、描写、实验和特征量化。同时分析不同层面、不同语言特征对于文本难度的影响力大小,以及影响不同类型文本可读性、不同类型学习者阅读的重要因素,找出重要特征并进行量化。
4)在以上工作的基础上,对重要特征进行量化并实现自动化提取,利用机器学习算法建立针对母语者的汉语文本可读性模型(子课题一、二、三、五)。
5)基于Lexile阅读能力构念和题型编制汉语阅读能力测验题目,并进行预测(子课题四)。
(2)第二阶段(2020年8月至2021年7月)
1)对汉语母语者的可读性分析模型进行内外部效度检验,对模型进行修正、完善,最终获得一个可以应用的可读性自动化分析系统(子课题一、二、三、五);
2)借助文本难度预测系统,对文本进行难度计量和统计分析,获得文本的难度指标,组织命题员进行较大范围内的命题,选择目标被试,进行预测试,以估计不同难度文本的各种参数,建立适当规模的阅读能力测试题库(子课题四);
3)进行文本可读性自动分析系统的开发(子课题五)。
(3)第三阶段(2021年8月至2022年7月)
1)使用眼动追踪技术的方法,通过记录读者在阅读时的在线加工表现,作为新的文本表征方法(子课题二、三、五)。
2)使用深度学习模型提高模型的学习能力,构建性能更好,准确率更高的可读性预测模型(子课题五)。
3)针对汉语二语学习者的特点,完成二语者可读性预测模型的建立、效度验证和模型修正(子课题二、三、五)。
4)建立可读性测评网络子系统(子课题三、五)。
5)设计和开发计算机多阶段(MST)半自适应性测试,完成汉语阅读能力系统的建设(子课题四、五)。
(4)第四阶段(2022年8月至2022年12月)
1)将数据库、文本可读性测评、阅读能力测评有机整合和集成,以统一形式呈现,作为课题最终示范应用平台(子课题五)。
2)基于汉语可读性和阅读能力测评的分级阅读网络服务平台试运行(子课题五)。
3)准备结题工作(所有子课题)。
课题组供稿