旧版网站入口

站内搜索

基于特定领域的网络资源知识组织与导航机制研究中期检测报告

2016年11月29日15:28来源:全国哲学社会科学工作办公室

一、研究进展情况

①本项目于2012年12月立项,研究已开展将近三年半,项目总体执行情况以及各子课题进展情况顺利。自2014年6月中期检查后,项目举行课题中期报告说明会,根据会上各课题组成员的讨论和建议,继续深化各子课题的研究方法和进展,项目首席专家对后期工作的总体推进和协调进行了进一步的统筹和调整。期间,课题组成员定期(每周或每两周)召开例会集中汇报讨论各课题组成员的研究进展,并布置下一步任务与计划,每次例会均有首席专家主持并点评,与会成员们积极发言讨论。

子课题一:面向学科领域的网络信息资源及其深度聚合与导航基本理论研究

1.图情领域网络资源分布及利用需求

在对网络学术资源进行类型划分的基础上,进一步对网络学术资源的分布、网络学术资源的类型、网络学术资源的微观结构和特征等方面进行了深入研究。首先,从网络引文的角度,对特定领域研究网络学术资源的利用情况和需求进行了深入的探讨,包括主题分布、域名分布、类型分布、URL深度分布、研究者利用数量、利用类型、利用目的等特征。其次,以图情领域网站间的社会网络关系为切入点,采用社会网络分析法,借助社会网络分析工具Ucient,从国内图情网站中选择了15种资源类型,共306个有效网站进行分析,按照网站间的友情链接关系构建了网络关系图,并进行了图情领域整体网群可视化分析、网络密度分析、中心性分析和核心-边缘结构分析。按照资源类型,对其中10种资源类型的图情领域子网群的网络结构和中心性进行了分析。网络结构分析发现图情领域整体网群结构松散,处于核心位置的网站较少;高校图书馆网群、科技情报研究所网群和公共图书馆网群联系的最为紧密。中心性分析发现了三类核心网站,这三类网站都处于网络中的重要位置。

2.网络资源的引用行为与动机

选择在线百科这一类型网络资源为研究对象,将引用类型划分为八大类,分别为(1)网站或词条本身的引用以证明网站或词条的存在,此类主要包括直接在网站名或词条名后进行标注,没有具体引用其内容。(2)图书情报学专业术语的引用,此类是指引用的词条为图书情报学专业术语。(3)非图书情报学专业术语的引用,如计算机科学、医学、法律、社会学等的相关概念。(4)专有名词、流行文化等的引用,此类包括不具体归属于某一学科的专有名词,如人名、地名、机构名、作品、公司名、产品名、网络用语、某些新出现的网络现象、新闻、历史性事件的描述等。(5)数值类引用,主要是指引用某一具体数值,如社会经济指标等。(6)公文标准类引用,包括政府政策、法规等以及明确指出某一协会或报告的间接性引用。(7)冗余引用,此类是指在引用在线百科资源之前还标注其他类型资源的引文,而如果其他类型的引用是出现在之后则根据其特征归入其他某一类中。(8)其他,如图片、表格等的引用。并对这八种类型的引用分布进行了统计分析。

子课题二:面向学科领域的网络信息采集、抽取和预处理

1.基于主题的采集

互联网上(如电子资源、网络数据库、专题论坛、研究博客、维基百科等等)积累了丰富的学科信息资源,这些资源由于缺少统一的形式化表达与操作标准,呈现异质、异构、分散、重复、动态和隐藏等特征,严重限制了资源的集成应用,如何快速有效地获取所需专业信息或决策信息成为亟待解决的重要问题。以1998年康奈尔大学的Watts和Strogatz建立的小世界模型、1999年圣母大学的Barabási和Albert建立的无标度模型为标志,研究人员广泛使用复杂网络理论对社会网络进行分析,分析网站之间构成的网群的拓扑结构,从而分析信息的发布、互动和传播特性,以便采集。利用复杂网络理论对兴趣社交网站进行了拓扑结构分析。兴趣社交网站就是兴趣爱好的社交平台,人们通过共同爱好形成各种兴趣社区,针对某个或某几个主题展开交流,作为“领域专家的意见领袖”在引导兴趣主题的发展上起着主导作用。3个社区的出入度分布的幂率指数a均满足大多数社交网络的度分布函数的幂率指数范围1<a<2[22],这种无标度特征揭示出网络存在中心节点、网络资源占有不平衡的现象。对兴趣社交网站的采集,我们采用滚雪球采样法,在开源软件Heritrix的基础上,自行开发数据采集器。采集器共抓取了近600万页面,总容量接近60G。对百科资源的采集,采用维基百科中文版(zh.wikipedia.org)的镜像文件,共约1.2G。在主题相关性计算方法方面,选择中文维基百科这一理想的语义知识资源进行领域概念的相关性研究,包括基于语义距离、信息量和文本重叠的计算方法三种。

2.基于语义的抽取。

采用基于依存句法分析的方法,基于哈工大的语言云平台,只需要根据API参数构造HTTP请求即可在线获得XML分析结果。继而选用了中科院计算所谭松波博士提供的酒店、电脑2个领域的4000篇评论语料进行了依存句法方面的分析。

子课题三:面向学科领域的网络信息资源深度聚合研究

1.聚合单元内容元数据

目前已有的元数据标准基本都以粗粒度的信息资源为单位,如一本书、一篇论文、一个网页等,而缺少对细粒度信息资源的描述标准,如章节、段落、句群等聚合单元。因此,为了使更细粒度的网络信息资源得以被便捷、高效地检索和利用,有必要建立细粒度信息资源的元数据描述框架。本文以图书情报领域为例,图书情报领域网上免费信息资源包括OA论文、百科、博客、微博、论坛、新闻、教案、程序等。本文对不同网络信息资源类型进行研究,探讨网络资源细粒度单元的划分以及组织机制,旨在建立针对不同资源类型的统一的细粒度单元元数据描述框架,为网络信息资源聚合提供可操作的信息组织理论基础。本文在已有的研究基础上,综合对文献单元研究的已有成果并借鉴应用语言学对于体裁分析的研究确定聚合单元的定义框架。然后,针对不同层级单元的属性特征,构建描述聚合单元访问信息、物理信息和语义信息的元数据框架,并探讨了元数据实现自动抽取的可能性。最后,本文依据元数据框架设计并实现了网络资源细粒度单元检索数据库,通过实验法展示元数据框架支持聚合与检索的效果。

2.学术会议PPT资源深度聚合

按照“相关理论研究-模型构建-实证分析”的思路进行研究。首先,总结和归纳国内外学者在学科领域网络信息资源理论、信息聚合、会议文献资源等相关领域的研究成果,深入了解国内外有关信息资源深度聚合的理论基础及其最新研究成果。其次,借鉴已有的聚合理论与方法,结合会议 PPT 的特征,从文献特征关联维度,针对会议、关键词、主讲者、主讲者机构等的关联关系,结合社会网络分析方法与计量学方法,利用会议 PPT的主讲者、主讲者机构、关键词等关系及其之间交叉关系建立会议 PPT聚合模型,通过社会网络关系可视化地展示关键词网络、关键词-会议网络、主讲者-会议网络、主讲者-关键词网络、机构-会议网络、机构-关键词网络、关键词-会议-主讲者网络、关键词-机构-主讲者网络等,并且根据不同网络的特点,采用不同的社会网络指标(密度、中心性、小世界等)分析不同的网络,研究揭示了会议研究主国内外图情领域学术会议网络 PPT主题、会议主题相关性、主讲者间潜在的交流关系、研究主题分布及各主讲者的研究兴趣、机构间的潜在交流、机构研究主题的相关性等。

3.情景相关的网络学术资源聚合单元研究

在回顾多类型网络资源聚合、细粒度检索与聚合和用户聚合需求与行为研究的基础上,提出按照学科领域用户认知规律划分聚合单元、通过揭示和利用用户与多类型网络学术文档内聚合单元的关联关系从而实现细粒度聚合的聚合模式,以优化用户网络学术资源获取的效率与效用。在借鉴语言学的语篇体裁理论、相关性理论和图书情报学的情景检索理论的基础上,以图书情报学领域网络文档为研究对象和范围,展开三阶段实证研究:第一阶段,在文献回顾和网络调查的基础上构建跨类型网络文档聚合单元类型体系,并进行基于语料的有效性检验。该体系涵盖论文题录、OA期刊论文、网络百科和博客文章等四种体裁类型的网络文档,并统一划分为篇章—构成—功能单元三个层级;第二阶段,通过两轮用户调查检验第一阶段类型体系的有效性以及一组信息搜寻任务下各层级和各类聚合单元感知有用性的差异,并初步探讨了与任务存在高相关性的聚合单元之间可能存在的关系;第三阶段,在实证研究结果的基础上,设计任务关联的细粒度聚合系统,并对网络学术文档聚合单元自动识别进行探讨,从而为聚合单元类型体系的应用提供借鉴。

4.特定学科领域的网络资源语义聚合研究

在对语义聚合理论进行总结和综述的基础上,提出了前控+后控的语义聚合模式。在前控阶段,采集到学科领域网络资源后,聚合系统先利用领域本体对资源进行语义描述,建立资源之间的语义关系,构成多维度的资源语义描述库,并提取资源语义描述索引。在后控阶段,聚合系统利用领域本体将用户提出的自然语词自动转换成学科领域概念,并根据领域本体中的概念关系对用户提问作进一步的语义引导和挖掘。最后,在聚合处理阶段,聚合系统将语义明确的用户需求与资源语义描述库进行语义匹配,计算提问和资源的语义距离,形成资源聚合体,并通过多种语义聚合网络展示出来。

子课题四:用户认知导向的学科领域网络信息资源导航机制研究

1.Flow测量

网络环境下Flow量表的研究仍处于发展阶段,研究重点在于Flow维度识别及其结构厘清。已有研究中,Flow的操作化定义形形色色,Romero(2015)宣称其中不乏误操作的产物,他们坚持,只有深入认识和理解Flow本质,才能准确操作化Flow。Flow测量包括单一维度测量法和多维度测量法。单一维度测量法视心流体验为单一维度直接衡量。单一维度测量法又分为三种形式,第一种是“心流短摘录”。“心流短摘录”是以简短摘录的方式描述心流体验,以Bilgihan(2015)为例,它的“心流短摘录”文本为:“’心流’是用来描述人们全身心投入某项活动的精神状态。例如,当用户网上购物进入心流状态时,心无杂念,身心合一,全神贯注地投入并享受其中。许多人在网页浏览、在线聊天和文字编辑等活动都会经历这种感觉。”第二种测量方法是“技巧与挑战的平衡计分”,它的原理基于心流体验的四通道模型,该模型认为,“流动状态”产生于挑战与技巧适配且都处于高水平时。据此,可以通过量表的方式获取被试在技巧和挑战方面的得分,比较它们之间的得分就可以判断受测者是处于技巧高于挑战的“无趣状态”、挑战大于技巧的“焦虑状态”,还是技巧与挑战匹配的“流动状态”第三种是“混合维度测量法”,混合不同维度的指标测量心流体验。陈洁(2009)和Skadberg and Kimmel(2004)定义心流体验为“时间感扭曲”和“愉悦感”,Senecal, Gharbi, and Nantel (2002)混合专注、控制、挑战与愉悦感的指标测量心流体验,Jiang and Benbasat (2005),类似的,Jiang and Benbasat (2005)视控制、专注和愉悦感为心流体验, Choi, Kim,and Kim (2000) 的心流体验测量由2个内在兴趣指标、2个好奇感指标、1个控制指标和1个专注指标组成。类似的研究有WU(2014)、Barker(2015)。为了弥补单一维度测量法无法全面揭示心流概念的不足,多维度测量法应运而生。与“混合维度测量法”把心流定义的部分维度指标(如愉悦、控制或专注等)混合成单一构念(construct)不同,多维度测量法视心流为多维度构念,每个维度采用若干指标单独测量,运用结构方程模型检验这些维度是否指向同一高阶因子,从多维的角度呈现心流概念的结构。在网络环境下,早期多维度测量法的对象并不是Flow本身,而是Flow相似概念,例如Koufaris(2002)把体验操作化为五个维度,分别是控制、愉悦、专注、感知有用和感知易用,与之相似的还有Bridges and Florsheim(2008)把Flow操作化为临境感、时间感扭曲、技巧、交互速度和重要性。作为中介变量,这些维度在研究架构中的作用得到了检验,但研究对维度之间的关系避而不谈。

2.学科领域网络资源聚合系统导航的用户行为研究

结合国内外学者对导航行为的已有研究,构建了学科领域网络资源聚合系统导航的用户行为研究模型,主要使用实验的方法,以图情领域网络资源聚合系统“e线图情”作为实验网站,选取图书情报学科的本科生、研究生共23名作为实验对象,设计了 10 个事实信息任务,利用屏幕录制软件采集实验对象的行为,使用 SPSS19.0 对实验数据进行统计分析。研究表明,个体特征中,性别、受教育程度、网络使用年限对用户的主观复杂性判断具有显著影响;性别对用户导航使用过程中的导航时间、每个页面所花时间有显著影响,受教育程度和网络使用年限对导航使用行为没有显著影响。不同认知风格的用户对任务的主观复杂性判断、导航使用过程中访问的不重复页面数量、主页次数、导航栏次数都具有显著差异。任务目标页面的逻辑层级对客观任务复杂性有显著影响,逻辑层级对导航栏

访问次数有正向影响,与主页访问次数负显著相关。客观任务复杂性会影响用户的主观复杂性判断,并对导航使用过程中访问的页面总数、不重复页面数、导航栏访问次数、重访率、导航时间具有显著影响,且与任务执行结果显著相关。用户对任务复杂程度的主观判断会影响其执行任务过程中的所有行为特征。

3.网络信息资源聚合情境下大学生用户心智模型研究

以信息用户心智模型的构成维度为研究切入点,将定性与定量方法相结合,综合利用概念列表法、半结构化访谈法和问卷调查法,以中山大学学生为调查对象,探索当前环境下大学生用户对于网络学术信息资源聚合及聚合系统的心理认知情况。网络信息资源聚合情境下大学生用户心智模型主要包含认知和评价两个层面,其中认知体系主要包括有用性认知、资源聚合功能认知、资源聚合的环境认知,评价体系主要包括对比评价、检索效果评价、负面评价。

子课题五:面向学科领域的网络信息资源深度聚合与导航机制应用研究

1.构建面向学科领域的网络信息资源深度聚合与导航原型系统

基于任务相关性的跨类型网络资源聚合单元类型体系的细粒度聚合系统的设计将围绕细粒度聚合系统设计原理、语料库数据来源、数据结构与组织、聚合机制、界面设计等几个方面进行。在聚合单元类型体系构建和任务相关性研究的基础上,我们得到由4类体裁、15类构成单元和54类功能单元组成的聚合单元类型体系,为当前聚合检索系统原型的设计提供参考,从而通过提示和呈现与任务高度相关的聚合单元来促进检索的效率和效用。通过三个功能可达到这一目标:一个是聚合单元任务相关性的排序器,在主题相关性的基础上,对聚合单元的排序进行加权;第二个是聚合单元选择器,可根据用户所选择的任务类型选择相关的聚合单元;第三个是相关聚合单元提示器,可在对各类资源进行主题匹配的基础上,根据检索任务的相关性对相关的聚合单元进行提示。系统采用JAVA语言编写,采用JFINAL框架进行开发,并以Sqlserver数据库管理系统对基于“引文分析”聚合单元语料库的元数据和文本数据进行管理和检索,包含检索匹配和结果呈现两大功能模块。语料库中 81 篇资源分由三个层级的元数据表进行组织。其中篇章元数据表主要包括:资源 ID、资源类型、资源体裁、标题、篇关键词、分类、来源、更新时间、作者等字段;构成单元元数据表主要包括:构成 ID、来源文献 ID、题名、章节层级、构成名称、标题关键词等;功能单元元数据表主要包括:功能单元 ID、来源文献、构成 ID、功能单元名、内容关键词等字段。三层级元数据除了包含上述字段及相应内容外,还包含对应的全文内容。篇章、构成与功能单元三个层级的元数据为各层级单元内容的检索提供了支持,并支持三个层级内容间的链接和跳转。

②调查研究及学术交流情况(调研数据整理运用、文献资料收集整理、学术会议、学术交流、国际合作等);

1.数据收集与文献资料整理

(1)数据收集。数据采集包括三个方面,一是学科领域网络学术资源数据的采集,包括OA期刊论文、百度百科和维基百科、精品课程、学术会议等的采集,OA期刊论文如《现代图书情报技术》、《知识管理论坛》、《图书情报工作网刊》刊载的所有论文的文献著录数据和全文数据,国内外图情领域会议的PPT资源等;二是舆情数据的采集;三是用户利用与需求数据的采集,包括采用实验法和用户调查法,如在图情领域大学生用户的网络资源聚合需求以及其在网络资源聚合系统中的查寻行为方面,通过问卷调查图情领域学生对网络资源聚合系统的使用情况和评价以及对网络资源聚合粒度的需求,以了解用户对网络资源聚合的需求状况,同时通过实验,以检索式策略、导航菜单使用频率、检索结果浏览方式、检索时长作为指标,对比分析用户在一般环境下和网络资源聚合系统情境中查寻行为的差异以及个体特征、检索技能与经验、检索任务复杂度和任务聚合粒度需求对用户查寻行为的影响,同时对其检索结果和过程的满意度进行评价;

(2)文献收集。

A.聚合单元相关研究。

国内外对聚合单元的研究主要分为三个方面:知识元研究,学习对象研究和关联数据研究。弗拉基米尔·斯拉麦卡来华讲学时曾指出,知识的控制单位将从文献深化到文献中的数据、公式、事实、结论等最小的独立的“数据元”(事实上指的就是“知识元”),而大量文献中所包含的“知识元”及相关信息间的链接能产生极大的知识增值。马费成教授也指出情报学取得突破的关键之一是知识信息的表达和组织必须从物理层次的文献单元向认识层次的知识单元或情报单元转换[1]。学者徐如镜指出知识的控制单位长期停留在文献一级,而人们对知识的需求一般不是以文献为单位[2]。周宁等指出互联网信息检索查准率、查全率不高的原因主要是信息组织的深度还停留在文献层次,根本的解决方法是对信息资源进行深入到知识元层次的信息组织[2]。

在“知识元”的研究中,以西安电子科技大学温有奎教授为代表的对中文文本知识元进行的基础性研究尤为引人注目,知识元及其构建问题一经提出即刻引起了情报学、信息管理等领域学者的高度关注和重视[3]。温有奎教授指出我们假定文本内容的组织排列,是由一个个独立知识元素的逻辑排序结构,这种独立的知识元素我们称它为知识元,逻辑依存关系称它为知识链,知识元是构造知识结构的基元,标引知识元便于用户直接查询知识元,组合知识元,改善自己的知识结构,从而加快知识创新速度[4]。刘平峰等提出一种基于模糊等价关系的文本多粒度划分方法,以模糊等价关系构建文本信息颗粒,为多粒度知识服务基于主题的导航提供基础[5]。王玉林等提出一种细粒度语义共词分析方法,该方法一方面对词对共现统计单元进行碎片化处理,由“文献单元”变为“知识单元”(RDF三元组),达到细粒度的目的;另一方面对共词分析方法进行语义化处理,将共现词对的语义信息融入到共词分析过程之中[6]。在知识元的处理单位上也有不少的研究,文献[7,8,9]探讨了把词作为处理单元的知识抽取技术,文献[11,12 ,13]则研究句子级信息抽取和知识抽取的方法。

在E-Learning中,强调的就是将学习资源进行分解、描述和揭示,剔除冗余、重复和劣质信息,对学习资源来源、内容和结构进行新的类聚和重组,形成一个具有特定逻辑组织、向导性和关联性的学习对象知识资源体系,其中,学习对象知识资源的整合依托于对不同类型和来源的学习资源的内容进行深度揭示和规范描述,形成标准规范的学习对象,之后再利用知识本体对学习对象中知识单元所标引的逻辑关系形成具有新的组织结构和功能的知识系统[10]。在这个过程中,对学习资源的标引至关重要,首先就是要建立学习对象的元数据描述框架。目前,使用率最高的针对学习对象的元数据体系是本文2.2提到的LOM元数据框架[14]。在应用方面,美国国家科学基金会进行的可重用学习项目(The Reusable Learning Project,2003-2005)正是把学习资源切分为学习对象,因为这样能够通过分析用户的目的和现有技能,聚合从资源中分解出的学习对象,使用户不用在大量已经熟知或不感兴趣的信息中对确定需要的知识进行筛选,更好地对用户进行个性化的服务。项目中学习对象的元数据框架包括:①基本描述信息(也称数目元数据),包括资源的标题、作者、描述、标识和关键字,目的是使资源被发现和使用;②情境信息,包括适用年级、适用对象等教育资源的信息,使搜索能够为某一个特定情境服务;③产权信息,描述资源使用的条件和权限;④技术信息,包括资源的格式信息以及使用和修改资源的软硬件要求;⑤用户信息,包括软件文档(在线、印刷或者帮助界面格式)、教学指导和其它能够帮助更正确和有效地使用资源的信息[15]。项目也提出利用XML表示是一种可行的方法[16]。等学者提出将本体运用到学习对象的元数据中只是有助于从数据库中检索出相关的学习对象,却并不能让学习对象中的组成成分获得重用,也无法有效定义学习对象内容的语义,因此,他们提出使用领域本体和结构本体对学习对象的内容进行标引的方法,使直接访问学习对象的组成成分成为可能[17]。

常娥指出关联数据采用RDF 数据模型,借助其核心技术URIs,可创建包含各种数据、信息和知识在内的任何资源的细粒度化的数据网络,是语义网的简化方案,且元数据和本体模型均可融入关联数据的技术框架,因此,关联数据为图书馆将各种资源转化为细粒度提供连通着的网络数据,彻底转变图书馆资源组织的模式,弥补馆藏书目数据组织的粗粒度、无语义和封闭性的不足,从而打破馆藏资源组织与利用的困境,提供很好的思路[18]。沈志宏等指出不同于Document Web,关联数据将互联网上任一信息内容或其子内容看成是一个可采用标准方法规范描述和调用的知识对象,通过创建和发布关于各类知识对象及其与各类其他知识对象之间关系的规范化描述信息,通过建立基于知识内容的检索以及基于知识关系的分析关联机制,关联数据便可支持在特定信息环境下对不同知识对象的关联发现[19]。李成龙以科技报告为研究对象,通过对科技报告的结构进行分解,以章节为单元进行中粒度关联数据的创建与发布,为构建多粒度的组织体系打下基础,以期达到满足用户多粒度的信息需求[20]。王忠义等为实现数字图书馆馆藏资源目录数据(中粒度)的中层关联数据的创建与发布,在对现有关联数据创建与发布方法进行研究的基础上,针对目录数据自身的特点,采用自动标引、主题词映射等技术实现目录数据的结构化,借助目录体系与文本匹配实现关联数据的关联发现,借助 D2R最终实现中层关联数据的创建与发布[21]。SWSE、Sindice等语义网搜索引擎分别将众多书目的RDF文档编入索引[22]。Olaf Hartig等从数据库的角度来研究网络上出现的关联数据,分析了近年来越来越多的供应商采用了关联数据原则来出版和连结结构化数据,从而创造了一个全球的分布式数据空间——网络数据[23]。

B.体裁分析相关研究

John Swales等学者对学术论文这种特定的体裁进行研究,学术文献在语言的功能性和目的上比其它体裁更加明显,由于期刊篇幅等的限制,学术文献中的每一句话甚至话语出现的顺序通常都具有很强的意识和目的性。John Swales认为期刊论文具有一定的宏观结构,可以划分为四个组件(Component)——介绍(Introduction)、方法(Methods)、结果(Results)和讨论(Discussion),即IMRD模型[1,2]。不过,IMRD模型主要是针对实证性论文,对于非实证性论文,学者杨瑞英提出由介绍(Introduction),理论基础(Theoretical Basis),论证(Argumentation),结论(Conclusion)构成[3]。

在组件的基础上,Swales和Sperber等学者提出功能性单元的概念(functional units),功能单元是内含在IMRD各个组件中有独立交际功能的句群[4]。例如,在介绍组件中,回顾以往研究的文本片段可以被认为是一个功能单元,其它没有指示出以往研究的文本片段是不同的功能单元。功能单元的概念是基于Swales的构建学术工作空间模型(Create a Research Space,CARS),该模型一开始是用来指导撰写研究文献介绍的。

对于功能性单元的划分方法分为两种派别,一个派别是“Swalesian School”,他们的划分方法是语步(move)/步骤(step),他们的分析对象多以学术和职业语篇。另一个派别称“Australian School”,他们的分析对象主要是与牙医交际、讲故事、求职、请人吃饭等事件。

2004年Swales又继续修改他的模型,把三个语轮变为:语轮1-提出某领域论题;语轮2-收窄论题;语轮3-介绍当前研究。Swales的研究促进了介绍部分语轮/语步的进一步研究,如Kanoksilapatham (2005)[5],Lewin et al. (2001)[6], and Nwogu (1997)[7]等。同时,其它组件的研究也都开始进行,如在方法部分,Lim通过分析管理学领域的20篇英语学术论文的方法部分,分析总结出方法部分的三个语轮分别为描述数据收集过程、描述变量测量过程和描述数据分析过程,以及每个语轮对应下的多个语步[8];Zhang[9]对心理学领域的英语学术论文体裁分析,认为方法部分的语篇语步包括:关联以往或下一个实验、证明方法的合理性、预览方法、预览结果、描述被试者、描述支撑材料、描述任务、实验程序提要、呈现变量和概述数据分析程序。国内杨瑞英对10篇英语应用语言学实证性学术论文分析,认为方法部分语轮包括背景信息、描述数据和介绍分析方法三个方面[3]。在结果部分,Nwogu (1997) 指出两个语轮,而Kanoksilapatham (2005) 通过生物化学领域学术文献的研究得到四个语轮。讨论部分,Swales and Freak (1994: 195) 提出三个语轮:语轮1-巩固研究空间;语轮2-结果启示;语轮3-日后研究。而Dudley-Evans(1986)也提出三个语轮,介绍,结果解释,总结与日后研究,在总结日后研究下他还提出三个语步,总结主要结果,总结主要观点和推荐日后研究,他同时指出在这个部分语步往往是循环出现的。上述研究中的语步即揭示一个修辞单元的交际目的或称功能。

C.网络资源导航相关研究

无论是浏览还是搜索网络信息,都离不开导航工具和导航系统的辅助。金燕总结的导航机制共有五种:基于超链接的导航机制、基于内容的导航机制、时序机制、空间机制、社会导航机制,并对这五种机制进行了比较,还介绍了可视化辅助机制及鱼眼图技术、Focus+Context技术、视点控制技术、突显技术[5]。之后金燕还专门研究了社会机制的导航,介绍了其内涵、特点,并在此基础上给出了一个基于多Agent 的社会导航模型,分析了该模型的导航策略[6]。王秀峰的博士论文中介绍了四种主要的web 导航机制,分别为基于浏览器的 web 导航、基于链接的 web 导航、基于站点地图的 web 导航和社会导航机制[7]。国外学者通常将信息导航总结为三种机制:基于信息对象间空间关联的空间导航、基于信息对象间语义关联的语义导航和受社会因素影响的社会导航。Wexelblat 等人认为,使用隐含在信息或结构背后的语义属性信息的是语义导航,而使用来自他人信息的是社会导航[8]。Dieberger 认为,社会导航与其他导航方式的不同主要表现在导航建议是如何被提供给用户的,社会导航的导航信息是由他人发出的,不是静态设计好的而是动态的,可针对用户个人的具体情况给出动态的建议,它不是根据页面上端的指示性信息进行的,而是搜集他人的社会性活动,并以此为指导进行的[9]。导航策略是帮助用户实现信息获取目标的一些途径和方法。高尚在其博士论文中介绍了常用的导航设施,包括分层导航、跳转、可视化组织器、地图、回溯、历史清单、查找、索引及在线帮助,并分析了各自的优缺点,随后又总结了超文本学习系统中常用的导航策略,包括检索导航、线索导航、帮助导航、浏览导航、演示导航和书签导航[10]。金燕的博士论文“WWW信息导航机制研究”中总结了浏览器和网站提供的各种导航方法,包括支持直接搜索和页面重访的浏览器导航策略,从结构、内容和图形化来实现导航的网站导航策略、面向用户的个性化需求的“拉”、“推”式导航策略,并分析了用户不同信息查询行为的认知过程、认知负担以及对导航支持的依赖程度,建议导航工具的设计者根据用户查询行为的特征提供不同的导航策略[11]。Cockburn 和Head 等外国学者研究认为,网站浏览器、等级式内容目录和列表、搜索引擎、站点地图、情景提示等是最重要的导航工具,它们也是导航策略[12][13]。Catledge 等人认为浏览器是最基本的导航策略,它具备前进、后退、历史记录、直接查询和搜索、收藏夹等功能,可提供简单的导航,特别是“后退”按钮,占了导航使用中43%的导航份额;等级式内容目录和列表是基于分类思想的,受网站设计者的分类标准限制,用户难以确定内容的类目;搜索引擎受到检索性能和排名算法影响,且存在词汇控制问题。而站点地图和情景提示会受用户的使用习惯影响[14]。基于导航理论的研究,国内外一些研究者提出或实现了一些导航系统。国外的主要有:Cockburn 在其文章中介绍了一个扩展导航功能的浏览器原型“WebNet”[26],Singer 和Pecatte 等人提出了一个多代理合作导航系统 MAWA[27],Garg 等人提出了一个基于潜在语义技术的面向需求的环境内容导航系统MediaCaddy,根据语义技术和本体技术不仅实现对元内容资源的导航,而且可提供个性化服务[28]。1996 年卢增祥的硕士论文在分析搜索引擎技术内容的基础上,设计了一个使用网络信息代理进行网络信息搜集、利用情报检索技术进行网络信息查询的网络信息导航系统[29]。1997 年中经网信息导航事业部利用超文本技术、依托CEInet 计算机网络平台,研制出了 CEI 信息导航,为各级政府乃至全世界的网络用户提供免费、快捷、方便的中国经济信息检索手段[30]。于晏在其硕士论文中详细阐述了Internet 信息导航系统的设计方案、算法、概念、主要技术、及实现方法[31]。朱江岭等人则详细说明了因特网信息导航系统的组成部分及需要解决的技术问题,并提出建立全国网络导航体系和信息资源共享的构想[32]。之后一些学者提出了基于某种技术建设网站导航系统的方法,包括基于信息地图的可视化信息导航系统[33]、QUIC 智能超文本导航系统[34]、基于信息定制的信息导航系统[35]、基于用户访问序列聚类的网站导航系统[36]、基于信息构建的电子商务网站导航系统[37]、基于序列模式的网站导航系统[38]。

导航模型方面,目前共有五种主要的导航模型,分别为:CoLiDeS 系列模型,2000 年Kitajima[42]等人推出 CoLiDeS——一个以理解为基础的检索关联模型,CoLiDeS基于语义相似度、词频和文本匹配这三个因素来衡量特定的页面与用户目标(信息气味)之间的关联性,语义相似度根据文字和文件之间的共现来计算,辅以潜在语义分析(LSA)这一算法,之后,Oostendorp 与Juvina[43]对该模型进行了一些修正,引入“路径充足”(导航路径与用户目标间的语义相似度)这一概念来补充信息气味,提出了网站导航的计算认知模型CoLiDeS+,2012年Oostendorp[44]等人开发了考虑图像内容义信息的导航认知模型CoLiDeS+Pic,新的模型建立在CoLiDeS模型基础上,作者表明将用户图像信息的使用明确到模型中让认知导航模型更加完善;Pirolli 和 Fu 建立了模拟用户执行网页任务的计算认知模型SNIF-ACT(Scent-based Navigation and Information Foraging in theACT cognitivearchitec-ture),该模型预测导航选择,即基于信息气味预测下一步去哪里、何时停止(离开网站),信息气味计算为基于词的出现和共现的用户目标与链接文本之间的相互关联性[45];Miller 与 Remington 提出的MESA(Method for EvaluatingSiteArchitectures)模型,该模型通过利用模拟用户行为的信息导航计算模型来研究每个网页的最佳选择数量,通过改变链接标签的质量发现最优的信息结构取决于标签的质量[46];Marques 等人提出的 RED(Navigation Strategies Recognizer)模型,该模型介绍了一种识别用户使用网站导航时的决策策略的方法,代理技术和解析算法是 RED的关键组件,基于用户导航历史来识别用户策略,以此来评价网站的使用并为简化交互提供建议[47];Vera Hollink 等人提出了探讨链接结构与导航可用性之间关系的导航行为模型,该模型包括一组关于用户目标和导航策略的明确假设,用发现信息的数量(有效性)与找到信息所需时间(效率)这两个指标来明确导航过程的效用[48]。

[5] 金燕.WWW 信息导航机制研究[D]. 武汉大学,2005.

[6] 金燕. 试论 WWW 信息导航的社会机制[J]. 现代情报, 2007(9): 72-75.

[7] 王秀峰.Web导航中用户认知特征及行为研究[D]. 南京大学, 2013.

[8] Wexelblat, A,. et al. Social navigation: what is it good for? (panel discussion)[C]. CHI’99

ExtendedAbstracts,ACM Conference on Human Factors in Computing Systems. 1999 May 15-20;

Pittsburgh, PA.NY:ACM; 1999: 89-90.

[9] Dieberger A. Social navigation--technique for building more usable systems[J]. Interaction,

2000(6): 36-45.

[10] 高尚. 基于超文本的学习模型及学习控制的研究[D]. 东北大学, 2000.

[11] 金燕.WWW 信息导航机制研究[D]. 武汉大学, 2005.

[12] Cockburn A. Which way now? Analyzing and easing inadequacies in WWW navigation[J].

Human Computer Studies, 1996(45): 105-129.

[13] Head M.,Archer N., YuanYF. World Wide Web navigation aid[J]. Human Computer Studies,

2000(53): 301-330.

[14] Catledge I., Pitkow J. Characterizing browsing strategies in the World Wide Web[J].

Computer Networks andISDN Systems, 1995(27): 1065-1073.

[15] David K. Farkas, Jean B. Farkas. Guidelines for designing web navigation[J]. Technical

Communication.2000,(3): 341-358.

[16] Susanne Jul, George W. Furnas. Navigation in Electronic Worlds: A CHI 97

workshop[EB/OL]. http://homepages.cwi.nl/~steven/sigchi/bulletin/1997.4/jul.html, 2014-12-25.

[17] 刘甲学. 超媒体信息空间智能导航理论与实证研究[D]. 吉林大学,2006.

[18] 詹姆斯·卡尔巴赫(James Kalbach).Web导航设计[M]. 北京: 电子工业出版社, 2009.

[19] 郭熙. 网站导航系统创意设计探究[D]. 南京艺术学院, 2010.

[20] 龚俊辉. 浅析网站建设中网络导航形象识别系统的设计[J]. 美术大观, 2004(1): 24-25.

[21] 李辛旺. 基于信息构建理论的WEB导航系统视觉信息优化设计[D]. 北京航空航天大学,

2012.

[22] 詹晶晶, 黄慧琴, 刘沛芬. 网站导航栏设计的应用心理[J]. 艺术与设计(理论),2010(12):

62-63.

[23] 滕广青, 毕强. 电子商务网站导航设计新理念:经营目标导向的以用户为核心的电子商

务网站导航设计研究[J]. 图书情报工作, 2009(20): 122-126.

[24] 陈子健, 孙祯祥. 从信息无障碍角度探讨教学网站导航设计[J]. 中国医学教育技术,

2008(4): 311-314.

[25] 陈子健, 孙祯祥. 信息无障碍视角下网站的导航设计[J]. 图书情报工作, 2008(9):6-8.

[26] Cockburn A. Which way now? Analyzing and easing inadequacies in WWW navigation[J].

Human Computer Studies, 1996(45): 105-129.

[27] Stinger N., Pecatte JM., Trouilhet S.. The multi-agent cooperative navigation system Mawa; a

model of dynamic knowledge specialization for a user-centric analyze of the Web[C].

International Conference on Computational Intelligence for Modeling, Control & Automation

Jointly with International Conference on Intelligence Agents, Web Technologies & Internet

Commerce.Vienna,AUSTRIA. NOV28-30, 2005: 289-294.

[28] Garg S, GoswamiA, Huylebroeck M. MediaCaddy - Semantic web based on-demand content

navigation system for entertainment[C]. 4th International Semantic Web Conference(ISWC2005).

Galway,IRELAND. NOV06-10, 2005: 858-871.

[29] 卢增祥. 网络信息导航系统[D]. 清华大学,1996.

[30] 佚名. CEI 信息导航的回顾与展望[J]. 信息经济与技术. 1997(12): 46-48.

[31] 于晏. Internet 信息导航系统设计与实现[D]. 哈尔滨理工大学, 1997.

[32] 朱江岭, 赵淑君等. 因特网信息导航系统的建立与资源共享[J]. 电子出版, 2001(4):

32-34.

[33] 张锦, 傅辛等. 可视化 Internet 信息导航系统[J]. 计算机工程,2001(1): 99-101.

[34] 毕强, 刘甲学. QUIC——一个智能超文本导航系统[J]. 情报科学, 2002(12):

1277-1281.

[35] 蔡建峰, 刘祎玎, 武立新. 基于信息定制的信息导航系统研究:以管理案例教学为例[J].

情报杂志, 2008(11):54-58.

[36] 王有为, 许博等. 基于用户访问序列聚类的网站导航系统[J]. 系统工程理论与实践,

2010(7): 1305-1311.

[37] 余小鹏, 彭鸿儒. 基于信息构建的电子商务网站导航系统研究[J]. 时代经贸, 2011(5):

50-51.

[38] 王有为, 张雯晶, 凌鸿. 基于序列模式的网站导航系统[J]. 系统管理学报, 2012(5):

690-695.

[39] 康忠民. 网络学术信息导航系统综合评价指标体系的研究及应用[D]. 华中科技大学,

2005.

[40] 刘甲学. 超媒体信息空间智能导航理论与实证研究[D]. 吉林大学,2006.

[41] Mohagag M.F., Graphics S.. The influence of hypertext linking structures on three efficiency

of information retrieval[J]. Human Factors, 1992(3): 351-367.

[42] Kitajima, M., Blackmon, M.H., Polson, P.G. A comprehension based model of web

navigation and its application to web usability analysis[A]. People and Computers XIV[C].

London:Springer,2000: 357-373.

[43] Oostendorp H. Van, Ion Juvina. Using a cognitive model to generate web navigation

support[J].International Journal of Human-Computer Studies, 2007:887-897.

[44] Oostendorp H. Van., Karanam S., Indurkhya B.. CoLiDeS+Pic: a cognitive model of web

navigation based on semantic information from pictures[J]. Behavior and Information Technology,

2012(31): 17-30.

[45] Peter Pirolli, Wai-Tat Fu. SNIF-ACT: a model of information foraging on the World Wide

Web[A].User Modeling 2003[C]. Heidelberg: Springer Berlin, 2003: 45-54.

[46] Craig S. Miller, Roger W. Remington. Modeling Information Navigation: Implications for

InformationArchitecture[J]. Human-Computer Interaction,2004(3): 225-271.

[47] Eduardo Marques, Ana Cristina Garcia, Inhaúma Ferraz. RED: A Model To Analyze Web

NavigationPatterns[EB/OL].http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.88.5075&rep=rep1&type=pdf.2014-12-25.

[48] Vera Hollink, Maarten van Someren, Bob J. Wielinga. Navigation behavior models for link

structure optimization[J]. User Modeling and User-Adapted Interaction,2007(4): 339-377.

D.用户心智模型相关研究

心智模型的形成建立在人的有限理性[42]的理论基础上,有限理性影响着个人认知,这种有限理性主要表现在个人知识的局限性、不能完全做出准确的预期以及行为受到限制,有限理性的存在使得个人在决策时需要依赖心理过程,这个过程就是心智模型,是解释环境的内部表征,是由人的认知系统为应对环境的不确定而创立[43]。心智模型与用户认知密切相关,心智模型关注的是用户心理认知层面的内容。 心智模型,又称为心智模式、思维模型或心理模型等,由认知心理学学者K.Craik(1943)首次提出,并认为它真实存在于人们心中,能够对人们描述、解释世界产生影响,对人们如何采取行动的陈见、假设和印象产生影响[44]。心智模型是用户对现有存在的思维方式与看法,受既有经验的影响,具有相对持续的稳定性[45]。后来,心智模型的研究逐渐从认知心理学领域扩展到情报学、计算机科学、经济学、管理学。

目前尚没有关于心智模型的统一的定义。Johnson Laird将心智模型定义为:对世界的一种表征,人类系推理则是基于这种表征[46]。L.Wozny(1992)认为心智模型包含陈述性知识和过程性知识,这些知识都是依据归类与关联组织而形成的[47]。Rouse 和 Morris 认为心智模型是一种心理机制,通过这种心理机制,人们可以对系统的目标和形式进行描述、对系统的功能进行解释、对系统的状态和未来进行观察和预测[48],该定义揭示了心智模型的功用。白晨、甘立人等[49]认为心智模型是个体理解和看待周围事物的思维模型,将信息用户的心智模型定义为用户在个人知识基础上,经由检索经验和检索过程学习而在脑海中形成的关于检索策略的信念,用以指导未来的行为决策。

在信息检索领域,Borgman是最早研究用户心智模型的学者,采用实验的方法,以图书馆在线电子分类目录用户为实验对象,将用户分成两组,并分别给予不同的培训,从而探索用户的心智模型[50]。此后,国内外学者们针对个研究对象从多个角度对用户的心智模型进行研究,其中研究对象主要有搜索引擎、数字图书馆、信息门户网站、文献数据库、电子商务与电子政务网站等,而在具体的研究内容上,主要集中在用户心智模型的影响因素、构成维度及测量、心智模型分类和动态变化等方面。(1)信息用户心智模型的影响因素。黄慕萱通过实验的方法发现学院、检索经验、年级、对主题的熟悉程度、检索目的等均不会对心智模型产生影响[51]。Zhang Xiangmin 采用多因素方差分析法,得出教育和职业状况、学术背景、计算机水平对文献数据库用心智模型有显著影响[52]。Li Ping 以博士生为研究对象,得出在用户使用网络搜索引擎时,仅仅认知风格因素与用户心智模型的完备性有关,即场独立型风格用户的心智模型的完备性比场依存型风格的用户更高[53]。Zhang Yan 研究了外在情境因素对信息丰富网络空间(information rich web space)用户心智模型的影响,发现任务的复杂性间接影响用户的心智模型[54]。(2)心智模型构成维度及其测量研究。Borgman.C 和 Dimitroff A.通过开发用户心智模型完备性量表,得出用户心智模型由数据库构成和特征两个维度构成[50][55]。1997年,Saxon改编了Bimitroff的心智模型完善度量表,同时对用户心智模型完备性量表的构成维度进行了修正,将用户心智模型的构成维度由两个扩展为数据库结构、搜索特征和交互层次三个维度[56]。Li Ping 以博士生为调查对象,测量出博士对于 Google 的心智模型有三个维度,分别是Google 的本质特性、搜索特征和交互层次[53]。Zhang Xiangmin 利用凯利方格技术研究出用户关于文献数据库的构成维度由九个方面,分别是查询的目的、功能和适用性,数据组织的适用性,浏览的目的和适用性,数据结构的功能和适用性,文献的功能[52],并基于这些维度研究了教育、母语、专业地位、学科、计算机经验等用户特征对心智模型的影响。Zhang Yan利用概念列表法和半结构化访谈法抽取了医学健康网站的用户心智模型,并认为该网站的用户心智模型是由系统、系统内容、信息组织和界面构成[57]。 在用户使用网站心智模型的测量方法上,李海涛、宋琳琳等[58]对用户使用网站的心智模型测量的方法进行了介绍,并提出卡片分类法是最适于记录用户关于网站的认知信息,而路径搜索法最适于测量网站用户心智模型。 甘立人、白晨等将心智模型引入到信息用户决策行为的研究过程中,认为信息检索中,用户认知偏差主要有信息偏差、感知偏差、“锚”定、习惯和保守,这都与心智模型相关,分析了用户心智模型构成以及对决策行为的作用机制,采用实验的方法考察了心智模型对决策行为的影响效果[59],同时提出信息用户的心智模型是由个人知识和信念构成的[49]。 胡昌平、马丹对信息用户的心理过程、心智模型、心智模型表征、心智模型功能等进行了分析,并阐述了基于 ZMET(隐喻抽取技术)的心智模型构建流程,以视觉隐喻和图片想象为基础,结合方法-目的链理论,对信息用户的心智模型的构建进行了研究[43]。 韩正彪[60][61]以综合性文献数据库为研究实体,以大学生为调查对象,探索用户心智模型,他首先通过概念列表法得出用户心智模型由系统、系统内容、系统内容组织、系统界面和系统后台五个维度组成,后有通过实证研究得出用户心智模型由认知、情感、策略三个层面和数据库内容认知、常识认知、检索策略、用户负面情感、用户范围评价、界面功能认知、用户动机认知等八个维度构成,并分析了这些维度对用户心智模型影响效应的大小,发现对用户心智模型直接效应最大的是界面功能认知和用户负面情感。尤少伟,吴鹏等[62]以南京市政府网站旅游概念主题分类目录为例进行了实验研究,研究采用基于路径搜索法定量测量用户的心智模型,并对提出的假设进行了验证。夏子然等[63]以中国制造网为例,使用心智模型完善度量表实验设计,收集用户在网络信息检索过程中的心智完善水平数据并进行聚类分析,对用户进行探索性分类,并提出心智模型是一个相对持久的动力系统,这主要体现在两个部分,第一是与检索相关的个体知识背景,第二是对检索方法的信念体系。因此,造成心智模型个体差异的两个原因就是个人因素和个性因素,其中个体的教育背景、个人经历、工作环境等都是个人因素,而个体的性格特征属于个性因素。(3)用户心智模型对检索绩效的影响。心智模型是用户信息行为产生的内在机制,通过研究用户心智模型对检索绩效的影响,可以更好地实现对心智模型的应用。学者们普遍认为,用户心智模型对用户检索绩效会产生影响,也即心智模型越完善,则用户的检索绩效越高[55][64]。其中,韩正彪对 61 名大学生进行试验,得出网龄和认知风格是造成用户心智模型不同的重要因素,但是性别、学科、年级、使用频率、学习风格等在用户心智模型整体上没有差异,只是在一些维度上会产生差异,同时他还发现用户心智模型在用户特征与用户检索绩效之间存在中介效应,其中网龄起着完全中介效应,用户认知风格起着部分中介效应[65]。

[42] 赫伯特·西蒙.管理行为[M].北京:机械工业出版社,2007.

[43] 胡昌平,马丹.基于 ZMET 的用户心智模型构建[J].情报科学,2011(1):1-5.

[44] Craik K. The Nature of explanation[M]. Cambridge: Cambridge University

Press,1943.

[45] 宋琳琳,李海涛.近二十年来网络用户心智模型研究综述[J].大学图书情报学刊,

2016(2):100-112.

[46] Johnson-Laird P N. How we reason[J]. How We Reason, 2009.

[47] Wozny L A. Navigation in a metaphorical computer interface: A study of

analogical reasoning and mental models[D]. Philadelphia: Drexel University,1992.

[48] Rouse W B, Morris N M. On Looking into the Black Box: Prospects and Limits

in the Search for Mental Models[J]. Psychological Bulletin, 1985, 100(3):82.

[49] 白晨,甘利人,朱宪辰.基于信息用户决策心智模型的实验研究[J].情报理论与实践,

2009, 32(10):94-98.

[50] Borgman C L. The user's mental model of an information retrieval system:

effects on performance[D].USA: Stanford University,1984.

[51] 黄慕萱.影响个人心智模型之因素初探[J].(台湾)图书馆资讯学,2000,12(15):19-36.

[52] Zhang Xiangmin. A Study of the Effects of User Characters on Mental Models of Information Retrieval System [D]. Toronto : University of Toronto .1998.

[53] Li Ping. Doctor Students’ Mental Models of a Web Search Engine: An

Exploratory Study [D]. Montreal: McGill University,2007.

[54] Zhang Y. The impact of task complexity on people’s mental models of

MedlinePlus[J]. Information Processing & Management, 2012, 48(1):107-119.

[55] Dimitroff A. Mental models and error behavior in an interactive bibliographic

retrieval system [D].Alexanda: The University of Michigan,1990.

[56] SAXON. Seventh grade students and electronic information retrieval systems: an exploratory study of mental model formation, completeness and change[D].Scharlotte: The University of North Carolina,1997.

[57] Zhang Y. Dimensions and elements of people's mental models of an information-rich Web space[J]. Journal of the American Society for Information Science & Technology, 2010, 61(11):2206-2218.

[58] 李海涛,宋琳琳.用户使用网站的心智模型测量方法的选择及应用[J].情报理论与实践,

2015, 02:11-16.

[59] 甘利人,白晨,朱宪辰.信息用户检索决策中的心智模型分析[J].情报学报,2010,

29:641-651.

[60] 韩正彪.基于访谈法的综合性文献数据库用户心智模型研究[J].图书情报知识,2014,

(1):90-96. [61] 韩正彪,许海云.我国综合性文献数据库大学生用户心智模型结构测量实证研究[J].情报学报,2014,33(7):740-751.

[62] 尤少伟,吴鹏,汤丽娟,等.基于路径搜索法的政府网站分类目录用户心智模型研究——以南京市政府网站为例[J].图书情报工作,2012,(9):129-135.

[63] 夏子然,吴鹏.基于心智模型完善度的信息检索用户心智模型分类研究[J].情报理论与实践,2013,10:58-62.

[64] Chen H, Dhar V. User misconceptions of information retrieval systems[J]. Clinical Neurophysiology,2013,124(10):127–128.

[65] 韩正彪.综合性文献数据库大学生用户心智模型影响因素及效用分析:以 CNKI 为例[J].

图书情报工作, 2014,58:81-91.

2.学术会议

(1)2015年11月25日-27日课题组成员参加由HACETTEPE UNIVERSITY信息管理学院、中山大学资讯管理学院在中国广州共同举办的“第六届变化世界中的信息管理国际学术研讨会”(IMCW2015)。作为大会主要发言人以“ Content and Motivations for Citing Online Encyclopedia Resources among LIS Academic Publications”为题和以“Exploiting Task-functional Units Relationship in Support of Fine-grained Aggregated Search”进行报告与交流。

(2)2014年11月24日-26日课题组成员参加由HACETTEPE UNIVERSITY信息管理学院在土耳其共同举办的“第五届变化世界中的信息管理国际研讨会”(IMCW2014)。作为大会主要发言人以“Research on the Measurement Method of the Event Theme Influence of Online Public Opinion”为题进行报告与交流。

(3)2015年11月30日-12月2日课题组成员参加由东北师范大学在中国长春举办的第七届信息资本、资产和信息伦理国际研讨会。作为大会主要发言人以“聚合的概念与信息聚合模式研究The Research on the Concept of Aggregation and Aggregation Model”为题进行报告与交流。

(4)2014年12月课题组成员参加由北京大学信息管理学系在中国北京举办的第六届信息资本、资产和信息伦理国际研讨会。

(5)2015年10月25日-27日课题组成员参加由武汉大学、全球顶尖信息学院联盟iSchool、美国图书情报学教育联合会在中国武汉举办的第四届中美数字时代图书馆学情报学教育国际研讨会。作为大会主要发言人以“论大数据时代下的图书情报学教育——基于iSchool院校“大数据”相关课程的调查及思考On LIS Education In the Era of Big Data-Based on the Investigation of “Big Data” related Courses in LIS School”为题进行报告与交流。

3.学术交流

课题组专家所带博士生分别参加吉林大学举办的2014年全国情报学博士生学术论坛、南开大学举办的2016年全国情报学博士生学术论坛,并在论坛上汇报宣读论文成果。

③成果宣传推介情况(成果发布会、《工作简报》报送情况、国家社科基金专刊投稿及采用情况等);

④研究中存在的主要问题、改进措施,研究心得、意见建议;

研究中存在的主要问题:课题研究进度上,尤其是系统开发进度比预期计划要稍微落后、成果数量尤其是国际性顶尖刊物论文仍然不够多、学术交流较多但是未建立密切、稳定的国际合作关系。

改进措施:面对课题研究中暴露出的问题,课题组成员以后将在课题研究中积极探索,突破难点,推进课题研究进度,加大课题演技逇深度,针对具体问题进行具体分析,计划改进的措施包括:按照用户需求分析和模块设计得到的原型系统,组织人员加快系统开发的进度;针对课题中遇到的理论和实践问题,多渠道收集资料,提高理论水平和实际问题解决能力,尽量面向国际顶级期刊发表课题研究成果;逐步与国际组织和机构建立稳定、密切的合作关系。

研究心得:经过将近三年半的课题研究,经过不断的深入调查研究,多次的交流探讨,课题研究思路愈发清晰,并在实践中不断地修正和改进得以顺利推进课题研究进展。第一,我们认识到课题研究中的团队合作与交流十分重要。每周一次或每两周一次的例会以及主持人在例会上的点评与下一步研究计划的安排,使得我们能明确自己各自的分工,相互配合与交流,使整个课题朝着一个正确的方向顺利推进和开展。第二,通过文献阅读追踪最新学术动态,保持理论始终与实践相结合。实践问题的解决需要理论作为支撑,理论学习中文献阅读是必不可少的一项工作,通过选择和阅读顶级期刊文献,发现研究的新视角或切入点,建立牢固的理论基础,以支撑实践研究过程。第三,做好科研数据的共享与管理。为课题研究过程中产生的各种科研数据、成果、例会报告等资料建立共享资源池,一是可以最大化科研数据的重复利用,同时也可以避免开展重复工作,达到成员之间的资源共享。

二、研究成果情况

①代表性成果介绍

A.论文《知识图谱研究的脉络、流派与趋势——基于SSCI与CSSCI期刊论文的计量与可视化》;

基本内容和主要观点:知识图谱作为快速兴起和发展的跨学科研究领域,在国内外不同学科间的发展轨迹、研究重点等方面总体上存在差异。适时梳理国内外该领域发展历史上的重要理论和技术发展轨迹,明晰核心人物和团队,可为当前和今后基于知识图谱的可视化研究提供理论基础。文章选取1998—2014 年间SSCI、CSSCI 中以知识图谱为主题的期刊论文,以SATI、UCINET、NetDraw、CiteSpace 等为数据分析和可视化工具,通过时间分布揭示该领域发展的阶段特征,通过节点性论文计算和高频关键词共现分析揭示该领域发展的内容分布,从而厘清其发展脉络; 从学科分布、核心期刊和边缘期刊的判别揭示该领域发展的跨学科概貌,通过核心作者综合指数计算、合作分析和机构分析揭示该领域研究的人物关系,厘清其发展流派。在此基础上提出知识图谱研究的弱化与主题的衍生、知识图谱的跨学科研究与应用和知识创造者的合作创新三个发展趋势。

学术价值:该论文发表在图书情报界影响因子最高的《中国图书馆学报》,并被人民大学《复印报刊资料》全文转载。

B.论文《基于中文维基百科的领域概念相关性研究》

基本内容和主要观点:以提高领域概念相关性判断的准确度为研究宗旨,提出综合利用中文维基百科的分类体系结构和概念释义内容进行概念间语义相关度计算的方法。选取中文维基百科分类体系下的图书情报领域的概念为实验对象,将基于分类信息和文本信息的加权算法与单独基于分类信息的语义距离算法和信息量算法,以及基于文本信息的文本重叠算法进行对比分析。实验结果表明: 加权算法能取得更好的效果,可为实现面向领域的信息检索、领域本体构建等应用提供重要技术支持。

学术价值:该论文发表至今被引用1次。

C.论文《面向新型智库建设的知识服务:图书情报机构的新机遇》

基本内容和主要观点:新型智库建设是我国深化改革时期进行科学决策的重要一环,新型智库的基础资源是知识资源。图书情报机构作为存储和传播知识的媒介,在新型智库建设中迎来了新的机遇,文章分析了图书情报机构服务新型智库的可行性并提出了为其服务的五种基本途径。

学术价值:该论文发表至今被引用2次。

D.论文《我国图书情报领域研究者对网络信息资源的利用分析》

基本内容和主要观点:采用引文分析的方法,基于网络信息资源聚合研究的展开要求,对特定领域研究者网络信息资源的利用情况和需求进行探讨。首先,提出探究研究者网络信息资源利用的网络引文分析框架,框架从资源整体利用情况和以单篇论文为单位的个体利用情况两个方面分析图书情报领域研究者对网络信息资源的利用情况。接着,参照框架对2010-2012年发表的图书情报领域会议论文、期刊论文、博/硕士学位论文分开进行计量分析,揭示其中主题分布、域名分布、类型分布、URL深度分布、研究者利用数量、利用类型、利用目的等的特征,总结图书情报领域网络信息资源利用的需求,得到对图书情报领域网络信息资源聚合研究的相关启示。

学术价值:发表在《情报学报》,并被人民大学《复印报刊资料》全文转载。

E.论文:《Efficient feature selection based on correlation measure between continuous and discrete features》

基本内容和主要观点:The aggregated search, that assembles different types of content and granularities of retrieval in one interface, is regarded to be a new direction in web information retrieval . For the aggregation of multi genre type of web content can improve the recall rate while granularities of retrieval can improve the accuracy rate at the same time. However, there is no nified standard to classify the aggregated units for various genre types on the web today. How to organize various genre types of information in fine-grained level is still a question. With the purpose to organize different genres of web resources as aggregated units with thematic and functional relations, this study explores how to build a taxonomy of aggregated units for 3 kinds of web resources in discipline of Library and Information Sciences and how to apply it in information organization and visualization. This study can give reference to academic search engine or database design for multi genre information use in a fine-grained level.

学术价值:发表在SSCI期刊Information Processing Letters

F.论文:《A clustering-based feature selection via feature separability》

基本内容和主要观点:With the extensive increase of the amount of data, such as text categorization, genomic microarray data, bioinformatics and digital images, there are more and more challenges in feature selection. Recently, feature selection has been widely studied in supervised learning, but there is significantly less work in unsupervised learning because of the absence of class information and explicit search criteria. In this work, we introduce a new measure to assess the importance of features in terms of feature separability. A clustering-based feature selection algorithm is then introduced to conduct the feature selection. The proposed algorithm with nearly linear time complexity selects final feature subset through a ranking procedure based on the separabilities of features and it is applicable to datasets of mixed nature. Experimental results on UCI datasets show that our method, by retaining relevant features, can obtain similar or even better results of classification and clustering for most datasets, and it outperforms other traditional supervised and unsupervised feature selection methods in terms of dimensionality reduction and classification accuracy.

学术价值:发表在SSCI期刊 Intelligent & Fuzzy Systems

课题组供稿 

(责编:沈王一)