旧版网站入口

站内搜索

“云计算环境下的信息资源集成与服务研究”中期检查情况

2015年07月10日16:22来源:全国哲学社会科学工作办公室

一、研究进展情况

自2013以来,国家社会科学基金重大项目“云计算环境下的信息资源集成与服务研究”在首席专家、咨询专家、各子课题负责人及全体项目组成员的共同努力下,按项目计划顺利完成了预期研究任务和项目管理目标。

1.科学研究工作

1.1云计算环境下的信息资源集成与服务的系统框架(子课题1)

完成了理论梳理和需求分析的调研。对于信息存储模块,基本完成了基于Hadoop和NoSQL数据库的信息资源集成与服务平台的构架设计和搭建,主要包括平台基础架构的建设。对于信息集成模块,完成了数据表示格式和元数据标准文档的制定、使用信息检索、数据集成等方法进行数据导入、整合等工作。基本设计完成了API调用标准。主要进展如下:

(1)提出了一种基于云计算环境下的Hadoop的索引创建方法及其索引方法,其分别建立了基于文件的索引、基于数据块的索引以及基于记录的索引的三级索引机制,在进行数据读取时,根据所述索引信息,对所诉输入分片进行逐层过滤,使得最终查询结果可以直接跳过无用的数据而执行读取动作,本发明避免了Hadoop读取无用数据,提高了海量数据的处理效率。该成果已提交专利申请。基于Hadoop的索引创建方式及其索引方法(申请号:201310302669.1)

(2)设计了基于云计算环境下的海量文本数据的一种相似度衡量系统,系统利用基于语义规则的扩展框架来衡量文本信息的相似度。具体的,本系统包括一个基于语义规则的扩展框架。在此框架内,又提出了两种具体的扩展模块:全扩展和选择扩展。前者将全部可用语义规则用于扩展字符串,后者结合了全扩展和贪心策略,给出了一种更加有效的扩展方法。该成果已提交专利申请。一种基于海量文本数据的相似度衡量办法(申请号:201310335123.6)

(3)从基于云计算环境下的数据管理的角度上回顾了大数据时代所面临的挑战,重点讨论了大数据的多样性,大数据的压缩,大数据的集成与清洗,大数据的索引与查询,以及大数据分析和挖掘。该调查与研究给出了一个以大数据为导向的研究和问题的简要概述。研究成果已被2013 Frontiers of Computer Science收录 (Jinchuan Chen, Yueguo Chen, Xiaoyong Du, Cuiping Li, Jiaheng Lu, Suyun Zhao, Xuan Zhou). Big data challenge: a data management perspective.Frontiers of Computer Science. p157-164 (SCI indexing)

1.2云计算环境下的信息资源存储和组织模式研究(子课题2)

为了应对大数据时代信息资源过载的问题,经常采用推荐的手段将信息资源进行有效过滤和组织,进而为其上的知识服务提供支持。目前通常使用协同过滤的方法计算用户或项目之间的相似度,这种方法存在一定的缺陷:比如评分矩阵稀疏、冷启动等问题。为此,本项目使用带权重的、基于Map-Reduce框架的Simrank并行方法计算对象之间的相似度。在此基础上,提出了两种并行实现算法,一种是初始的迭代方法的并行化,另一种是基于矩阵乘法的并行化。实验证明了新的推荐算法比已有协同过滤具有更好的效果。代表性成果为:Lina Li, Cuiping Li, Hong Chen, Xiaoyong Du.MapReduce-Based SimRank Computation and Its Application in Social Recommender System.IEEE Bigdata Congress。

1.3 云计算环境下的信息资源集成方法研究(子课题3)

主要以知识和电子文件为典型信息资源类型,重点进行了对信息资源集成基础理论,包括基本理念、主要需求和基本策略的研究,为进一步提出云计算环境下的信息资源集成方法奠定了较好的基础。主要进展如下:

(1)提出了一种支持协同创新体能力构建的知识管理策略,探讨了协同创新体能力构建(Collaborative Innovation Community Capacity Building ,CICCB)所需的知识集成方法,明确了知识集成的模式与策略。相关研究成果在第10届智力资本、知识管理和学习型组织国际会议,2013欧亚经济论坛、2013中国知识管理论坛,第四届全国知识组织与知识链接学术交流会及等学术会议进行了交流,并被CPCI刊源论文集收录(An, X., Deng, H., Cao, L. (2013).Knowledge Management in Support of Collaborative Innovation Community Capacity Building, Proceedings of the 10th International Conference on Intellectual Capital , Knowledge Management and Organizational Learning. The George Washington University, Washing, DC, USA. 24-25 October 2013: 19-25. ( ISI Web of Science CPCI刊源)

(2)以电子文件作为一种典型的信息资源,重点研究了电子文件的集成管理的技术特征及管理系统的研发重点与难点,明确了电子文件类信息资源的集成管理需求,为下一步提出信息资源集成方法奠定了基础。相关研究成果已在《档案学通讯》、《现代图书情报技术》等国内相关领域的重要刊物上发表。

(3)重点研究了信息资源管理基础理论和方法,深入研究信息资源管理理论的奠基人——F.W.Horton等国内外专家学者的代表性成果,梳理了信息资源管理思想起源、核心观点及研究方法,为本课题的进一步研究奠定了基础。在此方面,代表性研究成果课题组织翻译了F.W.Horton的名著《Information Resources Management: Concept and Cases》。该成果已由南京大学出版社出版,成果名称为《信息资源管理:概念与案例》。

1.4云计算环境下的信息资源服务模式研究(子课题4)

调研和分析了当前知识组织和服务模式的新需求,研究了开放环境下信息资源组织策略和服务的体系架构,研究了以知识为主体的服务内容和服务方式,研究了开放环境下同义术语的获取方法和归并方法,研究了云计算环境下语义搜索技术。作为实证研究,开发实现了基于汉语主题词表(工程技术版)的术语服务原型系统。比较有代表性的成果有:

? 曾建勋. 开放式知识链接服务体系研究[J]. 情报理论与实践, 2013, 36(1): 48-52.

? 曾建勋. 基于海量数字资源的科研关系网络构建探究[J]. 情报学报, 2013, 32(9): 929-935.

? 常春. 基于词频信息确定叙词表概念属性[J]. 图书情报工作, 2013, 57(16): 11-14, 24.

? 刘伟. 互联网同义词搜索中的词义聚类问题研究[J]. 图书情报工作, 2013, 57(16): 15-19.

1.5.云计算环境中的学科知识信息资源集成与服务平台架构与评估(子课题5)

重点对学科资源云平台构建、学科资源获取与集成、学科知识展示与服务的理论、方法与系统进行了研究。主要进展如下:

(1)研究从互联网中自动构建知识库以实现简化用户搜索工作的方法。重点研究了如何从描述实体的大规模互联网中自动获取资源并通过构建知识库进行集成的问题。我们提出了一个高效无监督信息获取方法,并借鉴分而治之的策略使该方法将一个困难的模板归约问题切分成多个较容易的子模板归约问题;对于自动获取得到的数据,我们提出了一种基于实例的模式匹配方法,利用属性实例之间的相似度来对属性进行匹配,获得较好的资源集成效果。这一工作发表在Decision Support Systems上。(Jun He, Y. Gu, H. Liu, J. Yan, H. Chen. Scalable and noise tolerant web knowledge extraction for search task simplification. Decision Support Systems. Volume 56, Pages 156-167. December 2013. (SCI)

(2) 研究了利用社交网络媒体这类数据资源进行知识服务的方法。我们以微博媒体大数据集为研究对象,研究对用户特征进行预测的方法,并利用互信息对相关性进行评估;为解决该类资源存在的高维和数据稀疏性的问题,提出了聚集微博特征的方法,并采用多种分类算法对聚集特征做分类,最终设计的模型获得较高的预测精度。这项工作发表在WISE 2013国际会议上,并获得会议的最佳挑战论文奖。(Y. Li, T. Liu, H. Liu, Jun He and X. Du. Predicting Microblog User's Age based on Text Information. The 14th International Conference on Web Information System Engineering (WISE 2013), Nanjing, China, 2013, Pages 510-515. (EI) (Best Challenge Paper Award))

(3)学科资源云平台构建。构建了EventTeller系统,该系统能够实时抓取相关Web页面数据,并自动过滤不相关网页,利用网页标题、摘要、发布时间更好的计算新闻网页相似度,该系统实现了在线事件侦测和展示。系统主要包括如下功能:在线事件侦测,计算新闻网页相似度,并设计了实时计算词语权重算法,建立倒排索引以及使用新闻标题索引来过滤不相关网页;融入更多类型的资源,实时抓取事件相关图片,微博等;话题追踪,设计了基于邻域更新的算法来解决事件页面集合更新;利用分布式系统进行数据存储及信息抽取,利用Hadoop的HDFS文件系统,存储实时抓取的数据。

2.项目管理工作

为了做好课题研究的服务和保障工作,课题组专门成立项目管理小组(图1),负责监督课题研究的范围、进度、人员、资源、质量和成本,并协调不同子课题之间的研究工作,提高课题研究的整体性和系统性。课题项目管理在首席专家杜小勇教授和卢小宾教授的直接领导下由课题管理办公室(课题总体组)负责实施。课题管理办公室(课题总体组)主要由首席专家(杜小勇教授和卢小宾教授)、咨询专家(冯惠玲教授、黄长著研究员、王珊教授、李广建教授)、各子课题负责人(李翠萍教授、陆嘉恒教授、安小米教授、曾建勋教授和何军副教授)共同组成,课题秘书为朝乐门博士。

图1 课题项目管理

(1)聘请了四位咨询专家。为了更好地指导课题研究工作,解决课题研究中各种疑难问题,课题组于2013年年初聘请了中国人民大学原常务副校长冯惠玲教授、中国社会科学院学部委员黄长著研究员、中国人民大学信息学院王珊教授、北京大学信息管理系李广建教授为课题咨询专家。

(2)召开了项目开题报告会。2013年4月16日在中国人民大学信息楼209会议室举行了项目开题报告会。中国人民大学常务副校长冯惠玲教授、中国社会科学院学部委员黄长著研究员、中国人民大学信息学院王珊教授、北京大学信息管理系李广建教授、课题组成员和来自校内外的相关领域专家学者出席了会议,会议由卢小宾教授主持。课题组首席专家杜小勇教授介绍了选题背景与动机、研究目标与预期成果、研究思路与方法、子课题划分与任务分解、项目管理和总体进度计划等。接着,五个子课题负责人或其代表陆嘉恒教授、李翠平教授、朝乐门博士、曾建勋研究员和何军副教授先后介绍了各子课题的研究内容与研究重点、研究思路与研究方法、预期成果和拟解决的关键问题等。在讨论交流环节,王珊教授、李广建教授等咨询专家就课题研究定位、方法和预期成果等方面提出了意见和建议。最后,卢小宾教授代表课题组做总结性发言,并对国家社科基金委、评审专家、与会专家对此课题的大力支持表示感谢。他说,课题组凝聚中国人民大学信息资源管理学院、信息学院、数据工程与知识工程教育部重点实验室、中国科学技术信息研究所在信息资源管理和云计算研究方面的优势力量,将理论突破和实践应用有机结合,力争高水平、高质量地完成课题任务。

图2 开题报告会

(3)开发课题专用网页。为了方便项目组内部交流和资源共享,课题组开发了国家社会科学基金重大项目“云计算环境下的信息资源集成与服务研究”专用网页。该网站不仅提供了研究目标、研究内容、关键问题等基本信息,而且还设有资源共享、项目动态等栏目,较好地支持了项目组内部交流和资源共享的需求。网页访问地址:http://deke.ruc.edu.cn/static/icloud/index.html。

图3 课题网站

(4)加强内部沟通与交流。根据课题研究需要,项目组采取了子课题内部交流和跨子课题交流相结合的方式。其中,子课题内部交流主要由子课题负责人主持完成,一般限于特定子课题或部分子课题的范围之内进行。总体组十分重视跨子课题的交流与合作,先后3次召集各子课题负责人和部分代表交流各自的研究进展、存在问题和解决思路,确保了项目研究的整体性。此外,课题组还编制了项目研究手册(图4),统一提供了项目研究所需的相关规章制度、期刊目录和成果标注方法。

图4 项目研究手册

(5)规范财务报销与管理工作。为了规范财务报销工作,课题组专设了项目秘书的岗位,负责项目组的财务报销工作。项目组采取集中报销和实时报销相结合的方法,较好地满足了全体研究人员的财务报销需求。2013年度共安排了3次集中报销,并由课题秘书朝乐门博士负责统一收集和整理全体研究人员的报销凭证,并经首席专家杜小勇教授和卢小宾教授签字批准后交给财务部门报销,较好地解决的财务报销工作的规范性。

(6)重视人员变动管理。根据项目研究需要,现聘请中国人民公安大学公安情报系周西平副教授、中国人民大学宋姬芳、张苏、王涛博士以及中国科技信息研究所刘伟、赵雪芹博士参与子课题《云计算环境下的信息资源服务模式》的研究工作;聘请中国人民大学牛力博士参与子课题《云计算环境下的信息资源集成方法》的研究工作。

(7)重视国内外学术交流

1)2013年9月26-28日出席在中国西安召开的2013欧亚经济论坛,并在其第三界国际环境大会:生态与可持续发展论坛上作"Meta-synthetic Strategies for Reuse of Public Sector Information Resources for Smart City: Case Analysis of Smart Travelling Projects"的报告.

2)October 24 to 25, speaker for “ Knowledge Management in Support of Collaborative Innovation Community Capacity Building” at the International Conference on 10th International Conference on Intellectual Capital, Knowledge Management & Organizational Learning held in George Washington University at Washington D.C., US.

3)2013年12月3日到4日在第四届全国知识组织与知识链接学术交流会作“支持协同创新能力构建的知识管理研究”特邀报告.

4)2013年12月14日在中国知识管理论坛作“支持协同创新体能力构建的知识管理研究”特邀报告.

5)May 4 to May 10, 2014, ISO/TC46/SC11 meeting, Washington D.C., US。此次会议上安小米教授完成并提交了有关ISO/TC46/SC11系列标准产品的术语表。会议决议任命安小米教授承担以下ISO/TC46/SC11标准工作:

6)领导ISO/TC46/SC11特别工作组3 (Ad Hoc Group 3)关于ISO/TC46/SC11术语表的建立及术语的规范性制修订,未来工作包括(1)完成《ISO 30300系列标准与其他ISO/TC46/SC11产品的关系:术语》更新; (2)建立ISO/TC46/SC11词汇表和术语表使用规则;(3)对术语的更新、修订和增删提出建议;(4)对术语及定义的连贯性和一致性规范使用提出建议;(5)识别影响ISO/TC46/SC11工作的核心概念,建立概念关系图。

7)参与ISO/TC46/SC11特别工作组4 (Ad Hoc Group 4)开放数据与文件管理的关系研究工作。

8) 作为编辑组成员,参与解决各国针对《ISOCD30302 文件管理体系实施指南》提出的意见,作出意见处理的反馈。

9)作为新标准起草准备工作组成员,参与关于文件管理体系标准实施的监管和评测或治理的新产品起草。

10)负责《ISO 30300系列标准与其他ISO/TC46/SC11产品的关系:术语》更新。

11)2013年12月组织举办了“第四届全国知识组织和知识链接学术交流会”。来自北京大学、中国人民大学、武汉大学、天津大学、南京大学等高校图书馆和国家科学技术图书馆、中国医学科学院医学信息研究所、中国农业科学院农业信息研究所等科研机构的图书情报、计算机领域的专家、学者等270余人参加了此次会议。

注:2010年立项的重大项目主要填写2012年6月以来的研究进展情况。

二、研究成果情况

(1)出版了《分布式系统与云计算概论》第二版。详细介绍了分布式系统与云计算技术,包括Google、Yahoo等公司的云平台技术介绍、MapReduce和Hadoop生态系统中典型系统的介绍和相关云计算程序的开发,较第一版有较大改进。

(2)在Frontiers of Computer Science上发表了论文《Big data challenge: a data management perspective》。论文讨论了大数据的多样性特点、大数据的集成与清洗、大数据约简、大数据索引与查询、大数据分析与挖掘等方面的挑战与解决方法。其中提出的解决方案对本课题有一定参考和指导意义。

(3)开发了术语服务原型系统,以此为研究平台,开展了本子课题相关的研究,包括信息资源组织策略、服务体系架构内容及方式、同义术语获取与归并、语义搜索等方面。该平台获得了软件著作权,开展了研究内容大部分已发表在国内核心期刊上。通过理论研究与实践结合,基本验证了所提出的服务模式在云计算环境下的可行性,部分的研究结果在服务系统上得到了实际应用,并进一步深化了下一阶段的研究内容。

(4)构建了EventTeller系统,该系统能够实时抓取相关Web页面数据,并自动过滤不相关网页,利用网页标题、摘要、发布时间更好的计算新闻网页相似度,该系统实现了在线事件侦测和展示。系统主要包括如下功能:在线事件侦测,计算新闻网页相似度,并设计了实时计算词语权重算法,建立倒排索引以及使用新闻标题索引来过滤不相关网页;融入更多类型的资源,实时抓取事件相关图片,微博等;话题追踪,设计了基于邻域更新的算法来解决事件页面集合更新;利用分布式系统进行数据存储及信息抽取,利用Hadoop的HDFS文件系统,存储实时抓取的数据。

(5)提出了一种支持协同创新体能力构建的知识管理策略,探讨了协同创新体能力构建(Collaborative Innovation Community Capacity Building ,CICCB)所需的知识集成方法,明确了知识集成的模式与策略。相关研究成果在第10届智力资本、知识管理和学习型组织国际会议,2013欧亚经济论坛、2013中国知识管理论坛,第四届全国知识组织与知识链接学术交流会及等学术会议进行了交流,并被CPCI刊源论文集收录

(6)以电子文件作为一种典型的信息资源,重点研究了电子文件的集成管理的技术特征及管理系统的研发重点与难点,明确了电子文件类信息资源的集成管理需求,为下一步提出信息资源集成方法奠定了基础。相关研究成果已在《档案学通讯》、《现代图书情报技术》等国内相关领域的重要刊物上发表。

(7)重点研究了信息资源管理基础理论和方法,深入研究信息资源管理理论的奠基人——F.W.Horton等国内外专家学者的代表性成果,梳理了信息资源管理思想起源、核心观点及研究方法,为本课题的进一步研究奠定了基础。在此方面,代表性研究成果课题组织翻译了F.W.Horton的名著《Information Resources Management: Concept and Cases》。该成果已由南京大学出版社出版,成果名称为《信息资源管理:概念与案例》。

注:2010年立项的重大项目主要填写2012年6月以来的研究成果情况。

序号

成果名称

作者

成果形式

刊物名或出版社、刊发或出版时间

字数

转载、引用、获奖等情况

 

 

 

 

 

 

 

1.         

MapReduce-Based SimRank Computation and Its Application in Social Recommender System

Lina Li, Cuiping Li, Hong Chen, Xiaoyong Du

论文

IEEE Bigdata Congress, 2013

 

0.9万

 

2.         

On Perspective Aware Top-k Similarity Search in Multi-Relational Networks

Yinglong Zhang, Cuiping Li, Hong Chen

论文

DASFAA 2014.

0.8万

 

3.         

SuperSimRank:信息网络中一个有效的结点相似度度量

张应龙,李翠平,陈红

论文

2014,软件学报. 已录用

0.8万

 

4.         

Accuracy Estimation of Link-based Similarity Measures and Its Application

Yinglong Zhang, Cuiping Li, Hong Chen

论文

WAIM 2014

0.9万

 

5.         

《分布式系统与云计算概论》(第二版)

陆嘉恒

教材

清华大学出版社 2013年12月

48.6万

“十一五”国家级规划教材

6.         

Big data challenge: a data management perspective

陆嘉恒

论文

Frontiers of Computer Science

0.9万

 

7.         

Knowledge Management in Support of Collaborative Innovation Community Capacity Building, Proceedings of the

An, X., Deng, H., Cao, L.

会议论文

10th International Conference on Intellectual Capital , Knowledge Management and Organizational Learning. The George Washington University, Washing, DC, USA. 24-25 October 2013.

0.6万

 

8.         

国外智慧城市知识中心构建机制及其借鉴研究

安小米

论文

情报资料工作, 34(4), 2013.

0.7万

中文核心期刊

9.         

面向智慧城市发展的信息资源管理协同创新策略构想

安小米

论文

情报资料工作, 2014(3)

0.8万

中文核心期刊

10.     

词语位置加权TextRank的关键词抽取研究

夏天

论文

现代图书情报技术2013(9)

0.5万

中文核心期刊

11.     

融合LDA 与TextRank 的关键词抽取研究

夏天等

论文

现代图书情报技术(已录用)

0.8万

中文核心期刊

12.     

云计算环境下电子文件管理的关键技术研究

薛四新,朝乐门,田雷

论文

北京档案,2013,01

0.8万

中文核心期刊

13.     

电子文件管理系统的技术特征

朝乐门

论文

现代图书情报技术, 2013,4

0.8万

中文核心期刊

14.     

电子文件管理系统研发的重点与难点分析

朝乐门

论文

档案学通讯,2014,01

0.8万

中文核心期刊

15.     

基于海量数字资源的科研关系网络构建探究

曾建勋

论文

情报学报

2013(9)

0.8万

中文核心期刊

16.     

基于词频信息确定叙词表概念属性

常春

论文

图书情报工作,2013(8)

1.1万

中文核心期刊

17.     

互联网同义词搜索中的词义聚类问题研究

刘伟

论文

图书情报工作,2013(8)

1.0万

中文核心期刊

18.     

国家工程技术图书馆科研工作体系构建

曾建勋

论文

数字图书馆论坛,2013(10)

0.7万

中文核心期刊

19.     

国家工程技术数字图书馆服务体系建设

刘华

论文

数字图书馆论坛,2013(10)

0.6万

中文核心期刊

20.     

基于RDA的标签与书目数据关联方法初探

魏来

论文

图书情报工作,2014(4)

0.6万

中文核心期刊

21.     

基于引文的中文学术文献自动标引方法研究

刘伟

论文

图书情报工作,2014(2)

0.8万

中文核心期刊

22.     

同义术语归并中缩略语的处理方法研究

常春

论文

图书情报工作,2014(1)

0.8万

中文核心期刊

23.     

一种电子文件管理系统的自动化测试方法

杜小勇、朝乐门等

发明专利

201410045487.5

1.3万

 

24.     

基于Hadoop的索引创建方法及其索引方法

陆嘉恒

发明专利

201310302669.1

2013.07.17

1.2万

 

25.     

一种基于海量文本数据的相似度衡量方法

陆嘉恒

发明专利

201310335123.6

2013.08.02

1.5万

 

26.     

分布式海量Web数据爬取共享系统

陆嘉恒

发明专利

201310471593.5

2013.10.11

1.3万

 

27.     

友好的XML图形化搜索系统软件V1.0

陆嘉恒,林春彬

软件著作权

2013SR035944

2013.04.22

1.5万

 

28.     

海量Web数据信息自动爬取与半自动化抽取系统软件V1.0

陆嘉恒

软件著作权

2013SR116778

2013.10.31

1.3万

 

29.     

海量非结构化数据管理系统测试软件[简称:NSRunner] V1.0

陆嘉恒,蔡晓华

软件著作权

2013SR131745

2013.11.25

1.5万

 

30.     

云计算环境下的信息资源的集成与服务研究

卢小宾等

论文

《中国信息年鉴》特约论文

0.7万

 

课题组供稿

(责编:实习生、张文卓(实习生))