旧版网站入口

站内搜索

云计算环境下的信息资源集成与服务研究中期检测报告

2016年11月29日15:41来源:全国哲学社会科学工作办公室

一、研究进展情况

1.研究进展

自2014年7月以来,国家社会科学基金重大项目“云计算环境下的信息资源集成与服务研究”在首席专家、咨询专家、各子课题负责人及全体项目组成员的共同努力下,按项目计划顺利完成了预期研究任务和项目管理目标。主要研究进展如下:

1.1云计算环境下的信息资源集成与服务的系统框架(子课题1)

在2012年至2014年期间已完成的研究成果(基于云计算环境下的Hadoop的索引创建方法及其索引方法;基于云计算环境下的海量文本数据的一种相似度衡量;大数据的压缩、清洗、分析和挖掘)的基础上,侧重完成了以下研究工作:

(1)进一步凝练研究对象和研究环境的针对性,加强研究结论的问题导向性:在研究对象方面,突出了课题研究对象的特殊性——多源、异构、海量和动态的碎片化信息资源;在研究环境方面,突出了云计算及其四个基本特征:虚拟化、弹性计算、经济性、按需服务。因此,系统框架设计具备较强的针对性和实用性。

(2)体系结构的优化:以碎片化管理、分层实现、弹性计算、负载均衡、故障恢复和数据连续性保障为主要设计目的,将系统框架分为存储、计算、集成和服务四个层次。其中,信息存储层的关键问题为分片、复制及数据一致性保障;信息计算层则主要解决数据流和控制流的分离;信息集成层的关键问题则碎片信息的溯源与集成;信息服务层主要解决的是个性化服务及数据驱动型服务。

(3)碎片信息资源的全生命期管理:重点研究云计算环境下的碎片信息资源的生成、传播、演化、跟踪、关联、分析、集成与利用的基本原则和关键技术。相关研究成果:论文《Knowledge Fragmentation and Its Connectivity Assurance》已被第13届智力资本、知识管理与组织学习国际会议(3th International Conference on Intellectual Capital和Knowledge Management & Organisational Learning)录用;专著《数据科学》(清华大学出版社)中讨论了数据连续性保障问题。

1.2云计算环境下的信息资源存储和组织模式研究(子课题2)

研究内容主要涉及推荐算法和信息网络挖掘两部分:推荐算法包括基于张量分解、随机决策树的推荐算法以及符号网络的正负关系预测算法,信息网络挖掘主要是不确定图上的SimRank计算和结点相似度计算。

(1)推荐算法:主要包括符号社会网络中正负关系预测算法研究、CROWN:结合上下文信息进行新闻推荐、大数据与推荐系统、基于高效张量分解的上下文感知推荐算法以及基于随机决策树的上下文感知推荐算法。相关研究成果:Shaoqing Wang, Cuiping Li, Kankan Zhao, Mengwei Lan, and Hong Chen “Fusing Hierarchical Information in Context-aware Recommendations”已投稿Dasfaa2016。

(2)信息网络挖掘:主要包括不确定图上的SimRank计算、多关系网络中结点之间相似度计算以及分析SimRank,Personalized PageRank和P-rank的误差估计。相关研究成果有Lingxia Du, Cuiping Li, Hong Chen, Liwen Tan, Yinglong Zhang, Probabilistic SimRank computation over uncertain graphs, Information Sciences, Volume 295, 20 February 2015: 521-535(CCF B类)、Jing Xu, Cuiping Li, Hong Chen, Hui Sun. SimRank Based Top-k Query Aggregation for Multi-Relational Networks. WAIM 2015. (CCF C类)和Yinglong Zhang, Cuiping Li, Chengwang Xie,Hong Chen, Accuracy Estimation of Link-based Similarity Measures and Its Application, Frontiers of Computer Science, 2015:1-11(CCF C类)。

1.3 云计算环境下的信息资源集成方法研究(子课题3)

主要以提供具有集成化的、支持大数据的、虚拟化的“资源池”为研究目的,重点研究了云计算环境下的信息资源的碎片化处理、碎片数据的传播与管理、碎片数据的质量控制、个性化知识图谱的生成和 数据驱动型信息集成等特定研究问题,并在以下几个方面取得了一定的研究进展:

(1)云计算环境下碎片信息的预处理:主要研究云计算环境下的信息资源,尤其是碎片信息资源的预处理原则、方法、流程和技术,为信息资源集成效果和效率的提升奠定数据基础。

(2)云计算环境下的碎片信息管理及语义标注:主要研究云计算环境下的信息资源,尤其是碎片信息资源的管理要求、审计、版本戳管理和其他元数据管理的方法、技术与工具,并以语义集成为目的进行语义标注。

(3)云计算环境下的碎片信息资源的数据驱动型集成:主要研究如何采用个性化集成和语义标注方法,将云计算环境下的信息资源,尤其是碎片信息资源集成为数据驱动型知识图谱。

相关研究成果已被第13届智力资本、知识管理与组织学习国际会议(3th International Conference on Intellectual Capital和Knowledge Management & Organisational Learning)录用;论文《基于开放度的可控自管理科技数字资源集成平台构架》发表在中文期刊《情报理论与实践》;更多研究成果正在投稿之中。

1.4云计算环境下的信息资源服务模式研究(子课题4)

主要针对信息资源和计算资源从个人计算机和企业服务器向云端迁移的过程中服务模式的转变,重点进行了云计算环境下信息资源服务特征分析、模式构建和采纳行为、法律问题等方面的研究,为云计算环境下信息资源服务模式与方法的进一步奠定了较好的基础。主要进展如下:

(1)云计算环境下的信息资源服务特征分析:系统地梳理了云计算技术给信息分析与服务带来的关键问题、挑战与发展趋势,既从顶层设计的角度提出了对策建议,也从微观上提出了技术优化与改进策略。相关研究成果已在《图书情报工作》、《情报杂志》、《中国信息年鉴》等国内相关领域的重要刊物上发表。

(2)信息资源服务模式构建:重点研究了知识共享、知识服务和政务云服务模式,提出了模式构建的关键要素、组织模式、运行机制和实现模型等,解决了信息资源服务的实践问题。相关研究成果已在《情报理论与实践》、《情报杂志》、《图书馆论坛》、《图书馆学研究》等国内相关领域的重要刊物上发表,并形成硕士学位论文一篇。

(3)云计算信息服务采纳:重点研究了政府、企业与个人作为主体对云计算信息服务的采纳行为与影响因素,提出了云计算采纳行为模型与相关研究的未来研究焦点,分析了组织或用户对云计算信息服务采纳的态度和行为,为该领域的研究提供了研究基础。相关研究成果已在《中国图书馆学报》上发表,并形成博士学位论文两篇。

(4)信息资源服务的法律问题:重点研究了政府信息资源在开放与服务的过程中所依据的我国现有法律、法规及国外立法相关情况与法律适用现状,并结合典型案例反映信息资源开发、利用的实践问题,提出了《政府信息公开条例》与《档案法》对信息资源服务的双重规制,寻求了适合我国国情的解决途径。相关研究成果已在《档案学通讯》上发表。

1.5 云计算环境中的学科知识信息资源集成与服务平台架构与评估(子课题5)

在已有研究成果(学科资源云平台构建、学科资源获取与集成、学科知识展示与服务的理论)的基础上,优化了学科资源云平台的设计与实现。本子课题实现了EventTeller系统较好地支持实时抓取相关Web页面数据,并自动过滤不相关网页,利用网页标题、摘要、发布时间更好的计算新闻网页相似度,并支持在线事件侦测和展示。目前已实现的主要功能模块有:在线事件侦测,计算新闻网页相似度,并设计了实时计算词语权重算法,建立倒排索引以及使用新闻标题索引来过滤不相关网页;融入更多类型的资源,实时抓取事件相关图片,微博等;话题追踪,设计了基于邻域更新的算法来解决事件页面集合更新;利用分布式系统进行数据存储及信息抽取,利用Hadoop的HDFS文件系统,存储实时抓取的数据。

1.6云测试管理与服务示范性应用模式研究(子课题6)

本课题对云计算环境下的信息资源集成应用案例进行了广泛的调研分析,并重点针对图书馆RFID通用数据交换平台和思源探索云平台这两个实践案例进行了深入的研究,总结出应用评价与示范性应用模式。课题主要进展如下:

(1)云计算环境下信息资源的集成特点与平台应用评价研究:以当前图书馆海量的数据信息资源作为研究对象,重点研究了大数据环境下,信息资源的几个典型特征以及读者对于信息资源的获取需求。提出了建设云数据平台的方案,并以思源探索云服务平台为例,从馆员、读者等不同的角度出发,给出了一套完整的应用评价体系,对于其它云服务或云测试平台的评价具备很好的指导意义。

(2)基于云的协同创新平台与学科服务研究:在云计算平台和协同创新工作理念的背景下,分别从系统平台和学科服务实践的角度,开展了深入的研究分析工作。对当前主流的一些云学科资源平台进行了分析比对,总结出了一些建设面向学科协同创新的信息资源集成与服务系统的通用模式与特征;通过这种特征与模式的提炼,给未来的系统建设提供建设性的框架与参考依据,从而设计出更好用、更智能化的学科信息资源系统。同时在服务上也提出了一些新的策略与建议,从而能更好的提升服务的水准。相关研究成果已在《大学图书情报学刊》等国内核心刊物上发表。

(3)RFID云通用数据交换平台研究:重点研究RFID云通用数据交换平台中的数据交互问题和平台管理模式,提出了图书馆RFID应用的一种新模式,该RFID云服务平台已正式在图书馆投入使用,对该平台进行了大量的RFID应用端功能测试与使用,包括各种前端设备的使用与数据交互,从而能够总结出一套行之有效的云服务应用与管理模式,进而推广到其它应用或其它领域。另外在标签转换、盘点等设备的使用过程中,积累了大量的前端交互数据,并结合图书馆管理系统等其它系统的数据,做了海量的数据分析比对等工作,提出了RFID云服务平台应用中的数据分析策略与实际应用模式。

(4)图书馆思源探索平台实践研究:图书馆思源探索平台是一套基于云计算环境的资源发现系统,系统在本地存储少量数据,绝大部分数据都分散在云端的各个子系统上。系统通过OAI、JSON、X-service、Web Services、deep linking、OpenSearch、plug-ins、adaptor等接口从其他数据库自动抓取数据。目前思源探索包含的基本数据源包括图书馆的原始书目数据、电子资源和自建数据库资源等,思源探索系统的后台数据库定期会从配置好的多个数据库中收割相关数据,满足用户对馆藏资源的检索需求;网络资源,从点评网、豆瓣网等获取到网络平台的资源数据以及本地资源的附属信息,例如书评和封面等内容;商用数据库资源,系统即时从各个商用数据库收割至思源探索的数据资源中心,存放在云端,供读者进行一站式的资源检索。从信息资源的特征和资源访问查询的需求入手,以思源探索系统为例,研究了云平台的搭建与设计模式,并与同样类型的云平台进行了详细的比对分析,从数据分析的角度分析了平台的运行现状,并最终给出一套云服务平台完整的应用评价体系和应用模式推荐。

2.调查研究与学术交流

课题组特别重视调查研究与学术交流,特别是跨子课题的交流与合作,多次召集各子课题负责人和部分代表交流各自的研究进展、存在问题和解决思路,确保了项目研究的整体性。例如:

(1)2014~2016年,在文献研究的基础上,根据研究要点到北京、天津、河北、长春等地信息机构进行了有针对性的调研,对理论研究进行了实证分析;

(2)2015年4月,参加在首尔举行的ICDE 2015国际会议;

(3)2015年6月,参加在青岛举行的WAIM 2015国际会议;

(4)2014~2015年,对思源探索平台的使用进行了问卷调研分析,并对云服务平台相关的一些文献资料进行了收集整理工作;

(5)2014~2015年,对国内外云计算采纳相关文献进行系统的调研,在此基础上提出个人云存储用户采纳行为模型,然后,对云存储的个人用户进行调查研究,通过访谈调研和发放问卷两种方式,对模型进行了实证和进一步解释;

(6)2015年,参与 “2015中国信息资源管理论坛”;

(7)2015年,参与在泰国曼谷举行的智力资本、知识管理与组织学习国际会议(International Conference on Intellectual Capital和Knowledge Management & Organizational Learning)。

(8)2014~2015年,参加IBM大数据分析师资培训。

3.成果宣传推介

(1)2015年10月,课题首席专家杜小勇教授和卢小宾教授在《中国信息年鉴》发表特约论文《云计算环境下的信息资源集成与服务》;

(2)2014年10月,课题组向国家社科基金委提交成果要报《关于加强我国云端信息资源管理工作的几点建议》;

(3)2015年6月,课题组提交的研究报告《大数据背景下政府数据资源的可持续管理与利用机制研究》等作为国家发改委制定相关政策提供了重要参考,并接到来自国家发改委高技术产业司的感谢信。

(4)在课题官网http://deke.ruc.edu.cn/static/icloud/index.html。上定期发布课题研究成果。

二、研究成果情况

自立项以来,本课题已完成研究成果有87项,其中专著/教材3部、标准2项、发明专利申请5项、软件著作权申请9项,发表论文67篇(国际发文26篇)、年鉴特邀稿1篇,具体如下表所示。

序号

成果名称

作者

成果形式

出版社或刊物名

出版或刊发时间(年/月)

1

开放源代码社区启发下的知识共享组织模型研究

肖源, 杨哲伦, 郝杰

论文

图书馆学研究

2016.1

2

个人云存储用户采纳模型及实证研究

王建亚,罗晨阳

论文

情报资料工作

2016.1

3

企业云服务采纳模式及影响因素研究

王涛

论文

博士学位论文

2016.6

4

基于流式计算的网络舆情分析模型研究

高欢

论文

情报学报

已录用

5

信息分析视角下的大数据分析平台构架研究

肖源,郝杰,刘莹,王涛

论文

情报科学

已录用

6

云架构下智慧政府服务模式研究

霍亮

论文

现代情报

已录用

7

Random Partition Factorization Machines for Context-Aware Recommendations

Shaoqing Wang等

论文

WAIM2016, Nanchang, China.

2016.6

8

Learn to recommend local event using heterogeneous social networks.

Shaoqing Wang, Zheng Wang, Cuiping Li

论文

APWeb2016, Suzhou, China.

已录用

9

面向学科化服务的高校云协同创新支持实践

郭晶等

论文

大学图书情报学刊

已录用

10

信息分析的若干核心问题探讨

朝乐门等

论文

情报理论与实践

2016.2

11

电子文件管理系统测试工作的对比研究

朝乐门等

论文

北京档案

2016.4

12

Knowledge Fragmentation and Its Connectivity Assurance

朝乐门等

论文

13th International Conference on Intellectual Capital, Knowledge Management & Organisational Learning

已录用

13

数据科学

朝乐门

教材

清华大学出版社

2016.7

14

信息资源管理术语及概念体系

安小米

专著

中国标准化出版社

2016.1

15

GB/Z 32002-2015 信息与文献 用于文件管理的工作过程分析

安小米

国家标准

中国标准化出版社

2015.12

16

分布式系统与云计算概论(第二版)

陆嘉恒

教材

清华大学出版社

2013.12

17

Big data challenge: a data management perspective

陆嘉恒

论文

Frontiers of Computer Science

2013.7

18

一种基于代价敏感支持向量机的遥感图像自动解译方法

陆嘉恒

发明专利

201310170288.2,2013.05.10

2013.05.10

19

基于Hadoop的索引创建方法及其索引方法

陆嘉恒

发明专利

201310302669.1,2013.07.17

2013.07.17

20

一种基于海量文本数据的相似度衡量方法

陆嘉恒

发明专利

201310335123.6,2013.08.02

2013.08.02

21

分布式海量Web数据爬取共享系统

陆嘉恒

发明专利

201310471593.5, 2013.10.11

2013.10.11

22

友好的XML图形化搜索系统软件V1.0

陆嘉恒,林春彬

软件著作权

2013SR035944,2013.04.22

2013.04.22

23

海量Web数据信息自动爬取与半自动化抽取系统软件V1.0

陆嘉恒

软件著作权

2013SR116778,2013.10.31

2013.10.31

24

海量非结构化数据管理系统测试软件[简称:NSRunner] V1.0

陆嘉恒,蔡晓华

软件著作权

2013SR131745  2013.11.25

2013.11.25

25

A Skylining Approach to Optimize Influence and Cost in Location Selection

Juwei Shi,Hua Lu,Jiaheng Lu,Chengxuan Liao

论文

DASFAA/2014 B类

2014.1

26

pandasearch: a fine-grained academic search engine for research documents

Feiran Huang,Jia Li,Jiaheng Lu 等

论文

 ICDE/2014 A类

2014.1

27

面向学术的精准搜索系统软件 [简称:CS Serach] V1.0

陆嘉恒,顾向南

软件著作权

2014SR049788 2014.04.25

2014.04.25

28

基于学术搜索系统的人名自动提示软件[简称:Scholar_AutoComplete] v1.0

陆嘉恒,蔡晓华

软件著作权

2014SR136332,2014.09.11

2014.09.11

29

大规模图数据处理系统软件V1.0

陆嘉恒,杨华

软件著作权

2014SR026073 2014.03.04

2014.03.04

30

面向学术搜索的图片爬取系统软件V1.0

李德阳,陆嘉恒

软件著作权

2014SR202098 2014.06.30

2014.06.30

31

开放环境下面向学术应用的论文信息自动获取系统软件V1.0

赵嘉迪,陆嘉恒

软件著作权

014SR204396 2014.10.30

2014.10.30

32

MapReduce-Based SimRank Computation and Its Application in Social Recommender System

Lina Li, Cuiping Li等

论文

IEEE Bigdata Congress, 2013

2013.6

33

On Perspective Aware Top-k Similarity Search in Multi-Relational Networks

Yinglong Zhang, Cuiping Li, Hong Chen

论文

DASFAA 2014.

2014.4

34

信息网络中一个有效的结点相似度度量

张应龙,李翠平,陈红

论文

软件学报

2014.11

35

Accuracy Estimation of Link-based Similarity Measures and Its Application

Yinglong Zhang, Cuiping Li, Hong Chen

论文

Frontiers of Computer Science

2015.1

36

 Probabilistic SimRank Computation over Uncertain Graphs

 Lingxia Du, Cuiping Li, 等

论文

 Information Sciences

2015.1

37

基于用户信任和张量分解的社会网络推荐

邹本友, 李翠平等

论文

软件学报.

2014.12

38

国外智慧城市知识中心构建机制及其借鉴研究

安小米

论文

情报资料工作

2013.4

39

面向智慧城市发展的信息资源管理协同创新策略构想

安小米

论文

情报资料工作

2013.4

40

词语位置加权TextRank的关键词抽取研究

夏天

论文

现代图书情报技术

2013.9

41

融合LDA 与TextRank 的关键词抽取研究

夏天等

论文

现代图书情报技术

2014.7

42

大数据时代的政府信息资源管理:国外数字连续性战略及借鉴

安小米

论文

智慧城市

2014.1

43

Vocabularies of ISO/TC46/SC11 Publications

安小米

标准

the 30th ISO/TC46/SC11 meeting, Washington D.C., US

2014.5

44

电子文件管理系统的技术特征

朝乐门

论文

现代图书情报技术

2013.4

45

电子文件管理系统测试方法研究

朝乐门

论文

档案学通讯

2014.6

46

数据空间及其信息资源管理视角研究

朝乐门

论文

情报理论与实践

2013.11

47

Mass Collaborative Knowledge Processing on the Amazon Mechanical Turk

朝乐门

论文

International Journal of Computer Science Issues

2014.2

48

一种电子文件管理系统的自动化测试方法及系统

朝乐门、杜小勇、薛四新

发明专利

CN201410045487.5

2014.12

49

云计算环境下电子文件管理的关键技术研究

薛四新,朝乐门,田雷

论文

北京档案

2013.1

50

云计算环境下的信息资源的集成与服务研究

卢小宾、杜小勇、朝乐门

论文

《中国信息年鉴》特约论文

2015.1

51

Google三大云计算技术对海量数据分析流程的技术改进优化研究

王涛、卢小宾

论文

图书情报工作,

2015.3

52

大数据时代信息分析的关键问题、挑战与对策

官思发,朝乐门

论文

图书情报工作,

2015.3

53

计算机辅助信息分析及其发展趋势研究

熊志正、朝乐门

论文

图书情报工作,

2015.3

54

《档案法》规制下的政府信息公开问题探析

卢小宾、高欢

论文

档案学通讯

2015.6

55

美国竞争情报软件发展现状及对我国的启示

官思发,李宗洁

论文

图书情报工作

2015.4

56

大数据环境下知识服务关键要素与实现模型研究

官思发,李宗洁

论文

情报理论与实践

2015.12

57

政务网络信息生态链中的可信云服务模式构建

王涛;曲荣华;洪先锋

论文

情报杂志,

2015.4

58

Scalable and noise tolerant web knowledge extraction for search task simplification.

Jun He, Y. Gu, H. Liu, J. Yan, H. Chen.

论文

Decision Support Systems

2013.9

59

Predicting Microblog User's Age based on Text Information.

Y. Li, T. Liu, H. Liu, Jun He and X. Du.

论文

The 14th International Conference on Web Information System Engineering

2013.9

60

The Study of UHF-RFID Data Model Construction in University Libraries

GUO Jing etc.

论文

The Electronic Library

2014.5

61

Design and Implementation of a Subject Librarian Training Program for University Libraries in China

GUO Jing etc.

论文

Reference & User Services Quarterly

2014.2

62

A Comprehensive Concept Map for Adequate Protection and Effective Management of Personal Information in Networked Chinese Services.

An X, Bai W, Deng H, Sun S, Dong Y, Zhong W, Hu J (2015).

论文

The Electronic Library

2015.6

63

Mass collaborative knowledge management:Towards the next generation of knowledge management studies

朝乐门

论文

 Program

2015.4

64

The information resources utilization index: a case study in China

朝乐门等

论文

Program

2016.1

65

元分析方法在信息分析中的应用

陈鹤阳,朝乐门.

论文

 情报资料工作, 2015.6

2015.1

66

CROWN: A Context-aware RecOmmender for Web News

Wang S, Zou B, Li C, et al.

论文

Data Engineering (ICDE)

2015.4

67

GPUTENSOR: Efficient  Tensor  Factorization  for  Context-Aware Recommendations.

Benyou  Zou, Cuiping  Li,  Liwen  Tan  and  Hong  Chen.

论文

Information Sciences

2015.4

68

Probabilistic SimRank computation over uncertain graphs

Hong Chen, Liwen Tan, Yinglong Zhang

论文

Information Sciences

2015.2

69

SimRank Based Top-k Query Aggregation for Multi-Relational Networks.

Jing Xu, Cuiping Li, Hong Chen, Hui Sun.

论文

Web-Age Information Management. Springer

2015.12

70

符号社会网络中正负关系预测算法研究综述

蓝梦微,李翠平,等

论文

计算机研究与发展

2015.2

71

大数据与推荐系统

李翠平, 蓝梦微等

论文

大数据

2015.3

72

大数据分析研究现状、问题与对策

官思发,孟玺,李宗洁,刘扬

论文

情报杂志

2015.5

73

大数据知识服务关键要素与实现模型研究

官思发

论文

图书馆论坛

2015.6

74

政务网络信息生态链中的可信云服务维度构建

王涛,张苏,曲荣华等

论文

情报杂志

2015.4

75

云环境下政务信息生态链运行机制研究

张皓月

论文

硕士学位论文

2015.6

76

Developing a Comprehensive Regime for Personal Information Protection in Networked Chinese Public Sectors

Xiaomi An等

论文

Management

2015.3

77

云计算采纳行为研究现状分析

卢小宾, 王建亚.

论文

 中国图书馆学报,

2015.1

78

 电子文件管理系统的测试方法研究

朝乐门.

论文

档案学通讯

2014.6

79

电子文件管理系统研发的重点与难点分析

朝乐门.

论文

档案学通讯

2014.1

80

基于开放度的可控自管理科技数字资源集成平台构架

董宇, 安小米, 钱澄,等

论文

情报理论与实践

2014.11

81

 中国政府网站移动浏览器兼容性研究

夏天, 陈杰, 魏小贞,等

论文

现代情报

2014.11

82

大数据下基于异步累积更新的高效P-Rank计算方法

王旭丛, 李翠平, 陈红.

论文

软件学报

2014.09

83

现代国家治理的云端思维——信息治理能力与政府转型的多重挑战

安小米.

论文

人民论坛·学术前沿

2015.02

84

 Location-Based Recommendation Using Incremental Tensor Factorization Model

Zou B, Li C, Tan L, et al.

论文

Advanced Data Mining and Applications Springer

2014.11

85

 Explicit semantic path mining via wikipedia knowledge tree

Xia T, Chen M, Liu X.

论文

Proceedings of the American Society for Information Science and Technology

2014.6

86

Fast Approximation of Shortest Path on Dynamic Information Networks

Jin J, Shi X, Li C, et al.

论文

 Web-Age Information Management. Springer

2014.5

87

信息资源开发利用指数数据处理系统

朝乐门等

软件著作权

登记号 2015SR226408

2015.9

其中,自2014年7月以来,比较有代表性的成果简介如下:

(1)云计算采纳行为研究现状分析。在中国图书馆学报上发表了论文《云计算采纳行为研究现状分析》。论文采用定量和定性相结合的方法,对外文数据库中云计算采纳行为研究的文献进行梳理和分析。研究发现:应重视发展中国家和中小企业云计算采纳行为研究,以促进他们应用云计算技术;个人层面的云计算采纳行为将成为一个重要的研究主题;需要构建符合云计算技术特征的实证模型;需要结合应用情境分析云计算采纳行为的影响因素,云计算的安全、隐私、信任将成为本领域关注的焦点。论文通过对云计算采纳行为研究现状的分析,为我国该领域的研究提供研究思路和理论基础。

(2)基于GFS、MapReduce和Bigtable的信息资源集成方法。在《图书情报工作》上发表了论文《Google三大云计算技术对海量数据分析流程的技术改进优化研究》。论文针对传统海量数据分析处理数据细节方式所导致的分析质量与效率问题, 通过对Google三大云计算技术——GFS、MapReduce和Bigtable进行文献调查、内容分析和技术分析,梳理出Google云计算技术在数据处理、技术架构和算法模型等方面的部署创新和设计改进,并与传统本地数据分析处理方式与细节进行比较分析,提出海量数据分析流程在存储和访问、组织与管理以及并行处理3个方面的技术优化与改进策略。其中提出的解决方案对本课题信息服务的构建中数据处理和技术架构等方面,有一定参考和指导意义。

(3)基于随机决策树的上下文推荐算法。随着信息的爆炸式增长,推荐系统成为一个重要的工具,它可以有效地帮助用户找到喜爱的物品。用户的行为(如点击、购买、转发、评论等)是基于特定的环境的,称为上下文。上下文包括时间、地点,心情,同伴等。在实际的应用中,上下文可以很容易地被收集到。相对于传统的仅基于用户-物品二元交互的推荐系统,上下文推荐可以显著地提高推荐性能。现有的工作中,已经有很多上下文推荐方法被提出。其中,因子分解机是一个很有影响力和流行的模型。因子分解机把用户-物品-上下文交互表示为潜在因子的线性组合,并且平等地对待每一个用户、物品、上下文因子,而不能很好地捕获用户、物品、上下文之间崔在的层次信息。实际上,层次结构能够在不同水平上捕获更丰富的上下文信息,应该被充分利用以提高推荐质量。直觉上,在局部同质的上下文环境下,用户倾向于产生相似的评分。我们提出随机分割因子分解机,采用随机决策树层次化地分割上下文以便于更好地捕获复杂的局部交互。在决策树的每个节点上,我们探索因子分解机中潜在因子之间的相似度,采用k-means聚类方法分割用户-物品-上下文元组。每个节点上的数据子集被期望有更好的交互影响。我们在三个公开数据集上与现有的最新的5个上下文推荐模型做对比实验,实验结果表明,我们提出的随机分割因子分解机具有良好的性能。相关研究成果“Random Partition Factorization Machines for Context-Aware Recommendations”已经发表于中国计算机学会推荐的国际会议WAIM2016。

(4)基于异构社交网络的推荐模型。现有的社交网络蕴含多个异构的社交信息,如Meetup、豆瓣同城等基于事件的社交网络连接线上和线下两种社交网络,伴随用户和事件的急剧增长,有必要把相关事件推荐给用户。现有的推荐系统的研究已经表明,充分利用社交网络信息能够显著地提高推荐性能。直觉上,用户是否会对某一事件进行响应取决于他自身的兴趣偏好和好友的行为。我们提出异构社交泊松因子分解模型(HSPF)。HSPF模型组合在线和离线社交网络到一个框架中,并把好友之间的关系强度集成到模型中。我们在Meetup数据集上测试我们提出的模型,实验结果表明,我们提出的HSPF模型战胜了现有的模型。相关研究成果“Learn to recommend local event using heterogeneous social networks”已经被中国计算机学会推荐的国际会议APWeb2016录用。

(5)图书馆的RFID应用中构建云数据平台的设计方法。主要探讨了图书馆的RFID应用中构建云数据平台的设计思路与方法,按照规范来设计平台,所有的RFID前端应用如自助借还、标签转换、盘点设备、自动分拣设备等通过网络和云数据平台进行数据交互,从而完成其功能应用并实时记录各项操作中的大数据日志记录。主要观点是通过建设一个图书馆RFID云数据平台,首先将大量的RFID交换数据汇总在一起存储并使用;其次通过接口形式提供服务,灵活性更好,可实现前端任意RFID设备的随意接入;最后通过遵守数据模型和通用数据交换规范,各个图书馆都能方便地互相交互RFID数据,实现大区域RFID云共享云应用的目标。其中提出的解决方案对本课题云测试服务模式的研究有一定参考和指导意义,通过对该RFID云服务平台的设计与搭建,可进行大量的RFID应用端功能测试,从而能够对本课题的云测试管理方式提供一点的借鉴意义,可总结出一套行之有效的云服务应用模式,进而推广到其它应用或其它领域。相关研究成果《RFID通用数据交换平台建设研究》在《图书情报工作》上发表。

                                                    课题组供稿

(责编:沈王一)