旧版网站入口

站内搜索

面向知识创新服务的数据科学理论与方法研究的中期检查报告

2018年12月03日16:01来源:全国哲学社会科学工作办公室

一、研究进展情况

1研究计划总体执行情况及各子课题进展情况

本项目共分为五个子课题,分别为:

子课题一:面向知识创新服务的数据科学理论研究:目的与体系

子课题二:面向知识创新服务的数据科学方法研究:信息采集与知识抽取

子课题三:面向知识创新服务的数据科学方法研究:知识融合与知识发现

子课题四:面向知识创新服务的数据科学应用研究:知识创新服务机制

子课题五:面向知识创新服务的数据科学应用研究:实现与验证

以总体方案为指导,按照研究计划,通过文献检索、网络调查、实地调研、专家访谈与通信咨询等方式,针对要解决的问题和要研究的内容,分别开展了各个子课题的研究,并在研究过程中注重各个子课题之间的关联,总体执行情况概要如下:

? 从2016年12月开始,结合原有的工作积累,对有关“知识创新”“知识服务”“数据科学”“知识发现”“知识融合”等相关研究进行文献检索、文摘阅读与原文筛选下载等工作,并且这项工作一直在持续进行着;

? 咨询国内外领域专家对课题开展与开题等工作进行指导,同时,制定课题开题论证会议议程,2017年2月25日召开了开题会,邀请到会的9位专家分别来自中国社会科学院、上海社科科学院、北京大学、武汉大学、南京大学、华中师范大学、南京农业大学等机构;

? 2017年4-7月间,分别对中国科技信息研究所、中国船舶749所、中国兵器210所、中国同方、等知识服务机构进行实地访问和网络调查,向情报工作人员发放问卷,与研究人员交流等,获得了有关知识服务、知识创新等方面的第一手资料;

? 选取数字图书馆、全文数据库网站、学术搜索引擎三种类型的在线知识服务平台和Research Gate、分答、值乎、推文等社交平台,采集相关数据进行数据处理、数据挖掘、知识融合与发现等的数据科学理论和方法研究;

? 邀请国内外学者研讨与交流6次;

? 举办主题为“数据科学驱动的图书资讯学变革与转型”第14届海峡两岸图书资讯学学术研讨会1次;

? 完成发表17篇期刊论文,其中:被SCI/SSCI双收录1篇、CSSCI收录13篇、CSSCI扩展版收录3篇;

? 完成顶级国际会议论文7篇;

? 完成录用待发表期刊论文8篇,其中:被SCI/SSCI双收录1篇、被SCI收录2篇、ESI收录1篇、CSSCI期刊收录4篇;

? 完成待出版专著1本:数据驱动的知识服务体系与方法;

? 此外,参加2017年计算语言学领域的自动摘要国际测评比赛论文1篇,专家寄语1篇,首席专家被邀大会报告与讲座9次。

下面将分别简述子课题的进展情况

1.1子课题一:面向知识创新服务的数据科学理论研究:目的与体系

该子课题是关于研究背景、需求与体系构建的探索部分,围绕着大数据、学科知识创新、知识创新服务和数据科学展开。

① 2017年1月至2017年3月,按照计划开展的工作如下:

? 对有关“知识创新”“知识服务”“数据科学”等相关研究进行文献与综述;

? 在听取专家论证建议与文献综述分析基础上,课题组进一步凝练了要强化图书情报与数据科学关联研究,并突出实证检验研究以体现理论对实践的指导意义的方案。

②2017年4月至2017年8月,按照计划开展的工作如下:

? 通过文献调查、数据调查等手段,研究知识创新与大数据、知识服务与大数据、知识创新服务内涵、数据科学的内涵、特征,以及综述与分析相关研究的国内外现状;

? 通过实地调查与专家访谈,探究大数据环境下现有知识服务存在的问题以及知识服务未来的发展动向。在调研中,侧重对知识获取、知识特征提取、知识多源集成、知识检索、知识抽取和知识应用六个方面的服务进行调查与分析,研究大数据对学科知识创新的重构,总结大数据环境下学科知识创新的知识创新服务需求。

③2017年9月至2018年2月,按照计划开展的工作如下:

? 通过文献调查、归纳总结等方法,在对国内外知识创新服务相关研究现状研究基础上,结合学科知识创新的转变与新路径研究以及知识服务的重构需求,引入野中郁次郎的SECI模型和DIKW价值链模型,研究知识创新服务的内涵、特征、影响因素与支撑要素;

? 以“DIKW价值链”为指导,借助于“综合集成研讨厅”将专家智慧、数据和信息、计算机技术相结合的思想,首先,分析在知识创新服务中的数据流动的特点、方法与表现形式;然后,对“DIKW价值链”按照“大数据(D)?蕴含知识的信息(I)?元知识(K)?智慧(融合和涌现知识)(W)”进行重构与解读。再次,以“重构的DIKW价值链”为主线,研究并构建面向知识创新服务的数据科学的学理思想与基本方法论。

④2018年3月至2018年7月,按照计划开展的工作如下:

? 以知识创新服务需求为驱动,以重构的“DIKW价值链”为导向,将数据科学的核心研究内容(多源异构数据获取、数据预处理、数据统计分析、数据挖掘、数据可视化和数据产品)与知识创新服务的核心内容(知识创新、信息采集与知识抽取、知识融合与知识发现、知识创新服务机制、知识创新服务应用)相结合,研究并构建面向知识创新服务的数据科学理论与方法体系。

1.2子课题二:面向知识创新服务的数据科学方法研究:信息采集与知识抽取

该子课题是围绕知识创新服务目标,探索多源数据的信息采集与知识抽取面临的特殊性和困境,提出可行的信息采集与知识抽取模式、途径和程序。

①2017年1月至2017年3月,按照计划开展的工作如下:

? 整理与分析现有基于多源数据的信息采集与知识抽取现状、功能和缺陷等。

②2017年4月至2017年6月,按照计划开展的工作如下:

? 通过分别对中国科技信息研究所、中国船舶749所、中国兵器210所、中国同方等知识服务机构进行实地访问和网络调查,研究面向知识创新服务的知识源特征与采集需求,分析了面向知识创新服务的知识抽取的新特点与需求。

③2017年7月至2017年9月,按照计划开展的工作如下:

? 在现有研究调查基础上,研究了数据源的评估原则、数据数据源质量评估体系构建,数据源质量评估方法实现;

? 针对基于多源数据的信息采集模式与采集加工平台,从采集流程中三个重要组成部分展开了研究:一是多源异构资源及其相应的数据格式(数据源产生途径、类型特征、分布形式);二是用户需求经转化后形成的数据源质量信息和配置信息;三是针对不同类型数据源采集模块的功能设计。具体地,首先对网络数据资源采集的典型方法和关键技术开展技术基础进行了研究;其次通过实验样例和测评指标对多源数据的信息采集技术方案适用性进行评估;再次针对所采集的数据结果,研究数据清洗与预处理的手段。由此,设计提出了基于多源数据的信息采集模式与流程。

④2017年10月至2018年2月,按照计划开展的工作如下:

? 对大数据驱动的知识抽取涉及到的关键技术进行研究,具体有异构知识源的知识抽取方法研究和大数据驱动的知识迭代抽取模式,包括词语语义知识的分类研究,引文域的自动识别、引用类型的分类以及自动摘要研究。尤其是针对科技文本的引文内容方面,进行了引文内容抽取与相关应用的研究,利用在线图书评论数据,对图书评论与馆藏的相关性进行了探索等。

⑤2018年3月至2018年6月,按照计划开展的工作如下:

? 调查了知识验证方法方面的国内外研究现状,尤其是对候选知识质量评估方法进行了比较分析,并以人工智能的研究为例,进行实证分析。

1.3子课题三:面向知识创新服务的数据科学方法研究:知识融合与知识发现

该子课题是围绕着知识融合和知识发现的理论、方法、技术以及工具等,进一步深化面向知识创新服务的数据科学的理论与方法研究。

①2017年1月至2017年3月,按照计划开展的工作如下:

? 结合原有关于知识融合研究(发表在《数字图书馆论坛》上的论文“大数据时代知识融合体系架构设计研究”和前期课题)的工作积累,实证走访调查了中国科技信息研究所、上海社会科学院信息研究所、江苏省科学技术情报研究所、中国同方等机构,咨询国内外领域专家,收集和阅读有关知识融合与知识发现等相关文献,并进一步整理和分析国内外研究现状,掌握现有知识融合与知识发现的现状、功能和缺陷等。

②2017年4月至2017年8月,按照计划开展的工作如下:

? 针对基于多维动态组合的知识融合与知识发现模式进行了系列研究,主要有:通过引文内容分析探索高被引论文的影响力演化模式,利用中文在线社交网站研究用户饮食的偏好与演化模式,通过情感分析技术探测社交网络上的中国用户饮食偏好等。

③2017年9月至2018年2月,按照计划开展的工作如下:

? 针对大数据驱动的知识融合与知识发现关键技术和方法进行了系列研究,主要有:利用引文数据的内容融合探测学科交叉知识,以Research Gate为例评估学术社会化问答平台的答案质量,对学术论文写作风格的度量、论文接受与稿件处理周期的关系、基于学术社交网络上阅读行为进行学科交叉度计算,基于科学推文数据的非正式科学交流语言分布、作者行为模式与地理分布,基于政策文件数据的替代计量指标分布特征等。

④2018年3月至2018年8月,按照计划开展的工作如下:

? 针对知识融合与知识发现结果的展示及验证,主要的研究有文献调查与整理,构建情报研究知识库,分别以人工智能和石墨烯为例的实证分析,形成了初步的研究结果。

1.4子课题四:面向知识创新服务的数据科学应用研究:知识创新服务机制

该子课题的研究包括知识创新服务的需求、知识创新服务的模式、知识创新服务的运作以及知识创新服务的保障等。

① 2017年1月至2017年6月,按照计划开展的工作如下:

? 通过网络调查,选取数字图书馆、全文数据库网站和学术搜索引擎三种类型的在线知识服务平台进行研究,以分析现有知识服务平台提供的学术资源、知识服务的表现形式与平台功能等;

? 结合调查与分析,研究与界定知识创新服务的定义、内涵与特点,以形成相关的理论与方法基础。

②2017年7月至2017年12月,按照计划开展的工作如下:

? 借鉴数据科学的理论方法探索知识创新服务的显在需求分析、潜在需求分析,对用户的行为轨迹和活动规律进行特征表示、特征提取、用户建模,挖掘出用户潜在和显在的知识服务需求进行研究,并通过综述研究了IT采纳和使用中用户转移行为的特征、模式与影响因素。

③2018年1月至2018年6月,按照计划开展的工作如下:

? 通过调查与实证分析大数据时代知识服务平台和系统所需的各种情报技术和工具,基于“DIKW价值链”从知识揭示、知识导航、智能检索、知识学习和知识挖掘等方面进行考查,并以基于语音互动的付费知识问答社区运营模式为例,研究了知识服务平台的运营现状与发展的对策;

? 为探索以文献资源主导的显性知识创新服务模式和以参与者为主导的隐性知识创新服务模式,研究国际公众科学领域演化路径与研究热点,从项目视角、理论方法视角以及参与者视角等研究乐基于群体参与及协作的公众科学研究模式的兴起与发展状态,以及对策建议等。

1.5子课题五:面向知识创新服务的数据科学应用研究:实现与验证

该子课题是以知识创新研究为实证场景,构建面向知识创新服务应用模式与实现系统,通过利用数据科学的理论与方法,以达到支撑使多源异构数据得以处理、提取、汇聚、关联、分析、融合,并实现从数据到知识的转化直至最终创造出新知识的研究宗旨。

① 2017年6月至2017年12月,按照计划开展的工作如下:

? 数字图书馆、全文数据库网站和学术搜索引擎三种类型的在线知识服务平台为例,描绘平台运行的信息流,进而系统分析大数据知识服务的组织架构、组织网络、规章制度、组织信息管理等。

② 2018年1月至2018年12月,按照计划开展的工作如下:

? 面向学科领域的研究前沿探索应用实证,以人工智能为例,开展了研究前沿探索的实证。进而,分析大数据时代知识创新服务平台和系统所需的各种情报技术和工具,知识服务的全过程进行平台原型的功能设计等。

2调查研究及学术交流情况(调研数据整理运用、文献资料收集整理、学术会议、学术交流、国际合作等)

2.1调研数据整理运用

? 在Web of Science数据库核心合集中下载有关“人工智能”数据72万多条,并用于学科领域前沿的研究中;下载Public Library of Science (PLOS)中的7756论文并用于引文内容抽取与分析中;下载Scopus和Altmetric.com数据集中共45万多条科学推文及其元数并用于知识挖掘与发现的研究中;下载 Altmetric.com公司中从2013年1月到2016年6月收集的所有政策文件数据共90036条,并用于知识挖掘与发现的研究中;在CNKI数据库和SIPO数据库中下载有关“石墨烯”领域的2000条文献数据和4000条专利数据 并用于知识库的构建研究及分析中;下载美团网美食频道19个类别、5132道菜肴中的115321条评论数据并用于在线社交网站的知识抽取研究中;

? 选取数字图书馆、全文数据库网站、学术搜索引擎三种类型的在线知识服务平台和Research Gate、分答、值乎、推文等社交平台,采集相关数据用于数据处理、数据挖掘、知识融合与发现等的数据科学理论和方法研究;

? 分别对中国科技信息研究所、中国船舶749所、中国兵器210所、中国同方、等知识服务机构进行实地访问和网络调查,向情报工作人员发放问卷,用于2017年4-7月间,与研究人员交流等,获得了有关知识服务、知识创新等方面的第一手资料。

2.2文献资料收集整理

? 检索了有关“知识创新”“知识服务”“数据科学”“知识融合”“知识发现”等方面的国内外研究论文,一共有1200多篇,选择主要的文献进行阅读,用于主要观点与内容的提炼、研究综述的撰写等。

2.3学术会议、学术交流与国际合作

? 2017年2月25日召开了开题会,邀请有9位专家到会并征集咨询建议;

? 组织学术研讨与报告会6次,先后邀请印第安纳大学丁颖教授、华北水利水电大学张琳教授、大连理工大学王贤文教授、武汉大学吴丹教授、加拿大麦吉尔大学舒非博士、北卡罗来纳大学教堂山分校Javed Mostafa教授参加项目研讨并做学术讲座:

(1)2017年5月16日,华北水利水电大学张琳教授学术报告:“文献计量与科学家个人成果评价研究”(http://sem.njust.edu.cn/38/34/c6134a145460/page.htm);

(2)2017年5月16日,大连理工大学王贤文教授学术报告:“地理位置大数据与计算社会科学研究”(http://sem.njust.edu.cn/38/34/c6134a145460/page.htm);

(3)2017年5月17日,武汉大学吴丹教授学术报告:“基于情境与APP交互的用户移动搜索行为研究”(http://sem.njust.edu.cn/38/75/c6134a145525/page.htm);

(4)2017年6 月21日,美国印第安纳大学教授、教育部长江学者讲座教授丁颖博士学术报告:“Zero to One:Success to Innovation”(http://sem.njust.edu.cn/41/01/c6134a147713/page.htm);

(5)2018年4月18日,加拿大麦吉尔大学舒非博士学术报告:“National and International Scientific Elites”(http://sem.njust.edu.cn/97/ab/c6134a169899/page.htm);

(6)2018年6月20日,北卡罗来纳大学教堂山分校Javed Mostafa教授学术报告:“Consumer Health Information Searching: TowardAutomated, Trustworthy, and Secure Personalization” (http://sem.njust.edu.cn/af/4a/c6134a175946/page.htm)。

? 2018年7月6日至8日,举办“第十四届海峡两岸图书资讯学学术研讨会”,本届会议主题为:“数据科学驱动的图书资讯学变革与转型”,到会的海峡两岸40余所高校与科研院所的160余名知名专家、学者和学生,

(http://sem.njust.edu.cn/b1/d7/c6134a176599/page.htm)。

? 组织小型学术研讨会12次,除了课题组成员外,还邀请了校外内专业技术领域人员到会参与课题研讨。

? 2017年8月29日,北京国际会议中心2C,参加纳米研究前沿分析报告发布会。

? 2017年11月15-17日,贵阳大数据中心参观与交流。

3成果宣传推介情况(成果发布会、《工作简报》报送情况、国家社科基金专刊投稿及采用情况等)

? 中国社会科学网报道:数据科学理论与方法体系亟待完善(2017年03月06日)(http://www.cssn.cn/gd/gd_rwhd/xslt/201703/t20170306_3441434.shtml)

? 首席专家被邀请会议主题报告与学术讲座:

(1)王曰芬.2016年12月7日,中国“互联网公益”研究报告发布会,分论坛:互联网公益数据监护主持,并做报告:互联网公益数据监护

(https://charity.nju.edu.cn/9d/18/c835a171288/page6.htm)

(2)王曰芬.2017年2月24日,上海社会科学院学术演讲“数据科学支撑的知识服务创新对策思考”( http://www2.sass.org.cn/detailAction.do?method=ShowNewsContent)

(3)王曰芬.2017年4月20-22日,高校新型智库建设与协同创新发展论坛,河南财经政法大学,郑州市东方维景国际酒店,CNKI主办,主题报告:面向智库的情报搜集与分析(http://edu.people.com.cn/n1/2017/0421/c1053-29228184.html)

(4)王曰芬.2017年6月8-9日,首届数据分析与知识发现学术研讨会,北京世纪金源香山商旅酒店,主题报告:信息哲学视域下数据驱动的科学知识发现方法论思考(大学图书馆学报,2017(5):126-127)

(5)王曰芬.2017年7月21-23日,第七届全国博士生论坛,北京科学院大学雁栖湖,大会报告:数据科学支撑的知识服务创新对策思考(http://ndsis.las.ac.cn/dct/page/65583)

(6)王曰芬.2017年8月18日,第六届中国电科战略情报研讨会,成都黄龙溪欣瑞大酒店,主题报告:大数据时代科技情报理论与方法创新及应用

(http://www.sohu.com/a/165709252_466078)

(7)王曰芬.2017年9月13日,江苏大学图书馆学术讲座:数据科学支撑的知识服务创新对策思考(http://www.ujs.edu.cn/info/1065/17520.htm)

(8)王曰芬.2018年5月7日,华南师范大学讲座:大数据与数据科学及其应用

(http://em.scnu.edu.cn/a/20180507/6288.html)

(9)Wang Yuefen .Evolution study of individual author and component network in the life cycle stage based on scientific collaboration network data,The Annual Conference on Data, Information, and Society ,Nanjing, China, July 3–6, 2018.( http://www.dis2018.net/Program.html)

4研究中存在的主要问题、改进措施,研究心得、意见建议

4.1研究中存在的主要问题与改进措施

? 在研究中面临的主要问题:一是,难以收集到可以有效借鉴的国外研究资料;二是,从各种数据资源(数据库)中下载的数据处理上存在有效算法支撑不足,而导致效率低下、处理时间长;三是,在国际交流的范围与深度上还不够;四是,在传播学术研究成果过程中向期刊投稿,大部分国内期刊需要收取版面发稿补贴费用,而导致有些论文不能及时发表。

? 改进的措施:一是,扩大文献检索与实际调研的范围,拟将从2018年9月开始加大对外交流的力度;二是,加大实证研究的范围,并争取与专业化学会取得联系,将研究成果通过专业学会的传播与发布;三是,与计算机等专业人员合作,争取在数据处理算法与应用上有一定的突破;四是,争取多向国家社科基金委资助的期刊投稿。

4.2研究心得与意见建议

? 研究心得:本项目是一个以图书馆、情报与文献学为主的多学科交叉融合的前沿性综合研究,既要系统地探索数据科学的理论与方法,又要与面向知识创新服务的实践应用紧密结合,研究的难度较大、涉及的面较广。为了使研究具有理论的深度、方法的效度与应用的代表性,一方面需要广泛地收集国内外相关的研究成果,阅读、汇总与摘录,并进行定量与定性结合的综述,另一方面需要对国内外相关的服务平台与系统进行调查研究、专家访谈,同时从多源异构的数据源中下载大批量的数据,以实践与验证数据采集、处理、挖掘与知识融合、知识发现等方法和流程。因此,本课题后续研究中,要加大人力投入、总结提炼与实践尝试,同时,注重各个课题之间内容研究的衔接。

? 意见建议:由于从2016年开始的经费预算中在研究成果出版费上有限制,导致阶段性的研究论文发表受到影响,为了更及时地传播研究成果,特别是前沿性研究传播的新颖性,建议在出版费(国内期刊论文版面费)的限制上能够有所区别。

5其他需要说明的问题

? 本课题的项目号是16ZDA224,课题在研究中,由于没有注重项目号正确的写法,导致在论文发表时出现了三种不同的写法,分别是:16ZDA224、16ZAD224、16DZA224,后面两种写法出现了错误。在中文期刊发表时,由于能够出现项目的名称,所以目前的状态是项目名称是正确的,而有些论文项目编号中的字母出现上述错误。如今发现了这种错误,并通知给各个子课题负责人,相信后期将不会有类似错误发生。

? 在已经发表的17篇期刊论文中,为了得到其他基金在出版费方面的支持,有7篇论文标有两个或者以上的项目号。待出版8篇论文中,有4篇标有两个或者以上的项目号。后续的研究中,将尽可能使发表的论文在基金署名上专属一个基金,并加强研究成果的及时发表传播。

? 为了鼓励研究生积极申报与参加江苏省研究生科研创新计划项目,相关部门提出由导师主持项目给予资助并经过审核立项的倡议,所以,课题研究过程中,为了使研究生尤其是博士研究生在投入研究时又能获得省研究生科研创新计划项目立项,将用于资助学生参与会议和助研费等的课题经费同时算作是对创新计划项目的支持,因此论文发表时也要对立项的研究生创新计划项目加以标注,出现论文发表时没有单标一个项目。尽管如此,却体现出国家社科基金所做的贡献。

二、研究成果情况

1代表性成果简介

1.1基本内容与主要观点

? 关于知识创新面临的大数据挑战

从科学研究角度看,知识创新指通过科学研究获得新的基础科学和技术科学知识的过程,知识创新不仅是技术创新的基础,是新技术、新发明的源泉,还是促进科技进步和经济增长的革命性力量。伴随我国创新发展驱动战略和科技创新的需求,知识创新的目标与要求必须朝着国家战略倡导的“在新思想、新发现、新知识、新原理、新方法上积极进取,强化源头储备”上发展。

作为大数据的重要组成部分,科学大数据正在使科学世界发生变化,驱动科学研究进入数据密集型科学发现范式这一全新阶段。科学大数据是科学发现与知识创新的新引擎,将改变人类生活及其对世界的深层理解。在大数据背景下,及时更新、开放的海量数据为知识创新提供丰富的知识原料,大数据技术与工具极大提高知识共享和转化的效率,但大量多源、异构、碎片化、良莠不齐的数据源和知识源也给知识创新带来挑战。因此,大数据使研究人员对知识的获取和使用从过去的“一种混沌”(知识供给匮乏同时有效知识不足)走向“另一种混沌”(数据来源多样、信息供给过载但有效知识不足),人们迫切希望从大数据中获取系统化的知识支撑。

? 关于大数据对学科知识创新模式的重构

大数据重构了传统科学研究中“数据—信息—知识—智慧”的价值链,体现在4个方面:①由于数据来源的广泛性,知识不再以孤立的种群存在于某一种生态位(如某一种形态、某一个领域、某一种平台、某一种存量与其他知识或者环境的简单关系)上,而愈来愈呈现出复杂种群系统特征,噪音和不确定性并未因为知识的多位性而弱化,反而愈益强化;②由于数据变化的瞬态性,运行于这种复杂种群基础上的知识自生、交互与反馈、共生与竞争、演化与再生等机制已经发生质的改变,知识“涌现”现象日益突出;③由于数据载体的多样性,知识生产者、提供者、使用者与知识之间的“主体-客体”界限已经模糊,学科知识创新研究的正式知识交流模式与非正式知识交流模式亦已交融整合,数据的无处不在使知识的不同依存载体、传播媒介及价值链节点与能量要素也形成了一种数据“泛在协同”关系,与此同时,这种泛在协同关系本身又为学科创新服务提供了一种全新的可转化为知识的数据来源;④由于数据的多维关联性,在数据与知识的交互和演化过程中,知识的“因果”已不再重要,取而代之的是基于数据关联支撑的知识间的泛在“关联”,这即可为学科创新研究生命周期各阶段的全景知识提供了源泉,以激活学科创新工作者的隐形知识,其亦是学科创新研究中的“偶遇”“意外”或者“异想”知识的源泉,为学科创新工作灵感提供动力。因此,大数据使学科创新活动处于“数据密集型科学发现”的第四范式,此研究范式产生的多源、广泛、瞬态、多维关联的大数据,一方面为学科创新研究带来越来越难以处理的数据困扰和知识渴求,另一方面为学科知识创新生命周期各阶段全景知识提供源泉,也为研究中的等创新工作灵感或隐性知识提供激活的更多可能。

? 关于大数据驱动下知识创新服务及其新需求

主要体现在以下4个方面:①从知识主体上,大数据对知识创新主体提出新要求,知识主体需要基于数据和数据技术来决策,从数据中挖掘出知识的价值、发现新的知识,借助社会媒体激发灵感或基于数字化平台进行广泛交流与合作;②从知识资源上,知识的获取不再局限于已经公开的文献资源或组织内部及其所在的社会网络,科研过程中的数据集、互联网资源与社交媒体的交互数据都是组织知识创新的重要源头;③从方法与途径上,随着数据存储、数据挖掘、机器学习、人工智能的发展,为知识的交流、共享、吸收与利用提供便利。同时,各种媒体、专门机构及其提供的服务可以使知识创新的主体突破地域的限制,促使知识创新社会化生态的形成。技术与方法成为知识创新主体的功能外延,媒体与专门机构成为支撑知识创新的重要途径,知识创新主体对于方法与途径的依赖越来越强;④从实现的支撑上,创新的源泉来自数据、信息与知识的转化。知识经济的核心是通过知识与服务实现创新,进而优化科学研究、商业经济、企业管理、国家政策和制度设计,知识服务是支撑知识创新的重要途径。在大数据和关联数据环境下,图书情报、数据科学、计算机科学、科学学等进一步汇聚,所形成的新的知识发现、趋势鉴别、情报研究和决策分析方法、工具和服务,正成为知识服务满足知识创新需求的应用支撑能力。服务机构将以最大程度地激励和支持用户进行创新作为知识服务的重要使命,借助于大数据思维与技术支撑知识创新变革,并提供有价值的知识或提供使数据/信息/知识/智慧得以高效转化的途径。

? 关于数据科学的理论与方法

数据科学这一术语早在二十世纪六十年代就已出现,并常被用来指代数据的表示、收集、储存、整合、分析和理解的科学原理。自二十世纪八十年代以来,以大量数据支持决策的趋势逐渐成为主流,在二十世纪九十年代初,随着关系型数据库技术的成熟以及数据业务的流程更加自动化,数据科学领域诞生并迅速发展起来。数据科学的内涵与特征主要体现在:

其一,以知识发现为主要研究目的。数据科学随着大数据的兴起,也被赋予了更加丰富的内涵,亦在研究中被更广泛的应用。大量的研究人员从数据科学的具体实施过程和目的入手对其进行了阐释,在将知识发现与提取作为数据科学的主要目的这一点上已基本形成了共识。

其二,多学科与复合领域特性。数据科学的多学科与复合领域特性在其兴起伊始就被广大数据科学研究人员所广泛提及,数据科学的基础学科知识组成应该来源于计算机科学,数学与统计学和应用领域学科。

? 关于数据科学的主要应用领域

其一,支持预测与决策。对未来的预测是基于统计学原理,从数据分析技术产生的开始就建立的一个主要实践方向。实现预测一直以来也是数据科学的一个重要应用,也是进行后续决策优化的一个重要步骤。这一应用的体现主要在经济管理领域,但是随着数据科学的发展,应用涉及领域的范围也越来越广泛。主要包括:一是实现更精确的预测。

其二,服务于创新型学科知识研究与发现。由于目前对数据科学的应用多是在大数据背景下实现的,新型的数据集往往可以对已有的方法、流程进行优化,也可使决策更加智能。所以数据科学在研究优化方法、决策等方面的应用也越来越流行。数据科学的这一应用主要是面向本身就会产生复合大数据时代特征的新型数据集的学科,这些对象的特性决定了其与数据科学的相生相依的关系。这一应用的主要体现在生物科学、医学、环境科学等领域。

1.2学术价值与社会影响

? 研究产生的主要观点的学术价值

? 推动数据科学理论与方法体系的建设和迭代创新

数据科学是在多科学交叉基础上产生的新兴研究领域,一方面需要研究数据本身具有或者呈现出的各种类型、特点、存在方式及其变化形式和规律,另一方面要为社会科学与自然科学提供新的研究方法。因此,基于现有的基础理论与方法,结合应用的需求,形成一套从数据获取、处理到分析的数据科学理论与方法体系和针对应用的关键技术方法,使数据/信息/知识得以转化成解决实践问题的基本依据,是建立和发展适应大数据时代特征的各学科领域数据科学所必要的。同时,针对理论与方法的具体内容和应用问题,进一步探索与大数据思维和技术结合的基础理论与共性方法的科学性,将有力推动数据科学理论与方法体系的迭代创新发展。

? 优化大数据和数据科学新发展机遇背景下的图书情报学科研究体系

在图书情报领域,一方面,在技术与经济发展的驱动下,实践环节中产生了许许多多亟待解决的重大问题,其中,如何使数据、信息更有效的集成,并转化为知识进而转变形成支撑决策的智慧,关系到图书情报领域学科体系创新的趋向与能否赢取核心竞争优势的途径;另一方面,已有的知识服务、知识创新、知识发现等理论与方法在其它学科渗透冲击下迫切需要变革创新或者不断完善以形成有实际效用的体系框架。大数据的发展与知识创新服务的迫切需求,为图书情报领域的学科发展提供了一个切合时代趋势的机遇。本课题从理论方法构建、关键技术方法研究与应用验证多个方面切入,并基于多元化的理论与多学科支撑,形成面向知识创新服务需求的数据科学的系列化研究成果,这将为图书情报领域优化学科体系提供重要的研究基础与保障。同时,针对学科知识创新的重构和提供知识创新服务,以数据科学作为图书情报学科体系研究的重要支撑,将突破现有学科发展局限、深化研究主题、开拓新的研究空间、提升研究水平,促使图书情报领域的学科体系建设在未来发展中抓住核心竞争力的优势契机。

? 研究产生的社会影响

课题在研究过程中,被国内多个学术会议和研究机构邀请进行学术交流,所撰写的论文被国内外核心期刊与顶级会议录用,产生了较大社会影响。

? 课题研究观点被社会的评价

上海社会科学院信息研究所的评价: “2017年2月24日上午,国家社科重大项目首席专家、南京理工大学经济管理学院信息管理系王曰芬教授到信息所作学术演讲。报告会上,王曰芬教授以“数据科学支撑的知识服务创新对策思考”,从国家大数据战略和国家科技创新规划切手,介绍了所承担的国家重大项目的申请背景与项目内涵旨意,深入分析了国内外知识服务、数据科学的起始与发展,结合中国当代的发展环境,提出了基于数据科学的创新对策的新理念、新战略和新实践,为我们提供了以数据为基础的知识服务如何发展并达到新经济与新技术所需的服务业态的全新思考。王曰芬教授在演讲中所提出的数据的收集、分析与建模并为学科创新工作灵感提供动力;数据科学可提供管理的优化研究精度的提高;在以往知识服务产品的基础上注重工具的使用;如何在双轮互动中进行研究热点挖掘、主题演化、趋势预测,如何将大数据分析与学科领域生命周期结合起来,并进行深度聚合与挖掘,用以发现各学科领域中的作者关键词关系图……,以上这些论述与分析,对信息所正在从事的一带一路研究、科技创新研究、互联网研究、信息安全研究、城市信息化研究、人才信息研究等均具有重要的启示。(http://www2.sass.org.cn/detailAction.do?method=ShowNewsContent)”

? 课题研究中论文发表与引用及下载情况

发表期刊论文17篇,其中:SCI/SSCI双收录期刊《Scientometrics》发表论文1篇(在Web of Science核心合集数据库中的Usage Metrics为43次)、CSSCI收录的一级学会期刊《中国图书馆学报》发表2篇、CSSCI收录的一级学会期刊《情报学报》发表3篇、CSSCI收录期刊《图书情报工作》《图书与情报》《情报资料工作》《数据分析与知识发现》等期刊发表9篇、CSSCI扩展版收录期刊《数字图书馆论坛》发表3篇;发表本学科顶级会议(ISSI2017、ASIST2017)论文长文3篇、短文4篇,其中被EI收录6篇;发表的中文16篇学术期刊论文在CNKI数据库中,截止到2018年7月22日共被下载4056次、被引用19次。

2阶段性成果清单

2.1 学术论文发表

? 发表的学术期刊论文共17篇(其中:SCI/SSCI双收录期刊论文1篇,国内一级学会期刊论文5篇)和发表的本学科顶级学术会议论文7篇(其中:被EI收录6篇),具体信息见附件EXCEL。

2.2录用待发表论文与交付待出版专著

? 被录用待发表的学术期刊论文(共8篇)

(1) Lei Li, Daqing He, Chengzhi Zhang*, Li Geng, Ke Zhang. Characterizing Peer-Judged Answer Quality on Academic Q&A Sites: A Cross-Disciplinary Case Study on ResearchGate[J].Aslib Journal of Information Management.(in press)(SCI/SSCI双收录期刊)

(2) Qing qing Zhou*, Chengzhi Zhang*. Detecting Users’ Dietary Preferences and Their Evolutions via Chinese Social Media[J].Journal of Database Management. (in press) (SCI收录期刊)

(3) Shutian Ma*, Yingyi Zhang, Chengzhi Zhang*. Using Multiple Web Resources and Inference Rules to Classify Chinese Word Semantic Relation[J].Information Discovery and Delivery.(in press). (ESI收录期刊)

(4) Chao Min,Ying Ding, Jiang Li,Yi Bu,Lei Pei,Jianjun Sun*.Innovation or Imitation: The Diffusion of Citations[J].Journal of the association for information science and technology, 2018(in press). (SCI收录期刊)

(5) 余厚强,曹嘉君,王曰芬.情报学视角下的国际人工智能研究前沿分析[J].情报杂志(录用)(CSSCI收录期刊)

(6) 王曰芬*,邹本涛,宋小康.大数据驱动下情报研究知识库及其体系架构设计[J].情报理论与实践(录用)(CSSCI收录期刊)

(7) 宋小康,何劲,王曰芬*.大数据驱动下情报研究知识库构建的关键技术及实现[J].情报理论与实践(录用)(CSSCI收录期刊)

(8) 曹嘉君,王曰芬*,宋小康.大数据驱动下情报研究知识库的应用:以石墨烯领域为例[J].情报理论与实践(录用)(CSSCI收录期刊)

? 待出版的专著:王曰芬等.数据驱动的知识服务体系与方法[M].科学出版社

2.3发表其他研究成果

(1) 在2017年计算语言学领域的自动摘要国际测评比赛论文

Shutian Ma, Jin Xu, Jie Wang and Chengzhi Zhang*. NJUST @ CLSciSumm-17. In: Proceedings of the 2nd Joint Workshop on Bibliometric-enhanced Information Retrieval and Natural Language Processing for Digital Libraries (BIRNDL 2017), Aug, 2017, Tokyo, Japan. (CL-SciSumm 2017测评比赛冠军)

(2) 专家寄语:王曰芬.创新驱动发展需要基于大数据的知识服务[J]数字图书馆论坛,2018(3):1

(注:*表明的是课题的主要研究者)

三、下一步研究计划

总体上,进一步按照研究计划,以理论与方法研究为重点、以应用研究为落脚点,强化学术交流、成果发布、国际合作。在2018年9月召开一次中期研讨会,在2019年上半年将理论与方法研究成果与实践工作部门对接,以争取一定范围的应用,2019年底完成课题的总报告。具体地,每个子课题的工作方案如下:

? 子课题一:面向知识创新服务的数据科学理论研究:目的与体系

2018年9月至2019年6月

通过专家咨询和集体攻关途径,攻克与面向知识创新服务的数据科学理论与方法体系架构有关的难点问题;与其他子课题合作,在后续知识抽取、知识融合和知识创新服务的实现模式和实证应用研究过程中,完善需求分析、理论与方法体系以及应用与保障体系架构设计;在此过程中,整理并发表若干篇高水平的学术论文;

2019年7月至2019年12月

完成子课题研究报告。

? 子课题二:面向知识创新服务的数据科学方法研究:信息采集与知识抽取

2018年7月至2018年9月

分别开展大数据驱动的多层次知识表示模式、大数据用户知识表示方法的研究;

2018年10月至2019年6月

与其他子课题合作,在后续有关大数据驱动的知识融合的实现模式和实证应用研究过程中,完善知识抽取模式、方法与技术实现方案;在此过程中,整理并发表若干篇高水平的学术论文;

2019年7月至2019年12月

完成子课题研究报告。

? 子课题三:面向知识创新服务的数据科学方法研究:知识融合与知识发现

2018年7月至2018年8月

分别开展知识融合与知识发现结果的展示、知识融合与知识发现结果的验证研究;

2018年9月至2019年6月

与其他子课题合作,在后续有关知识创新服务应用和实证研究过程中,完善知识融合和知识发现的模式、方法与技术实现方案;在此过程中,整理并发表若干篇高水平的学术论文;

2019年7月至2019年12月

完成子课题研究报告。

? 子课题四:面向知识创新服务的数据科学应用研究:知识创新服务机制

2018年7月至2019年3月

基于知识管理的认知模型和社会模型,探索知识创新服务的孵化机制;基于组织科学的创新扩散理论,探索知识创新服务的扩散机制;基于野中郁次郎的知识管理模型,探索知识创新服务的转化机制;基于认知科学的认知吸收理论和组织行为学的吸收能力理论,探索知识创新服务的吸收机制;

2019年4月至2019年12月

对数据科学支撑的知识创新服务保障进行系统研究,分别就组织管理、技术保障、产学研合作以及人才培养进行充分调研和探索;发表若干篇高水平的学术论文,并最终形成论文集和结项验收报告作为子课题成果,完成子课题结项。

? 子课题五:面向知识创新服务的数据科学应用研究:实现与验证

2018年7月至2018年12月

理清大数据时代知识创新服务平台和系统的创新型知识服务模式,分析服务平台和系统中各要素,建立要素之间的关系;建立完整的大数据时代知识创新服务机制和模式的理论框架;进行大数据知识创新服务平台和系统的详细设计,进行知识库的构建,完成知识服务平台的建设;

2019年1月至2019年8月

以某技术领域为例,开展面向学科领域的研究前沿探索应用实证、面向科研资源共享与用户项目众包的科研众包应用实证;构建知识创新服务的应用反馈机制,建立应用效果的评估体系,实现服务的应用反馈和效果评估;

2019年9月至2019年12月

对课题研制过程中形成的技术文档进行整理,并对整体的应对体系进行整合;发表若干篇高水平的学术论文,并最终形成论文集和结项验收报告作为子课题成果,完成子课题结项。

(课题组供稿)

(责编:孙爽、闫妍)