检索页面:
(a)目前检索页面每一个篇章下面都是属性标签,不能够显示内容的这部分,需要去掉“检索结果标签”,在该处增加内容展示。
(b)结果标签应改为:第一行:篇章名(颜色加深,现有颜色太浅)+作者;第二行:结果标签+进入阅读等4个按钮;第三、四行不变,显示内容标签。行距可调小,尽量显示更多的内容。
(c)将“高级检索”中的“下拉条件限定框”放到首页的全文检索框前面,减少用户的二次操作。
(d)全文检索框内,默认浅色显示的字应由“输入需要查找的调查名称”改为“输入需要查找的内容”。
(e)每一个篇章下面的标签数据,希望可以点击,单击搜索出整库所有跟这条数据有关的篇章。
专题阅览:
(a)目前“主题”、“专题”两个词混淆,希望数据库能够在“专题阅览”页,显示专题导航。例如:XX主题>XX专题XX专题XX专题。
(b)目前专题页下的篇章显示方式,跟外部不一样,应该是所有篇章显示要统一,篇章不应有图片。
前台设置:
(a)目前前台系统字体不统一,繁简混合。希望能将默认属性改为全部显示简体,点击上面按钮,则整库切换成繁体。
(b)前台的 “篇章”改为“题名”,或者每条数据前面不显示“篇章”两字。
(c)前台首页图片过于简单,体现不出“社会调查”的内涵,希望图片背景设置为社会调查者田野调查活动图。页面下一排为民国时期社会调查几个重要人物的滚动头像。
(四) 属性表填写进展情况汇报会议
(1)进展
2016年11月7日下午14时,由中国人民大学历史学院黄兴涛教授主持的国家社科基金重大项目“清末民国社会调查数据库建设”属性表分工会议,在中国人民大学清史所400会议室召开。课题组录入成员邱志红、李章鹏、伍婷婷、林展、陈鹏、韩祥、杜佩红参加了会议。会议由中国人民大学历史学院林展讲师主持,议题包括属性表录入的进展情况汇报及数据录入中的问题。
会议首先由黄兴涛教授介绍了数据库建设总体要求和项目进度,对课题组成员前期的录入工作予以了肯定。他讲道:“目前我们数据库建设正有条不紊的进行中。数据库建设最重要的是将基础做牢做扎实,属性表便是其中关键一环。现阶段以《民国时期社会调查丛编》、《民国时期社会调查丛编》(二编)为基础的属性表已经录入完毕,很感谢大家能按时完成”。
各成员录入完成情况表
姓名 负责卷类 卷编号 完成条数
伍婷婷 少数民族 01 13
邱志红 宗教民俗、法政 02、03 94
李章鹏 城市(劳工)生活、华侨 04、05 45
韩祥 乡村经济、乡村社会 06、07 40
林展 婚姻家庭、人口、底边社会 08、09、10 76
陈鹏 社会保障、社会组织、医疗卫生与社会保障 11、12、13 176
杜佩红 文教事业 14 177
(2)问题及修改意见
接下来,林展讲师介绍了属性表录入成员的录入情况及录入中出现的问题。课题组成员在录入中,主要存在以下两个问题:
一是个别信息如期刊数、页码、调查机构等缺漏,这些问题可能由于大家在录入时查找不到相关信息或者漏填。针对这一问题,本项目第二子课题收集完原始的调查版本后,根据这些原始的PDF版文档再进行补充修正。
二是每份调查的编号,由于数字太长,大家在录入时,没有进行文本格式转换,因此再重新修订时,成员们需要将其设置为文本格式。
(五) “数字人文”与清史研究学术会议
2016年5月28-29日,课题组与中国人民大学《清史研究》编辑部在北京合作举办了“数字人文与清史研究”学术会议。来自北京大学、中国人民大学、中国社科院、北京师范大学、复旦大学、陕西师范大学、上海交通大学、河南大学、苏州大学、南京师范大学以及香港科技大学、耶鲁大学、哈佛大学、台北“中研院”等海内外14家学术单位的30余位专家学者参加了本次工作坊。
课题组首席专家黄兴涛教授在工作坊上指出,数字人文发展在目前史学研究中所代表的开创意义,在某种程度上构成了梁启超百年前所提出“新史学”新的起点。历史学者应该积极发挥作用,做出一些具有示范性的、典型的数据库。数据库的建设使史学站在了一个新的高点,其资料、视野的广阔性有助于克服目前史学研究中“碎片化”的倾向。大家要紧紧抓住史学的本质,即“反思性的再现过去和反思过去”的基础上做出高质量的数据库,推进史学的进一步发展。
课题组成员林展向与会专家介绍了本课题的总体规划和设计,得到与会专家的指导和好评。
(六)《清末民国社会调查数据库建设》数据库平台建设讨论会
2017年11月12日13:30, 由中国人民大学历史学院黄兴涛教授主持的国家社科基金重大项目“清末民国社会调查数据库建设”数据库平台建设讨论会,在中国人民大学清史所400会议室召开。上海精灵天下数字技术有限公司及课题组成员夏明方教授、邱志红、李章鹏、伍婷婷、林展、陈鹏、杜佩红、朱星星等课题组成员参加了会议。会议由中国人民大学历史学院林展讲师主持,主要讨论了数据库建设平台目前的进展情况。
根据会议讨论结果,课题组认为数据库建设需作如下调整:
(1)数据库界面风格需要重新设计,确认后再开发。
(a)首页设计:数据库网站名称应变更为“今鉴-清末民国社会调整数据库”,“今鉴”二字设计为蚀刻印章图片,“清末民国社会调查数据库”几字由课题总负责人黄兴涛教授题字。网站背景可用人大红,图片可用中国人民大学老清史所照片。
(b)高级检索:高级检索多选属性由后台勾选显示,支持排序,高级检索年代选项部分需将中国纪年的名称变更为“清朝、民国”,不再用朝代说法。
(c)专题阅览界面:专题在推荐专题和普通专题两种类型的基础上,增加一个“应用专题”类型,该专题类型主要支持下载excel表格,后台需要支持上传excel表格附件文件。专题详情页,将之前的“书籍、篇章、图集”字样取消,变更为“丛编-调查报告”。专题阅览的内容简介要用关键词代替,可进行词频分析。各专题背景底图可用各专题调查的典型照片或封面。
(d)阅读界面:图文对照应变为在阅读界面呼出图文对照阅读,即不论文字版还是图片版,点击呼起对照阅读,即将阅读内容换成纯文字版,图片用弹层显示。阅读时可支持书内检索,检索结果不应该针对全库内容。
(e)全站UI:全站UI需要将字号放大,目前字小,空白多,字体颜色与背景对比不够分明。
(f)分类导航:数据库目前需要能显示出调查地的树状分类格式。
(七)《清末民国社会调查数据库建设》数据库平台建设进展报告会
2018年1月19日上午9:00时,由中国人民大学历史学院黄兴涛教授主持的国家社科基金重大项目“清末民国社会调查数据库建设”数据库平台建设进展报告会,在中国人民大学清史所400会议室召开。上海精灵天下数字技术有限公司及课题组成员夏明方教授、邱志红、李章鹏、伍婷婷、林展、陈鹏、杜佩红等课题组成员参加了会议。会议由中国人民大学历史学院林展讲师主持,主要讨论了数据库建设平台目前的进展情况。
这次会议的议题是对已初步完成的数据库,就其各个界面布局、外观、功能设计进行展示,请大家提出修改意见,并进行下一步的工作安排。
展示部分
首先,数据库的界面根据上次的要求,调整如下:
(1)首页展示:
(2)专题展示:
图一:整体图
图二:专题底图展示
其次,高级检索部分,“年号”下拉部分调整为顺治元年开始到民国三十八年
再次,专题数据库的目录名称:将之前的篇章改为了“丛编-调查报告”
修改意见:
(1)首页设计没有体现出民国风格,还需要再行设计,最底端的展示部分一定要分两排写上中国人民大学历史学院、中国人民大学图书馆、福建教育出版社、上海精灵天下数字技术有限公司。
(2)高级检索年代从嘉庆年间开始,即公元1800年开始。
(3)专题部分:应该将“社会”、“经济”、“内容简介”等字样去掉。
后续工作安排:
一是《清末民国社会调查目录索引》的编制和出版工作,需要在2018年12月之前出版。
二是数据库属性表、内容的校对工作。在调查文献入库的过程中,发现重复录入、错误录入、遗漏等问题,经过近一个月的核对,绝大部分问题已经处理。目前,调查地点遗漏的还比较多,下一步需要继续补充和核对。
三是专题应用库的进一步建设工作。下一步,将根据民国婚姻家庭的相关问卷,在全国范围内开展相应的调查,真正建立起古今贯通的专题数据库。
(八)其它课题组会议和交流
除了上述会议外,课题组与上海精灵天下数字技术有限公司就数据库建设相关的问题就行了18次沟通会议。
另外,项目组成员林展两次被中国社会科学院近代史研究所邀请,介绍本课题的进展和相关经验。
三、宣传推介情况
本项目在推进过程中,通过中国人民大学科研处共计上报两期工作简报:
2016年4月《工作简报》第1期
2017年1月《工作简报》第2期
2018年1月《工作简报》第3期
四、研究中存在的主要问题、改进措施,研究心得、意见建议
本项目在进行过程中也存在不少困难与问题,下面从资料整理与数据库设计两个方面予以简要说明:
(一)原始调查文献的扫描
1. 原始调查文献的查找
受到目前各图书馆、档案馆对民国文献加大保护力度的影响,部分原始调查文献难以获得,或者需要支付很高的费用才能获取。子课题2计划继续通过文献传递、加大资金投入等方式,寻求外界的帮助。
2. 原始文献的扫描清晰度
清末民国时期的很多出版物,由于成本或技术的原因,所用纸张、油墨较差,使得保存下来的原始调查文献存在不清晰的地方,特别是其中的表格、数字等,这给文献辨读带来困难。子课题4将尽量比对不同来源的原始文献,通过将不同行、不同列的数字进行运算等来确定正确的数据。据目前初步估算,本课题需要收集和扫描的原始资料共约5000余万字,需要录入和校对的原始资料约400万字,目录索引100万字。其中很大一部分调查是油印本或手写报告,为保证资料的准确性,须动员较大规模具有相当文化素质的人员从事录入和校对工作,任务极其繁重。
(二)数据库
1. 调查表格多、篇幅长
相对于已有的历史数据库,本数据库的一大特色就是有众多的调查表格。这些表格的存在也大大增加了数据库建设的难度。在全文数据库里面,这些表格需要被当做图片来进行处理,否则不能相应的放大或缩小。
2. 专题数据库重新整合难度较大
数据库原计划建立“婚姻家庭”专题数据库,通过数据的重新整合,形成对于当时婚姻家庭调查的总体认识。但这些调查所展示的都是最终的统计结果,并没有原始的调查记录,这给数据的整合带来困难。在后续的阶段,将以调查的问题为基础,对类似问题的的回答进行汇总处理。
3. 清末民国社会调查条目较多,工作任务量超大、复杂、繁重
目前本课题已开展编纂有关清末民国社会调查文献的专门性目录索引——《民国社会调查目录索引》及《清末社会调查资料集》的各项工作。根据上海图书馆的检索,其调查条目接近110万条(共1069371条),条目量庞大且繁杂,因此需要招聘若干学生助理来对这些条目进行初步筛选,再利用全国报刊索引数据库及大成老旧刊全文数据库等,下载这些条目原文,确定哪些属于社会调查,之后还需要对条目进行分类编排。这需要持续投入大量的时间、精力,不能一蹴而就。这一方面减慢了项目的进度,另一方面,使得项目需要的经费也要大大多于预期。
研究心得
本课题能否顺利完成,关键在于文献资源的获取与数据库的搭建。故目前的工作重心是文献资源的获取及数据库平台的完成,文献资源获取成功后,数据库公司的入库工作便能顺利展开,之后的相关研究也即容易着手。
意见、建议
本课题在进行中需要大量人力与技术支持,目前进行的《清末民国社会调查文献索引目录》及《清末社会调查资料集》条目很多,需要吸收有一定学术基础的研究生参加,故需要增加一些劳务经费,用于支付这些研究生的劳务费;另外数据库的建设离不开技术的支持,上海精灵天下数字技术有限公司负责技术指导、数据库、架构设计、数据库设计、数据库模块设计、终端高级应用开发、数据库底层支持及底层控件开发,为更好地对数据库进行开发、维护,还需要大量的资金投入。
目前《清末民国社会调查数据库建设》课题经费很是缺乏,迫切需要后续资金支持。
二、研究成果情况
1. 黄兴涛、李章鹏:《现代统计知识和观念的传入与清末新史学》,《史学史研究》2016年第3期。
本文对于现代统计知识和观念传入中国的过程进行了系统梳理。为“清末民国社会调查数据库”结构的搭建提供了重要的背景知识和理论支撑。
文章发现,在1897年之前,以具体统计事例为载体的西方统计知识和统计观念已经传入中国,1897年后,经日本消化吸收的社会统计学理论开始系统地引入,这对清末和民国统计的影响广泛而深远。清末时,梁启超等人把统计材料汇编为历史,陈黻宸等人明确主张以统计法来研究和表述历史,他们固然受到西方史学理论的影响,但现代统计知识、观念和外来成果所施予的直接刺激也不容忽视。
清末时已有人在史书编纂、地方志纂修和具体历史问题研究方面,尝试使用统计分析法,这构成为清末中国新史学有机的组成部分。可以说,“历史统计学”的有关意识和实践,在当时已经悄然酝酿、生发。只不过,清末尚没有人明确提出“历史统计学”的概念。这一任务直到20世纪20年代才由梁启超、丁文江等人大体完成。清末学人在使用统计图表分析历史问题时,绝大多数都还没有真正重视起数字,更没有产生如何以精确的数字科学有效地分析和表述历史的普遍观念和系统见解。这是其明显不足。实际上,清末民初时的中国史学,还远不具备重视量化统计分析的社会文化基础。甚至迄今,我们的史学在这方面仍有很多的课要补、很长的路要走。
2.林展:《新世纪中国的史料整理与人文社会科学研究 ——以<民国时期社会调查丛编>为例》,《光明日报》2016年4月6日第14版。
本文以《民国时期社会调查丛编》为例,讨论了新世纪史料整理的重要性,以及建立“清末民国社会调查”数据库的必要性。
文章认为,史料不仅是史学研究的基础,也是众多人文社会科学研究的重要基础。20世纪初梁启超倡导的新史学,如果脱离了史料的发掘整理,将是难以想象的。新世纪以来我国的史料整理工作,虽然借助于计算机与网络技术,呈现出异乎寻常的突飞猛进态势,但总体来说,并不尽如人意。一个突出的特点是,影印出版的史料大幅度增长,而经过历史学者核对、比勘、系统分类的史料整理相对减少。这一现象对历史学乃至整个人文社会科学可能产生的负面影响,迄今也没有得到足够重视。
难能可贵的是,尽管现行科研评价体制对史料整理工作并没有给予足够的重视和支持,但仍有少数富有远见、不畏艰难的学者,基于对学术研究规律的信念,投身到大规模史料的系统整理工作之中,并对历史学研究乃至其他人文社会学科带来积极的影响。《民国时期社会调查丛编》(以下简称《丛编》)系列就是其中的一个显例。
我们发现,《丛编》在他引方面呈现下面的特征。其一是总体引用次数比较高,据不完全统计,从2005年至2014年,累计引用数量接近1000次。其二,引用次数呈现逐年升高的趋势。其三,影响的范围广,除中国大陆地区外,中国台湾地区、日本、美国、澳大利亚等地都有学术著作引用,涉及学科包括历史学、社会学、政治学、教育学、经济学、心理学等。就期刊而论,自2005年至2014年,引用《丛编》的期刊论文一共有289篇,分布在199种期刊上。
这表明,以《丛编》为代表的专业化史料整理工作,具有重要的学术价值。当然,现有的专业化史料整理工作也存在局限性,比如出版成本高、周期长、容量有限、难以进行原文对照、无法进行全文检索等。有鉴于此,专业化史料整理工作需要在历史学者专业知识的基础上,充分利用计算机技术,建设大规模集成式的历史数据库,从而为国内外同行搭建一个重要的基础性资料平台。
3.陈志武:《量化历史研究的过去与未来》,《清史研究》2016年第4期
本文对于六十年来量化历史研究做了细致的回顾与深入的思考。文章认为量化分析能使历史研究向科学靠近。不管哪个领域,科学研究的基本流程应该保持一致:首先,提出问题和假说;第二,根据提出的问题和假说去找数据,或者通过设计实验产生数据;第三,做统计分析、检验假说的真伪,包括选择合适的统计分析方法识别因果关系、做因果推断,避免把虚假的相关性看成因果关系;第四,根据分析检验的结果做出解释;第五步就是写报告文章。传统历史研究在第二至第四步上做的不够完整。所以,量化方法不是要取代传统历史研究,而是对后者的补充,是把科学研究方法的 全过程带入历史领域。本文通过一些现有成果说明,量化史学不只是 “用数据说话”,而是通过统计分析,既可令人信服地证明或证伪现有假说,也可以从历史现象中发现全新的认知。目前量化历史研究方法已经有很多比较的好的成果出现。
文章中强调:“中国史料很多,但绝大多数史料以前没有被数据库化。随着更多历史数据库的建立并且可以低成本地获得这些数据库,许多相对容易做的量化史学研究一下子就变得可行,所以,从这个意义讲,越早进入这个领域,就越容易出一些很有新意的成果,也越容易发表,十几、二十年后情况就会不同。”
量化历史研究不只是帮助证明、证伪历史学者过去提出的假说,而且也会带来对历史的全新认识,引出新的研究话题与视角,未来的十年、二十年将会是国内量化历史研究的黄金期。
国家社科基金重大项目阶段性成果清单
序号 成果名称 作者 成果形式(著作、论文等) 出版社或刊物名 出版或刊发时间(年/月/日) 字数
(万字) 转载情况
1 现代统计知识和观念的传入与清末新史学 黄兴涛、李章鹏 论文 史学史研究 2016年第3期 1.5 转载《人大复印报刊资料?中国近代史》2016年第12期
2 新世纪中国的史料整理与人文社会科学研究 林展 论文 《光明日报》史学理论版 2016年4月6日 0.3
3 量化历史研究的过去与未来 陈志武 论文 清史研究 2016年第4期 2.7 转载《社会科学文摘》2017年第3期摘录文章主要内容
4 农村经济的平衡阀: 民国土地典当初探 杨双利 论文 社会科学 2016年第4期 1.5
5 中国史学在数字化时代的变与不变 姜萌 论文 史学月刊 2017年5月24日 0.8
6 文本编纂与叙事解读 ———基于凉山奴隶社会调查报告形成过程的分析 伍婷婷 论文 中国人民大学学报 2017年第1期 1.2
7 量化历史研究与新知识革命:以财富差距和消费差距的历史研究为例 陈志武 论文 北京大学学报学报(哲学社会科学版) 2018年第4期(即出) 2.3
三、下一步研究计划
在接下来,课题组除了继续按照计划开展后续工作外,课题组将着重留意下面三项工作,一是加快文献索引的编制;二是继续查找原始调查文献;三是不断优化数据库结构,测试数据库各项功能,使数据库的实用性、便捷性更上一层台阶;四是对已经录入数据库的原始文献、全文文献、属性表进行交叉核对,确保录入信息的准确、完整。
具体的研究计划如下:
2018年8月-2018年12月
(一)资料校核
在目前的数据库基础上,对已经录入的文献进行核对、校正和补充。
(二)完成《清末民国社会调查文献索引》
按原定计划,将于2018年年底完成《清末民国社会调查文献索引》的编纂工作,并争取出版。该索引为著作(工具书),约100万字。
(三)完善数据库设计
安排子课题组成员试用数据库,检验数据库的各项功能是否达到预定目标。对于使用不便利的地方进行优化。
2019年1月——2019年12月
(一)完成全部全文数据库、原始文献库的入库工作
所有5000万字全文数据库,400万字原始文献库全部完成入库工作。
(二)数据库结构和功能调试完毕
在本阶段,数据库的结构和各项功能要优化和调试完毕。
(三)召开学术会议
拟召开“清末民国社会调查数据库与学术研究”学术研讨会,邀请海内外学者使用该数据库,并以此为基础开展研究。
2020年1月——2020年12月
(一) 完成“婚姻家庭”专题数据库建设
按照计划,这一时期应该完成“婚姻家庭”这一专题应用库的建设。即利用数据库中与婚姻家庭相关的社会调查,对数据进行重新编码和重组,然后进行统计分析或绘制地图,实现可视化和量化分析。
(二) 完成清末民国社会调查数据库,办理结项手续。
(课题组供稿)
![]() |