旧版网站入口

站内搜索

《清末民国社会调查数据库建设》
项目工作进展情况汇报

2017年06月23日16:22来源:全国哲学社会科学工作办公室

《清末民国社会调查数据库建设》自2016年4月开题后,到2016年12月底,共召开了三次较大的会议:分别是两次关于属性表的讨论会(第一次为2016年6月29日的“属性表录入分工会议及填写说明”,第二次为2016年11月7日的“属性表填写的进展情况汇报”),一次关于数据库建设的进展报告会(2016年10月26日)。

在项目首席专家黄兴涛教授的带领下,课题组团队紧密合作,积极推进相关工作,目前数据库各子课题已经取得的进展如下:

子课题一:清末民国社会调查总体研究与数据库设计。负责人:黄兴涛

经过课题组与上海精灵天下数字技术有限公司8次开会讨论沟通,数据库的总体架构已经搭建完成,数据库平台建设预计在2017年1月底完成。

对清末民国社会调查的总体研究也已经开展,课题组成员讨论“清末民国社会调查数据库建设价值”的论文“新世纪中国的史料整理与人文社会科学研究”已发表在《光明日报》理论版,受到学界关注。

另外,课题组也参与举办了“数字人文与清史研究”学术工作坊。黄兴涛教授在工作坊上指出,数字人文发展在目前史学研究中所代表的开创意义,在某种程度上构成了梁启超百年前所提出“新史学”新的起点。历史学者应该积极发挥作用,做出一些具有示范性的、典型的数据库。数据库的建设使史学站在了一个新的高点,其资料、视野的广阔性有助于克服目前史学研究中“碎片化”的倾向。大家要紧紧抓住史学的本质,即“反思性的再现过去和反思过去”的基础上做出高质量的数据库,推进史学的进一步发展。

课题组成员林展向与会专家介绍了本课题的总体规划和设计,得到与会专家的指导和好评。

子课题二:清末民国社会调查文献收集整理与原始文献库建设。负责人:汪永红

课题组依托中国人民大学图书馆资源,在兄弟院校图书馆和资料室的帮助下,目前已经收集到原始PDF文档约2500万字,所有收集到的原始文档已经交到数据库公司进行数据库入库之前的转档处理,目前大约已完成该子课题预定目标的50%。

子课题三:清末民国社会调查数据库索引编制与多维分类。负责人:夏明方

清末民国社会调查数据库索引编制已经取得较大进展,目前已经完成了近50万字的文献索引编制工作,已经完成预定计划的50%。

另外,经过多次讨论和修改,数据库索引和多维分类的表格已经设计好并填写完毕。

子课题四:清末民国社会调查全文检索库与专题应用库建设。负责人:陈志武

全文检索库所需要的word文档已经由数据库公司实现转档,已经完成近2000万字,已经完成子课题预定目标的40%。专题应用库也已经收集到所需的调查报告,下一步将进行数据的录入和整理工作。

综上所述,本课题已经完成课题总体规划目标的近50%,工作进展达到并超过约定目标。

下面对过去半年多几次较大规模的课题组会议进行介绍。

一、关于属性表录入的两次会议

1、分工会议

2016年6月29日上午9时,由中国人民大学历史学院黄兴涛教授主持的国家社科基金重大项目“清末民国社会调查数据库建设”属性表分工会议,在中国人民大学清史所400会议室召开。上海精灵天下数字技术有限公司及课题组成员夏明方教授、邱志红、李章鹏、伍婷婷、林展、陈鹏、杜佩红等课题组成员参加了会议。会议由中国人民大学历史学院林展讲师主持,主要讨论了数据库建设属性表录入的分工及填写要求。

项目负责人黄兴涛教授介绍了数据库建设的工作规划,要求项目组成员的属性表填写在三个月内完成,第一个月先交一份录入表,时间暂定为7月20号,如有任何问题再行调整。

经过项目组的内部讨论,决定先以《民国时期社会调查丛编》为基础,进行第一次数据库的录入工作,之后再以《民国时期社会调查丛编》(二编)为基础进行录入。中国人民大学清史所夏明方教授对属性表的录入进行了具体的分工,并表示:“属性表是数据库建设的基础。将调查报告的内容进行属性分类,对每一条数据进行属性提取,再整理入库,是十分关键的工作,希望每一位成员能认真完成”。录入成员主要分工如下:

姓名 负责卷类

伍婷婷 少数民族

邱志红 宗教民俗、法政

李章鹏 城市(劳工)生活、华侨

韩祥 乡村经济、乡村社会

林展 婚姻家庭、人口、底边社会

陈鹏 社会保障、社会组织、医疗卫生与社会保障

杜佩红 文教事业

为了实现全文检索,在多维分类表确立后,需要设置关键词,进行录入工作。上海精灵天下数字有限公司负责人高宝龙先生介绍了数据库属性表录入要求:

(1)录入编号命名规则:编号为12位数,前面4位为著录者编号。录入者编号为(邱志红1001;伍婷婷1002;韩祥1003;陈鹏1004;李章鹏1005;杜佩红1006;林展1007。中间三位表示《丛编》的卷号:一编为乡村社会101,底边社会102,城市(劳工)生活103,文教事业104,婚姻家庭105,宗教民俗106,少数民族107,人口108,社会组织109,社会保障110。二编为乡村社会201,乡村经济202,城市(劳工)生活203,近代工业204,文教事业205,法政206,宗教民俗207,少数民族208,人口209,社会组织210,医疗卫生与社会保障211,华侨212。后面5位为调查编号。调查编号统一都从00001开始。

(2)调查形式分为两部分:主要调查形式、调查形式。调查形式的分类为:问卷、实地调查、通讯、访谈、其他。

(3)时间格式:调查时间若有多个时间都要列出来,中间用英文分号隔开。

(4)调查地点分为:国、省、市、县、县以下。

(5)在“馆藏地”一栏下增加“版本说明”。

(6)“备注”一项下移,原“备注”一项改为“该调查是否有表格”。

2、属性表填写的进展情况汇报

(1)进展

2016年11月7日下午14时,由中国人民大学历史学院黄兴涛教授主持的国家社科基金重大项目“清末民国社会调查数据库建设”属性表分工会议,在中国人民大学清史所400会议室召开。课题组录入成员邱志红、李章鹏、伍婷婷、林展、陈鹏、韩祥、杜佩红参加了会议。会议由中国人民大学历史学院林展讲师主持,议题包括属性表录入的进展情况汇报及数据录入中的问题。

会议首先由黄兴涛教授介绍了数据库建设总体要求和项目进度,对课题组成员前期的录入工作予以了肯定。他讲道:“目前我们数据库建设正有条不紊的进行中。数据库建设最重要的是将基础做牢做扎实,属性表便是其中关键一环。现阶段以《民国时期社会调查丛编》、《民国时期社会调查丛编》(二编)为基础的属性表已经录入完毕,很感谢大家能按时完成”。

各成员录入完成情况表

姓名 负责卷类 卷编号 完成条数

伍婷婷 少数民族 01 13

邱志红 宗教民俗、法政 02、03 94

李章鹏 城市(劳工)生活、华侨 04、05 45

韩祥 乡村经济、乡村社会 06、07 40

林展 婚姻家庭、人口、底边社会 08、09、10 76

陈鹏 社会保障、社会组织、医疗卫生与社会保障 11、12、13 176

杜佩红 文教事业 14 177

(2)问题及修改意见

接下来,林展讲师介绍了属性表录入成员的录入情况及录入中出现的问题。课题组成员在录入中,主要存在以下两个问题:

一是个别信息如期刊数、页码、调查机构等缺漏,这些问题可能由于大家在录入时查找不到相关信息或者漏填。针对这一问题,本项目第二子课题收集完原始的调查版本后,根据这些原始的PDF版文档再进行补充修正。

二是每份调查的编号,由于数字太长,大家在录入时,没有进行文本格式转换,因此再重新修订时,成员们需要将其设置为文本格式。

二、数据库建设进展报告会

2016年10月26日上午9时,由黄兴涛教授主持的国家社科基金重大项目“清末民国社会调查数据库建设”的数据库建设进展报告会,在中国人民大学清史所400会议室召开。国家图书馆专家、上海精灵天下数字技术有限公司代表及课题组成员出席了本次会议。

会议由黄兴涛教授主持,上海精灵天下数字有限公司的高宝龙先生介绍数据库建设的总体情况,国家图书馆民国影印编辑室的李强主任及王涛助理担任此次会议的评审专家。

会议首先由夏明方教授介绍了数据库建设的总体要求和项目进度情况,夏明方教授明确了“数据库建设预计在2016年年底完成一个基本雏形,2017年将数据库中的调查全部录入到数据库中”。

(一)数据库建设进展

随后,上海精灵天下数字技术有限公司的高宝龙先生从数据库的封面、检索界面、阅读器界面、专题阅读界面进行了全方位展示。

(二)问题及意见

国家图书馆民国影印编辑室的李强主任、王涛助理及中国人民大学清史所夏明方教授对数据库建设情况针对数据库的建设情况进行了评议,指出了数据库建设中存在的一些问题及修改意见:

1. 阅读器:

(1)原稿图片与文字的风格太接近,容易让人混淆,需要把文字的字体进行调整,以示区分。

(2)阅读器左边固定为原稿图,右边固定为文本抄录(如遇抄录一页显示不够,则增加横向滚动条)。单击按钮,全书应该只显示抄录文本不显示原稿图;双击按钮,则全书应该只显示原稿图不显示抄录文字;再点击按钮,则显示图文对照。

(3)阅读器中,“反馈”改为“纠错”。

2.检索页面:

(1)目前检索页面每一个篇章下面都是属性标签,不能够显示内容的这部分,需要去掉“检索结果标签”,在该处增加内容展示。

(2)结果标签应改为:第一行:篇章名(颜色加深,现有颜色太浅)+作者;第二行:结果标签+进入阅读等4个按钮;第三、四行不变,显示内容标签。行距可调小,尽量显示更多的内容。

(3)希望能够将“高级检索”中的“下拉条件限定框”放到首页的全文检索框前面,减少用户的二次操作。

(4)全文检索框内,默认浅色显示的字应由“输入需要查找的调查名称”改为“输入需要查找的内容”。

(5)每一个篇章下面的标签数据,希望可以点击,单击搜索出整库所有跟这条数据有关的篇章。

3、专题阅览:

(1)目前“主题”、“专题”两个词混淆,希望数据库能够在“专题阅览”页,显示专题导航。例如:XX主题>XX专题XX专题XX专题。

(2)目前专题页下的篇章显示方式,跟外部不一样,应该是所有篇章显示要统一,篇章不应有图片。

4、前台设置:

(1)目前前台系统字体不统一,繁简混合。希望能将默认属性改为全部显示简体,点击上面按钮,则整库切换成繁体。

(2)前台的“篇章”改为“题名”,或者每条数据前面不显示“篇章”两字。

(3)前台首页图片过于简单,体现不出“社会调查”的内涵,希望图片背景设置为社会调查者田野调查活动图。页面下一排为民国时期社会调查几个重要人物的滚动头像。

(课题组供稿) 

(责编:实习生、李叶)