当代中国面临的问题 南京大学中国社会科学研究评价中心(4)
三 大数据时代史学研究的反思
大数据时代似乎给史学研究带来了前所未有的兴奋,中国史学界引入大数据概念虽较晚,但就宽泛层面的“大数据”而言,历史研究与之有着深远联系。早于20世纪20年代,梁启超即在“历史统计学”的演讲中称“拿数目字来整理史料,推论史绩”。梁所言或即量化史学研究。理论层面的量化史学研究往往充斥着想象和美好,实际运作过程则难免遇到可用于量化分析的历史数据缺失、量化史学研究适用范围的局限、量化史学研究范式接近自然科学而难被同行理解等重重困境(张清俐、张杰:《量化史学可与传统史学优势互补》,《中国社会科学报》2016年7月8日,第1版)。大数据运用于史学研究难免遭遇类似困境。
大数据时代史学中的史料处理。历史研究正因为能够利用诸种数据,尤其在大数据时代的影响下,使获得某些精确、客观的史学结论变得可能。但前提是数据本身应具备精确、客观的本质,否则,利用其进行的史学研究则无所谓精准。当前,不容乐观者是史学研究的大数据运用尚不成熟。以报刊型数据库而言,目前流行者种类繁多,笔者经常使用大成老旧刊数据库、晚清与民国期刊全文数据库、瀚堂近代报刊数据库等几种。有时为进行某项研究,不得不搜索多种数据库,显然是因某种报刊型数据库在史料搜集与数字化处理方面不全。更为不方便的是,不同数据库中同一条史料的标题不一定相同,无形中给研究者造成困难,耗费时间竟检索和阅读了重复史料。许多大型报刊在数据库中也没有完整收录,就笔者所知的《民国日报》有多个版本,某种数据库中显然不全。其他关于《申报》《东方杂志》等的专门“全文”检索数据库,据说耗费了大量人力物力,但也存在全文不全的弊端,所得统计数据自然不科学,导致研究的缺陷。同时,数据库在识别原报刊字迹上也存在诸多纰漏或错误,也是导致内容检索困境的原因。迷信数据库者难免会导致史学研究的失真和失实,从而有损大数据时代历史研究精确性之本义。史料运用上往往对某些典型的重要常规性史料视而不见,而利用了很多貌似难以寻觅的所谓稀见史料,导致研究本身步入歧途,很难说是在探究历史真实。大数据的专门化和私有化也导致大数据的“大”未必真的“大”,表明大数据的共享难以真正实现。
大数据时代历史学的学科边际。大数据时代的史学研究具有跨学科性质,非历史学者也开始关注历史资料的运用并开展研究。同样,历史研究的方法和视野也得以极大扩张。跨学科自然能予历史研究清新之感,并且在促进史学繁荣上贡献着自身力量。但大数据时代的历史学也应或更应有其学科边际,以示一门学科之所以存在,以免在跨学科洪流中迷失自我。不少研究者对史学本身不无担忧,一者是史学逐渐成为弱势学科,认为是“冷门”。当然,也觉得被应用型学科攻城略地,日益感觉难以据守。在大数据时代,这些担忧来得更加紧迫和明显,不少学科皆能主动迎接大数据时代的到来,历史学却迟迟不动。该情形或许是经济和科技大潮下历史学焦虑与不自信的体现,非因大数据而出现。积极主动胜过被动挨打,大数据时代需要历史学面对大数据进行主动回应。毋庸置疑,大数据时代历史学的学科边际肯定有所变化,不能再固守传统。研究者应该相信历史学有自己独特的问题意识与研究对象,也有自身固有的学术追求与现实关怀,而其他学科“可远观而不可亵玩”。史学研究者应该秉持这一份自信,不管什么时代,历史学皆有其存在的必要,也有其特别处。大数据时代的历史学或许将失去一些原有领地,但也将开辟出一些新领地,不管如何理应将大数据为史学研究所用。大数据时代史学研究的“跨学科”趋势并非要将史学变得“无学科”,而是能更多地积极汲取其他人文社会科学的研究方法和理论,实现史学自身的不断发展。