舊版網站入口

站內搜索

王兆鵬:大數據裡的唐宋詩詞世界

王兆鵬2022年03月23日08:24來源:光明日報國家社科基金專刊

作者:王兆鵬,系國家社科基金重大項目“唐宋文學編年系地信息平台建設”首席專家、四川大學文學與新聞學院講席教授

人們習慣用史料來描述文學史的高峰狀態,而在當今大數據時代,我們或可嘗試用大數據來顯示和驗証,並透視數據背后的文學史意義,進而反思數據存在的問題和展望未來努力的方向。唐宋詩詞世界華茂繁榮,大數據可帶我們領略其中新的風採。

唐宋詩詞的多個“第一”

唐詩是中國詩歌史上第一座高峰。據統計,東漢到隋末近六百年,詩歌總共才五千余首,而到唐代,詩歌第一次超過萬首並直接跨越到五萬多首,達到前所未有的高峰。唐詩比之前的八代詩增加了七倍多,詩人由六百余位增加到三千余位,詩人和詩作都達到前所未有的量級。唐詩歷經三百余年,其頂峰在盛唐。其時詩人五百余位、詩作近八千首。依據詩歌在歷代選本中的入選頻次、被歷代詩論家品評的頻次、被后人追和的頻次和當代學者研究的頻次、被網頁著錄及評論的頻次等數據加權計算,一定程度上可評估一首詩的影響力。通過這種可量化的計算,我們可將影響力位居前列的視為名篇。在唐詩百首名篇中,盛唐佔59首。而唐詩的十大名篇,盛唐更獨佔8首。按名篇數量排列出的唐代十大詩人,盛唐佔6位:杜甫、李白、王維、王昌齡、孟浩然和岑參。

宋詞是中國詞史上第一座高峰。詞人近一千五百位,詞作超兩萬一千闋。較之唐五代,宋詞用調增加了七百余種,詞人詞作都增加了十多倍,表現出詞體的豐富、整體面貌的繁榮。唐五代詞人中,唯溫庭筠、馮延巳、李璟、李煜四家有詞集傳世,而宋代有三百多家有詞集流傳。詞人有詞集傳世,意味著作品多、知名度高、社會需求量大。數據顯示,宋詞在唐五代之后已達到高潮,元祐時期更達峰值。其時詞人近二百位、詞作約四千闋,比宋初和慶歷兩個時期的詞人詞作總數還多出一倍有余。在百首宋詞名篇中,元祐時期佔27闋,名列宋詞六個階段的首席。

人們習慣以宋詞作為宋代文學成就的代表,其實,宋詩也是重要的一部分。數據顯示,宋代詩人詩作的數量超越唐詩而達到新高度,詩人九千多位,詩作二十五萬余首,是唐詩作品量的五倍多。值得注意的是,宋詩的頂峰也在元祐年間,其時詩人一千六百余位,相當於前兩個時期詩人數量的總和﹔詩作五萬余首,比前兩個時期的詩作總和還多出七千多首﹔宋詩的十大名篇,此時獨佔5首﹔蘇軾、黃庭堅、王安石等影響深遠的大詩人都生活和創作在這個時期。近人陳衍論詩,說唐宋詩史上有三個輝煌的高峰時段,所謂“上元開元、中元元和、下元元祐”,數據印証了他的判斷。

從個體詩人來看,唐詩宋詞裡誰的作品最多?數據顯示,白居易名列唐詩作品量的榜首,詩作近三千﹔杜甫和李白緊隨其后,都超過千首大關。宋詞中辛棄疾的詞作量位居第一,有六百余闋,其次是蘇軾、劉辰翁。宋詩的篇數,則由陸游稱雄,凡九千多首,其次是劉克庄和楊萬裡。

作品多的詩人詞家,是否影響力大、知名度高?根據綜合影響指數排名,唐代詩人影響力第一的是杜甫,其次為李白、王維,而作品量居第一的白居易,影響力排在十名之外。宋代詞人作品量和影響力第一的都是辛棄疾,蘇軾和周邦彥分別居第二、第三。高居宋詩影響力榜首的是蘇軾,作品量雄居榜首的陸游緊隨其后。

“第一”背后的文學史意義

數據不僅標示誰第一、誰領先,還蘊含更深層的文學史意義,可以探究其背后隱藏的歷史過程和變化動因,揭示規律性認識。比如,通過檢視和分析唐詩名篇崔顥《黃鶴樓》的各種數據,可以發現第一接受者李白的評價和創作比拼發揮了重要作用。可見,除自身的藝術含量外,故事傳播和意見領袖的評價也是名篇生成的重要因素。

數據能具體顯示詩人詞家名聲的高下。提到唐詩宋詞的名家,人們習稱“李杜”“蘇辛”,似乎李優於杜、蘇勝於辛。但綜合影響指數表明,杜甫高於李白、辛棄疾強於蘇軾。更令人意外的是,最受追捧的詞人不是蘇辛而是周邦彥。在一百首和三百首宋詞名篇中,周邦彥各佔15首和40首,佔有率遠高於蘇、辛。王國維說“詞中老杜,非先生(周邦彥)不可”,堪稱卓識。周濟《宋四家詞選》也推周邦彥為學詞的最高典范,所謂“問途碧山,歷夢窗、稼軒,以還清真之渾化”,數據印証了周濟的眼力。

數據可以明確展示名篇名家影響力的時代變化。宋明以來,崔顥《黃鶴樓》詩和蘇軾《赤壁懷古》詞的影響長盛不衰,故分別成為唐詩宋詞的第一名篇。而陳子昂《登幽州台歌》、張若虛《春江花月夜》等聲名卓著的名作,明清以前影響甚小,到近現代才廣受注目,故綜合影響力排名靠后。岳飛《滿江紅》、陸游《卜算子·詠梅》等也都是到現當代才被發掘出的名篇。周邦彥的影響力,在明清時期的詞壇遠大於蘇辛,只是到現當代由於文學價值觀念的變化才下滑落后。

數據還反映出詩人影響力與作品量的關系。杜甫、李白的詩作量名列前茅,辛棄疾、蘇軾的詞作量也是第一、第二。由此可以說,影響力大的詩人,其作品量也很大,但不能說作品量大就一定影響力大。白居易詩作量位居唐代詩人之首,綜合影響力卻沒進入前十名。陸游的詩篇比蘇軾多出兩倍,綜合影響力卻在蘇軾之后。由此可見,精品名作多才是成為影響力大的詩人的決定性因素。宋人趙汝騰《石屏詩序》說:“詩之傳,非以能多也,以能精也。精者不可多,唐詩數百家,精者才十數人,就十數人中選其精者,才數十而已。惟少陵、謫仙能多而能精,故為唐詩人巨擘也。”蘇、辛的精品名篇量也印証了趙汝騰的判斷。

數據的“不可為”和“可為”

雖然數據能在一定程度上描述顯示文學史的發展面貌和進程,揭示隱藏在歷史背后的真相與意義,但數據也有明顯的局限性。一是效度有限,隻能說明文學史的部分問題,而無法有效解決所有問題。二是信度受限,無論是人工挖掘還是機器自動提取,受人的認識水平和技術水平的制約,數據的信度會有優劣高下的差異。

由於指標種類少,目前衡量名篇名家的數據還不充分完備,尤其缺少內質型數據,因此需要持續不斷地挖掘和充實。挖掘數據的難度,不僅在於到哪裡找數據,更在於要找哪些數據。文學史上從來沒有數據意識和數據存量,什麼樣的數據對衡量一個時代或一個時期的文學繁榮程度、評價作家作品的優劣高低有用有效,這既是實踐操作問題,也是理論認識問題。

大數據時代的文學數據,需要分類分層建立起文學史數據的指標體系,以確保數據的信度和效度。可以探索和討論:一個時代或一個時段文學的繁榮狀態,除了用作家作品的數量增長來衡量,還有哪些量化指標、特別是內質型指標可以體現?在創作主體維度,文學群體、文學流派的數量和規模是否應該作為衡量文學繁榮的指標?又該如何測度個體作家和文學群體或文學流派的藝術貢獻、文學史地位?在作品文本維度,如何衡定其思想情感含量和藝術審美含量?也許應該考量以下三個層面:形式層面,體裁體式的創新度、豐富度﹔內容層面,表現主體內在精神世界和外在社會生活世界的深廣度﹔藝術層面,表現技巧的難度和藝術表現的完美度等。有了完整的指標體系,才有目標和途徑去尋找發掘數據,才有可能借助人工智能技術,讓計算機自動分析提取數據,不斷擴大數據的種類和體量。在此基礎上,通過計算機自動提取獲得海量數據,不斷滿足大數據時代學術研究的需求。

(責編:王小林、黃瑾)