舊版網站入口

站內搜索

面向學科領域的網絡信息資源深度聚合與服務研究中期檢測報告

2016年11月29日15:38來源:全國哲學社會科學工作辦公室

一、研究進展情況

①研究計劃總體執行情況及各子課題進展情況

項目總體按計劃進行,至今已完成了第一階段和第二階段的大部分工作,正在重點推進第三階段的工作。第一階段的任務為:數據收集和基礎理論研究(2013.1-2013.6)﹔第二階段的任務為:專項深化研究(2013.7-2015.7)。在前兩個階段工作的基礎上,正在設計原型系統和開發測試,同時開展實証研究(詳見后文報告)。2014年7月以來的研究內容主要包括:基於SVR模型的中文領域術語自動抽取研究﹔信息覓食理論與學科導航網站性能優化﹔搜索引擎服務質量與用戶忠誠關系的實証研究﹔大數據時代科技情報服務的挑戰與思考﹔基於多維度聚合的網絡資源知識發現框架研究﹔基於機器學習的自動文摘研究綜述﹔基於關聯數據的學科網絡信息深度聚合框架構建﹔網絡檢索結果聚類研究綜述 ﹔中文網絡灰色文獻分布探析,等等。

2014年7月以來已發表35篇學術論文,其中英文論文8篇,中文論文27篇。

②調查研究及學術交流情況

調查研究情況。目前採集的數據和文獻資料主要用於學科本體構建、用戶行為研究、學科服務機制研究等實証研究方面。其中,2000-2015年《情報學報》數據集用於中文領域術語自動抽取研究﹔200多萬條查詢日志數據用於基於搜索日志的用戶行為分析﹔5萬余篇CSSCI論文題錄數據用於我國圖書情報學科知識結構的演化分析﹔259份問卷數據用於對搜索引擎服務質量評價體系的研究﹔89份問卷訪談樣本數據用於行動者網絡理論視角下的CALIS運行機制研究,等等。此外,項目組成員還奔赴北京、上海等地的高校、圖書館、情報所、企業等研究機構進行實地調研和數據資料採集工作。

學術交流情況。學術會議: 2015年3月,項目主持人和骨干成員出席iSchool年會(iConeference 2015),參與了大會專題研討會和海報展示,並參加了多項學術交流活動﹔ 2015年7月初,項目組成員赴土耳其伊斯坦布爾參加第15屆國際科學計量學與信息計量學年會並做邀請報告﹔2016年3月,項目組成員赴美國費城參加iConference 2016年會﹔2016年6月,項目組成員赴北京參加數據科學與情報學國際研討會。國際合作:2016年4月-6月間,項目組成員陸續邀請到前任國際科學計量學與信息計量學學會(ISSI)主席Prof. Dr. Ronald Rousseau、美國Indiana University的Prof. Ying Ding、美國UIUC信息學院副院長Prof. J. Stephen Downie等前來開展交流合作,圍繞信息資源的測度以分析、用戶採納和接受信息的行為、網絡數據挖掘等主題進行了深入的探討。

③成果宣傳推介情況

2014年7月7日,項目負責人以本項目首席專家身份在光明日報理論版發表文章《大數據時代人文社會科學如何發展》,探討學科發展尤其是人文社會科學研究在大數據時代的發展問題,並對項目成果進行宣傳推介。本文受到全國哲學社會科學規劃辦公室網站、光明網、人民網、求是網、鳳凰網、中國台灣網等多家網絡媒體轉載。

2016年2月,項目首席專家在《人民日報》發表專刊理論文章,縱論“大數據使社科研究不再“望數興嘆”。文章從研究全程評價和全部研究數據資產化、研究資料的碎片化重組、計算化分析與可視化表現的結合、學科融合與數據服務發展等視角闡述如何運用大數據開啟社會科學研究新局面。文章還認為,大數據的運用還將進一步推動學術技術分析服務、數據服務的發展,傳統承擔文獻資料服務和普通信息服務的圖書館、情報服務機構等將向數據委托服務、計算分析服務轉型。人民日報網絡版、中國社會科學網、新華網、環球網等主流媒體均予以宣傳報道,很好地對項目的研究成果進行了宣傳推介。

此外,項目組還向國家哲學社會科學規劃辦公室遞交成果簡報1份,向《情報學報》、《圖書情報工作》、《情報科學》等期刊進行了推介,洽談專題組稿的計劃和工作安排。

④研究中存在的主要問題、改進措施,研究心得、意見建議

一些最新的研究進展和階段性成果沒有及時進行總結,並將最新進展報送規劃辦公室,在通過新聞媒體向社會大眾宣傳推廣上也存在不足。今后,課題組應繼續加強向規劃辦提供工作簡報,並利用多種有效途徑向學術網站、重要報刊、學術期刊等媒體推介課題研究成果,加強對研究成果的宣傳推廣。

在深層網絡數據的採集和價值挖掘上,遇到了一些難點,這也是本課題中比較難以應對的任務,對原型系統的開發也需要進一步加大人力物力。課題組將在接下來的工作階段中,繼續凝神聚力,攻堅克難,爭取在這兩個方面取得突破和進展。

二、研究成果情況

代表性成果Journal of Informetrics發文“Selecting publication keywords for domain analysis in bibliometrics: A comparison of three methods”,著重探討了文獻關鍵詞分析中一個尚未引起重視的問題,即在大量領域文獻中如何精確有效地選擇關鍵詞分析的對象。論文討論了傳統的TF方法,以及兩種替代方法:TF-IDF方法以及TF-KAI方法。這兩種方法考慮到了關鍵詞消歧。進一步的實証研究表明,TF-KAI方法表現性能最佳,它能夠保存領域專家挑選出的關鍵詞,並揭示領域內的研究焦點。本文對關鍵詞選取的理論和實踐具有重要價值。

代表性成果Scientometrics發文“Exploring the topic hierarchy of digital library research in China using keyword networks a K-core decomposition approach”,提出一種通過構建關鍵詞網絡以及K核分解,自動發現主題層級的方法。相鄰的類團能夠根據其密度和聚類系數合並到對應層級中。對中國數字圖書館領域的關鍵詞網絡進行分析,發現了4個不同的層級。基礎層包含17個內部緊密相聯系的核心概念﹔中間層包括13個中介概念,並與基礎層中的技術概念直接相連﹔詳細層包含65個實體概念,並聚成13個類團﹔邊緣層則包含了一個局部和孤立的概念。

代表性成果《圖書與情報》發文“大數據時代科技情報服務的挑戰與思考”,從大數據科技環境的時代特征著手分析了大數據環境對科技情報工作的主要挑戰,並結合當前實踐提出了相應的對策建議。論文認為:數據處理是科技情報機構服務創新的動力。大數據的離散分布和開放可得、用戶信息需求向深度廣度發展以及資源服務一體化,弱化了科技情報機構的資源優勢,提高了信息分析的難度,給科技情報機構的服務能力提出了挑戰。同時,也為大規模資源保障體系和信息服務模式的創新提供了可能。

代表性成果《情報資料工作》發文“行動者網絡理論視角下的CALIS運行機制”,從信息管理的視角,將行動者網絡理論引入CALIS運行機制的研究中,系統地分析目前CALIS的運行機制及現狀。結果表明現存障礙共包括經費不足、忽略以用戶為中心的資源建設及技術。支撐不夠等七個層面,各行動者涉及的利益主要包括共建、共享及共知等七個維度。最后文章對現有問題給出了相應的對策,並對未來CALIS可能的發展方向進行了探索。

代表性成果《情報理論與實踐》發文“基於SVR模型的中文領域術語自動抽取研究——面向圖書情報領域”,結合語言學和統計方法,通過構建術語庫提取術語抽取模板來抽取候選術語。此外,還通過引入回歸的方法,將術語抽取問題轉化為對詞語成為術語的概率的預測問題。術語是本體的重要組成部分,術語自動抽取是本體自動構建的基礎,文章採用回歸的方法對未登錄詞進行概率( 某個數值( 組合) 對應的候選詞集合中術語的概率) 預測,獲得該詞可能為術語的概率。論文提出的方法最后通過實驗驗証了其有效性。

代表性成果《情報科學》發文“基於多維度聚合的網絡資源知識發現框架研究”,以網絡資源為研究對象,以多維度聚合為主要手段,針對網絡資源內容的大數據化、動態化、多維度等特征,探索基於語義關聯的網絡資源深度揭示與多維度聚合,以此為基礎研究基於多維度聚合的網絡資源知識發現框架,進而研發基於多維度聚合的網絡資源知識發現技術系統,並結合特定領域、特定需求進行應用示范與對策研究。

代表性成果《圖書館》發文“基於關聯數據的學科網絡信息深度聚合框架構建”,回顧關聯數據、學科網絡信息深度聚合概念﹔分析基於關聯數據的學科網絡信息深度聚合框架構建的可行性,構建“聚合框架”並對學科網絡信息關聯數據發布工作流程進行分析﹔提出“聚合框架”實施應該注意的問題:如成立學科網絡信息關聯數據管理中心,發布中文編碼體系詞表的關聯數據,遵守關聯數據查詢的內容協商機制,注意關聯數據訪問控制問題以及注意關聯數據更新的同步問題等。

代表性成果《情報資料工作》發文“信息覓食理論與學科導航網站性能優化”,首先回顧信息覓食理論的理論基礎和基本模型;然后將信息線索劃分為文字型、像型、音頻型和視頻型四種類型,設計信息線索在學科導航網站中應用的五個原則;最后,構建基於信息覓食理論的學科導航網站性能優化模型,選擇美國的Infomine學科導航網站進行案例分析。

代表性成果《現代圖書情報技術》發文“基於搜索日志的用戶行為分析”,利用搜索引擎日志數據對用戶查詢行為特征進行分析。採用分詞、統計分析、聚類分析、可視化等方法,分別從用戶的查詢串、查詢方式、查詢主題、查詢點擊行為和用戶類型5個方面對用戶使用搜索引擎時的行為特征進行分析。發現搜索用戶偏好使用2-5個中文名詞短語組成的查詢串;更少使用口語化查詢,不愛使用高級檢索功能;查詢用詞變得多樣化;查詢時間存在高峰低谷;再次証實存在"翹尾現象"。使用搜索引擎日志可以獲得用戶行為特征,並能為改善搜索引擎提供一些建議。

代表性研究成果《情報理論與實踐》發文“網絡檢索結果聚類研究綜述”,根據網絡檢索結果聚類算法的改進方向將其分為面向經典和面向標簽的聚類算法兩類。前者的改進主要有優化特征選擇、優化聚類數K以及生成重疊聚類等; 后者的改進主要有優化類計分運算、優化類合並運算、數據結構優化、候選標簽選擇以及基於語義的優化等。在對相關研究進行綜述的基礎上探討了檢索結果聚類面臨的問題和未來的發展方向。

課題組供稿

(責編:沈王一)