舊版網站入口

站內搜索

中國—中南半島經濟走廊沿線綜合調查數據庫建設的中期檢查報告

2018年11月29日16:09來源:全國哲學社會科學工作辦公室

一、研究進展情況

一、總體計劃執行情況及子課題進展情況

1、總體計劃執行情況

本項目於2017年5月5日開題,之后各課題組在能順暢溝通交流的前提下分別進行研究,依據項目完成的成果要求,

已完成:

1)“中國—中南半島經濟走廊規劃需求下的數據庫規劃設計研究報告”

2)互聯網數據採集及存儲子系統(軟件)

3)數據可視化子系統(軟件)

4)衛星數據採集與管理子系統(軟件)

5)數據庫安全系統(軟件)

6)系統終端安全系統(軟件)

7)“雲翻譯數據中心”的軟件需求分析

8)“生產線自動控制子系統”的軟件需求分析

9)“數據挖掘——人物背景分析”的軟件需求分析

10)“數據挖掘——投資環境分析”的軟件需求分析

11)“大數據應用——城市建設和港口建設預測”的軟件需求分析

12)“中國—中南半島經濟走廊沿線國家金融平台子系統”的軟件需求分析

13)參加國際會議7次,舉辦國際會議6次,與柬埔寨前副首相及技術人員討論信息數據應用1次

14)發表論文67篇,錄用論文7篇

15)對採集回來的數據進行分析研究並生成各類報告,其中有10份報告獲各級領導批示

16)目前已採集數據15億3千萬條,日更新數據20萬條

17)中國-東盟全息數據研究與資訊中心建設

18)已建設一個包含54台服務器的具有高可靠、高可用的系統硬件平台

整體項目待完成任務:

1)“雲翻譯數據中心”的軟件開發

2)“生產線自動控制子系統”的軟件開發

3)“數據挖掘——人物背景分析”的軟件開發

4)“數據挖掘——投資環境分析”的軟件開發

5)“大數據應用——城市建設和港口建設預測”的軟件開發

6)“中國—中南半島經濟走廊沿線國家金融平台子系統”的軟件開發

按照這個進度,如果有較多的滾動經費補充,項目能更好按時完成。

2、各子課題進展情況

1)子課題之一:中國-中南半島規劃需求下的數據庫規劃與設計

已全部完成。完成了“中國—中南半島經濟走廊規劃需求下的數據庫規劃設計研究報告”

2)子課題之二:中國—中南半島經濟走廊沿線綜合數據庫的數據採集與存儲

已全部完成。

① 課題進展情況:

完成了要求的軟件系統開發:互聯網數據採集及存儲子系統(軟件),數據可視化子系統 (軟件),衛星數據採集與管理子系統(軟件)

② 調查研究及學術交流情況:

進行數據採集子系統、數據可視化子系統和衛星數據採集與管理子系統需求分析調研,完成了這三個子系統業務需求書及開發,參加6次國際學術會議,舉辦5次國際會議。

項目首席專家作為訪問學者,2017.5—2018.5在美國德州大學進行訪學,期間參與了他們一個項目的數據採集相關工作。

③ 成果宣傳推介情況

各級領導、各個單位視察該系統不少於50次,每次均獲得很好評價﹔

採集數據的動態展示頁面:

④ 研究中存在的主要問題、改進措施,研究心得、意見建議

⑤ 其他需要說明的問題

3)子課題之三:中國—中南半島經濟走廊沿線綜合數據庫的數據挖掘與大數據技術應用

正在進行。

① 課題進展情況:

主要進行中國—中南半島經濟走廊沿線各國人物背景分析和投資環境分析的研究,包括人物背景分析的數據源下載、實體抽取和人物社會關系的分析,性格分析,投資環境分析中中長期預測,取得了一些階段性成果,包括基於關注行為預測的關注對象推薦,基於話題排序的通用話題建模,基於時間卷積和長短時記憶網絡的時間序列預測模型,融合微博情感分析和深度學習的宏觀經濟預測,基於遠域適應的文本分類,話題權威度敏感的影響最大化,用於雲存儲的一套高性能兩方去重方法等方面的研究,發表錄用期刊論文2篇,發表及錄用會議論文5篇,進展順利。

② 調查研究及學術交流情況:

進行數據挖掘子系統需求分析調研,完成了數據挖掘子系統業務需求書,參加1次國際學術會議,即將參加國際學術會議5次。邀請美國加州大學聖塔芭芭拉分校嚴錫鋒教授到華中科技大學交流1次。

衛星數據項目組成員到柬埔寨吳哥和前副首相以及柬埔寨相關技術人員交流遙感技術在柬埔寨的應用。

項目組成員和前副首相座談

③ 成果宣傳推介情況

項目組成員受邀作為專欄作家在“觀察者網”上發表大量關於遙感空間信息應用到全球社會經濟分析的文章,平均每篇文章的閱讀量能達到5萬。(觀察者網是上海春秋發展戰略研究院主辦的新聞時評集成網站,旨在以即時綜合資訊和特色原創內容為全球中文閱讀者提供時政事件的深度報道以及思想領域的全面解讀。)

如利用遙感衛星資料描述夏威夷火山爆發的文章《夏威夷人民處於水深火熱中 但美國政府的領土面積又擴大了》僅僅在“今日頭條”一個渠道上就實現了一天63.5萬的閱讀量,313條回帖評論的成績。

目前我們在中南半島的應用主要以柬埔寨的暹粒市為核心,這裡是柬埔寨第二大城市,也是著名世界自然遺產吳哥窟所在地。我們利用光學、雷達多種傳感器對其開展研究分析。我們通過遙感衛星數據對該區域土地類型展開分類,評估隨著經濟的發展,其城市的變化趨勢,以及其可持續發展的承載能力。

2017年柬埔寨暹粒市(吳哥)衛星影像

2017年柬埔寨暹粒市(吳哥)土地分類圖

④ 研究中存在的主要問題、改進措施,研究心得、意見建議

⑤ 其他需要說明的問題

4)子課題之四:基於雲服務的數據可視化及數據庫多語言智能化應用

本子課題旨在解決中國—中南半島經濟走廊沿線綜合數據庫的數據可視化、多語言翻譯、智能化應用—金融數據平台三個問題。

數據可視化:(已完成)

在基於雲服務的數據可視化方法研究基礎上,研究建立了中國—中南半島經濟走廊空間數據可視化多維度展示系統,實現了區域遙感影像、矢量數據、圖片、視頻、新聞文字等大規模結構化、半結構化、非結構化多源異構數據的高效可視化。

東盟國家相關數據展示

多語言翻譯:(已完成軟件需求分析)

對海量東盟多語種信息的詞匯同中文的詞匯、語句進行雲平台后台對應,並設計相應算法對相應語法進行准確翻譯。

數據智能化應用:這是一個開放共享數據庫數據的平台。(已完成軟件需求分析)

研究數據接口,建立起相關金融數據平台實現支持東盟金融信息、實時行情數據、金融資訊等內容的編輯、加工和整合的加工處理系統,形成東盟金融數據中心和編輯中心。

進展:

1.調研了東盟國家金融數據相關情況

調研了解了國內外現有金融數據平台:有世界銀行網站、雅虎財經、新浪財經、中國金融信息網、東方財富網、中國金融指數研究院、搜狐等。通過對各大金融網站數據匯總對比,分析了目前國內外現有金融數據平台的金融數據信息,對后續金融數據的採集提供相關參考。

2.研究和分析金融數據的採集及處理

金融數據根據時效性,一般分為實時變動的數據和非實時變動的數據。已按不同要求收集獲取了網絡金融數據。針對東盟各國的金融數據情況,對於實時變動的數據,實現實時、不間斷的獲取相關數據﹔對於階段性的統計數據,按照固定時間間隔監控一次數據來源網站,獲取相關金融數據。

②調查研究及學術交流情況(調研數據整理運用、文獻資料收集整理、學術會議、學術交流、國際合作等)

調研了解了國內外現有金融數據平台,對各種金融數據按照結構化數據和非結構化數據﹔行情數據、宏觀經濟數據、行業產業數據等進行整理、歸類。

撰寫整理了兩份報告:東盟金融信息平台系統需求研究報告一份,東盟金融信息平台系統需求設計分析一份

③成果宣傳推介情況(成果發布會、《工作簡報》報送情況、國家社科基金專刊投稿及採用情況等)﹔

④研究中存在的主要問題、改進措施,研究心得、意見建議

存在的主要問題:金融數據調研前期數據較多,數據指標較雜亂。

改進措施:向金融專業的教授專家請教,提取重要金融數據,重新設計優化相關數據結構,對金融數據重新歸類。

研究心得:要充分准備,目標明確﹔加強團隊合作與交流﹔不斷反思與借鑒,提高科研能力。

二、研究成果情況

項目組已經取得的代表性成果

1)中國-東盟全息數據研究與資訊中心建設

中國-東盟研究院的全息數據研究與資訊中心,也是中國-東盟信息港的數據中心先行先試,該中心除了具有完善的設備外,還研發了一套東盟全息數據系統平台,該系統平台能極大滿足科研團隊課題研究需要,為日常教學工作、為各類專題會議、為社會各界了解東盟各國相關信息提供技術支撐,助力廣西大學中國-東盟研究院打造“中國-東盟”領域國家級智庫,為中國-東盟合作進程做出應有貢獻。

2)資訊中心機房建設

(1)系統規模

(2)系統物理拓扑圖

3)領導批示及建議採納。

對運行於上述配置的機房中的系統採集得到的大數據進行研究,2017、2018兩年有10份研究成果分別得到自治區黨委書記、主席等各級領導批示、進入教育部成果簡報等,為政府決策提供有力支持。

4)實時獲取全球熱點新聞、新聞分布圖等各類信息

5)以採集數據為基礎,生成了廣西大學東盟研究院的輿情周報、國別輿情報告、專題輿情報告、熱點分析等諸多成果。

廣西大學中國東盟研究院輿情報告以中國—東盟領域實時新聞和重大熱點問題為關注重點,分為國別輿情、專題輿情、熱點分析和輿情報告滾動四個板塊內容,將相關輿情信息編制成定期專報,對某一重大輿情事件提供階段性或全過程輿情監測與分析研判,為廣大研究者和研究機構提供形式多樣、視角豐富的中國—東盟主流訊息。

國別輿情報告以東盟十國為研究對象,由廣西大學中國東盟研究院十個國別研究所提供,包括《越南所輿情周報》、《緬甸輿情周報》、《老撾輿情周報》、《柬埔寨輿情周報》、《印度尼西亞輿情周報》、《新加坡輿情周報》、《菲律賓輿情周報》、《馬來西亞輿情周報》、《泰國輿情周報》、《文萊輿情周報》。同時,在匯集國別輿情報告的基礎上,經由整理、匯編,形成《東盟輿情政治周刊》、《東盟輿情經濟周刊》、《東盟輿情社會周刊》。

通過廣西大學中國東盟研究院官網、政府媒體、知名媒體網站和通訊社等途徑對東盟十國的輿論信息和重大新聞進行實時的採集,匯總和分析,編制成定期周報,為中國—東盟領域的全方位研究提供及時有效的信息與資料。

專題輿情報告包括《ASEAN周報》、《中國—東盟設施聯通輿情半月談》、《TPP、APEC、RCEP、FTAAP、TTIP輿情半月談》、《中國—東盟金融輿情半月談》、《中國—東盟人文輿情半月談》、《中國—東盟投資與貿易輿情半月談》、《中國—東盟一帶一路輿情半月談》、《中國廣西—東盟關系輿情半月談》。

專題輿情以內容專題的形式對中國-東盟的重大事件進行匯總分析和解讀點評,精准呈現媒體關注熱點,及時捕捉重大事件輿情動向,為中國-東盟領域研究帶來針對性的參考借鑒。

“熱點分析”如下圖:

“輿情報告滾動”如下圖:

6)數據挖掘子系統成果

(1) FRFB:基於關注行為預測的關注對象推薦方法

近年來隨著微博等社交網絡的快速增長,基於社交網絡圖結構分析的一個新的具有重要意義的課題是用戶關注對象(followee)的推薦問題。國內外已有不少關注對象推薦的相關研究,但如何將基於圖拓扑結構和基於內容的方法有效結合起來仍是一個很大的挑戰。通過探索和利用社交網絡圖結構中用戶“關注”行為的拓扑傳播特性,推薦潛在的關注對象。探索了一種利用用戶“關注”行為本身來預測用戶“關注”行為的新思路:將用戶對其他用戶的“關注”視作一個主動的、動態的、連貫的用戶行為,進一步考慮用戶“關注”行為之間的相互影響,並結合作者前期對top-k選擇算法的研究,提出一種有效的top-k關注對象推薦算法FRFB (Followee Recommendation by Following Behaviors)。FRFB基於社交網絡圖結構本身,借鑒朋友關系在社交網絡中的傳播思想,對關注關系的傳播進行建模。算法復雜度低,可擴展性高,並且稍加調整即可適應現實中大規模動態社交網絡。在真實社交網絡數據集(Wiki和Twitter)上進行的大量實驗表明,FRFB算法的推薦性能顯著優於已有的基於圖拓扑結構的推薦算法。

論文成果“FRFB: Top-k Followee Recommendation by Exploring the Following Behaviors in Social Networks”發表在Concurrency and Computation-Practice & Experience(CCF C類期刊)期刊2018.06發表(DOI: 10.1002/cpe.4514)。

(2) 一種基於話題排序的通用話題建模框架

話題建模是文本數據挖掘的一種重要方法,本文研究文檔網絡的話題建模問題,將話題排序與話題建模相結合,提出一種基於話題排序的通用話題建模框架RTMF(Rank-Integrated Topic Modeling Framework),解決了當前基於排序的話題建模不能與LDA相結合的問題。RTMF將排序向量進行話題歸一化,然后通過一個權重因子將排序向量引入話題建模中,建立了一個話題排序與話題建模互相增強的框架。在RTMF的基礎上,本文提出基於話題排序的PLSA模型和LDA模型。具體來說,將Topical PageRank和Topical HITS分別與PLSA模型相結合建立RankPLSA和HITSPLSA模型並推導出基於EM的模型推理算法,將Topical PageRank和Topical HITS分別與LDA模型相結合建立RankLDA和HITSLDA模型,推導出基於折疊吉布斯採樣的模型推理算法。

實驗在三個論文數據集和一個Twitter數據集上進行,對比算法包括兩個基礎的話題模型和兩個基於排序的話題模型,對比實驗包括泛化能力、文檔分類、文檔聚類和話題可解釋性四個方面。實驗結果顯示本文所提出的四個基於話題排序的話題模型在所有對比實驗上均優於基礎的話題模型,基於話題排序的LDA模型在所有模型中具有最好的效果。基於話題排序的通用話題建模框架可用於基於數字媒體的熱點事件分析等。

論文成果“Rank-Integrated Topic Modeling: A General Framework”被APWeb-WAIM2018錄用發表(CCF C類會議)。

(3) 基於時間卷積和長短時記憶網絡的時間序列預測模型

時間序列預測一直以來就是學者們研究的熱門領域,提出來一系列優秀的模型算法,例如ARIMA,Holt-Winters等﹔深度學習興起后,各種處理序列數據的模型不斷出現,出現了一大批以RNN為基礎的模型的創新,例如LSTM,GRU等,本文從發掘時間序列的長期模式和短期的波動規律兩個方面出發,受卷積神經網絡提取區域特征的啟發,使用時間卷積提取序列的長期波動特征,然后將其整合到LSTM的細胞狀態中,因此循環神經網絡可以獲得更長的數據依賴性並同時獲得整體變化特征的時間序列預測模型。本文提出一種基於時間卷積和長期短期記憶網絡(TC-LSTM)的新型深度學習模型,以捕獲長期系列特征以進行時間序列的長期和短期預測。本文在三個不同類型的數據集上對TC-LSTM模型進行實驗,相比於傳統的LSTM和GRU網絡,實驗結果表明,TC-LSTM模型在預測精度上優於其他類似模型,結合實驗結果和模型分析,加入時間卷積特征對於時間序列預測精度有一定的提升。

論文成果“Stock Price Prediction Using Time Convolution Long Short-Term Memory Network”已被KSEM 2018(CCF C類會議)錄用。

(4) 融合微博情感分析和深度學習的宏觀經濟預測方法研究

現代市場經濟快速發展的同時也伴隨著較高的風險。本文通過對地區投資情況提前預測,以求能夠提前發現投資風險,為國家、企業的投資決策提供參考。針對宏觀經濟預測中統計數據滯后和內部關系復雜的問題,本文提出一種融合情感分析和深度學習的預測方法——SA-LSTM(Sentiment Analysis-Long Short Term Memory)。該方法首先考慮微博的強時效性,確定了微博爬取和情感分析的方法,得到微博情感分值,進而結合政府統計的結構化經濟指標和長短期記憶神經網絡,實現地區投資總額預測。經過實際數據計算驗証,在三個數據集上,加入微博后,該方法能夠降低預測相對誤差4.95%, 0.92%, 1.21%﹔與差分自回歸移動平均模型(Autoregressive Integrated Moving Average Model, ARIMA), 線性回歸(Linear Regression, LR),反向傳播(Back Propagation, BP)神經網絡, 長短期記憶(Long Short Term Memory, LSTM)網絡四個方法中的最優方法相比能夠降低相對誤差0.06%, 2.09%, 0.94%。另外,該方法在多個時間片上,預測相對誤差穩定,具有很好的魯棒性,對數據抖動有良好的適應性。

論文成果《融合微博情感分析和深度學習的宏觀經濟預測方法》已被CCDM 2018錄用,推薦到《計算機應用》期刊發表。

(5)基於遠域適應的文本分類

文本分類現在成為了一個熱點話題。在實際中,訓練數據跟測試數據很可能來自不同的分布,這就導致了域適應問題。在本文中,我們研究一個新的問題:文本的遠域適應分類問題。在這個問題中,目標域跟源域可能差別很大,傳統的遷移學習方法並不能很好的處理這類問題,因為他們假設源域和目標域是相似的。為了解決這個問題,我們提出了基於選擇的域適應算法。基於選擇的域適應算法從源域和中間域中迭代選擇可靠的數據,來減少源域和目標域之間的差異。大量的實驗表明,我們的算法能取得最好的效果。

論文成果“Distant Domain Adaptation for Text Classification ”已被KSEM 2018錄用。

(6)話題權威度敏感的影響最大化

影響力最大化(Influence Maximization,IM)已經在社會網絡分析中被廣泛的研究,但大部分現有的研究無法區分不同消息下的影響力用戶及用戶權威度,針對現有傳播模型和算法的不足,通過將用戶的主題權威度融入到傳播模型中,提出了主題權威度敏感的獨立級聯模型(Topical Authority sensitive Independent Cascade model,TAIC),同時,為了解決主題權威度敏感的IM問題,將上述模型與貪心算法結合,提出了主題權威度敏感的貪心算法(Topical Authority sensitive Greedy algorithm,TAG)。由於傳統的評價度量並沒有考慮主題,提出了新的度量 ,用於評估考慮了主題的傳播模型和算法的有效性。通過在兩個真實的社會網絡數據集Aminer和NetHEPT上的實驗表明,基於TAIC模型的TAG算法以非常高的效率分別找到在給定主題下影響力更大的種子節點集。

論文成果“Topical Authority-Sensitive Influence Maximization”已被WISE2018 錄用。

(7) PTS-Dep:用於雲存儲的一套高性能兩方去重方法

盡管消息綁定加密方法能夠使得安全去重技術成為可能,但是基於低熵的窮舉攻擊也隨之成為安全去重技術的所面臨安全風險之一。傳統的方法通過引入可信第三方,試圖防止窮舉攻擊。然而傳統的去重技術均是運用於兩方場景(隻包含客戶端和服務端),因此該方法難以被廣泛應用於實際場景中。出於部署復雜性的考慮,現有的存儲服務提供商更加傾向於兩方場景下的安全去重技術。但是,現有的兩方安全去重研究中存在性能較差或安全漏洞的問題。為了使得兩方安全去重技術既能夠獲得較好的系統性能,同時能夠抵制兩方場景下的安全威脅,本文通過總結現有安全去重的核心問題,針對性的提出一套高性能兩方去重方法,PTS-Dep。通過理論推導對我們的方法進行了安全証明。實驗結果表明我們的方法在Fslhome數據集上,比現有的兩方安全去重方法提高了92%的性能。

論文成果“PTS-Dep:A High-Performance Two-party Secure Deduplication for Cloud Storage”被The 20th IEEE International Conference on High Performance Computing and Communications (HPCC-2018,CCF C類會議)錄用。

7)完成東盟金融信息平台、雲翻譯數據中心等系統需求研究報告及信息平台系統需求設計分析

研究成果可有針對性的提供中南半島各國各類數據,為中國和中南半島各國的經濟合作提供技術支持和服務。這將有助於把中國的發展戰略與中南半島各國發展藍圖對接,同中南半島各國的項目和企業對接,以及與中南半島各國的雙多邊合作機制和平台對接,推進國際合作,服務於“一帶一路”建設。

8)數據庫安全系統

通過動態配置方式實現對主流數據庫中數據進行動態加密,無需更改用戶程序。數據以密文方式存儲於數據庫中,防止了數據被非法用戶使用,保障了數據安全。

9)終端安全系統

通過對客戶端各類操作授權,數據硬件、軟件加密等各種控制方式,實現數據庫外數據安全保障。

三、下一步研究計劃

1 人物影響力分析:

Rashotte根據用戶行為以及其產生的效果,將社交影響力定義為人們由於和其他人或團體之間的交互而改變自身思想,感情,態度和行為的現象。社交影響力的定義具有明顯的因果性。影響用戶的社交影響力的因素主要有:現實生活中的地位,活躍程度,價值觀。反映社交影響力的因素主要有以下三個:(1) 社交網絡結構 (2) 社交網絡用戶之間的交互活動 (3) 社交網絡用戶所發布的信息。

社交網絡的結構因素主要為用戶和用戶之間的連接形成的網絡圖。網絡圖中的節點的入度和出度,以及入向和出向的邊指向的節點的影響力都反映著節點用戶本身的影響力。顯而易見的是:用戶的粉絲越多,越有影響力,那麼用戶就更有影響。社交網路中用戶的交互活動體現在:回復,轉發,收藏等活動上,用戶的不同活動反映了用戶之間的親密程度。社交網絡中用戶所發布的信息體現了用戶的專長信息。不同的政要可能分管不同的工作,擅長不同的領域(比如政治,歷史,外交……)。在社交活動中,信息往往是以話題的形式產生和傳播的。信息可能側重於不同的話題,這就造成了不同的話題具有不同的影響力。將話題作為刻畫影響力的因素,能夠從多個角度對用戶的影響力進行細致刻畫,在建立社交影響力模型時,可以直接從話題內容和用戶對話題的參與程度構建用戶和話題之間的聯系。

社交網路結構的,用戶活動,以及話題信息三個因素從不同的角度對用戶的社交影響力進行了刻畫。話題信息,用戶活動信息反映了用戶在某一話題的特征。社交網絡結構反映了用戶之間邊的特征。因此可以將上述的影響因素抽象為用戶的特征函數g, 邊的特征函數f,以及全局的特征函數h。綜合利用三個特征函數對用戶的不同影響力進行刻畫能夠更加准確的反映用戶的影響力。

話題因子圖模型(Topical Factor Graph (TFG) Model)根據三個特征函數對社交網路影響力分析進行建模。因此TFG模型有效地捕獲了地話題信息,節點的相似度,以及網絡結構的信息。TFG模型包含了一個觀察變量 的集合,以及一個隱含變量的集合。 集合。隱含變量y在話題層面上刻畫了其他節點對節點 的影響力。TFG模型圖如下圖所示:

圖2 話題因子圖模型

上圖是TFG模型的實例,途中包含了觀察變量 ,以及相對應的隱含向量 , 隱含節點之間的邊表明了在原有社交網絡中的社交關系。節點對應的特征函數g描述了節點本地的信息,邊的特征函數f描述了圖模型中通過邊引起的節點之間的依賴關系,全局特征函數描述了對於網絡中所有節點的約束。特征函數的定義如下:

式中NB(i)代表了節點i的鄰居節點, 反映了節點 和節點 之間的話題相似性和交互強度, 代表了節點 對於話題z的重要性, 表示邊 的權重。在該應用中,其表示用戶之間的交互活躍度。

邊的特征函數定義為節點之間是否存在依賴,即當邊 存在時, 。全局特征函數如下:

全局特征函數用於約束模型能夠真正的代表節點。

當模型能夠最好的擬合觀察到的數據時,其能夠最大化觀察到數據的概率,即:

參數學習

TFG模型的參數學習過程,可以通過對每條邊引入兩個變量集合 和 ,將普通的因子圖消息傳遞方法轉化為max-sum算法。 表示從節點i到節點j發送的消息。 表示從節點j到節點i發送的消息。 反映了從節點 的角度, 認為其受 影響的程度。 反映了從節點 的角度, 認為其影響 的程度。消息更新規則如下:

其中 是對歸一化的特征函數取log值得到的,

最后,社會影響力定義為:

2 投資環境分析子系統的指標庫管理、模型庫管理、運行監測、現狀評價等模塊研究與開發

1.指標庫管理:在已有的系統數據中,選擇與投資環境相關的多種指標進行分類和管理,指標分為監測類指標、預測預警類、評價類指標,檢測類指標主要是對這些指標進行統計分析,預測類指標要對這些指標進行預測分析和預警,對於預警指標要給出預警閾值,評價類指標用於現狀評價。同時指標按宏觀分析、微觀分析、按專業方向等分類,各類指標的選擇確定基於運行監測和現狀評價的需求和指標體系的設計。指標庫的管理將使用MySQL關系型數據庫,同時可以對指標數據庫進行增、刪、改、查操作。

2.模型庫管理:模型庫的管理與指標庫的管理是類似的,模型庫主要管理系統所需的分析、預測、預警模型,同時將模型進行管理,模型包括輸入輸出和參數調整等,可以對模型進行增、刪、改、查功能,完善預測預警模型體系。

3.運行監測:在完善指標庫的基礎上進投資環境的運行監測,包括檢測指標的多維分析、進行趨勢分析和相關指標的預警。

經濟運行監測分析是對經濟運行動態指標進行的連續性觀測及其規律性的揭示,是經經濟運行監測分析不同於一般的統計分析。統計分析把數據的准確及時作為主要目標,而經濟運行監測分析除對數據的嚴格要求外,更加著重於對動態和情況的把握,並把對經濟運行工作進行指導作為主要目標。確定經濟運行監測分析的對象和內容,同時分析其上下關聯、影響並制約發展的其他因素。在分析的基礎上進行歸納,進行經濟運行趨勢分析和預警。

在建立的數據倉庫的基礎上,運用多維分析技術對數據進行分析。多維分析技術主要包括:數據庫和數據倉庫技術(Data Warehousing)、數據抽取轉換加載技術(ETL-Extraction Transformation Loading)、聯機分析處理技術(OLAP-Online Analytical Process)、數據挖掘技術(Data Mining)、前端展現技術等。常見的多維分析操作主要有:鑽取(上鑽和下鑽)、切片、切塊、旋轉。鑽取:鑽取是改變維度的層次,變換分析的粒度。鑽取包括上鑽和下鑽,上鑽是在某一維上將低層次的細節數據概括到高層次的匯總數據的過程,減少了分析的維數﹔下鑽則是相反,它是將高層次的匯總數據進行細化,深入到低層次細節數據的過程,增加了分析的維數。切片和切塊:在多維分析中,如果在某一維度上限定了一個值,則稱為對原有分析的一個切片,如果對多個維度進行限定,每個維度限定為一組取值范圍,則稱為對原有分析的一個切塊。在多維分析中,維度都是按某一順序進行顯示,如果變換維度 的順序和方向,或交換兩個維度的位置,則稱為旋轉。多維分析的實現主要包括以下四點,分別為:維度指標的定義,建立維度指標關聯關系,執行維度和指標查詢,以及數據展現。在多維分析的基礎上,進行歸納分析,繪制監測指標的運行曲線,運行趨勢分析。

例如對於產業園區可分別從經濟環境分析、基礎設施建設及投資狀況、基礎產業發展研究分析、重點產業發展研究分析、主要重點企業經營分析、主要產業園區發展分析、重大項目建設分析、政策比較分析、投資吸引力分析、投資分析及前景、產業投融資策略分析幾個主題建立多維分析模型,進行分析。

監測預警以預警模型為基礎。預警預型可以採用多變量預警模型,多變量模型又可以分為靜態統計模型與模型庫。之后,根據檢測分析的需求,設計建立分主題的數據倉庫和多維分析模型,可以對具體的指標實行監測預警。建立檢測模型,對指標進行檢測,同時模型庫管理中錄入預警模型,在檢測的時候結合預警模型,在分析的基礎上進行歸納,對指標庫的某些指標進行預警,從而進行經濟運型和動態非統計模型。靜態統計模型如下:

① 線性判別模型。多元線性判別模型是運用多元統計分析方法中的判別分析建立起來的,它是根據一定的樣本資料,建立判別函數、確定判定區域,以對指標進行監測預警。

② 主成分預測模型。該模型也形成一個線性判定函數式,其形式類似判別分析模型。不過該模型是運用多元統計分析中的主成分分析方法,通過提煉綜合因子形成主成分,並利用主成分建立起來的。

③ 簡單線性概率模型。該模型是利用多元線性回歸方法建立起來的,其形式是:y=c+β1x1+β2x2+…+βkxk。其中:c、β1、β2、…、βk為系數﹔x1、x2、…、xk為 k個預測變量。

④ logit模型和probit模型。它們也分別叫作對數比率模型和概率單位模型,都屬於概率模型,是在克服簡單的線性概率模型的基礎上並分別用logit 和probit概率函數建立起來的。logit模型的形式為:ln[p÷(1-p)]=α0+β1x1+β2x2+…+βkxk。其中:p取值為0、1﹔ p為概率﹔x1,x2,…,xk為k個預測變量。

預警可以綜合多種預警模型,實現預警目標。

4.現狀評價:在已有的評價體系的基礎上,認真分析當前現狀評價的新需求,進一步完善評價體系。同時綜合運用主成分分析、聚類分析、神經網絡和深度學習等多方法融合,同時結合經濟相關計量分析法形成復合型現狀評價模型,利用大數據分實現投資環境的現狀評價。

3、各系統開發

1)“雲翻譯數據中心”的軟件開發

2)“生產線自動控制子系統”的軟件開發

3)“大數據應用——城市建設和港口建設預測”的軟件開發

4)“中國—中南半島經濟走廊沿線國家金融平台子系統”的軟件開發

4、在完成上述1、2兩點分析的前提下,補充完善相關需求分析,並完成“數據挖掘——人物背景分析”的軟件開發、“數據挖掘——投資環境分析”的軟件開發

(課題組供稿)                         

(責編:孫爽、閆妍)