在線社交網絡核心用戶挖掘與傳播規模預測-品牌行銷策略，產品行銷與設計，各類型行銷推廣案例分享-品牌行銷點點讚

編輯導讀：新浪微博作為一個新型的社交軟件，已經成為了信息傳播的重要載體。它具有傳播迅速、信息量大、覆蓋面廣的特點，但同時對一些不良的社會事件也產生了推波助瀾的作用。本文將從六個方面，對其傳播鏈路展開分析，希望對你有幫助。

摘要：

新浪微博作為21世紀一種新型的社交軟件，已經成為當今中國社會各界信息傳播的重要載體。與傳統社交平臺的傳播方式不同，其信息通過用戶交互行為如發布、評論、轉發等形式進行傳播，具有信息量大、覆蓋面廣、傳播迅速且傳播過程具有裂變性等特點，這在一定程度上推動了廣告優化、商品營銷等信息產業的發展，但同時也對危害事件、謠言等傳播起到推波助瀾的作用，其引發的問題為互聯網的安全運行帶來了新的挑戰。

本文通過研究30條熱門微博的完整轉發鏈路，挖掘信息擴散主要推動者，量化參與者對信息傳播的影響力，剖析微博熱門信息傳播范式，提出一種基于微博關注關系以及傳染病模型的傳播預測模型，同時展望信息強化效應在傳播規模預測的應用，結合用戶影響力，在線性閾值模型的基礎上著重考慮不同用戶的核心程度，預測單條微博的最終傳播規模。

關鍵詞：微博；社交網絡；核心傳播者；信息擴散；傳染病模型

一、引言

在單條微博傳播網絡中，信息的擴散主要依賴于用戶間的轉發，大多數用戶存在于信息傳播樹較底層次范圍內，微博最終擴散規模通常由極少數用戶決定，這些用戶往往是官方機構、輿論大V或者事件實際參與者，即為核心傳播者。

核心傳播者的識別，可以協助人們快速了解信息傳播過程以及整體傳播趨勢，精準定位信息擴散中的“裂變點”，便于提前對網絡輿情傳播進行有效干預，對于熱點發現、廣告投遞、謠言阻斷、官方辟謠等具有重要意義(1)。

圖1 核心用戶挖掘相關工作

除了核心用戶的識別，傳播規模也是影響微博最終傳播效果的關鍵要素之一。通過對信息傳播規模的預測，可以提早發現信息傳播的最終影響范圍。相關研究集中于信息傳播建模、影響力最大化等方面。其在實際應用中也十分重要，例如企業推廣新產品期間，據此尋找最優營銷策略，實現降低推廣成本的同時提高經濟效益；政府部門則可以用其來衡量謠言等不良信息危害程度，或運用信息在社交網絡里的傳播范式科學有效地發布信息，引導輿論走向，提供決策支撐等(2)。

圖2 傳播規模預測相關工作

基于上述分析，本文主要闡述了以下兩方面工作：

第一，本文通過分析微博網絡中完整的轉發鏈路，定義了核者的識別。

第二，本文通過提取微博網絡中的相關特征，綜合分析對轉發產生影響的因素，考慮到影響轉發因素的用戶影響力以及信息強化效應，以線性閾值模型（LT）、傳染病模型（SEIR）為最初藍本，改進閾值表示方法，實現對于單條微博最終傳播規模的預測。

二、數據分析

2.1 數據介紹

本研究使用數據為30條熱門微博的完整轉發鏈路，全部傳播數據及參與傳播的賬號關系（脫敏），包括用戶轉發時間以及部分轉發用戶的關注。

2.2 轉發層級分析

轉發深度與廣度是信息傳播的重要指標，通過對30條不同類型微博傳播鏈路進行分析，我們有如下發現（附錄Ⅰ）：

不同主體類型微博往往具有不同的轉發深度。
對同一事件，不同微博文本對于轉發深度也有不同影響。
轉發深度與最終規模有相對較弱的正相關關系。

2.3 關注結構分析

關注關系是其社交網絡結構的重要組成部分，用戶間的關注關系共同構成網絡結構的入度與出度。通過分析88829條用戶關注數據有如下發現（附錄Ⅱ（1））：

有8420人次（10%）關注人數高達993，我們分析提供的數據爬取時最高爬取量為993。
大量用戶關注數在100~200檔位，符合一般邏輯，因為大多數人處理社交事務精力有限。

三、核心用戶挖掘

核心用戶挖掘往往與關鍵節點發現以及影響力最大化等研究結合在一起， Richardson和Domingos等人(3)的研究認為影響最大化問題本質上是一個算法問題，問題的關鍵在于精確識別網絡中某些對于信息擴散最具影響力的節點。

本文核心用戶挖掘的工作主要圍繞一個思想，倆個網絡與四種指標展開。考慮到核心用戶在不同場景下有不同的定義，在信息傳播的情形下，本文使用用戶微博擴散能力、對下級用戶影響程度能力為衡量指標計算核心用戶的核心程度。具體運用PageRank思想，基于微博轉發關系網絡、用戶關注關系網絡，構建微博轉發時間性、用戶轉發影響力，對下級用戶的情緒強弱性影響以及在靜態網絡中的用戶自身位置信息指標決定用戶核心程度。

圖3 核心用戶挖掘解決流程

3.1 baseline：級聯率

級聯率（Cascade Ratio）刻畫了參與信息傳播的用戶通過該條信息影響其粉絲的程度，用戶u轉發了某條微博i的級聯率CR（u，i）可以定義為：

其中S(i)表示該條信息i最終的擴散規模；N(u,i)表示用戶u引起的轉發數量。一般來說，級聯率計算簡易，適用于大規模轉發網絡的核心傳播者發現，局限性在于其對影響力的評估過于簡單，缺乏對轉發網絡鏈路整體性的思考。

3.2 基于轉發關系網絡結構：轉發時間性

微博具有大規模性、噪聲多樣性、快速傳播演化性等新特征(5)，面對海量信息覆蓋，用戶存在“快餐式”的信息消費習慣，致使大多數微博的存在壽命十分短暫，因此我們定義擴散速率為另一用戶影響力衡量指標。因此我們用指數衰減函數模擬用戶轉發時間對用戶影響力的貢獻，衰減速率參數設置為11小時。這也符合戈茲等人基于微博分析提出消息影響力衰減服從冪律分布的結論。

其中，ωi,j為用戶i轉發用戶微博對其影響力的貢獻值，ti為用戶i轉發用戶j微博的時刻，tj為用戶j發布或轉發微博的時間。λ為控制衰減速率的參數，設置λ=11h。衰減速率控制參數λ確定（λ>0）：

PageRank算法的計算公式：每個網頁的 PR 值不僅僅要考慮被鏈接網頁的數量,還要考慮鏈接到該網頁的網頁質量和重要性的影響。

考慮轉發時間性指標，轉發影響力的計算公式：每個用戶的轉發影響力值不僅僅要考慮其引起轉發的數量,還要考慮引起轉發的用戶的質量和重要性。

其中，influence（j）表示用戶i的轉發影響力，q為為阻尼系數（Damping Factor）且0

轉發影響力的計算中本文使用的基于轉發時間性指標的PageRank算法衡量用戶對于微博轉發的影響力，具體旨在不僅用節點出度值計算貢獻度，還考慮基于邊賦值上由轉發時間性得到的權重。同樣的，考慮到大規模網絡計算的復雜度指標，本文提出第二種衡量轉發時間性的指標：

單位時間引起的轉發量：統計某用ui戶引起轉發的微博的起始轉發時間start_time(ui)與終止轉發時間end_time(ui)，及其引起的總轉發量sum(ui)，計算轉發速度有：

一定規模轉發時間：取ui引發的所有微博轉發總量的99%分位數記為threshold(ui)，轉發量在其下的，一定規模轉發時間記為0，而微博轉發量達到所有微博轉發總量的99%分位數的微博，則統計微博的起始轉發時間start_time(ui)與達到threshold(ui)轉發量的轉發時間threshold_time(ui)計算其一定規模轉發時間為：

指標綜合及規一化：

3.3 基于關注關系網絡結構：用戶自身質量

用戶自身質量指標與用戶在靜態網絡（關注關系網絡）中的位置信息以及對下層用戶的情緒影響決定。

參考PageRank算法的思想(4)，利用真實轉發鏈路數據提出一種新的核心傳播者轉發影響力評價指標ZX值，該算法基于社交網絡上信息實際轉發鏈路，能夠相對客觀地反應用戶在單條微博的傳播中對最終規模的影響力，用戶ZX值定義如下：

其中ZX(ui)為參與轉發微博的用戶ui的ZX值；F(ui)為轉發用戶ui微博的用戶集合；O(vj) 為用戶vj的關注用戶數；0

觀察用戶核心度值與引起直接轉發數的相關性，可以發現該指標能夠較好的體現其直接引發的轉發數量，也考慮到對后續轉發的間接推動（附錄Ⅱ（2））。綜合來看，社交網絡往往普遍存在大規模性，因此使用復雜度高的算法難以實現對顯示社交網絡的指標計算，結合用戶自身質量指標衡量手段不一，因此也可以考慮相關中心性算法實現用戶自身質量的量化。

3.4 基于關注關系網絡結構：情緒強弱性

考慮到觀念、情緒等也是可以傳播的，故本文旨在量化情緒的強弱對轉發的促進作用，此處使用《基于情感詞典的情感分析方法》計算用戶情緒強弱性，對于每一個文本都可以得到一個情感分值，以情感分值的正負性表示情感極性，大于0為積極情緒，小于0反之，絕對值越大情緒越強烈。

基于情感詞典的情感分析方法主要思路：

對文本進行分詞，找出文本中的情感詞、否定詞以及程度副詞；
判斷每個情感詞之前是否存在否定詞及程度副詞，將其與情感詞分為文本中的一個組；
如果情感詞前有否定詞則將情感詞的情感權值乘以-1，如果有程度副詞就乘以程度副詞的程度值；
加和所有組的得分，積極情緒得分大于0、消極情緒得分小于0，絕對值越大情緒越強。

圖4 情緒強弱性判定結果

一個轉發用戶的情緒影響指標由其對下層用戶的情緒強弱性值決定，使用上述算法，以單條微博涉及用戶為范圍計算用戶情緒影響指標，并做歸一化處理。

用戶自身質量指標是位置信息與情緒影響的線性相加，有：

其中，a1、a2分別為用戶自身質量計算中位置信息因素與情緒影響因素所占比重，設為0.8、0.2。

3.5 指標集成

對于高復雜度算法算法：在基于社交網絡的信息傳播過程中：

轉發影響力：體現被轉發用戶信息傳播能力在話題內的信息傳播廣度。
用戶自身質量：體現用戶信息傳播能力影響用戶的強度。

因此本文將這兩個度量指標通過線性融合計算用戶在話題內的信息傳播能力大小。

其中，θ1為核心用戶計算中用戶轉發影響力所占比重，θ2為用戶自身質量所占比重；如設置θ1=θ2=0.5，表示認為用戶轉發影響力、用戶自身質量對核心用戶挖掘同等重要。該算法以社交網絡理論為基礎，結合 PageRank 算法，既考慮微博信息轉發網絡特征，充分結合用戶轉發行為的時間特征，又結合用戶情緒傳遞性考慮微博用戶的質量屬性特征，具體體現于對信息擴散的推動、對下級用戶的影響強度。

整體上看，能夠較好地反映核心用戶的綜合影響力。對于低復雜度算法算法：綜合考慮影響用戶核心程度的各種指標，本文提出一種結合關注關系、轉發鏈路以及擴散速率的核心用戶挖掘算法，對于不同的微博類型，可針對性對NZX值以及final-rank進行賦權，針對娛樂性新聞WNZX,Wfinal-rank可分別設置為0.8，0.2；針對政治性新聞，由于其穿透性更強，轉發深度更深，WNZX,Wfinal-rank可分別設置為0.5，0.5。綜上定義核心度計算公式為：

四、傳播規模預測

在微博網絡中，用戶之間是通過“關注-被關注”聯系在一起的，每一個用戶都可以關注其他用戶，關系網絡可以看作是一個有向圖。

4.1 結構化與非結構化傳播

經典的傳播理論認為信息的傳播可以分為“大眾傳播”和“人際傳播”。隨著社會網絡分析（SNA）方法不斷地發展，對于信息傳播規模的預測出現了過度“結構”化現象(6)，即過分強調網絡結構，忽略的信息傳播的宏觀性。個體間的相互作用對最終傳播規模有著重要影響，夸大其網絡結構的作用，往往有悖實際情況。

微博的出現讓“非結構化傳播”和“結構化傳播”間的界限更加模糊，如微博信息擴散途徑并不完全依賴于關注關系，還包括熱門推薦、熱搜榜單等都有可能是微博轉發源（附錄Ⅲ（1））。

圖5 結構化、非結構化轉發示意圖結果

圖6 不同網絡結構化轉發在對應轉發深度中比重

4.2 非結構化傳播預測

由上文的分析可知，本次競賽提供的30條熱門微博的轉發數據不嚴格或者很少嚴格依據網絡關注關系結構，因此本文提出基于傳染病模型的非結構化的轉發預測方法，該方法依賴于轉發規模隨時間的變化數據學習參數，圖為30條微博轉發規模的變化曲線，時間步長為一個小時。

圖7 30條微博轉發數隨時間變化情況

SIRE模型定義：基于研究傳染病傳播的艙室（SIR）模型的基礎上增加非結構化轉發行為。

當用戶參與單條微博信息的轉發之后，基本不會再次轉發，成為 “免疫用戶”。
信息傳播不全依賴于網絡關系（關注關系網絡），增加“外來用戶”。
結合微博特性的傳播預測模型：SIRE(Susceptible-Infectious-Recovered-External)模型。

圖8 SIRE模型示意圖

在實際的微博傳播過程中，比如某用戶發布一條微博，最先被該用戶的粉絲看到，并可能引起轉發行為。當用戶轉發過這條微博之后，基本不會再次進行轉發，從而成為這條微博的“免疫用戶”。由于微博內容在網絡中進行傳播，也存在著不是微博用戶的粉絲而進行的轉發行為，即非結構化轉發。因此，本文在基于研究sir傳染病傳播模型的基礎上增加非結構化轉發用戶，即“外來用戶”，提出滿足微博特性的傳播預測模型，定義為SIRE模型。

該模型滿足以下假設：

假設1：用戶發布或者轉發用戶的狀態為感染用戶，其直接粉絲的狀態為易感染用戶。
假設2：微博用戶從易感染用戶成為感染用戶的概率為β。
假設3：用戶從感染轉態成為免疫狀態的概率為α。
假設4：沒有關注這些感染用戶的狀態為外來用戶。此類用戶自主閱讀微博并轉發的概率為γ。

當給定某條微博，t時刻，在SIRE模型中：

S(t)表示t時刻易感染用戶的數量，該部分人群可能會進行轉發；
I(t)表示已轉發改微博的用戶，并且具有傳播力的人群；
R(t)表示免疫用戶R的數量，該類用戶表示t時刻不會再轉發該微博的用戶人數。

具體微分方程表達如下：

假設從t時刻起，單位時間內一個感染用戶可能傳播的易感染用戶為S（t）,轉發傳播的概率值為β，因此單位時間內變化的易染人群為β*S（t）*I（t）。（2）t時刻，單位時間內增加的免疫用戶的數量為aI(t)。
t時刻，單位時間內外來用戶轉發該微博的概率為γ，由外來用戶轉化為感染用戶的數量為rE(t)。
易感的減少量減去轉化為免疫的用戶加上外來用戶轉發量為此時的感染數量。

設置微博發布時刻為初始狀態狀態，即t0,此時只有發布用戶為感染用戶，粉絲為易感染用戶，即t=t0，I(t0)=1，E(t0)=0，S(t0)=N，N為微博發布者的粉絲數，可通過博文追溯得到。其中，參數β，α，γ，ϖ，設置β,ϖ為時域衰減，以符合實際傳播情況，其值采用馬爾科夫蒙特卡洛方法求解，確定最優值。

圖為#中國女排衛冕世界杯冠軍#與# 視覺中國#轉發預測擬合效果。

圖9 擬合效果

五、結構化預測方法的展望與想法

5.1 轉發行為影響因素提取

微博信息傳播的主體機制就是轉發行為，能對微博轉發產生影響的因素有很多，不同的因素對用戶最終轉發與否的貢獻值也并不相同，我們提出用戶核心度、信息強化效應為用戶轉發的影響因素。

5.1.1 用戶影響力

用戶核心度表達了用戶在社交網絡結構中的重要程度，具體體現于一個人的行為引起其他人的行為改變的能力。現存眾多基于網絡結構的節點影響力計算方法(7)，如K核中心性（K-shell）、介數中心性（Betweenness）等。Sergey Brin和Lawrence Page(8)提出的經典的網頁排序算法PageRank值，Cataldi等人(9)考慮到微博等社交網絡的連邊關系與網頁中的連接的相似性，將PageRank算法應用于社交網絡中影響力節點的判斷并可以較好展現網絡中的用戶核心程度，因此本文使用PageRank值作為節點影響力評價指標（附錄Ⅲ（2））。

5.1.2 信息強化效應

在社交網絡中，因為用戶間存在趨同性，某些行為也具有類似信息的傳播效果，例如同齡人的飲食行為(10)，微博用戶的轉發行為等。我們對30條熱門微博8萬多用戶參與的114856次轉發行為分析時有如下發現（附錄Ⅲ（3））。

有68340次轉發（59%），其用戶的關注列表中并沒有參與該條微博轉發的用戶，可能轉自推薦或者熱搜，這也是微博信息傳播的非結構化體現。
存在23843次轉發，其參與者的關注列表中有一位參與該條信息轉發的用戶。
有22673次轉發受到2次及以上激活，社會強化效應不可忽視。

5.2 基于強化效應預測模型

本文提出一種基于微博關注關系、用戶影響力以及信息強化效應的傳播規模預測模型，該模型在線性閾值模型（LT）(11)的基礎上著重考慮不同用戶影響力。該模型分為兩個部分，啟動部分及后續傳播部分。啟動部分考慮根微博用戶u對粉絲集合fans(u)的影響力PR(u)，用戶v轉發閾值設置為0到該粉絲所有關注用戶（Fv）PR值之和間的隨機數，即γv∈[0,sum(PR(Fv))]，若PR(u)>γv，則用戶v不轉發；若PR(u)≤γv，則用戶v轉發。后續傳播部分因為信息的冗余所以存在強化效應，對用戶的總影響力Influce(v)計算如下：

用戶v轉發閾值設置為0到該粉絲所有關注用戶（Fv）PR值之和間的隨機數,與LR模型不同，當v所關注用戶近90%都轉發了該微博，則用戶v必參與轉發。

循環上述算法二直至不再增加轉發節點，可以得到基于關注關系結構的轉發規模Net_Scale。結合上文對8萬多用戶的轉發行為分析，59%的用戶的轉發不依賴于關注關系，所以有最終傳播規模：

5.3 基于鏈路預測模型

分析本次比賽提供的數據之后，本文將微博信息轉發預測問題轉化為鏈路預測問題。鏈路預測的主要目的是基于推測網絡節點之間存在鏈路的概率。本文主要研究基于轉發關系的微博傳播網絡中的鏈路預測問題（附錄Ⅳ（1））。

本文采用轉發數據對不同的指標進行對比分析，將數據及按照0.85：0.15的比例切分訓練集和測試集。分別嘗試Adamic-Adar，Jaccard Coefficient, Preferential Attachment, Node2vec, Variational Graph Auto-Encoders等鏈路預測方法，衡量鏈路預測算法精度的指標主要有AUC和Precision，其中AUC從整體上衡量算法的精確度，Precision只考慮排在前L位的邊是否預測準確。仿真結果發現Node2vec, Variational Graph Auto-Encoders, Spectral Clustering 在ROC得分和PR得分上要優于Adamic-Adar，Jaccard Coefficient, Preferential Attachment（詳見附錄Ⅳ（2））。

六、結論與展望

本文分析了新浪微博30條熱門信息轉發鏈路，提出了對于真實傳播網絡的核心傳播者發現算法，該算法綜合考慮用戶直接帶來的轉發量，以及對信息后續傳播的影響，提出用戶核心度，轉發速率指標，從時間、空間角度量化用戶貢獻值，實現單條微博轉發中用戶重要程度排名。

本文還深入分析了轉發鏈路與最終傳播規模的內在關系，提出了一種基于SIRE的傳播規模預測模型，此外，想法拓展中提出一種基于影響力的轉發閾值模型，該模型分為啟動部分和后續傳播部分，綜合考慮了用戶在網絡結構中的影響力以及社會行為強化效應，通過仿真計算的方法預測傳播規模，最后嘗試了幾種鏈路預測算法用于信息傳播模型研究。社交網絡上的信息傳播機制相對復雜，其一定的傳播機理附近存在大量的隨機性與不確定性，受限于用戶的興趣愛好、轉發習慣、甚至情緒的影響。

單從結構上、宏觀上都無法準確描述其具體傳播范式。實現真實準確的轉發規模預測，即要考慮結構上的“內部影響”，也要考慮宏觀層面的“外部影響”，以及結合用戶習慣與博文屬性等等因素。只考慮信息傳播鏈路、用戶網絡結構等特征無法實現對于真實熱門信息的全面挖掘。用戶探索是發現社交信息傳播模式的核心，新浪微博擁有海量用戶，來自社會的各個層面，用節點代表用戶，用連邊代表關系是理想化的拓撲模型，方便計算卻難以精準進行人群畫像，從而忽略眾多信息。

此外，本文對于信息強化效應的量化還有待提高，可在大規模社交網絡上使用多種傳播模型做多次信息傳播仿真，這也是下一步的工作。

尋找信息傳播可計算的基因遠遠不是幾萬行數據、幾千行代碼可以實現的，不確定的時代給計算傳播學更多機遇與挑戰，在線社交網絡為信息傳播研究帶來極好的契機，推薦系統與社交關系改變了用戶接受信息的方式，社交媒體與輿論大v創造了用戶的信息環境，探索社交網絡信息傳播本質對大型社會網絡研究將是巨大的貢獻。

參考文獻：

1. Fan L, Lu Z, Wu W, Thuraisingham B, Ma H, Bi Y, editors. Least Cost Rumor Blocking in Social Networks. international conference on distributed computing systems; 2013.

2. Liu D, Jing Y, Zhao J, Wang W, Song G. A Fast and Efficient Algorithm for Mining Top-k Nodes in Complex Networks. Scientific Reports. 2017;7(1):43330.

3. Richardson M, Domingos P, editors. Mining knowledge-sharing sites for viral marketing. knowledge discovery and data mining; 2002.

4. 宮秀文,張佩云.基于PageRank的社交網絡影響最大化傳播模型與算法研究[J].計算機科學,2013,40(S1):136-140.

5. 丁兆云,賈焰,周斌.微博數據挖掘研究綜述[J].計算機研究與發展,2014,51(04):691-706.

6. 許小可.社交網絡上的計算傳播學[D].北京：高等教育出版社, 2015：2-3.

7. 任曉龍,呂琳媛.網絡重要節點排序方法綜述[J].科學通報,2014,59(13):1175-1197.

8. Page L, Brin S, Motwani R, et al. The PageRank citation ranking: Bring order to the Web.

Stanford University Technical Report SIDL-WP-1999-0120, 1999.

9. Cataldi M, Caro L D, Schifanella C. Emerging topic detection on Twitter based on

temporal and social terms evaluation[C]. In MDMKDD’10, 2010: 4-13.

10. 許小可.社交網絡上的計算傳播學[D].北京：高等教育出版社, 2015：164-199.

11. Granovetter M. Threshold Models of Collective Behavior. American Journal of Sociology. 1978;83(6):1420-43

附錄Ⅰ

注：圖示為30條微博轉發趨勢情況，橫、縱坐標分別為轉發深度、參與轉發的用戶總數。

我們發現公共關注事件，例如“龐氏青年水氫車”，“女排奪冠”等話題，其往往能引起群體的憤怒或喜悅，信息穿透性更強，擴散范圍更廣泛，平均轉發深度高達20；興趣導向事件，例如“AI換臉”，“姐姐來了”，“易烊千璽”等文娛微博，符合部分用戶的興趣，轉發深度較低，擴散范圍較為集中，轉發深度均值為5~6左右。針對同一事件的不同文本描述，例如“德云社弟子眾籌百萬”事件，存在不同的擴散深度與傳播規模，其受限于博文新穎性、發布用戶關鍵性，其中博文能直接引起“大眾情緒”的轉發深度高達24。

注：通過對30條各類型微博的轉發深度分析得知，微博的最終傳播規模與轉發深度存在正相關性，相關系數為0.339518；去除轉發深度24，規模2729與轉發深度5，規模8356的離群點后相關系數高達0.66。附錄Ⅱ（1）

注：圖示為剔除關注數量高于993的用戶后剩余用戶關注數分布，大部分用戶關注數100~200檔.（2）

注：圖示為NZX值與節點引發轉發數之間的關系，橫、縱坐標分別為節點直接引發的轉發數、原始NZX值整數擴樣。（3）

注：刪除根微博用戶，觀察剩余用戶NZX值與引起的轉發量之間的關系，其整體上體現線性關系。圖示的離群點用戶，其引起的直接轉發數不多但其中存在“裂變點”，故NZX值較大。附錄Ⅲ（1）

注：推薦系統的發展使信息推薦更加符合用戶的興趣，精準投遞用戶感興趣的內容，極大促成了用戶面向非關注結構的轉發行為；快節奏的生活壓縮人們在社交網絡上消耗的時間，部分用戶為了信息獲取的高效性、及時性、全面性往往格外關注熱搜榜單，加之熱搜的形成源自用戶的普遍關注，也促成了用戶面向非關注結構的轉發行為。（2）

注：其中PR(ui)為用戶ui的PageRank值；F(ui)為用戶ui的粉絲集合； O(vj)為用戶 vj關注的用戶數； d為阻尼系數（Damping Factor），0

注：圖為參與轉發的用戶的關注列表中，同時參與該微博轉發的用戶數（被激活的次數），社會行為強化效應的存在已被證實且強化效果并不呈線性增加，如存在一位與用戶直接相連的肥胖好友（一度好友），用戶的肥胖風險將增加45%，對于二度好友增加20%，三度好友增加10%；對于轉發行為的強化效應定量化表示仍是下一步的工作。附錄Ⅳ（1）

注：左圖所示，用戶B轉發了A的微博，即形成一條有向連邊。用Gmsg=（Vmsg′Emsg）表示，其中Vmsg′=｛v1,v2,…vn｝⊆Vuser是微博信息msg在Gmsg上傳播過程所覆蓋的用戶集合，Emsg=｛eij|1≤i≤m，1≤j≤m｝⊆Euser，eij=1表示信息msg從用戶vi傳播到了用戶vj，否則eij=0。

右圖描述信息msg在傳播網絡中的鏈路預測問題，微博傳播網絡中的鏈路預測是預測用戶采取轉發行為的概率，當預測的轉發概率大于設定的閾值時，會認為用戶轉發微博內容。（2）表1 鏈路預測方法比較

注：可以看出Node2vec, Variational Graph Auto-Encoders, Spectral Clustering 在ROC得分和PR得分上要優于Adamic-Adar，Jaccard Coefficient, Preferential Attachment。附錄Ⅴ

注：出道即巔峰型擴散網絡，此類微博壽命較短，用戶受興趣導向轉發，影響力相對較小。

注：二次再爆發型擴散網絡，此類博文通過知名博主轉發后會再次引發擴散“裂變”。

注：熱度漸衰減型網絡，此類微博受眾用戶廣泛，信息滲透力強，往往能激發用戶較為強烈的情緒或共鳴，壽命較長。

本文由 @數據鍋原創發布于人人都是產品經理，未經許可，禁止轉載。

題圖來自Unsplash，基于CC0協議。

給作者打賞，鼓勵TA抓緊創作！

在線社交網絡核心用戶挖掘與傳播規模預測