前言:尋找寫作靈感?中文期刊網用心挑選的重入網識別原理探索,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。
作者:艾達 羅愛平 單位:西安郵電學院通信與信息工程學院 中國聯通上海分公司
重入網用戶的識別原理是對比新增用戶特征和離網用戶在系統中記錄的特征,如果特征符合判斷條件,則認為該用戶是重入網用戶,如果沒有符合特征的記錄,則認為該用戶為新增用戶[6]。用戶特征包括:用戶資料,如姓名,身份證號;用戶設備,如用戶使用的手機的國際移動設備標識號碼(InternationalMobileEquipmentIdentity,IMEI);用戶呼叫指紋,如用戶交往圈,頻繁發生呼叫的地理位置等。較為簡單的重入網用戶識別方法是通過對比用戶資料或設備特征實現的。用戶資料,例如身份證信息,只能用于識別資料完整的用戶,對資料缺失、偽造以及大多數無需登記資料即可入網的預付費用戶無效。每部手機都有唯一的IMEI號,當用戶撥打電話時,手機的IMEI會自動記錄在用戶的通話話單中,因此可以利用用戶手機判別是否重入網。采用對比IMEI號碼識別重入網用戶,具有方法簡單,速度快的優點。但通過調查發現,重入網用戶手機更換率達32%以上[7],IMEI識別方法準確率較低,約為42%[8]。
用戶的呼叫特征具有相對穩定性和個體差異性兩個特性,可用于識別重入網用戶。相對穩定性是指用戶通話習慣,通話群體等因素在一段時期內相對穩定,發生改變的概率較小。個體差異性是指每個移動用戶都有自己獨特的通話習慣和聯系群體,不同用戶存在一定的差別。這種呼叫特征的相對穩定性和個體差異性就像指紋一樣可以用于個體的識別。用戶在使用移動產品及服務時,產生的各種行為和屬性的綜合表征稱為呼叫指紋。呼叫指紋可分為用戶交往圈、位置特征、消費特征、終端特征等多個維度。用戶交往圈是與用戶有通話行為的所有號碼的集合。位置特征是用戶在工作時間和休息時間活動較為頻繁的小區標識等信息。消費特征是指用戶的消費行為、消費水平等信息。終端特征是指用戶使用過的手機終端信息。通過對用戶原始話單的數據采集和加工,生成不同維度的呼叫指紋[5]。采用呼叫指紋識別技術,通過一系列的比較運算就可找到重入網用戶,其重入網技術框圖如圖1所示。
基于呼叫指紋的識別算法
目前廣泛采用的有效交往圈算法[2],綜合運用了用戶消費層次、交往圈、頻繁活動小區、用戶手機終端等4個維度的呼叫指紋,其識別步驟如下。
步驟1首先判斷離網用戶和新入網用戶消費層次是否一致,將不一致的用戶排除。
步驟2消費層次一致的用戶判斷交往圈匹配程度是否達到一定條件,滿足條件則認為是重入網用戶,不滿足條件則認為不是重入網用戶。
步驟3無法用交往圈匹配方法判斷的用戶,再對比其手機終端是否一致,如果一致則認為是重入網用戶。
步驟4如果手機終端不一致,則判斷頻繁活動的小區匹配程度,如果位置信息匹配程度達到一定條件,則認為是重入網用戶。
步驟5如果位置信息不匹配,則變更用戶消費層次,重新執行步驟1。其中步驟1根據目標用戶的消費層次大小,分別確定每個目標用戶的有效交往圈成員數N,即那些與所述用戶聯系比較頻繁且能保持長期交往的重要交往對象個數。步驟2使用用戶的通話頻率Freq,通話次數Num,通話時長Dura等參數,計算出用戶交往指數Exp=f(Freq,Num,Dura)。
用交往指數排名前N個的號碼作為用戶的有效交往圈。計算離網用戶與新入網用戶有效交往圈交集的成員個數,并計算符合率,即交集成員個數占離網用戶有效交往圈成員數的比例。如果符合率大于門限值,則認為是重入網用戶;如果符合率小于門限值,但大于0,則屬于不確定情況。此時,需要步驟3做進一步判斷。交往圈余弦相似度算法在有效交往圈算法基礎上[2-3],將當月離網用戶和新增用戶(分本網和競爭對手)分別作為待匹配集和目標匹配集,并按照位置信息和交往圈進行k-means聚類,形成待匹配識別的基礎表。然后按照待識別號碼的類別信息計算位置信息的重合度,找出目標集合中與待匹配號碼相近的號碼群,再通過計算待識別號碼交往圈的重合度對號碼群進行篩選,最后通過呼叫指紋找出匹配的號碼,并用對比IMEI方式確認。與文[2]計算有效交往圈符合率的判別方法不同,交往圈余弦相似度算法分別加權計算共有交往圈號碼的語音呼叫次數,語音呼叫時長,短信次數的余弦相似度最大值αj=βj=(t1,t2,…,tm)T(j=1,2,…,n),而n表示交往圈號碼的總個數。另外,當k=1時,ti(i=1,2,…,m)為特定時間段內與某一號碼通話(或短信)的次數;當k=2時,ti(i=1,2,…,m)為特定時間段內與某一號碼的通話時長。當i=1時,m=7,表示通話行為的周特征;當i=2時,m=24表示通話行為的日特征(工作日和休息日)。當l=1時,交往圈取通話信息;當l=2時,交往圈取短信信息(此時k為特定時間內與某一號碼的短信通話次數)。其中ωl為權值,根據用戶的通話行為和短信行為動態選取,通常根據交往圈內的通話次數和短信次數的比例確定。根據式(1)分別計算待檢測號碼與目標號碼集中每個號碼的θ,如果最大的θ≥0.85時,即認為待識別號碼與所對應的目標號碼完全匹配,否則認為待檢測號碼離網或轉網。
改進Hausdorff距離算法[4],用修改后的Hausdorff距離取代余弦相似度作為判別依據,進一步提高呼叫指紋比對的準確性。在改進的Haus-dorff距離中,認為兩個集合匹配程度和他們的共有元素個數相關,并且不使用單個dH(A,B)衡量集合之間的距離,而取其中所有的dH和作為統一的判別。首先定義任意兩個號碼的相似度,其中Ω是所有可以連接元素a和b鏈的集合,kl為當前鏈的節點個數,M為給定的常數,tl為鏈l中所有節點元素通話時間的總和。改進后的Hausdorff距離定義為在計算復雜度方面,盡管該算法較以往的算法更復雜,但由于對待匹配樣本集和目標樣本集進行了聚類細分,且采用并行運算,因此整體的計算量略大于以往算法,在識別精度上有進一步提高。TF-IDF加權余弦相似度算法[5]與上述三種算法所采用的識別方法不同,采用結合TF-IDF加權與Cosine相似算法相結合的呼叫指紋識別方法。TF-IDF是一種統計方法,用以評估一個字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。用于識別呼叫指紋時的實現步驟如下。步驟1使用TF-IDF算法獲取某一個用戶的話單中呼叫號碼的TF-IDF值其中ni是號碼i在用戶D話單中出現的次數,分母是該用戶話單中所有號碼數之和,|D|是用戶總數,|{d:ti∈d}|是出現有號碼i話單的用戶總數。步驟2將該用戶話單用矩陣的形式表示,計算得到TF-IDF=TF•IDF。步驟3使用Cosine相似算法計算兩個用戶之間的相似度。通過對多個相似用戶常撥打的(10~30個)號碼的權重和相似度進行分析,從而達到判斷是否為重入網用戶。#p#分頁標題#e#
算法比較
用戶資料或IMEI識別重入網的方法最簡單識別所需時間最短,但只適合于部分用戶,且準確率低,因此通常作為交往圈識別技術的一個分項。采用交往圈匹配的綜合識別方法[2],算法較為簡單,且綜合了用戶交往圈、位置特征、消費特征、終端特征等多個維度,縮小了待識別用戶范圍,大幅降低了系統開銷,提高了識別效率,根據電話外呼的驗證結果,該方法的準確率為70%,目前該項技術已得到廣泛應用。用余弦相似度衡量交往圈的匹配程度的方法[3],縮短了識別周期,將數據跟蹤周期由一個月縮短到一周時間。同時在識別的準確度也有明顯提高,外呼調查顯示對重入網用戶的識別準確率超過95%。采用改進的Hausdorff距離判別交往圈的方法[4]可使識別準確率進一步提高到98%。該方法的識別周期為一周,但算法實現較為復雜,實際使用尚有待評估。此外,直接根據用戶話單,對比用戶呼叫號碼的TF-IDF余弦相似度識別重入網用戶[5],并未采用上述三種算法那樣的多特征識別技術,因此識別周期較長,達到三個月,其外呼調查顯示識別準確率為70%左右。從表1可見,與以往基于用戶資料或機器設備號的識別方式相比,基于呼叫指紋的識別算法準確率均超過70%,達到實用的程度。這些算法的識別周期從一周到三個月不等,其中交往圈改進Hausd-ofrr距離算法識別率最高,達到98%,識別周期最短,只有一周。
存在問題及解決思路
運營商已廣泛使用重入網用戶識別技術評估商發展用戶的質量,并作為結算傭金的依據,但該項技術在實際應用中仍存在一定問題。
首先,識別算法的準確率缺乏客觀評測標準。當前的呼叫指紋識別技術均采用電話回訪或問卷的方式驗證識別準確率。詢問驗證是一種主觀評測方式,存在用戶拒絕回答或故意隱瞞的可能,準確率與客服人員的詢問技巧有很大關系,同一批重入網用戶,不同人員所得的驗證結果可能會有很大差異,所得識別結果并不能真實反映實際的重入網用戶率。因此,運營商在考核商發展用戶質量時,還不能完全把重入網用戶識別率作為傭金結算的標準。
其次,評估指標不夠完善。當前識別算法所指的“準確率”實際是檢測率。即一批重入網用戶中,被算法檢測識別出的概率。而正常入網用戶被判別為重入網用戶的概率(虛警率)并未被考慮。僅用檢測率無法準確描述識別算法的準確程度。
第三,算法的識別周期、易用性和準確率仍有待提高。識別算法通常需要一至三個月的時間來構造用戶的呼叫指紋庫,識別周期較長。第四,識別系統建設成本高。構建呼叫指紋庫占用計算、存儲資源較大,通常需要建設專門的識別分析系統,成本較高。相應的解決思路是:建立客觀的算法評價指標和評價標準,能夠科學準確地評估算法準確率;綜合考慮多種用戶特征,并優化各特征的加權系數,在降低識別周期的同時,提高識別精度;采用云計算技術[10]分配計算、存儲資源,降低系統建設成本,這也是本文下一步研究的方向。
結論
通過對移動通信重入網用戶的識別算法的原理、方法、性能以及實用中存在問題的了解,可以發現,建立統一客觀的識別算法評價指標和標準,對綜合多種特征對識別算法進行優化,有助于提高識別率,縮短識別周期,發揮重入網識別技術的實用效果。