我与乡下少妇的性事_色琪琪综合男人的天堂aⅴ视频_大胸喂奶秘书3p高h_国产一区二区视频在线播放_国产老头gay和老头gay视频_中文字幕亚洲欧美_国产男人搡女人免费视频_伊人色综合久久天天五月婷_崔雪莉被金秀贤握胸动态图_毛片在线视频观看

基于空問定位的聚類算法在電信業(yè)客戶劃分中的應(yīng)用 基于空問定位的聚類算法在電信業(yè)客戶劃分中的應(yīng)用

基于空問定位的聚類算法在電信業(yè)客戶劃分中的應(yīng)用

  • 期刊名字:科學(xué)技術(shù)與工程
  • 文件大?。?/li>
  • 論文作者:常曉磊,閆仁武,楊蘇寧
  • 作者單位:江蘇科技大學(xué)電子信息學(xué)院
  • 更新時間:2020-03-23
  • 下載次數(shù):
論文簡介

第8卷第1期2008年1月科學(xué)技術(shù)與工程Vol 8 No. 1 Jan. 20081671-1819(2008)1-0207-06Science Technology and Engineeringc 2008 Sci. Tech. Engng基于空間定位的聚類算法在電信業(yè)客戶劃分中的應(yīng)用常曉磊閆仁武”楊蘇寧(江蘇科技大學(xué)電子信息學(xué)院,鎮(zhèn)江212003)摘要隨著電信市場競爭的不斷加劇,電信企業(yè)傳統(tǒng)的營銷模式正在間主動、精確營銷模式轉(zhuǎn)變。因此,客戶劃分顯得至關(guān)重要。釆用數(shù)據(jù)挖掘中聚類的方法對電信業(yè)的客戶進(jìn)行劃分,在比較了現(xiàn)有聚類算法計算復(fù)雜度普遍較高的的基礎(chǔ)上,采用了一種基于空間定位的方法,將客戶數(shù)據(jù)對象映射到特征空間中,并利用空間立方體的某些特殊頂點定位任意數(shù)據(jù),通過計算數(shù)據(jù)點與空間立方體頂點群的距離差異,完成聚類過程。為了適合電信業(yè)客戶的特殊性質(zhì),改進(jìn)對客戶屬性數(shù)據(jù)的處理過程。通過電信客戶的數(shù)據(jù)實驗結(jié)果表明,算法的時間復(fù)雜度降至0(N)級別。關(guān)鍵詞數(shù)據(jù)挖掘聚類客戶劃分空間定位電信業(yè)中圖法分類號TP311.52;文獻(xiàn)標(biāo)志碼A隨著各種現(xiàn)代生產(chǎn)管理手段和技術(shù)的發(fā)展,企種,其中比較典型的有關(guān)聯(lián)分析、預(yù)測分析、聚類分業(yè)之間產(chǎn)品的差別越來越難以區(qū)分,產(chǎn)品同質(zhì)化的析等。趨勢越來越明顯,通過產(chǎn)品差別來細(xì)分市場,從而數(shù)據(jù)挖掘主要應(yīng)用在CRM中大量的客戶數(shù)據(jù)創(chuàng)造企業(yè)的競爭優(yōu)勢也就變得越來越困難2。隨分析,以及客戶價值的挖掘方面。作用主要有新客著市場態(tài)勢從賣方市場向買方市場的轉(zhuǎn)變,如何確戶的獲取和保持、個性化營銷、客戶忠誠度分析以定高價值和忠誠度高的客戶,對企業(yè)的發(fā)展有著非及客戶市場劃分等常重要的作用。為此許多企業(yè)開始實施客戶關(guān)系本文在已有的基于空間定位的聚類算法的基管理( Customer relation- -ship managemen,CRM)。礎(chǔ)上,把該算法具體應(yīng)用到網(wǎng)通客戶的劃分上,為客戶劃分作為CRM中的重要組成部分,對CRM的了適合岡通的客戶特性,并改進(jìn)了該算法的數(shù)據(jù)處成功實施有著重要的作用理過程。本文的數(shù)據(jù)來源于網(wǎng)通電信增值業(yè)務(wù)服面對海量的各種客戶、銷售等數(shù)據(jù),為了對客務(wù)商的無錫匯隆信息技術(shù)有限公司近年來的客戶戶進(jìn)行有效的劃分,為經(jīng)營者實施更具有針對性的數(shù)據(jù)庫。銷售措施提供理論依據(jù),有必要依賴于數(shù)據(jù)挖掘( Data mining,DM)的強大數(shù)據(jù)分析能力。數(shù)據(jù)挖1基于空間定位的聚類分析掘作為一種工具,是從大量的數(shù)據(jù)中抽取潛在的、有價值的知識、模型或規(guī)則。數(shù)據(jù)挖掘方法有多聚類將數(shù)據(jù)對象分組為多個類或簇,使同一個簇中的對象之間的相識度最高,而不同簇中的對象2007年9月17日收到其相識性最低。由于大型數(shù)據(jù)庫中存放了大量的第一作者簡介:常曉磊(1983-),男,漢族,江蘇鎮(zhèn)江人,碩士研數(shù)據(jù),聚類分析已經(jīng)成為數(shù)據(jù)挖掘研究領(lǐng)域的一個究生,研究方向:智能信息處理。Eml: changxiaolei30非?;钴S的課題。但是,面對電信行業(yè)的海量數(shù)163.c0m。據(jù),就一般的聚類算法而言,算法的復(fù)雜度制約了科學(xué)技術(shù)與工程卷額的商業(yè)數(shù)據(jù)挖掘軟件的聚類算法僅僅是有限的高的問題。幾種:K- means算法、高斯混合算法和基于SⅤM的本算法解決以上兩個問題的方法是:按照包含算法等元素數(shù)的多少,選取出所有大于總元素數(shù)一定比例1.1算法思路Q的所有類(稱為有效類),對無效類包含的所有元目前的聚類算法時間復(fù)雜度高的主要原因是素,予以重新分配。事先指定的比例Q是這樣確定需要計算任意兩個點之間的距離。從另外一個角的:根據(jù)無錫市網(wǎng)通的具體情況和業(yè)務(wù)發(fā)展要求,度出發(fā),聚類算法的核心思想就是用某種機制劃分在業(yè)務(wù)開展實踐中,公司比較理想的客戶群數(shù)量是數(shù)據(jù)空間,劃分完畢后,該子空間內(nèi)的所有數(shù)據(jù)點4~6個,根據(jù)用定位法進(jìn)行聚類計算的經(jīng)驗,要達(dá)即為一類。因此,只要能把數(shù)據(jù)映射成是空間中的到以上的業(yè)務(wù)要求,Q的取值范圍必須在2.5%~點,然后劃分空間中的點集,得到的每個子空間5%之間。Q值越大,類數(shù)就會單調(diào)減少,聚類更加就可以看作是一個簇(正交框架等名詞的定義請參集中;反之Q越小,類數(shù)會單調(diào)增大,聚類越分散。閱參考文獻(xiàn)[4])。重新分配的方法是計算有效類的中心。由于有效1.1.1屬性歸一化類中心已經(jīng)是空間立方體內(nèi)密度最大點之一,因為了能把元素映射到空間立方體和便于距離此,以這些中心作為最終聚類中心,對所有元素點的計算,首先要把對元素屬性進(jìn)行歸一化處理,即進(jìn)行重新競爭,再次遍歷數(shù)據(jù)集,所有元素都?xì)w入把元素的M個屬性都轉(zhuǎn)換成[0,1]區(qū)間的值。從而距離最近的有效類中心的類中,則聚類計算完畢。完成元素到空間立方體的映射。對于數(shù)值型屬性對類有效性的判決,解決了類過于零碎的問題。重可以采取new_ value=(old_ value-min value)/(max_新競爭解決了各類之間的邊界不明確的問題。另value-min_ value)的方法,但對于字符型的屬性則需外,從算法的時間復(fù)雜度上看,隨元素數(shù)量的增加,要根據(jù)行業(yè)特性進(jìn)行特殊的處理。對于無錫網(wǎng)通時間開銷與元素數(shù)量的關(guān)系呈明顯的一階線性增客戶的字符型屬性的處理,將在第3部分詳細(xì)介紹。加。參考文獻(xiàn)[3]中指定的實驗環(huán)境下,時間開銷1.1.2計算中心與立方體正交框架的距離(秒)與元素個數(shù)所擬和的函數(shù)為:F(x)=0.000計算出該空間立方體的中心,然后計算出該中2338X+5.333。隨元素維數(shù)的增加,時間開銷與元心與正交框架的M+1個點的距離D。由于在正素維數(shù)呈明顯的二階非線性增加,時間開銷(秒)與交框架的元素屬性中有大量0坐標(biāo)存在,降低了實元素個數(shù)所擬和的函數(shù)為:F(x)=0.023X2+0際計算的時間開銷。079X+10.933,分別如圖1、圖2所示。1.1.3遍歷數(shù)據(jù)集計算每個元素到正交框架的距離,并與空間o實驗觀察值一階函數(shù)擬和立方體中心到正交框架的距離D逐一進(jìn)行比較判決,得到的判決結(jié)果組合成二進(jìn)制數(shù),再將該進(jìn)制數(shù)轉(zhuǎn)化成十進(jìn)制數(shù),即為該元素所屬類的標(biāo)識。經(jīng)過以上三個步驟后,大部分元素都?xì)w入了相應(yīng)的類別中,但還有兩個問題需要解決:一個是由050000100000150000200000自變量:元素數(shù)量/個于現(xiàn)實聚類計算中數(shù)據(jù)分布的不對稱性導(dǎo)致有的類包含較多元素,有的類只有2~3個元素,而這樣圖1元素數(shù)量與時間開銷的函數(shù)關(guān)系的零碎類是沒有實際意義的;另一個問題是邊界性2算法流程1期常曉磊,等:基于空間定位的聚類算法在電信業(yè)客戶劃分中的應(yīng)用具體流程如圖3所示。22階函數(shù)擬和離與立有效體中交《正上|第上行隔出區(qū)距離距離的/制類/有效聚類圖3空間聚類算法流程自變量模型維數(shù)由此可以看出,定位法不需要事先指定聚類個圖2元素維數(shù)與時間開銷的函數(shù)關(guān)系數(shù)。而且定位法又提供惟一的參數(shù)Q來調(diào)節(jié)聚類有M個屬性值,最小類閾值Q。個數(shù),當(dāng)需要分群個數(shù)較多時,只需將Q調(diào)小;反之(1)將M維數(shù)據(jù)表進(jìn)行歸一化處理,即將Z映需要分群個數(shù)較少時,將Q調(diào)大即可。射為空間立方體C,每個元素歸一化后映射為空同2客戶劃分立方體內(nèi)部某一空間點。2)計算所有元素對M維立方體的正交框架對一營銷是指了解每一個客戶,并同其建立所屬的M+1個頂點的距離。(3)所有元素與正交框架所屬M+1個點的各起持久的關(guān)系。這是一個很理想化的概念,大多數(shù)行業(yè)在實際操作中是無法做到的。但是,企業(yè)可以個距離D分別用空間立方體中心W與這M+1個將客戶分類,為每類客戶提供有針對性的產(chǎn)品或點的距離D,來判決:若D1≥Dn,則F=1,或F;=0其中,∈{1,2…,M+1,i∈R;F是第i位判次服務(wù)??蛻魟澐?也稱客戶市場細(xì)分、客戶市場分割,結(jié)果。就是把客戶根據(jù)其性別、收入、交易行為特征等屬4)將判決結(jié)果F=(F,F2,…,Fm+)按位組性細(xì)分為具有不同需求和交易習(xí)慣的群體同一群合成M+1位二進(jìn)制數(shù)Rmm=F1,F2,…,Fm+1,轉(zhuǎn)體中的客戶對產(chǎn)品的需求以及交易心理等方面具換Rn成十進(jìn)制數(shù),即是初始聚類結(jié)果,寫入每個有相似性,而不同群體間差異較大??蛻羧后w細(xì)分元素的類別Fu(標(biāo)識)字段??梢允蛊髽I(yè)在市場營銷中制定正確的營銷策略,通(5)統(tǒng)計初始聚類結(jié)果,得到各類包含的元素過對不同類別客戶提供有針對性的產(chǎn)品和服務(wù),提數(shù)判決初始類是否有效:若 CCount 2 NQ,則第i類高客戶對企業(yè)和產(chǎn)品的滿意度,以獲取更大的利潤。有效,或第i類所有元素的F字段清空。數(shù)據(jù)挖掘系統(tǒng)可以在客戶群體細(xì)分的基礎(chǔ)上(6)計算所有有效類的中心,設(shè)向量空間的維進(jìn)行進(jìn)一步的細(xì)分,直到所需要的粒度,并對此客數(shù)為M,空間立方體C內(nèi)、某個初始類內(nèi)有P個點,戶卻體進(jìn)行各種分析。則該類的中心為E=(E1,E2,…,Em),式中,E=(E)/P,i∈{1,2M},t∈h3利用空間定位的聚類算法劃分電信業(yè)客(7)對空間立方體C內(nèi)所有N個元素點,計算戶市場其與所有有效類的中心的距離。競爭聚類:若D=min(D),則Rm1=t,將R寫入每個元素的Fu本節(jié)將利用以上介紹的空間定位聚類算法對字段。其中,D是該元素點與第i個有效類中心的部分無錫網(wǎng)通的客戶進(jìn)行分析,并驗證了該算法的210科學(xué)技術(shù)與工程卷3.1數(shù)據(jù)預(yù)處理田、島首先采用了無錫匯隆公司近兩年的客戶數(shù)、通USERID短信發(fā)送次數(shù)話、短信、充值,通過屬性刪減和不完整數(shù)據(jù)的刪除,最終選取的客戶屬性為:年齡,收入,受教育程2753235度,職業(yè),通話次數(shù),短信發(fā)送量,聯(lián)系人數(shù)目,充值3253次數(shù),充值總額}九個屬性。圖4—圖6分別是數(shù)據(jù)3254預(yù)處理前的各種客戶數(shù)據(jù)情況截圖。3258832812222m2993280陽大9圖4用戶基本信息3318田長國用33333330615:99000223039553303493351圖6用戶短信匯總信息對“受教育程度”,采用的處理方式是,首先對3選出來的所有數(shù)據(jù)進(jìn)行統(tǒng)計分析,計算出各個學(xué)歷層次的人數(shù)總和,最后除以總數(shù)據(jù)條數(shù)。這在數(shù)據(jù)取的時候就可以利用 oracle的函數(shù)進(jìn)行運算。對于其余的數(shù)值型數(shù)據(jù),我們采用是 new value(old_-value-min_value)/( max_value-min_value )B方法,其中 max value是該屬性中的最大值,min圖5用戶通話匯總信息value是該屬性的最小值,old_ value該屬性處理前的1期常曉磊,等:基于空間定位的聚類算法在電信業(yè)客戶劃分中的應(yīng)用211acle臨時表中,最后導(dǎo)出為程序可處理的 excel表。每天在線的時間較長。為了方便客戶充值,我們可3.2算法的應(yīng)用以開通網(wǎng)上充值卡自動銷售服務(wù),同時對通話超過根據(jù)行業(yè)經(jīng)驗和相關(guān)實驗的經(jīng)驗值設(shè)定類的定時給予短信獎勵閾值為:4%。類4:這類客戶從年齡段、職業(yè)、收入,聯(lián)系人數(shù)第一編掃描數(shù)據(jù)數(shù)據(jù)庫表,計算出數(shù)據(jù)元素組目等各個屬性都有相關(guān)的值,且通話次數(shù)和短信發(fā)成立方體的中心,并計算出該中心與正交框架的距送量都較小。對于這類客戶我們將其定位為潛在離,記為向量D。的真正客戶。為此,我們需要從中區(qū)別出哪些是可第二次掃描數(shù)據(jù)庫庫,計算所有元素與正交框能給企業(yè)帶來利益的客戶,哪些是不能給企業(yè)帶來架和立方體中心的距離,通過中心到框架的距離與利益,甚至是負(fù)面利益的客戶。為此,我們需要做元素到框架的距離進(jìn)行比較,判決出元素所屬類別進(jìn)一步的客戶跟蹤和引導(dǎo)。例如針對這類客戶開進(jìn)制數(shù)中的一位。通過與所有框架的距離的比展優(yōu)惠活動和問卷調(diào)查等。較得出得出元素所屬類別二進(jìn)制序列,再將序列轉(zhuǎn)為十進(jìn)制數(shù),記入該元素的類別屬性中。4結(jié)束語第三遍掃描數(shù)據(jù)庫,對于小于設(shè)定閾值的類或個別數(shù)據(jù),按照上面的算法介紹的方法通過競爭聚空間定位概念的引人使得定位法避免了大量類劃分到相應(yīng)的有效類中。至此算法完成。的、任意兩個元素的距離計算,從而大大節(jié)省了運3.3結(jié)果分析算時間;同時,算法不要求事先指定分群的個數(shù),能方面,通過定位算法的分析,最終得到4個有較好地反映客戶的實際聚集程度;參數(shù)只有一個需效類要調(diào)整,使數(shù)據(jù)挖掘操作員可以輕易調(diào)整類的規(guī)模類1:這類的特點的是年齡大多數(shù)低于25,職業(yè)(而不是個數(shù)),以解決聚類結(jié)果業(yè)務(wù)解釋性不強的多為學(xué)生,學(xué)歷為??坪捅究?每月的短信數(shù)量一問題。在實驗和實踐中發(fā)現(xiàn),使用定位法得到的聚般大于600,并且充值次數(shù)較多,但這類中的客戶通類結(jié)果有所提升,業(yè)務(wù)解釋性也有所優(yōu)化,算法具話費用相對小。我們可以將這一類定位為學(xué)生群有較高的實用價值體。針對這類群體,我們可以開發(fā)出小面值的充值參考文獻(xiàn)卡、通過短信獎勵機制帶動通話業(yè)務(wù)的提升等。類2:這類客戶的特點是年齡一般大于45,通話1李益強,漆晨曦,基于數(shù)據(jù)挖掘的電信客戶細(xì)分研究分析廣東費用處于平均水平,充值次數(shù)較少,但充值金額較通信技術(shù),2005;(5):12-15大。該類客戶的最大特點是聯(lián)系人數(shù)目最多,短信2江毅,朱順泉數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理中的應(yīng)用研究軟科學(xué),2003;17(12):46發(fā)送量高,月平均大于20000條。我們可以將這類erry M J A, Linoff G S. Data mining techniques-for marketing, sales客戶定位為企業(yè)客戶。他們通過短信方式定期向and customer relationship management.別榮貴,尹靜,鄧云愛聯(lián)系人發(fā)送產(chǎn)品信息的廣告。針對這類客戶群體譯.北京:機械工業(yè)出版社,2006我們可以開通短信定時發(fā)送功能,填加短信模版,4張舒博,牛琨基于定位的數(shù)據(jù)聚類新算法計算機技術(shù)與應(yīng)更加方便客戶,同時也可以增加短信發(fā)送量。用,2007;(4):118-120類3:這類客戶職業(yè)一般是跟計算機相關(guān)的,學(xué)5段云峰,吳唯寧,李劍威,等.數(shù)據(jù)倉庫及其在電信領(lǐng)域中的應(yīng)用.北京:電子工業(yè)出版社,2003歷為本科或碩士,且年齡一般小于30,通話次數(shù)較下轉(zhuǎn)第228頁)高,短信發(fā)送量介于平均值附近。這類客戶可能是228科學(xué)技術(shù)與工程卷式識別標(biāo)準(zhǔn)的系統(tǒng)入侵檢測模型,并且介紹了Linx參考文獻(xiàn)高版本系統(tǒng)內(nèi)核系統(tǒng)調(diào)用序列的提取方法,和用戶1 Warrender C, Forrest s, Pearlmutter b. Detecting intrusions using行為模式庫的創(chuàng)建方法。基本原理是通過加大對 system calls: alternative data models. Proceedings of the I99g獲取了較高級別權(quán)限入侵手段的檢測力度,為網(wǎng)絡(luò)Symposium on Computer Security and Privacy. S.1.:[s. n. I1999:133-145這正好符合了橘皮書( TCSEC-Trusted Com20,mSystem Evaluation Criteria)的安全思想。本文提出的227—240入侵檢測系統(tǒng),只是系統(tǒng)級上的入侵檢測。如果綜3 Base r o入侵檢測技術(shù).陳明奇,等譯北京:人民郵電出版合其他層次上的入侵檢測,組成多層次的入侵檢測土,2001系統(tǒng),將會收到意想不到的效果。4宋立新,李善平,利用IKM實現(xiàn)Iinx系統(tǒng)的安全性,計算機應(yīng)用研究,2002;8:103-10Application of"Immune System"Method on System-level IntrusionDetection TechnologyZHANG Han. YANG Wen-fei. Chen JinsL Abstract The"Immune System"method for computer system security is based on the fact that the short se-quences of system calls in running processes are concreted. The short system calls can be used to construct the da-tabase of normal behavior patterns for the processes. A system-level intrusion detection model is proposed, and dis-cussed the technology of system realization with Linux operating system[ Key words]“ Immune System” methodntrusion detectioshort system calls sequencesnormaland abnormal behavior patterns(上接第211頁)Customer Demarcation Using Clustering MethodBased on Space locationCHANG Xiao-lei.yan Ren-wu".YANG Su-ningCollege of Electrics and Information, Jiangsu University of Science and Technology, Zhenjiang 212003, P. R. China)[Abstract] With the competitions among telecom industry prick up day by day, the traditional sell pattern hasbeen changing to the active and smart way, so customer demarcation become more important than before. Customersof telecom industry with the way of "Clustering"are compartmentalized, which are a usual technology of data min-ing. After compare with the time-complexity of common clustering methods, a method named "clustering based orspace location"is choosed to use. First the object of customer date into special space is mapped, then every dataelement using some special peaks of the cube space is located. At last, difference of distance between the date-ele-ments and the special peaks of the cube space to finish the process of clustering is used. To fit the particularity oftelecom customers, the way of customer date procession is improved. According to the result of experimentationusing the customers data, the time-complexity has fall to O( N)is found

論文截圖
版權(quán):如無特殊注明,文章轉(zhuǎn)載自網(wǎng)絡(luò),侵權(quán)請聯(lián)系cnmhg168#163.com刪除!文件均為網(wǎng)友上傳,僅供研究和學(xué)習(xí)使用,務(wù)必24小時內(nèi)刪除。