主要內(nèi)容
使用Python分別爬取百度搜索頁(yè)面結(jié)果和智聯(lián)招聘的6大類職業(yè)信息,數(shù)據(jù)主要使用SQLServer SSAS進(jìn)行分析,并有少量的使用Python分析結(jié)果。
對(duì)于百度搜索的數(shù)據(jù)和智聯(lián)招聘的頁(yè)面數(shù)據(jù)是截然不同的方式,百度主要是動(dòng)態(tài)的生成數(shù)據(jù)而在智聯(lián)招聘上基本是靜態(tài)的數(shù)據(jù),所以這兩個(gè)是具有一定的代表性的。
對(duì)于展示主要使用Excel,Excel作為SQLServer 數(shù)據(jù)分析中重要角色,易于操作使用。對(duì)于數(shù)據(jù)只有圖形化后,就變的極有吸引力,所以本文檔也主要是分析圖表進(jìn)行說(shuō)明。
l百度搜索頁(yè)面數(shù)據(jù)抓取
百度搜索頁(yè)面數(shù)據(jù)動(dòng)態(tài)生成,且在抓取過(guò)程中需要對(duì)廣告推廣項(xiàng)進(jìn)行排除。對(duì)于抓取的數(shù)據(jù)為,每個(gè)搜索項(xiàng)的說(shuō)明數(shù)據(jù)及所在搜索頁(yè)面中的位置,搜索的數(shù)據(jù)單元項(xiàng)如下
將抓取到數(shù)據(jù),構(gòu)成文本文件,后使用Python的pycloudtag模塊和jieba分詞模塊,進(jìn)行關(guān)鍵字統(tǒng)計(jì),制作標(biāo)簽云,效果如下:
對(duì)于提取到的出現(xiàn)頻率較高的關(guān)鍵詞有:
統(tǒng)計(jì)項(xiàng) 高頻
------------------------------------------------------------------------------------------------------------------
地區(qū) 北京,深圳,杭州,武漢等
技術(shù) Java,Php,Linux,Html5等
機(jī)構(gòu)
l智聯(lián)招聘完整信息抓取
對(duì)于招聘網(wǎng)站的數(shù)據(jù),以靜態(tài)數(shù)據(jù)為主,并且結(jié)構(gòu)良好,所以非常適合爬蟲(chóng)進(jìn)行爬取,本次爬取了7000多個(gè)頁(yè)面的數(shù)據(jù),并存儲(chǔ)在數(shù)據(jù)庫(kù)22萬(wàn)條數(shù)據(jù)。
爬取的內(nèi)容為6大類的職業(yè)信息: IT運(yùn)維;IT質(zhì)量管理;互聯(lián)網(wǎng)開(kāi)發(fā);軟件;系統(tǒng)集成;運(yùn)營(yíng)管理,其中可分為118個(gè)具體職業(yè),樣例數(shù)據(jù)如下:
而具體的抽取數(shù)據(jù)的數(shù)據(jù)項(xiàng),包含15個(gè)數(shù)據(jù)項(xiàng),數(shù)據(jù)樣例如下:
通過(guò)抓取的數(shù)據(jù)構(gòu)建SSAS多維數(shù)據(jù)集進(jìn)行數(shù)據(jù)分析,對(duì)于構(gòu)造的多維數(shù)據(jù)模型如下:
度量值為:工資上下限 ;維度有5個(gè)為:城市,工種類型,企業(yè),任職要求,時(shí)間維度
前期數(shù)據(jù)情況分析結(jié)果
l使用事件SSIS事件探測(cè)任務(wù)
通過(guò)SSIS“數(shù)據(jù)事件探查任務(wù)”組件進(jìn)行對(duì)數(shù)據(jù)構(gòu)成進(jìn)行初步分析,這里列舉一些具有一些代表性的分析數(shù)據(jù): 工作地址;企業(yè)規(guī)模;企業(yè)類型;招聘要求 的分析結(jié)果(針對(duì)IT運(yùn)維;IT質(zhì)量管理;互聯(lián)網(wǎng)開(kāi)發(fā);軟件;系統(tǒng)集成;運(yùn)營(yíng)管理6大類的分析)
工作地點(diǎn):排名前四位的北 上 深 廣 ,即也反應(yīng)這四地需求量最大
多維數(shù)據(jù)集分析結(jié)果
在構(gòu)建好多維數(shù)據(jù)集后,即可進(jìn)行使用excel進(jìn)行分析。通過(guò)Excel連接到多維數(shù)據(jù)集后,進(jìn)行簡(jiǎn)易的操作,達(dá)到數(shù)據(jù)圖表聯(lián)動(dòng),數(shù)據(jù)鉆取,實(shí)現(xiàn)多維度結(jié)合分析,效果圖如下
各不同工作類型間最低工資和最高工資的對(duì)比
多維度篩選分析
在Excel中連接多維數(shù)據(jù)集,進(jìn)行數(shù)據(jù)挖掘
首先需要有一臺(tái)SSAS服務(wù)器,在Excel中按照了數(shù)據(jù)挖掘插件。通過(guò)在SSAS數(shù)據(jù)挖掘功能,進(jìn)行對(duì)在Excel中進(jìn)行數(shù)據(jù)展示
成功安裝插件后,如下:
本文對(duì)使用python結(jié)合SSAS的數(shù)據(jù)分析挖掘先到一段落,以后會(huì)詳解對(duì)于挖掘方面的操作