- 軟件開發(fā)
-
主要內(nèi)容
使用Python分別爬取百度搜索頁面結(jié)果和智聯(lián)招聘的6大類職業(yè)信息,數(shù)據(jù)主要使用SQLServer SSAS進行分析,并有少量的使用Python分析結(jié)果。
對于百度搜索的數(shù)據(jù)和智聯(lián)招聘的頁面數(shù)據(jù)是截然不同的方式,百度主要是動態(tài)的生成數(shù)據(jù)而在智聯(lián)招聘上基本是靜態(tài)的數(shù)據(jù),所以這兩個是具有一定的代表性的。
對于展示主要使用Excel,Excel作為SQLServer 數(shù)據(jù)分析中重要角色,易于操作使用。對于數(shù)據(jù)只有圖形化后,就變的極有吸引力,所以本文檔也主要是分析圖表進行說明。
l百度搜索頁面數(shù)據(jù)抓取
百度搜索頁面數(shù)據(jù)動態(tài)生成,且在抓取過程中需要對廣告推廣項進行排除。對于抓取的數(shù)據(jù)為,每個搜索項的說明數(shù)據(jù)及所在搜索頁面中的位置,搜索的數(shù)據(jù)單元項如下
將抓取到數(shù)據(jù),構(gòu)成文本文件,后使用Python的pycloudtag模塊和jieba分詞模塊,進行關(guān)鍵字統(tǒng)計,制作標簽云,效果如下:
對于提取到的出現(xiàn)頻率較高的關(guān)鍵詞有:
統(tǒng)計項 高頻
------------------------------------------------------------------------------------------------------------------
地區(qū) 北京,深圳,杭州,武漢等
技術(shù) Java,Php,Linux,Html5等
機構(gòu)
l智聯(lián)招聘完整信息抓取
對于招聘網(wǎng)站的數(shù)據(jù),以靜態(tài)數(shù)據(jù)為主,并且結(jié)構(gòu)良好,所以非常適合爬蟲進行爬取,本次爬取了7000多個頁面的數(shù)據(jù),并存儲在數(shù)據(jù)庫22萬條數(shù)據(jù)。
爬取的內(nèi)容為6大類的職業(yè)信息: IT運維;IT質(zhì)量管理;互聯(lián)網(wǎng)開發(fā);軟件;系統(tǒng)集成;運營管理,其中可分為118個具體職業(yè),樣例數(shù)據(jù)如下:
而具體的抽取數(shù)據(jù)的數(shù)據(jù)項,包含15個數(shù)據(jù)項,數(shù)據(jù)樣例如下:
通過抓取的數(shù)據(jù)構(gòu)建SSAS多維數(shù)據(jù)集進行數(shù)據(jù)分析,對于構(gòu)造的多維數(shù)據(jù)模型如下:
度量值為:工資上下限 ;維度有5個為:城市,工種類型,企業(yè),任職要求,時間維度
前期數(shù)據(jù)情況分析結(jié)果
l使用事件SSIS事件探測任務(wù)
通過SSIS“數(shù)據(jù)事件探查任務(wù)”組件進行對數(shù)據(jù)構(gòu)成進行初步分析,這里列舉一些具有一些代表性的分析數(shù)據(jù): 工作地址;企業(yè)規(guī)模;企業(yè)類型;招聘要求 的分析結(jié)果(針對IT運維;IT質(zhì)量管理;互聯(lián)網(wǎng)開發(fā);軟件;系統(tǒng)集成;運營管理6大類的分析)
工作地點:排名前四位的北 上 深 廣 ,即也反應(yīng)這四地需求量最大
公司規(guī)模統(tǒng)計 ,公司人數(shù)為 100-499的最多多維數(shù)據(jù)集分析結(jié)果
在構(gòu)建好多維數(shù)據(jù)集后,即可進行使用excel進行分析。通過Excel連接到多維數(shù)據(jù)集后,進行簡易的操作,達到數(shù)據(jù)圖表聯(lián)動,數(shù)據(jù)鉆取,實現(xiàn)多維度結(jié)合分析,效果圖如下
各不同工作類型間最低工資和最高工資的對比
多維度篩選分析
在Excel中連接多維數(shù)據(jù)集,進行數(shù)據(jù)挖掘
首先需要有一臺SSAS服務(wù)器,在Excel中按照了數(shù)據(jù)挖掘插件。通過在SSAS數(shù)據(jù)挖掘功能,進行對在Excel中進行數(shù)據(jù)展示
成功安裝插件后,如下:
本文對使用python結(jié)合SSAS的數(shù)據(jù)分析挖掘先到一段落,以后會詳解對于挖掘方面的操作