加入收藏 | 網站地圖 | 網站搜索
 
快速導航
推薦課程
熱點新聞
閱讀內容

數據挖掘技術在自考信息庫中的應用

[日期:2012-7-29] 來源:www.nbqnof.tw        作者:劉 閱讀:
關鍵詞:  南京自考,自考信息,南京自考信息網,南京自考文憑

數據挖掘技術在自考信息庫中的應用

李冠利

 

    隨著高校招生規模不斷擴大、辦學模式的多元化,我省自學考試考生報考規模呈現下降的態勢。如何利用自考信息庫,并結合先進的技術手段,從中找到有價值的信息,以此促進自考事業的穩定發展,是當前自考工作者面臨的一項新課題。本文介紹了采用微軟Analysis挖掘工具對自考報考信息庫的挖掘實施過程,并從中獲得了一些有價值的信息。

關鍵詞  自學考試 信息庫數據挖掘

面對多年積累的大批量的自考數據,需要使用高效的方法分析處理數據,才能將紛亂的數據規范化,并從中挖掘出有價值的信息。傳統的EXCEL等數據匯總處理方式往往無法實現這樣的需求,而數據挖掘技術恰好可以對大批量的數據進行分析。目前,數據挖掘技術在教育管理領域內的研究尚不成熟,在挖掘方法和挖掘技術選取上也相對薄弱。把數據挖掘技術應用于自考數據管理中,是數據挖掘技術在又一個領域的應用嘗試。

數據挖掘工具有許多種,這里我們采用微軟Analysis Services挖掘工具,主要基于以下兩點考慮:1、歷年的自考數據信息存儲在微軟SqlServer數據庫中,采用微軟Analysis Services挖掘工具,對于挖掘數據的采集非常方便。2、本次研究側重于實際應用,并不是數據挖掘算法的研究,微軟Analysis Services 挖掘工具的執行效率較高,具有良好的操作界面與挖掘結果展示界面,對于模型的創建、修改、查看等都非常方便,易于操作。

本次實施數據挖掘的目的是:一、試圖找出課程開考安排中考生報考時選報的課程間的關系。合理的課程開考計劃可以方便考生的報考,同時一定程度上可以提高報考規模,減少開考課程安排不合理造成的考試資源浪費。二、分析參加自考考生構成,試圖找到報考自考考生的相關要素。摸清了考生結構的基礎后,可以更有針對性地做好考生宣傳工作。

一、課程報考數據挖掘的實現

課程報考數據挖掘中,主要試圖找出各專業學生報考的課程間存在的關系。挖掘中使用了關聯規則算法。

1. 數據準備

研究的對象是各次考生課程報考的數據,將各專業考生報考數據及相關考生信息進行按專業分別提取,并分別存儲在指定數據表中。這里我們以09年下半年護理本科專業考生報考信息作為挖掘對象進行研究。提取出09(下)護理本科段考生信息及報考信息分別存儲在表ksxx1ksbk1,在表ksxx1中,主要有zkzh(準考證號)xm(姓名)字段,zkzh作為主鍵。在表ksbk1中,主要包括:zkzh(準考證號)xm(姓名)kmqc(報考課程)等字段,其中zkzh作為外鍵與表ksxx1進行關聯。

2. 挖掘過程及結果分析

啟動SQL Server Business Intelligence Development Studio,選擇“商業智能項目”創建項目“課程報考挖掘”,在該項目資源管理器窗口建立數據源、建立數據視圖、建立挖掘結構。數據視圖建立過程中,需要對ksxx1ksbk1建立關系。ksxx1作為源數據表,ksbk1作為目的標,并設置ksxx1zkzk作為主鍵字段。

建立挖掘結構,選擇創建挖掘結構定義使用的的方法“從現有關系數據庫或數據倉庫”,選擇數據挖掘技術“Microsoft 關聯規則”,選擇新建的數據源,指定分析時要使用的表的類型:表“ksxx1”為事例表,表“ksbk1”為嵌套表。

將表ksxx1字段zkzh及表ksbk1字段kmqc設定為key列;將表ksbk1字段kmqc設為輸入列;將表ksbk1字段kmqc設為可預測列。得到課程報考數據挖掘結構及挖掘模型,圖1示。

設置關聯規則算法的參數。因為我們規定的單次報考最大課程門上限是8門,所以將最大項集容量(MAXIMUM_ITEMSET_SIZE)設置成8,我們認為至少有兩次相同的項集出現生成規則才有意義,所以設置最小支持度(MINIMUM_SUPPORT)2。參數設定后,對課程報考數據挖掘結構及挖掘模型進行處理。通過挖掘模型查看器,可以看到獲得項集、規則、依賴關系網絡。調整規則最小概率及最低重要性,我們獲得了護理本科段考生課程報考數據中存在的依賴關系。如圖2示。

   從上圖可以看出,該專業考生,報考中國文化概論、醫療保險學、公共關系學這三門課程中任意一或二門的,另外二或一門課程極有可能報考。所以,在課程考試計劃安排時可以將這三門課程同時開考,這樣有利于學生的報考。從依賴關系網絡(如圖3示)中可以更加直觀的看到他們間的依賴關系。此規則,對課程計劃部門進行合理的安排開考課程計劃,將具有非常大的參考價值。

 

 

二、考生結構挖掘的實現

考生結構挖掘中,主要找出各專業考生的結構情況,從中發現各專業對于具有什么特性的考生更具有吸引力。挖掘中使用了決策樹算法。

本挖掘模型的建立,試圖從中找出各專業報考考生與考生固有特性間的關系。比如:考生選擇的報考專業與考生的學歷、職業、性別間是否存在一定關系。通過模型的建立而發覺的知識,必定為尋找考生生源有很重要的作用。

1. 數據準備

將行政管理本科段考生自然信息作為研究對象。從系統數據庫中進行提取,存儲在xgzy表中,共有8610條數據。該表中主要有字段Ks_Zkz(準考證號),Ks_Xm(姓名),Zhiy_Dm(職業),Ks_Xb(性別),Xl_Dm(學歷)等。

.挖掘過程及結果分析

首先,創建項目“考生結構”,然后創建數據源Ksbmk。接著創建數據源視圖xgzy。此數據源視圖僅選擇xgzy1單個表。添加數據源視圖后,將為考生數據信息創建挖掘結構和挖掘模型。

挖掘模型中,Ks_XbXl_DmZhi_Dm字段屬性為Predict屬性。Ks_zkz 字段屬性為 key屬性。如4示。

 

 

Microsoft分類算法設置參數后,進行處理挖掘結構和挖掘模型,生成挖掘模型決策樹。本挖掘模型中多個列設置為可預測列,我們可以對每個可預測列生成一個單獨的決策樹。比如:Zhiy_Dm決策樹,如圖5示。

 

 

   與決策樹相應的挖掘圖例,更直觀顯示出該專業報考學生的組成情況。以報考考生職業屬性作為預測列的挖掘圖例(圖6),顯示該專業考生中工作性質為“學生”的占85.09%

 

 

以報考考生學歷屬性作為預測列的挖掘圖例7,說明76.60%的考生學歷為大專。

由此,我們可以得出結論:具有“大專學歷”的“學生”是報考自考行政管理本科段的主要生源。因此,可以將各高校專科段學生,作為我們自考行政管理本科段報考的重點宣傳工作對象。

三、從挖掘中得到的啟示

通過對自考報考信息庫的數據挖掘,我們從中獲得了幾點有價值的信息:一、采用微軟關聯規則算法,獲得了自考生報考課程間的若干關系規則,可以為開考課程計劃的安排有參考價值。一個科學的開考課程計劃既可以方便考生報考,同時也提高課程報考規模;二、通過微軟決策樹分類算法分析,得到各專業報考生源的結構。為有針對性的利用自考報考宣傳資源進行宣傳工作提供了參考依據。

由于本區的數據資源有限,數據挖掘中必然存在一定的局限性。我相信,如若對全省的自考信息庫實施相關的挖掘技術,必可以從中獲得更多有價值的信息。總之,數據挖掘技術的引用,將會使現有的數據庫資源發揮更大的價值。

 

1、趙巖.  數據挖掘中的關聯規則技術研究.西安電子科技大學.2008.1

2、孔芳.  數據挖掘技術中關聯規則算法的研究.江南大學.2008.8

3、馬冰冰.學生信息管理與數據挖掘的應用.山東大學.2008.4

4、袁小玲.數據挖掘在學生成績管理中的應用研究.華東師范大學.2009.4

5、劉薇.  數據挖掘中決策樹方法研究及其在房地產中介的應用.西安電子科技大學.2006.1

江苏快3一定牛基本走势