随着高(gāo)校(xiào)信息化工作(zuò)的不斷深化,特别是基于數(shù)據的決策支持的重視(shì),對數(shù)據質量的要求也漸得(de)到各方重視(shì)。一方面,數(shù)據規模日益龐大(dà),對師(shī)生(shēng)的數(shù)據服務的要求也在不斷拓展、提高(gāo),包括數(shù)據基礎整理(lǐ)、查詢統計(jì)、向普通(tōng)用戶提供信息咨詢、對管理(lǐ)層提供決策依據;另一方面,各級教育部門(mén)、全社會(huì)各行(xíng)各業、高(gāo)校(xiào)本身管理(lǐ)和(hé)服務部門(mén)對高(gāo)校(xiào)教育統計(jì)信息都越來(lái)越重視(shì),統計(jì)數(shù)據在政策決策、科研管理(lǐ)、教育質量評估等方面被廣泛應用。
數(shù)據質量的概念
圖1将數(shù)據質量的常用評估标準按照4個(gè)不同的方面進行(xíng)了描述。可(kě)獲得(de)度指用戶獲得(de)數(shù)據的可(kě)能性和(hé)便利程度,在收集數(shù)據之前,用戶必須要考慮能否得(de)到、怎樣得(de)到數(shù)據。可(kě)理(lǐ)解度是指數(shù)據必須是用戶可(kě)以理(lǐ)解的,包括語法、語義等,使用戶可(kě)以理(lǐ)解數(shù)據,從而才可(kě)挖掘數(shù)據,這是基礎的要求。可(kě)信度是對數(shù)據的真實性的測度,可(kě)信度相對較抽象、主觀,可(kě)具體(tǐ)再劃分為(wèi)準确性、一緻性、完整性、唯一性、可(kě)靠性等具體(tǐ)的維度進行(xíng)評估。可(kě)用度是指數(shù)據對于用戶的效用的大(dà)小(xiǎo),數(shù)據是準确的但(dàn)是不一定有(yǒu)意義,或者對某一群體(tǐ)用戶有(yǒu)用,對其他用戶是沒有(yǒu)需求和(hé)效用的,包括相關性、時(shí)效性、可(kě)比性、有(yǒu)效性等。同時(shí),它們也是相輔相成的,如果數(shù)據準确性差,那(nà)麽它的可(kě)靠性、有(yǒu)效性也就大(dà)打折扣,如果數(shù)據能夠做(zuò)到準确、一緻、有(yǒu)時(shí)效,那(nà)它必然也是比較有(yǒu)可(kě)靠性的。
高(gāo)校(xiào)數(shù)據質量的現況
主觀上(shàng)的重視(shì)程度
越來(lái)越多(duō)的高(gāo)校(xiào)信息化從業者已經開(kāi)始重視(shì)起高(gāo)校(xiào)數(shù)據及數(shù)據質量相關問題了。在學術(shù)上(shàng),簡單地從2002至2014年度的某數(shù)據平台關于數(shù)據質量的研究趨勢上(shàng),即可(kě)直觀感受到近年對數(shù)據質量的相關研究的熱度在持續穩定的上(shàng)漲。從2002~2005年間(jiān)每年30篇以下的論文數(shù)量,至2012~2014年間(jiān)超過150篇,年度命中數(shù)從20上(shàng)浮至50。其中高(gāo)校(xiào)+數(shù)據質量的相關研究數(shù)量和(hé)趨勢類似,同時(shí),高(gāo)校(xiào)的數(shù)據質量問題與高(gāo)校(xiào)信息化建設的發展進程密切相關。
目前,高(gāo)校(xiào)的信息化建設進程從“局部信息化”向“全面信息化”轉變,建設內(nèi)容從信息化基礎建設轉變為(wèi)信息化服務建設,建設的焦點從“提供最基本的信息化服務和(hé)滿足基本管理(lǐ)要求”逐漸轉移到了“如何更好地向師(shī)生(shēng)提供數(shù)據服務、決策支持”。信息集成和(hé)應用集成是大(dà)勢所趨,而在信息集成的過程中,數(shù)據質量可(kě)能會(huì)出現怎樣的問題?如何解決各類數(shù)據質量問題,有(yǒu)效地收集、清洗、存儲、推送、挖掘、呈現數(shù)據,每一步都值得(de)大(dà)書(shū)特書(shū),最終使數(shù)據最終能夠滿足用戶需求。
客觀上(shàng)數(shù)據質量的實際情況
在對高(gāo)校(xiào)各類業務數(shù)據的實際應用過程中,還(hái)是能夠發現數(shù)據質量的不足。當前高(gāo)校(xiào)數(shù)據質量主要存在以下幾個(gè)問題:
一是數(shù)據源頭不明(míng)确,造成數(shù)據唯一性、準确性問題。一方面可(kě)能是管理(lǐ)職能有(yǒu)所重疊,一方面也可(kě)能是常用的信息在多(duō)個(gè)業務環節都進行(xíng)了重複采集,例如師(shī)生(shēng)的聯系方式信息。同一個(gè)字段,可(kě)能不同的系統中都存在,但(dàn)是存在出入,那(nà)麽以哪個(gè)為(wèi)準呢?
二是數(shù)據采集後,格式不統一,不完整,造成數(shù)據完整性、語法問題。這是由于不同部門(mén),甚至不同操作(zuò)員之間(jiān)對同一數(shù)據的使用習慣和(hé)方式不一緻造成的,可(kě)能仍有(yǒu)部分數(shù)據并不完整。
三是數(shù)據不及時(shí),造成時(shí)效性、準确性等問題。由于采集周期或同步推送周期的影(yǐng)響,各應用端使用的數(shù)據可(kě)能并不是最新的。
四是數(shù)據共享問題,有(yǒu)些(xiē)數(shù)據仍不能方便地獲得(de),或不能保障周期性地獲得(de)準确實時(shí)的數(shù)據。
五是對曆史數(shù)據和(hé)冗餘數(shù)據尚無統一完善的處理(lǐ)辦法。
數(shù)據質量對數(shù)據服務的影(yǐng)響
如在實際工作(zuò)中,發生(shēng)了上(shàng)述數(shù)據質量問題,将會(huì)直接影(yǐng)響到各系統間(jiān)的協同效率及使用效果,降低(dī)師(shī)生(shēng)的使用滿意度。
首先要保障數(shù)據的唯一、完整、準确、可(kě)靠、可(kě)理(lǐ)解,保障數(shù)據是可(kě)以使用的。如數(shù)據首要的這幾個(gè)屬性得(de)不到保障,後續的相關統計(jì)報表,策略建議的可(kě)靠性也就大(dà)幅降低(dī)了。
同時(shí)要保障數(shù)據的時(shí)效性,舊(jiù)的數(shù)據即使準确可(kě)靠,但(dàn)是不能滿足用戶的需求,它就是低(dī)質量的數(shù)據。例如用戶在校(xiào)園卡終端想要查詢到自己當天的消費餘額、消費記錄用以核對自己的支出情況,如果反饋的數(shù)據明(míng)顯是若幹天前的,顯然不會(huì)讓用戶滿意。
如數(shù)據質量較差,将會(huì)給管理(lǐ)人(rén)員和(hé)用戶帶來(lái)許多(duō)使用上(shàng)的不便,由這些(xiē)數(shù)據延伸出來(lái)的報表和(hé)策略建議往往也是充滿了矛盾、漏洞和(hé)明(míng)顯的不合理(lǐ)處,需要人(rén)工再次進行(xíng)糾錯、核對,增加工作(zuò)量。舉個(gè)例子,某次關于學校(xiào)學生(shēng)住宿信息進行(xíng)統計(jì)時(shí),發現在校(xiào)住宿學生(shēng)比學校(xiào)學生(shēng)總人(rén)數(shù)還(hái)多(duō)10%,這是不合常理(lǐ)的。經過實地調查,發現部分是因為(wèi)有(yǒu)一些(xiē)老生(shēng)雖然已經退宿并離校(xiào),但(dàn)其在住宿系統中信息還(hái)未被确認,部分是因為(wèi)有(yǒu)些(xiē)學生(shēng)需要進行(xíng)實習,申請(qǐng)了另一個(gè)校(xiào)區(qū)的宿舍,因此其同時(shí)有(yǒu)了兩條住宿信息,也有(yǒu)部分是因為(wèi)學校(xiào)安排輔導員住樓,更好地開(kāi)展學生(shēng)工作(zuò),但(dàn)是在住宿系統中錯誤地登記為(wèi)學生(shēng)住宿。其中,有(yǒu)管理(lǐ)上(shàng)的問題,有(yǒu)信息系統字段管理(lǐ)的問題,也有(yǒu)統計(jì)方法的問題,但(dàn)終究也是數(shù)據質量的問題,該數(shù)據的時(shí)效性、準确性、完整性很(hěn)需要進行(xíng)提升。
以華東師(shī)大(dà)為(wèi)例采取的措施
數(shù)據收集:堅持“一把手”錄入
數(shù)據源頭的梳理(lǐ)是華東師(shī)大(dà)信息辦日常工作(zuò)之一,在各信息系統建設的前期調研工作(zuò)中,就通(tōng)過業務梳理(lǐ)等工作(zuò)明(míng)确數(shù)據源,在源頭上(shàng)嚴把數(shù)據質量關。明(míng)确數(shù)據的每一個(gè)字段的唯一來(lái)源之後,監督和(hé)指導該業務負責部門(mén)完成其應擔負起的維護任務,及将數(shù)據推送給其他業務部門(mén)的共享任務。
當該工作(zuò)的成果推廣到全校(xiào)各個(gè)業務系統後,任一信息系統需要使用某數(shù)據時(shí),都有(yǒu)一個(gè)渠道(dào)得(de)到權威、準确的數(shù)據。同時(shí),可(kě)有(yǒu)效減少(shǎo)非數(shù)據源部門(mén)采集數(shù)據的工作(zuò)量,避免多(duō)頭采集的問題。
例如學生(shēng)的手機号信息如以在教務處登記的為(wèi)準,在學生(shēng)在報修登記時(shí)系統可(kě)直接讀取到該字段,并通(tōng)知學生(shēng)報修進度,學生(shēng)發現讀取到的聯系方式已經過時(shí)了,可(kě)以去往教務系統對應入口進行(xíng)修改等。
數(shù)據存儲:集中建立數(shù)據中心
首先,在各數(shù)據源所在信息系統中,進行(xíng)初步數(shù)據梳理(lǐ)和(hé)清洗,建立有(yǒu)完整數(shù)據理(lǐ)解度較高(gāo)的多(duō)個(gè)視(shì)圖、字典表等。然後,部署Oracle數(shù)據庫,将從數(shù)據源獲得(de)的源數(shù)據通(tōng)過ODI等ETL工具,将數(shù)據進行(xíng)收集、存儲在數(shù)據中心。
例如在教務相關系統中,學生(shēng)相關的數(shù)據表可(kě)能就有(yǒu)學生(shēng)基本信息表、學生(shēng)選課信息表、學生(shēng)類型字典表、學生(shēng)成績表、課程評價表、課程基本信息表等。在對它們進行(xíng)數(shù)據梳理(lǐ)和(hé)清洗時(shí),要将原基礎表中較為(wèi)難理(lǐ)解的字段,替換為(wèi)字典表中的詳細表述,将“1”、“2”替換為(wèi)男女,将“0129”替換為(wèi)“圖書(shū)館”;也要根據需求将零散在各個(gè)表中的數(shù)據整理(lǐ)到一張表中,比如全校(xiào)學生(shēng)個(gè)人(rén)信息所有(yǒu)字段表,因為(wèi)原先學生(shēng)的姓名、性别、學号、身份證等在基礎信息表中,而他的籍貫、生(shēng)源地在學生(shēng)入學信息表中。
數(shù)據使用:統一發出接口
根據業務信息系統的對數(shù)據的需求情況,統合、整理(lǐ)數(shù)據,再利用WebService、ODI等多(duō)種工具推送到各個(gè)業務系統中去。
例如目前在建的新學生(shēng)住宿系統,僅需向信息化辦公室提出其建設中的具體(tǐ)數(shù)據需求,即可(kě)從數(shù)據中心通(tōng)過各接口獲得(de)學生(shēng)基礎數(shù)據、學生(shēng)-輔導員關系數(shù)據、輔導員基礎數(shù)據、學生(shēng)住宿費繳費數(shù)據、新生(shēng)興趣愛(ài)好數(shù)據等,而不需要關心數(shù)據怎麽從教務系統、研究生(shēng)系統、學工系統、人(rén)事系統、迎新系統、财務系統等其他業務系統中獲取。而在後勤宿舍管理(lǐ)員在實際使用中,發現數(shù)據不準确的情況時(shí),可(kě)以将問題反饋給信息化辦公室,數(shù)據中心管理(lǐ)人(rén)員可(kě)據此倒推回到數(shù)據源,通(tōng)知數(shù)據源業務系統負責老師(shī),進行(xíng)進一步數(shù)據核驗、修正等。
建設數(shù)據流轉框架
結合現有(yǒu)數(shù)據中心建設情況,進行(xíng)數(shù)據流轉優化工作(zuò)。拟建設數(shù)據流轉框架如圖2所示。
實線部分現已基本實現,即數(shù)據源中的數(shù)據經過梳理(lǐ)、形成視(shì)圖,通(tōng)過ETL工具抓取到WebService數(shù)據中心後,再行(xíng)整理(lǐ)為(wèi)不同數(shù)據接口x、y等,有(yǒu)該數(shù)據讀取權限的業務系統可(kě)通(tōng)過認證調用接口并獲得(de)結果。
虛線部分正在調研、建設中,在擁有(yǒu)a、b數(shù)據修改權限的業務系統中(操作(zuò)者可(kě)能為(wèi)該數(shù)據的“一把手”、也可(kě)能是終端用戶),可(kě)以調用反饋接口,将修正的a、b數(shù)據通(tōng)過接口認證,反饋回WebService數(shù)據中心。數(shù)據中心進行(xíng)數(shù)據的分析、整理(lǐ)、确認後,将數(shù)據修改信息反饋回IDC數(shù)據庫,進行(xíng)數(shù)據更新操作(zuò)。每一個(gè)環節,都需要進行(xíng)數(shù)據質量的校(xiào)驗,至此,即實現數(shù)據的循環,數(shù)據質量在梳理(lǐ)、整合、發布、反饋、更新。
總而言之,數(shù)據質量的優劣關系着高(gāo)校(xiào)信息部門(mén)能否給普通(tōng)師(shī)生(shēng)、管理(lǐ)人(rén)員、校(xiào)領導等提供有(yǒu)效準确、高(gāo)效、有(yǒu)效的數(shù)據服務,決定着信息化工作(zuò)能否從數(shù)字校(xiào)園的建設成功過渡到智慧校(xiào)園的建設。
因此,在此提出幾條簡單的建設意見:
1.建設積極的數(shù)據質量管理(lǐ)環境
首先管理(lǐ)層要認識到數(shù)據質量對于高(gāo)校(xiào)各項業務及信息化各項工作(zuò)的重要性,推動數(shù)據質量的改進工作(zuò)。加強信息人(rén)員隊伍的建設,提高(gāo)數(shù)據管理(lǐ)人(rén)員的數(shù)據質量管理(lǐ)意識。梳理(lǐ)建立完善的制(zhì)度管理(lǐ),确定數(shù)據質量管理(lǐ)的流程,建設本校(xiào)數(shù)據标準、數(shù)據質量的标準。
2.集中力量進行(xíng)一次數(shù)據整理(lǐ)和(hé)清洗在理(lǐ)論上(shàng)建立了數(shù)據标準和(hé)數(shù)據質量管理(lǐ)制(zhì)度之後,需要花(huā)較大(dà)的時(shí)間(jiān)和(hé)精力對全校(xiào)的各業務系統進行(xíng)一次清洗,并以此次清洗後的數(shù)據為(wèi)基礎,開(kāi)展數(shù)據質量管理(lǐ)工作(zuò)。
3.數(shù)據質量定時(shí)核查
除了建設數(shù)據質量管理(lǐ)制(zhì)度,還(hái)應當建設數(shù)據質量的監測制(zhì)度。數(shù)據一旦産生(shēng)問題,管理(lǐ)上(shàng)有(yǒu)人(rén)員核驗、整理(lǐ)、彙報,技(jì)術(shù)上(shàng)可(kě)追溯、清查、修正。将數(shù)據質量的核查作(zuò)為(wèi)日常工作(zuò),才能全面地、持續地維持數(shù)據質量。