數據倉庫、數據湖...智慧水務如何玩轉大數據?
大數據技術日益成熟,在各行業(yè)發(fā)揮了巨大的作用,與水務行業(yè)的深度融合亦是智慧水務創(chuàng)新發(fā)展的趨勢。智慧水務大數據分析標準以大數據構建和分析標準為主要內容進行研究,提出智慧水務大數據三層架構,初步構建分析標準體系,為水務企業(yè)智慧水務大數據建設和分析應用提供參考資料。
0 引言
隨著智慧水務的發(fā)展和水務數據的指數級別增長,水務企業(yè)面臨著嚴峻的數據管理問題。將大數據技術及其應用分析引入到水務行業(yè),更好地挖掘和使用這些數據,將會釋放出更多的隱藏價值。智慧水務大數據分析通過集成和優(yōu)化多個業(yè)務部門的協同應用,對水務企業(yè)整體的綜合績效和關鍵事件進行分析和統(tǒng)一管理,從信息集成平臺接受并處理來自多個業(yè)務系統(tǒng)的數據,連續(xù)不斷地監(jiān)控重大事件、預測趨勢并做出相應的輸出,對生產運行進行量化考核,從而實現決策的科學化,體現智慧水務建設對水務企業(yè)運營數據的深層次挖掘和應用。
智慧水務大數據平臺能夠提高信息系統(tǒng)交互速度和質量,及時、準確、全面地掌握企業(yè)的整體狀況。但是如何應用大數據技術,如何構建大數據架構,如何進行大數據分析還缺乏指導規(guī)范,需要建設相關的平臺構建標準和分析指標體系。因此,研究智慧水務大數據構建和分析標準能夠有力推動智慧水務建設和發(fā)展,能夠更好地幫助水務企業(yè)開展具有針對性的分析、研究工作,有效地制定相關發(fā)展措施和建立相關考核體系,幫助水務企業(yè)制定科學的發(fā)展戰(zhàn)略。
1 智慧水務大數據建設目標
1.1 實現水務全要素信息采集和存儲
數據采集、存儲、整合是智慧水務大數據分析的前提和基礎。運用大數據技術,幫助水務企業(yè)實現從原水到水廠、從管網到用戶等環(huán)節(jié)全方位、全要素的信息采集,消除信息孤島實現系統(tǒng)的互聯互通,實現海量數據的傳輸與存儲。構建智慧水務數據倉庫和數據湖,實現數據資源標準化、數據來源唯一化和信息流程簡潔化,對數據進行集中管理,實現大數據整合應用。
1.2 打造水務大數據資源標準和規(guī)范
智慧水務大數據的分析應用,數據資源的標準化建設是重中之重,參考現有大數據的國家標準和行業(yè)規(guī)范,結合智慧水務對大數據標準化需求,提出了大數據標準體系框架(見圖1),具體的標準規(guī)范由水務企業(yè)按需梳理和建設。

圖1 智慧水務大數據標準體系
智慧水務大數據標準體系由7個類別的標準組成,分別為基礎標準、數據標準、技術標準、平臺標準、應用標準、安全標準和管理標準。基礎標準:為整個標準體系提供包括總則、術語、參考架構和通用要求等基礎性標準。
數據標準:為數據資源相關要素進行規(guī)范,包括數據資源規(guī)范和編碼分類標準。
技術標準:為大數據相關技術應用進行規(guī)范,包括描述評估、處理分析和互操作等技術應用標準。
平臺標準:為大數據平臺應用、工具產品進行規(guī)范,指導建設數據倉庫、數據集市、數據湖等涉及技術、功能和接口要求,包括數據平臺和工具平臺等標準。
應用標準:為大數據在水務行業(yè)所能提供的應用和服務制定的標準,包括數據交換共享、數據訪問和數據應用等要求。
安全標準:為保障大數據安全進行規(guī)范,包括通用安全和行業(yè)安全等要求。
管理標準:為大數據管理制定的支撐體系,貫穿于大數據整個生命周期,包括數據運維、數據治理和數據評估等要求。
1.3 構建水務大數據分析平臺和體系
利用大數據技術,構建水務大數據分析平臺并對水務運行管理狀態(tài)進行梳理,建立一套可量化、標準化的分析指標體系,對城市水務情況進行全面統(tǒng)計與深度分析,為數據消費者提供大數據服務。利用知識圖譜和深度學習技術,建立各個業(yè)務條線的分析算法模型,挖掘水務行業(yè)海量數據中的潛在價值,提升水務企業(yè)科學決策能力。
2 智慧水務大數據構建標準
智慧水務大數據構建首先是明確業(yè)務場景和應用需求,從而決定數據源和數據采集的范圍,并按照數據資源的標準和規(guī)范進行數據整合;其次是確定大數據平臺要具備的基本的功能,以此選擇大數據處理工具和技術框架,并設計大數據中心的數據處理流程;最后是構建頂層的數據決策平臺,選擇數據挖掘工具并建立大數據分析模型,提供各類大數據分析應用。
因此,智慧水務大數據構建可分為數據整合、數據治理和數據應用三大步驟,對應的技術架構自下而上分為三個部分(見圖2),分別是數據層、大數據中心和數據決策層。

圖2 智慧水務大數據三層架構
。1)數據層。針對不同業(yè)務和應用系統(tǒng)進行分析,制定數據采集范圍與目標,收集各系統(tǒng)產生的全要素信息,將各種結構化、半結構化和非結構化數據進行整合,為智慧水務大數據的分析提供支撐。水務系統(tǒng)的數據通過數據層匯至大數據中心需經歷數據抽取、過濾、清洗、轉換和裝載等數據準備過程。數據抽。和ㄟ^系統(tǒng)接口和ETL工具進行數據集成,從智慧水務體系各應用系統(tǒng)中抽取大數據中心需要的數據。
數據過濾:按照相應規(guī)范和需求進行數據篩選,快速高效地過濾出有價值的信息。
數據清洗:為保持數據一致性,需對數據無效值、缺失值、重復數據進行處理和加工。
數據轉換:將數據按照業(yè)務需求,轉換成大數據中心要求的形式。
數據裝載:將經過清洗和轉換之后的數據加載到大數據中心。
。2)大數據中心。智慧水務大數據中心匯聚了水務系統(tǒng)全要素信息數據,按照數據資源集合形式可分為兩類:一類是數據倉庫和數據集市,主要存儲大數據技術治理后結構化的數據,數據倉庫主要包括主數據、元數據、參考數據和一般數據,數據集市是針對特定業(yè)務和場景需求進一步構造的數據倉庫子集,大數據中心中會有多個智慧水務業(yè)務條線的數據集市;另一類是數據湖,能夠存儲結構化和半結構化的數據,相較于數據倉庫存儲了更多的原始數據,數據不需要進行清理和轉換,能夠隨時取用信息進行大數據分析,具有廣泛數據發(fā)現和多維交叉分析優(yōu)勢。廣義上數據湖可以包含數據倉庫,但在大數據中心架構中,兩者是互補互促的大數據應用格局。
。3)數據決策層。智慧水務大數據分析常用方法有可視化分析、預測性分析、數據挖掘算法和語義引擎等,通過可視化數據分析平臺來直觀展示海量數據關聯,通過建立水務專業(yè)知識模型來預測未來狀態(tài)和風險,通過信息集成來提供決策參考信息,通過為已有數據添加語義來獲取非結構化數據的信息價值,最終為水務企業(yè)提供預警預測、風險識別、主動決策和綜合治理等分析應用和數據服務。
3 智慧水務大數據分析標準
2020年 1月,中國城鎮(zhèn)供水排水協會發(fā)布的《中國城鎮(zhèn)水務 2035年行業(yè)發(fā)展規(guī)劃》中指出“要明確智慧水務的概念、內涵及指標體系”,本文以供水行業(yè)為例,結合國內供水行業(yè)的特點和大數據應用場景因素,將供水行業(yè)大數據分析指標分為生產、經營、管理和服務型四類,以構建供水大數據分析的標準體系(見圖3)。

圖3 供水大數據分析指標體系
(1)生產型指標。城市供水生產的可靠性、持續(xù)性和高效運行關乎城市供水安全,從水源、水廠、管網、管網中途泵站、小區(qū)二次供水再到用戶,生產鏈條環(huán)節(jié)上的大數據分析指標,反映了供水企業(yè)生產效率的高低、管理計劃執(zhí)行等情況,有助于發(fā)現問題并采取改進措施(見表1)。 表1 生產型指標

表2 經營型指標

表3 管理型指標

表4 服務型指標

智慧水務大數據分析標準研究貫徹了國家大數據發(fā)展戰(zhàn)略,能夠幫助水務企業(yè)進一步推進數據資源整合共享,促進智慧水務大數據發(fā)展與創(chuàng)新應用。本文討論了智慧水務大數據分析的初步構建標準和指標體系,兼顧了數據倉庫和數據湖并存的情況,為智慧水務大數據融合創(chuàng)新建立了一定的基礎。
未來智慧水務大數據分析應用需要緊密結合水務行業(yè)的研究熱點,通過大數據技術解決實際問題,如生產運行節(jié)能降耗、產銷差漏損管控、客戶主動服務等,水務企業(yè)還需進一步推進數據整合和利用,創(chuàng)新大數據應用,提升大數據價值,持續(xù)提高基于大數據分析的管理能力和服務水平。
微信對原文有修改。原文標題:智慧水務大數據分析標準研究和展望;作者:謝晉、蔣懷德、張曄明、羅賢偉;作者單位:上海市政工程設計研究總院(集團)有限公司?窃凇督o水排水》2021年增刊S1期。
來源: 給水排水