袁燁
江蘇先聯信息系統有限公司,210012,南京市雨花臺區郁金香路17號南京(雨花)國際軟件外包園
摘 要
本文主要對醫療衛生數據倉庫的架構、數據特點、實現方法和應用等方面,進行了廣泛而深入的探討。
關鍵詞 數據倉庫
Bulidingthe Data Warehouse of MedicalHealth
Abstract
The paper is concerned with extensive and in-depth discussion which about architecture, data characteristic, realization method and application of the data warehouse of medical health.
Keywords Data Warehouse
1 引言
近年來,伴隨著醫療數字化和區域衛生數字化的蓬勃發展,各個醫療衛生機構的數據量迅速增長,對數據處理和分析的需求越來越強。將醫療衛生數據統一、集中、建立數據倉庫,不僅能用于生成醫療報表,還能夠提供數據分析、輔助決策、知識挖掘等,是醫療衛生工作今后發展的方向,對于醫療衛生管理、臨床治療、醫療衛生科研、衛生事業發展等領域都有巨大的推動作用和里程碑式的意義。
2 數據倉庫的架構
醫療衛生數據來源于各個業務系統、人工統計和相關行業等,在同一種業務系統里,會出現不同廠商、不同時期的各種版本,數據離散雜亂,數據總量非常大。數據倉庫首先通過數據總線,將業務系統和文件的數據按照相關規范交換進數據中心,這個數據規范既參考了國際衛生信息交換標準(HL7),又結合了衛生部頒發的數據集規范,和數據中心對主數據的管理一起,保證了進入數據中心的數據的規范性、完整性和一致性(見圖1)。
圖1:數據倉庫架構圖
數據在數據中心規范化、整理后,通過ETL平臺的抽取、轉換、加載進入數據倉庫。數據倉庫中的數據不再是業務流程數據,而是對一個個事實的描述,以及對維度的定義。再根據分析或挖掘的不同主題,建立相對應的數據集市,將數據ETL到數據集市中。數據集市中的數據,高度匯總又包含有各個維度,非常適合于多維報表查詢、輔助決策及分析挖掘。最后,由統一的門戶進行查詢訪問。
3 醫療數據倉庫的特點
醫療衛生的數據不同于一般數據倉庫數據,包含如下四個特點:
多樣性:從醫患交流、醫學影像、檢測結果中獲取的醫學數據,表現形式具有多樣性,比如:文本形式(如主訴、現/往病史、過敏史、病程、檢測報告等)、圖表形式(如體溫的記錄表、心電圖、CT等)、影像形式(如X光片、超聲心動圖等)等。
隱私性:醫療衛生數據不可避免地涉及到患者個人的隱私信息,這些數據將會涉及到法律、倫理道德、社會和心理等因素,有信息安全隱患。
不完整性:大量數據來源于人工記錄,導致數據記錄的偏差和殘缺,許多數據的表達、記錄本身也具有不確定性,病例和病案尤為突出。
冗余性:醫療衛生數據是一個龐大的數據資源,每天都會有大量的記錄存儲到數據庫中,其中可能會包含重復的、無關緊要的、甚至是相互矛盾的記錄。
4 數據倉庫的建立
在明確了醫療衛生數據倉庫的架構和數據特點后,我們就著手建立數據倉庫,共分為如下四個步驟。
4.1.元數據管理
數據是整個數據倉庫的基礎,醫療衛生的數據源很復雜,數據項又非常多,手工維護起來非常麻煩,需要有一個平臺統一管理,來保證數據的正確性。元數據管理平臺,就是用來管理數據的平臺,在這個平臺上,我們通過綜合考慮國際衛生信息交換標準(HL7)、衛生部頒發的數據集規范以及數據上傳交換的具體實現,定義了數據中心所有對象的結構和字典的取值范圍(見圖2)。
圖2:元數據管理平臺
然后,通過數據總線,我們要將各個業務系統的數據,上傳進數據中心。這個上傳的步驟不光要定義系統的接口、數據的規范化、代碼值的規范化,還需要主數據的統一,比如人的信息,在不同系統中的可能代碼不同,但是數據中心里要使用統一的ID。
4.2.主題劃分
數據倉庫是面向主題的,是在高層次上對醫療衛生海量信息進行綜合、歸類、分析和提取。各個主題所涉及的數據,以及數據之間的聯系,進過有效的組織,形成一個個完整的分析領域,即主題域。
我們將醫療衛生信息劃分為以下幾個主題域:衛生資源主題域、醫療服務主題域、公共衛生主題域、藥物管理主題域等(見圖3)。
圖3:主題劃分
主題域需要具有獨立性和完備性,獨立性是指主題域必須具有獨立內涵,有明確的界限;完備性是指,能夠在一主題域內找到分析所要求的一切數據,如果涉及到主題之外的數據,那么就應當將這些數據增加到該主題中來,從而完善該主題。
4.3.模型搭建
在需求分析層面,我們劃分好了主題域,確定了每個主題域的含義和內容,接下來就要在具體實現層面,建立數據庫。建立數據庫的第一步是需要搭建數據模型。對于數據倉庫來說,數據建模是建立以事實和維度為主的星座模型(見圖4)。
圖4:星座模型
要注意數據建模需要兼顧具體業務的處理方法和數據庫技術的實現,比如在一張表內包含業務時間和數據庫操作時間等。
4.4.ETL
數據倉庫的骨架搭建好以后,我們要把數據由數據中心,進過加工處理,導入到數據倉庫中,這步稱之為“ETL”。由于在數據中心,數據已經規范化,代碼取值已經符合值域規定,主數據也已經統一,那么在ETL中,清洗數據的工作得以簡化。而主要處理的是將分散的數據進行匯總、歷史數據進行拼接、醫療衛生業務邏輯運算、數據的不同粒度匯總以及維度的關聯等。
同時,我們運用ETL工具,來設計這些ETL步驟及對步驟的調度。調度包括歷史數據的初始化和每日或者實時的增量處理。通過ETL工具,可以很好的觀測數據處理的情況和日志以及追蹤數據處理的問題,提高工作效率、簡化代碼開發。
醫療衛生數據倉庫的成功搭建和良好的日常維護,給數據倉庫應用提供了條件和基礎。數據倉庫應用,可以分為報表展現、數據分析、輔助決策和知識挖掘等方面,結合不同的主題域,形成了醫療衛生數據倉庫應用矩陣(見表1)。如果涉及到主題域的子域,可以進一步細化。
|
報表展現
|
數據分析
|
輔助決策
|
知識挖掘
|
衛生資源
|
√
|
√
|
|
|
醫療服務
|
√
|
√
|
√
|
√
|
公共衛生
|
√
|
√
|
√
|
√
|
藥物管理
|
√
|
|
|
√
|
表1:數據倉庫應用矩陣
下面對各主題域分別介紹數據倉庫應用的情況:
衛生資源指人、財、物三方面的資源,人力資源包括醫生、護士、醫技人員的執業情況、職稱狀態、教育和培訓等情況的監督管理;財務資源主要是針對醫療衛生機構的資金投入、支出等狀況的有關信息的掌握和監控;設備管理包括對醫療衛生設備及物資的使用情況、運行狀況、備戰狀態的監督管理,對床位的數量、醫療機構的使用面積等信息的掌控和了解。
醫療服務主題主要包括實時統計住院和門急診的情況,分析入出院、在院人數,分析醫療費用構成,掌握和監控醫療運行情況、醫療安全情況、醫療質量情況、醫療保障情況,監管藥物和血液的使用情況,建立和完善醫學知識庫,輔助增強臨床路徑系統,掌握醫療工作人員工作效率,考核醫療工作人員工作績效等。
公共衛生主題主要包括居民建檔情況統計和監督,居民健康情況統計和預警,各種慢性病的情況統計和預警,健康教育情況的統計和分析,居民營養狀況的統計,婦女保健、幼兒保健、計劃生育情況的統計和監控,傳染病、地方病、艾滋病、結核病、血吸蟲與寄生蟲病的發病情況、流行情況、治療情況的統計分析和監督管理,農村生活環境改善的情況統計,健康危險因素監測,衛生行政執法狀況的監督和管理,食品衛生、職業衛生、放射衛生等領域被監督單位的基本情況和監督檢查的結果、處罰情況等。
藥物管理主題主要包括基本藥品入庫、出庫及使用情況等的統計和藥物知識庫的建立和完善。
參考文獻
[1]Inmon W H.Building the Data Warehouse[M].Third Edition.北京:機械工業出版社,2003.1-271
[2]張承江.醫學數據倉庫與數據挖掘.北京:中國中醫藥出版社,2008
|