| 項目咨詢 |積分體系 | 加入收藏 | 設為首頁 | RSS
您當前的位置:首頁 > 市場 > 百科 > 行業研究 > 專家專欄 > HIT專家 > 姜疆

存儲虛擬化及CDP技術在醫院信息化建設中的運用

時間:2013-07-16 15:52:09  來源:  作者:姜疆
更多

 

上海愛數軟件有限公司醫衛行業顧問姜疆
 
摘要:
9.11等事件造成的災難性后果使人們更加深刻地認識到數據信息的價值和意義,日益重視數據的保護,F代醫院對計算機的依賴性嚴重增強,信息數據逐漸成為企業賴以生存的基礎。圍繞如何重復利用數據,虛擬化技術正在大行其道。
服務器虛擬化用一虛多的技術可以充分發揮服務器的性能,特別適合于醫院日益增多的周邊業務系統,服務器虛擬化可以加速應用部署交付,動態擴展計算和存儲資源。但是服務器虛擬化有一個問題就是將多個雞蛋又集中在了一個籃子里面,增加了系統運行的風險。隨著醫院日益增加的存儲需求,加上大量老化和即將淘汰的舊存儲,設備利舊和投資保護的問題、異構存儲整合的問題、后端數據容災的問題。等等這些問題困擾著醫院信息中心的決策者。為了解決這些問題,本文將從幾個方面來闡述醫院信息化中必不可少的技術——存儲虛擬化。CDP技術是這兩年醫院備份容災領域關注的技術概念,我們知道CDP技術可以對數據進行歷史回退,解決邏輯性的問題,比如病毒和人為刪除的問題,但這次本文重點不是容災而是從新的角度來闡述CDP在醫院的運用。
 
關鍵字:存儲虛擬化、CDP、備份容災、ETL
 
存儲虛擬化(Storage Virtualization)最通俗的理解就是對存儲硬件資源進行抽象池化。我們可以理解存儲虛擬化就是一種技術,將現有的存儲都整合在一個存儲池中整合起來,然后再提供給前端應用。但是存儲虛擬化的技術可以用多種運用,我們運用這些存儲虛擬化的特性可以讓存儲管理更加高效。
 
存儲虛擬化技術醫院的三個運用
一、存儲虛擬化結合服務器虛擬化做異地容災
服務器虛擬化在醫院日漸流行,但是我們知道一個服務器虛擬成了多個系統后,我們就要考慮服務器和存儲自身的穩定性了,否則極易成為一個單點故障。對于虛擬化系統來說,可能會有虛擬化內部數據的錯誤;可能會有虛擬化平臺系統自身的錯誤(比如VMESX本身的核心也是一個LINUX內核的系統);宿主服務器硬件的錯誤;虛擬磁盤文件VMDK及相關文件系統的錯誤;存儲硬件的錯誤。以上錯誤都可以導致虛擬機崩潰,盡管我們可以借助于虛擬化系統本身提供的容災功能,但是這些基于虛擬機層面的文件克隆和復制技術的容災功能效率都不高,無法滿足醫院的RPORTO需求。還有一個問題就是大部分醫院到目前為止虛擬化應用并未深入到核心業務系統,虛擬化和非虛擬化環境混搭是最常見的醫院系統架構。對于UNIX平臺來說,主流虛擬化系統目前還未支持,所以一個更加底層的解決后端存儲單點故障的技術是我們迫切需要的。
存儲虛擬化有一個關鍵的功能就是可以做存儲間的鏡像,而且這種在虛擬卷之間的鏡像可以在兩個異構存儲中進行。虛擬機的關鍵數據借助于存儲虛擬化鏡像可以實現異地容災的效果。假設我們在主機房安裝的存儲上面部署了虛擬化應用,我們通過存儲虛擬化技術將其鏡像到異地災備機房,當主機房的存儲及鏈路出現問題,我們就可以瞬間切換到災備機房,以保證虛擬化業務不中斷。結合服務器虛擬化技術,我們不用擔心多個雞蛋集中在一個籃子里的風險。
1.jpg
上圖中,我們的VDisk(虛擬卷)是映射在兩個物理陣列上的,左邊的主陣列假設安裝了虛擬機,那么通過鏡像技術同步到災備陣列中,對于Vdisk來說,我們看到的數據是有一份,但是物理上是有兩份(甚至是兩份以上)。其中任何節點出現故障,那么對于Vdisk來說,他能夠瞬間切換到可用的節點(只要不是所有節點崩潰)。我們可以粗略地形象理解這相當于是在陣列之間做了RAID1的效果。
借助于數據重刪和壓縮,我們可以理解兩個陣列之間的距離可以足夠遠,甚至是成百上千公里,這樣就可以方便地做異地容災。這種技術對于醫院目前流行的雙活數據中心尤為重要,一般情況下,本院不同樓宇之間形成雙活數據中心,利用存儲虛擬化鏡像技術已經成為主流選擇。
 
二、存儲虛擬化實現混合存儲池滿足醫院多種應用特性
醫院的存儲始終面臨逐步的升級和換代中,不同的應用往往要求部署不同的存儲。我們知道HIS系統的特點就是I/O查詢寫入特別頻繁,并發訪問量大,但是數據流量不太大。PACS系統是數據流量大,對于I/O帶寬占用很大,存儲后端容量消耗大,但是查詢寫入頻度不算高。醫院的應用其實還不僅僅是這些,如何將每個系統的運行效率保持最高,充分發揮現有存儲的性能就是一個新的課題。存儲虛擬化正好有這樣的技術能夠把許多零散的存儲資源整合起來,從而提高整體利用率,同時降低系統管理成本。通過分層存儲的劃分,我們以最高的效率、最低的成本來滿足各類不同應用在性能和容量等方面的需求。
2.jpg
 
如上圖所示:我們可以將現有的存儲池劃分為三個虛擬卷,我們假設將HISSDD存儲介質進行存取,EMR我們用SAS硬盤,PACSNLSAS硬盤,這樣就能夠充分將性價比發揮到極致。對于vdisk來說,可能PACS的存儲池是由3個陣列匯集成一個大的存儲池,對于PACS應用來說,它只看到一個統一的存儲池。對于醫療業務也有我們不太清楚業務規律的系統,當我們不能確定是否用什么存儲池來應對的時候,我們也可以使用自動分層技術來解決問題。自動分層就是根據I/O訪問頻度自動根據頻繁的程度匹配最適合(已定義)磁盤類型,以將存儲性能發揮到最佳。
 
對于PACS系統來說,在線擴容和存儲升級將會帶來很多風險,所以利用存儲虛擬化的在線擴容功能對于PACS系統來說將會非常有價值。我們可以保證PACS系統24小時不停機的情況下就能完成存儲擴容的動作。借助于自動精簡配置功能,我們可以將多個已經整合的存儲給前端應用分配盡可能充足的空間,讓前端應用程序不會因為剩余空間不足導致運行問題。自動精簡配置可以理解為超量預先分配,這塊對于虛擬化系統(如vmware也有),但是將分配出去的空間收回,vmware就不能做到了,借助存儲虛擬化技術可以實現在線資源回收,所以vmware結合存儲虛擬化將會如虎添翼。
三、如何選擇和搭建存儲虛擬化技術
對于醫院來說,如何選擇存儲虛擬化技術是一個問題。存儲虛擬化有幾種形式,第一種是基于主機的虛擬化,基于主機的虛擬存儲依賴于代理或管理軟件,它們被安裝在一個或多個主機上,實現存儲虛擬化的控制和管理。由于控制軟件運行在主機上,這就會占用主機的CPU資源?赡芪覀冋J為基于主機的虛擬化方法最容易實現,其設備成本最低,其實安裝部署方面并非那么簡便,并且基于主機授權模式,以后的費用也比較高。第二種是依賴于存儲供應商的存儲虛擬化技術,當然,利用這種方法意味著最終將鎖定某一家單獨的存儲供應商。盡管某些存儲廠商聲稱他們的存儲自帶的虛擬化功能對于其他存儲也可以兼容。但是這種兼容性容易受到一些限制,存儲廠商提供的虛擬化技術是需要以存儲為中心的,如果主存儲節點出現問題,那這種虛擬化將不是牢靠的。第三種就是基于獨立網關的存儲虛擬化設備,由于不依賴于在每個主機上運行的代理服務器,這種方法比基于主機或基于設備的方法具有更好的安全性。當連接主機到存儲網絡的網關出現故障時,仍然可能導致主機上的數據不能被訪問。所以利用網關的冗余可以支持動態多路徑,來解決網關的單點故障,通常情況下方案都至少配置2臺網關。獨立網關的存儲虛擬化技術可以不需要在主機上安裝代理程序,不會占主機資源,也不需要依附于某個存儲廠商。對于有大量存儲設備要利舊使用,需要對各種異構存儲進行整合的情況,這種方案將是首選。從發展趨勢看,基于主機的和基于存儲的虛擬化技術目前已經相對成熟,用戶可以充分享受到它們所帶來的好處,而且由于它們已經進入成熟期,基于獨立網關的存儲虛擬化技術是一種新的開始流行的虛擬化存儲技術,它獨立于主機和存儲設備,因此,給用戶帶來了很大的靈活性,其未來的發展空間最大。
 
CDP技術醫院的運用
在過去的20多年中,雖然計算機技術取得了巨大的發展,但是數據備份技術卻沒有長足進步。數據備份操作代價和成本仍然比較高,并且消耗大量時間和系統資源,數據備份的恢復時間目標和恢復點目標比較長。
顯然,這種數據備份方式存在一個顯著的不足,即備份窗口問題。在數據備份期間,企業業務需要暫時停止對外提供服務。隨著企業數據量和數據增長速度的加快,這個窗口可能會要求越來越長,這對于關鍵性業務系統來說是無法接受的。對于醫院來說,信息系統要求24x7不間斷運行,短時的停機或者少量數據的丟失都會導致巨大的損失。因此,就需要將數據備份窗口盡可能地縮小,甚至縮小為零,數據快照(Snapshot)、持續數據保護(CDP)等技術,就是為了滿足這樣的需求而出現的數據保護技術
CDP持續數據保護(Continuous Data Protection)是一套方法,它可以捕獲或跟蹤數據的變化,并將其在生產數據之外獨立存放,以確保數據可以恢復到過去的任意時間點。持續數據保護系統可以基于塊、文件或應用實現,可以為恢復對象提供足夠細的恢復粒度,實現幾乎無限多的恢復時間點。這個是全球網絡存儲工業協會(SNIA)的定義。因為CDP技術有更細粒度的恢復能力,我們通常用它來解決不確定RPO的部分。為了讓丟失數據量達到最小,CDP基于I/O級的恢復粒度正好是我們需要的。當我們誤刪除數據或者文件系統受到邏輯性損壞或者病毒,我們可以嘗試用CDP技術將損失降到最低。對于此外,對于醫院來說還有另外的妙用。列舉如下:
幫助新系統部署測試,快速驗證新系統運行效果
 
醫院的信息系統是一個螺旋形不斷日益完善的系統,修修補補已經成為常態。并且新的應用系統在上線的過程中都要進行測試。按照HIS公司之前的做法,是在獨立搭建的服務器進行邏輯性測試、壓力測試后再部署上線。將HIS現有的數據庫轉移到測試服務器中將是一個繁瑣的過程,因為數據庫的備份和恢復所花時間太多,為了保持測試系統能夠有驗證能力并且還要保證數據庫體積不能過于龐大,我們都要對原數據庫做出一些“截斷”工作。經過多次迭代,如何在新的數據庫基礎上測試驗證是一個問題,F在有了CDP技術,我們可以將目前CDP記錄的系統數據庫卷通過生成快照掛載出來。我們可以理解CDP就是錄像機,快照技術就是照相,我們從CDP形成一個快照就是定格在某一時間點取出一個照片一樣。
我們只需要在生成的快照上直接寫入測試數據就可以實現我們的測試效果,測試完畢后釋放快照即可。原來需要花幾個小時甚至一整天搭建的測試環境,在CDP的幫助下只需要十幾二十分鐘就搭建好了。這種測試數據的搭建方式有個明顯的好處是保證被測數據環境的新鮮度。我們始終在更加貼近真實數據結構環境上進行測試,便于及時發現問題。如果結合服務器虛擬化技術,在模擬群集環境下的測試將更加便利。我們還可以對當前測試的過程再次形成快照,記錄各個測試數據前后變化的狀態,便于進行更加細致的測試。靈活運用這種技術對于需求變化極快的醫療信息軟件是非常有價值的,加快應用程序迭代和發布的速度,提升整體的開發效率。另外還有一個場景也可以重復利用CDP技術,當我們部署一個復雜的中間件系統或者在操作系統上做很多配置的時候,我們利用CDP記錄升級和配置的過程,當出現問題我可以迅速回退,至少可以保證不會因為小小的升級失誤就推倒重來。
 
二、利用快照技術加速BI提升ETL效果
ETL,Extraction-Transformation-Loading的縮寫,中文名稱為數據提取、轉換和加載。為什么ETL這么重要呢?ETL負責將分散的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫數據集市中,成為聯機分析處理、數據挖掘的基礎。如果說數據倉庫的模型設計是一座大廈的設計藍圖,數據是磚瓦的話,那么ETL就是建設大廈的過程。在整個項目中最難部分是用戶需求分析和模型設計,而ETL規則設計和實施則是工作量最大的,約占整個項目的60%80%,這是國內外從眾多實踐中得到的普遍共識。
為了能夠將醫療數據深入進行挖掘,我們需要建立數據集市(面向主題的數據集),這個前提是要做好ETL的過程。一般來說都是采用主動“拉取”方式,例如:如果是基于sqlserver數據倉庫的,那么借助于sqlserverSSISsqlserver內置的抽取工具),對當前業務數據進行定時抽取。為了不影響當前業務數據,一般都是在夜間定時進行抽取。這種情況下,我們就可以理解BI分析看到的數據都是昨天及以前的數據。我們并不能對當前的數據進行及時分析。當我們做環比統計或者對當天的數據進行分析,比如當天的用藥指標監控等,我們就不能看到新鮮的數據。
為了解決這個問題,我們可以通過編寫腳本,將ETL的抽取源制定到定時快照上面,因為快照的生成不會對當前系統造成很多壓力,并且抽取源定向于快照,我們就可以不用擔心HIS主機的性能遭到影響。
3.jpg
 
從上圖我們可以看到我們整個BI的展現流程。在圖示的左邊,HIS、EMR,OPR,HRP還有其他系統都是可以基于快照進行抽取,而不是直接從業務系統抽取,這樣抽取策略可以保持BI數據抽取的新鮮度,并且不影響生產系統性能。對于即時分析要求越來越高的醫療輔助決策應用,這是一個非常有效的方法?煺詹粌H僅可以為容災提供服務,還可以給各個醫院信息化層面帶來新的驅動力。
綜上所述,存儲虛擬化技術和CDP技術的誕生對于醫療信息化建設來說是一個強有力的工具,我們利用好了可以讓我們的工作事半功倍。醫院已經進入或者正在進入大數據時代,在大數據時代背景下,利用新的技術將為醫院管理和輔助決策注入強勁的驅動力。
 
參考文獻:
王樹鵬, 云曉春, 郭莉. 持續數據保護(CDP)技術的發展綜述. 信息技術快報, 2008年第6卷第6期.
王力華,依托統一規范提升大數據利用價值.北京大學人民醫院醫學信心中心,201368
來頂一下
返回首頁
返回首頁
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
欄目更新
欄目熱門
香蕉视频老熟妇乱子伦精品视频