多么痛的領悟!順豐誤刪數據庫,人靠不住,只能靠技術
發布人:scutech 發布日期:2018-09-20 16:06:48 點擊數:3877
昨日,從順豐傳出來的這封郵件傳遍IT圈,簡意是:一位高級運維人員搞錯了一條命令,誤刪了某個數據庫,數據無法恢復,后果太嚴重了,順豐只好讓他被動跑路。
大家在群里展開熱烈討論:
僅僅是因為敲錯一條命令或小失誤而導致數據丟失,嚴重影響業務連續性的事件也不在少數:
2017年2月,Gitlab.com的某同學工作至深夜,在解決ddos攻擊過程中,命令錯誤地敲在了生產環境上,導致300GB數據被刪除,雖然極力挽回,但最后仍然丟了6個小時的數據。
2017年3月,AWS也曾發生過類似的誤操作,某工程師在調查Northern Virginia Region上S3的一個和賬務系統相關的問題,因為有一條命令搞錯了,導致了移除了大量的S3的控制系統。
2018年4月,Kuriko由于機房運維人員的rm -rf /*命令,導致宿主機上所有數據丟失,Kuriko使盡一切辦法,嘗試恢復原有數據以及獲取備份資料,但恢復可能較小。
要避免以上問題,小編給出三點建議:
相信科技的力量,而不只是管理
事件中,有人認為最應該解雇的是運維主管,應該設置更多的審批流程和權限,甚至用價值觀來教導工程師等等。
小編認為,這些手段不是不好,但會導致企業的運營效率降低,增加人員成本,而且不能從根本上解決問題。
作為技術人員,解決問題的最好方式是通過技術手段,而不只是使用更多的人肉手段。人類區別于動物的差別在于會發明和使用現代化的工具。
我們應當更多的相信技術而不是管理。相信技術會用技術來解決問題,相信管理,那就只會有制度、流程和價值觀來解決問題。
推行自動化的數據保護技術
一個老運維說,誤刪數據庫事件在自己的職業生涯里,碰見過不少于10次,特別是在多個終端操作的時候,特別容易出錯。備份固然重要,但更重要是知道如何備份。
人都會有犯錯的時候,誤操作會導致數據丟失。但也有很大一部分誤操作,是發生在數據恢復的過程中,更可怕地會導致數據永久丟失。透過敲代碼的方式來實現數據保護是靠不住的,所以竭盡全力推動運維自動化,應該是所有運維人最應該干的事。
最重要的是選擇對的工具!!
鼎甲自動化的數據保護、數據管理工具,確保企業在IT運維過程中,數據零丟失,系統高可用,業務不中斷。
數據保護平臺——DBackup
中國郵政兩大省級公司(廣東、江蘇),已經透過尖端的技術,做好了自動化的數據保護工作,防患于未然。
透過鼎甲數據保護平臺DBackup,可以保障企業的IT系統數據,在遭遇人為誤操作、病毒攻擊、軟硬件故障、自然災難時,能得到完整、準確、快速的恢復。
運維人員只需要提前設置好備份策略,DBackup便可以實時、自動化地對數據進行備份,包括操作系統、數據庫、應用、文件、虛擬機等各類數據,無需運維人員手動開展,杜絕誤操作。
此外,一旦遭遇故障導致數據丟失。透過DBackup,可以一鍵快速恢復到任意時間點的數據,同樣無需復雜的人手工作,保證業務的連續穩定,徹底杜絕以上事件的發生。
CDM數據副本管理工具——InfoSemper
DBackup結合CDM數據副本管理工具InfoSemper,更是超越傳統數據保護的價值,激活數據副本潛能。
中國郵政江蘇省公司,率先透過InfoSemper,使數據副本不只用于數據備份和恢復,更是可以自動化地進行快速共享,給不同人員在開發測試、報表分析、商業智能等場景中使用。關鍵是數據副本共享的速度非常快,可達分鐘級數TB的速度,共享過程絲毫不會影響業務的連續性和穩定性。
運維人員從此解放雙手,避免繁瑣的數據管理工作。
我們都知道能備份的數據不一定能恢復,做備份但不可恢復,更是耍流氓。透過InfoSemper,可以作為數據恢復演練的手段,定期驗證數據恢復的有效性,保證數據零風險。
透過以上神器,100%能保證數據的安全性。
此外,說一個題外話,一個高級工程師的價值不在于寫過多少代碼,而是踩過多少坑,受過教訓,積累了寶貴經驗。