ぼへぼへ:某エンジニア
つい先日、ITエンジニアの仕事に重大な影響を及ぼす事故が起きました。
プログラムのソースコードの管理を行うサービス「GitLab」のデータベースが消失(リンク先はtwitterでのつぶやき)してしまったのです。
GitLab内のエンジニアの操作ミスが原因だったようで、すぐにデータベースの復旧作業に取り掛かったそうです。
普通、データベースは毎日バックアップをしているもの。GitLabのデータベースもご多分に漏れず、バックアップを毎日自動的に取るように運用されていたはずでした。
ですが、調べてみるとこのバックアップがちゃんと取れていないことが判明。ずっとそれに気づかず、復旧が必要になった今の段階でようやく気付いたようですね。
幸い、複数用意していたバックアップ手段のうち、1つだけ正しく取れていたものがあり、それで復旧できたようです。
このバックアップは、システム運用において大変重要な機能なのですが、今回の事例のようにいざ復旧の段階になって正しく取れていないことに気づいたり、ちゃんと復旧できるかどうかのテストが行われていなかったりと、不完全であることがままあります。
バックアップ先のディスクがいつの間にかいっぱいになっていたり、テープドライブの異常が発生したり。ぼへちゃんの職場、この話で盛り上がっています。今回のGitLabの事故だけでなく、今まで携わってきたシステムのバックアップは大丈夫でしょうか。そんなことを話していて気づいたのが、意外にバックアップは手薄になっているということ。これまでに作ってきたシステムは、大丈夫なんでしょうか。急に不安になったぼへちゃん達、大急ぎでバックアップがちゃんと取れているか確認を始めました。
0 コメント:
コメントを投稿