4. 사고 대응 및 재해 복구
2026. 1. 17. 20:47
보안평가 및 보안운영 기본

사고 대응 및 재해 복구 — IR/DR/BCP

사고는 “기술”만이 아니라 “절차와 훈련”으로 줄어듭니다.

IR, DR, BCP 란?

  • IR(Incident Response): 사고를 ‘통제’하고 확산을 막는 대응 절차
  • DR(Disaster Recovery): 시스템을 ‘복구’하는 절차(백업/복원/대체)
  • BCP(업무연속성): 시스템이 일부 down 되더라도, ‘업무를 계속’할수 있는지에 대한 계획 (대체 프로세스 포함)
IR과 DR은 분리하되, 같은 문서 체계로 묶어두면 운영이 쉬워집니다.

사고 대응(IR) 4단계(운영 템플릿)

단계 핵심 질문 예시 산출물
준비 누가/어떻게/무엇으로 대응할 것인가? 연락망, 플레이북, 로그/증적 정책
탐지·분석 무슨 일이, 어디서, 얼마나 발생했나? 타임라인, IOC, 영향 범위
봉쇄·근절·복구 확산을 막고 원인을 제거했나? 격리/차단, 패치, 계정 리셋
사후 활동 다음에는 더 빨리/작게 막을 수 있나? 재발방지 과제, 룰 보강, 교육

DR에서 반드시 정의해야 하는 2개 지표

  • RTO: 얼마나 빨리 서비스가 다시 살아야 하는가(복구 시간 목표)
  • RPO: 데이터 손실을 어디까지 허용할 것인가(복구 시점 목표)

예시: “복구 절차”를 명령어 수준으로 써두기

위기 상황에서는 글로 된 지침보다, 체크리스트+명령어가 훨씬 빠릅니다.

# dr_runbook.md (개념 예시)
1) 장애/사고 선언: incident commander 지정
2) 영향 범위: 핵심 서비스(로그인/결제/업무시스템) 우선 확인
3) 봉쇄: 의심 계정/세션 차단, 악성 트래픽 차단
4) 복구:
   - 백업 스냅샷 복원(검증 환경)
   - 서비스 재기동
   - 핵심 기능 스모크 테스트
5) 사후: 타임라인/원인/재발방지 과제 등록
운영자 체크리스트
  • 연락망(보안/운영/개발/홍보/법무)이 현행화가 잘 되어있나요?
  • 백업은 실제로 복원 테스트를 해봤나요? (단순 백업이 아니라 정말 백업파일로 복원을 해봤는지)
  • 사고 후 개선 과제가 ‘티켓’으로 남아 닫히나요?
 

참고 레퍼런스