|
|
|
|
|
 |
장애가 발생했을 때 인프라 담당자의 표준대응 프로세스는 무엇입니까
인프라는 결국 신뢰의 공학입니다.
장애예방은 운이 아니라 설계된 습관입니다.
5년 목표는 설계역량을 갖춘 인프라 리더입니다.
인프라에서 야간 장애는 "특별한 일"이 아니라"언젠가 반드시 오는 일 "입니다.
인프라에서 은폐는 2차 사고를 만드는 최악의 선택입니다.
그 다음은 복구가 우선입니다.
인프라의 성과는 화려함이 아니라 수치입니다.
|
|
|
 |
롯데 이노베이트에 지원한 동기와 인프라(월드IS) 직무를 선택한 이유는 무엇입니까
월드IS인프라 직무의 핵심 업무를 어떻게 이해하고 있습니까
네트워크 회선/장비 운영에서 트래픽 관리는 어떻게 해야 한다고 생각합니까
장애가 발생했을 때 인프라 담당자의 표준대응 프로세스는 무엇입니까
월드IS 인프라는 첫째, 장애예방을 "운영 반응"이 아니라 "사전 설계와 훈련"으로 끌어올리는 역할입니다.
네트워크 도입 검토와 논리/물리설계를 통해 피크 트래픽에서도 안정적으로 서비스가 흐르게 만드는 일입니다.
1순위는 안전한 가용성(끊기지 않게), 2순위는 예측 가능한 성능(느려지지 않게), 3순위는 통제 가능한 변경(바꿔도 사고 안나게)입니다.
장애예방은 운이 아니라 설계된 습관입니다.
저는 훈련 설계에서 세 가지를 봅니다.
전환 절차가 사람의존이 아닌가 (자동화/반자동화).셋째, 훈련이 실전과 같은 조건을 갖췄는가(실제 트래픽 패턴, 인증 연동, DNS 전환, 모니터링 재연결).특히 훈련이 '행사'로 끝나면 의미가 없습니다.
그 다음 논리 설계(VLAN/VRF, 라우팅, 보안정책, 이중화 프로토콜)를 세우고, 물리설계(회선이중화, 장비 위치, 전원/랙, 케이블링, OOB관리)를 붙입니다.
장비 산다 "가도 입이 아니라, 운영 가능한 구조로 만드는 것이 도입입니다.
알람은 많이 울리는 게 아니라 "정확히 울리는 것"이 목표입니다.
영향 범위를 즉시 확정(어떤 기능, 어떤 사용자, 어느 구간).2) 임시 복구로 확산 차단(우회, 셧다운, 롤백, 트래픽 제한).3) 원인 규명(로그, 변경 이력, 지표상관관계).4) 영구 조치 및 재발방지(구성표준화, 자동화, 모니터링 보강).5) 사 후 보고와 학습(포스트 모템, 액션 아이템, 담당/기한 .저는 여기서 제일 중요한 건 '커뮤니케이션'이라고 봅니다.
실무에선 완벽한 테스트가 어려우니, 최소한 핵심 경로에 대한 스모크 테스트와 단계적 배포, 그리고 즉시 롤백 가능한 설계 를 고정규칙으로 두는 게 효과적입니다.
저는 계정·권한 관리, 접근 통제, 구성 변경 이력, 취약점 조치 이력, 백업/복구검증 기록이 기본이라고 봅니다.
운영의 기본을 제대로 하면 감사는 따라오는 결과일 뿐입니다.
협력사 관리는 관계가 아니라 기준으로 해야 합니다.
또 중요한 변경은 사전 리스크리뷰와 승인 절차를 통과해야 하며, 테스트 결과를 문서로 남겨야 합니다.
인프라에서 야간 장애는 "특별한 일"이 아니라"언젠가 반드시 오는 일 "입니다.
인프라에서 은폐는 2차 사고를 만드는 최악의 선택입니다.
책임은 자책이 아니라, 시스템 을 더 안전하게 만드는 행동입니다.
하나는 내가 시스템을 충분히 이해하지 못해 반복 업무만 하는 경우, 다른 하나는 반복을 자동화하지 못한 경우입니다. |
 |
이다, 장애, 변경, 어떻다, 인프라, 복구, 지표, 네트워크, 트래픽, 원인, 서비스, 관리, 설계, 자동화, 운영, 입, 롤백, 훈련, 모니터링, 보다 |
|
|
|
|
|
|
 |
|
|
|
|
|
|
|
|
|
|
|
| |
|
|
|