|
|
|
|
|
 |
장애를 늦게 아는 운영이 아니라 빨리 발견하고 빨리 복구하는 운영으로 바꾸고 싶습니다.
반복 장애를 줄이는 구조를 만들고 싶습니다.
IT 운영에서도 협업은 필수입니다.
장애 MTTR입니다.
패치와 배포 후 장애가 반복되면 운영이 무너집니다.
저는 반복 장애를 기술문제가 아니라 운영 문제로 보겠습니다.
저는 반복 장애를 줄이는 체계를 만들어 운영의 피로도를 낮추겠습니다.
목표는 누구든 같은 품질로 빠르게 진단하고 복구하게 만드는 것입니다.
|
|
|
 |
제가 롯데 GRSIT 운영(2026 인턴)에 지원한 동기는 '매장 매출이 끊기지 않게 만드는 기술' 이야말로 IT 운영의 본질이라고 믿기 때문입니다.
롯데 GRS는 다양한 브랜드와 전국 단위의 매장 운영을 가진 만큼, 운영 품질이 곧 경쟁력인 조직입니다.
장애를 늦게 아는 운영이 아니라 빨리 발견하고 빨리 복구하는 운영으로 바꾸고 싶습니다.
반복 장애를 줄이는 구조를 만들고 싶습니다.
저는 GRS에서 매장이 믿는 IT 운영, 직원이 편해지는 IT 운영을 만들겠습니다.
목표와 기준이 불명확하면 아무리 대화를 많이 해도 반복 논쟁이 생기고, 일정은 무너집니다.
한 번에 여러 변경을 하지 않고, 변경 전후를 비교 가능한 형태로 진행해 원인이 사라지거나 새로 생기지 않게 했습니다.
그 결과팀은 감정 소모를 줄이고, 같은데이터로 논의하며, 원인을 빠르게 좁혀 해결할 수 있었습니다.
IT 운영에서도 협업은 필수입니다.
변경관리 역량입니다.
운영 장애의 상당 부분은 배포와 설정변경, 패치에서 발생하기 때문에, 표준절차와 롤백 기준이 있어야 합니다.
대학생활에서 제가 변화와 도전을 통해 목표를 달성했던 경험은 '완벽하게 준비하고 시작하는 사람'에서 '빠르게 실험하고 개선하는 사람'으로 일하는 방식을 바꾼 경험입니다.
당시 저희 팀은 기능 구현에 집중했지만, 배포 환경이 통일되지 않아 막판에 오류가 반복되며 목표가 흔들렸습니다.
결제 승인 성공률입니다.
매장 단말과 본사 서버 간 통신가용성입니다.
장애 MTTR입니다.
단말입니다.
특정 매장이나 특정 단말만 느리면 단말 자원, 로컬 캐시, 주변기기 상태를 확인 합니다.
이 순서의 이유는 네트워크 문제는 서버와 DB를 동시에 압박하는 연쇄를 만들 수 있고, 공통분모를 먼저 제거해야 복구가 빠르기 때문입니다.
그 연결을 확인한 뒤, 재발방지 대책은 제거, 차단, 완화, 탐지순으로 설계합니다.
기준은 위험도와 가치입니다.
신규 기능의 비즈니스 가치가 크더라도, 실패시 영향 범위가 전 매장이라면 무리한 배포는 안 됩니다.
파일럿 매장 적용, 카나리 배포, 기능 플래그로 위험을 줄이고, 배포창과 롤백 기준을 명확히 하겠습니다.
배포 실패시 예상 매출 손실, 복구시간, 고객 불만 비용을 제시하고, 안전한 배포방식 이 결과적으로 더 빠른 납기를 만든다는 것을 설명하겠습니다.
저는 배포를 막는 운영이 아니라, 실패 비용을 줄여 전체 속도를 높이는 운영을 하겠습니다.
실행계획은 1단계로 장애 유형을 분류하겠습니다. |
 |
운영, 장애, 이다, 만들다, 매장, 배포, 확인, 지표, 경험, 반복, 원인, 기준, 복구, 먼저, 기능, 방식, 네트워크, 빠르다, 품질, 목표 |
|
|
|
|
|
|
 |
|
|
|
|
|
|
|
|
|
|
|
| |
|
|
|