올린글을 확인할 수 있도록 포스팅을
공개
로 설정해 주세요.
포인트는 운영자가 올린글을 검토후 지급됩니다. 검토요청이 누적된 상황에서는 포인트 지급에 상당한 지연이 발생할 수 있습니다.
예측 가능성은 누가 하더라도 같은 규칙으로 운영된다는 뜻입니다.
영향 범위입니다.
운영 가능성입니다.
피에스케이에서 저는 이 방식으로 문제를 풀겠습니다.
표준운영 절차를 만들겠습니다.
모니터링과 알림체계입니다.
변경과 배포, 패치에 대한 표준운영 절차입니다.
저는 이 세 가지를 먼저 정리해 운영의 체력을 만들겠습니다.
자신의 업무나 행동이 동료와 조직에 어떤 영향을 미칠 수 있는지 고민하며 행동했던 경험을 서술해주세요.
입사 후 본인이 이루고자 하는 커리어 목표를 작성해 주시고, 이를 통해 회사 전체의 목표나 방향성에 어떻게 기여할 수 있을지 구체적으로 기술해주세요.
본인이 경험한 가장 어려운 트러블 슈팅 사례와 그때의 판단 근거를 설명해주세요
모두 옳은 말을 했지만 목표의 정의가 달랐고, 회의가 반복될수록 일정은 미끄러졌습니다.
인프라 관점에서 필요한 것은 환경 구성, 접근 권한, 로그 수집, 모니터링, 배포 절차, 롤백시나리오, 장애 발생시 연락망과 역할 분담이었습니다.
각 팀이 이해하는 언어가 다르니, 기술용어를 나열하지 않고 결과 기준으로 말했습니다.
예측 가능성은 누가 하더라도 같은 규칙으로 운영된다는 뜻입니다.
추적 가능성은 문제가 생겼을 때 책임을 묻기 위해서가 아니라, 복구시간을 줄이기 위해 필요합니다.
저는 변경 작업을 할 때 변경 전상 태, 변경 내용, 검증 방법, 롤백 방법을 짧게라도 기록하는 습관을 들였습니다.
요청을 받으면 즉시 처리할지라도 기준을 무너뜨리지 않는 태도입니다.
제변경이 원인일 가능성이 있다면 먼저 인정하고, 복구 후에 재발 방지 조치를 제안했습니다.
특정 시간대라면 배치 작업, 로그적재, 백업, 혹은 외부 연동이 원인일 가능 성이 있습니다.
그래서 저는 원인을 기술 영역별로 분해해 질문 목록을 만들었습니다.
문제는 네트워크가 아니라 스토리지 병목이었습니다.
더 깊이 들어가 보니 불필요하게 과도한 로그가 적재되고, 압축 작업이 동시에 돌아가며 I/O를 잠식하고 있었습니다.
해결책은 단순히 로그를 줄이는 것이 아니라, 로그레벨 조정, 적재 주기 분산, 압축 작업의 시간대 변경, 임계치초과 시 알림 설정, 그리고 장애시 우회동작까지 포함한 운영설계였습니다.
해결책을 판단한 방식은 세 가지 기준이었습니다.
같은 조건에서 다시 문제를 일으킬 수 있어야 진짜 원인을 찾았다고 봅니다.
운영 가능성입니다.
특히 피에스케이처럼 기술 중심 조직에서는 인프라가 개발과 현장 운영의 속도를 결정합니다.
인프라 운영의 불확실성을 줄여 구성원이 본업에 집중하게 합니다.
장애를 0으로 만들 수는 없지만 발견시간을 줄이면 피해가 급 격히 줄어듭니다.
변경과 배포, 패치에 대한 표준운영 절차입니다.
세 번째는 원인 분석입니다.
네 번째는 복구와 검증입니다.
무조건 차단 이 아니라, 영향 범위와 대체 경로, 모니터링을 함께 설계해 업무 중단을 최소화합니다.
CPU나 메모리 같은 단편 지표는 보조로 두고, 사용 자 체감과 직접 연결되는 지표를 중심으로 알림을 만들겠습니다.
해결은 단순히 설정 하나를 바꾸는 것이 아니라, 로그레벨 조정 , 작업시간 분산, 임계치 알림, 조치가이드문서화까지 포함한 운영설계였습니다.
[hwp/pdf]2026 피에스케이 IT infra Management(신입) 자기소개서와 면접
포스팅 주소 입력
올린글을 확인할 수 있는 포스팅 주소를 입력해 주세요.
네이버,다음,티스토리,스팀잇,페이스북,레딧,기타 등 각각 4개(20,000p) 까지 등록 가능하며 총 80,000p(8,000원)까지 적립이 가능합니다.