|
|
|
|
|
 |
현장 디버깅 가능한 로그"의 조건을 말해주세요.
답변 : 저는 "코드가 예쁘다"보다 "현장이 멈추지 않는다"를 더 중요하게 보는 개발자입니다.
이 때 필요한 역량은 화려한 기능이 아니라, 신뢰성 있는 제어, 재현 가능한 로그, 빠른 원인 분석, 그리고 같은 장애가 다시 나지 않게 만드는 구조입니다.
답변 : 저는 "상태 모델"을 가장 먼저 결정합니다.
저는 "상태-전이-예외"를 먼저 고정하고 그 위에 기능을 올립니다.
답변 : 저는 로그를 개발자 편의가 아니라 CS와 현장 기준으로 설계합니다.
저는 로그를 제품 기능으로 봅니다.
그래서 개발할 때 상태 모델과 예외 처리를 먼저 고정하고, 장애가 나도 원인을 좁힐 수 있도록 이벤트 중심 로그와 재현 가능한 테스트 환경을 함께 설계합니다.
|
|
|
 |
현장 디버깅 가능한 로그"의 조건을 말해주세요.
코드 품질을 지키기 위한 본인의 원칙(리뷰/코딩 규칙/리팩토링 기준)을 말해주세요.
압박)"일단 돌아가게만 해라. 품질은 나중"이라는 지시가 내려오면 어떻게 답하겠습니까?
압박) 장애 원인이 본인코드로 의심됩니다.
이 때 필요한 역량은 화려한 기능이 아니라, 신뢰성 있는 제어, 재현 가능한 로그, 빠른 원인 분석, 그리고 같은 장애가 다시 나지 않게 만드는 구조입니다.
답변 : 테크윙 SW 개발은 "장비의 동작을 제어하고, 현장의 변동과 예외 상황을 흡수해, 고객이 원하는 생산성과 품질을 안정적으로 재현하게 만드는 일"입니다.
그래서 제가 보는 핵심 역할은 기능의 완성보다 안정적인 운영과 재발방지 체계를 포함한 '현장형 SW'를 만 드는 것입니다.
안전 확보와 확산 차단 : 인터록 상태, E-Stop, 위험구역을 먼저 확인합니다.2) 마지막 정상 상태 확인 : 직전 수행한 시퀀스, 최근 변경(레시피/설정/업데이트), 발생 시각을 고정합니다.
증상-원인 분리 : "멈췄다"가 아니라 어느 축, 어느 센서, 어느 통신구간에서 상태가 불일치했는지 찾습니다.4)로그/리소스/통신확인 : 이벤트로그, 스레드 상태, 큐back log, 네트워크 재전송, 타임아웃을 확인해 병목을 좁힙니다.
증상은 드물게 UI가 멈추고, 장비 상태 업데이트가 지연되며, 특정 순서에서만 발생했습니다.
락순서 규칙을 문서로 고정해 역 순 획득을 금지2) 공유 자원 최소화와 불변객체 사용 3) 큐기반 메시지 패싱으로 동기화 범위를 줄이기 4) 타임아웃과 watc hdog로 멈춤을 탐지해 자동복구 가능하게 만들기입니다.
장비는 Idle, Ready, Running, Al arm, Recovery 같은 상태가 있고, 상태 전이가 명확해야 예외가 줄어듭니다.
그 다음이 인터록과 타임아웃 정책입니다.
저는 "상태-전이-예외"를 먼저 고정하고 그 위에 기능을 올립니다.
그리고 해결책은 단순히 타임아웃을 늘리는 게 아니 라, 재시도 정책과 아이들 상태에서의 heartbeat, 메시지 중복 처리(idempotency) 같은 "끊겨도 복구되는 설계"로 갑니다.
시간 정렬 가능 : 밀리초 단위 타임스탬프와 스레드/모듈 정보 2) 사건 중심 : 상태 전이, 시퀀스 단계, 타임아웃, 재시도, 인터록 발생을 이벤트로 기록 3) 상관관계 : 작업단위(LOT, 레시피, 제품 ID)와 연동된 correlationID4)과 하지 않음 : 평상시에는 핵심만, 장애시에는 디테일을 남기도록 레벨을 설계합니다.
중요한 건 변화가 시스템 전체를 흔들지 않게 만드는 구조입니다.
그래서 저는 1) 단위 테스트로 순수로 직(상태 전이, 파서, 정책)을 고정하고 2) 통합 테스트로 모듈 간 인터페이스(모션 명령, 센서 이벤트, 통신 프로토콜)를 검증하며 3 시뮬레이션으로 장비/센서 응답을 재현해 시퀀스를 끝까지 돌립니다.
문서 구조는 1페이지 요약(목표, 범위, 리스크), 상세(상태전이, 인터페이스, 로그, 테스트)로 나눕니다.
답변 : 저는 "데모를 강행할지"를 감으로 결정하지 않습니다.
안전/장비 손상 가능성이 있는가, 데이터 무결성에 영향을 주는가, 특정 경로에서만 발생하는가를 빠르게 판단합니다.
안전이나 손상 리스크가 있으면 데모시나리오를 즉시 조정하거나 중단이 맞습니다.
기능 플래그로 해당 경로를 막고, 안전한 우회경로로 데모를 구성하며, 로그를 강화해 데모 중 발생해도 즉시 원인을 잡게 합니다.
마지 막으로 근본 수정은 데모 이후가 아니라, 데모를 위한 임시 패치와 병렬로 준비하되 롤백 가능하게 내겠습니다.
품질을 나중으로 미루면 현장은 같은 문제로 더 오래 멈춥니다.
저는 빠르게 돌리되, 다시 멈추지 않게 만드는 쪽으로 책임 있 게 하겠습니다.
근거가 없는데 책임만 요구하면 문제 해결이 늦어집니다. |
 |
상태, 로그, 기능, 현장, 테스트, 장애, 확인, 장비, 타임, 이다, 답변, 복구, 고정, 원인, 개발, 재현, 아웃, sw, 가능하다, 통신 |
|
|
|
|
|
|
 |
|
|
|
|
|
|
|
|
|
|
|
| |
|
|
|