올린글을 확인할 수 있도록 포스팅을
공개
로 설정해 주세요.
포인트는 운영자가 올린글을 검토후 지급됩니다. 검토요청이 누적된 상황에서는 포인트 지급에 상당한 지연이 발생할 수 있습니다.
극단 값을 제거하지 말아야 할 경우
이 때 무리하게 극단 값을 제거하는 것은 오히려 왜곡된 분석을 유발할 수 있다.
이 경우 극단 값은 오히려 분석의 핵심이 되었다.
또한, 공공정책 분석에서 극단 값의 제거 여부는 민감한 영향을 미칠 수 있다.
극단 값이 단순한 측정 오류나 데이터 입력 실수일 경우, 이를 그대로 분석에 반영하면 잘못된 결론을 내릴 수 있다.
예컨대 숫자 58을 입력해야 할 곳에 580을 입력한 경우, 이를 그대로 활용하면 평균이나 분산 등 대부분의 지표가 크게 왜곡될 수 있다.
마지막으로, 시계열 데이터나 품질관리 분야에서의 이상값은 프로세스의 이상 신호로 간주되므로, 이를 제거하고 정상 범위 내 데이터만 분석하는 것이 품질 유지에 중요하다.
예를 들어 마케팅 데이터 분석에서 어떤 고객의 구매 금액이 다른 고객에 비해 매우 크다면, 이는 VIP 고객의 행동 특성을 나타내는 중요한 정보일 수 있다.
이 경우 극단 값은 단순한 오류가 아니라 핵심 정보가 된다.
예를 들어 IQR 방식이나 표준편차 기준을 사용할 때, 해당 기준에서 벗어나는 값은 극단 값으로 처리되지만 실제로는 정규분포가 아닌데이터일 경우, 자연스러운 분포의 일부일 수 있다.
이 때 무리하게 극단 값을 제거하는 것은 오히려 왜곡된 분석을 유발할 수 있다.
극단 값이 분석 목적에 따라 유지되어야 하는 경우도 많다.
이 경우 극단 값은 오히려 분석의 핵심이 되었다.
[hwp/pdf]- 자료에 극단값이 포함된 경우 극단값은 반드시 제외해야 하는가 그렇게 생각하는 이유를 논거하시오
포스팅 주소 입력
올린글을 확인할 수 있는 포스팅 주소를 입력해 주세요.
네이버,다음,티스토리,스팀잇,페이스북,레딧,기타 등 각각 4개(20,000p) 까지 등록 가능하며 총 80,000p(8,000원)까지 적립이 가능합니다.