윈저화 (winsorization)
페이지 정보
작성자 세이프넷 작성일24-02-06 09:27 조회496회 댓글0건관련링크
본문
일정한 수의 자료가 모이면 분포를 검정하고 그 대표치 ( 평균 )와 자료의 분산정도를 계산해야 한다. 그러나 자료 중에 극단값 ( outlier , 이상값 )이 존재할 수 있다. 이러한 극단값은 자료의 분포에 영향을 미쳐서 대표값을 왜곡할 수 있다. 이러한 경우 이상값인 극단치의 자료를 조정할 필요가 있다. 극단치인 이상값을 단순히 제거해버리는 ‘절단 ( truncation )’은 비용과 시간을 들여 조사한 자료를 버리는 단점이 있다. 표본 수를 제거 ( 축소 )하지 않고 극단치를 극단치 바로 이전의 자료로 부여하는 방법을 ‘winsorization’이라고 한다. 즉 상위 95% 이상의 높은 값들은 모두 95%에 해당하는 값으로 하향 조정하고 , 하위 5% 미만의 낮은 값들은 5%에 해당하는 값으로 상향 조정하는 방법이다.
윈저화의 순서는 다음과 같다.
① 자료를 순서대로 배열한다.
② 가장 낮은 자료와 가장 높은 자료의 끝부터 이상값이 있는지 검정한다.
③ 이상값이라고 판정된 값은 이상값이 아닌 바로 전 자료로 각각 조정한다.
댓글목록
등록된 댓글이 없습니다.