주뇽's 저장소

2. 데이터의 정리와 요약 본문

응용통계학

2. 데이터의 정리와 요약

뎁쭌 2021. 10. 23. 14:20
728x90
반응형

 

2장은 데이터의 정리와 요약을 위한 여러가지 방법에 대해서 정리

  • 도수분포표 
  • 히스토그램
  • 중심위치의 척도
  • 산토의 척도
  • 각종 그래프

2-1 도수분포표(빈도)

  • 변수값, 도수, 상대도수등을 알기 쉽게 표로 정리한 것
  • 구성요소 : 제목, 측정단위, 측정값의 구간, 각 구간의 도수, 도수의 합계 등 측정값의
    최소/최대값 / 범위 / 각 구간별 빈도, 분포의 모양등을 알 수 없다

 

  • 나타내는 내용 
    1. 계급 : 데이터의 전체 범위를 몇 개의 모집단위로 나눈 것, 목(적에 따라 숫자가 정해짐)
    2. 도수 : 각 계급에 속하는 데이터의 수
    3. 상대도수 : 도수/전체 데이터의 수 도수를 전체 데이터의 수로 나눈 값(특정구간에 많이 나올수록 1에 가까움)

 

  • 만드는 단계
    1. 구간을 결정하기 위해 최소치 ,최대치를 구한다 (min, max)
    2. 구간의 개수는 일반적으로 7~15개 정도를 사용한다
    3. 구간의 간격max - min를  구간의 개수로 나눈값보다 약간 큰값을 결정한다.
    4. 편의상 최초 구간 min(반올림) - (구간의 간격/2)를 시작점으로 정한다
    5. 대표치는 구간의 중위수를 나타낸다.
    6. 각 구간에 속하는 데이터의 수를 세어 정리한다.

2-2 체크시트

  • 계수치(불량개수, 결점수 등)의 데이터가 분류항목 중 어디에 집되어 있나를 알아보기 위하여 데이터의 발생 형태를 기록하는 도구
  • 데이터를 정확하고 쉽게 모을 수 있도록 하고 효과적인 분석이 가능하도록 데이터를 정리한다.
  • 종류
    1. 계수표
    2. 분할표
    3. 위치도

2-3 히스토그램

  • 계량치 데이터의 분포로 파악
  • 표본 데이터로부터 모집단 분포의 특성을 추측하기 위함 (형태 , 중심위치 ,산포)
  • 형태

히스토그램의 형태

 

  1. 종모양 : 안정된 프로세스 ,도수가 중심 부근에 가장 많이 분포, 중심에서 멀어질수록 작아진다. 거의 좌우 대칭

종 모양

 2.낙도형 : 히스토그램의 왼쪽 끝이나 오른쪽 끝에 외딴 데이터가 나타난다. 프로세스가 불안정하여 오염된 분포
              소량혼합된 형태

3. 쌍봉우리형 : 중심부근의 도수가 작아 산의 정상이 좌우로 나누어져 분포되어 있다. 프로세스가 두 가지 특성을 갖는 하부 프로세서들이 혼재한 경우에 발생하며, 이들을 분리(층화)하여 각각의 히스토그램을 작성한다.

4. 이빠진형 : 계측기에 문제가 있어 특정 영역의 값이 측정되지 않는 경우에 발생한다.

5.절벽형 : 평균값이 분포의 중심에서 극단적으로 한쪽에 치우쳐 있다. 측정/검사 시의 오류
              ex) 어떤 경계치 이하 또는 이상의 제품을 제외한 경우)로 인해 발생한다.

2-4 중심위치의 척도

  • 주어진 데이터가 있을때 데이터가 어떤 값을 중심으로 분포되어 있는가를 나타내는 양, 대표치
  • 종류
    1. 평균(mean) : 각 데이터의 전체 합 / 데이터의 개수
    2. 중위수(median) : 데이터를 크기순으로 정렬하여 가운데 위치한 값(짝수이면 중앙값 두개의 합 /2)
    3. 최빈치(mode) : 가장 많이 발생한 숫자
    4. 기하평균(geometric mean) 
    5. 조화평균 (harmonic mean)
    6. 절사평균 (trimmed mean) : 상 / 하위 10퍼씩 제외한 나머지 데이터의 평균 (올림픽 체조 점수 방식)

# 평균은 이상치(비정상적으로 크거나 작은 관측치)에 의하여 많은 영향을 받지만 중위수는 이상치에 무관하다.

위 그림처럼 A회사에 직원 1(이상치)때문에 A회사 직원들의 평균 월급이 높은것으로 나온다 

이렇게 이상치가 있을때는 평균이 아닌 중위수를 사용하는 것이 모집단의 데이터를 판단하기에 좋다.

 

중심위치의 대표치를 선정하는 기준

  • 명목척도 (성별, 전화번호) : 최빈치를 사용
  • 순위척도 (순위 , 계급) : 중위수 사용
  • 분포가 대칭적이고 이상점존재하지 않을 시 : 평균
  • 비대칭이거나 이상치존재 : 중위수 (평균을 참고로 사용)

2-5 산포의 척도

  • 데이터의 퍼짐(불균일성)정도를 나타낸다
  • 표본 분산 
    표본 분산
  •  사분위수
    • 데이터를 오름차순으로 정렬 후 4등분했을 경우의 값들
    • 제1사분위수 (Q1): 오름차순 정렬된 데이터의 ¼에 해당, 1+0.25(n-1)번째 데이터의 값
    • 제2사분위수 (Q2): 오름차순 정렬된 데이터의 ½ 에 해당, 중위수와 같은 값
    • 제3사분위수 (Q3): 오름차순 정렬된 데이터의 ¾ 에 해당, 1+0.75(n-1)번째 데이터의 값
      • 데이터가 정수번째가 아닌 경우, 선형 보간법 으로 계산
    • 사분위수의 범위: Q3-Q1

2-6 각종 그래프

  • 상자그림 : 분포의 중심위치와 치우침 정도 , 이상치의 유무를 판단
    1. 관측 데이터를 수평축에 점으로 나타냄
    2. 상자의 중앙에 중위수를 표시
    3. 상자의 위쪽이 제3사분위수(Q3), 아래쪽이 제1사분위수(Q1)
    4. 사분위수 범위 (Q3-Q1)의 1.5배 거리에 울타리(수염)를 나타낸 그림

  • 산점도 :  두 변수(X,Y)의 상관관계를 연구하는데 사용
    1. 하나의 변수가 다른 변수의 원인이 됨을 증명하지는 못하지만 관계의 존재 여부
    2. 한 변수의 값이 변했을 때 다른 변수가 어떻게 변하는지 보여주기 위함. 두 변수의 관련성에 대한 가설을 세우고 검정하기 위한 예비 단계에서 사용될 수 있다.

 

  • 파레토 그림 : 1897년 이탈리아 경제학자 Pareto가 20:80 법칙을 주장하면서 고안한 그림
                      치명적인 소수의 원인을 파악하고, 그 영향을 파악하도록 한 그림
                      ex) 80%의 기부금은 전체 기부자 20%가 기부한 금액
    1. 데이터(예 : 불량건수 혹은 손실금액)의 분류 항목을 결정(원인 - 결과)
    2. 기간을 정하여 데이터를 수집
    3. 분류항목별로 데이터를 집계
    4. 가로축에 크기순으로 분류항목(원인)을 기입하고 세로축에 발생도수 혹은 상대도수(백분율)를 기입
    5. 세로축에 해당하는 막대그래프를 그린다.
    6. 누적상대도수(백분율)를 꺾은선 형태로 그림
    7. 수집기간, 기록자, 목적 등 관련 사항을 기입

결함이 가장 많이 발생한 종류는 핀볼 위치와 숫자이다

이들만 제거한다면 결함의 약 73%를 방지할 수 있다.

 

  • 관리도 : 런 그림의 한 종류
    • 관리하고자 하는 대상(평균, 분산, 불량률, 결함율 등)에 대한 측정치를 관측 순서에 따라 타점하여 연결
    • 관리 통계량의 기대치를 중심선으로 하고, 보통 표준편차의 3배씩 간격을 두어 한계선을 그림
    • 관리 통계량이 한계선을 벗어나거나 이상한 패턴을 나타내면 프로세스에 이상이 발생한 것으로 판정 
      # 중앙선을 기준으로 중앙에서 멀리 떨어질수록 이상이 발생한 것 

'응용통계학' 카테고리의 다른 글

4. 확률변수와 확률분포  (0) 2021.10.24
3. 확률  (0) 2021.10.23
제 1장 공학과 통계학  (0) 2021.10.17