주뇽's 저장소

제 1장 공학과 통계학 본문

응용통계학

제 1장 공학과 통계학

뎁쭌 2021. 10. 17. 20:50
728x90
반응형

 1-1 공학적 방법과 통계적 사고

 

  • 공학자 : 과학적 원리를 효율적으로 이용하여 사회에서 관심을 갖는 문제를 해결하려는 사람

* 공학적 방법은 이러한 문제를 수식화하여 해결하는 접근법이다.

 

*공학적방법을 적용하는 단계

(공학적 단계)

  • 문제를 간결하고 명료하게 정리
  • 문제에 영향을 미치거나 문제해결에 중요한 역할을 하는 요인을 발견
  • 과학적/공학적 지식을 동원하여 문제에 대한 모형 고안

(통계학적 단계)

  • 위 단계에서 제안한 해답이 효과적이고 효율적인지 확인하기 위해 적절한 추가 실험 (
  • 해답에 근거하여 결론을 도출하거나 적절한 제안

 1-2 통계학

통계학 : 응용수학의 한 분야이며 데이터에 근거하여 과학적인 의사결정을 하기 위한 이론과 방법

활용분야로는 공학, 농업, 생명과학, 환경과학, 경제학, 경영학, 시장조사 등 거의 모든 분야이다

  • 통계학자 : 주어진 문제에 대해 필요한 데이터의 형태, 데이터를 수집하는 방법, 문제에 대한 최선의 답을 구하기 위한 분석방법을 결정하는 등의 역할 수행

*통계학은 불확실성을 데이터로 근거하여 미래에 대한 과학적인 판단을 내리는 것이다.

 

 1-3 모집단과 표본

모집단 : 통계분석의 연구대상이 되는 모든개체들의 집합이며 모집단은 반드시 실족하는 개체들의 집합은 아니다.

ex) 대통령 후보에 대한 여론조사 -> 모집단 : 유권자

  • 유한모집단 : 유한개의 추출 단위 (학교 유권자 ,지역 유권자 , 병원 내 암환자, 지역 내 암환자)
  • 무한모집단 : 무한개의 추출 단위 (유권자 , 암환자)

모수(parameter)

  • 모집단의 특성을 나타내는 수치 (평균, 표준편차 ,분산 등을 많이 사용)

표본(Sample)

  • 모집단의 부분집합(일정한 규칙) 
  • 모집단에 비해 크기가 작아 부정확하다 하지만 시간과 자원에 제약때문에 모든 모집단 조사 불가능
  • 일부분(표본)을 통해 전체(모집단)의 특성을 추출하고 이를 통계적으로 추측

통계량

  • 표본평균, 분산, 비율과 같이 표본의 특성을 요약해 나타내는 단위
  • 표본을 추출할 때 마다 통계량의 값은 조금씩 변하는 것이 일반적이다.

 1-4 샘플링

  1.  모집단으로부터 대표성을 갖는 표본을 채취하여 분석 
  2. 잘못된 샘플링을 택하면 그릇된 의사결정을 할 수 있다.
  • 분류
  1. 목적에 따른 분류
    • 사회 , 정치 ,문화
    • 시장조사
    • 제품, 개체
  2. 크기에 따른 분류
    • 단위체 : 각 단위체가 샘플링 단위
    • 연속체 : 실, 철근, 합성수지
    • 집합체 : 연속체 혹은 혼합물(시멘트, 밀가루)
  • 샘플링 방식

 

1.무단계

  • 1) 단순 랜덤 샘플링 : 독릭적이고 동일하게 분포 (iid표본)
    • 모집단이 고른 성향을 갖는다면 선택 (제비뽑기, 난수표) 1000명중 1명 당첨
  • 2) 계통 샘플링 : 모집단에 순서가 있는 경우 일정한 간격으로 표본을 추출
    • ex) 1000명중 50명을 뽑을 때 1~20번(탁구공 사용)까지 랜덤 
    • 만약 7번이 뽑혔다면 20단위로 27, 47 ,67 ...987번으로 결정
    • 1000개의 탁구공 대신 20개만 있어도 된다 또한 번호가 몰려 나오는 걸 방지 할 수 있다.(가족단위 당첨 방지)
  • 3)지그재그 샘플링: 주기상에 의한 치우침을 방지(계통 샘플링과 유사)
    • ex) 1~100중 10개를 뽑는다면
    • 1~10번에서 한 번 11~20번에서 한 번 총 두 번 뽑아서 (2 , 15라 가정)
    • 2, 15, 22, 35 .. 지그재그로 선별

2.다단계

  • 모집단이 계층적으로 구성, 단계별로 무작위로 추출
  • 수십 개 컨테이너 안에 재품을 샘플링 -> 일부 컨테이너 -> 일부 상자 ->일부 제품

 

  • 1)층화 샘플링 : 모집단을 공통의 특성을 갖는 그룹으로 분할
    • 연령, 지역, 성별
  • 2)집락(군락) 샘플링 : 표본단위가 큰 덩어리, 무작위로 집락을 추출 하여 개체 모두 조사
    • 층과 층사이 차이가 크지 않을 경우 사용한다.

샘플링 예시 : 각각 50개의 제품이 들어있는 20개의 상자로부터 100개의 표본을 샘플링하고자 할 때.

  • 단순 랜덤 샘플링 : 전체(1,000개)에서 무작위로 100개를 추출
  • 다단계 샘플링 : 무작위 상자 5개 추출 각 상자에서 20개씩 무작위로 표본 추출
  • 층화 샘플링 : 모든 20개 상자 중 각 상자에서 5개씩 무작위로 추출
  • 집락 샘플링 : 상자 2개를 선택하여 상자 내 모든 제품을 추출
  • 오차 
    • 통계량과 모수와의 차이
      1. 샘플링오차
        • 모집단의 일부분만을 사용하여 모집단에 대한 정보를 추정하는 과정에서 생기는 오차
        • 해결방법 : 랜덤하게 많은 샘플을 추출하여 최소화한다.
      2. 샘플링 외 오차
        • 샘플링과 관계 없음
        • 분석오차, 측정오차 등 기계의 부정확한 측정 또는 측정기술의 부족으로 인한 오차
  • 검토
    1. 신뢰성 : 데이터가 관리상태에서 추출되었는지
    2. 정밀도 : 산포의 크기로서 , 분산 , 표준편차 ,범위 값이 작을수록 정밀도는 높아진다
    3. 정확성 : 치우침(bias)가 낮아질 수록 정확도는 올라간다.

 1-5 데이터의 종류 

데이터를 공학적 실험이나 설문조사 등을 통하여 수집하기 전에 데이터 수집의 대상에 대한 정확한 이해가 필요하다

데이터의 종류에 따라 수집 및 분석방법이 달라진다.

 

명목척도

  • 편의상 구분한 번호로서, 순서나 크기의 의미를 갖지 않음 
  • 대안들을 상호배타적으로 분류
  • 각각의 대안에 임의적으로 숫자를 부여한다
  • 숫자 자체의 크고 작음은 의미가 없다 , 또한 사칙연산의 의미도 없다
  • ex) 전화번호 ,  주소  (2개의 전화번호를 더해도 의미가 없다)

순서(서열)척도

  • 순서나 차례, 서열등의 의미를 갖지만 사칙연산의 의미는 없다
  • ex 직급, 계급, 순위 , 등급 ( 1등급 + 1등급  ≠ 2등급)

구간척도(간격척도)

  • 숫자간의 차이는 의미를 가진다 사칙연산 중 덧셈과 뺄셈만 의미가 있다
  • 0(Zero)의 의미가 없다  ( 0℃는 물이 얼기 시작하는 온도라는 의미이지 온도가 없다는 의미는 아님)
  • ex 온도  30℃ - 20℃ = 20℃ -10℃ ,  

비율척도

  • 간격뿐만 아니라 비율도 의미가 있다 (사칙연산 모두 가능)
  • 0(Zero)의 의미가 있다 (무게 = 0 은 무게가 없다라는 의미와 같다) 
  • ex) 몸무게 , 키  

 1-6 기술 통계학, 추측 통계학

기술통계학

  • 데이터의 정리 / 데이터의 요약
  • 통계량 계산/ 그래프 표현

추측통계학

  • 모수 추정
  • 가설 검정
  • 적합도 검정

기술통계학 

  • 수집된 데이터를 정리하고 대표치를 산정하거나 그래프로 모집단의 특성을 파악하는 방법을 다루는 분야이다.
  • 측정이나 실험에서 수집한 데이터의 정리, 표현, 요약, 해석 등을 통해 데이터의 특성을 규명
  • 데이터의 양이 방대할 때 대표치,변동의 크기, 분폰의 형태등을 요약해 방대한 데이터 집단의 특성을 쉽게 알아봄
  • ex) 히스토그램, 상자그림 ,파레토그림, 산점도 ....

추측통계학

  • 실험이나 조사를 통해 얻은 통계량으로부터 모집단의 분포를 특정 짓는 모수를 추측하는 통계적 방법
  • 데이터에 내포된 정보를 분석하여 불확실한 사실에 대한 추론을 하는 분야
  • 기술통계학으로 구한 표본정보를 이용하여 모집단의 특성 및 가설의 진위등을 추론하는 방법
  • 통계적 모형을 설정하고, 설정된 모형이 합리적인지의 여부를 평가, 데이터로부터 얻어지는 정보를 근거로 하여 미래에 일어날 형상에 대한 예측을 한다.

'응용통계학' 카테고리의 다른 글

4. 확률변수와 확률분포  (0) 2021.10.24
3. 확률  (0) 2021.10.23
2. 데이터의 정리와 요약  (0) 2021.10.23