본문 바로가기
MBA/경영통계

[경영통계] 2.정량데이타의 표현

by 컵코 2022. 9. 17.
728x90

1. 정량데이타의 표현방법

  - 표 : 도수분포표와 누적도수분포(정량적 자료나 순서가 있는 정성적 자료만 가능)

 - 그래프 : 히스토그램과 누적백분률곡선

   ※ 로렌츠곡선 : 소득의 평등분배여부 → 처진정도를 통해 소득비율을 판단

   ※ 지니계수 : 소득의 평등분배 여부를 나타내는 지표 ( 0에 가까울수록 평등)

   ※ 히스토그램의 대칭성 :

      ○ 대칭 

      ○ 비대칭

      ○ 종모양 (매우중요 정규분포)

 - stem and leaf display : 히스토그램의 단점을 극복(잠재적 정보 표현)...한계 : 데이타 수가 많아지면 사용하기 어려움

   데이타를 입과 줄기로 나누어서 모든 관측치를 확인할 수 있음

 

2. 데이터집단의 위치척도

   1) 기술통계학 :데이터의 수집, 표현, 특성화

 

3. 척도 : 데이터의 전체적인 특성 (평균, 비율, 최대값...)

  1) 중심척도 

    ① 산술평균 : 관찰값 전부에 대한 정보를 담고 있으나, 극단값의 영향을 받음

    ② 중앙값 : 극단값의 영향을 받지 않는다. 관측값이 바뀌어도 영향이 안받기도 함

    ③ 최빈값 : 카테고리데이터에 많이 사용됨

    ④ Trimmean : 평균을 제외하고 많이 쓰이며, 위아래 일정부분을 제외하고 평균을 계산함

    ⑤ 가중평균 : 중요도에 따라 주관적인 가중치를 둠

 

  2) 상대위치척도

    ① percentiles(퍼센타일, 백분위수) : p퍼센트가 작은값? 10%에게 F학점을 준다면?

    ② 4분위수 : 데이터를 크기 순으로 나열하였을 때 4개의 균등 분할하였을 때 1/4(Q1), 1/2(Q2), 3/4(Q3) 위치의 값 

    ③ 박스 그림 :  최소,최대 4분위수 3개

    ④ 극단값 : 예외적으로 크거나 작은 값 (outlier)

 

   3) 변동성척도 : 데이타가 얼마나 모여있나 퍼져있는가

     ① 분산 : 각 데이터에서 평균까지의 편차를 제곱한 값의 평균(음수방지)

        - 모분산(분모 : N)과 표본분산(분모 : N-1) 공식은 다르다

     ② 표준편차 : 분산의 제곱근 (값이 크다는 것은 변동성이 더크다)

 

728x90

댓글