[경영통계] 2.정량데이타의 표현

728x90

1. 정량데이타의 표현방법

- 표 : 도수분포표와 누적도수분포(정량적 자료나 순서가 있는 정성적 자료만 가능)

- 그래프 : 히스토그램과 누적백분률곡선

※ 로렌츠곡선 : 소득의 평등분배여부 → 처진정도를 통해 소득비율을 판단

※ 지니계수 : 소득의 평등분배 여부를 나타내는 지표 ( 0에 가까울수록 평등)

※ 히스토그램의 대칭성 :

○ 대칭

○ 비대칭

○ 종모양 (매우중요 정규분포)

- stem and leaf display : 히스토그램의 단점을 극복(잠재적 정보 표현)...한계 : 데이타 수가 많아지면 사용하기 어려움

데이타를 입과 줄기로 나누어서 모든 관측치를 확인할 수 있음

2. 데이터집단의 위치척도

1) 기술통계학 :데이터의 수집, 표현, 특성화

3. 척도 : 데이터의 전체적인 특성 (평균, 비율, 최대값...)

1) 중심척도

① 산술평균 : 관찰값 전부에 대한 정보를 담고 있으나, 극단값의 영향을 받음

② 중앙값 : 극단값의 영향을 받지 않는다. 관측값이 바뀌어도 영향이 안받기도 함

③ 최빈값 : 카테고리데이터에 많이 사용됨

④ Trimmean : 평균을 제외하고 많이 쓰이며, 위아래 일정부분을 제외하고 평균을 계산함

⑤ 가중평균 : 중요도에 따라 주관적인 가중치를 둠

2) 상대위치척도

① percentiles(퍼센타일, 백분위수) : p퍼센트가 작은값? 10%에게 F학점을 준다면?

② 4분위수 : 데이터를 크기 순으로 나열하였을 때 4개의 균등 분할하였을 때 1/4(Q1), 1/2(Q2), 3/4(Q3) 위치의 값

③ 박스 그림 : 최소,최대 4분위수 3개

④ 극단값 : 예외적으로 크거나 작은 값 (outlier)

3) 변동성척도 : 데이타가 얼마나 모여있나 퍼져있는가

① 분산 : 각 데이터에서 평균까지의 편차를 제곱한 값의 평균(음수방지)

- 모분산(분모 : N)과 표본분산(분모 : N-1) 공식은 다르다

② 표준편차 : 분산의 제곱근 (값이 크다는 것은 변동성이 더크다)

728x90

주식하는 직장인