기초통계

- 머신러닝의 근간이 되는 부분 중 하나이다.

 

 

통계란?

의사결정에 근거적인 뒷받침을 할 수 있게 해준다.




 

통계학이란?

사람들이 궁금해 했던 것
- 불확실한 미래를 예측하고 싶어한다.

과거의 데이터를 가지고 미래를 예측하기 위해 나타난 학문이다.
예측, 숫자

 

학습목표

  • 통개학의 개념
  • 활용분야
  • 통계학용어
  • 미분의 개념

 

통계학과 인공지능의 관계

  • 사람이 데이터를 분석하는 방대한 양의 데이터를 기계가 분석
  • 기계가 효과적으로 분석 미래예측을 위해 인공지능 필요

 

 

통계학이란?

- 과거 자료에 근거하여 불확실한 미래를 대비하기 위해 의사결정을 하고자 하는 학문

- 근거 마련

  • 사용 예시
    • 전쟁이 언제 일어날지
    • 일식이 언제 있을지
    • 어떤 물건을 어느 곳에 파는게 이득일지
    • 전염병확산성에 따른 정책
    • 농작물 풍년일지 흉년일지
      • 어떨 때 흉년일지, 농작물의 질까지 예측
    • 날씨 예측
    • 강수량 %

과거 자료에 근거하여 불확실한 미래를 대비하기 위해 의사결정을 하고자 하는 학문

 

 

활용분야
  • 기본
    • 쓰레기의 양
    • 쌀 생산량
    • 출산율
      • 갈 수록 떨어지고 있다 -> 왜 떨어지고 있는가? -> 양육비, 경제악화, 비혼주의자 상승
  • 통계학의 꽃 - 선거

 

모집단과 표본

  • 모집단 : 관심의 대상이 되는 모든 개체의 관측값이나 측정값의 집합
  • 표본 : 모집단에서 추출한 일부 관측값이나 측정값의 집합
  • 전수조사 : 모집단 전체를 조사하는 것
  • 표본조사 : 표본만 가지고 조사하는 것

 

전수조사와 표본조사

  • 시간과 돈이 너무 많이 든다. 
  • 제대로 된 표본을 확보 하지 않으면 한 쪽으로 쏠린다.

 

질적자료, 양적자료

  • 양적 자료 : 숫자로 표현, 연산가능, 수치형
  • 질적 자료 : 의미가 있는 데이터, 범주형

 

개체, 요인, 변수

  • 개체 : 연구자 또는 관찰자가 관심을 갖는 대상 -> 지원자, 신입사원
  • 요인 : 개체에 관한 특성 중 연구자가 특별히 관심을 갖는 특성 -> 신입사원의 스펙
  • 변수 : 요인을 구성하고 있는 요소 -> 학교성적, 자격증, 경험, 개발능력 등 (스펙을 이루고 있는 각각의 요소)
    • 독립변수 (X, 문제 / 특성 / 입력) : 다른 변수에 영향을 받지 않고, 종속 변수에 영향을 주는 변수 
    • 종속변수 (Y, 정답 / 예측값 / 출력): 종속 또는 의존적인 변수, 독립변수에 영향을 받아서 변화하는 변수
      • 군필 미필이라는 변수에 의해 면접에서 탈락
      • x값의 변화에 따라 y의 값이 변한다.

 

 

 

플로렌스 나이팅게일

  • 정보 : 19세기 영국 간호사이자 통계학자
  • 크리미아 전쟁 때 병원의 위생 상태와 의료 시스템의 문제점을 목격, 위생과 간호에 대한 개선을 주장, 병원의 설계와 운영에 대한 연구를 진행

하늘색 : 질병에 의한 사망자 수

갈색 : 전쟁에 의한 사장자 수

분홍색 : 기타..?

 

도수와 상대도수

 

Boxplot (상자수염 그래프)

  • Median : 중앙값, 홀 수 일때는 편하지만 짝수일땐...
    • 최대값에서 중앙값 절반쪼개고최소값에서 중앙값 절반 쪼개기
  • Outlier : 4분위 값을 넘어가는 이상치

Null 값이 있다면 값을 채워줘야하고

이상치가 있다면 정상적인 값으로 넣어줘야한다.

평균의 오류

-> 자료의 평균값이 전체 자료를 대표하지 못할 때 발생하는 오차이다.

이상치로 인해 평균값이 크게 끌어올려지게 되어 자료를 대표하지 못하는 평균값이 오게 된다.

이런 경우 중앙 값이나 최반 값을 사용하여 대표값을 계산한다.

  • 이상치에 너무 민감하다
  • 허점이 크게 드러날 수 밖에 없다.
  • 데이터 분석에서 중요한 이슈 중 하나이다.

 

편차, 분산, 표준편차

  • 편차 : 관측값들이 평균으로부터 떨어진 거리

  • 분산 : 편차 제곱의 평균 -> 관측값들이 퍼져 있는 정도
    • 제곱의 이유 : 마이너스 값이 있을 수 있어서
    • 평균을 구할 때 모든 값을 더해서 나누는데 음수가 있으면 값이 안맞다.
  • 표준편차 : 분산의 제곱근 -> 제곱된 분산의 스케일을 원래대로 변경
    • 분산 시켜버리면 값이 너무 커져버리니까 다시 돌려주겠다.

 

 

정규분포, 표준정규분포

 

 

산점도 (scatter plot)

  • 상관관계
    • 양의 관계 : x축이 증가할 때 y측도 증가한다.
    • 음의 관계 : x축이 증가할 때 y측도 감소한다.

  • 상관계수
    • 두 변수의 관계하나의 수치로 나타내는 방법
    • 상관계수의 공식

  • -1 에서 1사이의 값을 가지고 있다
  • 0에서 멀어질수록 관계성이 높다
  • 마이너스 기호에 따라 음의 관계인지 양의 관계인지 정해짐

 

미분의 개념
미분이란?

움직이고 변화하는 대상의 "순간적인 변화" 를 설명
즉, 계속해서 변화해 가는 특정한 값을 구하고자 할 때
미분의 실생활 적용이 가능하다.

 

 

 

 

 

 

 

 

 

 

공공데이터포털 사이트

https://www.data.go.kr/

 

공공데이터 포털

국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase

www.data.go.kr

 

 

통계청 사이트

https://www.kostat.go.kr/ansk/

 

통계청

통계청

27.101.222.79

 

도수와 상대도수 실습

 

멀티 컬럼 설정 방법

# 멀티 컬럼 설정
df_rs.columns = [["",'도수','도수','상대도수','상대도수'],
                 ['진로희망','인공지능반','빅데이터반','인공지능반','빅데이터반']]
df_rs

 

 

청 : 한 가지 업무를 담당하는 부서

- 검찰청

- 소방청

- 통계청

 

 

 

 

 

 

 

 

 

 

 

+ Recent posts