기초통계
- 머신러닝의 근간이 되는 부분 중 하나이다.
통계란?
의사결정에 근거적인 뒷받침을 할 수 있게 해준다.
통계학이란?
사람들이 궁금해 했던 것
- 불확실한 미래를 예측하고 싶어한다.
과거의 데이터를 가지고 미래를 예측하기 위해 나타난 학문이다.
예측, 숫자
학습목표
- 통개학의 개념
- 활용분야
- 통계학용어
- 미분의 개념
통계학과 인공지능의 관계
- 사람이 데이터를 분석하는 방대한 양의 데이터를 기계가 분석
- 기계가 효과적으로 분석 미래예측을 위해 인공지능 필요
통계학이란?
- 과거 자료에 근거하여 불확실한 미래를 대비하기 위해 의사결정을 하고자 하는 학문
- 근거 마련
- 사용 예시
- 전쟁이 언제 일어날지
- 일식이 언제 있을지
- 어떤 물건을 어느 곳에 파는게 이득일지
- 전염병확산성에 따른 정책
- 농작물 풍년일지 흉년일지
- 어떨 때 흉년일지, 농작물의 질까지 예측
- 날씨 예측
- 강수량 %
과거 자료에 근거하여 불확실한 미래를 대비하기 위해 의사결정을 하고자 하는 학문
활용분야
- 기본
- 쓰레기의 양
- 쌀 생산량
- 출산율
- 갈 수록 떨어지고 있다 -> 왜 떨어지고 있는가? -> 양육비, 경제악화, 비혼주의자 상승
- 통계학의 꽃 - 선거
모집단과 표본
- 모집단 : 관심의 대상이 되는 모든 개체의 관측값이나 측정값의 집합
- 표본 : 모집단에서 추출한 일부 관측값이나 측정값의 집합
- 전수조사 : 모집단 전체를 조사하는 것
- 표본조사 : 표본만 가지고 조사하는 것
전수조사와 표본조사
- 시간과 돈이 너무 많이 든다.
- 제대로 된 표본을 확보 하지 않으면 한 쪽으로 쏠린다.
질적자료, 양적자료
- 양적 자료 : 숫자로 표현, 연산가능, 수치형
- 질적 자료 : 의미가 있는 데이터, 범주형
개체, 요인, 변수
- 개체 : 연구자 또는 관찰자가 관심을 갖는 대상 -> 지원자, 신입사원
- 요인 : 개체에 관한 특성 중 연구자가 특별히 관심을 갖는 특성 -> 신입사원의 스펙
- 변수 : 요인을 구성하고 있는 요소 -> 학교성적, 자격증, 경험, 개발능력 등 (스펙을 이루고 있는 각각의 요소)
- 독립변수 (X, 문제 / 특성 / 입력) : 다른 변수에 영향을 받지 않고, 종속 변수에 영향을 주는 변수
- 종속변수 (Y, 정답 / 예측값 / 출력): 종속 또는 의존적인 변수, 독립변수에 영향을 받아서 변화하는 변수
- 군필 미필이라는 변수에 의해 면접에서 탈락
- x값의 변화에 따라 y의 값이 변한다.
플로렌스 나이팅게일
- 정보 : 19세기 영국 간호사이자 통계학자
- 크리미아 전쟁 때 병원의 위생 상태와 의료 시스템의 문제점을 목격, 위생과 간호에 대한 개선을 주장, 병원의 설계와 운영에 대한 연구를 진행
하늘색 : 질병에 의한 사망자 수
갈색 : 전쟁에 의한 사장자 수
분홍색 : 기타..?
도수와 상대도수
Boxplot (상자수염 그래프)
- Median : 중앙값, 홀 수 일때는 편하지만 짝수일땐...
- 최대값에서 중앙값 절반쪼개고최소값에서 중앙값 절반 쪼개기
- Outlier : 4분위 값을 넘어가는 이상치
Null 값이 있다면 값을 채워줘야하고
이상치가 있다면 정상적인 값으로 넣어줘야한다.
평균의 오류
-> 자료의 평균값이 전체 자료를 대표하지 못할 때 발생하는 오차이다.
이상치로 인해 평균값이 크게 끌어올려지게 되어 자료를 대표하지 못하는 평균값이 오게 된다.
이런 경우 중앙 값이나 최반 값을 사용하여 대표값을 계산한다.
- 이상치에 너무 민감하다
- 허점이 크게 드러날 수 밖에 없다.
- 데이터 분석에서 중요한 이슈 중 하나이다.
편차, 분산, 표준편차
- 편차 : 관측값들이 평균으로부터 떨어진 거리
- 분산 : 편차 제곱의 평균 -> 관측값들이 퍼져 있는 정도
- 제곱의 이유 : 마이너스 값이 있을 수 있어서
- 평균을 구할 때 모든 값을 더해서 나누는데 음수가 있으면 값이 안맞다.
- 표준편차 : 분산의 제곱근 -> 제곱된 분산의 스케일을 원래대로 변경
- 분산 시켜버리면 값이 너무 커져버리니까 다시 돌려주겠다.
정규분포, 표준정규분포
산점도 (scatter plot)
- 상관관계
- 양의 관계 : x축이 증가할 때 y측도 증가한다.
- 음의 관계 : x축이 증가할 때 y측도 감소한다.
- 상관계수
- 두 변수의 관계를 하나의 수치로 나타내는 방법
- 상관계수의 공식
- -1 에서 1사이의 값을 가지고 있다
- 0에서 멀어질수록 관계성이 높다
- 마이너스 기호에 따라 음의 관계인지 양의 관계인지 정해짐
미분의 개념
미분이란?
움직이고 변화하는 대상의 "순간적인 변화" 를 설명
즉, 계속해서 변화해 가는 특정한 값을 구하고자 할 때
미분의 실생활 적용이 가능하다.
공공데이터포털 사이트
공공데이터 포털
국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase
www.data.go.kr
통계청 사이트
https://www.kostat.go.kr/ansk/
통계청
통계청
27.101.222.79
도수와 상대도수 실습
멀티 컬럼 설정 방법
# 멀티 컬럼 설정
df_rs.columns = [["",'도수','도수','상대도수','상대도수'],
['진로희망','인공지능반','빅데이터반','인공지능반','빅데이터반']]
df_rs
청 : 한 가지 업무를 담당하는 부서
- 검찰청
- 소방청
- 통계청
처
부