2025년, 코딩은 선택이 아닌 필수!

2025년 모든 학교에서 코딩이 시작 됩니다. 먼저 준비하는 사람만이 기술을 선도해 갑니다~

강의자료/인공지능수학

[인공지능수학] 표준편차

원당컴1 2022. 8. 10. 15:48

표준편차를 알기 전에 평균,기댓값,분산 의 의미를 먼저 이해 합니다.

 

1. 기댓값

기댓값(expected value)는 '나올 것이라고 예상하는 값' 입니다.

x가 확률변수이고 P(x)인 사건이 벌어질 때, 예상할 수 있는 결과값이 기댓값입니다.

이것은 어떤 확률적 사건에 대한 평균의 의미로 생각할 수 있습니다.

이 것을 공식으로 다음과 같이 표현 합니다.

 

예를 들어 1~6까지 있는 주사위를 던졌을 때 나오는 기댓값은 다음과 같습니다.

1이 나올 확률 1/6

2가 나올 확률 1/6

3이 나올 확률 1/6

4가 나올 확률 1/6

5가 나올 확률 1/6

6이 나올 확률 1/6

따라서 E[x]=1*1/6 + 2 * 1/6 + 3*1/6 + 4*1/6 + 5*1/6 + 6 *1/6 = 3.5 가 됩니다.

 

2. 평균

다음과 같이 온라인 쇼핑몰의 매출액이 있다고 가정합니다.

고객명 1월 2월 3월 합계
홍길동 30000 30000 30000 90000
이순신 1500 45000 13500 60000
강감찬 2000 0 7000 9000

이렇게 3개월의 매출을 근거로 이후 한달동안 매출이 어느정도 나올지 기댓값을 구해보는 것이 평균입니다.

이 기댓값(평균)을 구해 보면 홍길동-30000,이순신-20000,강감찬-3000 이 됩니다.

 

3. 편차

위의 예에서 홍길동은 꾸준히 30000원씩의 매출이 발생했지만, 이순신/강감찬은 각각 서로 다른 패턴을 보여주게 됩니다.

즉 이번달에 이순신이 20000,강감찬이 3000원이 된다는 보장이 없습니다.

그래서 평균값과 데이터의 차이(편차)를 살펴 보면 다음과 같습니다.

고객명 1월 2월 3월 합계
홍길동 0 0 0 0
이순신 -18500 25000 -75000 0
강감찬 -1000 -3000 4000 0

위와 같이 편차의 관점에서 매출액이 고객별로 흩어져 있는 것을 알 수 있습니다.

이 편차들의 합을 구해 보면 모두 0이 되는데 이러한 편차를 구해서 합치는 것만으로는 매출의 흩어진 정도를 알 수 없습니다.

 

4. 분산

위에서 본 편차의 데이터는 (+)와 (-) 모두 있기 때문에 합치면 0 이 되는 것을 확인 할 수 있습니다.

따라서 데이터의 흩어진 정도를 얻어내려면 (+)와 (-) 부호를 없애 줘야 하는데 편차를 제곱한 다음 합계를 구하고 이것을 다시 평균값으로 만들면 분산이 됩니다.

고객명 1월 2월 3월 합계
홍길동 0 0 0 0
이순신 342,250,000 625,000,000 5,625,000,000 6,592,250,000
강감찬 1,000,000 9,000,000 16,000,000 26,000,000

이렇게 하면 홍길동의 분산은 0 이순신의 분산은 2,197,416,666 강감찬의 분산은 8,666,666 이 된다.

분산을 구하는 공식은 다음과 같습니다.

 

5. 표준편차

위와 같이 분산을 구했을 때 본래 단위 의미를 찾기 위해 분산에 제곱근을 사용하게 되는데 이것이 표준편차 입니다.

따라서 표준편차는 홍길동 0, 이순신 46876, 강감찬 2943 이 됩니다.

이렇게 분산과 표준편차를 이용하면 데이터의 경향을 표현 할 수가 있습니다.

표준편차를 구하는 공식은 다음과 같습니다.

 

인공지능에서 활용

평균과 분산,그리고 표준편차는 과거의 데이터로부터 어떤 특징이나 경향을 밝혀 낼 수 있는 가장 기본적인 방법입니다.

인공지능 모델을 만들기 전에 데이터의 특징을 파악할 때 사용합니다.

 

 

[참고]

인공지능을 위한 수학

사업자 정보 표시
원당컴퓨터학원 | 기희경 | 인천 서구 당하동 1028-2 장원프라자 502호 | 사업자 등록번호 : 301-96-83080 | TEL : 032-565-5497 | Mail : icon001@naver.com | 통신판매신고번호 : 호 | 사이버몰의 이용약관 바로가기