강의자료/머신러닝

02-2 지도학습

파아란 기쁨 2021. 12. 23. 19:11

출처:생활코딩

위의 그림에서 머신러닝을 사람의 감독여부에 따라 지도학습/비지도학습/강화학습으로 구분을 할 수가 있습니다.

또한 지도학습은 이전시간에 용어에서 배웠던 연속형 숫자의 회귀와 분류로 나누어 지는 것을 알 수 있습니다.

오늘은 지도학습에 대해 알아보고 회귀와 분류에 대한 개념을 이해하고 넘어 가 보겠습니다.

 

지도학습이란?

지도학습은 역사를 공부하는 것과 같습니다.

역사를 살펴 보면 과에에 있었던 사건이 원인과 결과로 기록 되어 있습니다.

역사를 알면 어떤 사건이 일어 났을때 그것이 어떤 결과가 일어날 지를 예측 할 수가 있습니다.

마찬가지로 지도학습은 과거의 데이터로부터 학습해서 결과를 예측하는데 주로 사용 됩니다.

우리가 카페 사장이라고 가정하겠습니다.

다음 표는 우리 가게에서 판매된 레모네이드 판매량에 해당하는 데이터를 기록한 표입니다.

출처: 생활코딩

위의 데이터를 살펴 보면 1월 8일 온도가 25도가 되면 미지의 데이터 판매량은 약 50이 될것으로 예측할 수 있습니다.

즉 과거에 대한 학습을 통해서 미지의 데이터를 추측하고 싶을때 머신러닝의 지도학습이 이용될 수 있습니다.

머신러닝의 지도학습을 이용하기 위해서는 충분히 많은 데이터를 수집해야 합니다.

데이터는 독립변수와 종속변수로 이루어져 있어야 합니다.

이것을 지도학습으로 훈련시키면 컴퓨터는 모델을 만듭니다.

위의 데이터의 모델은 다음과 같이 생길것입니다.

온도 * 2 = 판매량

이 모델에 온도를 입력하면 판매량을 예측할 수 있습니다.

머신러닝의 지도학습을 이용하면 온도 * 2 라는 모델을 컴퓨터가 만들어 주는 것입니다.

 

지도학습의 위력이 별로라고 생각되시나요?

상상력을 키워 봅시다.

우리는 5000만명이 이용하는 쿠팡업체의 사장입니다.

쿠팡에서는 유통기한이 짧은 농산물에 대한 새벽배송을 하고 있습니다.

이러한 상황에서 수요를 예측하는 것이 얼마나 중요하고 어려운 일일까요?

농산물을 산지에서 물류센터까지 구매해서 쌓아 놓은 후에 다음날 새벽에 배송을 하는 시스템입니다.

만약 수요예측을 잘못해서 100만개가 필요한데 1만개만 물류센터에 들여 왔다고 하면 99만명은 농산물을 구매하지 못하게 됩니다.

거꾸로 1만개가 필요한데 수요예측을 잘못해서 100만개를 들여 왔다고 하면 99만개를 폐기 처분 해야 합니다.

아마도 쿠팡서비스는 머신러닝이 없었다면 새벽배송이 불가능했을지도 모릅니다.

지도학습을 하기 위해서는 과거의 데이터가 있어야 합니다.

그리고 그 데이터를 독립변수(원인)과 종속변수(결과)로 분리해야 합니다.

이렇게 지도학습은 독립변수와 종속변수를 학습하여 모델을 생성합니다.

이렇게 만들어진 모델에 데이터를 넣어서 사용을 합니다.

실제로 우리가 앞으로 실습을 하는 과정도 이와 같은 형태로 실습을 진행하게 됩니다.

따라서 오늘은 지도학습은 위와 같이 독립변수/종속변수를 선택하여 학습을 시켜서 모델을 생성하고 그 모델을 사용하면 되는 절차만 이해하면 됩니다.

 

회귀(Regression) 이란

예측하고 싶은 종속변수가 연속적인 숫자일때 보통 회귀라는 머신러닝의 방법을 사용합니다.

위와 같이 온도에 따라 결과는 숫자를 예측합니다.

위와 같이 숫자를 예측하고 싶은 경우 회귀를 사용합니다.

앞으로 어떤 문제를 만났는데 그 문제에서 예측하고 싶은 결과가 숫자라고 하면 지도학습의 회귀로 해결하시면 됩니다.

회귀학습의 사례는 다음과 같습니다.

분류(Classification) 란

자격증을 따기 위해 열심히 공부하는 학생들의 데이터를 확인해 보았습니다.

이때 학생들의 공부시간에 따라 자격증 합격여부를 확인 할 수가 있었습니다.

이때 독립변수는 공부시간이 되고 종속변수는 합격여부가 됩니다.

이와 같이 종속변수(결과)가 합격/불합격 과 같이 분류되는 것을 알 수 있습니다.

이 데이터를 학습해서 공부시간에 따라 합격여부를 미리 예측 할 수 있게 됩니다.

이때 과거의 데이터를 통해서 배운다는 점은 지도학습입니다.

앞으로 여러분이 어떤 문제를 만났는데 그 문제에서 추측하고 싶은 결과가 문자 혹은 그룹이라면 지도학습의 분류를 이용해서 해결 하시면 됩니다.

분류를 이용한 예를 살펴 보면 다음과 같습니다.

 

양적데이터와 범주형 데이터

실무에서는 회귀분석을 이용해서 숫자 결과라는 표현 대신에 양적데이터 라는 표현을 사용합니다.

즉 얼마나 큰지, 얼마나 많은지 혹은 어느 정도인지를 의미하는 뜻에서 '양적' 이라고 합니다.

또 실무에서는 텍스트 또는 이름이나 분류 대신에 범주형데이터 라는 표현을 사용합니다.

누군가가 범주형데이터라고 하면 분류를 사용하면 됩니다.

 

분류와 회귀에 사용하는 알고리즘

출처 : 머신러닝도감

 


오늘은 지도학습의 회귀와 분류에 대해 알아 보았는데요~

회귀는 종속변수가 숫자, 분류는 텍스트,이름,문자,그룹 과 같은 경우 사용하면 된다는 것만 이해하시면 됩니다.

또한 실무에서는 숫자는 양적데이터, 문자 는 범주형데이터라고 사용된다는 것 만 이해하고 갑시다.

 

이 문서는 생활코딩의 강의를 참고하여 학생들과 같이 공부하기 위해 작성된 문서입니다.

 

 

[참고]

생활코딩(https://opentutorials.org/course/4548)

머신러닝 도감

 

[인천 서구 원당컴퓨터학원]

 

 

 

원당컴퓨터학원에서는?

1. 4차 산업 시대의 흐름은 컴퓨터를 얼마나 이해하느냐에 따라 삶의 질이 틀려 질 수 있다는 것을 항상 염두에 두고 있습니다.

2. 알고리즘은 프로그래밍의 근원이 되는 문제해결 능력이며, 머신러닝은 IoT등에 의해 모여진 데이터를 활용하는 기법입니다.

3. 이에 따라 초,중,고 학생들이 알기 쉽게 이해하는 인공지능 부터 알고리즘까지 학생들의 실력에 맞춰 수업을 진행중에 있습니다.

4. 현재 초등학생이 고등학생이 되는 때에는 고교학점제 도입에 따라 자신이 전공하고자 하는 특기가 크게 부각 될것입니다.

5. IT 업체중 규모가 큰 곳에서는 코딩테스트(알고리즘테스트)로 블라인드 면접을 수행하는곳이 늘고 있습니다.

6. 미래 IT를 꿈꾸는 학생들의 산실이 되기 위해 항상 최선을 다하는 원당컴퓨터학원이 되겠습니다.

 

※ 정보영재 혹은 인공지능 관련 수업에 관해 궁금하신 분은 문의(032-565-5497) 주세요.

 

 

원당컴퓨터학원 커리큘럼

- OA : 학교 수행 평가에 꼭 필요한 컴퓨터 활용능력 향상

- IT 자격증 과정 : 취업대비,대학생인증제,승진을 위한 국가공인 자격증 취득과정

- 정보영재 : 정보올림피아드 및 알고리즘 대회/소프트웨어특기자전형/디미고 특별전형 대비/코딩테스트 대비를 위한 알고리즘 과정

- 프로젝트반 : 응용프로그래밍/웹프로그래밍/앱프로그래밍 등을 통해 직접 만들어 보면서 컴퓨터 프로그래밍 이해(소프트웨어 학생부종합전형/특성화고(디미고,선린고등) 특별전형대비)

- 인공지능 : 인공지능의 이해 및 실습을 통해 빅데이터 가공(4차 산업 시대의 축이 되는 인공지능 시대를 대비)

- 일반고,과고,영재고,특성화고,컴퓨터학과(SW) 대학생을 위한 내신대비 : python,java,c++,자료구조,알고리즘,이산수학 

 

 

 

 

사업자 정보 표시
원당컴퓨터학원 | 기희경 | 인천 서구 당하동 1028-2 장원프라자 502호 | 사업자 등록번호 : 301-96-83080 | TEL : 032-565-5497 | Mail : icon001@naver.com | 통신판매신고번호 : 호 | 사이버몰의 이용약관 바로가기

'강의자료 > 머신러닝' 카테고리의 다른 글

[파이썬기초] 파이썬 연산  (7) 2022.01.12
02-3 비지도학습  (9) 2022.01.06
02-1 독립변수와 종속변수  (7) 2021.12.15
01-5. 퍼셉트론이란?  (12) 2021.12.03
01-4. 튜링테스트란?  (9) 2021.11.25