강의자료/머신러닝 50

[캐글(Kaggle) 따라하기]05-3. 데이터 전처리 실습하기

이전시간(https://wondangcom.tistory.com/2357)에 최근접 이웃 알고리즘을 실습을 해 보았습니다. 그런데 다음의 데이터를 예측을 해 보면 어떤 결과를 나타낼까요? 길이 25, 무게 150 그램을 판단 해 보면 도미라고 나와야 할 것 같은데 빙어라고 나오는 것을 확인 할 수 있네요. 그래프를 그려 보면 다음의 위치에 있습니다. 왜 이런 결과가 생겼을까요? 이것은 단위가 틀린 것이 문제가 됩니다. 무게를 살펴 보면 도미의 가장 가벼운 무게는 242부터 시작하고 빙어의 무게는 19.9 까지의 무게 인것을 알 수 있습니다. 이때 무게의 거리로 다섯개를 찾아 보면 도미 한마리와 빙어 4마리가 선택 됩니다. 따라서 이러한 단위가 틀린 데이터를 같은 기준으로 맞추어야 합니다. 1. 기준을 맞..

강의자료/머신러닝 2022.12.14 (7)

[캐글(Kaggle) 따라하기]05-2.KNN(K-최근접 이웃) 알고리즘2 - 실습하기

지난시간(https://wondangcom.tistory.com/2356) 에 이어서 KNN 실습을 진행 합니다. 진행하기 전 먼저 지도학습과 비지도 학습에 대한 개념을 이해 하겠습니다. 1. 지도학습과 비지도 학습 지도학습이란? 지도학습에서는 입력(input)과 타깃(target)을 훈련데이터(training data)로 사용하는 학습 방법을 의미한다. 앞에서 살펴본 입력데이터는 길이와 무게를 특성(feature)로 사용하였고 빙어/도미 의 타깃을 주어 해당 특성이 어떤 데이터인지를 살펴 보았다. 비지도학습이란? 비지도 학습은 타깃이 주어지지 않고 입력데이터만 으로 훈련을 하는 학습 방법을 의미한다. 2. 훈련세트와 테스트 세트 다음으로 머신러닝을 훈련 하기 위해서는 훈련세트와 테스트 세트가 필요 합니..

강의자료/머신러닝 2022.12.09 (7)

[캐글(Kaggle) 따라하기]05-1.KNN(K-최근접 이웃) 알고리즘1- 데이터 준비

지난시간(https://wondangcom.tistory.com/2354) 타이타닉 문제를 해결하면서 KNN,의사결정트리,랜덤 포레스트,SVM 의 알고리즘의 정확도를 비교해 보았는데요~ 이번시간에는 KNN 알고리즘에 대해 다루어 보겠습니다. 1. KNN(K-최근접 이웃) 알고리즘이란? 어떤 데이터에 대한 답을 구할 때 주위의 다른 데이터를 보고 다수를 차지하는 것을 정답으로 사용하는 알고리즘입니다. 2. 실습하기 - 실습환경 : 코랩( https://colab.research.google.com/?hl=ko ) - 내용 : 빙어 데이터와 도미 데이터를 분류하는 이진 분류 1. 데이터 준비 먼저 도미와 빙어 데이터가 포함된 데이터를 구합니다. 캐글에는 많은 데이터가 제공되고 있습니다. 캐글에서 제공하는 물..

강의자료/머신러닝 2022.11.22 (9)

[캐글(Kaggle) 따라하기]04. 타이타닉 문제 해결하기

학습목표 타이타닉호의 침몰은 역사상 가장 악명 높은 난파선 중 하나입니다. 이 챌린지에서는 어떤 종류의 사람들이 생존할 가능성이 더 높았습니까? 라는 질문에 답하는 예측 모델을 구축하도록 요청합니다. 캐글에서 타이타닉 문제를 해결해 봅니다. 경진대회 참여 1. https://www.kaggle.com/c/titanic 에 접속합니다. 2. Data 카테고리를 클릭하면 다음과 같이 훈련세트와 테스트 세트가 존재합니다. 훈련세트의 필드명의 조건을 확인 합니다. 3. code 를 클릭하여 새로운 노트를 만듭니다. Data 클릭하여 다음과 같이 3개의 파일을 확인 합니다. 4. 데이터 살펴 보기 import pandas as pd train = pd.read_csv('/kaggle/input/titanic/tr..

강의자료/머신러닝 2022.11.15 (7)

[캐글(Kaggle) 따라하기]03.데이터 시각화를 위한 Seaborn

학습목표 머신러닝은 데이터와의 씨름이다. 데이터를 어떻게 이해하느냐에 따라 모델링 전략이 달라지고 예측 성능에 결정적인 영향을 준다. 주로 탐색적 데이터 분석 과정에서 수행하는 데이터 시각화는 평면적인 데이터에서 주요한 특성을 드러내는 가장 효과적인 수단이다. 따라서 시각화 기법들을 잘 이해하고 적절히 활용하는 것이 중요하다. 다양한 시각화 기법의 개념, 효과 , 구현 방법 등을 알아 보자. Seaborn 라이브러리란? Seaborn 라이브러리는 데이터 시각화를 손쉽게 도와주는 matplotlib 기반의 Python 데이터 시각화 라이브러리이다. Seaborn 라이브러리에 대한 정보는 (https://seaborn.pydata.org/) 에서 참고 하면 된다. Seaborn 라이브러리에서 제공하는 함수는..

강의자료/머신러닝 2022.10.25 (5)

[캐글(Kaggle) 따라하기]02.타이타닉으로 캐글 경진대회 참여 방법 살펴 보기

학습목표 캐글 가입부터 결과 제출까지 전체 프로세스를 배우자. 학습순서 캐글가입 -> 경진대회 참여 -> 주피터 노트북 설정 -> 결과 제출하기 -> 컨트리뷰터 되기 -> 예제코드 캐글 노트북 복사하기 1. 캐글 가입 kaggle.com 에 접속 홈페이지 우측 상단의 Register 클릭하여 가입 구글 계정으로 가입 가능 2. 경진대회 참여 타이타닉 경진대회에 참여해 보자. 이 대회는 타이타닉호를 탄 승객들의 이름,성별,나이,지불한 운임,가족수 등 여러 정보를 주고 각 승객이 살았는지 죽었는지 예측하는 경진대회로 대회라기 보다는 튜토리얼 성격이 강하다. 1. Competitions 메뉴 클릭 2. 검색창에 Titanic 이라고 검색한 뒤 Titanic:Machine Learning from Disaste..

강의자료/머신러닝 2022.09.30 (9)

[캐글(Kaggle) 따라하기]01.왜 캐글인가?

1. 캐글이란? 캐글은 데이터과학 및 머신러닝 경진대회를 주최하는 온라인 커뮤니티로 전 세계 데이터 과학자를 위한 놀이터이다. 캐글에는 방대한 데이터, 유능한 데이터 과학자, 훌륭한 코드,좋은 문화가 있어 데이터 과학 역량을 쌓는데 최적의 플랫폼이다. 2. 캐글을 해야만 하는 이유? 코딩인터뷰에 대비하기 위해 다양한 알고리즘 문제사이트(백준,알고스팟,프로그래머스등)를 활용합니다. 세상이 바뀌어 앞으로의 기술은 알고리즘만으로 해결하기 어려운 문제들에 도전하고 있습니다. 바로 데이터과학과 머신러닝이 대표적입니다. 이 분야에서는 '데이터' 가 핵심입니다. 데이터 없이는 유의미한 문제를 제시 할 수 조차 없습니다. 그리고 양질의 데이터는 개인이나 작은 단체에서는 쉽사리 만들어 내기도 어렵습니다. 이러한 환경에서..

강의자료/머신러닝 2022.09.23 (6)

[딥러닝실습] 이미지 분류(CNN) II-Flatten을 이용한 딥러닝 학습

목표 이미지셋 데이터에서 딥러닝 모델의 특징을 추출하는 방법에 대해 이해 합니다. 실습하기 지난시간에 CNN의 구조를 살펴 보았습니다. CNN의 레이어는 크게 두가지 부분으로 나뉩니다. 1. Convolution/Pooling : 메커니즘은 이미지를 형상으로 분할하고 분석 2. FC(Fully Connected Layer) : 이미지를 분류/설명하는 데 적합하게 예측 위의 이미지는 32*32의 이미지 데이터를 LeNet 모델로 처리하는 이미지 입니다. C1 레이어 : 32*32 이미지를 6개의 5*5 필터와 컨볼루션 연산을 이용해 6장의 28*28 특징맵을 만드는 과정입니다. Convolution 연산은 다음과 같은 과정을 거쳐서 특징점을 만들게 됩니다. 4*4 이미지를 사이즈 3*3 필터를 사용하면 특..

강의자료/머신러닝 2022.09.16 (8)

[딥러닝실습] 이미지 분류(CNN) II-Conv2D을 이용한 딥러닝 학습

목표 컨볼루션에 대한 이해와 컨볼루션 레이어의 사용법을 이해합니다. 실습하기 지난시간에 CNN의 구조를 살펴 보았습니다. CNN의 레이어는 크게 두가지 부분으로 나뉘는 부분에 대해 살펴 보았습니다. 1. Convolution/Pooling : 메커니즘은 이미지를 형상으로 분할하고 분석 2. FC(Fully Connected Layer) : 이미지를 분류/설명하는 데 적합하게 예측 지난시간에는 Fully Connected Layer 부분을 Flatten을 이용하여 2차원 배열의 데이터를 1차원 배열의 데이터로 변환하여 학습하는 모델을 만들어 보았습니다. 오늘은 컨볼루션 부분에 대해 살펴 보겠습니다. 먼저 실습하기 전에 컨볼루션에 대한 부분을 살펴 보겠습니다. 컨볼루션이란 컨볼루션(Convolution)은 ..

강의자료/머신러닝 2022.09.01 (7)

[딥러닝실습] 이미지 분류(CNN) I-이미지 데이터 이해하기

CNN이란 CNN 은 Convolution Neural Network의 약자로 이미지를 인식하는 분류기입니다. CNN의 구조는 다음과 같습니다. 위의 이미지는 32*32의 이미지 데이터를 LeNet 모델로 처리하는 이미지입니다. 1) C1 레이어 : 32*32 이미지를 6개의 5*5 필터와 컨볼루션 연산을 이용해 6장의 28*28 특징맵을 만듭니다. 2) S2 레이어 : 6장의 28 * 28 특성 맵에 대해 서브샘플링을 진행한다. 결과적으로 28 * 28 사이즈의 특성맵이 14*14 사이즈의 특성맵으로 축소된다. 2*2 필터를 stride2로 설정해서 서브샘플링해주기 때문이다. 사용하는 서브샘플링 방법은 평균풀링(average pooling) 이다. 3) C3 레이어 : 6장의 14*14 특성맵에 6개의..

강의자료/머신러닝 2022.08.19 (5)