15-02 머신러닝2 와인 품질 고르기

PYTHON/머신러닝

by yeongs 2020. 10. 21. 16:36

# 와인 품질고르기. 머신러닝 프로젝트2
# 1. 캐글 데이터셋 https://www.kaggle.com/datasets
# 2. 서울 열린 데이터 광장 데이터셋을 공개
# 학습, 훈련용 % 조절
# 알고리즘을 변경
# clf = KNeighborsClassifier(n_neighbors=3) # 숫자를 변경. 홀수
# clf = svm.SVC(gamma="auto")
from sklearn.neighbors import KNeighborsClassifier
from sklearn import utils, metrics, svm
##데이터 섞는 셔플 있음
import pandas as pd

# 0. 데이터를 준비 : 학습용, 테스트용 --> 지도학습(데이터들, 레이블)
df = pd.read_csv("winequality-red.csv") # CSV --> DataFrame
df = utils.shuffle(df) # 섞어주기

# 훈련용, 학습용으로 분리 (7:3)
dataLen = df.shape[0] #데이터프레임(엑셀표) 의 행 개수 1599개임
print(dataLen)

studySize = int(dataLen * 0.7)
testSize = dataLen - studySize
print(studySize , ": " ,testSize)
# 데이터와 답(레이블)을 구분
study_data = df.iloc[0:studySize, 0:-1] # 맨 마지막 전까지
study_label = df.iloc[0:studySize, [-1]] # 맨 마지막 꺼
test_data = df.iloc[studySize:, 0:-1] # 맨 마지막 전까지
test_label = df.iloc[studySize:, [-1]] # 맨 마지막 꺼
# 1. 머신러닝 알고리즘 선택 ( knn,SVM, 의사결정 트리 ...... + 딥러닝도 가능)
clf = svm.SVC(gamma="auto")

# 2. 학습데이터로 훈련시키기 ---> 오래 걸리는 작업 (좋은 컴퓨터 + GPU)
# ---> 모델이 완성됨!
clf.fit(study_data,study_label) ## 공부해 (훈련용 데이터, 답)

# 3. <ex 모의고사 >모델의 정답률(신뢰도) : 테스트용 데이터  ---> 몇% 맞추니??
anwsers = clf.predict(test_data) ##문제 풀어봐 / 예측해봐
score = metrics.accuracy_score(anwsers, test_label) *100
print ("정답률 : %5.2f %%" %(score))

정답률 : 60.42 %

winequality-red.csv

0.10MB

'PYTHON > 머신러닝' 카테고리의 다른 글

15-M 태아 건강 분류 예측하기 (0)	2020.10.21
15-04 머신러닝4 MNIST 덤프(모델저장) (0)	2020.10.21
15-03 머신러닝3 MNIST (0)	2020.10.21
15-01 머신러닝1 붓꽃 (0)	2020.10.21