반응형
츄르사려고 코딩하는 코집사입니다.
1. 라이브러리
# 라이브러리 import
import pandas as pd
import numpy as np
2. 탐색적 데이터 분석
1) 데이터 불러오기
#Train Data
train_data = pd.read_csv("C:/Users/yong/Desktop/parkingdata/train.csv")
#Test Data
test_data = pd.read_csv("C:/Users/yong/Desktop/parkingdata/test.csv")
#age gender infomation
age_gender_info = pd.read_csv("C:/Users/yong/Desktop/parkingdata/age_gender_info.csv")
#sample_submission
sample_submission = pd.read_csv("C:/Users/yong/Desktop/parkingdata/sample_submission.csv")
2) 데이터 Head
train_data.head()
3) train / test data 비교
- 각 설명변수간의 평균과 표준편차가 train data와 test data가 비슷하다.
- 가장 큰 차이를 가지고 있는 변수는 단지내주차면수
train_data.describe().T
test_data.describe().T
4) 설명변수 확인
- 아래의 설명변수에서 도보 10분거리 내 버스정류장 수와 지하철 수를 각 버스, 지하철로 변경
# 데이터 컬럼변수 확인
train_data.columns
# 도보 10분거리 내 지하철역 수와 버스정류장 수를 지하철과 버스로 변환
train_data.columns = ['단지코드', '총세대수', '임대건물구분', '지역', '공급유형', '전용면적', '전용면적별세대수',
'공가수', '신분', '임대보증금', '임대료', '지하철', '버스', '단지내주차면수', '등록차량수']
test_data.columns = ['단지코드', '총세대수', '임대건물구분', '지역', '공급유형', '전용면적', '전용면적별세대수',
'공가수', '신분', '임대보증금', '임대료', '지하철', '버스', '단지내주차면수']
5) 중복 데이터 유무 파악
- 중복 데이터를 제거에 따라 학습시키기
i) Train Data
- 320개의 중복 데이터 존재
train_data.shape, train_data.drop_duplicates().shape
ii) Test Data
- 73개의 중복 데이터 존재
test_data.shape, test_data.drop_duplicates().shape
6) 결측치 확인
- 임대보증금, 임대료, 지하철, 버스 설명 변수에 결측치 존재
- 임대보증금 설명변수에는 'D', '-', 공백 결측치 데이터 존재
- 임대료 설명변수에 '-', 결측치 데이터 존재
- 지하철, 버스 -> 결측치 제거, 처리 경우에 따라 학습 시키기(중앙값, 평균값, 최빈값)
# 결측치 있는지 확인
print(train_data.isnull().sum())
print("-----------------------")
print(test_data.isnull().sum())
반응형
최근댓글