반응형

@notepad_jj2

츄르사려고 코딩하는 코집사입니다.


1. 라이브러리

# 라이브러리 import
import pandas as pd
import numpy as np

2. 탐색적 데이터 분석

1) 데이터 불러오기

#Train Data
train_data = pd.read_csv("C:/Users/yong/Desktop/parkingdata/train.csv")

#Test Data
test_data = pd.read_csv("C:/Users/yong/Desktop/parkingdata/test.csv")

#age gender infomation
age_gender_info = pd.read_csv("C:/Users/yong/Desktop/parkingdata/age_gender_info.csv")

#sample_submission
sample_submission = pd.read_csv("C:/Users/yong/Desktop/parkingdata/sample_submission.csv")

 

2) 데이터 Head

train_data.head()

 

3) train / test data 비교

- 각 설명변수간의 평균과 표준편차가 train data와 test data가 비슷하다.

- 가장 큰 차이를 가지고 있는 변수는 단지내주차면수

train_data.describe().T
test_data.describe().T

Train Data

 

Test Data

 

4) 설명변수 확인

- 아래의 설명변수에서 도보 10분거리 내 버스정류장 수와 지하철 수를 각 버스, 지하철로 변경

# 데이터 컬럼변수 확인
train_data.columns

 

# 도보 10분거리 내 지하철역 수와 버스정류장 수를 지하철과 버스로 변환
train_data.columns = ['단지코드', '총세대수', '임대건물구분', '지역', '공급유형', '전용면적', '전용면적별세대수',
                      '공가수', '신분', '임대보증금', '임대료', '지하철', '버스', '단지내주차면수', '등록차량수']

test_data.columns = ['단지코드', '총세대수', '임대건물구분', '지역', '공급유형', '전용면적', '전용면적별세대수',
                     '공가수', '신분', '임대보증금', '임대료', '지하철', '버스', '단지내주차면수']

 

5) 중복 데이터 유무 파악

- 중복 데이터를 제거에 따라 학습시키기

 

i) Train Data

- 320개의 중복 데이터 존재

train_data.shape, train_data.drop_duplicates().shape

 

ii) Test Data

- 73개의 중복 데이터 존재

test_data.shape, test_data.drop_duplicates().shape

 

6) 결측치 확인

- 임대보증금, 임대료, 지하철, 버스 설명 변수에 결측치 존재

- 임대보증금 설명변수에는 'D', '-', 공백 결측치 데이터 존재

- 임대료 설명변수에 '-', 결측치 데이터 존재

- 지하철, 버스 -> 결측치 제거, 처리 경우에 따라 학습 시키기(중앙값, 평균값, 최빈값)

# 결측치 있는지 확인
print(train_data.isnull().sum())
print("-----------------------")
print(test_data.isnull().sum())

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기