데이콘(DACON) 주차수요 예측 AI 경진대회 EDA

츄르사려고 코딩하는 코집사입니다.

1. 라이브러리

# 라이브러리 import
import pandas as pd
import numpy as np

2. 탐색적 데이터 분석

1) 데이터 불러오기

#Train Data
train_data = pd.read_csv("C:/Users/yong/Desktop/parkingdata/train.csv")

#Test Data
test_data = pd.read_csv("C:/Users/yong/Desktop/parkingdata/test.csv")

#age gender infomation
age_gender_info = pd.read_csv("C:/Users/yong/Desktop/parkingdata/age_gender_info.csv")

#sample_submission
sample_submission = pd.read_csv("C:/Users/yong/Desktop/parkingdata/sample_submission.csv")

2) 데이터 Head

train_data.head()

3) train / test data 비교

- 각 설명변수간의 평균과 표준편차가 train data와 test data가 비슷하다.

- 가장 큰 차이를 가지고 있는 변수는 단지내주차면수

train_data.describe().T
test_data.describe().T

4) 설명변수 확인

- 아래의 설명변수에서 도보 10분거리 내 버스정류장 수와 지하철 수를 각 버스, 지하철로 변경

# 데이터 컬럼변수 확인
train_data.columns

# 도보 10분거리 내 지하철역 수와 버스정류장 수를 지하철과 버스로 변환
train_data.columns = ['단지코드', '총세대수', '임대건물구분', '지역', '공급유형', '전용면적', '전용면적별세대수',
                      '공가수', '신분', '임대보증금', '임대료', '지하철', '버스', '단지내주차면수', '등록차량수']

test_data.columns = ['단지코드', '총세대수', '임대건물구분', '지역', '공급유형', '전용면적', '전용면적별세대수',
                     '공가수', '신분', '임대보증금', '임대료', '지하철', '버스', '단지내주차면수']

5) 중복 데이터 유무 파악

- 중복 데이터를 제거에 따라 학습시키기

i) Train Data

- 320개의 중복 데이터 존재

train_data.shape, train_data.drop_duplicates().shape

ii) Test Data

- 73개의 중복 데이터 존재

test_data.shape, test_data.drop_duplicates().shape

6) 결측치 확인

- 임대보증금, 임대료, 지하철, 버스 설명 변수에 결측치 존재

- 임대보증금 설명변수에는 'D', '-', 공백 결측치 데이터 존재

- 임대료 설명변수에 '-', 결측치 데이터 존재

- 지하철, 버스 -> 결측치 제거, 처리 경우에 따라 학습 시키기(중앙값, 평균값, 최빈값)

# 결측치 있는지 확인
print(train_data.isnull().sum())
print("-----------------------")
print(test_data.isnull().sum())

저작자표시

데이콘(DACON) 주차수요 예측 AI 경진대회 EDA

츄르사려고 코딩하는 코집사입니다.

1. 라이브러리

2. 탐색적 데이터 분석

1) 데이터 불러오기

2) 데이터 Head

3) train / test data 비교

4) 설명변수 확인

5) 중복 데이터 유무 파악

6) 결측치 확인

공지사항

전체 카테고리

태그

블로그 인기글

티스토리툴바

츄르사려고 코딩하는 코집사입니다.

1. 라이브러리

2. 탐색적 데이터 분석

1) 데이터 불러오기

2) 데이터 Head

3) train / test data 비교

4) 설명변수 확인

5) 중복 데이터 유무 파악

6) 결측치 확인

공지사항

전체 카테고리

최근 글

최근댓글

태그

블로그 인기글

티스토리툴바