반응형

안녕하세요, 츄르 사려고 코딩하는 집사! 코집사입니다.


1. MZ 세대의 PPL 생각

2. kaggle - Predict Future Sales 데이터 전처리 시작(스케치)


MZ 세대의 PPL 생각


1. 뒷광고보단 앞광고(유튜브의 뒷광고로 인해 뒷광고의 부정적인 시각 영향이 급격하게 증가하고 있음)

2. 광고라면 광고라고 게시를 하는게 긍정적으로 광고에 접할 수 있음

3. 과장하지 않은 솔직한 광고(이 화장품 5통이나 쓰고 있어요(?))


kaggle - Predict Future Sales 데이터 전처리 시작(스케치)


1) 라이브러리 패키지 설치 및 불러오기

2) csv 파일 읽기

3) 데이터 변수 확인

4) 결측치 확인

5) 결측치 제거

6) 중복값 확인

7) 중복값 제거

import pandas as pd
import numpy as np
items = pd.read_csv("C:/Users/User/Desktop/ka/items.csv")
items_categories = pd.read_csv("C:/Users/User/Desktop/ka/item_categories.csv")
train = pd.read_csv("C:/Users/User/Desktop/ka/sales_train.csv")
test = pd.read_csv("C:/Users/User/Desktop/ka/shops.csv")
shops = pd.read_csv("C:/Users/User/Desktop/ka/shops.csv")
sample_submission = pd.read_csv("C:/Users/User/Desktop/ka/sample_submission.csv")
#데이터 리스트화
list_item = ['items','items_categories','train','test','shops','sample_submission']
#결측치 확인
for i in list_item :
    print(pd.isnull(i))
#중복값 확인 -> 이름에 중복값이 있는 경우 삭제
print(sum(items.duplicated(['item_name']))) #items.csv 파일 확인
print(sum(items_categories.duplicated(['item_category_name']))) #items_categories.csv 파일 확인
print(sum(shops.duplicated(['shop_name']))) #shops.csv 파일 확인
#shop_name에 완전 비슷한 이름이 있는지 확인
uniq_shops_name = test['shop_name'].unique()
for i in list([10, 11, 0, 57, 1, 58]) :
    print(i, i in uniq_shops_name)
new_shop_id = {11: 10, 0: 57, 1: 58}
shops['shop_id'] = shops['shop_id'].apply(lambda x: new_shop_id[x] if x in new_shop_id.keys() else x)
train['shop_id'] = train['shop_id'].apply(lambda x: new_shop_id[x] if x in new_shop_id.keys() else x)

# 칼럼변수와 예측 변수 간의 상관관계 분석
train.corr()

# Outlier 확인
plt.figure(figsize=(10,4))
plt.xlim(-100, 3000)
sns.boxplot(x=train.item_cnt_day)


 

반응형

'자기개발 > TIL' 카테고리의 다른 글

TIL(Today I Learned) 20200912 - 20200913  (0) 2020.09.14
TIL(Today I Learned) 20200911  (0) 2020.09.11
TIL(Today I Learned) 20200910  (0) 2020.09.10
TIL(Today I Learned) 20200909  (0) 2020.09.09
TIL(Today I Learned) 20200907  (0) 2020.09.07
TIL(Today I Learned) 20200905 - 20200906  (0) 2020.09.06
TIL(Today I Learned) 20200904  (0) 2020.09.04
TIL(Today I Learned) 20200903  (0) 2020.09.03
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기