반응형
1. MZ 세대의 PPL 생각
2. kaggle - Predict Future Sales 데이터 전처리 시작(스케치)
MZ 세대의 PPL 생각
1. 뒷광고보단 앞광고(유튜브의 뒷광고로 인해 뒷광고의 부정적인 시각 영향이 급격하게 증가하고 있음)
2. 광고라면 광고라고 게시를 하는게 긍정적으로 광고에 접할 수 있음
3. 과장하지 않은 솔직한 광고(이 화장품 5통이나 쓰고 있어요(?))
kaggle - Predict Future Sales 데이터 전처리 시작(스케치)
1) 라이브러리 패키지 설치 및 불러오기
2) csv 파일 읽기
3) 데이터 변수 확인
4) 결측치 확인
5) 결측치 제거
6) 중복값 확인
7) 중복값 제거
import pandas as pd
import numpy as np
items = pd.read_csv("C:/Users/User/Desktop/ka/items.csv")
items_categories = pd.read_csv("C:/Users/User/Desktop/ka/item_categories.csv")
train = pd.read_csv("C:/Users/User/Desktop/ka/sales_train.csv")
test = pd.read_csv("C:/Users/User/Desktop/ka/shops.csv")
shops = pd.read_csv("C:/Users/User/Desktop/ka/shops.csv")
sample_submission = pd.read_csv("C:/Users/User/Desktop/ka/sample_submission.csv")
#데이터 리스트화
list_item = ['items','items_categories','train','test','shops','sample_submission']
#결측치 확인
for i in list_item :
print(pd.isnull(i))
#중복값 확인 -> 이름에 중복값이 있는 경우 삭제
print(sum(items.duplicated(['item_name']))) #items.csv 파일 확인
print(sum(items_categories.duplicated(['item_category_name']))) #items_categories.csv 파일 확인
print(sum(shops.duplicated(['shop_name']))) #shops.csv 파일 확인
#shop_name에 완전 비슷한 이름이 있는지 확인
uniq_shops_name = test['shop_name'].unique()
for i in list([10, 11, 0, 57, 1, 58]) :
print(i, i in uniq_shops_name)
new_shop_id = {11: 10, 0: 57, 1: 58}
shops['shop_id'] = shops['shop_id'].apply(lambda x: new_shop_id[x] if x in new_shop_id.keys() else x)
train['shop_id'] = train['shop_id'].apply(lambda x: new_shop_id[x] if x in new_shop_id.keys() else x)
# 칼럼변수와 예측 변수 간의 상관관계 분석
train.corr()
# Outlier 확인
plt.figure(figsize=(10,4))
plt.xlim(-100, 3000)
sns.boxplot(x=train.item_cnt_day)
반응형
'자기개발 > TIL' 카테고리의 다른 글
TIL(Today I Learned) 20200912 - 20200913 (0) | 2020.09.14 |
---|---|
TIL(Today I Learned) 20200911 (0) | 2020.09.11 |
TIL(Today I Learned) 20200910 (0) | 2020.09.10 |
TIL(Today I Learned) 20200909 (0) | 2020.09.09 |
TIL(Today I Learned) 20200907 (0) | 2020.09.07 |
TIL(Today I Learned) 20200905 - 20200906 (0) | 2020.09.06 |
TIL(Today I Learned) 20200904 (0) | 2020.09.04 |
TIL(Today I Learned) 20200903 (0) | 2020.09.03 |
최근댓글