반응형
츄르사려고 코딩하는 코집사입니다.
In [1]:
#라이브러리 불러오기
import pandas as pd
import os
In [2]:
#기상데이터 read
기상데이터_2003 = pd.read_csv('C:/Users/User/Desktop/AI data/기상데이터/2003년 기상데이터.csv', encoding="CP949")
기상데이터_2004 = pd.read_csv('C:/Users/User/Desktop/AI data/기상데이터/2004년 기상데이터.csv', encoding="CP949")
기상데이터_2005 = pd.read_csv('C:/Users/User/Desktop/AI data/기상데이터/2005년 기상데이터.csv', encoding="CP949")
기상데이터_2006 = pd.read_csv('C:/Users/User/Desktop/AI data/기상데이터/2006년 기상데이터.csv', encoding="CP949")
기상데이터_2007 = pd.read_csv('C:/Users/User/Desktop/AI data/기상데이터/2007년 기상데이터.csv', encoding="CP949")
기상데이터_2008 = pd.read_csv('C:/Users/User/Desktop/AI data/기상데이터/2008년 기상데이터.csv', encoding="CP949")
기상데이터_2009 = pd.read_csv('C:/Users/User/Desktop/AI data/기상데이터/2009년 기상데이터.csv', encoding="CP949")
기상데이터_2010 = pd.read_csv('C:/Users/User/Desktop/AI data/기상데이터/2010년 기상데이터.csv', encoding="CP949")
기상데이터_2011 = pd.read_csv('C:/Users/User/Desktop/AI data/기상데이터/2011년 기상데이터.csv', encoding="CP949")
기상데이터_2012 = pd.read_csv('C:/Users/User/Desktop/AI data/기상데이터/2012년 기상데이터.csv', encoding="CP949")
기상데이터_2013 = pd.read_csv('C:/Users/User/Desktop/AI data/기상데이터/2013년 기상데이터.csv', encoding="CP949")
기상데이터_2014 = pd.read_csv('C:/Users/User/Desktop/AI data/기상데이터/2014년 기상데이터.csv', encoding="CP949")
기상데이터_2015 = pd.read_csv('C:/Users/User/Desktop/AI data/기상데이터/2015년 기상데이터.csv', encoding="CP949")
기상데이터_2016 = pd.read_csv('C:/Users/User/Desktop/AI data/기상데이터/2016년 기상데이터.csv', encoding="CP949")
기상데이터_2017 = pd.read_csv('C:/Users/User/Desktop/AI data/기상데이터/2017년 기상데이터.csv', encoding="CP949")
기상데이터_2018 = pd.read_csv('C:/Users/User/Desktop/AI data/기상데이터/2018년 기상데이터.csv', encoding="CP949")
In [3]:
#2003년 ~ 2018년 기상데이터 합치기
기상데이터 = pd.concat([기상데이터_2003,기상데이터_2004,기상데이터_2005,기상데이터_2006,기상데이터_2007,기상데이터_2008,기상데이터_2009,기상데이터_2010,기상데이터_2011,기상데이터_2012,기상데이터_2013,기상데이터_2014,기상데이터_2015,기상데이터_2016,기상데이터_2017,기상데이터_2018], axis = 0)
In [4]:
기상데이터.columns
Out[4]:
In [5]:
#기상데이터에서 필요한 columns들만 추출하여 최종 기상데이터 만들기
기상데이터_최종 = pd.concat([기상데이터['지점명'], 기상데이터['일시'], 기상데이터['평균기온(°C)'], 기상데이터['최저기온(°C)'], 기상데이터['최고기온(°C)'], 기상데이터['평균 풍속(m/s)'], 기상데이터['평균 상대습도(%)']], axis = 1)
기상데이터_최종.to_csv('기상데이터_최종.csv', encoding = 'CP949')
In [6]:
#AI데이터 read
AI데이터 = pd.read_csv('C:/Users/User/Desktop/AI data/Ainfluenzakorea.csv', encoding = 'CP949')
In [7]:
#AI데이터에서 발생일자 columns 추출
AI데이터_발생일자 = AI데이터['발생일자(진단일)']
In [8]:
발생일 = []
진단일 = []
for i in AI데이터_발생일자:
i.split(sep = ' ')
발생일.append(i[:11])
진단일.append(i[11:])
In [9]:
#AI데이터에서 발생일과 진단일 분리
from re import sub
spec_str = '[!@#$%^&*()~]'
진단일 = [sub(spec_str, '', text) for text in 진단일]
#print('진단일 :', 진단일)
AI데이터['발생일'] = 발생일
AI데이터['진단일'] = 진단일
#여백 처리
AI데이터['발생일'] = [''.join(text.split()) for text in AI데이터['발생일']]
기상데이터_최종['일시'] = [''.join(text.split()) for text in 기상데이터_최종['일시']]
In [10]:
AI데이터.columns
Out[10]:
In [11]:
#AI데이터에서 농장소재지 columns 추출
AI데이터_농장소재지 = AI데이터['농장소재지'].tolist()
#AI데이터의 농장소재지를 분리 후 AI데이터_농장소재지_리에 저장
AI데이터_농장소재지_리 = []
for n in AI데이터_농장소재지:
a = n.split(sep = ' ')
if len(a) == 3 :
b = a[2]
AI데이터_농장소재지_리.append(b)
elif len(a) == 4 :
c = a[3]
AI데이터_농장소재지_리.append(c)
elif len(a) == 5 :
d = a[4]
AI데이터_농장소재지_리.append(d)
In [12]:
#AI데이터의 농장소재지를 분리 후 AI데이터_농장소재지_시구군에 저장
AI데이터_농장소재지_시구군 = []
for g in AI데이터_농장소재지:
f = g.split(sep = ' ')
h = f[1]
AI데이터_농장소재지_시구군.append(h)
In [13]:
#AI데이터에 새로운 columns 리 생성 후 데이터 추가
AI데이터['리'] = AI데이터_농장소재지_리
In [16]:
기상데이터_최종
Out[16]:
반응형
'빅데이터 분석 > AI 조류인플루엔자 예측' 카테고리의 다른 글
빅데이터 분석 AI 조류 인플루엔자 데이터 분석 모델링 - (1) Decision Tree (0) | 2020.12.16 |
---|---|
빅데이터 분석 AI 조류 인플루엔자 데이터 EDA - (3) (0) | 2020.12.16 |
빅데이터 분석 AI 조류 인플루엔자 데이터 샘플링 - (2) (2) | 2020.12.14 |
빅데이터 분석 AI 조류 인플루엔자 데이터 샘플링 - (1) (0) | 2020.12.09 |
빅데이터 분석 AI 조류 인플루엔자 데이터 EDA - (2) (0) | 2020.12.09 |
빅데이터 분석 AI 조류 인플루엔자 데이터 EDA - (1) (0) | 2020.12.02 |
빅데이터 분석 AI 조류 인플루엔자 데이터 전처리(3) (0) | 2020.11.25 |
빅데이터 분석 AI 조류 인플루엔자 데이터 전처리(1) - 기상데이터 (0) | 2020.11.21 |
최근댓글