반응형

@notepad_jj2

츄르사려고 코딩하는 코집사입니다.


1. 데이터에 철새도래지 추가하여 EDA 실시

 

Untitled100
In [2]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
from matplotlib import font_manager, rc
In [3]:
#plot 한글 깨짐
plt.rc('font', family='Malgun Gothic')

#막대그래프 한글 깨짐
font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
rc('font', family=font_name)
In [4]:
AI_최종데이터 = pd.read_csv('C:/Users/User/Desktop/바탕화면/AI data/AI_철새도래지_최종데이터.csv', encoding='euc-kr')
In [5]:
AI_최종데이터
Out[5]:
발생여부 발생연도 발생월 축종 평균기온 최저기온 최고기온 평균풍속 평균상대습도 일교차 철새도래지거리
0 1 충청남도 2018 3 5.6 -2.9 14.4 1.5 58.8 17.3 8.58
1 1 경기도 2018 3 5.5 -0.3 9.4 3.5 67.6 9.7 8.97
2 1 경기도 2018 3 4.8 -1.0 10.3 2.7 57.5 11.3 1.37
3 1 충청북도 2018 3 오리 12.2 7.8 14.8 0.8 90.8 7.0 22.03
4 1 충청남도 2018 2 -5.8 -14.6 3.2 0.8 55.3 17.8 3.02
... ... ... ... ... ... ... ... ... ... ... ... ...
5529 0 경상북도 2017 4 15.9 9.2 23.2 3.9 62.6 14.0 17.99
5530 0 경상북도 2012 7 24.1 20.8 28.3 2.4 83.9 7.5 27.53
5531 0 경상북도 2014 1 -0.2 -6.4 5.7 2.8 48.4 12.1 41.31
5532 0 경상북도 2014 6 21.7 16.3 29.2 1.8 71.9 12.9 23.23
5533 0 경상북도 2012 9 20.8 18.7 23.9 5.9 80.6 5.2 15.72

5534 rows × 12 columns

In [6]:
도_df = pd.DataFrame(AI_최종데이터['도'].value_counts())
 = list(도_df.index)

Out[6]:
['경상북도',
 '강원도',
 '경상남도',
 '제주도',
 '충청남도',
 '전라남도',
 '전라북도',
 '경기도',
 '충청북도',
 '세종특별자치시',
 '울산광역시',
 '부산광역시',
 '대구광역시',
 '광주광역시',
 '서울특별시',
 '인천광역시']
In [7]:
충청북도 = AI_최종데이터['도'] == '충청북도'
충청북도 = AI_최종데이터[충청북도]
plt.title('충청북도 AI 발생여부', size = 20)
sns.countplot(x = '발생여부', data = 충청북도)
Out[7]:
<matplotlib.axes._subplots.AxesSubplot at 0x2065ec84e20>
In [8]:
충청남도 = AI_최종데이터['도'] == '충청남도'
충청남도 = AI_최종데이터[충청남도]
plt.title('충청남도 AI 발생여부', size = 20)
sns.countplot(x = '발생여부', data = 충청남도)
Out[8]:
<matplotlib.axes._subplots.AxesSubplot at 0x2065f42d670>
In [9]:
경상북도 = AI_최종데이터['도'] == '경상북도'
경상북도 = AI_최종데이터[경상북도]
plt.title('경상북도 AI 발생여부', size = 20)
sns.countplot(x = '발생여부', data = 경상북도)
Out[9]:
<matplotlib.axes._subplots.AxesSubplot at 0x2065f47ba60>
In [10]:
경상남도 = AI_최종데이터['도'] == '경상남도'
경상남도 = AI_최종데이터[경상남도]
plt.title('경상남도 AI 발생여부', size = 20)
sns.countplot(x = '발생여부', data = 경상남도)
Out[10]:
<matplotlib.axes._subplots.AxesSubplot at 0x2065f4c3b80>
In [11]:
강원도 = AI_최종데이터['도'] == '강원도'
강원도 = AI_최종데이터[강원도]
plt.title('강원도 AI 발생여부', size = 20)
sns.countplot(x = '발생여부', data = 강원도)
Out[11]:
<matplotlib.axes._subplots.AxesSubplot at 0x2065f516850>
In [12]:
제주도 = AI_최종데이터['도'] == '제주도'
제주도 = AI_최종데이터[제주도]
plt.title('제주도 AI 발생여부', size = 20)
sns.countplot(x = '발생여부', data = 제주도)
Out[12]:
<matplotlib.axes._subplots.AxesSubplot at 0x2065f5622b0>
In [13]:
전라남도 = AI_최종데이터['도'] == '전라남도'
전라남도 = AI_최종데이터[전라남도]
plt.title('전라남도 AI 발생여부', size = 20)
sns.countplot(x = '발생여부', data = 전라남도)
Out[13]:
<matplotlib.axes._subplots.AxesSubplot at 0x2065f5a8d30>
In [14]:
전라북도 = AI_최종데이터['도'] == '전라북도'
전라북도 = AI_최종데이터[전라북도]
plt.title('전라북도 AI 발생여부', size = 20)
sns.countplot(x = '발생여부', data = 전라북도)
Out[14]:
<matplotlib.axes._subplots.AxesSubplot at 0x2065f60f5e0>
In [15]:
경기도 = AI_최종데이터['도'] == '경기도'
경기도 = AI_최종데이터[경기도]
plt.title('경기도 AI 발생여부', size = 20)
sns.countplot(x = '발생여부', data = 경기도)
Out[15]:
<matplotlib.axes._subplots.AxesSubplot at 0x2065f64b910>
In [16]:
세종특별자치시 = AI_최종데이터['도'] == '세종특별자치시'
세종특별자치시 = AI_최종데이터[세종특별자치시]
plt.title('세종특별자치시 AI 발생여부', size = 20)
sns.countplot(x = '발생여부', data = 세종특별자치시)
Out[16]:
<matplotlib.axes._subplots.AxesSubplot at 0x2065f6a1e20>
In [17]:
울산광역시 = AI_최종데이터['도'] == '울산광역시'
울산광역시 = AI_최종데이터[울산광역시]
plt.title('울산광역시 AI 발생여부', size = 20)
sns.countplot(x = '발생여부', data = 울산광역시)
Out[17]:
<matplotlib.axes._subplots.AxesSubplot at 0x2065f562580>
In [18]:
부산광역시 = AI_최종데이터['도'] == '부산광역시'
부산광역시 = AI_최종데이터[부산광역시]
plt.title('부산광역시 AI 발생여부', size = 20)
sns.countplot(x = '발생여부', data = 부산광역시)
Out[18]:
<matplotlib.axes._subplots.AxesSubplot at 0x2065f72d370>
In [19]:
인천광역시 = AI_최종데이터['도'] == '인천광역시'
인천광역시 = AI_최종데이터[인천광역시]
plt.title('인천광역시 AI 발생여부', size = 20)
sns.countplot(x = '발생여부', data = 인천광역시)
Out[19]:
<matplotlib.axes._subplots.AxesSubplot at 0x2065f5adee0>
In [20]:
대구광역시 = AI_최종데이터['도'] == '대구광역시'
대구광역시 = AI_최종데이터[대구광역시]
plt.title('대구광역시 AI 발생여부', size = 20)
sns.countplot(x = '발생여부', data = 대구광역시)
Out[20]:
<matplotlib.axes._subplots.AxesSubplot at 0x2065f7cc670>
In [21]:
광주광역시 = AI_최종데이터['도'] == '광주광역시'
광주광역시 = AI_최종데이터[광주광역시]
plt.title('광주광역시 AI 발생여부', size = 20)
sns.countplot(x = '발생여부', data = 광주광역시)
Out[21]:
<matplotlib.axes._subplots.AxesSubplot at 0x2065f7824f0>
In [22]:
서울특별시 = AI_최종데이터['도'] == '서울특별시'
서울특별시 = AI_최종데이터[서울특별시]
plt.title('서울특별시 AI 발생여부', size = 20)
sns.countplot(x = '발생여부', data = 서울특별시)
Out[22]:
<matplotlib.axes._subplots.AxesSubplot at 0x2065f5625e0>
In [23]:
fig = plt.figure(figsize=(25,10))
sns.barplot(x = '도', y = '발생여부', data = AI_최종데이터)
plt.xticks(fontsize = 15)
plt.yticks(fontsize = 15)
plt.xlabel('도', fontsize=20)
plt.ylabel('발생비율', fontsize=20)
plt.title('각 도의 AI 발생 비율', size = 30)
plt.show()
In [25]:
#발생여부에 따른 철새도래지거리 boxplot
sns.boxplot(x = '발생여부', y = '철새도래지거리', data = AI_최종데이터)
Out[25]:
<matplotlib.axes._subplots.AxesSubplot at 0x2065f9a8970>
In [ ]:
 
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기