반응형

@notepad_jj2

츄르사려고 코딩하는 코집사입니다.


 

샘플링_최종데이터
In [50]:
#라이브러리 불러오기 
import pandas as pd 
import os
In [51]:
#기상 및 AI 최종데이터 Read
기상_최종데이터 = pd.read_csv('C:/Users/User/Desktop/바탕화면/AI data/기상데이터/기상_최종데이터.csv', encoding='CP949')
AI_최종데이터 = pd.read_csv('C:/Users/User/Desktop/바탕화면/AI data/AI_최종데이터.csv', encoding="CP949")
In [52]:
AI_최종데이터
Out[52]:
시군 발생연도 발생월 축종 평균기온 최저기온 최고기온 평균풍속 평균상대습도 일교차 철새도래지거리
0 충청남도 아산시 2018 3 5.6 -2.9 14.4 1.5 58.8 17.3 8582.397046
1 경기도 평택시 2018 3 5.5 -0.3 9.4 3.5 67.6 9.7 8966.784833
2 경기도 양주시 2018 3 4.8 -1.0 10.3 2.7 57.5 11.3 1374.739109
3 충청북도 음성군 2018 3 오리 12.2 7.8 14.8 0.8 90.8 7.0 22033.033100
4 충청남도 천안시 2018 2 -5.8 -14.6 3.2 0.8 55.3 17.8 3023.783302
... ... ... ... ... ... ... ... ... ... ... ... ...
937 경상북도 경주시 2003 12 8.4 4.6 14.1 7.6 47.5 9.5 12675.870810
938 전라남도 나주시 2003 12 오리 -0.5 -6.8 5.0 4.0 68.1 11.8 8021.462978
939 충청북도 음성군 2003 12 -4.7 -7.1 -1.3 4.3 46.1 5.8 26746.211120
940 충청북도 음성군 2003 12 오리 0.1 -3.5 2.3 3.2 63.9 5.8 26814.818890
941 충청북도 음성군 2003 12 -1.2 -5.3 3.5 1.4 74.5 8.8 25511.467720

942 rows × 12 columns

In [53]:
#NA 제거
기상_최종데이터 = 기상_최종데이터.dropna()
In [54]:
# 지점명에 따라 데이터프레임 추출
전라남도 = 기상_최종데이터['지점명'] == '순천'
전라남도 = 기상_최종데이터[전라남도]

전라북도 = 기상_최종데이터['지점명'] == '전주'
전라북도 = 기상_최종데이터[전라북도]

충청남도 = 기상_최종데이터['지점명'] == '천안'
충청남도 = 기상_최종데이터[충청남도]

충청북도 = 기상_최종데이터['지점명'] == '제천'
충청북도 = 기상_최종데이터[충청북도]

강원도 = 기상_최종데이터['지점명'] == '태백'
강원도 = 기상_최종데이터[강원도]

경기도 = 기상_최종데이터['지점명'] == '이천'
경기도 = 기상_최종데이터[경기도]

경상남도 = 기상_최종데이터['지점명'] == '부산'
경상남도 = 기상_최종데이터[경상남도]

경상북도 = 기상_최종데이터['지점명'] == '경주시'
경상북도 = 기상_최종데이터[경상북도]

제주도 = 기상_최종데이터['지점명'] == '제주'
제주도 = 기상_최종데이터[제주도]
In [55]:
N = int(input())

경기도_샘플링 = 경기도.sample(n= int(N * 0.086))
강원도_샘플링 = 강원도.sample(n= int(N * 0.133))
충청북도_샘플링 = 충청북도.sample(n= int(N * 0.090))
충청남도_샘플링 = 충청남도.sample(n= int(N * 0.108))
전라북도_샘플링 = 전라북도.sample(n= int(N * 0.097))
전라남도_샘플링 = 전라남도.sample(n= int(N * 0.090))
경상남도_샘플링 = 경상남도.sample(n= int(N * 0.131))
경상북도_샘플링 = 경상북도.sample(n= int(N * 0.132))
제주도_샘플링 = 제주도.sample(n= int(N * 0.132))
4600
In [56]:
# 샘플링 데이터 프레임 합치기
샘플링_최종데이터 = pd.concat([전라남도_샘플링, 전라북도_샘플링, 충청남도_샘플링, 충청북도_샘플링, 강원도_샘플링, 경기도_샘플링, 제주도_샘플링, 경상남도_샘플링, 경상북도_샘플링])
In [57]:
# 샘플링 데이터 대체
샘플링_최종데이터 = 샘플링_최종데이터.replace(['순천', '전주', '천안', '제천', '태백', '이천','제주','경주시','부산'], ['전라남도', '전라북도', '충청남도', '충청북도', '강원도', '경기도','제주도','경상북도','경상남도'])
In [58]:
샘플링_최종데이터.to_csv('샘플링_최종데이터.csv', encoding='CP949')
In [ ]:
 
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기