반응형

1. 데이터 과학 로드맵

    - 문제 파악 -> 데이터 분석 및 이해 -> 특징값 추출 -> 모델 수립 및 분석 ->결과 정리 및 발표, 코드 배포

    - 문제 파악 : 데이터 과학의 첫 단계

                     어떤 문제가 있는지 찾아내고 그걸 어떻게 통계적인 혹은 공학적인 문제로 바꿔서 풀 수 있을지 정의함.

    - 데이터 분석 및 이해(기초) : 주어진 데이터를 이해하는 단계

                                          데이터셋 크기가 얼마나 되는지, 주어진 데이터 데이터셋의 전부인지 일부인지 확인

                                          이 데이터가 모집단을 잘 대표하는지, 특이한 이상치나 잡음이 심하지 않은지

                                          원본 데이터가 아니라 임의로 가공한 데이터가 포함되어 있지는 않은지

                                          만일 값이 누락된 데이터 표본이 있다면 얼마나 그리고 왜 누락되었는지 확인

    - 데이터 분석 및 이해(전처리) : 데이터 전처리는 원본 데이터를 분석에 사용하기 좋은 형태로 바꾸는 단계

                                             전처리 프로그램 구현하기

                                             전처리 프로그램으로 데이터 불러오기

                                             불필요한 데이터 걸러내기

                                             원하는 형태로 변환하여 분석에 적합한 형식으로 저장하기

    - 데이터 분석 및 이해(데이터 탐험) : 데이터를 들여다보는 단계

                                                    데이터를 직접 만져보며 데이터에 대한 직관을 키우게 되는 단계

                                                    산포도나 히스토그램. 혹은 시계열 데이터의 시각화

                                                    자료의 간단한 다양한 변환

    - 특징값 추출 : 데이터의 여러 특징을 나타내는 값을 찾는 단계

                        좋은 특징값은 우리가 해석 가능한 어떤 의미를 나타냄

                        문자열 데이터 : 문서에 있는 단어의 평균 길이나 단어 수

                        다양한 지역을 다루는 데이터 : 각 지역의 월 평균 온도

                        데이터 종류마다 널리 알려진 특징값이 있지만, 때론 스스로 특징값을 만들어야 하는 경우도 있음

    - 모델 수집 및 분석 : 통계적인 모형 혹은 머신러닝 모델을 사용하는 단계

                                고객의 충성도를 0에서 1사이의 값으로 나타내기로 했다면 회귀 모델을 사용

                                다양한 고객을 몇 가지 범주로 분류하고자 한다면 군집화 알고리즘을 사용

                                분석 과정을 통해 문제점을 파악해 모델을 개선할 수 있음



2. 선형대수

    - 벡터 : 유한차원의 공간에 존재하는 점

              예) (키, 몸무게, 나이) - 3차원 벡터

    - 벡터의 연산의 합은 각 벡터 상에서 같은 위치에 있는 성분끼리 더한다.



3. 통계

   - 중심 경향성 : 데이터의 중심위치를 나타냄

   - 평균 : 데이터 값을 데이터 포인트의 개수로 나눈 값 / 이상치에 영향을 많이 받음

   - 중앙값(중위수) : 자료를 크기 순으로 정렬했을 떄의 중앙에 있는 값

   - 최빈값 : 데이터에서 가장 자주 나오는 값

   - 분위수 : 데이터의 특정 백분위보다 낮은 값

   - 산포도 : 데이터가 얼마나 퍼져 있는지를 나타냄

   - 범위 : 최댓값과 최솟값의 차이

   - 분산 : 평균으로부터 자료가 어떻게 퍼져있는지를 나타냄

   - 사분위 범위 : 상위 25%에 해당하는 값과 하위 25%에 해당되는 값의 차이

   - 공분산 : 두 변수가 각각의 평균에서 얼마나 떨어져 있는지를 나타냄.

   - 상관계수 : 두 변수의 선형적인 관계를 나타냄 / 공분산에서 각각의 표준편차를 나눠 계산함

                   상관계수는 인관관계를 나타내지는 않음



4. 확률

   - 어떠한 사건의 공간에서 특정 사건이 선택될 때 발생하는 불확실성을 수치로 나타낸 값

   - 예 : 주사위를 던져서 짝수가 나오는 경우

   - 표기법 : 사건 E에 대한 확률 P(E)


5. 종속성과 독립성

   - 사건 E의 발생 여부가 사건 F의 발생 여부에 대한 정보를 제공한다면 두 사건 E와 F는 종속 사건 (dependent events)이라 하고, 그렇지 않다면 독립 사건 (independent event)이라고 한다.

   - 예(독립 사건): 동전을 두 번 던지는 실험에서 두 동전이 모두 뒷면일 사건. P(E, F) = P(E)P(F)

   - 예 (종속 사건): 동전을 두 번 던지는 실험에서 첫 번째 동전이 앞면일 때 두 동전이 모두 뒷면일 사건.



6. 조건부 확률

   - 어떤 사건 F가 일어났을 때 사건 E가 일어날 확률

   - P(E | F) = P(E, F) / P(F)


7. 베이즈 정리

    - 원인의 확률을 계산할 수 있음

    - P(F|E) = P(E | F)P(F) / P(E | F)P(F) + P(E | F c )P(F c )


8. 연속 분포

    - 균등분포, 정규분포


9. 균등분포

    - a와 b사이의 모든 값에 동등한 비중을 준 분포


10. 정규분포

     - 평균과 분산으로 정의된 종모양의 연속확률분포


11. 중심극한정리

     - 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크면 정규분포에 가까워진다.


12. 가설과 추론

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기