[AI]/Data Science Fundamentals(14)
-
[Data Science Fundamentals] - Mindmap
www.mindmeister.com/1760014140?t=6mlRcrU32c Data Science Fundamentals taeyoon noh님이 제작하신 공개 마인드맵. www.mindmeister.com에서 자신만의 협업 마인드맵을 무료로 만드세요 www.mindmeister.com
2021.01.30 -
Data Preprocess & EDA(1) - EDA(Exploratory Data Analysis)
EDA 수집한 데이터를 다양한 각도로 관찰하고 이해하는 과정 (시각화) 시각화 같은 도구를 통해서 패턴 발견 데이터의 특이성을 확인 시각화를 통한 가설 검정 [df.head 와 print(df.head()) 의 차이] df.head :
2021.01.30 -
Data Preprocess & EDA(2) - Feature Engineering
Key points Feature Engineering 데이터셋에 존재하는 Feature들을 재조합하여 새로운 Feature를 만드는 것 개념 NA, Null, NaN 차이 object --> int Indexing [Na, Null, NaN 의 차이] 파이썬에서는 NaN(NA)와 Null을 '정해지지 않은 값'의 의미로 같이 사용한다고 함 (R에서의 NA는 '잘못된 값', Null은 '아직 정해지지 않은 값', 서로 다른 의미를 가짐) [DataFrame column중 'object' 형태를 'int'형태로 바꾸는 과정] # column type 중 'object'인 것만 가져오기 labels = df.columns #header 를 labels에 저장 new_labels= [] for i in lab..
2021.01.30 -
Data Preprocess & EDA(3) - Data Manipulation
Key points Data Manipulation 데이터를 쪼개서 내가 원하는 정보를 얻는 것 pandas built-in functions (별도 페이지에 저장) concat/merge melt() groupby() set_index() / reset_index() 개념 tidy data conditioning column swap [Tidy Data] 데이터 형태 변환의 종류이며 데이터 시각화에 쓰이는 여러 라이브러리에 유용하게 쓰임 (ex. seaborn) [Conditioning] if문처럼 column에 원하는 data를 추출할 때 쓰임 # ex. bigger_than_50 = (df['rate'] > 50) # rate 이라는 column에 있는 data 중 50 초과되는 것들만 저장! [D..
2021.01.30 -
Data Preprocess & EDA(4) - Data Visualization
Key Points Data Visualization 데이터 시각화를 통해 Trend 파악 & Insight 얻음 matplotlib (수동작업) seaborn (자동작업) plotly(interactive) Palette Labeling Facet Grid [Palette] 그래프의 색깔을 변환해줌 (지정해주지 않으면 자동 지정) [Labeling] graph = sns.barplot(x,y,data) graph.set_xlabel("x축",weight='bold',fontsize='12) graph.set_ylabel("y축",weight='bold',fontsize='12) graph.set_title("제목",weight='bold',fontsize='12) ==> 지정해줄 수 있음! [Facet..
2021.01.30 -
Statistic(1) - Hypothesis Test(1)
Key Points Hypothesis Test 가설검정 이해 기술 통계치 (Descriptive Statistics) v.s. 추리 통계치 (Inferential Statistics) 기존 데이터 분석 v.s. 모집단 분석 개념 Stduent T-test Null Hypothesis v.s. Alternative Hypothesis One Sample T-test / Two Sample T-test Two-side test / One-side test [Student T-test] [Two-side test] One Sample t-test # H0 : sample_mean == specific_value (D=0) # H1 : sample_mean != specific_value (D>0 or D 평..
2021.01.30