[Questions]Data Preprocess & EDA

2020. 12. 29. 09:21[AI]/Questions

[쉼표가 있는데 csv로 정상적으로 읽힌 이유는 무엇일까요?] (O)

  • Data Type이 'Object'인지 확인해 볼 것!

  • df.types : 각 column의 data type 반환


[Pairplot] (X)

  • 좀 더 조사해볼 것

[csv 파일 불러올 때 Unicode-Error 발생 시] (O)

  • encoding 인자에 한글 전용 인코딩 방식 'euc-kr' 또는 'cp949' 쓰면 됨!
df = pd.read_csv('file.csv', encoding= 'cp949'

[melt개념] (O)

import seaborn as sns

df

a    b    c
a1    b1    c1  ==> melt.(id_vars = 'a', var_name = '1', value_name = '2')
a2    b2    c2

a    1    2    
a1    b    b1
a2    b    b2
a1    c    c1
a2    c    c2

sns.barplot(x= 'a', y = '2' , hue = '1', data = df) 

==> a1 의 b,c feature의 값 과 a2의 b,c feature의 값이 그래프로 표현됨 
(x 는 x축 y 는 y축(그래프로 표현될 values를 의미, hue는 다양한 feature를 의미..한다고 쉽게 생각하자)
728x90