1. Missing Data 처리

 

  1) dropna  : 각 좌표의 값에 따라 missing data 삭제

  2) fillna     : 임의 값 또는 함수(ffill, bfill)에 따라 missing data 채우기

  3) isnull    :  값이 missing인지 체크후 boolean 반환

  4) notnull  : isnull에 반대

 

2.  데이터 변형

  1) duplicate data 

     data.duplicated()                                     : 중복 확인

     data.drop_duplicates()                              : 중복 데이터 삭제

     data.drop_duplicates(['t1', 't2'], keep='last')    : 중복된 마지막 데이터 유지

  2) func를 사용한 데이터 변경

     lower = data['test'].str.lower()

 

     a_to_b = {

         'A' : '1st',

         'B' : '2st',

         'C' : '3st'

     }

     data['cov'] = lower.map(a_to_b)

     data['cov'].map(lambda x: a_to_b[x.lower()])

 

     # 데이터 replace

     data.replace(10, np.nan)                 : 10 --> np.nan으로 변경

     data.replace([10,11], [np.nan, 0])

 

   

'데이터분석 > pandas' 카테고리의 다른 글

imputing missing values in pandas  (0) 2023.07.03
drop missing data in dataframe  (0) 2023.07.03
nump 사용  (0) 2019.10.31
data crawling  (0) 2019.10.28
pandas 데이터 모델링  (0) 2019.08.25

+ Recent posts