1. Missing Data 처리
1) dropna : 각 좌표의 값에 따라 missing data 삭제
2) fillna : 임의 값 또는 함수(ffill, bfill)에 따라 missing data 채우기
3) isnull : 값이 missing인지 체크후 boolean 반환
4) notnull : isnull에 반대
2. 데이터 변형
1) duplicate data
data.duplicated() : 중복 확인
data.drop_duplicates() : 중복 데이터 삭제
data.drop_duplicates(['t1', 't2'], keep='last') : 중복된 마지막 데이터 유지
2) func를 사용한 데이터 변경
lower = data['test'].str.lower()
a_to_b = {
'A' : '1st',
'B' : '2st',
'C' : '3st'
}
data['cov'] = lower.map(a_to_b)
data['cov'].map(lambda x: a_to_b[x.lower()])
# 데이터 replace
data.replace(10, np.nan) : 10 --> np.nan으로 변경
data.replace([10,11], [np.nan, 0])
'데이터분석 > pandas' 카테고리의 다른 글
imputing missing values in pandas (0) | 2023.07.03 |
---|---|
drop missing data in dataframe (0) | 2023.07.03 |
nump 사용 (0) | 2019.10.31 |
data crawling (0) | 2019.10.28 |
pandas 데이터 모델링 (0) | 2019.08.25 |