[Pandas 2] 타이타닉 데이터 프레임 컬럼 다루기 (생성, 삭제, 수정)
저번 시간에는 판다스를 활용하여 타이타닉 데이터를 불러와서 DATA 가공을 했다. 이어서 해보도록 하겠다.
[Pandas-1-] 타이타닉 데이터 셋 불러와서 가공 하기
아래 링크를 클릭 하면, 타이타닉 데이터 셋을 가져 올 수 있다. Titanic - Machine Learning from Disaster | Kaggle Titanic - Machine Learning from Disaster | Kaggle www.kaggle.com 저장 하려면 다음과 같이 가입을 해야된다
reny23.tistory.com
1. 신규컬럼 생성 및 컬럼조회 방법
신규컬럼을 추가하기 위해서는 [] 연산자를 활용하면 된다.
df[신규생성컬럼명] = 해당컬럼의 조건
아래 코드 내용처럼 df[컬럼명], df.컬럼명을 하용 하면 되는데
[]를 사용할때는 문자명이면 ""을 사용해야 하지만 df.컬럼명은 문자명을 따로 쓰지 않아도 된다.
1
2
3
4
5
6
7
|
print("new_columns 이름의 컬럼 추가")
df['new_columns'] = 0
display(df.head())
print("df[['new_columns']]")
display(df[['new_columns']])
print("df.new_columns")
display(df.new_columns)
|
cs |
결과물


결과물에서 보면 미세한 차이가 있다.
판다스에서 1차원은 Series형태이고, 2차원은 DataFrame형태이다. 이걸 구분할 때는 []연산자 괄호의 개수로 구분하면 꽤 유용하다.
df[컬럼명] → 시리즈
df[[컬럼명]] → 데이터프레임
1
2
3
4
5
6
|
print("series type")
print(type(df['new_columns']))
print("DataFrame type")
print(type(df[['new_columns']]))
|
cs |
결과물
이렇게 []연산자의 개수에 따라 차원이 다름을 확인할 수 있다.
2. 컬럼 수정
컬럼 수정은 생성과 비슷하다.
df[컬럼] = 수정할 값
컬럼끼리 계산도 가능하다.
type이 계산 가능 한 것끼리 가능 함으로, Survived컬럼과 Pclass를 계산해보겠다.
물론 int형과 float형 끼리 계산도 가능하고, 문자형*int형도 계산 가능하다.
문자 *문자는 안되지만 문자 + 문자는 가능하다.
1
2
3
4
|
print("컬럼 수정")
df["new_columns"] = df['Survived'] * df['Pclass']
display(df.head())
|
cs |
결과물
3. 컬럼 삭제
컬럼삭제는 두 개가 있다.
del df[컬럼]
df.drop()
del는 한 개만 삭제가 가능해서 여러 개 삭제할때는 df.drop을 사용 하는 것이 편리하다.
1
2
3
4
5
6
7
8
9
10
11
12
|
print("컬럼임의생성")
df['1'] = 1
df['2'] = 2
display(df.head())
print("컬럼삭제")
del df["new_columns"]
display(df.head())
df.drop(['1','2'], axis = 1, inplace = True)
display(df.head())
|
cs |
결과물
df.drop()에서 행의값 row도 삭제 할 수 있다. default값이 행의 값이기 때문에
axis = 1로 설정해 줘야 한다.
inplace = True는 변경된 값을 반영하겠다는 뜻이다.