아래 그림과 같이 pandas 데이터 프레임 df가 있습니다.
BrandName Specialty
A H
B I
ABC J
D K
AB L
BrandName 열의 'ABC'와 'AB'를 A로 바꾸고 싶습니다. 누군가 도와 줄 수 있습니까?
답변:
가장 쉬운 방법은 replace
열 에서 방법 을 사용하는 것입니다. 인수는 교체하려는 항목 (여기 ['ABC', 'AB']
)과 교체하려는 항목 ( 'A'
이 경우 문자열 )의 목록입니다.
>>> df['BrandName'].replace(['ABC', 'AB'], 'A')
0 A
1 B
2 A
3 D
4 A
이렇게하면 새 일련의 값이 생성되므로이 새 열을 올바른 열 이름에 할당해야합니다.
df['BrandName'] = df['BrandName'].replace(['ABC', 'AB'], 'A')
inplace=True
, 그렇지 않으면 변하지 않았습니다.
DataFrame
개체에는 강력하고 유연한 replace
방법이 있습니다.
DataFrame.replace(
to_replace=None,
value=None,
inplace=False,
limit=None,
regex=False,
method='pad',
axis=None)
제자리에서 변경해야하는 경우 메소드에 inplace
부울 인수를 replace
사용하십시오.
inplace : 부울, 기본값
False
IfTrue
, in place. 참고 : 이렇게하면이 개체의 다른보기가 수정됩니다 (예 : 열이 DataFrame을 형성 함). 이 경우 호출자를 반환합니다True
.
df['BrandName'].replace(
to_replace=['ABC', 'AB'],
value='A',
inplace=True
)
replace
확장 성이 좋지? ~ 5 백만 행의 정수를 바꿀 때 내 컴퓨터가 충돌하는 것 같습니다. 이 주위에 어떤 방법이 있습니까?
데이터 프레임 생성 :
import pandas as pd
dk=pd.DataFrame({"BrandName":['A','B','ABC','D','AB'],"Specialty":['H','I','J','K','L']})
이제 DataFrame.replace()
기능을 사용하십시오 .
dk.BrandName.replace(to_replace=['ABC','AB'],value='A')
두 가지 주요 방법간에 성능 차이 가 없음 을 보여주고 싶었 습니다.
df = pd.DataFrame(np.random.randint(0,10,size=(100, 4)), columns=list('ABCD'))
def loc():
df1.loc[df1["A"] == 2] = 5
%timeit loc
19.9 ns ± 0.0873 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
def replace():
df2['A'].replace(
to_replace=2,
value=5,
inplace=True
)
%timeit replace
19.6 ns ± 0.509 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
메서드에 a dict
를 전달할 수도 있습니다 pandas.replace
.
data.replace({
'column_name': {
'value_to_replace': 'replace_value_with_this'
}
})
이렇게 하면 다음과 같이 여러 열의 여러 값 을 한 번 에 바꿀 수 있다는 장점이 있습니다 .
data.replace({
'column_name': {
'value_to_replace': 'replace_value_with_this',
'foo': 'bar',
'spam': 'eggs'
},
'other_column_name': {
'other_value_to_replace': 'other_replace_value_with_this'
},
...
})