Pandas 데이터 프레임 열의 일부 값을 다른 값으로 바꾸기

92

아래 그림과 같이 pandas 데이터 프레임 df가 있습니다.

BrandName Specialty
A          H
B          I
ABC        J
D          K
AB         L

BrandName 열의 'ABC'와 'AB'를 A로 바꾸고 싶습니다. 누군가 도와 줄 수 있습니까?

— 풀킷 자
소스

144

가장 쉬운 방법은 replace열 에서 방법 을 사용하는 것입니다. 인수는 교체하려는 항목 (여기 ['ABC', 'AB'])과 교체하려는 항목 ( 'A'이 경우 문자열 )의 목록입니다.

>>> df['BrandName'].replace(['ABC', 'AB'], 'A')
0    A
1    B
2    A
3    D
4    A

이렇게하면 새 일련의 값이 생성되므로이 새 열을 올바른 열 이름에 할당해야합니다.

df['BrandName'] = df['BrandName'].replace(['ABC', 'AB'], 'A')

— 알렉스 라일리
소스

10

데이터 유형이 데이터 프레임에서 엉망인 경우 (즉, 문자열처럼 보이지만 그렇지 않은 경우) 까다로운 방법은 다음과 같습니다. df [ 'BrandName'] = df [ 'BrandName']. str.replace ([ 'ABC', 'AB '],'A ')

— ski_squaw

3

나도 통과해야했지만 inplace=True, 그렇지 않으면 변하지 않았습니다.

— Gonçalo Peres 龚燿禄

43

바꾸다

DataFrame개체에는 강력하고 유연한 replace방법이 있습니다.

DataFrame.replace(
        to_replace=None,
        value=None,
        inplace=False,
        limit=None,
        regex=False, 
        method='pad',
        axis=None)

제자리에서 변경해야하는 경우 메소드에 inplace부울 인수를 replace사용하십시오.

인플레 이스

inplace : 부울, 기본값 False If True, in place. 참고 : 이렇게하면이 개체의 다른보기가 수정됩니다 (예 : 열이 DataFrame을 형성 함). 이 경우 호출자를 반환합니다 True.

단편

df['BrandName'].replace(
    to_replace=['ABC', 'AB'],
    value='A',
    inplace=True
)

— I159
소스

1

스 니펫 예제에 감사하지만 작동하지 않습니다. 하나의 경우 to_replace 부분에 =가 없으면 오류가 발생합니다. 다른 경우에는 대체하지 않습니다. 어쨌든 v 0.20.1에서 대체 기능의 작동 예를 얻을 수 있습니까?

— Alison S

않습니다 replace확장 성이 좋지? ~ 5 백만 행의 정수를 바꿀 때 내 컴퓨터가 충돌하는 것 같습니다. 이 주위에 어떤 방법이 있습니까?

— guy

13

loc 함수는 여러 값을 대체하는 데 사용할 수 있습니다. 문서 : loc

df.loc[df['BrandName'].isin(['ABC', 'AB'])]='A'

— Saurabh
소스

6

이 솔루션은 기존 데이터 프레임 자체를 변경합니다.

mydf = pd.DataFrame({"BrandName":["A", "B", "ABC", "D", "AB"], "Speciality":["H", "I", "J", "K", "L"]})
mydf["BrandName"].replace(["ABC", "AB"], "A", inplace=True)

— 남 라타 톨 라니
소스

3

데이터 프레임 생성 :

import pandas as pd
dk=pd.DataFrame({"BrandName":['A','B','ABC','D','AB'],"Specialty":['H','I','J','K','L']})

이제 DataFrame.replace()기능을 사용하십시오 .

dk.BrandName.replace(to_replace=['ABC','AB'],value='A')

— Shubham Ranjan
소스

3

두 가지 주요 방법간에 성능 차이 가 없음 을 보여주고 싶었 습니다.

df = pd.DataFrame(np.random.randint(0,10,size=(100, 4)), columns=list('ABCD'))

def loc():
    df1.loc[df1["A"] == 2] = 5
%timeit loc
19.9 ns ± 0.0873 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


def replace():
    df2['A'].replace(
        to_replace=2,
        value=5,
        inplace=True
    )
%timeit replace
19.6 ns ± 0.509 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)

— 클라우 디우 크리 앙가
소스

2

메서드에 a dict를 전달할 수도 있습니다 pandas.replace.

data.replace({
    'column_name': {
        'value_to_replace': 'replace_value_with_this'
    }
})

이렇게 하면 다음과 같이 여러 열의 여러 값 을 한 번 에 바꿀 수 있다는 장점이 있습니다 .

data.replace({
    'column_name': {
        'value_to_replace': 'replace_value_with_this',
        'foo': 'bar',
        'spam': 'eggs'
    },
    'other_column_name': {
        'other_value_to_replace': 'other_replace_value_with_this'
    },
    ...
})

— 사용자 632716
소스

1

이 답변에 대한 Ty. 내가 찾던 바로 그 것이었다. :)

— NikSp