df
스크립트 (텍스트 포함) 및 스피커 : 두 개의 열 이있는 하나의 데이터 프레임이 있습니다.
Script Speaker
aze Speaker 1
art Speaker 2
ghb Speaker 3
jka Speaker 1
tyc Speaker 1
avv Speaker 2
bhj Speaker 1
그리고 나는 다음 목록을 가지고 있습니다 : L = ['a','b','c']
다음 코드를 사용하면
df = (df.set_index('Speaker')['Script'].str.findall('|'.join(L))
.str.join('|')
.str.get_dummies()
.sum(level=0))
print (df)
이 데이터 프레임을 얻습니다 df2
.
Speaker a b c
Speaker 1 2 1 1
Speaker 2 2 0 0
Speaker 3 0 1 0
내 데이터 프레임의 각 라인에 df2
대해 다음 데이터 프레임을 갖기 위해 화자가 말하는 모든 라인의 백분율 값 을 얻기 위해 코드에 어떤 라인을 추가 할 수 있습니까 df3
?
Speaker a b c
Speaker 1 50% 25% 25%
Speaker 2 100% 0 0
Speaker 3 0 100% 0