IPython에 다음 데이터 프레임이 있으며 각 행은 단일 주식입니다.
In [261]: bdata
Out[261]:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 21210 entries, 0 to 21209
Data columns:
BloombergTicker 21206 non-null values
Company 21210 non-null values
Country 21210 non-null values
MarketCap 21210 non-null values
PriceReturn 21210 non-null values
SEDOL 21210 non-null values
yearmonth 21210 non-null values
dtypes: float64(2), int64(1), object(4)
"yearmonth"열의 각 날짜별로 모든 항목에 대해 상한 가중 평균 수익을 계산하는 groupby 연산을 적용하고 싶습니다.
예상대로 작동합니다.
In [262]: bdata.groupby("yearmonth").apply(lambda x: (x["PriceReturn"]*x["MarketCap"]/x["MarketCap"].sum()).sum())
Out[262]:
yearmonth
201204 -0.109444
201205 -0.290546
그러나 그런 다음이 값을 원래 데이터 프레임의 인덱스로 다시 "브로드 캐스트"하고 날짜가 일치하는 상수 열로 저장하려고합니다.
In [263]: dateGrps = bdata.groupby("yearmonth")
In [264]: dateGrps["MarketReturn"] = dateGrps.apply(lambda x: (x["PriceReturn"]*x["MarketCap"]/x["MarketCap"].sum()).sum())
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
/mnt/bos-devrnd04/usr6/home/espears/ws/Research/Projects/python-util/src/util/<ipython-input-264-4a68c8782426> in <module>()
----> 1 dateGrps["MarketReturn"] = dateGrps.apply(lambda x: (x["PriceReturn"]*x["MarketCap"]/x["MarketCap"].sum()).sum())
TypeError: 'DataFrameGroupBy' object does not support item assignment
나는이 순진한 임무가 효과가 없어야한다는 것을 알고 있습니다. 그러나 groupby 연산의 결과를 상위 데이터 프레임의 새 열에 할당하는 "올바른"Pandas 관용구는 무엇입니까?
결국, groupby 연산의 출력과 일치하는 날짜가있는 모든 인덱스에 대해 반복되는 상수 값이되는 "MarketReturn"이라는 열이 필요합니다.
이를 달성하기위한 한 가지 해킹은 다음과 같습니다.
marketRetsByDate = dateGrps.apply(lambda x: (x["PriceReturn"]*x["MarketCap"]/x["MarketCap"].sum()).sum())
bdata["MarketReturn"] = np.repeat(np.NaN, len(bdata))
for elem in marketRetsByDate.index.values:
bdata["MarketReturn"][bdata["yearmonth"]==elem] = marketRetsByDate.ix[elem]
그러나 이것은 느리고, 나쁘고, 비파이 토닉입니다.