주어진 크기의 0으로 채워진 팬더 데이터 프레임을 만드는 가장 좋은 방법은 무엇입니까?
나는 사용했다 :
zero_data = np.zeros(shape=(len(data),len(feature_list)))
d = pd.DataFrame(zero_data, columns=feature_list)
더 나은 방법이 있습니까?
주어진 크기의 0으로 채워진 팬더 데이터 프레임을 만드는 가장 좋은 방법은 무엇입니까?
나는 사용했다 :
zero_data = np.zeros(shape=(len(data),len(feature_list)))
d = pd.DataFrame(zero_data, columns=feature_list)
더 나은 방법이 있습니까?
data
? 그것을 유지하기 위해 다른 구조를 만들어야하는 이유는 무엇입니까?
답변:
이것을 시도 할 수 있습니다.
d = pd.DataFrame(0, index=np.arange(len(data)), columns=feature_list)
%timeit temp = np.zeros((10, 11)); d = pd.DataFrame(temp, columns = ['col1', 'col2',...'col11'])
156 명이 필요합니다. 하지만 %timeit d = pd.DataFrame(0, index = np.arange(10), columns = ['col1', 'col2',...'col11'])
171 명이 필요합니다. 더 빠르지 않다는 것이 놀랍습니다.
d.set_value(params)
초기화 한 후 같은 작업을 수행 할 경우 int / float 문제가 발생할 수 있습니다 d
. 쉬운 수정은 다음과 같습니다 d = pd.DataFrame(0.0, index=np.arange(len(data)), columns=feature_list)
.
내 의견으로는 numpy로 이것을하는 것이 가장 좋습니다.
import numpy as np
import pandas as pd
d = pd.DataFrame(np.zeros((N_rows, N_cols)))
TypeError: 'numpy.float64' object does not support item assignment
np.float64
이미 데이터 프레임이있는 경우 다음이 가장 빠른 방법입니다.
In [1]: columns = ["col{}".format(i) for i in range(10)]
In [2]: orig_df = pd.DataFrame(np.ones((10, 10)), columns=columns)
In [3]: %timeit d = pd.DataFrame(np.zeros_like(orig_df), index=orig_df.index, columns=orig_df.columns)
10000 loops, best of 3: 60.2 µs per loop
비교 :
In [4]: %timeit d = pd.DataFrame(0, index = np.arange(10), columns=columns)
10000 loops, best of 3: 110 µs per loop
In [5]: temp = np.zeros((10, 10))
In [6]: %timeit d = pd.DataFrame(temp, columns=columns)
10000 loops, best of 3: 95.7 µs per loop
여기에 0 값을 입력하여 복사하려는 템플릿 DataFrame이 있다고 가정합니다.
데이터 세트에 NaN이없는 경우 0을 곱하면 훨씬 빠를 수 있습니다.
In [19]: columns = ["col{}".format(i) for i in xrange(3000)]
In [20]: indices = xrange(2000)
In [21]: orig_df = pd.DataFrame(42.0, index=indices, columns=columns)
In [22]: %timeit d = pd.DataFrame(np.zeros_like(orig_df), index=orig_df.index, columns=orig_df.columns)
100 loops, best of 3: 12.6 ms per loop
In [23]: %timeit d = orig_df * 0.0
100 loops, best of 3: 7.17 ms per loop
개선은 DataFrame 크기에 따라 다르지만 속도가 느리다는 것을 알 수 없습니다.
그리고 그것을 위해 :
In [24]: %timeit d = orig_df * 0.0 + 1.0
100 loops, best of 3: 13.6 ms per loop
In [25]: %timeit d = pd.eval('orig_df * 0.0 + 1.0')
100 loops, best of 3: 8.36 ms per loop
그러나:
In [24]: %timeit d = orig_df.copy()
10 loops, best of 3: 24 ms per loop
편집하다!!!
float64를 사용하는 프레임이 있다고 가정하면 이것은 엄청난 차이로 가장 빠를 것입니다! 0.0을 원하는 채우기 번호로 대체하여 모든 값을 생성 할 수도 있습니다.
In [23]: %timeit d = pd.eval('orig_df > 1.7976931348623157e+308 + 0.0')
100 loops, best of 3: 3.68 ms per loop
취향에 따라 외부 적으로 nan을 정의하고 특정 플로트 유형에 관계없이 일반적인 솔루션을 수행 할 수 있습니다.
In [39]: nan = np.nan
In [40]: %timeit d = pd.eval('orig_df > nan + 0.0')
100 loops, best of 3: 4.39 ms per loop