«pandas» 태그된 질문

Pandas는 데이터 조작 및 분석을위한 Python 라이브러리입니다. 예를 들어 통계, 실험 과학 결과, 계량 경제학 또는 재무에서 일반적으로 사용되는 데이터 프레임, 다차원 시계열 및 단면 데이터 세트입니다. Pandas는 Python의 주요 데이터 과학 라이브러리 중 하나입니다.


2
Pandas to_csv가있는 float64
다음과 같은 부동 숫자가 포함 된 CSV를 읽고 있습니다. Bob,0.085 Alice,0.005 데이터 프레임으로 가져 와서이 데이터 프레임을 새 위치에 씁니다. df = pd.read_csv(orig) df.to_csv(pandasfile) 이제 이것은 다음 pandasfile과 같습니다. Bob,0.085000000000000006 Alice,0.0050000000000000001 무슨 일이야? 아마도 float32 같은 다른 유형으로 캐스팅해야할까요? 임 사용 팬더 0.9.0 와 1.6.2 NumPy와 .
88 python  numpy  pandas 

5
Pandas 데이터 프레임에서 튜플 열을 분할하는 방법은 무엇입니까?
나는 판다 데이터 프레임을 가지고 있습니다 (이것은 단지 작은 조각입니다) >>> d1 y norm test y norm train len(y_train) len(y_test) \ 0 64.904368 116.151232 1645 549 1 70.852681 112.639876 1645 549 SVR RBF \ 0 (35.652207342877873, 22.95533537448393) 1 (39.563683797747622, 27.382483096332511) LCV \ 0 (19.365430594452338, 13.880062435173587) 1 (19.099614489458364, 14.018867136617146) RIDGE CV …

3
Pandas DataFrame에서 쉼표가있는 숫자 문자열을 부동 소수점으로 변환
수천 마커에 대해 쉼표가있는 문자열로 숫자를 포함하는 DataFrame이 있습니다. 나는 그것들을 수레로 변환해야합니다. a = [['1,200', '4,200'], ['7,000', '-0.03'], [ '5', '0']] df=pandas.DataFrame(a) locale.atof를 사용해야한다고 생각합니다. 과연 df[0].apply(locale.atof) 예상대로 작동합니다. 나는 일련의 수레를 얻습니다. 하지만 DataFrame에 적용하면 오류가 발생합니다. df.apply(locale.atof) TypeError : ( "시리즈를"로 변환 할 수 없습니다. 인덱스 0에서 …
88 python  pandas 


9
Pandas : 각 그룹에서 평균으로 결 측값 채우기
이것은 간단해야하지만 내가 찾은 가장 가까운 것은이 게시물입니다 : pandas : Filling missing values ​​within a group , 그리고 여전히 내 문제를 해결할 수 없습니다 .... 다음 데이터 프레임이 있다고 가정합니다. df = pd.DataFrame({'value': [1, np.nan, np.nan, 2, 3, 1, 3, np.nan, 3], 'name': ['A','A', 'B','B','B','B', 'C','C','C']}) name value 0 …

1
Pandas timeseries 플롯 설정 x 축 주 및 부 눈금 및 레이블
Pandas 시계열 객체에서 플로팅 된 시계열 그래프에 대한 주요 및 보조 xtick 및 레이블을 설정할 수 있기를 원합니다. Pandas 0.9 "새로운 기능"페이지 내용 : "to_pydatetime을 사용하거나 타임 스탬프 유형에 대한 변환기를 등록 할 수 있습니다." 그러나 matplotlib ax.xaxis.set_major_locator및 ax.xaxis.set_major_formatter(및 사소한) 명령을 사용할 수 있도록 그렇게하는 방법을 알아낼 수 없습니다 . …

5
동일한 IPython Notebook 셀에서 둘 이상의 차트 만들기
내 IPython 노트북을 시작했습니다. ipython notebook --pylab inline 이것은 하나의 셀에있는 내 코드입니다. df['korisnika'].plot() df['osiguranika'].plot() 이것은 잘 작동하며 두 개의 선이 그려 지지만 동일한 차트에 있습니다. 각 선을 별도의 차트에 그리고 싶습니다. 그리고 차트가 하나씩이 아니라 나란히 있으면 좋을 것입니다. 두 번째 줄을 다음 셀에 배치하면 두 개의 차트를 얻을 …

1
DataFrame의 각 셀에 기능 적용
다음과 같은 데이터 프레임이 있습니다. A B C foo bar foo bar bar foo foo bar 각 행의 모든 ​​요소 (또는 각 열의 모든 요소)를 살펴보고 다음 함수를 적용하여 후속 DF를 얻고 싶습니다. def foo_bar(x): return x.replace('foo', 'wow') A B C wow bar wow bar bar wow wow bar 각 …


3
Pandas : 열의 모든 값을 변경하는 방법은 무엇입니까?
열이있는 데이터 프레임 "Date"이 있고이 열의 모든 값이 동일한 값 (연도 만 해당)을 갖기를 원합니다. 예: City Date Paris 01/04/2004 Lisbon 01/09/2004 Madrid 2004 Pekin 31/2004 내가 원하는 것은 : City Date Paris 2004 Lisbon 2004 Madrid 2004 Pekin 2004 내 코드는 다음과 같습니다. fr61_70xls = pd.ExcelFile('AMADEUS FRANCE 1961-1970.xlsx') #Here …

3
numpy.timedelta64 값에서 일 추출
pandas / python을 사용하고 있으며 날짜 / 시간을 포함하는 df의 필드에 'to_datetime'함수를 사용하여 생성 된 두 개의 날짜 시계열 s1 및 s2가 있습니다. s2에서 s1을 빼면 s3 = s2-s1 나는 시리즈, s3, 유형을 얻습니다. timedelta64 [ns] 0 385 days, 04:10:36 1 57 days, 22:54:00 2 642 days, 21:15:23 3 615 …
87 python  numpy  pandas 

13
ValueError : numpy.dtype의 크기가 잘못되었습니다. 다시 컴파일 해보세요.
방금 python 2.7에 pandas와 statsmodels 패키지를 설치했습니다. "pd로 pandas 가져 오기"를 시도했을 때이 오류 메시지가 나옵니다. 누구든지 도울 수 있습니까? 감사!!! numpy.dtype has the wrong size, try recompiling Traceback (most recent call last): File "<stdin>", line 1, in <module> File "C:\analytics\ext\python27\lib\site-packages\statsmodels-0.5.0-py2.7-win32.egg\statsmodels\formula\__init__.py", line 4, in <module> from formulatools import handle_formula_data File …

3
두 개의 Pandas 데이터 프레임 결합 (공통 열에 결합)
2 개의 데이터 프레임이 있습니다. restaurant_ids_dataframe Data columns (total 13 columns): business_id 4503 non-null values categories 4503 non-null values city 4503 non-null values full_address 4503 non-null values latitude 4503 non-null values longitude 4503 non-null values name 4503 non-null values neighborhoods 4503 non-null values open 4503 non-null values review_count 4503 non-null …

6
pandas : DataFrame 행에 대한 복잡한 필터
각 행의 함수로 행을 필터링하고 싶습니다. 예 : def f(row): return sin(row['velocity'])/np.prod(['masses']) > 5 df = pandas.DataFrame(...) filtered = df[apply_to_all_rows(df, f)] 또는 더 복잡하고 인위적인 또 다른 예를 들어, def g(row): if row['col1'].method1() == 1: val = row['col1'].method2() / row['col1'].method3(row['col3'], row['col4']) else: val = row['col2'].method5(row['col6']) return np.sin(val) df = pandas.DataFrame(...) …
85 python  pandas 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.