«pandas» 태그된 질문

Pandas는 데이터 조작 및 분석을위한 Python 라이브러리입니다. 예를 들어 통계, 실험 과학 결과, 계량 경제학 또는 재무에서 일반적으로 사용되는 데이터 프레임, 다차원 시계열 및 단면 데이터 세트입니다. Pandas는 Python의 주요 데이터 과학 라이브러리 중 하나입니다.


13
groupby 개체를 인쇄하는 방법
Pandas로 그룹화 한 결과를 인쇄하고 싶습니다. 데이터 프레임이 있습니다. import pandas as pd df = pd.DataFrame({'A': ['one', 'one', 'two', 'three', 'three', 'one'], 'B': range(6)}) print(df) A B 0 one 0 1 one 1 2 two 2 3 three 3 4 three 4 5 one 5 'A'로 그룹화 한 후 인쇄 …
133 python  pandas 

6
python pandas에서 열의 dtype을 확인하는 방법
숫자 열과 문자열 열을 처리하려면 다른 함수를 사용해야합니다. 내가 지금하고있는 일은 정말 멍청하다. allc = list((agg.loc[:, (agg.dtypes==np.float64)|(agg.dtypes==np.int)]).columns) for y in allc: treat_numeric(agg[y]) allc = list((agg.loc[:, (agg.dtypes!=np.float64)&(agg.dtypes!=np.int)]).columns) for y in allc: treat_str(agg[y]) 이 작업을 수행하는 더 우아한 방법이 있습니까? 예 for y in agg.columns: if(dtype(agg[y]) == 'string'): treat_str(agg[y]) elif(dtype(agg[y]) != 'string'): …
133 python  pandas 

20
Python에서 핫 인코딩을 어떻게 할 수 있습니까?
80 % 범주 형 변수가있는 기계 학습 분류 문제가 있습니다. 분류에 일부 분류자를 사용하려면 핫 인코딩을 하나 사용해야합니까? 인코딩없이 분류기에 데이터를 전달할 수 있습니까? 기능 선택을 위해 다음을 수행하려고합니다. 기차 파일을 읽었습니다. num_rows_to_read = 10000 train_small = pd.read_csv("../../dataset/train.csv", nrows=num_rows_to_read) 카테고리 기능의 유형을 '카테고리'로 변경합니다. non_categorial_features = ['orig_destination_distance', 'srch_adults_cnt', 'srch_children_cnt', 'srch_rm_cnt', …

5
Pandas DataFrame : 조건에 따라 열의 모든 값을 바꿉니다.
다음과 같은 간단한 DataFrame이 있습니다. 'First Season'열에서 모든 값을 선택하고 1990 년이 넘는 값을 1로 바꾸고 싶습니다.이 예에서 Baltimore Ravens만이 1996 년을 1로 바 꾸었습니다 (나머지 데이터는 그대로 유지). 다음을 사용했습니다. df.loc[(df['First Season'] > 1990)] = 1 그러나 'First Season'열의 값뿐만 아니라 해당 행의 모든 ​​값을 1로 대체합니다. 해당 열의 …
132 python  pandas  dataframe 

5
팬더에서 데이터 정규화
팬더 데이터 프레임이 있다고 가정합니다. df . 데이터 프레임의 열 현명한 평균을 계산하고 싶습니다. 이것은 쉬워요: df.apply(average) 그런 다음 현명한 범위는 max (col)-min (col)입니다. 이것은 다시 쉽습니다. df.apply(max) - df.apply(min) 이제 각 요소에 대해 열 평균을 빼고 열 범위로 나누고 싶습니다. 어떻게 해야할지 모르겠습니다. 어떤 도움 / 포인터라도 대단히 감사합니다.
131 python  pandas  numpy 

10
팬더는 데이터 프레임을 튜플 배열로 변환
팬더를 사용하여 일부 데이터를 조작했으며 이제 데이터베이스에 배치 저장을 다시 수행하려고합니다. 이를 위해서는 데이터 프레임을 튜플 배열로 변환해야하며 각 튜플은 데이터 프레임의 "행"에 해당합니다. 내 DataFrame은 다음과 같습니다. In [182]: data_set Out[182]: index data_date data_1 data_2 0 14303 2012-02-17 24.75 25.03 1 12009 2012-02-16 25.00 25.07 2 11830 2012-02-15 24.99 …
131 python  pandas 

3
팬더에서 발생을 계산하는 가장 효율적인 방법은 무엇입니까?
다음과 같이 큰 (약 12M 행) 데이터 프레임 df가 있습니다. df.columns = ['word','documents','frequency'] 따라서 다음은 적시에 실행되었습니다. word_grouping = df[['word','frequency']].groupby('word') MaxFrequency_perWord = word_grouping[['frequency']].max().reset_index() MaxFrequency_perWord.columns = ['word','MaxFrequency'] 그러나 실행하는 데 예상치 못한 시간이 오래 걸립니다. Occurrences_of_Words = word_grouping[['word']].count().reset_index() 내가 여기서 뭘 잘못하고 있니? 큰 데이터 프레임에서 발생을 계산하는 더 좋은 방법이 …
131 python  pandas 

2
변수가 데이터 프레임인지 확인
내 함수 f가 변수로 호출 될 때 var가 pandas 데이터 프레임인지 확인하고 싶습니다. def f(var): if var == pd.DataFrame(): print "do stuff" 해결책은 매우 간단 할 수 있지만 def f(var): if var.values != None: print "do stuff" 예상대로 작동하지 않습니다.
130 python  pandas 

9
열의 문자열에서 원치 않는 부분 제거
DataFrame 열의 문자열에서 원하지 않는 부분을 제거하는 효율적인 방법을 찾고 있습니다. 데이터는 다음과 같습니다. time result 1 09:00 +52A 2 10:00 +62B 3 11:00 +44a 4 12:00 +30b 5 13:00 -110a 이 데이터를 다음과 같이 정리해야합니다. time result 1 09:00 52 2 10:00 62 3 11:00 44 4 12:00 30 …

8
별도의 Pandas DataFrame을 서브 플롯으로 플로팅하려면 어떻게해야합니까?
동일한 값 척도를 공유하지만 열과 인덱스가 다른 Pandas DataFrame이 몇 개 있습니다. 을 호출 할 때 df.plot()별도의 플롯 이미지를 얻습니다. 내가 정말로 원하는 것은 그것들을 모두 서브 플롯과 같은 플롯에 두는 것이지만, 불행히도 나는 어떻게 도움을 줄 수 있는지에 대한 해결책을 찾지 못하고 있습니다.

4
Pandas 데이터 프레임 목록을 함께 연결
하나의 Pandas 데이터 프레임으로 결합하려는 Pandas 데이터 프레임 목록이 있습니다. Python 2.7.10 및 Pandas 0.16.2를 사용하고 있습니다. 다음에서 데이터 프레임 목록을 만들었습니다. import pandas as pd dfs = [] sqlall = "select * from mytable" for chunk in pd.read_sql_query(sqlall , cnxn, chunksize=10000): dfs.append(chunk) 이것은 데이터 프레임 목록을 반환합니다. type(dfs[0]) Out[6]: …

7
csv를 읽을 때 Pandas에서 색인 열 제거
CSV 파일을 가져 오는 다음 코드가 있습니다. 3 개의 열이 있으며 그중 처음 두 개를 변수로 설정하고 싶습니다. 두 번째 열을 변수 "효율"로 설정하면 인덱스 열도 고정됩니다. 인덱스 열을 어떻게 제거 할 수 있습니까? df = pd.DataFrame.from_csv('Efficiency_Data.csv', header=0, parse_dates=False) energy = df.index efficiency = df.Efficiency print efficiency 나는 사용해 보았다 …
128 python  pandas 

5
Pandas 데이터 프레임에 누락 된 날짜 추가
내 데이터는 특정 날짜에 여러 이벤트를 포함하거나 특정 날짜에 이벤트가 없을 수 있습니다. 나는이 사건들을 가지고 날짜별로 카운트를 얻고 그것들을 플로팅합니다. 그러나 내가 그들을 플로팅 할 때 두 시리즈가 항상 일치하지는 않습니다. idx = pd.date_range(df['simpleDate'].min(), df['simpleDate'].max()) s = df.groupby(['simpleDate']).size() 위의 코드에서 idx 는 30 일의 범위가됩니다. 2013 년 1 월 …
127 python  date  plot  pandas  dataframe 


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.