프로그램 작성 pandas

6

Pandas DataFrame에서 True / False를 1/0에 어떻게 매핑 할 수 있습니까?

파이썬 팬더 DataFrame에 부울 True / False 값이있는 열이 있지만 추가 계산을 위해서는 1/0 표현이 필요합니다. 그렇게 할 수있는 빠른 팬더 / numpy 방법이 있습니까?

133 python numpy pandas

13

Pandas로 그룹화 한 결과를 인쇄하고 싶습니다. 데이터 프레임이 있습니다. import pandas as pd df = pd.DataFrame({'A': ['one', 'one', 'two', 'three', 'three', 'one'], 'B': range(6)}) print(df) A B 0 one 0 1 one 1 2 two 2 3 three 3 4 three 4 5 one 5 'A'로 그룹화 한 후 인쇄 …

133 python pandas

6

python pandas에서 열의 dtype을 확인하는 방법

숫자 열과 문자열 열을 처리하려면 다른 함수를 사용해야합니다. 내가 지금하고있는 일은 정말 멍청하다. allc = list((agg.loc[:, (agg.dtypes==np.float64)|(agg.dtypes==np.int)]).columns) for y in allc: treat_numeric(agg[y]) allc = list((agg.loc[:, (agg.dtypes!=np.float64)&(agg.dtypes!=np.int)]).columns) for y in allc: treat_str(agg[y]) 이 작업을 수행하는 더 우아한 방법이 있습니까? 예 for y in agg.columns: if(dtype(agg[y]) == 'string'): treat_str(agg[y]) elif(dtype(agg[y]) != 'string'): …

133 python pandas

20

Python에서 핫 인코딩을 어떻게 할 수 있습니까?

80 % 범주 형 변수가있는 기계 학습 분류 문제가 있습니다. 분류에 일부 분류자를 사용하려면 핫 인코딩을 하나 사용해야합니까? 인코딩없이 분류기에 데이터를 전달할 수 있습니까? 기능 선택을 위해 다음을 수행하려고합니다. 기차 파일을 읽었습니다. num_rows_to_read = 10000 train_small = pd.read_csv("../../dataset/train.csv", nrows=num_rows_to_read) 카테고리 기능의 유형을 '카테고리'로 변경합니다. non_categorial_features = ['orig_destination_distance', 'srch_adults_cnt', 'srch_children_cnt', 'srch_rm_cnt', …

132 python pandas machine-learning anaconda one-hot-encoding

5

Pandas DataFrame : 조건에 따라 열의 모든 값을 바꿉니다.

다음과 같은 간단한 DataFrame이 있습니다. 'First Season'열에서 모든 값을 선택하고 1990 년이 넘는 값을 1로 바꾸고 싶습니다.이 예에서 Baltimore Ravens만이 1996 년을 1로 바 꾸었습니다 (나머지 데이터는 그대로 유지). 다음을 사용했습니다. df.loc[(df['First Season'] > 1990)] = 1 그러나 'First Season'열의 값뿐만 아니라 해당 행의 모든 값을 1로 대체합니다. 해당 열의 …

132 python pandas dataframe

5

팬더에서 데이터 정규화

팬더 데이터 프레임이 있다고 가정합니다. df . 데이터 프레임의 열 현명한 평균을 계산하고 싶습니다. 이것은 쉬워요: df.apply(average) 그런 다음 현명한 범위는 max (col)-min (col)입니다. 이것은 다시 쉽습니다. df.apply(max) - df.apply(min) 이제 각 요소에 대해 열 평균을 빼고 열 범위로 나누고 싶습니다. 어떻게 해야할지 모르겠습니다. 어떤 도움 / 포인터라도 대단히 감사합니다.

131 python pandas numpy

10

팬더는 데이터 프레임을 튜플 배열로 변환

팬더를 사용하여 일부 데이터를 조작했으며 이제 데이터베이스에 배치 저장을 다시 수행하려고합니다. 이를 위해서는 데이터 프레임을 튜플 배열로 변환해야하며 각 튜플은 데이터 프레임의 "행"에 해당합니다. 내 DataFrame은 다음과 같습니다. In [182]: data_set Out[182]: index data_date data_1 data_2 0 14303 2012-02-17 24.75 25.03 1 12009 2012-02-16 25.00 25.07 2 11830 2012-02-15 24.99 …

131 python pandas

3

팬더에서 발생을 계산하는 가장 효율적인 방법은 무엇입니까?

다음과 같이 큰 (약 12M 행) 데이터 프레임 df가 있습니다. df.columns = ['word','documents','frequency'] 따라서 다음은 적시에 실행되었습니다. word_grouping = df[['word','frequency']].groupby('word') MaxFrequency_perWord = word_grouping[['frequency']].max().reset_index() MaxFrequency_perWord.columns = ['word','MaxFrequency'] 그러나 실행하는 데 예상치 못한 시간이 오래 걸립니다. Occurrences_of_Words = word_grouping[['word']].count().reset_index() 내가 여기서 뭘 잘못하고 있니? 큰 데이터 프레임에서 발생을 계산하는 더 좋은 방법이 …

131 python pandas

2

변수가 데이터 프레임인지 확인

내 함수 f가 변수로 호출 될 때 var가 pandas 데이터 프레임인지 확인하고 싶습니다. def f(var): if var == pd.DataFrame(): print "do stuff" 해결책은 매우 간단 할 수 있지만 def f(var): if var.values != None: print "do stuff" 예상대로 작동하지 않습니다.

130 python pandas

9

열의 문자열에서 원치 않는 부분 제거

DataFrame 열의 문자열에서 원하지 않는 부분을 제거하는 효율적인 방법을 찾고 있습니다. 데이터는 다음과 같습니다. time result 1 09:00 +52A 2 10:00 +62B 3 11:00 +44a 4 12:00 +30b 5 13:00 -110a 이 데이터를 다음과 같이 정리해야합니다. time result 1 09:00 52 2 10:00 62 3 11:00 44 4 12:00 30 …

129 python string pandas dataframe

8

별도의 Pandas DataFrame을 서브 플롯으로 플로팅하려면 어떻게해야합니까?

동일한 값 척도를 공유하지만 열과 인덱스가 다른 Pandas DataFrame이 몇 개 있습니다. 을 호출 할 때 df.plot()별도의 플롯 이미지를 얻습니다. 내가 정말로 원하는 것은 그것들을 모두 서브 플롯과 같은 플롯에 두는 것이지만, 불행히도 나는 어떻게 도움을 줄 수 있는지에 대한 해결책을 찾지 못하고 있습니다.

129 python matplotlib pandas

4

Pandas 데이터 프레임 목록을 함께 연결

하나의 Pandas 데이터 프레임으로 결합하려는 Pandas 데이터 프레임 목록이 있습니다. Python 2.7.10 및 Pandas 0.16.2를 사용하고 있습니다. 다음에서 데이터 프레임 목록을 만들었습니다. import pandas as pd dfs = [] sqlall = "select * from mytable" for chunk in pd.read_sql_query(sqlall , cnxn, chunksize=10000): dfs.append(chunk) 이것은 데이터 프레임 목록을 반환합니다. type(dfs[0]) Out[6]: …

129 python pandas dataframe concat

7

csv를 읽을 때 Pandas에서 색인 열 제거

CSV 파일을 가져 오는 다음 코드가 있습니다. 3 개의 열이 있으며 그중 처음 두 개를 변수로 설정하고 싶습니다. 두 번째 열을 변수 "효율"로 설정하면 인덱스 열도 고정됩니다. 인덱스 열을 어떻게 제거 할 수 있습니까? df = pd.DataFrame.from_csv('Efficiency_Data.csv', header=0, parse_dates=False) energy = df.index efficiency = df.Efficiency print efficiency 나는 사용해 보았다 …

128 python pandas

5

Pandas 데이터 프레임에 누락 된 날짜 추가

내 데이터는 특정 날짜에 여러 이벤트를 포함하거나 특정 날짜에 이벤트가 없을 수 있습니다. 나는이 사건들을 가지고 날짜별로 카운트를 얻고 그것들을 플로팅합니다. 그러나 내가 그들을 플로팅 할 때 두 시리즈가 항상 일치하지는 않습니다. idx = pd.date_range(df['simpleDate'].min(), df['simpleDate'].max()) s = df.groupby(['simpleDate']).size() 위의 코드에서 idx 는 30 일의 범위가됩니다. 2013 년 1 월 …

127 python date plot pandas dataframe

7

Pandas 또는 Numpy Nan을 None으로 대체하여 MysqlDB와 함께 사용

MysqlDB를 사용하여 mysql 데이터베이스에 Pandas 데이터 프레임 (또는 numpy 배열을 사용할 수 있음)을 쓰려고합니다. MysqlDB가 'nan'을 이해하지 못하는 것 같고 데이터베이스에서 nan이 필드 목록에 없다는 오류를 표시합니다. 'nan'을 NoneType으로 변환하는 방법을 찾아야합니다. 어떤 아이디어?

127 python pandas numpy mysql-python

«pandas» 태그된 질문