«dataframe» 태그된 질문

데이터 프레임은 테이블 형식 데이터 구조입니다. 일반적으로 행은 관측치이고 열은 다양한 유형의 변수 인 데이터를 포함합니다. "data frame"또는 "dataframe"은 여러 언어 (R, Apache Spark, deedle, Maple, Python의 팬더 라이브러리 및 Julia의 DataFrames 라이브러리)에서이 개념에 사용되는 용어이지만 "table"은 MATLAB과 SQL.

5
데이터를 3 세트 (트레인, 검증 및 테스트)로 나누는 방법은 무엇입니까?
팬더 데이터 프레임이 있으며 3 개의 별도 세트로 나누고 싶습니다. train_test_split from 을 사용 sklearn.cross_validation하면 데이터를 두 세트 (트레인 및 테스트)로 나눌 수 있습니다. 그러나 데이터를 세 세트로 나누는 방법에 대한 해결책을 찾지 못했습니다. 바람직하게는 원본 데이터의 색인을 갖고 싶습니다. 해결 방법은 train_test_split두 번 사용 하고 어떻게 든 색인을 조정하는 …

2
Pandas MultiIndex DataFrame에서 행 선택
인덱스가 MultiIndex 인 데이터 프레임의 행을 선택 / 필터링하는 가장 일반적인 Pandas 방법은 무엇입니까? 단일 값 / 라벨을 기준으로 슬라이스 하나 이상의 수준에서 여러 레이블을 기반으로 슬라이스 부울 조건 및 표현식 필터링 어떤 상황에서 적용 가능한 방법 단순성을위한 가정 : 입력 데이터 프레임에 중복 인덱스 키가 없습니다. 아래의 입력 데이터 …

7
팬더 데이터 프레임 fillna () 일부 열만 배치
팬더 데이터 프레임에서 열의 일부 하위 집합에 대해서만 0으로 값을 채우려 고하지 않습니다. 내가 할 때 : import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df 출력 : a b c 0 1.0 4.0 NaN 1 2.0 5.0 NaN 2 3.0 NaN 7.0 3 NaN 6.0 …
145 python  pandas  dataframe 


8
각 그룹의 첫 번째 행을 선택하는 방법은 무엇입니까?
다음과 같이 DataFrame이 생성되었습니다. df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) 결과는 다음과 같습니다. +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| 5.3| | …

14
열의 NA 값 수 결정
NA데이터 프레임 열의 값 수를 계산하고 싶습니다 . 내 데이터 프레임이 호출 df되고 고려중인 열의 이름 이라고 가정하십시오 col. 내가 생각해 낸 방법은 다음과 같습니다. sapply(df$col, function(x) sum(length(which(is.na(x))))) 이것이 가장 좋고 효율적인 방법입니까?
143 r  dataframe 


8
Pandas DataFrame 색인 이름 바꾸기
DateTime 인덱스가있는 헤더가없는 CSV 파일이 있습니다. 색인과 열 이름을 바꾸고 싶지만 df.rename ()을 사용하면 열 이름 만 바뀝니다. 곤충? 0.12.0 버전입니다 In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]], index_col=[0] ) In [3]: df.head() Out[3]: 1 0 2002-06-18 0.112000 2002-06-22 0.190333 2002-06-26 0.134000 2002-06-30 0.093000 2002-07-04 0.098667 In [4]: df.rename(index={0:'Date'}, columns={1:'SM'}, …
142 python  pandas  dataframe 



2
Spark DataFrame에 상수 열을 추가하는 방법은 무엇입니까?
DataFrame임의의 값 으로 열을 추가하고 싶습니다 (각 행마다 동일). withColumn다음과 같이 사용할 때 오류가 발생 합니다. dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 [Row(age=2, name=u'Alice', age2=4), Row(age=5, …

7
이름에 특정 문자열이 포함 된 열 찾기
열 이름이있는 데이터 프레임이 있는데 특정 문자열이 포함되어 있지만 정확히 일치하지 않는 데이터 프레임을 찾고 싶습니다. 내가 찾고 있어요 'spike'열 이름이 좋아에 'spike-2', 'hey spike', 'spiked-in'합니다 ( 'spike'일부는 항상 연속). 열 이름이 문자열 또는 변수로 반환되기를 원하므로 나중에 df['name']또는 df[name]정상적으로 열에 액세스합니다 . 나는 이것을 할 수있는 방법을 찾으려고 노력했다. …

5
팬더 데이터 프레임은 각 그룹의 첫 번째 행을 얻습니다.
DataFrame다음과 같은 팬더가 있습니다 . df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) 이것을 ""id ","value "]로 그룹화하고 각 그룹의 첫 번째 행을 가져오고 싶습니다. id value 0 1 first 1 1 second 2 1 second 3 2 first 4 2 second 5 3 first 6 3 …
137 python  pandas  dataframe 

6
sklearn으로 확장 가능한 팬더 데이터 프레임 열
혼합 유형 열이있는 팬더 데이터 프레임이 있으며 일부 열에 sklearn의 min_max_scaler를 적용하고 싶습니다. 이상적으로는 이러한 변형을 제자리에서 수행하고 싶지만 아직 그렇게 할 방법을 찾지 못했습니다. 작동하는 다음 코드를 작성했습니다. import pandas as pd import numpy as np from sklearn import preprocessing scaler = preprocessing.MinMaxScaler() dfTest = pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],'B':[103.02,107.26,110.35,114.23,114.68], 'C':['big','small','big','small','small']}) min_max_scaler = …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.