«dataframe» 태그된 질문

데이터 프레임은 테이블 형식 데이터 구조입니다. 일반적으로 행은 관측치이고 열은 다양한 유형의 변수 인 데이터를 포함합니다. "data frame"또는 "dataframe"은 여러 언어 (R, Apache Spark, deedle, Maple, Python의 팬더 라이브러리 및 Julia의 DataFrames 라이브러리)에서이 개념에 사용되는 용어이지만 "table"은 MATLAB과 SQL.

13
문자열 열의 각 행에서 주어진 문자의 발생 횟수를 계산하는 방법은 무엇입니까?
특정 변수에 텍스트 문자열이 포함 된 data.frame이 있습니다. 각 개별 문자열에서 주어진 문자의 발생 횟수를 계산하고 싶습니다. 예: q.data<-data.frame(number=1:3, string=c("greatgreat", "magic", "not")) 문자열에서 "a"의 발생 횟수 (예 : c (2,1,0))를 사용하여 q.data에 대한 새 열을 만들고 싶습니다. 내가 관리 한 유일한 복잡한 접근 방식은 다음과 같습니다. string.counter<-function(strings, pattern){ counts<-NULL for(i …
103 regex  r  dataframe 

6
iPython에서 Pandas Library를 사용하여 .xlsx 파일을 읽는 방법은 무엇입니까?
Python의 Pandas Library를 사용하여 .xlsx 파일을 읽고 데이터를 postgreSQL 테이블로 이식하고 싶습니다. 지금까지 할 수있는 일은 다음과 같습니다. import pandas as pd data = pd.ExcelFile("*File Name*") 이제 단계가 성공적으로 실행되었음을 알고 있지만 Excel의 데이터가 변수 데이터의 데이터에 어떻게 매핑되는지 이해할 수 있도록 읽은 ​​Excel 파일을 구문 분석 할 수있는 방법을 …

9
팬더에서 여러 열을 반환 apply ()
나는 DataFrame 팬더 있습니다 df_test. 크기를 바이트 단위로 나타내는 'size'열을 포함합니다. 다음 코드를 사용하여 KB, MB 및 GB를 계산했습니다. df_test = pd.DataFrame([ {'dir': '/Users/uname1', 'size': 994933}, {'dir': '/Users/uname2', 'size': 109338711}, ]) df_test['size_kb'] = df_test['size'].astype(int).apply(lambda x: locale.format("%.1f", x / 1024.0, grouping=True) + ' KB') df_test['size_mb'] = df_test['size'].astype(int).apply(lambda x: locale.format("%.1f", x / …




8
R 데이터 프레임에서`Inf` 값 정리
R Inf에는 데이터 프레임을 변환 할 때 일부 값 을 생성하는 작업이 있습니다. 이러한 Inf가치를 NA가치 로 바꾸고 싶습니다 . 내가 가진 코드는 대용량 데이터의 경우 느립니다. 더 빠른 방법이 있습니까? 다음 데이터 프레임이 있다고 가정합니다. dat <- data.frame(a=c(1, Inf), b=c(Inf, 3), d=c("a","b")) 다음은 단일 경우에서 작동합니다. dat[,1][is.infinite(dat[,1])] = NA …
101 r  dataframe  data.table 

2
'DataFrame'개체에 'sort'속성이 없습니다.
여기에 몇 가지 문제가 있습니다. 파이썬 패키지에서 numpy를 설치했지만 여전히이 오류 가 있습니다 .'DataFrame '객체에'sort '속성이 없습니다. 누구나 나에게 아이디어를 줄 수 있습니다 .. 이것은 내 코드입니다. final.loc[-1] =['', 'P','Actual'] final.index = final.index + 1 # shifting index final = final.sort() final.columns=[final.columns,final.iloc[0]] final = final.iloc[1:].reset_index(drop=True) final.columns.names = (None, None)

7
Pandas DataFrame에서 열을 이동하는 방법
Pandas에서 열을 이동하고 DataFrame싶지만 전체 DF를 다시 작성하지 않고 문서에서이를 수행하는 방법을 찾을 수 없었습니다. 누구든지 그것을하는 방법을 알고 있습니까? DataFrame : ## x1 x2 ##0 206 214 ##1 226 234 ##2 245 253 ##3 265 272 ##4 283 291 원하는 출력 : ## x1 x2 ##0 206 nan ##1 …
101 python  pandas  dataframe 

5
Pandas 데이터 프레임에서 None을 NaN으로 바꿉니다.
나는 테이블이있다 x: website 0 http://www.google.com/ 1 http://www.yahoo.com 2 None python None을 pandas NaN으로 바꾸고 싶습니다. 나는 시도했다 : x.replace(to_replace=None, value=np.nan) 그러나 나는 얻었다 : TypeError: 'regex' must be a string or a compiled regular expression or a list or dict of strings or regular expressions, you passed a 'bool' …

1
Pandas 데이터 프레임의 처음 몇 줄을 읽는 방법
미리 줄의 길이를 모르고 파일 read_csv의 첫 n줄만 읽는 데 사용하는 기본 제공 방법이 있습니까? 읽는 데 오랜 시간이 걸리는 대용량 파일이 있는데, 샘플을 얻기 위해 첫 번째 줄 (예 : 20 줄) 만 사용하고 싶을 때도 있습니다 (전체 내용을로드하고 헤드를 차지하는 것을 선호하지 않음). 총 줄 수를 알고 있다면 …
100 python  pandas  csv  dataframe 

10
없음 값으로 Pyspark 데이터 프레임 열 필터링
None행 값 이있는 PySpark 데이터 프레임을 필터링하려고 합니다. df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] 문자열 값으로 올바르게 필터링 할 수 있습니다. df[df.dt_mvmt == '2016-03-31'] # some results here 그러나 이것은 실패합니다. df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 그러나 각 카테고리에는 확실히 가치가 있습니다. 무슨 일이야?

6
Pandas 데이터 프레임을 시리즈로 변환
나는 팬더를 처음 접했습니다. 1 행 x 23 열의 팬더 데이터 프레임이 있습니다. 이것을 시리즈로 변환하고 싶습니까? 이 작업을 수행하는 가장 비단뱀적인 방법이 무엇인지 궁금합니다. 나는 시도 pd.Series(myResults)했지만 불평 ValueError: cannot copy sequence with size 23 to array axis with dimension 1합니다. 그것은 수학 용어에서 여전히 "벡터"라는 것을 깨닫기에 충분히 …

2
Python Pandas로 열 비닝
숫자 값이있는 데이터 프레임 열이 있습니다. df['percentage'].head() 46.5 44.2 100.0 42.12 빈 개수로 열을보고 싶습니다. bins = [0, 1, 5, 10, 25, 50, 100] 어떻게 결과를 bin으로 얻을 수 value counts있습니까? [0, 1] bin amount [1, 5] etc [5, 10] etc ......

5
pyspark에서 Dataframe 열을 String 유형에서 Double 유형으로 변경하는 방법
열이 문자열 인 데이터 프레임이 있습니다. PySpark에서 열 유형을 Double 유형으로 변경하고 싶었습니다. 다음은 방법입니다. toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) 로지스틱 회귀 분석을 실행하는 동안 오류가 발생하므로 이것이 문제의 원인인지 궁금합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.