«dataframe» 태그된 질문

데이터 프레임은 테이블 형식 데이터 구조입니다. 일반적으로 행은 관측치이고 열은 다양한 유형의 변수 인 데이터를 포함합니다. "data frame"또는 "dataframe"은 여러 언어 (R, Apache Spark, deedle, Maple, Python의 팬더 라이브러리 및 Julia의 DataFrames 라이브러리)에서이 개념에 사용되는 용어이지만 "table"은 MATLAB과 SQL.

6
팬더 : 열의 텍스트를 여러 행으로 나누려면 어떻게합니까?
큰 csv 파일로 작업하고 있으며 마지막 열 옆에는 특정 구분 기호로 분할하려는 텍스트 문자열이 있습니다. 팬더 또는 파이썬을 사용 하여이 작업을 수행하는 간단한 방법이 있는지 궁금합니다. CustNum CustomerName ItemQty Item Seatblocks ItemExt 32363 McCartney, Paul 3 F04 2:218:10:4,6 60 31316 Lennon, John 25 F01 1:13:36:1,12 1:13:37:1,13 300 나는 공간으로 분할 …
135 python  pandas  dataframe 

8
팬더 고유 값 여러 열
df = pd.DataFrame({'Col1': ['Bob', 'Joe', 'Bill', 'Mary', 'Joe'], 'Col2': ['Joe', 'Steve', 'Bob', 'Bob', 'Steve'], 'Col3': np.random.random(5)}) 'Col1'과 'Col2'의 고유 한 값을 반환하는 가장 좋은 방법은 무엇입니까? 원하는 출력은 'Bob', 'Joe', 'Bill', 'Mary', 'Steve'

4
파이썬 팬더 : 행 단위로 데이터 프레임 채우기
pandas.DataFrame객체에 행을 추가하는 간단한 작업은 달성하기 어려운 것 같습니다. 이와 관련하여 3 가지 스택 오버 플로우 질문이 있지만 그중 아무것도 작동하지 않습니다. 여기 내가하려는 일이 있습니다. 행과 열의 이름뿐만 아니라 모양을 이미 알고있는 DataFrame이 있습니다. >>> df = pandas.DataFrame(columns=['a','b','c','d'], index=['x','y','z']) >>> df a b c d x NaN NaN NaN …
133 python  dataframe  row  pandas 

5
Pandas DataFrame : 조건에 따라 열의 모든 값을 바꿉니다.
다음과 같은 간단한 DataFrame이 있습니다. 'First Season'열에서 모든 값을 선택하고 1990 년이 넘는 값을 1로 바꾸고 싶습니다.이 예에서 Baltimore Ravens만이 1996 년을 1로 바 꾸었습니다 (나머지 데이터는 그대로 유지). 다음을 사용했습니다. df.loc[(df['First Season'] > 1990)] = 1 그러나 'First Season'열의 값뿐만 아니라 해당 행의 모든 ​​값을 1로 대체합니다. 해당 열의 …
132 python  pandas  dataframe 

2
data.table에서 : =를 사용하여 여러 열을 그룹별로 지정
data.table?를 사용하여 여러 열에 할당하는 가장 좋은 방법은 무엇입니까 ? 예를 들면 다음과 같습니다. f <- function(x) {c("hi", "hello")} x <- data.table(id = 1:10) 다음과 같이하고 싶습니다 (물론이 구문이 올바르지 않습니다). x[ , (col1, col2) := f(), by = "id"] 그리고 그것을 확장하기 위해 변수에 이름이 저장된 많은 열이있을 수 …

8
NA의 특정 열을 포함하는 행 생략
NA데이터 프레임에서 값 을 생략하는 방법을 알고 싶지만 관심있는 일부 열에서만. 예를 들어 DF <- data.frame(x = c(1, 2, 3), y = c(0, 10, NA), z=c(NA, 33, 22)) 하지만 난 단지 생략 데이터 원하는 y이다 NA, 그러므로 결과는해야한다 x y z 1 1 0 NA 2 2 10 33 na.omit모든 …
129 r  dataframe  na 

9
열의 문자열에서 원치 않는 부분 제거
DataFrame 열의 문자열에서 원하지 않는 부분을 제거하는 효율적인 방법을 찾고 있습니다. 데이터는 다음과 같습니다. time result 1 09:00 +52A 2 10:00 +62B 3 11:00 +44a 4 12:00 +30b 5 13:00 -110a 이 데이터를 다음과 같이 정리해야합니다. time result 1 09:00 52 2 10:00 62 3 11:00 44 4 12:00 30 …

5
R-두 개의 데이터 프레임을 연결 하시겠습니까?
이 dataframes을 감안할 때 a와 b: > a a b c 1 -0.2246894 -1.48167912 -1.65099363 2 0.5559320 -0.87898575 -0.15634590 3 1.8469466 -0.01487524 -0.53098215 4 -0.6875051 0.23880967 0.01824621 5 -0.6735163 0.75485292 0.44154092 > b a c 1 0.4287284 -0.3295925 2 0.5201492 0.3341251 3 -2.6355570 1.7916780 4 -1.3645337 1.3642276 5 -0.4954542 -0.6660001 …

10
R의 데이터 프레임에 행을 추가하는 방법은 무엇입니까?
R에서 데이터 프레임이 이미 초기화 된 후 데이터 프레임에 새 행을 어떻게 추가합니까? 지금까지 나는 이것을 가지고있다 : df <- data.frame("hi", "bye") names(df) <- c("hello", "goodbye") #I am trying to add "hola" and "ciao" as a new row de <- data.frame("hola", "ciao") merge(df, de) # Adds to the same row …
129 r  dataframe 

9
Spark DataFrame에 새 열을 추가하려면 어떻게해야합니까 (PySpark 사용)?
Spark DataFrame (PySpark 1.5.1 사용)이 있고 새 열을 추가하고 싶습니다. 나는 성공하지 않고 다음을 시도했습니다. type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) 또한 이것을 사용하여 오류가 발생했습니다. my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) 그렇다면 PySpark를 사용하여 기존 DataFrame에 새 열 …

4
Pandas 데이터 프레임 목록을 함께 연결
하나의 Pandas 데이터 프레임으로 결합하려는 Pandas 데이터 프레임 목록이 있습니다. Python 2.7.10 및 Pandas 0.16.2를 사용하고 있습니다. 다음에서 데이터 프레임 목록을 만들었습니다. import pandas as pd dfs = [] sqlall = "select * from mytable" for chunk in pd.read_sql_query(sqlall , cnxn, chunksize=10000): dfs.append(chunk) 이것은 데이터 프레임 목록을 반환합니다. type(dfs[0]) Out[6]: …

5
DataFrame의 파티셔닝을 정의하는 방법은 무엇입니까?
Spark 1.4.0에서 Spark SQL 및 DataFrames를 사용하기 시작했습니다. Scala의 DataFrames에서 사용자 지정 파티 셔 너를 정의하고 싶지만이 작업을 수행하는 방법을 보지 못했습니다. 작업중인 데이터 테이블 중 하나에는 다음 예제에 대한 silimar 계정 별 트랜잭션 목록이 포함되어 있습니다. Account Date Type Amount 1001 2014-04-01 Purchase 100.00 1001 2014-04-01 Purchase 50.00 1001 …

5
Pandas 데이터 프레임에 누락 된 날짜 추가
내 데이터는 특정 날짜에 여러 이벤트를 포함하거나 특정 날짜에 이벤트가 없을 수 있습니다. 나는이 사건들을 가지고 날짜별로 카운트를 얻고 그것들을 플로팅합니다. 그러나 내가 그들을 플로팅 할 때 두 시리즈가 항상 일치하지는 않습니다. idx = pd.date_range(df['simpleDate'].min(), df['simpleDate'].max()) s = df.groupby(['simpleDate']).size() 위의 코드에서 idx 는 30 일의 범위가됩니다. 2013 년 1 월 …
127 python  date  plot  pandas  dataframe 

6
데이터 프레임에서 많은 변수가있는 수식을 간결하게 작성하는 방법은 무엇입니까?
반응 변수와 3 개의 공변량을 포함하는 데이터가 있다고 가정합니다 (장난감 예). y = c(1,4,6) d = data.frame(x1 = c(4,-1,3), x2 = c(3,9,8), x3 = c(4,-4,-2)) 선형 회귀를 데이터에 맞추고 싶습니다. fit = lm(y ~ d$x1 + d$x2 + d$y2) 각각의 개별 공변량을 작성할 필요가 없도록 공식을 작성하는 방법이 있습니까? 예를 …
127 r  dataframe  glm  lm 

3
Pandas GroupBy.agg ()를 사용하여 동일한 열의 여러 집계
여러 번 호출하지 않고 f1, f2동일한 열에 두 개의 다른 집계 함수 를 적용하는 pandas 기본 제공 방법이 있습니까?df["returns"]agg() 데이터 프레임의 예 : import pandas as pd import datetime as dt pd.np.random.seed(0) df = pd.DataFrame({ "date" : [dt.date(2012, x, 1) for x in range(1, 11)], "returns" : 0.05 * np.random.randn(10), …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.