«pandas» 태그된 질문

pandas는 패널 데이터 조작 및 분석을위한 Python 라이브러리입니다 (예 : 통계, 실험 과학 결과, 계량 경제학 또는 재무에서 일반적으로 사용되는 다차원 시계열 및 단면 데이터 세트).

11
사람들은 왜 Pandas를 SQL보다 선호합니까?
1996 년부터 SQL을 사용해 왔기 때문에 편견이있을 수 있습니다. MySQL과 SQLite 3을 광범위하게 사용했지만 Microsoft SQL Server와 Oracle도 사용했습니다. Pandas로 수행 한 대부분의 작업은 SQL로 더 쉽게 수행 할 수 있습니다. 여기에는 데이터 집합 필터링, 표시 할 특정 열 선택, 값에 함수 적용 등이 포함됩니다. SQL에는 옵티 마이저 및 데이터 …
69 pandas  sql 

1
팬더에서 isna ()와 isnull ()의 차이점
나는 팬더를 꽤 오랫동안 사용 해왔다. 그러나 팬더 isna()와 isnull()팬더 의 차이점은 무엇인지 이해하지 못합니다 . 그리고 더 중요한 것은 데이터 프레임에서 결 측값을 식별하는 데 사용할 것입니다. 값이 na또는 로 감지되는 방법의 기본적인 기본 차이점은 무엇입니까 null?

7
ValueError : 입력에 NaN, 무한대 또는 dtype ( 'float32')에 비해 너무 큰 값이 있습니다
RandomForest 모델을 사용하여 테스트 데이터를 예측할 때 ValueError가 발생했습니다. 내 코드 : clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) 오류: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). 테스트 데이터 세트에서 잘못된 값을 어떻게 찾습니까? 또한 이러한 레코드를 …

3
팬더와 상관 행렬의 계산 및 시각화
여러 항목이있는 팬더 데이터 프레임이 있으며 일부 유형의 상점 수입 간의 상관 관계를 계산하려고합니다. 수입 데이터, 활동 영역 분류 (극장, 옷가게, 음식 ...) 및 기타 데이터가있는 여러 상점이 있습니다. 나는 새로운 데이터 프레임을 만들고 같은 카테고리에 속하는 모든 종류의 상점의 수입으로 열을 삽입하려고 시도했으며 반환 데이터 프레임에는 첫 번째 열만 …

5
팬더로 분석하기 위해 20GB 파일 열기
현재 머신 러닝 목적으로 팬더와 파이썬으로 파일을 열려고합니다. 데이터 프레임에 모두 넣는 것이 이상적입니다. 이제 파일 크기는 18GB이고 RAM은 32GB이지만 메모리 오류가 계속 발생합니다. 당신의 경험에서 가능합니까? 이 문제를 해결하는 더 좋은 방법을 모르십니까? (하이브 테이블? RAM의 크기를 64로 늘리십시오. 데이터베이스를 만들고 파이썬에서 액세스하십시오)

5
목록 목록을 Pandas 데이터 프레임으로 변환
다음과 같은 목록 목록을 Pandas Dataframe으로 변환하려고합니다. [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], ['New York Yankees ', '"Contreras Jose"', 5500000, ' Pitcher\n']] 기본적으로 배열의 각 항목을 4 …
30 pandas 

1
xgboost가 GradientBoostingClassifier를 sklearn보다 훨씬 빠른 이유는 무엇입니까?
100 개의 숫자 기능을 가진 50k 개 이상의 그라디언트 부스팅 모델을 훈련하려고합니다. XGBClassifier동안 내 컴퓨터 43 초 이내에 핸들 (500) 나무, GradientBoostingClassifier핸들 10 나무 (!) 일분 2 초 :( 내가 귀찮게하지 않았다에서 그것은 시간이 걸릴 것으로 500 그루의 나무를 성장하려고합니다. 나는 같은 사용하고 있습니다 learning_rate및 max_depth설정 아래를 참조하십시오. XGBoost를 훨씬 …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
pandas.DataFrame.isin을 병렬로 실행하는 간단한 방법이 있습니까?
DataFrame.isin팬더 의 기능을 많이 사용하는 모델링 및 스코어링 프로그램을 사용하여 수천 명의 특정 페이지 각각에 대해 개별 사용자의 페이스 북 "유사한"레코드 목록을 검색합니다. 이는 모델링 또는 스코어링 조각보다 프로그램에서 가장 시간이 많이 걸리는 부분입니다. 단순히 하나의 코어에서만 실행되고 나머지는 수십 개에서 동시에 실행되기 때문입니다. 수동으로 데이터 프레임을 청크로 분할하고 작업을 …


2
팬더에서 두 열로 그룹화 된 값을 합산하는 방법
다음과 같은 Pandas DataFrame이 있습니다. df = pd.DataFrame({ 'Date': ['2017-1-1', '2017-1-1', '2017-1-2', '2017-1-2', '2017-1-3'], 'Groups': ['one', 'one', 'one', 'two', 'two'], 'data': range(1, 6)}) Date Groups data 0 2017-1-1 one 1 1 2017-1-1 one 2 2 2017-1-2 one 3 3 2017-1-2 two 4 4 2017-1-3 two 5 다음과 같이 새 DataFrame을 …



5
seaborn 히트 맵을 더 크게 만들기
corr()원본 df 에서 df를 만듭니다 . corr()DF는 70 X 70에서 나와는 히트 맵을 시각화하는 것은 불가능합니다 ... sns.heatmap(df). 를 표시하려고 corr = df.corr()하면 테이블이 화면에 맞지 않으며 모든 상관 관계를 볼 수 있습니다. df크기에 관계없이 전체를 인쇄 하거나 히트 맵의 크기를 제어하는 ​​방법입니까?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
팬더가 data.table보다 빠릅니다.
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping data.table 벤치 마크는 2014 년 내가 들어 본 곳 이후 업데이트되지 않은 Pandas지금보다 더 빨리이다 data.table. 이것이 사실입니까? 누구든지 벤치 마크를 했습니까? 나는 전에 파이썬을 사용한 적이 없지만 pandas이길 수 있다면 전환을 고려할 것 data.table입니까?
17 python  r  pandas  data  data.table 


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.