파이썬에서 판다의 한계와 대안


11

나는 Pandas 가 금융계를 위해 처음 개발 된 곳 , 특히 자연 과학 (물리, 생물학 등)을 위해 처음 개발 된 곳을 읽었 으므로 비슷한 데이터 분석 Python 패키지가 더“자연 과학 중심”입니까?

방금 Pandas를 사용하기 시작했으며 다른 패키지 또는 수제 솔루션을 사용하지 않고 해결할 수없는 두 가지 문제가 이미 발생했습니다.

  • 불확실성을 관리하는 방법?
  • 내 데이터 단위를 쉽게 정의하는 방법은 무엇입니까?

다른 문제가있을 수 있지만 더 정확한 경험이 부족합니다. 현재 첫 번째 포인트를 해결하기 위해 불확실성 패키지에 대해 생각하고 있지만 Pandas와 잘 작동하고 계산 속도를 줄이지 않을지는 확실하지 않습니다. 실제로, 나는 불확실성을 가진 계산 방법을 찾고 있지 않고, 가져온 데이터와 함께 불확실성을 저장하는 간단한 방법을 찾고 있습니다. 두 번째로, 각 데이터와 관련된 단위를 관리하기 위해 DataFrame과 별도로 사전을 만드는 것보다 더 나은 솔루션을 찾지 못했습니다.

같은 문제가 발생했다면 어떻게 해결 했습니까? 아니면 자연 과학의 파이썬에서 데이터 조작 / 저장 / 분석에 어떤 패키지를 사용하셨습니까?


2
유닛과 불확실성을 지원하는 팬더의 대안 Table은 우주 비행사입니다.
P3trus

1
대단해 보인다. 나는 astropy에 이런 종류의 것들이 있다는 것을 몰랐다. 그럼에도 불구하고 나는 의사를 한 눈에 보았지만 불확실성을 설정하기위한 명확한 예를 찾을 수 없었습니다 Table(그러나 나는 단위 부분을 발견했습니다). NDData그것을 관리하는 것 같지만이 클래스의 차이점에 대해 확신 할 수 없습니다. 의견을 2 줄짜리 예를 사용하여 답변으로 바꾸는 것이 마음에 들지 않는다면 기꺼이 받아들입니다!
클라크

답변:


5

나는 불확실성을 계산하는 것이 자동 라이브러리에 의해 처리되어서는 안된다는 Davidmh에 동의한다. 자동화가 실패하는 경우가 매우 빠릅니다 (예 : 푸리에 변환 수행).

그러나 데이터에 대한 불확실성을 유지하고 싶다고 말합니다. 왜 데이터 프레임에 추가 열로 추가하지 않습니까? 이것이 일반적으로 팬더로 불확실성을 관리하는 방법입니다.

팬더는 단위를 지원하지 않지만 데이터 프레임에 들어갈 수 있으므로 수량 패키지를 직접 사용할 수 있습니다. 그러나 모든 기능이 팬더에서 작동하는 것은 아니며 (아직 놀랍지 만 여전히 성능이 저하 될 수 있습니다).

팬더에 메타 데이터를 첨부 할 수 있는 토론 이 있었지만 지금까지는 아무것도 없었습니다.

C ++ 11을 제외하고는, 당신에게 정말로 훌륭한 일류 단위 지원을 줄 언어 나 라이브러리가 없다는 것을 알고 있습니다. 항상 성능 손실과 호환성 부족이 있습니다

.


2

불확실성을 관리하는 것은 실제로 매우 복잡한 통계 문제입니다. 제곱 부분 도함수를 사용한 오류 전파에 대한 알려진 표현은 오류가 정규 분포, 독립적, 작은 경우에 좋습니다. 일반적으로 이런 경우입니다. 실제로 정규성 또는 독립성이 완전히 충족되지 않더라도 대부분의 실제 사례의 경우 구간의 합리적인 추정에만 관심이있는 경우 결과는 실제 결과와 상당히 유사 할 수 있습니다.

또 다른 가능성은 상한과 하한으로 작업을 반복하여 (2±0.1)=(2)(1.9)(2.1)그러나 간격이 하드 임계 값 인 경우 (정확도 0.1의 노이즈가없는 계측기의 출력과 같은)에만 정확합니다.

정확도가 더 필요한 경우 불확실성에 대한 훌륭한 분석 모델이있는 경우 최대 추정치와 같은 올바른 추정값을 도출하는 데 사용할 수있는 방법이 있습니다.

그러나 가능한 모든 입력에 유효한 올바른 결과를 원할 경우 (소음이 정밀도와 동일한 순서의 노이즈 검출기를 분석적으로 모델링해야하는 경우) 모든 상관 관계를 고려하고 모든 관련 매개 변수 공간을 탐색 할 수 있습니다 Monte Carlo 방법이 필요합니다. 입력 된 여러 인스턴스에 랜덤 노이즈를 추가하고 전체 분석을 실행하십시오. 물론 이것은 계산 시간에 수백 또는 수천을 곱해야한다는 것을 의미하지만 항상 병렬화 할 수 있습니다.

결국, 그것은 모두 당신이하고 싶은 일, 어느 정도의 정확성 및 얼마나 많은 자원을 가지고 있는지에 달려 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.