«pyarrow» 태그된 질문

1
깃털과 쪽모이 세공의 차이점은 무엇입니까?
둘 다 데이터 분석 시스템에서 사용하기위한 컬럼 형 (디스크) 스토리지 형식 입니다. 둘 다 Apache Arrow ( python 용 pyarrow 패키지)에 통합되어 있으며 Arrow 와 함께 컬럼 형 인 메모리 분석 계층 으로 대응하도록 설계되었습니다 . 두 형식은 어떻게 다릅니 까? 가능하면 팬더로 작업 할 때 항상 깃털을 선호해야합니까? 깃털 …

1
pandasUDF와 pyarrow 0.15.0
최근 pysparkEMR 클러스터에서 실행 되는 여러 작업에서 많은 오류가 발생하기 시작했습니다 . 침식은 java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... 그것들은 모두 apply판다 시리즈의 기능 에서 일어나는 것처럼 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.