프로그램 작성 bigdata

1

Pyspark df에서 PostgresSQL에 이르는 5 천만 개 이상의 최고의 글쓰기 방법

Spark 데이터 프레임에서 Postgres 테이블에 이르기까지 수백만 개의 레코드를 삽입하는 가장 효율적인 방법은 5 천만입니다. 과거에도 대량 복사 및 배치 크기 옵션을 사용하여 스파크에서 MSSQL 까지이 작업을 수행했습니다 . Postgres에 대해 비슷한 점이 있습니까? 내가 시도한 코드와 프로세스를 실행하는 데 걸린 시간을 추가하십시오. def inserter(): start = timer() sql_res.write.format("jdbc").option("numPartitions","5").option("batchsize","200000")\ .option("url", …

16 postgresql apache-spark pyspark apache-spark-sql bigdata

4

R을 사용하여 Lucky 26 게임 해결

게임에서 발생하는 문제를 해결하고 R이 빅 데이터를 처리하는 방법을 확인하는 데 코딩을 사용하는 방법을 아들에게 보여 주려고합니다. 해당 게임을 "럭키 26"이라고합니다. 이 게임에서 (중복없이 1-12) 숫자는 다윗의 별 (6 개의 정점, 6 개의 교차점)에서 12 포인트에 위치하며 4 개의 숫자의 6 줄은 모두 26에 추가되어야합니다. ) 분명히 144 개의 솔루션이 …

15 r bigdata permutation

1

Apache Spark : 재 파티셔닝, 정렬 및 캐싱이 조인에 미치는 영향

테이블을 자체에 조인 할 때 Spark의 동작을 탐색 중입니다. Databricks를 사용하고 있습니다. 내 더미 시나리오는 다음과 같습니다 외부 테이블을 데이터 프레임 A로 읽습니다 (기본 파일은 델타 형식 임) 특정 열만 선택한 상태에서 데이터 프레임 B를 데이터 프레임 A로 정의 column1 및 column2의 데이터 프레임 A 및 B 조인 (예, 이해가되지 …

10 apache-spark pyspark bigdata azure-databricks delta-lake

«bigdata» 태그된 질문