프로그램 작성 hadoop

4

MapReduce의 성능을 입증하는 데 사용되는 주요 예 중 하나는 Terasort 벤치 마크 입니다. MapReduce 환경에서 사용되는 정렬 알고리즘의 기본 사항을 이해하는 데 어려움이 있습니다. 나에게 정렬은 단순히 다른 모든 요소와의 관계에서 요소의 상대적 위치를 결정하는 것을 포함합니다. 따라서 정렬에는 "모든 것"과 "모든 것"을 비교하는 것이 포함됩니다. 평균 정렬 알고리즘 (빠른, …

110 algorithm sorting parallel-processing hadoop mapreduce

6

"hadoop fs"셸 명령과 "hdfs dfs"셸 명령의 차이점은 무엇입니까?

동등해야합니까? 그러나 " "명령이 로컬 파일을 hadoop fs표시하는 hdfs files반면 " "명령이 표시되는 이유는 hdfs dfs무엇입니까? 다음은 하둡 버전 정보입니다. Hadoop 2.0.0-mr1-cdh4.2.1 Subversion git : //ubuntu-slave07.jenkins.cloudera.com/var/lib/jenkins/workspace/CDH4.2.1-Packaging-MR1/build/cdh4/mr1/2.0.0 -mr1-cdh4.2.1 / source -r Jenkins가 Mon Apr 22 10:48:26 PDT 2013에 컴파일

109 hadoop hdfs

15

Hadoop 바이너리 경로에서 winutils 바이너리를 찾지 못했습니다.

최신 hadoop-2.2 릴리스의 namenode를 시작하는 동안 다음 오류가 발생합니다. hadoop bin 폴더에서 winutils exe 파일을 찾지 못했습니다. 나는 아래 명령을 시도했다 $ bin/hdfs namenode -format $ sbin/yarn-daemon.sh start resourcemanager ERROR [main] util.Shell (Shell.java:getWinUtilsPath(303)) - Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable …

108 hadoop

10

HDFS 디렉토리의 크기를 확인하는 방법은 무엇입니까?

나는 du -sh일반적인 Linux 파일 시스템을 알고 있습니다. 하지만 HDFS로 어떻게할까요?

99 hadoop command-line directory hdfs

15

Apache Hadoop에 해당하는 .NET이 있습니까? [닫은]

닫은. 이 질문은 Stack Overflow 지침을 충족하지 않습니다 . 현재 답변을 받고 있지 않습니다. 이 질문을 개선하고 싶으십니까? Stack Overflow의 주제에 맞게 질문을 업데이트하세요 . 휴일 3 년 전 . 이 질문 개선 그래서 저는 예리한 관심을 가지고 Hadoop 을 살펴 보았습니다. 솔직히 말해서 매료되었습니다. 내 유일한 사소한 문제는 C …

98 c# .net hadoop mapreduce

18

스키마에 대한 파일 시스템 없음 : 파일

나는 NaiveBayesClassifer이 오류가 발생하여 hadoop을 사용하여 간단한 실행을 시도하고 있습니다. Exception in thread "main" java.io.IOException: No FileSystem for scheme: file at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:1375) at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:66) at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:1390) at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:196) at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:95) at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:180) at org.apache.hadoop.fs.Path.getFileSystem(Path.java:175) at org.apache.mahout.classifier.naivebayes.NaiveBayesModel.materialize(NaiveBayesModel.java:100) 코드 : Configuration configuration = new Configuration(); NaiveBayesModel model = NaiveBayesModel.materialize(new Path(modelPath), configuration);// error …

97 java hadoop io

7

Avro 대 Parquet

내 hadoop 관련 프로젝트에 hadoop 파일 형식 중 하나를 사용할 계획입니다. parquet는 열 기반 쿼리 및 avro 전체 스캔 또는 모든 열 데이터가 필요할 때 효율적이라는 것을 이해 합니다! 계속해서 파일 형식 중 하나를 선택하기 전에 하나의 단점 / 결점이 무엇인지 이해하고 싶습니다. 누구든지 간단한 용어로 설명 할 수 있습니까?

93 hadoop avro parquet

10

Hadoop없이 Apache Spark를 실행할 수 있습니까?

Spark 와 Hadoop 간에 종속성이 있습니까? 그렇지 않다면 Hadoop 없이 Spark 를 실행할 때 놓칠 기능이 있습니까?

91 hadoop amazon-s3 apache-spark mapreduce mesos

28

호스트 localhost 포트 22에 연결 : 연결이 거부되었습니다.

내 로컬 컴퓨터에 hadoop을 설치하는 동안 다음 오류가 발생했습니다. ssh -vvv localhost OpenSSH_5.5p1, OpenSSL 1.0.0e-fips 6 Sep 2011 debug1: Reading configuration data /etc/ssh/ssh_config debug1: Applying options for * debug2: ssh_connect: needpriv 0 debug1: Connecting to localhost [127.0.0.1] port 22. debug1: connect to address 127.0.0.1 port 22: Connection refused ssh: connect …

90 linux hadoop ssh

25

명령 프롬프트에서 Hive 및 Hadoop 버전을 확인하는 방법은 무엇입니까?

명령 프롬프트에서 사용중인 Hive 버전을 어떻게 찾을 수 있습니까? 아래는 세부 사항입니다. Putty를 사용하여 하이브 테이블에 연결하고 테이블의 레코드에 액세스합니다. 그래서 제가 한 것은 Putty를 열고 입력 한 호스트 이름을 입력 한 다음를 leo-ingesting.vip.name.com클릭하는 것 Open입니다. 그런 다음 사용자 이름과 암호를 입력 한 다음 Hive SQL에 액세스하기위한 몇 가지 명령을 …

89 hadoop hive

5

Snappy를 사용한 Parquet vs ORC vs ORC

Hive에서 사용할 수있는 스토리지 형식에 대한 몇 가지 테스트를 실행하고 주요 옵션으로 Parquet 및 ORC를 사용하고 있습니다. ORC를 기본 압축으로 한 번, Snappy에 한 번 포함했습니다. 나는 Parquet이 ORC에 비해 시간 / 공간 복잡성이 더 좋다는 문서를 많이 읽었지만 내 테스트는 내가 통과 한 문서와 반대입니다. 내 데이터의 몇 가지 …

87 hadoop hive parquet snappy orc

8

컨테이너가 메모리 제한을 초과하여 실행 중입니다.

Hadoop v1에서는 크기가 1GB 인 7 개의 매퍼와 감속기 슬롯을 각각 할당했으며 매퍼 및 감속기가 정상적으로 실행됩니다. 내 컴퓨터에는 8G 메모리, 8 프로세서가 있습니다. 이제 YARN을 사용하여 동일한 시스템에서 동일한 응용 프로그램을 실행할 때 컨테이너 오류가 발생했습니다. 기본적으로 다음 설정이 있습니다. <property> <name>yarn.scheduler.minimum-allocation-mb</name> <value>1024</value> </property> <property> <name>yarn.scheduler.maximum-allocation-mb</name> <value>8192</value> </property> <property> …

85 hadoop mapreduce yarn mrv2

3

대규모 데이터 처리 Hbase 대 Cassandra [닫기]

현재이 질문은 Q & A 형식에 적합하지 않습니다. 사실, 참고 문헌 또는 전문 지식이 답변을 뒷받침 할 것으로 기대하지만이 질문은 토론, 논쟁, 여론 조사 또는 확장 된 토론을 유도 할 가능성이 높습니다. 이 질문이 개선되고 다시 열릴 수 있다고 생각 되면 도움말 센터 를 방문하여 안내를 받으세요. 휴일 팔년 전에 …

84 nosql hadoop cassandra hbase data-processing

8

감소 작업은 언제 Hadoop에서 시작됩니까?

Hadoop에서 작업 감소는 언제 시작됩니까? 매퍼의 특정 비율 (임계 값)이 완료된 후에 시작됩니까? 그렇다면이 임계 값이 고정되어 있습니까? 일반적으로 어떤 종류의 임계 값이 사용됩니까?

81 hadoop mapreduce reduce

18

HiveQL 쿼리 결과를 CSV로 출력하려면 어떻게해야합니까?

Hive 쿼리 결과를 CSV 파일에 저장하려고합니다. 명령이 다음과 같아야한다고 생각했습니다. insert overwrite directory '/home/output.csv' select books from table; 실행하면 성공적으로 완료되었다고 표시되지만 파일을 찾을 수 없습니다. 이 파일을 어떻게 찾습니까? 아니면 다른 방법으로 데이터를 추출해야합니까?

81 database hadoop hive hiveql

«hadoop» 태그된 질문