클라우드 컴퓨팅의 백엔드로서 어떤 분산 파일 시스템?


11

우분투 서버 (9.04)와 유칼립투스에서 실행되는 기본 클라우드가 있습니다. Walrus (Eucalyptus의 API 호환 S3 구현)는 클라우드 컨트롤러에 파일을 저장합니다. 그러나 다른 4 개의 서버 각각에는 1TB 스토리지가 있으며 이는 거의 사용되지 않습니다. 사용 가능한 모든 리소스를 사용하기 위해 모든 스토리지를 함께 풀링하는 방법을 찾고 있습니다. PVFS, Lustre, HDFS (Hadoop)를 포함한 다양한 옵션을 찾고 있습니다.

필자의 유일한 요구 사항은 확장 가능해야하며 우분투에서 잘 작동한다는 것입니다. 그러한 기술에 경험이있는 사람의 의견을 보내 주셔서 감사하며 귀하의 제안을 기다리겠습니다.


우분투 일 필요가 없다면 ZFS라고 말할 것입니다.
브래드 길버트

3
ZFS는 클러스터 파일 시스템이 아닙니다.
MarkR

답변:


5

우리 시스템의 어느 곳에서도 개인적으로 구현하지는 않았지만 Gluster를 꽤 광범위하게 살펴 보았습니다 . 나는 이것을 사용하는 일부 대형 사이트의 몇몇 사람들을 알고 있으며 실제로 잘 작동합니다. HPC 응용 프로그램의 경우 프로덕션 환경에서 사용합니다.


2

GlusterFS는 나에게 이상적인 솔루션 인 것 같습니다. Gluster를 설정하는 데 많은 노력이 필요하다고 주장하는 사람에게는 아마도 시도한 적이 없다고 말해야합니다. Gluster 3.2부터 구성 유틸리티는 매우 훌륭하며 네트워크에서 클러스터 볼륨을 높이고 공유하기 위해 2 ~ 3 개의 명령이 필요합니다. Gluster 볼륨을 장착하는 것도 간단합니다.

또한 측면에서 NFS보다 훨씬 많은 유연성을 제공합니다. 그것은 스트라이핑, relication, georeplication을 수행하고 물론 POSIX를 준수합니다. HekaFS라는 확장이 있습니다.이 확장에는 SSL 및 고급 인증 메커니즘이 추가되어 클라우드 컴퓨팅에 유용 할 것입니다. 또한 비늘! F / OSS이며 최근 Gluster를 구입 한 RedHat이 개발 중입니다.


1

mogileFS를 본 적이 있습니까? http://danga.com/mogilefs/

전통적인 의미에서 파일 시스템은 아니지만 복제 및 중복성을 고려하여 클러스터에 파일 데이터를 분산시키는 데 좋습니다.

웹 애플리케이션 용 파일을 제공하는 경우 파일을 제공 할 무언가가 필요합니다. mogile FS에서 원하는 파일을 찾기 위해 검색 키로 HTTP 요청을 사용하는 PHP 스크립트를 제안합니다. 그런 다음 파일의 내용을 버퍼로 읽어 에코 / 인쇄 할 수 있습니다.

MogileFS는 이미 빠르지 만, mogileFS와 memcache를 결합하여 가장 일반적으로 사용되는 파일에 대한 액세스 속도를 높일 수 있습니다.


메타 데이터 노드의 경우 MogileFS에 단일 장애 지점이 있다는 것을 기억합니다. HDFS에도 비슷한 문제가 있습니다.
David Pashley

MogileFS는 매우 흥미로운 것처럼 보이며 복제 및 중복성이 이상적이지만 응용 프로그램이 실행되고 있음을 인식해야하기 때문에 일반적인 용도로는 적합하지 않은 것으로 보입니다. 응용 프로그램이 FS에 독립적 일 수있는보다 전통적인 파일 시스템이 더 적합합니다.
Jaunty

1
MogileFS는 여러 개의 트래커를 실행할 수 있으며 백엔드에서 장애 조치 mysql을 가질 수 있습니다. 이 방법으로 모든 단일 실패 지점을 제거 할 수 있습니다.
davidsheldon 2009

1

Luster를 사용하면 서버에 특수 커널이 있어야하며 서버는 서버이며 다른 것은 없습니다.

이상하게도 가장 정답은 NFS입니다. Amazon 클라우드에서 NFS를 사용했습니다. 일부 파일 시스템뿐만 아니라 확장되지 않을 수도 있지만 단순성을 간과해서는 안됩니다. 단일 네임 스페이스는 아마도 구현하는 데 노력할 가치가 없습니다.


1

아직도 HDFS를 찾고 있습니까? Cloudera 직원 중 한 명이 올해 VelocityConf에서 빅 데이터 클러스터 관리에 중점을 둔 Hadoop 및 HDFS에 대해 이야기 했으므로 HDFS에 대해 약간 이야기했습니다. 슬라이드는 매우 유익합니다. 나는 개인적으로 HDFS와 함께 일하지는 않았지만 Velocity에서 우분투에서 다양한 데이터 분석을 위해 사용하는 임의의 사람들과 이야기했습니다.


1

가상화 환경 뒤에 일종의 공유 파일 시스템을 배치하는 것이 일반적입니다. 달성하고자하는 대상에 따라 다양한 선택이 가능합니다.

가장 간단한 해결책은 아마도 NFS 일 것입니다. 왜냐하면 이것은 여러분이 실행하는 모든 배포본에서 기본적으로 지원 될 것이기 때문입니다. NFS는 가상화 백엔드 파일 시스템으로서 성능이 뛰어나지 만 가장 빠른 성능은 아닙니다.

RedHat (또는 파생) 클러스터를 실행하는 경우 RedHat의 클러스터 파일 시스템 인 GFS2를 즉시 지원할 수 있습니다. 이것은 수백 개의 노드까지 확장되지 않지만 소규모 클러스터에는 적합합니다.

그 외에도 Lustre, Glusterfs, GPFS 등과 같은 범위로 들어가기 시작했습니다. 이들은 모두 고성능 병렬 파일 시스템이지만 여기에서 다른 옵션보다 설정하는 데 더 많은 작업이 필요합니다. 환경이 큰 경우 살펴볼 가치가 있습니다.


1

NFS가 최선의 선택이라는 점에서 @larsks에 동의합니다. 일부 iSCSI 대상인 NFS를 설정합니다. 이것은 약 5-10 노드로 확장됩니다. I / O, 네트워크 기능 등에 기반한 YMMV (다중 경로 I / O를 지원하는 iSCSI 설정).

20 개 이상의 노드가 필요한 경우 Ceph 를 조사 할 수 있습니다 . Luster는 유망하고 안정적이지만 (F / OSS) Oracle 제품이며 Oracle에 대해 개인적으로 싫어합니다. :)

Ceph는 또한 매우 활동적입니다. 가장 최근 릴리스는 5 일 전이었습니다.


Lustre는 더 이상 Oracle의 우산 아래 있지 않습니다.
utopiabound를

1

XtreemFS 가 해결책이 될 수 있습니다. 설치 및 구성이 매우 간단하며 Ubuntu 용 패키지도 있습니다.



0

당신이 무엇을하고 있는지 확실하지 않지만, 이것은 CouchDB에 대한 잠재적으로 흥미로운 응용 프로그램처럼 들립니다 .


0

PVFS2를 시도 할 수 있습니다. Lustre보다 설정이 훨씬 쉽고 일반적으로 Gluster보다 빠릅니다.


Gluster보다 빠릅니까? 성능 관련 데이터를 공유 할 수 있습니까?
John-ZFS

최근 벤치 마크가 없습니다. 2008 년에 Gluster는 Lustre보다 훨씬 느리지 만 PVFS2는 약간 느 렸습니다. 요즘에는 다를 수 있습니다. 아마도 이것을 벤치마킹 할 것입니다.
wazoox

감사합니다. 벤치 마크를 수행하는 경우 알려주십시오. maruti.j@gmail.com 또는 모든 사람들의 이익을 위해 serverfault에 게시물을 만들 수 있습니다
John-ZFS
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.