두 버킷 간의 AWS S3 복사 파일 및 폴더


112

먼저 콘텐츠를 로컬 파일 시스템에 다운로드하지 않고 AWS S3 버킷의 콘텐츠를 두 번째 AWS S3 버킷에 복사하는 데 도움이되는 도구를 찾고있었습니다.

AWS S3 콘솔 복사 옵션을 사용하려고했지만 일부 중첩 된 파일이 누락되었습니다.

Transmit 앱 (by Panic)을 사용해 보았습니다. 복제 명령은 먼저 파일을 로컬 시스템에 다운로드 한 다음 두 번째 버킷에 다시 업로드하므로 매우 비효율적입니다.


귀하의 동시 요청 수를 늘리는 것이 좋습니다 aws configure set default.s3.max_concurrent_requests 200 자세한 내용과 옵션이 게시물을 참조하십시오 stackoverflow.com/questions/4663016/...
Balmipour

답변:


176

S3 버킷 간 복사

AWS (최근)는 버킷 간 복사를위한 명령 줄 인터페이스를 출시했습니다.

http://aws.amazon.com/cli/

$ aws s3 sync s3://mybucket-src s3://mybucket-target --exclude *.tmp
..

이것은 한 대상 버킷에서 다른 버킷으로 복사 됩니다.

여기에서 설명서를 참조하십시오. S3 CLI 설명서


EC2에서 실행하여 약 5 초 만에 80MB를 복사했습니다.
Stew-au

1
aws-sdk gem에는 전체 버킷을 한 번에 복사하거나 동기화하는 기능이 없기 때문에 정확히 필요한 것입니다. 감사!
odigity 2014

다음 오류가 발생합니다A client error (PermanentRedirect) occurred when calling the ListObjects operation: The bucket you are attempting to access must be addressed using the specified endpoint. Please send all future requests to this endpoint.
Giovanni Bitliner 2014 년

@GiovanniBitliner 사용중인 버킷 이름이 올바르지 않습니다. 잘못된 접두사를 사용하거나 버킷을 참조하는 이전 방법을 사용하고 있습니다. 관리 콘솔에서 버킷 이름을 정확히 확인하십시오.
Layke 2014 년

8
cli 도구를 처음 사용하는 경우 'aws configure'를 실행하고 자격 증명을 입력해야합니다
.

41

aws-sdk gem을 사용한 단순화 된 예 :

AWS.config(:access_key_id => '...', :secret_access_key => '...')
s3 = AWS::S3.new
s3.buckets['bucket-name'].objects['source-key'].copy_to('target-key')

서로 다른 버킷간에 복사를 수행하려면 대상 버킷 이름을 지정하십시오.

s3.buckets['bucket-name'].objects['source-key'].copy_to('target-key', :bucket_name => 'target-bucket')

41

이제 S3 관리 인터페이스에서 수행 할 수 있습니다. 하나의 버킷으로 이동하여 모든 폴더를 선택하십시오 actions->copy. 그런 다음 새 버킷으로 이동합니다 actions->paste.


4
대박! 그는 웹 인터페이스를 언급하고 있습니다. 다른 대부분과 달리 iPad에서이 작업을 수행 할 수 있습니다.
야곱 Foshee

2
이렇게하면 하위 폴더에 중첩 된 객체가 무작위로 제외됩니다. 3 년이 지난 후에도 AWS는 여전히 이러한 기본적인 버그를 수정할 수 없습니다!
RunLoop

같은 지역입니까, 아니면 모두입니까?
hakiko

1
이러한 문제가 Amazon에서 문서화되어 있습니까? @RunLoop
davetapley

1
@dukedave 완벽하게 작동했기 때문에 명령 줄을 통해 복사를 수행하는 데 의지했기 때문에 나는 잘 모르고 꽤 오랫동안 다시 테스트하지 않았습니다.
RunLoop

8

최신 aws-sdk gem으로 가능 합니다. 코드 샘플을 참조하세요.

require 'aws-sdk'

AWS.config(
  :access_key_id     => '***',
  :secret_access_key => '***',
  :max_retries       => 10
)

file     = 'test_file.rb'
bucket_0 = {:name => 'bucket_from', :endpoint => 's3-eu-west-1.amazonaws.com'}
bucket_1 = {:name => 'bucket_to',   :endpoint => 's3.amazonaws.com'}

s3_interface_from = AWS::S3.new(:s3_endpoint => bucket_0[:endpoint])
bucket_from       = s3_interface_from.buckets[bucket_0[:name]]
bucket_from.objects[file].write(open(file))

s3_interface_to   = AWS::S3.new(:s3_endpoint => bucket_1[:endpoint])
bucket_to         = s3_interface_to.buckets[bucket_1[:name]]
bucket_to.objects[file].copy_from(file, {:bucket => bucket_from})

자세한 내용 : aws-s3 gem을 사용하여 버킷간에 파일을 복사하는 방법


서버 간 복사 방법을 보여 주셔서 감사합니다. 우리 서버에서 싱가포르 서버로 복사하려고합니다.
Arcolye 2013 년

@Arcolye 지금 AWS 싱가포르의 지연 시간은 어떻습니까? 1 년 전에는 느리고 일관성이 없었습니다.
Anatoly

7

다른 지역의 버킷 간 복사

$ aws s3 cp s3://src_bucket/file  s3://dst_bucket/file --source-region eu-west-1 --region ap-northeast-1

위의 명령은 유럽 (eu-west-1)의 버킷에서 일본 (ap-northeast-1)으로 파일을 복사합니다. 다음 명령을 사용하여 버킷 리전의 코드 이름을 가져올 수 있습니다.

$ aws s3api get-bucket-location --bucket my_bucket

그건 그렇고, S3 웹 콘솔에서 복사 및 붙여 넣기를 사용하는 것은 쉽지만 소스 버킷에서 브라우저로 다운로드 한 다음 대상 버킷에 업로드하는 것 같습니다. "aws s3"를 사용하는 것이 훨씬 더 빨랐습니다.


6

s3s3mirrorDocker 실행 파일만들었습니다. 도구 . AWS S3 버킷에서 다른 버킷으로 복사 및 미러링하는 유틸리티입니다.

병렬 COPY를 허용하고 매우 메모리 효율적이며 s3cmd가 완전히 실패하는 곳에서 성공합니다.

용법:

docker run -e AWS_ACCESS_KEY_ID=FOO -e AWS_SECRET_ACCESS_KEY=BAR pmoust/s3s3mirror [OPTIONS] source_bucket[/prefix] dest_bucket[/prefix]

전체 옵션 목록을 보려면 다음을 시도하십시오.

docker run pmoust/s3s3mirror 


5

지금 쯤이면 좋은 해결책을 찾았다 고 생각하지만이 문제가 발생하는 다른 사람들을 위해 (방금 최근에 그랬듯이) S3 버킷을 다른 버킷으로 미러링 할 목적으로 특별히 간단한 유틸리티를 만들었습니다. 동시성이 높지만 CPU 및 메모리 효율적인 방식입니다.

여기 Apache 라이선스에 따라 github에 있습니다 : https://github.com/cobbzilla/s3s3mirror

버킷이 매우 크고 최대 성능을 찾고 있다면 시도해 볼 가치가 있습니다.

사용해보기로 결정한 경우 의견이 있으면 알려주십시오.


s3s3mirror에 대한 좋은 경험을했습니다. m1.small EC2 노드에 설정하고 약 2 시간 만에 150 만 개의 객체를 복사 할 수있었습니다. Maven과 Java에 익숙하지 않아 설정이 약간 어려웠지만 Ubuntu에서 몇 가지 apt-get 명령 만 있으면 모든 것이 설치되었습니다. 마지막 메모 : (나처럼) 크고 중요한 s3 버킷에서 알 수없는 스크립트를 실행하는 것이 걱정된다면 복사 원본 버킷에 대한 읽기 전용 액세스 권한이있는 특수 사용자를 생성하고 해당 자격 증명을 사용하십시오. 실수로 삭제 될 가능성이 없습니다.
미가

4

셸에 있으며 모든 파일이 아닌 여러 파일을 복사하려는 경우 : s3cmd cp --recursive s3 : // BUCKET1 / OBJECT1 s3 : // BUCKET2 [/ OBJECT2]


3

S3 버킷을 백업하는 스크립트를 작성했습니다. https://github.com/roseperrone/aws-backup-rake-task

#!/usr/bin/env python
from boto.s3.connection import S3Connection
import re
import datetime
import sys
import time

def main():
    s3_ID = sys.argv[1]
    s3_key = sys.argv[2]
    src_bucket_name = sys.argv[3]
    num_backup_buckets = sys.argv[4]
    connection = S3Connection(s3_ID, s3_key)
    delete_oldest_backup_buckets(connection, num_backup_buckets)
    backup(connection, src_bucket_name)

def delete_oldest_backup_buckets(connection, num_backup_buckets):
    """Deletes the oldest backup buckets such that only the newest NUM_BACKUP_BUCKETS - 1 buckets remain."""
    buckets = connection.get_all_buckets() # returns a list of bucket objects
    num_buckets = len(buckets)

    backup_bucket_names = []
    for bucket in buckets:
        if (re.search('backup-' + r'\d{4}-\d{2}-\d{2}' , bucket.name)):
            backup_bucket_names.append(bucket.name)

    backup_bucket_names.sort(key=lambda x: datetime.datetime.strptime(x[len('backup-'):17], '%Y-%m-%d').date())

    # The buckets are sorted latest to earliest, so we want to keep the last NUM_BACKUP_BUCKETS - 1
    delete = len(backup_bucket_names) - (int(num_backup_buckets) - 1)
    if delete <= 0:
        return

    for i in range(0, delete):
        print 'Deleting the backup bucket, ' + backup_bucket_names[i]
        connection.delete_bucket(backup_bucket_names[i])

def backup(connection, src_bucket_name):
    now = datetime.datetime.now()
    # the month and day must be zero-filled
    new_backup_bucket_name = 'backup-' + str('%02d' % now.year) + '-' + str('%02d' % now.month) + '-' + str(now.day);
    print "Creating new bucket " + new_backup_bucket_name
    new_backup_bucket = connection.create_bucket(new_backup_bucket_name)
    copy_bucket(src_bucket_name, new_backup_bucket_name, connection)


def copy_bucket(src_bucket_name, dst_bucket_name, connection, maximum_keys = 100):
    src_bucket = connection.get_bucket(src_bucket_name);
    dst_bucket = connection.get_bucket(dst_bucket_name);

    result_marker = ''
    while True:
        keys = src_bucket.get_all_keys(max_keys = maximum_keys, marker = result_marker)

        for k in keys:
            print 'Copying ' + k.key + ' from ' + src_bucket_name + ' to ' + dst_bucket_name

            t0 = time.clock()
            dst_bucket.copy_key(k.key, src_bucket_name, k.key)
            print time.clock() - t0, ' seconds'

        if len(keys) < maximum_keys:
            print 'Done backing up.'
            break

        result_marker = keys[maximum_keys - 1].key

if  __name__ =='__main__':main()

레이크 작업 (Rails 앱의 경우)에서 이것을 사용합니다.

desc "Back up a file onto S3"
task :backup do
     S3ID = "AKIAJM3NRWC7STXWUWVQ"
     S3KEY = "0A5kuzV+E1dkaPjZxHQAezz1GlSddJd0iS5sNpry"
     SRCBUCKET = "primary-mzgd"
     NUM_BACKUP_BUCKETS = 2

     Dir.chdir("#{Rails.root}/lib/tasks")
     system "./do_backup.py #{S3ID} #{S3KEY} #{SRCBUCKET} #{NUM_BACKUP_BUCKETS}"
end

1

당신이 자바 스크립트에 있다면 노드 모듈이 있다고 들었습니다.

로부터 녹스 복사 문서 :

knoxCopy = require 'knox-copy'

client = knoxCopy.createClient
  key: '<api-key-here>'
  secret: '<secret-here>'
  bucket: 'backups'

client.copyBucket
  fromBucket: 'uploads'
  fromPrefix: '/nom-nom'
  toPrefix: "/upload_backups/#{new Date().toISOString()}"
  (err, count) ->
     console.log "Copied #{count} files"

이 미안 ... (예, 자바 스크립트가 아니라 여전히 내가 커피 스크립트 알고 있어요 당신이 그것을 사용할 수있는), 자바 스크립트 아니다
빅터 슈뢰더

1

EMR 클러스터에서 s3distcp를 사용하여이 작업을 수행 할 수도 있다는 알림을 받았습니다. 대용량 파일을 포함하는 데이터의 경우 더 빠릅니다. 작은 데이터 세트에서 충분히 잘 작동하지만 너무 적은 데이터를 설정하는 데 걸리는 학습 곡선을 고려할 때 다른 솔루션을 선호했을 것입니다 (이전에 EMR로 작업 한 적이 없음).

다음은 AWS 설명서의 링크입니다. http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/UsingEMR_s3distcp.html

업데이트 : 동일한 데이터 세트에 대해 s3s3mirror는 s3distcp 또는 AWS cli보다 훨씬 빠릅니다. 설정도 훨씬 쉽습니다.


1

로컬로 다운로드하지 않고 하나의 S3 버킷에서 동일한 또는 다른 S3 버킷으로 복사하는 것은 매우 간단합니다. 아래 셸 명령을 사용하십시오.

hdfs dfs -cp -f "s3://AccessKey:SecurityKey@ExternalBucket/SourceFoldername/*.*" "s3://AccessKey:SecurityKey@ExternalBucket/TargetFoldername"

그러면 원본 버킷 SourceFoldername폴더 의 모든 파일 이 대상 버킷 TargetFoldername폴더로 복사됩니다. 위의 코드에서, 교체하십시오 AccessKey, SecurityKey그리고 ExternalBucket당신의 해당하는 값.


무엇입니까 hdfs?
Anthony Kong

1

AWS cli https://aws.amazon.com/cli/에서 할 수 있습니다.

aws s3 ls -모든 S3 버킷이 나열됩니다.

aws cp --recursive s3://<source bucket> s3://<destination bucket> -이렇게하면 한 버킷에서 다른 버킷으로 파일이 복사됩니다.

참고 * 위의 작업을 수행하여 교차 리전 복제 버킷을 생성 할 때 매우 유용합니다. 파일이 모두 추적되고 소스 리전 파일에 대한 업데이트가 복제 된 버킷으로 전파됩니다. 파일 삭제를 제외한 모든 항목이 동기화됩니다.

CRR의 경우 버킷에서 버전 관리가 활성화되어 있는지 확인하십시오.


0

aws s3 synccli 명령 은 어떻습니까 ? aws s3 sync s3 : // bucket1 / s3 : // bucket2 /


0

Neel Bhaat가이 블로그 에서 설명했듯이 목적으로 사용할 수있는 다양한 도구가 있습니다. 일부는 AWS에서 제공하며 대부분은 타사 도구입니다. 이러한 모든 도구를 사용하려면 도구 자체에 AWS 계정 키와 암호를 저장해야합니다. 저장 한 자격 증명으로 인해 전체 가치가 손실되고 사망에이를 수 있으므로 타사 도구를 사용할 때는 매우주의해야합니다.

따라서 항상 이 목적으로 AWS CLI 를 사용하는 것이 좋습니다 . 이 링크 에서 간단히 설치할 수 있습니다 . 다음으로 다음 명령을 실행하고 AWS CLI에 키, 보안 값을 저장합니다.

aws configure

그리고 다음 명령을 사용하여 AWS S3 버킷을 로컬 머신에 동기화합니다. (로컬 머신에는 AWS CLI가 설치되어 있어야합니다)

aws s3 sync <source> <destination>

예 :

1) AWS S3에서 로컬 스토리지로

aws s3 sync <S3Uri> <LocalPath>

2) 로컬 스토리지에서 AWS S3로

aws s3 sync <LocalPath> <S3Uri>

3) AWS s3 버킷에서 다른 버킷으로

aws s3 sync <S3Uri> <S3Uri> 

0

S3 버킷을 복사하는 가장 좋은 방법은 AWS CLI를 사용하는 것 입니다.

여기에는 다음 3 단계가 포함됩니다.

  1. 서버에 AWS CLI를 설치합니다.
**https://docs.aws.amazon.com/cli/latest/userguide/cli-chap-install.html**
  1. 두 AWS 계정간에 버킷을 복사하는 경우 각 버킷에 올바른 정책을 연결해야합니다.

  2. 그런 다음이 명령을 사용하여 한 버킷에서 다른 버킷으로 복사합니다.

aws s3 sync s3://sourcebucket s3://destinationbucket

2 단계3 단계 의 세부 사항은 다음 링크에 있습니다.

https://aws.amazon.com/premiumsupport/knowledge-center/account-transfer-s3/


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.