짧은 대답 :
사용 Delimiter='/'
. 이렇게하면 버킷을 반복적으로 나열하지 않습니다. 여기에 일부 답변은 전체 목록을 작성하고 일부 문자열 조작을 사용하여 디렉토리 이름을 검색하는 것을 잘못 제안합니다. 이것은 매우 비효율적 일 수 있습니다. S3는 버킷에 포함 할 수있는 객체 수에 사실상 제한이 없습니다. 따라서 bar/
와 사이 foo/
에 1 조 개의 객체가 있다고 상상해보십시오 ['bar/', 'foo/']
. 를 얻기까지 매우 오랜 시간이 걸릴 것 입니다.
사용 Paginators
. 같은 이유로 (S3는 엔지니어의 무한대 근사치 임) 페이지를 통해 나열하고 모든 목록을 메모리에 저장하지 않아야 합니다. 대신 "lister"를 반복자로 간주하고 생성되는 스트림을 처리하십시오.
사용 boto3.client
하지 않고 boto3.resource
. resource
버전 잘 처리하지 않는 것 Delimiter
옵션을 선택합니다. 리소스가있는 경우 (예 :) 다음을 사용 bucket = boto3.resource('s3').Bucket(name)
하여 해당 클라이언트를 가져올 수 있습니다 bucket.meta.client
.
긴 대답 :
다음은 간단한 버킷에 사용하는 반복기입니다 (버전 처리 없음).
import boto3
from collections import namedtuple
from operator import attrgetter
S3Obj = namedtuple('S3Obj', ['key', 'mtime', 'size', 'ETag'])
def s3list(bucket, path, start=None, end=None, recursive=True, list_dirs=True,
list_objs=True, limit=None):
"""
Iterator that lists a bucket's objects under path, (optionally) starting with
start and ending before end.
If recursive is False, then list only the "depth=0" items (dirs and objects).
If recursive is True, then list recursively all objects (no dirs).
Args:
bucket:
a boto3.resource('s3').Bucket().
path:
a directory in the bucket.
start:
optional: start key, inclusive (may be a relative path under path, or
absolute in the bucket)
end:
optional: stop key, exclusive (may be a relative path under path, or
absolute in the bucket)
recursive:
optional, default True. If True, lists only objects. If False, lists
only depth 0 "directories" and objects.
list_dirs:
optional, default True. Has no effect in recursive listing. On
non-recursive listing, if False, then directories are omitted.
list_objs:
optional, default True. If False, then directories are omitted.
limit:
optional. If specified, then lists at most this many items.
Returns:
an iterator of S3Obj.
Examples:
# set up
>>> s3 = boto3.resource('s3')
... bucket = s3.Bucket(name)
# iterate through all S3 objects under some dir
>>> for p in s3ls(bucket, 'some/dir'):
... print(p)
# iterate through up to 20 S3 objects under some dir, starting with foo_0010
>>> for p in s3ls(bucket, 'some/dir', limit=20, start='foo_0010'):
... print(p)
# non-recursive listing under some dir:
>>> for p in s3ls(bucket, 'some/dir', recursive=False):
... print(p)
# non-recursive listing under some dir, listing only dirs:
>>> for p in s3ls(bucket, 'some/dir', recursive=False, list_objs=False):
... print(p)
"""
kwargs = dict()
if start is not None:
if not start.startswith(path):
start = os.path.join(path, start)
kwargs.update(Marker=__prev_str(start))
if end is not None:
if not end.startswith(path):
end = os.path.join(path, end)
if not recursive:
kwargs.update(Delimiter='/')
if not path.endswith('/'):
path += '/'
kwargs.update(Prefix=path)
if limit is not None:
kwargs.update(PaginationConfig={'MaxItems': limit})
paginator = bucket.meta.client.get_paginator('list_objects')
for resp in paginator.paginate(Bucket=bucket.name, **kwargs):
q = []
if 'CommonPrefixes' in resp and list_dirs:
q = [S3Obj(f['Prefix'], None, None, None) for f in resp['CommonPrefixes']]
if 'Contents' in resp and list_objs:
q += [S3Obj(f['Key'], f['LastModified'], f['Size'], f['ETag']) for f in resp['Contents']]
q = sorted(q, key=attrgetter('key'))
if limit is not None:
q = q[:limit]
limit -= len(q)
for p in q:
if end is not None and p.key >= end:
return
yield p
def __prev_str(s):
if len(s) == 0:
return s
s, c = s[:-1], ord(s[-1])
if c > 0:
s += chr(c - 1)
s += ''.join(['\u7FFF' for _ in range(10)])
return s
테스트 :
다음은 paginator
및 의 동작을 테스트하는 데 유용합니다 list_objects
. 많은 디렉토리와 파일을 생성합니다. 페이지는 최대 1000 개 항목이므로 dirs 및 파일에 대해 여러 항목을 사용합니다. dirs
디렉토리 만 포함합니다 (각각 하나의 객체를 가짐). mixed
각 dir에 대해 2 개의 객체 비율로 dirs와 객체의 혼합을 포함합니다 (물론 dir 아래에 하나의 객체를 더합니다. S3는 객체 만 저장합니다).
import concurrent
def genkeys(top='tmp/test', n=2000):
for k in range(n):
if k % 100 == 0:
print(k)
for name in [
os.path.join(top, 'dirs', f'{k:04d}_dir', 'foo'),
os.path.join(top, 'mixed', f'{k:04d}_dir', 'foo'),
os.path.join(top, 'mixed', f'{k:04d}_foo_a'),
os.path.join(top, 'mixed', f'{k:04d}_foo_b'),
]:
yield name
with concurrent.futures.ThreadPoolExecutor(max_workers=32) as executor:
executor.map(lambda name: bucket.put_object(Key=name, Body='hi\n'.encode()), genkeys())
결과 구조는 다음과 같습니다.
./dirs/0000_dir/foo
./dirs/0001_dir/foo
./dirs/0002_dir/foo
...
./dirs/1999_dir/foo
./mixed/0000_dir/foo
./mixed/0000_foo_a
./mixed/0000_foo_b
./mixed/0001_dir/foo
./mixed/0001_foo_a
./mixed/0001_foo_b
./mixed/0002_dir/foo
./mixed/0002_foo_a
./mixed/0002_foo_b
...
./mixed/1999_dir/foo
./mixed/1999_foo_a
./mixed/1999_foo_b
s3list
에서 응답을 검사하기 위해 위에 제공된 코드를 약간만 처리하면 paginator
몇 가지 재미있는 사실을 관찰 할 수 있습니다.
은 Marker
정말 배타적입니다. 주어 Marker=topdir + 'mixed/0500_foo_a'
리스팅 (listing) 시작하게됩니다 후 (당으로 해당 키를 AmazonS3의 API 와 함께,) 즉 .../mixed/0500_foo_b
. 그것이 __prev_str()
.
를 사용 하면를 Delimiter
나열 할 때의 mixed/
각 응답 paginator
에 666 개의 키와 334 개의 공통 접두사가 포함됩니다. 엄청난 응답을 구축하지 않는 것이 좋습니다.
반대로 나열 할 때의 dirs/
각 응답 paginator
에는 1000 개의 공통 접두사 가 포함됩니다 (키 없음).
제한 형식으로 PaginationConfig={'MaxItems': limit}
제한을 전달 하면 공통 접두사가 아닌 키 수만 제한됩니다. 우리는 반복자의 스트림을 더 잘림으로써이를 처리합니다.