짧은 대답 :
사용 Delimiter='/'
. 이렇게하면 버킷을 반복적으로 나열하지 않습니다. 여기에 일부 답변은 전체 목록을 작성하고 일부 문자열 조작을 사용하여 디렉토리 이름을 검색하는 것을 잘못 제안합니다. 이것은 매우 비효율적 일 수 있습니다. S3는 버킷에 포함 할 수있는 객체 수에 사실상 제한이 없습니다. 따라서 bar/
와 사이 foo/
에 1 조 개의 객체가 있다고 상상해보십시오 ['bar/', 'foo/']
. 를 얻기까지 매우 오랜 시간이 걸릴 것 입니다.
사용 Paginators
. 같은 이유로 (S3는 엔지니어의 무한대 근사치 임) 페이지를 통해 나열하고 모든 목록을 메모리에 저장하지 않아야 합니다. 대신 "lister"를 반복자로 간주하고 생성되는 스트림을 처리하십시오.
사용 boto3.client
하지 않고 boto3.resource
. resource
버전 잘 처리하지 않는 것 Delimiter
옵션을 선택합니다. 리소스가있는 경우 (예 :) 다음을 사용 bucket = boto3.resource('s3').Bucket(name)
하여 해당 클라이언트를 가져올 수 있습니다 bucket.meta.client
긴 대답 :
다음은 간단한 버킷에 사용하는 반복기입니다 (버전 처리 없음).
import boto3
from collections import namedtuple
from operator import attrgetter
S3Obj = namedtuple('S3Obj', ['key', 'mtime', 'size', 'ETag'])
def s3list(bucket, path, start=None, end=None, recursive=True, list_dirs=True,
list_objs=True, limit=None):
Iterator that lists a bucket's objects under path, (optionally) starting with
start and ending before end.
If recursive is False, then list only the "depth=0" items (dirs and objects).
If recursive is True, then list recursively all objects (no dirs).
a boto3.resource('s3').Bucket().
a directory in the bucket.
optional: start key, inclusive (may be a relative path under path, or
absolute in the bucket)
optional: stop key, exclusive (may be a relative path under path, or
absolute in the bucket)
optional, default True. If True, lists only objects. If False, lists
only depth 0 "directories" and objects.
optional, default True. Has no effect in recursive listing. On
non-recursive listing, if False, then directories are omitted.
optional, default True. If False, then directories are omitted.
optional. If specified, then lists at most this many items.
an iterator of S3Obj.
# set up
>>> s3 = boto3.resource('s3')
... bucket = s3.Bucket(name)
# iterate through all S3 objects under some dir
>>> for p in s3ls(bucket, 'some/dir'):
... print(p)
# iterate through up to 20 S3 objects under some dir, starting with foo_0010
>>> for p in s3ls(bucket, 'some/dir', limit=20, start='foo_0010'):
... print(p)
# non-recursive listing under some dir:
>>> for p in s3ls(bucket, 'some/dir', recursive=False):
... print(p)
# non-recursive listing under some dir, listing only dirs:
>>> for p in s3ls(bucket, 'some/dir', recursive=False, list_objs=False):
... print(p)
kwargs = dict()
if start is not None:
if not start.startswith(path):
start = os.path.join(path, start)
if end is not None:
if not end.startswith(path):
end = os.path.join(path, end)
if not recursive:
if not path.endswith('/'):
path += '/'
if limit is not None:
kwargs.update(PaginationConfig={'MaxItems': limit})
paginator = bucket.meta.client.get_paginator('list_objects')
for resp in paginator.paginate(Bucket=bucket.name, **kwargs):
q = []
if 'CommonPrefixes' in resp and list_dirs:
q = [S3Obj(f['Prefix'], None, None, None) for f in resp['CommonPrefixes']]
if 'Contents' in resp and list_objs:
q += [S3Obj(f['Key'], f['LastModified'], f['Size'], f['ETag']) for f in resp['Contents']]
q = sorted(q, key=attrgetter('key'))
if limit is not None:
q = q[:limit]
limit -= len(q)
for p in q:
if end is not None and p.key >= end:
yield p
def __prev_str(s):
if len(s) == 0:
return s
s, c = s[:-1], ord(s[-1])
if c > 0:
s += chr(c - 1)
s += ''.join(['\u7FFF' for _ in range(10)])
return s
테스트 :
다음은 paginator
및 의 동작을 테스트하는 데 유용합니다 list_objects
. 많은 디렉토리와 파일을 생성합니다. 페이지는 최대 1000 개 항목이므로 dirs 및 파일에 대해 여러 항목을 사용합니다. dirs
디렉토리 만 포함합니다 (각각 하나의 객체를 가짐). mixed
각 dir에 대해 2 개의 객체 비율로 dirs와 객체의 혼합을 포함합니다 (물론 dir 아래에 하나의 객체를 더합니다. S3는 객체 만 저장합니다).
import concurrent
def genkeys(top='tmp/test', n=2000):
for k in range(n):
if k % 100 == 0:
for name in [
os.path.join(top, 'dirs', f'{k:04d}_dir', 'foo'),
os.path.join(top, 'mixed', f'{k:04d}_dir', 'foo'),
os.path.join(top, 'mixed', f'{k:04d}_foo_a'),
os.path.join(top, 'mixed', f'{k:04d}_foo_b'),
yield name
with concurrent.futures.ThreadPoolExecutor(max_workers=32) as executor:
executor.map(lambda name: bucket.put_object(Key=name, Body='hi\n'.encode()), genkeys())
결과 구조는 다음과 같습니다.
에서 응답을 검사하기 위해 위에 제공된 코드를 약간만 처리하면 paginator
몇 가지 재미있는 사실을 관찰 할 수 있습니다.
은 Marker
정말 배타적입니다. 주어 Marker=topdir + 'mixed/0500_foo_a'
리스팅 (listing) 시작하게됩니다 후 (당으로 해당 키를 AmazonS3의 API 와 함께,) 즉 .../mixed/0500_foo_b
. 그것이 __prev_str()
를 사용 하면를 Delimiter
나열 할 때의 mixed/
각 응답 paginator
에 666 개의 키와 334 개의 공통 접두사가 포함됩니다. 엄청난 응답을 구축하지 않는 것이 좋습니다.
반대로 나열 할 때의 dirs/
각 응답 paginator
에는 1000 개의 공통 접두사 가 포함됩니다 (키 없음).
제한 형식으로 PaginationConfig={'MaxItems': limit}
제한을 전달 하면 공통 접두사가 아닌 키 수만 제한됩니다. 우리는 반복자의 스트림을 더 잘림으로써이를 처리합니다.