동시 비동기 I / O 작업의 양을 제한하는 방법은 무엇입니까?

// let's say there is a list of 1000+ URLs
string[] urls = { "http://google.com", "http://yahoo.com", ... };

// now let's send HTTP requests to each of these URLs in parallel
urls.AsParallel().ForAll(async (url) => {
    var client = new HttpClient();
    var html = await client.GetStringAsync(url);

여기에 문제가 있습니다. 1000 개 이상의 동시 웹 요청을 시작합니다. 이러한 비동기 http 요청의 동시 양을 제한하는 쉬운 방법이 있습니까? 따라서 한 번에 20 개 이상의 웹 페이지가 다운로드되지 않도록합니다. 가장 효율적인 방법으로 수행하는 방법은 무엇입니까?

.NET 4.5 베타를 사용하여 .NET 용 비동기 최신 버전에서 확실히이 작업을 수행 할 수 있습니다. 'usr'의 이전 게시물은 Stephen Toub가 작성한 좋은 기사를 가리 키지 만 덜 알려진 소식은 비동기 세마포어가 실제로 .NET 4.5의 베타 릴리스에 포함되었다는 것입니다.

우리가 사랑하는 SemaphoreSlim클래스 (원래보다 성능이 뛰어 나기 때문에 사용해야 함)를 살펴보면 Semaphore, 이제 WaitAsync(...)예상되는 모든 인수 (시간 초과 간격, 취소 토큰, 모든 일반적인 스케줄링 친구)와 함께 일련의 오버로드를 자랑합니다 . )

Stephen은 또한 베타와 함께 출시 된 새로운 .NET 4.5 기능에 대한 최신 블로그 게시물을 작성했습니다. What 's New for Parallelism in .NET 4.5 Beta를 참조하십시오 .

마지막으로, 비동기 메서드 조절에 SemaphoreSlim을 사용하는 방법에 대한 몇 가지 샘플 코드가 있습니다.

public async Task MyOuterMethod()
    // let's say there is a list of 1000+ URLs
    var urls = { "http://google.com", "http://yahoo.com", ... };

    // now let's send HTTP requests to each of these URLs in parallel
    var allTasks = new List<Task>();
    var throttler = new SemaphoreSlim(initialCount: 20);
    foreach (var url in urls)
        // do an async wait until we can schedule again
        await throttler.WaitAsync();

        // using Task.Run(...) to run the lambda in its own parallel
        // flow on the threadpool
            Task.Run(async () =>
                    var client = new HttpClient();
                    var html = await client.GetStringAsync(url);

    // won't get here until all urls have been put into tasks
    await Task.WhenAll(allTasks);

    // won't get here until all tasks have completed in some way
    // (either success or exception)

마지막으로 TPL 기반 스케줄링을 사용하는 솔루션을 언급 할 가치가있을 것입니다. 아직 시작되지 않은 TPL에서 위임 바인딩 작업을 생성하고 사용자 지정 작업 스케줄러가 동시성을 제한하도록 허용 할 수 있습니다. 실제로 여기에 MSDN 샘플이 있습니다.

TaskScheduler를 참조하십시오 .

IEnumerable (즉, URL 문자열)이 있고 이들 각각에 대해 I / O 바운드 작업을 동시에 수행하고 (즉, 비동기 http 요청 만들기) 선택적으로 최대 동시 수를 설정하려는 경우 실시간 I / O 요청을 수행하는 방법은 다음과 같습니다. 이렇게하면 스레드 풀 등을 사용하지 않고이 메서드는 세마포어 슬림을 사용하여 하나의 요청이 완료되고 세마포어를 떠나고 다음 요청이 들어오는 슬라이딩 창 패턴과 유사한 최대 동시 I / O 요청을 제어합니다.

사용법 : await ForEachAsync (urlStrings, YourAsyncFunc, optionalMaxDegreeOfConcurrency);

public static Task ForEachAsync<TIn>(
        IEnumerable<TIn> inputEnumerable,
        Func<TIn, Task> asyncProcessor,
        int? maxDegreeOfParallelism = null)
        int maxAsyncThreadCount = maxDegreeOfParallelism ?? DefaultMaxDegreeOfParallelism;
        SemaphoreSlim throttler = new SemaphoreSlim(maxAsyncThreadCount, maxAsyncThreadCount);

        IEnumerable<Task> tasks = inputEnumerable.Select(async input =>
            await throttler.WaitAsync().ConfigureAwait(false);
                await asyncProcessor(input).ConfigureAwait(false);

        return Task.WhenAll(tasks);

불행히도 .NET Framework에는 병렬 비동기 작업을 조정하기위한 가장 중요한 결합자가 없습니다. 그런 것은 내장되어 있지 않습니다.

가장 존경받는 Stephen Toub가 만든 AsyncSemaphore 클래스를 살펴보십시오 . 원하는 것은 세마포어라고하며 비동기 버전이 필요합니다.

많은 함정이 있으며 오류의 경우 세마포어를 직접 사용하는 것이 까다로울 수 있으므로 바퀴를 다시 발명하는 대신 AsyncEnumerator NuGet 패키지 를 사용하는 것이 좋습니다 .

// let's say there is a list of 1000+ URLs
string[] urls = { "http://google.com", "http://yahoo.com", ... };

// now let's send HTTP requests to each of these URLs in parallel
await urls.ParallelForEachAsync(async (url) => {
    var client = new HttpClient();
    var html = await client.GetStringAsync(url);
}, maxDegreeOfParalellism: 20);


Theo Yaung 예제는 좋지만 대기 작업 목록이없는 변형이 있습니다.

 class SomeChecker
    private const int ThreadCount=20;
    private CountdownEvent _countdownEvent;
    private SemaphoreSlim _throttler;

    public Task Check(IList<string> urls)
        _countdownEvent = new CountdownEvent(urls.Count);
        _throttler = new SemaphoreSlim(ThreadCount); 

        return Task.Run( // prevent UI thread lock
            async  () =>{
                foreach (var url in urls)
                    // do an async wait until we can schedule again
                    await _throttler.WaitAsync();
                    ProccessUrl(url); // NOT await
                //instead of await Task.WhenAll(allTasks);

    private async Task ProccessUrl(string url)
            var page = await new WebClient()
                       .DownloadStringTaskAsync(new Uri(url)); 

    private void ProccessResult(string page){/*....*/}

SemaphoreSlim은 여기에서 매우 유용 할 수 있습니다. 내가 만든 확장 방법은 다음과 같습니다.

    /// <summary>
    /// Concurrently Executes async actions for each item of <see cref="IEnumerable<typeparamref name="T"/>
    /// </summary>
    /// <typeparam name="T">Type of IEnumerable</typeparam>
    /// <param name="enumerable">instance of <see cref="IEnumerable<typeparamref name="T"/>"/></param>
    /// <param name="action">an async <see cref="Action" /> to execute</param>
    /// <param name="maxActionsToRunInParallel">Optional, max numbers of the actions to run in parallel,
    /// Must be grater than 0</param>
    /// <returns>A Task representing an async operation</returns>
    /// <exception cref="ArgumentOutOfRangeException">If the maxActionsToRunInParallel is less than 1</exception>
    public static async Task ForEachAsyncConcurrent<T>(
        this IEnumerable<T> enumerable,
        Func<T, Task> action,
        int? maxActionsToRunInParallel = null)
        if (maxActionsToRunInParallel.HasValue)
            using (var semaphoreSlim = new SemaphoreSlim(
                maxActionsToRunInParallel.Value, maxActionsToRunInParallel.Value))
                var tasksWithThrottler = new List<Task>();

                foreach (var item in enumerable)
                    // Increment the number of currently running tasks and wait if they are more than limit.
                    await semaphoreSlim.WaitAsync();

                    tasksWithThrottler.Add(Task.Run(async () =>
                        await action(item).ContinueWith(res =>
                            // action is completed, so decrement the number of currently running tasks

                // Wait for all of the provided tasks to complete.
                await Task.WhenAll(tasksWithThrottler.ToArray());
            await Task.WhenAll(enumerable.Select(item => action(item)));

샘플 사용법 :

await enumerable.ForEachAsyncConcurrent(
    async item =>
        await SomeAsyncMethod(item);


오래된 질문, 새로운 답변. @vitidev에는 내가 검토 한 프로젝트에서 거의 그대로 재사용 된 코드 블록이 있습니다. 몇몇 동료들과 논의한 후 "내장 된 TPL 방법을 사용하지 않는 이유는 무엇입니까?" ActionBlock이 승자처럼 보입니다. https://msdn.microsoft.com/en-us/library/hh194773(v=vs.110).aspx . 아마도 기존 코드를 변경하지 않을 것이지만 확실히이 너겟을 채택하고 조절 된 병렬 처리에 대해 Mr. Softy의 모범 사례를 재사용 할 것입니다.


다음은 LINQ의 게으른 특성을 활용하는 솔루션입니다. 허용되는 답변 과 기능적으로 동일 하지만) 대신 작업자 작업을 사용 SemaphoreSlim하여 전체 작업의 메모리 공간을 줄입니다. 처음에는 스로틀 링없이 작동하도록합니다. 첫 번째 단계는 URL을 작업 목록으로 변환하는 것입니다.

string[] urls =
    // ...
var httpClient = new HttpClient();
var tasks = urls.Select(async (url) =>
    return (Url: url, Html: await httpClient.GetStringAsync(url));

두 번째 단계는 await다음 Task.WhenAll방법을 사용하여 모든 작업을 동시에 수행하는 것입니다.

var results = await Task.WhenAll(tasks);
foreach (var result in results)
    Console.WriteLine($"Url: {result.Url}, {result.Html.Length:#,0} chars");


URL : https://stackoverflow.com , 105.574 자
URL : https://superuser.com , 126.953 자
URL : https://serverfault.com , 125.963 자
URL : https://meta.stackexchange.com , 185.276 자

Microsoft의 구현Task.WhenAll제공된 열거 형을 배열에 즉시 구체화하여 모든 작업이 한 번에 시작되도록합니다. 동시 비동기 작업의 수를 제한하고 싶기 때문에 원하지 않습니다. 따라서 우리 WhenAll는 열거 형을 부드럽고 천천히 열거 할 대안을 구현해야합니다 . 많은 작업자 작업 (원하는 동시성 수준과 동일)을 생성하고 각 작업자 작업은 잠금을 사용하여 한 번에 하나의 열거 가능한 작업을 열거하여 각 URL 작업이 처리되도록합니다. 단 하나의 작업자 작업으로. 그런 다음 await모든 작업자 작업을 완료하고 마지막으로 결과를 반환합니다. 구현은 다음과 같습니다.

public static async Task<T[]> WhenAll<T>(IEnumerable<Task<T>> tasks,
    int concurrencyLevel)
    if (tasks is ICollection<Task<T>>) throw new ArgumentException(
        "The enumerable should not be materialized.", nameof(tasks));
    var locker = new object();
    var results = new List<T>();
    var failed = false;
    using (var enumerator = tasks.GetEnumerator())
        var workerTasks = Enumerable.Range(0, concurrencyLevel)
        .Select(async _ =>
                while (true)
                    Task<T> task;
                    int index;
                    lock (locker)
                        if (failed) break;
                        if (!enumerator.MoveNext()) break;
                        task = enumerator.Current;
                        index = results.Count;
                        results.Add(default); // Reserve space in the list
                    var result = await task.ConfigureAwait(false);
                    lock (locker) results[index] = result;
            catch (Exception)
                lock (locker) failed = true;
        await Task.WhenAll(workerTasks).ConfigureAwait(false);
    lock (locker) return results.ToArray();

... 원하는 제한을 달성하기 위해 초기 코드에서 변경해야하는 사항은 다음과 같습니다.

var results = await WhenAll(tasks, concurrencyLevel: 2);

예외 처리와 관련하여 차이가 있습니다. 네이티브 Task.WhenAll는 모든 작업이 완료 될 때까지 기다렸다가 모든 예외를 집계합니다. 위의 구현은 첫 번째 오류가 발생한 작업이 완료된 후 즉시 종료됩니다.

를 반환하는 AC # 8 구현은 여기IAsyncEnumerable<T> 에서 찾을 수 있습니다 .
Theodor Zoulias


1000 개의 작업이 매우 빠르게 대기열에 추가 될 수 있지만 Parallel Tasks 라이브러리는 컴퓨터의 CPU 코어 양과 동일한 동시 작업 만 처리 할 수 ​​있습니다. 즉, 4 코어 시스템이있는 경우 주어진 시간에 4 개의 작업 만 실행됩니다 (MaxDegreeOfParallelism을 낮추지 않는 한).

CPU 바운드 작업의 속도를 높이려면 병렬 계산을 사용해야합니다. 여기서는 I / O 바운드 작업에 대해 설명합니다. 다중 코어 CPU에서 바쁜 단일 코어를 압도하지 않는 한 구현은 순전히 비동기 이어야합니다 .

편집 나는 여기에 "비동기 세마포어"를 사용하는 usr의 제안을 좋아합니다.

좋은 지적! 여기의 각 작업에는 비동기 및 동기화 코드가 포함됩니다 (페이지가 비동기 적으로 다운로드 된 다음 동기화 방식으로 처리됨). CPU에 코드의 동기화 부분을 배포하고 동시에 동시 비동기 I / O 작업의 양을 제한하려고합니다.
Grief Coder

MaxDegreeOfParallelism에서 지정할 수있는 옵션 인을 사용하십시오 Parallel.ForEach().

var options = new ParallelOptions { MaxDegreeOfParallelism = 20 };

Parallel.ForEach(urls, options,
    url =>
            var client = new HttpClient();
            var html = client.GetStringAsync(url);
            // do stuff with html

기본적으로 적중하려는 각 URL에 대해 작업 또는 작업을 만들고 목록에 넣은 다음 해당 목록을 처리하여 병렬로 처리 할 수있는 수를 제한하려고합니다.

내 블로그 게시물 은 Tasks와 Actions를 사용하여이 작업을 수행하는 방법을 보여주고, 다운로드하여 실행할 수있는 샘플 프로젝트를 제공합니다.


Actions를 사용하는 경우 내장 된 .Net Parallel.Invoke 함수를 사용할 수 있습니다. 여기서는 최대 20 개의 스레드를 병렬로 실행하도록 제한합니다.

var listOfActions = new List<Action>();
foreach (var url in urls)
    var localUrl = url;
    // Note that we create the Task here, but do not start it.
    listOfTasks.Add(new Task(() => CallUrl(localUrl)));

var options = new ParallelOptions {MaxDegreeOfParallelism = 20};
Parallel.Invoke(options, listOfActions.ToArray());

작업 포함

Tasks에는 기본 제공 기능이 없습니다. 그러나 내 블로그에서 제공하는 것을 사용할 수 있습니다.

    /// <summary>
    /// Starts the given tasks and waits for them to complete. This will run, at most, the specified number of tasks in parallel.
    /// <para>NOTE: If one of the given tasks has already been started, an exception will be thrown.</para>
    /// </summary>
    /// <param name="tasksToRun">The tasks to run.</param>
    /// <param name="maxTasksToRunInParallel">The maximum number of tasks to run in parallel.</param>
    /// <param name="cancellationToken">The cancellation token.</param>
    public static async Task StartAndWaitAllThrottledAsync(IEnumerable<Task> tasksToRun, int maxTasksToRunInParallel, CancellationToken cancellationToken = new CancellationToken())
        await StartAndWaitAllThrottledAsync(tasksToRun, maxTasksToRunInParallel, -1, cancellationToken);

    /// <summary>
    /// Starts the given tasks and waits for them to complete. This will run the specified number of tasks in parallel.
    /// <para>NOTE: If a timeout is reached before the Task completes, another Task may be started, potentially running more than the specified maximum allowed.</para>
    /// <para>NOTE: If one of the given tasks has already been started, an exception will be thrown.</para>
    /// </summary>
    /// <param name="tasksToRun">The tasks to run.</param>
    /// <param name="maxTasksToRunInParallel">The maximum number of tasks to run in parallel.</param>
    /// <param name="timeoutInMilliseconds">The maximum milliseconds we should allow the max tasks to run in parallel before allowing another task to start. Specify -1 to wait indefinitely.</param>
    /// <param name="cancellationToken">The cancellation token.</param>
    public static async Task StartAndWaitAllThrottledAsync(IEnumerable<Task> tasksToRun, int maxTasksToRunInParallel, int timeoutInMilliseconds, CancellationToken cancellationToken = new CancellationToken())
        // Convert to a list of tasks so that we don't enumerate over it multiple times needlessly.
        var tasks = tasksToRun.ToList();

        using (var throttler = new SemaphoreSlim(maxTasksToRunInParallel))
            var postTaskTasks = new List<Task>();

            // Have each task notify the throttler when it completes so that it decrements the number of tasks currently running.
            tasks.ForEach(t => postTaskTasks.Add(t.ContinueWith(tsk => throttler.Release())));

            // Start running each task.
            foreach (var task in tasks)
                // Increment the number of tasks currently running and wait if too many are running.
                await throttler.WaitAsync(timeoutInMilliseconds, cancellationToken);


            // Wait for all of the provided tasks to complete.
            // We wait on the list of "post" tasks instead of the original tasks, otherwise there is a potential race condition where the throttler's using block is exited before some Tasks have had their "post" action completed, which references the throttler, resulting in an exception due to accessing a disposed object.
            await Task.WhenAll(postTaskTasks.ToArray());

그런 다음 작업 목록을 만들고 한 번에 최대 20 개를 동시에 실행하도록 함수를 호출하면 다음과 같이 할 수 있습니다.

var listOfTasks = new List<Task>();
foreach (var url in urls)
    var localUrl = url;
    // Note that we create the Task here, but do not start it.
    listOfTasks.Add(new Task(async () => await CallUrl(localUrl)));
await Tasks.StartAndWaitAllThrottledAsync(listOfTasks, 20);

이것은 전역 변수를 변경하므로 좋은 습관이 아닙니다. 또한 비동기에 대한 일반적인 솔루션이 아닙니다. 하지만 HttpClient의 모든 인스턴스가 그게 전부라면 쉽습니다. 간단히 시도 할 수 있습니다.

System.Net.ServicePointManager.DefaultConnectionLimit = 20;
