목록을 일괄 처리하는 일반적인 Java 유틸리티가 있습니까?


141

주어진 크기의 배치로 목록을 나누는 유틸리티를 스스로 작성했습니다. 나는 이미 아파치 커먼즈 유틸리티가 있는지 알고 싶었다.

public static <T> List<List<T>> getBatches(List<T> collection,int batchSize){
    int i = 0;
    List<List<T>> batches = new ArrayList<List<T>>();
    while(i<collection.size()){
        int nextInc = Math.min(collection.size()-i,batchSize);
        List<T> batch = collection.subList(i,i+nextInc);
        batches.add(batch);
        i = i + nextInc;
    }

    return batches;
}

동일한 기존 유틸리티가 있으면 알려주십시오.


4
이것이 주제가 아닌지 확실하지 않습니다. 문제는 "어떤 라이브러리가이 작업을 수행 하는가"가 아니라 "아파치 공용 유틸리티를 사용하여이 작업을 수행하는 방법"입니다.
Florian F

@FlorianF 동의합니다. 이 질문과 답변은 매우 유용하며 작은 편집으로도 쉽게 저장할 수 있습니다. 서둘러 닫는 게으른 행동이었습니다.
Endery

멋진 클래스와 벤치 마크가 포함 된 유용한 블로그 게시물을 여기에서 찾았습니다. e.printstacktrace.blog/…
Benj

답변:


250

Google Guava 에서 확인하십시오 . Lists.partition(java.util.List, int)

각각 크기가 동일한 목록의 연속 된 하위 목록을 반환합니다 (최종 목록은 더 작을 수 있음). 예를 들면, 포함 된리스트 분할 [a, b, c, d, e]3 개 수율의 파티션 크기 [[a, b, c], [d, e]]원래 순서와 세 개의 요소들의 두 내측리스트 모두를 포함하는 목록을 외부 -.


링크 partition documentation링크 code example
Austin Haws

16
아파치 일반적인 사용자의 경우, 기능도 사용할 수 있습니다 : commons.apache.org/proper/commons-collections/apidocs/org/...
자비에 Portebois

3
f "Apache Commons Collections 4"라이브러리를 사용하는 목록으로 작업하고 있습니다. ListUtils 클래스에 파티션 메소드가 있습니다. ... int targetSize = 100; List <Integer> largeList = ... List <List <Integer >> 출력 = ListUtils.partition (largeList, targetSize); 이 방법은 code.google.com/p/guava-libraries
Swapnil Jaju

1
감사합니다. Java에서 이것이 얼마나 어려운지 믿을 수 없습니다.
삼촌 긴 머리

51

Java-8 배치 스트림을 생성하려는 경우 다음 코드를 시도 할 수 있습니다.

public static <T> Stream<List<T>> batches(List<T> source, int length) {
    if (length <= 0)
        throw new IllegalArgumentException("length = " + length);
    int size = source.size();
    if (size <= 0)
        return Stream.empty();
    int fullChunks = (size - 1) / length;
    return IntStream.range(0, fullChunks + 1).mapToObj(
        n -> source.subList(n * length, n == fullChunks ? size : (n + 1) * length));
}

public static void main(String[] args) {
    List<Integer> list = Arrays.asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14);

    System.out.println("By 3:");
    batches(list, 3).forEach(System.out::println);

    System.out.println("By 4:");
    batches(list, 4).forEach(System.out::println);
}

산출:

By 3:
[1, 2, 3]
[4, 5, 6]
[7, 8, 9]
[10, 11, 12]
[13, 14]
By 4:
[1, 2, 3, 4]
[5, 6, 7, 8]
[9, 10, 11, 12]
[13, 14]

이 접근 방식을 어떻게 중단, 계속 또는 복귀합니까?
Miral

15

또 다른 방법은 Collectors.groupingBy인덱스 를 사용한 다음 그룹화 된 인덱스를 실제 요소에 매핑하는 것입니다.

    final List<Integer> numbers = range(1, 12)
            .boxed()
            .collect(toList());
    System.out.println(numbers);

    final List<List<Integer>> groups = range(0, numbers.size())
            .boxed()
            .collect(groupingBy(index -> index / 4))
            .values()
            .stream()
            .map(indices -> indices
                    .stream()
                    .map(numbers::get)
                    .collect(toList()))
            .collect(toList());
    System.out.println(groups);

산출:

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]

[[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11]]


1
@Sebien 이것은 일반적인 경우에 효과적입니다. 은 groupingBy의 요소에 수행 IntStream.range하지 목록 요소. 예를 들어 ideone.com/KYBc7h를 참조하십시오 .
Radiodef

@MohammedElrashidy Sebien 님이 댓글을 삭제했습니다. 이제 댓글을 삭제할 수 있습니다.
Albert Hendriks

7

나는 이것을 생각해 냈습니다.

private static <T> List<List<T>> partition(Collection<T> members, int maxSize)
{
    List<List<T>> res = new ArrayList<>();

    List<T> internal = new ArrayList<>();

    for (T member : members)
    {
        internal.add(member);

        if (internal.size() == maxSize)
        {
            res.add(internal);
            internal = new ArrayList<>();
        }
    }
    if (internal.isEmpty() == false)
    {
        res.add(internal);
    }
    return res;
}

6

Java 9 IntStream.iterate()에서는 hasNext조건 과 함께 사용할 수 있습니다 . 따라서 메소드 코드를 다음과 같이 단순화 할 수 있습니다.

public static <T> List<List<T>> getBatches(List<T> collection, int batchSize) {
    return IntStream.iterate(0, i -> i < collection.size(), i -> i + batchSize)
            .mapToObj(i -> collection.subList(i, Math.min(i + batchSize, collection.size())))
            .collect(Collectors.toList());
}

사용 {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}의 결과가 getBatches(numbers, 4)될 것입니다 :

[[0, 1, 2, 3], [4, 5, 6, 7], [8, 9]]

5

다음 예제는 목록 청크를 보여줍니다.

package de.thomasdarimont.labs;

import java.util.ArrayList;
import java.util.Arrays;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

public class SplitIntoChunks {

    public static void main(String[] args) {

        List<Integer> ints = Arrays.asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11);

        List<List<Integer>> chunks = chunk(ints, 4);

        System.out.printf("Ints:   %s%n", ints);
        System.out.printf("Chunks: %s%n", chunks);
    }

    public static <T> List<List<T>> chunk(List<T> input, int chunkSize) {

        int inputSize = input.size();
        int chunkCount = (int) Math.ceil(inputSize / (double) chunkSize);

        Map<Integer, List<T>> map = new HashMap<>(chunkCount);
        List<List<T>> chunks = new ArrayList<>(chunkCount);

        for (int i = 0; i < inputSize; i++) {

            map.computeIfAbsent(i / chunkSize, (ignore) -> {

                List<T> chunk = new ArrayList<>();
                chunks.add(chunk);
                return chunk;

            }).add(input.get(i));
        }

        return chunks;
    }
}

산출:

Ints:   [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
Chunks: [[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11]]

4

질문 의 복제본으로 닫히는 또 다른 질문 이 있었지만 자세히 읽으면 미묘하게 다릅니다. 따라서 누군가 (나 같은 사람)가 실제로 목록을 주어진 수의 거의 동일한 크기의 하위 목록으로 나누기를 원할 경우 다음 계속 읽으십시오.

여기 에 설명 된 알고리즘 을 Java로 간단히 포팅했습니다 .

@Test
public void shouldPartitionListIntoAlmostEquallySizedSublists() {

    List<String> list = Arrays.asList("a", "b", "c", "d", "e", "f", "g");
    int numberOfPartitions = 3;

    List<List<String>> split = IntStream.range(0, numberOfPartitions).boxed()
            .map(i -> list.subList(
                    partitionOffset(list.size(), numberOfPartitions, i),
                    partitionOffset(list.size(), numberOfPartitions, i + 1)))
            .collect(toList());

    assertThat(split, hasSize(numberOfPartitions));
    assertEquals(list.size(), split.stream().flatMap(Collection::stream).count());
    assertThat(split, hasItems(Arrays.asList("a", "b", "c"), Arrays.asList("d", "e"), Arrays.asList("f", "g")));
}

private static int partitionOffset(int length, int numberOfPartitions, int partitionIndex) {
    return partitionIndex * (length / numberOfPartitions) + Math.min(partitionIndex, length % numberOfPartitions);
}


3

웹에서 다양한 치트를 사용 하여이 솔루션에 왔습니다.

int[] count = new int[1];
final int CHUNK_SIZE = 500;
Map<Integer, List<Long>> chunkedUsers = users.stream().collect( Collectors.groupingBy( 
    user -> {
        count[0]++;
        return Math.floorDiv( count[0], CHUNK_SIZE );
    } )
);

우리는 count를 사용하여 일반 수집 인덱스를 모방합니다.
그런 다음 대수 몫을 버킷 번호로 사용하여 컬렉션 요소를 버킷으로 그룹화합니다.
최종 맵에는 버킷 번호가 키로 , 값으로 포함됩니다 버킷 자체의 됩니다.

그런 다음 다음을 사용하여 각 버킷에서 작업을 쉽게 수행 할 수 있습니다.

chunkedUsers.values().forEach( ... );

4
AtomicInteger카운트를 사용할 수 있습니다 .
jkschneider 2016 년

1
List<T> batch = collection.subList(i,i+nextInc);
->
List<T> batch = collection.subList(i, i = i + nextInc);

1

스트림과 라이브러리가없는 OP와 비슷하지만 간결합니다.

public <T> List<List<T>> getBatches(List<T> collection, int batchSize) {
    List<List<T>> batches = new ArrayList<>();
    for (int i = 0; i < collection.size(); i += batchSize) {
        batches.add(collection.subList(i, Math.min(i + batchSize, collection.size())));
    }
    return batches;
}

0

이 문제를 해결하는 또 다른 접근법은 다음과 같습니다.

public class CollectionUtils {

    /**
    * Splits the collection into lists with given batch size
    * @param collection to split in to batches
    * @param batchsize size of the batch
    * @param <T> it maintains the input type to output type
    * @return nested list
    */
    public static <T> List<List<T>> makeBatch(Collection<T> collection, int batchsize) {

        List<List<T>> totalArrayList = new ArrayList<>();
        List<T> tempItems = new ArrayList<>();

        Iterator<T> iterator = collection.iterator();

        for (int i = 0; i < collection.size(); i++) {
            tempItems.add(iterator.next());
            if ((i+1) % batchsize == 0) {
                totalArrayList.add(tempItems);
                tempItems = new ArrayList<>();
            }
        }

        if (tempItems.size() > 0) {
            totalArrayList.add(tempItems);
        }

        return totalArrayList;
    }

}

0

Java 8의 한 줄짜리는 다음과 같습니다.

import static java.util.function.Function.identity;
import static java.util.stream.Collectors.*;

private static <T> Collection<List<T>> partition(List<T> xs, int size) {
    return IntStream.range(0, xs.size())
            .boxed()
            .collect(collectingAndThen(toMap(identity(), xs::get), Map::entrySet))
            .stream()
            .collect(groupingBy(x -> x.getKey() / size, mapping(Map.Entry::getValue, toList())))
            .values();

}

0

다음은 Java 8 이상을위한 간단한 솔루션입니다.

public static <T> Collection<List<T>> prepareChunks(List<T> inputList, int chunkSize) {
    AtomicInteger counter = new AtomicInteger();
    return inputList.stream().collect(Collectors.groupingBy(it -> counter.getAndIncrement() / chunkSize)).values();
}

0

아래 코드를 사용하여 배치 목록을 얻을 수 있습니다.

Iterable<List<T>> batchIds = Iterables.partition(list, batchSize);

위 코드를 사용하려면 Google Guava 라이브러리를 가져와야합니다.


-1

import com.google.common.collect.Lists;

List<List<T>> batches = Lists.partition(List<T>,batchSize)

Lists.partition (List, batchSize)을 사용하십시오. ListsGoogle 공통 패키지 ( com.google.common.collect.Lists) 에서 가져와야합니다.

List<T>with with 및 모든 요소의 크기를로 반환 합니다 batchSize.


subList(startIndex, endIndex)필요한 색인을 기반으로 목록을 나누기 위해 고유 한 방법을 사용할 수도 있습니다 .
v87278
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.