프로그램의 바이트 수


21

참고 2 : @DigitalTrauma6 바이트 긴 답변을 수락했습니다 . 누군가 이길 수 있다면 나는 받아 들여진 대답을 바꿀 것이다. 연주 해 주셔서 감사합니다!

참고 : 15/14/15에 6:00 PM MST에 답변을받을 것입니다. 참여한 모든 분들께 감사드립니다!

나는 이것이 아직 요청되지 않았다는 것에 매우 놀랐다 (또는 나는 열심히 검색하지 않았다). 어느 쪽이든,이 도전은 매우 간단합니다.

입력 : 문자열 형태의 프로그램. 또한 입력은 다음을 포함하거나 포함하지 않을 수 있습니다.

  • 앞뒤 공간
  • 후행 개행
  • 비 ASCII 문자

출력 : UTF-8 문자 수를 나타내는 하나와 바이트 수를 나타내는 하나의 정수 두 개를 선택하여 순서를 선택할 수 있습니다. 후행 줄 바꿈이 허용됩니다. 출력은 STDOUT이되거나 함수에서 리턴 될 수 있습니다. 두 숫자가 서로 구별되는 한 IT는 어떤 형식이든 될 수 있습니다 (2327은 유효한 출력이 아닙니다).

노트:

  • 개행을 \n또는 로 고려할 수 있습니다 \r\n.
  • 다음은 테스트를위한 멋진 바이트 및 문자 카운터 입니다. 또한 여기 에 동일한 내용 의 메타 게시물 이 있습니다 (@Zereges에게 감사).

샘플 I / O : (모든 출력은 형식입니다 {characters} {bytes})

입력: void p(int n){System.out.print(n+5);}

산출: 37 37

입력: (~R∊R∘.×R)/R←1↓ιR

산출: 17 27

입력:


friends = ['john', 'pat', 'gary', 'michael']
for i, name in enumerate(friends):
    print "iteration {iteration} is {name}".format(iteration=i, name=name)

산출: 156 156

이것은 코드 골프입니다-가장 짧은 코드는 바이트로 이깁니다!

리더 보드

다음은 일반 리더 보드와 언어 별 수상자 개요를 생성하는 스택 스 니펫입니다.

답변이 표시되도록하려면 다음 마크 다운 템플릿을 사용하여 헤드 라인으로 답변을 시작하십시오.

# Language Name, N bytes

N제출물의 크기는 어디에 있습니까 ? 당신이 당신의 점수를 향상시킬 경우에, 당신은 할 수 있습니다 를 통해 눈에 띄는에 의해, 헤드 라인에 오래된 점수를 유지한다. 예를 들어 :

# Ruby, <s>104</s> <s>101</s> 96 bytes

헤더에 여러 숫자를 포함하려는 경우 (예 : 점수가 두 파일의 합계이거나 인터프리터 플래그 페널티를 별도로 나열하려는 경우) 실제 점수가 헤더 의 마지막 숫자 인지 확인하십시오 .

# Perl, 43 + 2 (-p flag) = 45 bytes

언어 이름을 링크로 만들어 리더 보드 스 니펫에 표시 될 수도 있습니다.

# [><>](http://esolangs.org/wiki/Fish), 121 bytes

var QUESTION_ID=60733,OVERRIDE_USER=36670;function answersUrl(e){return"http://api.stackexchange.com/2.2/questions/"+QUESTION_ID+"/answers?page="+e+"&pagesize=100&order=desc&sort=creation&site=codegolf&filter="+ANSWER_FILTER}function commentUrl(e,s){return"http://api.stackexchange.com/2.2/answers/"+s.join(";")+"/comments?page="+e+"&pagesize=100&order=desc&sort=creation&site=codegolf&filter="+COMMENT_FILTER}function getAnswers(){jQuery.ajax({url:answersUrl(answer_page++),method:"get",dataType:"jsonp",crossDomain:!0,success:function(e){answers.push.apply(answers,e.items),answers_hash=[],answer_ids=[],e.items.forEach(function(e){e.comments=[];var s=+e.share_link.match(/\d+/);answer_ids.push(s),answers_hash[s]=e}),e.has_more||(more_answers=!1),comment_page=1,getComments()}})}function getComments(){jQuery.ajax({url:commentUrl(comment_page++,answer_ids),method:"get",dataType:"jsonp",crossDomain:!0,success:function(e){e.items.forEach(function(e){e.owner.user_id===OVERRIDE_USER&&answers_hash[e.post_id].comments.push(e)}),e.has_more?getComments():more_answers?getAnswers():process()}})}function getAuthorName(e){return e.owner.display_name}function process(){var e=[];answers.forEach(function(s){var r=s.body;s.comments.forEach(function(e){OVERRIDE_REG.test(e.body)&&(r="<h1>"+e.body.replace(OVERRIDE_REG,"")+"</h1>")});var a=r.match(SCORE_REG);a&&e.push({user:getAuthorName(s),size:+a[2],language:a[1],link:s.share_link})}),e.sort(function(e,s){var r=e.size,a=s.size;return r-a});var s={},r=1,a=null,n=1;e.forEach(function(e){e.size!=a&&(n=r),a=e.size,++r;var t=jQuery("#answer-template").html();t=t.replace("{{PLACE}}",n+".").replace("{{NAME}}",e.user).replace("{{LANGUAGE}}",e.language).replace("{{SIZE}}",e.size).replace("{{LINK}}",e.link),t=jQuery(t),jQuery("#answers").append(t);var o=e.language;/<a/.test(o)&&(o=jQuery(o).text()),s[o]=s[o]||{lang:e.language,user:e.user,size:e.size,link:e.link}});var t=[];for(var o in s)s.hasOwnProperty(o)&&t.push(s[o]);t.sort(function(e,s){return e.lang>s.lang?1:e.lang<s.lang?-1:0});for(var c=0;c<t.length;++c){var i=jQuery("#language-template").html(),o=t[c];i=i.replace("{{LANGUAGE}}",o.lang).replace("{{NAME}}",o.user).replace("{{SIZE}}",o.size).replace("{{LINK}}",o.link),i=jQuery(i),jQuery("#languages").append(i)}}var ANSWER_FILTER="!t)IWYnsLAZle2tQ3KqrVveCRJfxcRLe",COMMENT_FILTER="!)Q2B_A2kjfAiU78X(md6BoYk",answers=[],answers_hash,answer_ids,answer_page=1,more_answers=!0,comment_page;getAnswers();var SCORE_REG=/<h\d>\s*([^\n,]*[^\s,]),.*?(\d+)(?=[^\n\d<>]*(?:<(?:s>[^\n<>]*<\/s>|[^\n<>]+>)[^\n\d<>]*)*<\/h\d>)/,OVERRIDE_REG=/^Override\s*header:\s*/i;
body{text-align:left!important}#answer-list,#language-list{padding:10px;width:290px;float:left}table thead{font-weight:700}table td{padding:5px}
<script src="https://ajax.googleapis.com/ajax/libs/jquery/2.1.1/jquery.min.js"></script> <link rel="stylesheet" type="text/css" href="//cdn.sstatic.net/codegolf/all.css?v=83c949450c8b"> <div id="answer-list"> <h2>Leaderboard</h2> <table class="answer-list"> <thead> <tr><td></td><td>Author</td><td>Language</td><td>Size</td></tr></thead> <tbody id="answers"> </tbody> </table> </div><div id="language-list"> <h2>Winners by Language</h2> <table class="language-list"> <thead> <tr><td>Language</td><td>User</td><td>Score</td></tr></thead> <tbody id="languages"> </tbody> </table> </div><table style="display: none"> <tbody id="answer-template"> <tr><td>{{PLACE}}</td><td>{{NAME}}</td><td>{{LANGUAGE}}</td><td>{{SIZE}}</td><td><a href="{{LINK}}">Link</a></td></tr></tbody> </table> <table style="display: none"> <tbody id="language-template"> <tr><td>{{LANGUAGE}}</td><td>{{NAME}}</td><td>{{SIZE}}</td><td><a href="{{LINK}}">Link</a></td></tr></tbody> </table>


출력 공백으로 분리해야합니까?
Maltysen

아니요, 숫자가 서로 구별되는 한 (2327은 유효하지 않습니다)
GamrCorps

해석에 따라 동일한 바이트 값을 생성하는 두 개의 다른 문자로 나눌 수있는 UTF-8 문자가 없습니까? 그때 우리는 어떻게 계산합니까?
Patrick Roberts

솔직히, 나는 당신이 무슨 뜻인지 모르겠습니다. 따라서 원하는대로 계산하십시오.
GamrCorps

@GamrCorps UTF-8 문자에는 비 ASCII 문자가 포함되며 기본적으로 1 바이트로 표현할 수 없지만 2 바이트 또는 4 바이트로 표현되어야하는 문자입니다. 프로그램이 문자를 읽는 방법에 따라 바이트 스트림을 해석하는 방법을 선택하는 것은 프로그램에 달려 있습니다. 예를 들어, 2 바이트 UTF-8은 각각 원래 의도 된 문자를 구성하는 2 바이트로 표시되는 2 개의 순차 ASCII 문자로 해석 될 수 있습니다.
Patrick Roberts

답변:


32

쉘 + coreutils, 6

UTF-8 이외의 인코딩을 사용하는 경우이 답변은 유효하지 않습니다.

wc -mc

테스트 출력 :

$ printf '%s' "(~R∊R∘.×R)/R←1↓ιR" | ./count.sh 
     17      27
$ 

출력 형식이 엄격하게 적용되는 경우 (두 정수를 구분하는 하나의 공백 만) 다음과 같이 할 수 있습니다.

쉘 + coreutils, 12

echo`wc -mc`

@ 다음에 공백을 제거하도록 제안 해 주신 @immibis에게 감사드립니다 echo. 쉘이 이것을 확장 echo<tab>n<tab>m하고 기본적으로 탭 이 있음을 알아내는 데 시간이 걸렸습니다 $IFS. 따라서 결과 명령에 완벽하게 유효한 토큰 구분 기호가 있습니다.


13
작업에 꼭 맞는 도구입니다.
Alex A.

1
"에코"뒤에 공백을 제거 할 수 있습니까?
user253751

@immibis 예-좋았습니다-그게 어떻게 작동하는지 알 수 없었습니다.
Digital Trauma

21

GolfScript, 14 12 바이트

.,p{64/2^},,

Web GolfScript에서 온라인으로 사용해보십시오 .

생각

GolfScript는 유니 코드가 무엇인지 전혀 모른다. 모든 문자열 (입력, 출력, 내부)은 바이트로 구성됩니다. 꽤 성가 시겠지만이 도전에 완벽합니다.

UTF-8은 ASCII 문자와 비 ASCII 문자를 다르게 인코딩합니다.

  • 128 미만의 모든 코드 포인트는로 인코딩됩니다 0xxxxxxx.

  • 다른 모든 코드 포인트는로 인코딩됩니다 11xxxxxx 10xxxxxx ... 10xxxxxx.

즉, 각 유니 코드 문자의 인코딩에는 단일 0xxxxxxx바이트 또는 단일 11xxxxxx바이트 (및 0 ~ 5 10xxxxxx바이트)가 포함됩니다.

하여 모든 입력 바이트로 나누어 64 우리 좌회전 0xxxxxxx으로 0 또는 1 , 11xxxxxx(3)10xxxxxx2 . 남은 것은 몫이 2 가 아닌 바이트를 계산하는 것 입니다.

암호

                (implicit) Read all input and push it on the stack.
.               Push a copy of the input.
 ,              Compute its length (in bytes).
  p             Print the length.
   {     },     Filter; for each byte in the original input:
    64/           Divide the byte by 64.
       2^         XOR the quotient with 2.
                If the return is non-zero, keep the byte.
           ,    Count the kept bytes.
                (implicit) Print the integer on the stack.

9

파이썬, 42 40 바이트

lambda i:[len(i),len(i.encode('utf-8'))]

2 바이트를 해제 한 Alex A.에게 감사합니다.

간단하게 말한대로합니다. 인수를 사용하면 의 길이를 UTF-8로 i인쇄합니다 . 여러 줄로 된 입력을 받으려면 함수 인수를 삼중 따옴표로 묶어야합니다 .ii'''

편집 : 여러 줄 입력에서는 작동하지 않으므로 대신 함수로 만들었습니다.

일부 테스트 사례 (공백 줄 바꿈으로 구분) :

f("Hello, World!")
13 13

f('''
friends = ['john', 'pat', 'gary', 'michael']
for i, name in enumerate(friends):
    print "iteration {iteration} is {name}".format(iteration=i, name=name)
''')
156 156

f("(~R∊R∘.×R)/R←1↓ιR")
17 27

그리고 여기에서 나는 항상 빨판처럼 len ()을 사용했습니다. 이것은 분명히 우수합니다.
상태

3
함수에서 출력을 반환 할 수 있으므로 이것을 만들어 몇 바이트를 절약 할 수 lambda i:[len(i),len(i.encode('utf-8'))]있습니다.
Alex A.

@AlexA. 좋아, 변화 전에는 람다를 만지지 마십시오.
The_Basset_Hound

1
람다는 꽤 올바르게 형성되지 않았습니다. 정의를 주면 f=lambda i:[len(i),len(i.encode('utf-8'))]이지만 익명 람다 함수를 사용하고 있으므로이어야합니다 lambda i:[len(i),len(i.encode('utf-8'))].
Kade

1
U8대신utf-8 몇 바이트를 저장할 수 있습니다 .
Mego

5

줄리아, 24 바이트

s->(length(s),sizeof(s))

이것은 정수의 튜플을 반환하는 람다 함수를 만듭니다. 이 length함수는 문자열에서 호출 될 때 문자 수를 반환합니다. 이 sizeof함수는 입력에서 바이트 수를 리턴합니다.

온라인으로 사용해보십시오


4

녹, 42 바이트

let c=|a:&str|(a.chars().count(),a.len());

3

Pyth- 12 9 바이트

더 짧아 지려고 노력할 것이다.

lQh/l.BQ8

테스트 스위트 .


이것은 UTF-8 바이트 수에 비해 너무 많은 바이트를 제공합니다. 그것은 현재의 floor(… / 8) + 1이어야한다ceil(… / 8)
PurkkaKoodari

이것은에서 버그를 잡는 데 도움이되었습니다 .B. 또한 lQlc.BQ81 바이트를 절약하면서 @ Pietu1998의 버그를 수정했습니다.
isaacg

3

자바, 241 90 89 바이트

int[]b(String s)throws Exception{return new int[]{s.length(),s.getBytes("utf8").length};}

Java를 100 바이트 미만으로 유지 한 것을 좋아합니다.
GamrCorps

글쎄, 그것은 단지 방법
뿐이다

1
당신은 변경 될 수 있습니다 getBytes("UTF-8")getBytes("utf8"). 왜 throws Exception?
RAnders00

getBytes는 UnsupportedEncodingException유효하지 않은 인코딩 이름을 지정할 때를 던지기 때문입니다.
SuperJedi224

2

PowerShell, 57 바이트

$args|%{$_.Length;[Text.Encoding]::UTF8.GetByteCount($_)}

2

C, 68 67 바이트

b,c;main(t){for(;t=~getchar();b++)c+=2!=~t/64;printf("%d %d",c,b);}

이것은 내 다른 대답 과 같은 아이디어를 사용합니다 .

Ideone에서 온라인으로 사용해보십시오 .


2

R, 47 바이트

a<-commandArgs(TRUE);nchar(a,"c");nchar(a,"b")

입력: (~R∊R∘.×R)/R←1↓ιR

산출:

[1] 17
[2] 27

"모든 형식"에서 출력과 함께 줄 번호를 인쇄 cat할 수없는 경우 문제를 해결할 수 있습니다.

R, 52 바이트

a<-commandArgs(TRUE);cat(nchar(a,"c"),nchar(a,"b"))

입력: (~R∊R∘.×R)/R←1↓ιR

산출: 17 27


함수로서 39 바이트 :function(s)c(nchar(s,"c"),nchar(s,"b"))
Alex A.

1
또한 단지 몇 가지 일반적인 R 골프 팁 : 당신이 사용할 수있는 T대신에 TRUE,= 대신에 <-, 입력에서 온 수 있습니다 scan, readline또는 function, 모두의 것은보다 짧은 commandArgs.
Alex A.

1

은하수 1.6.2 , 7 바이트 (비경쟁)

':y!^P!

설명

'        ` read input from the command line
 :       ` duplicate the TOS
  y      ` push the length of the TOS
   !  !  ` output the TOS
    ^    ` pop the TOS
     P   ` push the length of the TOS in bytes

용법

./mw <path-to-code> -i <input>

나는 도전이 언어보다 우선하기 때문에 이것을 경쟁이 아닌 것으로 표시했다.
Mego


1

Brainfuck, 163 바이트

,[>+<,]>[>>+>+<<<-]>>>[<<<+>>>-]<<+>[<->[>++++++++++<[->-[>+>>]>[+[-<+>]>+>>]<<<<<]>[-]++++++++[<++++++>-]>[<<+>>-]>[<<+>>-]<<]>]<[->>++++++++[<++++++>-]]<[.[-]<]<

가독성을위한 줄 바꿈 :

,[>+<,]>
[>>+>+<<<-]>>>[<<<+>>>-]<<+>[<->[
>++++++++++<[->-[>+>>]>[+[-<+>]>.
+>>]<<<<<]>[-]++++++++[<++++++>-
]>[<<+>>-]>[<<+>>-]<<]>]<[->>+++++
+++[<++++++>-]]<[.[-]<]<

가장 중요한 부분은 첫 번째 줄입니다. 입력 한 문자 수를 계산합니다. 나머지는 9보다 큰 숫자를 인쇄하는 데 필요한 긴 정크입니다.

편집 : BF는 1-255의 ASCII 숫자 이외의 것을 입력 / 출력 할 수 없으므로 UTF-8 문자를 측정하는 방법은 없습니다.


골프를 더 많이 할 수있을 것 같습니다. 그러나 아마 할 수 없습니다. +1.
wizzwizz4

0

밀랍, 99 87 바이트

첫 번째보다 12 바이트 더 짧은 더 컴팩트 한 버전 :

p~5~q")~4~p")~7~g?<
>)'qq>@PPq>@Pp>Ag'd@{
     >@PPPq  @dNp"?{gAV_
     >@PPPP>@>?b>N{;

육각형 레이아웃을 쉽게 따르는 것과 동일합니다.

 p ~ 5 ~ q " ) ~ 4 ~ p " ) ~ 7 ~ g ? <
> ) ' q q > @ P P q > @ P p > A g ' d @ {
         > @ P P P q     @ d N p " ? { g A V _ 
        > @ P P P P > @ > ? b > N { ;

으로 출력 characters한 다음 bytecount줄 바꿈으로 구분하여 출력합니다 .

예 : s줄의 시작 부분에 있는 작은 문자 는 프로그램이 문자열을 입력으로 원한다는 것을 사용자에게 알려줍니다.

julia> beeswax("utf8bytecount.bswx")
s(~R∊R∘.×R)/R←1↓ιR
17
27
Program finished!

빈 문자열 예 :

julia> beeswax("utf8bytecount.bswx")
s
0
0
Program finished!

Beeswax는 STDIN에 입력 한 문자열의 문자를 해당 유니 코드 코드 포인트의 값으로 코딩 된 전역 스택으로 푸시합니다.

이해를 돕기 위해 위 프로그램의 래핑되지 않은 버전은 다음과 같습니다.

             >@{;    >@P@p >@PP@p>@P p
_VAg{?"pN>Ag"d?g~7~)"d~4~)"d~5~)"d@PPp
    ;{N< d?              <      < @PP<

이 예를 들어, 문자는 αSTDIN에서 입력 (코드 포인트 U+03B1, 진수 : 945)

                                        gstack     lstack

_VA                                     [945,1]•   [0,0,0]•    enter string, push stack length on top of gstack
   g                                               [0,0,1]•    push gstack top value on top of local stack (lstack)
    {                                                          lstack 1st value to STDOUT (num. of characters)
     ?                                  [945]•                 pop gstack top value
      "                                                        skip next if lstack 1st >0
        N>                                                     print newline, redirect to right
          Ag                            [945,1]•   [0,0,1]•    push gstack length on top of gstack, push that value on lstack.
            "                                                  skip if lstack 1st > 0
              ?                         [945]•                 pop gstack top value
               g                                   [0,0,945]•  push gstack top value on lstack
                ~                                  [0,945,0]•  flip lstack 1st and 2nd
                 7                                 [0,945,7]•  lstack 1st=7
                  ~                                [0,7,945]•  flip lstack 1st and 2nd
                   )                               [0,7,7]•    lstack 1st = lstack 1st >>> 2nd  (LSR by 7)
                    "                                          skip next if top >0
                      ~4~)                         [0,0,0]•            flip,1st=4,flip,LSR by 4
                          "d                                   skip next if top >0... redirect to upper right
                           >@                                  redirect to right, flip lstack 1st and 3rd
                             PP@                   [2,0,0]•    increment lstack 1st twice, flip 1st and 3rd
                                p                              redirect to lower left
                                "                              (ignored instruction, not relevant)
         d?              <      <       []•                       redirect to left... pop gstack, redirect to upper right

         >Ag"d                          [0]•       [2,0,0]•    redir. right, push gstack length on gstack
                                                               push gstack top on lstack, skip next if lstack 1st > 0
                                                               redir. to upper right.
         >@                                        [0,0,2]•    redir right, flip lstack 1st/3rd
           {;                                                  output lstack 1st to STDOUT, terminate program

기본적으로이 프로그램은 각 코드 포인트 값에서 1 바이트, 2 바이트, 3 바이트 및 4 바이트 코드 포인트 제한을 확인합니다.

n코드 포인트 값인 경우 적절한 UTF-8 문자열에 대한 이러한 제한은 다음과 같습니다.

codepoint 0...127         1-byte: n>>>7 = 0
          128...2047      2-byte: n>>>11= 0  → n>>>7>>>4
          2048...65535    3-byte: n>>>16= 0  → n>>>7>>>4>>>5
          65535...1114111 4-byte: the 3 byte check result is >0

당신은 번호를 찾을 수 있습니다 7, 4그리고 5위의 코드에서 시프트 지침. 검사 결과가 0이면 lstack 카운터는 입력 된 문자열의 바이트 수를 계산하기 위해 적절하게 증가합니다. 그만큼@PP...@구조 바이트 카운터를 증가. 각 탈리 후 최상위 스택의 유니 코드 점이 비어있을 때까지 gstack에서 팝됩니다. 그런 다음 바이트 수가 STDOUT에 출력되고 프로그램이 종료됩니다.

긴 ASCII 인코딩 및 잘못된 코드 포인트와 같은 부적절한 인코딩에 대한 검사는 없지만 0x10FFFF괜찮습니다.)


0

스위프트 3, 37

{($0.characters.count,$0.utf8.count)} // 어디서 $0 입니다String

용법

테스트

{($0.characters.count,$0.utf8.count)}("Hello, world")

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.