2. 구문 분석¶

파이썬 프로그램은 파서(parser) 에 의해 읽힌다. 파서의 입력은 구문 분석기(lexical analyzer) 가 만들어내는 토큰(token) 들의 스트림이다. 이 장에서는 구문 분석기가 어떻게 파일을 토큰들로 분해하는지 설명한다.

파이썬은 프로그램 텍스트를 유니코드 코드값으로 읽는다; 소스 파일의 인코딩은 인코딩 선언을 통해 지정될 수 있고, 기본값은 UTF-8이다. 자세한 내용은 PEP 3120 에 나온다. 소스 파일을 디코딩할 수 없을 때는 SyntaxError 가 발생한다.

2.1. 줄 구조(Line structure)¶

파이썬 프로그램은 여러 개의 논리적인 줄(logical lines) 들로 나뉜다.

2.1.1. 논리적인 줄¶

논리적인 줄의 끝은 NEWLINE 토큰으로 표현된다. 문법이 허락하지 않는 이상 (예를 들어 복합문에서 문장들 사이) 문장은 논리적인 줄 간의 경계를 가로지를 수 없다. 논리적인 줄은 명시적이거나 묵시적인 줄 결합(line joining) 규칙에 따라 하나 이상의 물리적인 줄(physical lines) 들로 구성된다.

2.1.2. 물리적인 줄¶

물리적인 줄은 줄의 끝을 나타내는 시퀀스로 끝나는 문자들의 시퀀스다. 소스 파일에는 플랫폼들의 표준 줄 종료 시퀀스들이 모두 사용될 수 있다 - ASCII LF (개행문자)를 사용하는 유닉스 형, ASCII 시퀀스 CR LF(캐리지 리턴 다음에 오는 개행 문자)를 사용하는 윈도우 형, ASCII CR(캐리지 리턴)을 사용하는 예전의 매킨토시 형. 이 형태들은 플랫폼의 종류와 관계없이 동등하게 사용할 수 있다.

파이썬을 내장할 때는, 소스 코드 문자열은 반드시 줄 종료 문자에 표준 C 관행(ASCII LF를 표현하는 \n 문자로 줄이 종료된다)을 적용해서 파이썬 API로 전달되어야 한다.

2.1.3. 주석¶

주석은 문자열 리터럴에 포함되지 않는 해시 문자(#)로 시작하고 물리적인 줄의 끝에서 끝난다. 묵시적인 줄 결합 규칙이 유효하지 않은 이상, 주석은 논리적인 줄을 종료시킨다. 주석은 문법이 무시한다; 토큰으로 만들어지지 않는다.

2.1.4. 인코딩 선언¶

파이썬 스크립트의 첫 번 째나 두 번째 줄에 있는 주석이 정규식 coding[=:]\s*([-\w.]+) 과 매치되면, 이 주석은 인코딩 선언으로 처리된다. 이 정규식의 첫 번째 그룹은 소스 코드 파일의 인코딩 이름을 지정한다. 인코딩 선언은 줄 전체에 홀로 나와야 한다. 만약 두 번째 줄이라면, 첫 번째 줄 역시 주석만 있어야 한다. 인코딩 선언의 권장 형태는 두 개다. 하나는

# -*- coding: <encoding-name> -*-

인데 GNU Emacs에서도 인식된다. 다른 하나는

# vim:fileencoding=<encoding-name>

인데 Bram Moolenaar 의 VIM에서 인식된다.

인코딩 선언이 발견되지 않으면 기본 인코딩은 UTF-8이다. 여기에 더해, 파일의 처음이 UTF-8 BOM (b'\xef\xbb\xbf')이면 파일 인코딩이 UTF-8으로 선언된 것으로 본다. (이 방식은 마이크로소프트의 notepad 에서 지원된다.)

인코딩이 선언되면, 인코딩 이름은 파이썬이 인식할 수 있어야 한다. 인코딩은 문자열 리터럴, 주석, 식별자를 포함한 모든 구문 분석에서 모두 사용된다.

2.1.5. 명시적인 줄 결합¶

둘 이상의 물리적인 줄은 역 슬래시 문자(\)를 사용해서 논리적인 줄로 결합할 수 있다: 물리적인 줄이 문자열 리터럴이나 주석의 일부가 아닌 역 슬래시 문자로 끝나면, 역 슬래시와 뒤따르는 개행 문자가 제거된 채로, 현재 만들어지고 있는 논리적인 줄에 합쳐진다. 예를 들어:

if 1900 < year < 2100 and 1 <= month <= 12 \
   and 1 <= day <= 31 and 0 <= hour < 24 \
   and 0 <= minute < 60 and 0 <= second < 60:   # Looks like a valid date
        return 1

역 슬래시로 끝나는 줄은 주석이 포함될 수 없다. 역 슬래시는 주석을 결합하지 못한다. 역 슬래시는 문자열 리터럴을 제외한 어떤 토큰도 결합하지 못한다 (즉, 문자열 리터럴 이외의 어떤 토큰도 역 슬래시를 사용해서 두 줄에 나누어 기록할 수 없다.). 문자열 리터럴 밖에 있는 역 슬래시가 앞에서 언급한 장소 이외의 곳에 등장하는 것은 문법에 어긋난다.

2.1.6. 묵시적인 줄 결합¶

괄호(()), 꺾쇠괄호([]), 중괄호({})가 사용되는 표현은 역 슬래시 없이도 여러 개의 물리적인 줄로 나눌 수 있다. 예를 들어:

month_names = ['Januari', 'Februari', 'Maart',      # These are the
               'April',   'Mei',      'Juni',       # Dutch names
               'Juli',    'Augustus', 'September',  # for the months
               'Oktober', 'November', 'December']   # of the year

묵시적으로 이어지는 줄들은 주석을 포함할 수 있다. 이어지는 줄들의 들여쓰기는 중요하지 않다. 중간에 빈 줄이 들어가도 된다. 묵시적으로 줄 결합하는 줄 들 간에는 NEWLINE 토큰이 만들어지지 않는다. 묵시적으로 이어지는 줄들은 삼중 따옴표 된 문자열들에서도 등장할 수 있는데 (아래를 보라), 이 경우는 주석이 포함될 수 없다.

2.1.7. 빈 줄¶

스페이스, 탭, 폼 피드(formfeed) 와 주석만으로 구성된 논리적인 줄은 무시된다. (즉 NEWLINE 토큰이 만들어지지 않는다.) 대화형으로 문장이 입력되는 도중에는 빈 줄의 처리가 REPL 구현에 따라 달라질 수 있다. 표준 대화형 인터프리터에서는, 완전히 빈 줄(즉 공백이나 주석조차 없는 것)은 다중 행 문장을 종료시킨다.

2.1.8. 들여쓰기¶

논리적인 줄의 제일 앞에 오는 공백(스페이스와 탭)은 줄의 들여쓰기 수준을 계산하는 데 사용되고, 이는 다시 문장들의 묶음을 결정하는 데 사용되게 된다.

탭은 (왼쪽에서 오른쪽으로) 1~8개의 스페이스로 변환되는데, 치환된 후의 총 스페이스 문자 수가 8의 배수가 되도록 맞춘다. (유닉스에서 사용되는 규칙에 맞추려는 것이다.) 첫 번째 비 공백 문자 앞에 나오는 공백의 총수가 줄의 들여쓰기를 결정한다. 들여쓰기는 역 슬래시를 사용해서 여러 개의 물리적인 줄로 나눠질 수 없다; 첫 번째 역 슬래시 이전의 공백이 들여쓰기를 결정한다.

소스 파일이 탭과 스페이스를 섞어 쓰는 경우, 탭이 몇 개의 스페이스에 해당하는지에 따라 다르게 해석될 수 있으면 TabError 를 일으킨다.

크로스-플랫폼 호환성 유의 사항: UNIX 이외의 플랫폼에서 편집기들이 동작하는 방식 때문에, 하나의 파일 내에서 들여쓰기를 위해 탭과 스페이스를 섞어 쓰는 것은 현명한 선택이 아니다. 다른 플랫폼들에서는 최대 들여쓰기 수준에 제한이 있을 수도 있다는 점도 주의해야 한다.

폼 피드 문자는 줄의 처음에 나올 수 있다; 앞서 설명한 들여쓰기 수준 계산에서는 무시된다. 페이지 넘김 문자 앞에 공백이나 탭이 있는 경우는 정의되지 않은 효과를 줄 수 있다 (가령, 스페이스 수가 0으로 초기화될 수 있다).

연속된 줄의 들여쓰기 수준은, 스택을 사용해서, 다음과 같은 방법으로 INDENT와 DEDENT 토큰을 만드는 데 사용된다.

파일의 첫 줄을 읽기 전에 0하나를 스택에 넣는다(push); 이 값은 다시 꺼내는(pop) 일이 없다. 스택에 넣는 값은 항상 스택의 아래에서 위로 올라갈 때 단조 증가한다. 각 논리적인 줄의 처음에서 줄의 들여쓰기 수준이 스택의 가장 위에 있는 값과 비교된다. 같다면 아무런 일도 일어나지 않는다. 더 크다면 그 값을 스택에 넣고 하나의 INDENT 토큰을 만든다. 더 작다면 이 값은 스택에 있는 값 중 하나여만 한다. 이 값보다 큰 모든 스택의 값들을 꺼내고(pop), 꺼낸 횟수만큼의 DEDENT 토큰을 만든다. 파일의 끝에서, 스택에 남아있는 0보다 큰 값의 개수만큼 DEDENT 토큰을 만든다.

여기에 (혼란스럽다 할지라도) 올바르게 들여쓰기 된 파이썬 코드 조각이 있다:

def perm(l):
        # Compute the list of all permutations of l
    if len(l) <= 1:
                  return [l]
    r = []
    for i in range(len(l)):
             s = l[:i] + l[i+1:]
             p = perm(s)
             for x in p:
              r.append(l[i:i+1] + x)
    return r

다음 예는 여러 가지 들여쓰기 에러를 보여준다:

 def perm(l):                       # error: first line indented
for i in range(len(l)):             # error: not indented
    s = l[:i] + l[i+1:]
        p = perm(l[:i] + l[i+1:])   # error: unexpected indent
        for x in p:
                r.append(l[i:i+1] + x)
            return r                # error: inconsistent dedent

(사실, 처음 세 개의 에러는 파서가 감지한다. 단지 마지막 에러만 구문 분석기가 감지한다. — return r 의 들여쓰기가 스택에 있는 값과 일치하지 않는다.)

2.1.9. 토큰 사이의 공백¶

논리적인 줄의 처음과 문자열 리터럴을 제외하고, 공백 문자인 스페이스, 탭, 폼 피드는 토큰을 분리하기 위해 섞어 쓸 수 있다. 두 토큰을 붙여 쓸 때 다른 토큰으로 해석될 수 있는 경우만 토큰 사이에 공백이 필요하다. (예를 들어, ab 는 하나의 토큰이지만, a b 는 두 개의 토큰이다.)

2.2. 다른 토큰들¶

NEWLINE, INDENT, DEDENT 와는 별도로, 다음과 같은 유형의 토큰들이 존재한다: 식별자(identifier), 키워드(keyword), 리터럴(literal), 연산자(operator), 구분자(delimiter). (앞에서 살펴본 줄 종료 이외의) 공백 문자들은 토큰이 아니지만, 토큰을 분리하는 역할을 담당한다. 모호할 경우, 왼쪽에서 오른쪽으로 읽을 때, 하나의 토큰은 올바르고 가능한 한 최대 길이의 문자열로 구성되는 것을 선호한다.

2.3. 식별자와 키워드¶

식별자 (이름(name) 이라고도 한다) 은 다음과 같은 구문 정의로 기술된다.

파이썬에서 식별자의 문법은 유니코드 표준 부속서 UAX-31 에 기반을 두는데, 여기에 덧붙이거나 바꾼 내용은 아래에서 정의한다. 좀 더 상세한 내용은 PEP 3131 에서 찾을 수 있다.

ASCII 범위 (U+0001..U+007F) 내에서, 올바른 식별자 문자는 파이썬 2.x 와 같다: A 에서 Z 범위의 대문자와 소문자, 밑줄 _, 첫 문자를 제외하고, 숫자 0 에서 9.

파이썬 3.0은 ASCII 범위 밖의 문자들을 도입한다 (PEP 3131 참조). 이 문자들의 경우, unicodedata 모듈에 포함된 버전의 유니코드 문자 데이터베이스에 따라 분류된다.

식별자는 길이에 제한이 없고, 케이스(case)는 구분된다.

identifier   ::=  xid_start xid_continue*
id_start     ::=  <all characters in general categories Lu, Ll, Lt, Lm, Lo, Nl, the underscore, and characters with the Other_ID_Start property>
id_continue  ::=  <all characters in id_start, plus characters in the categories Mn, Mc, Nd, Pc and others with the Other_ID_Continue property>
xid_start    ::=  <all characters in id_start whose NFKC normalization is in "id_start xid_continue*">
xid_continue ::=  <all characters in id_continue whose NFKC normalization is in "id_continue*">

위에서 언급한 유니코드 카테고리 코드들의 의미는 이렇다:

Lu - uppercase letters
Ll - lowercase letters
Lt - titlecase letters
Lm - modifier letters
Lo - other letters
Nl - letter numbers
Mn - nonspacing marks
Mc - spacing combining marks
Nd - decimal numbers
Pc - connector punctuations
Other_ID_Start - explicit list of characters in PropList.txt to support backwards compatibility
Other_ID_Continue - 마찬가지

모든 식별자는 파서에 의해 NFKC 정규화 형식으로 변환되고, 식별자의 비교는 NFKC 에 기반을 둔다.

유니코드 4.1의 올바른 식별자 문자들의 비규범적인 목록을 HTML 파일로 정리한 문서를 https://www.dcl.hpi.uni-potsdam.de/home/loewis/table-3131.html 에서 열람할 수 있다.

2.3.1. 키워드¶

다음 식별자들은 예약어, 또는 언어의 키워드, 로 사용되고, 일반적인 식별자로 사용될 수 없다. 여기 쓰여 있는 것과 정확히 같게 사용되어야 한다:

False      class      finally    is         return
None       continue   for        lambda     try
True       def        from       nonlocal   while
and        del        global     not        with
as         elif       if         or         yield
assert     else       import     pass
break      except     in         raise

2.3.2. 식별자의 예약 영역¶

(키워드와는 별개로) 어떤 부류의 식별자들은 특별한 의미가 있다. 이 부류의 식별자들은 시작과 끝의 밑줄 문자 패턴으로 구분된다:

_*: from module import * 에 의해 임포트되지 않는다. 특별한 식별자 _ 는 대화형 인터프리터에서 마지막에 실행한 결과의 값을 저장하는 용도로 사용된다; builtins 모듈에 저장된다. 대화형 모드가 아닐 경우 _ 는 특별한 의미가 없고, 정의되지도 않는다. 임포트(import) 문 섹션을 보라.

주석

이름 _ 은 종종 국제화(internationalization)와 관련되어 사용된다. 이 관례에 관해서는 gettext 모듈의 문서를 참조하라.
__*__: 시스템 정의 이름. 이 이름들은 인터프리터와 그 구현 (표준 라이브러리를 포함한다)이 정의한다. 현재 정의된 시스템 이름은 특수 메서드 이름들 섹션과 그 외의 곳에서 논의된다. 파이썬의 미래 버전에서는 더 많은 것들이 정의될 가능성이 크다. 어떤 문맥에서건, 명시적으로 문서로 만들어진 사용법을 벗어나는 __*__ 이름의 모든 사용은, 경고 없이 손상될 수 있다.
__*: 클래스-비공개 이름. 이 부류의 이름들을 클래스 정의 문맥에서 사용하면 뒤섞인 형태로 변형된다. 부모 클래스와 자식 클래스의 《비공개(private)》 어트리뷰트 간의 이름 충돌을 피하기 위함이다. 식별자 (이름) 섹션을 보라.

2.4. 리터럴¶

리터럴(literal)은 몇몇 내장형들의 상숫값을 위한 표기법이다.

2.4.1. 문자열과 바이트열 리터럴¶

문자열 리터럴은 다음과 같은 구문 정의로 기술된다:

stringliteral   ::=  [stringprefix](shortstring | longstring)
stringprefix    ::=  "r" | "u" | "R" | "U"
shortstring     ::=  "'" shortstringitem* "'" | '"' shortstringitem* '"'
longstring      ::=  "'''" longstringitem* "'''" | '"""' longstringitem* '"""'
shortstringitem ::=  shortstringchar | stringescapeseq
longstringitem  ::=  longstringchar | stringescapeseq
shortstringchar ::=  <any source character except "\" or newline or the quote>
longstringchar  ::=  <any source character except "\">
stringescapeseq ::=  "\" <any source character>

bytesliteral   ::=  bytesprefix(shortbytes | longbytes)
bytesprefix    ::=  "b" | "B" | "br" | "Br" | "bR" | "BR" | "rb" | "rB" | "Rb" | "RB"
shortbytes     ::=  "'" shortbytesitem* "'" | '"' shortbytesitem* '"'
longbytes      ::=  "'''" longbytesitem* "'''" | '"""' longbytesitem* '"""'
shortbytesitem ::=  shortbyteschar | bytesescapeseq
longbytesitem  ::=  longbyteschar | bytesescapeseq
shortbyteschar ::=  <any ASCII character except "\" or newline or the quote>
longbyteschar  ::=  <any ASCII character except "\">
bytesescapeseq ::=  "\" <any ASCII character>

이 생성 규칙이 보여주지 못하는 한 가지 문법적 제약은 stringprefix 나 bytesprefix 와 리터럴의 나머지 부분 사이에 공백이 허락되지 않는다는 것이다. 소스 문자 집합은 인코딩 선언으로 정의된다; 소스 파일에 인코딩 선언이 없으면 UTF-8이다. 인코딩 선언 섹션을 보라.

쉬운 말로 하자면, 두 가지 리터럴은 한 쌍의 작은따옴표(') 나 큰따옴표(")로 둘러싸일 수 있다. 또한, 둘 다 한 쌍의 삼중 작은따옴표나 큰따옴표로 둘러싸일 수도 있다 (이것들은 보통 삼중 따옴표 된 문자열 이라고 불린다). 역 슬래시(\) 문자는 홀로 쓰이면 특별한 의미가 있는 문자들을 이스케이핑할 때 사용되는데, 개행문자, 역 슬래시 자신, 따옴표 문자가 그것이다.

바이트열(bytes) 리터럴은 항상 'b' 나 'B' 를 앞에 붙인다; str 형의 인스턴스 대신 bytes 형의 인스턴스를 만든다. 오직 ASCII 문자들만 포함할 수 있다. 코드값이 128보다 크거나 같은 값들은 반드시 이스케이핑으로 표현되어야 한다.

As of Python 3.3 it is possible again to prefix string literals with a u prefix to simplify maintenance of dual 2.x and 3.x codebases.

문자열과 바이트열 리터럴 모두 선택적으로 'r' 이나 'R' 문자를 앞에 붙일 수 있다. 이런 문자열을 날 문자열(raw strings) 이라고 하는데, 역 슬래시를 평범한 문자로 취급한다. 결과적으로, 문자열 리터럴에서, 날 문자열에 있는 '\U' 와 '\u' 이스케이프는 특별하게 처리되지 않는다. 파이썬 2.x의 날 유니코드 리터럴이 파이썬 3.x와 다르게 동작한다는 것을 고려해서, 'ur' 문법은 지원되지 않는다.

버전 3.3에 추가: 날 바이트열 리터럴의 'br' 와 같은 의미가 있는 'rb' 접두어가 추가되었다.

버전 3.3에 추가: 파이썬 2.x 와 3.x 에서 동시에 지원하는 코드들의 유지보수를 단순화하기 위해 예전에 사용되던 유니코드 리터럴 (u'value')이 다시 도입되었다. 자세한 정보는 PEP 414 에 나온다.

삼중 따옴표 된 리터럴에서, 세 개의 이스케이핑 되지 않은 개행 문자와 따옴표가 허락된다 (그리고 유지된다). 예외는 한 줄에 세 개의 이스케이핑 되지 않은 따옴표가 나오는 것인데, 리터럴을 종료시킨다. (《따옴표》는 리터럴을 시작하는데 사용한 문자다. 즉, ' 나 ")

'r' 나 'R' 접두어가 붙지 않은 이상, 문자열과 바이트열 리터럴에 포함된 이스케이프 시퀀스는 표준 C에서 사용된 것과 비슷한 규칙으로 해석된다. 인식되는 이스케이프 시퀀스는 이렇다:

이스케이프 시퀀스	의미	유의 사항
`\newline`	역 슬래시와 개행 문자가 무시된다
`\\`	역 슬래시 (`\`)
`\'`	작은따옴표 (`'`)
`\"`	큰따옴표 (`"`)
`\a`	ASCII 벨 (BEL)
`\b`	ASCII 백스페이스 (BS)
`\f`	ASCII 폼 피드 (FF)
`\n`	ASCII 라인 피드 (LF)
`\r`	ASCII 캐리지 리턴 (CR)
`\t`	ASCII 가로 탭 (TAB)
`\v`	ASCII 세로 탭 (VT)
`\ooo`	8진수 ooo 로 지정된 문자	(1,3)
`\xhh`	16진수 hh 로 지정된 문자	(2,3)

문자열 리터럴에서만 인식되는 이스케이프 시퀀스는:

이스케이프 시퀀스	의미	유의 사항
`\N{name}`	유니코드 데이터베이스에서 name 이라고 이름 붙여진 문자	(4)
`\uxxxx`	16-bit 16진수 xxxx 로 지정된 문자	(5)
`\Uxxxxxxxx`	32-bit 16진수 xxxxxxxx 로 지정된 문자	(6)

유의 사항:

표준 C와 마찬가지로, 최대 세 개의 8진수가 허용된다.
표준 C와는 달리, 정확히 두 개의 16진수가 제공되어야 한다.
바이트열 리터럴에서, 16진수와 8진수 이스케이프는 지정된 값의 바이트를 표현한다. 문자열 리터럴에서는, 이 이스케이프는 지정된 값의 유니코드 문자를 표현한다.
버전 3.3으로 변경: 별칭 [1] 지원이 추가되었다
정확히 4개의 16진수를 필요로 한다.
이 방법으로 모든 유니코드를 인코딩할 수 있다. 정확히 8개의 16진수가 필요하다.

표준 C와는 달리, 인식되지 않는 모든 이스케이프 시퀀스는 문자열에 변경되지 않은 상태로 남게 된다. 즉, 역 슬래시가 결과에 남게 된다. (이 동작은 디버깅할 때 쓸모가 있다. 이스케이프 시퀀스가 잘못 입력되었을 때, 최종 결과에서 잘못된 부분을 쉽게 인지할 수 있다.) 문자열 리터럴에서만 인식되는 이스케이프 시퀀스가, 바이트열 리터럴에서는 인식되지 않는 부류임에 주목하라.

날 리터럴에서 조차, 따옴표는 역 슬래시로 이스케이프 된다. 하지만 역 슬래시가 결과에 남게 된다; 예를 들어, r"\"" 는 올바른 문자열 리터럴인데, 두 개의 문자가 들어있다: 역 슬래시와 큰따옴표; r"\" 는 올바른 문자열 리터럴이 아니다 (날 문자열조차 홀수개의 역 슬래시로 끝날 수 없다.). 좀 더 명확하게 말하자면, 날 리터럴은 하나의 역 슬래시로 끝날 수 없다(역 슬래시가 뒤에 오는 따옴표를 이스케이프 시키기 때문이다). 역 슬래시와 바로 뒤에 오는 개행문자는 줄 결합이 아니라 리터럴에 포함되는 두 개의 문자로 인식됨에 주의해야 한다.

2.4.2. 문자열 리터럴 이어붙이기¶

여러 개의 문자열이나 바이트열 리터럴을 (공백으로 분리해서) 여러 개 인접해서 나열하는 것이 허락되고, 그 의미는 이어붙인 것과 같다. 각 리터럴이 서로 다른 따옴표를 사용해도 된다. 그래서, "hello" 'world' 는 "helloworld" 와 동등하다. 이 기능은 긴 문자열을 편의상 여러 줄로 나눌 때 필요한 역 슬래시를 줄여준다. 각 문자열 단위마다 주석을 붙이는 것도 가능하다. 예를 들어:

re.compile("[A-Za-z_]"       # letter or underscore
           "[A-Za-z0-9_]*"   # letter, digit or underscore
          )

Note that this feature is defined at the syntactical level, but implemented at compile time. The 〈+〉 operator must be used to concatenate string expressions at run time. Also note that literal concatenation can use different quoting styles for each component (even mixing raw strings and triple quoted strings).

2.4.3. 숫자 리터럴¶

숫자 리터럴에는 세 가지 종류가 있다: 정수, 실수, 허수. 복소수 리터럴 같은 것은 없다 (복소수는 실수와 허수를 더해서 만들어진다.)

숫자 리터럴이 부호를 포함하지 않는 것에 주의해야 한다; -1 과 같은 구문은 일 항 연산자 〈-〈 과 리터럴 1 로 구성된 표현식이다.

2.4.4. 정수 리터럴¶

정수 리터럴은 다음과 같은 구문 정의로 표현된다:

integer        ::=  decimalinteger | octinteger | hexinteger | bininteger
decimalinteger ::=  nonzerodigit digit* | "0"+
nonzerodigit   ::=  "1"..."9"
digit          ::=  "0"..."9"
octinteger     ::=  "0" ("o" | "O") octdigit+
hexinteger     ::=  "0" ("x" | "X") hexdigit+
bininteger     ::=  "0" ("b" | "B") bindigit+
octdigit       ::=  "0"..."7"
hexdigit       ::=  digit | "a"..."f" | "A"..."F"
bindigit       ::=  "0" | "1"

가용한 메모리에 저장될 수 있는지와는 별개로 정수 리터럴의 길이에 제한은 없다.

0 이 아닌 10진수가 0으로 시작할 수 없음에 주의해야 한다. 3.0 버전 이전의 파이썬에서 사용한 C 스타일의 8진수 리터럴과 혼동되는 것을 막기 위함이다.

정수 리터럴의 예를 들면:

7     2147483647                        0o177    0b100110111
3     79228162514264337593543950336     0o377    0xdeadbeef

2.4.5. 실수 리터럴¶

실수 리터럴은 다음과 같은 구문 정의로 표현된다:

floatnumber   ::=  pointfloat | exponentfloat
pointfloat    ::=  [intpart] fraction | intpart "."
exponentfloat ::=  (intpart | pointfloat) exponent
intpart       ::=  digit+
fraction      ::=  "." digit+
exponent      ::=  ("e" | "E") ["+" | "-"] digit+

Note that the integer and exponent parts are always interpreted using radix 10. For example, 077e010 is legal, and denotes the same number as 77e10. The allowed range of floating point literals is implementation-dependent. Some examples of floating point literals:

3.14    10.    .001    1e100    3.14e-10    0e0

Note that numeric literals do not include a sign; a phrase like -1 is actually an expression composed of the unary operator - and the literal 1.

2.4.6. 허수 리터럴¶

허수 리터럴은 다음과 같은 구문 정의로 표현된다:

imagnumber ::=  (floatnumber | intpart) ("j" | "J")

허수 리터럴은 실수부가 0.0인 복소수를 만든다. 복소수는 실수와 같은 범위 제약이 적용되는 한 쌍의 실수로 표현된다. 0이 아닌 실수부를 갖는 복소수를 만들려면, 실수를 더하면 된다. 예를 들어, (3+4j). 허수 리터럴의 몇 가지 예를 든다:

3.14j   10.j    10j     .001j   1e100j  3.14e-10j

2.5. 연산자¶

다음과 같은 토큰들은 연산자다:

+       -       *       **      /       //      %      @
<<      >>      &       |       ^       ~
<       >       <=      >=      ==      !=

2.6. 구분자¶

다음 토큰들은 문법에서 구분자(delimiter)로 기능한다:

(       )       [       ]       {       }
,       :       .       ;       @       =       ->
+=      -=      *=      /=      //=     %=      @=
&=      |=      ^=      >>=     <<=     **=

마침표는 실수와 허수 리터럴에서도 등장할 수 있다. 연속된 마침표 세 개는 생략부호 리터럴(ellipsis literal)이라는 특별한 의미가 있다. 목록 후반의 증분 대입 연산자(augmented assignment operator)들은 구문적으로는 구분자로 기능하지만, 동시에 연산을 수행한다.

다음의 인쇄되는 ASCII 문자들은 다른 토큰들 일부로서 특별한 의미를 같거나, 그 밖의 경우 구문 분석기에 유의미하다:

'       "       #       \

다음의 인쇄되는 ASCII 문자들은 파이썬에서 사용되지 않는다. 문자열 리터럴과 주석 이외의 곳에서 사용되는 것은 조건 없는 에러다:

$       ?       `

각주

[1]	http://www.unicode.org/Public/8.0.0/ucd/NameAliases.txt