2. 어휘 분석¶
파이썬 프로그램은 파서(parser) 에 의해 읽힙니다. 파서의 입력은 어휘 분석기(lexical analyzer) (토큰화기(tokenizer) 라고도 합니다) 가 만들어내는 토큰 의 스트림입니다. 이 장에서는 어휘 분석기가 어떻게 파일을 토큰들로 분해하는지 설명합니다.
파이썬은 프로그램 텍스트를 유니코드 코드값으로 읽습니다; 소스 파일의 인코딩은 인코딩 선언을 통해 지정될 수 있고, 기본값은 UTF-8입니다. 자세한 내용은 PEP 3120 에 나옵니다. 소스 파일을 디코딩할 수 없을 때는 SyntaxError
가 발생합니다.
2.1. 줄 구조(Line structure)¶
파이썬 프로그램은 여러 개의 논리적인 줄(logical lines) 들로 나뉩니다.
2.1.1. 논리적인 줄¶
The end of a logical line is represented by the token NEWLINE
.
Statements cannot cross logical line boundaries except where NEWLINE
is allowed by the syntax (e.g., between statements in compound statements).
A logical line is constructed from one or more physical lines by following
the explicit or implicit
line joining rules.
2.1.2. 물리적인 줄¶
A physical line is a sequence of characters terminated by one the following end-of-line sequences:
the Unix form using ASCII LF (linefeed),
the Windows form using the ASCII sequence CR LF (return followed by linefeed),
the ‘Classic Mac OS’ form using the ASCII CR (return) character.
Regardless of platform, each of these sequences is replaced by a single ASCII LF (linefeed) character. (This is done even inside string literals.) Each line can use any of the sequences; they do not need to be consistent within a file.
The end of input also serves as an implicit terminator for the final physical line.
Formally:
newline: <ASCII LF> | <ASCII CR> <ASCII LF> | <ASCII CR>
2.1.4. 인코딩 선언¶
파이썬 스크립트의 첫 번 째나 두 번째 줄에 있는 주석이 정규식 coding[=:]\s*([-\w.]+)
과 매치되면, 이 주석은 인코딩 선언으로 처리됩니다. 이 정규식의 첫 번째 그룹은 소스 코드 파일의 인코딩 이름을 지정합니다. 인코딩 선언은 줄 전체에 홀로 나와야 합니다. 만약 두 번째 줄이라면, 첫 번째 줄 역시 주석만 있어야 합니다. 인코딩 선언의 권장 형태는 두 개입니다. 하나는
# -*- coding: <encoding-name> -*-
인데 GNU Emacs에서도 인식됩니다. 다른 하나는
# vim:fileencoding=<encoding-name>
인데 Bram Moolenaar 의 VIM에서 인식됩니다.
If no encoding declaration is found, the default encoding is UTF-8. If the
implicit or explicit encoding of a file is UTF-8, an initial UTF-8 byte-order
mark (b'\xef\xbb\xbf'
) is ignored rather than being a syntax error.
인코딩이 선언되면, 인코딩 이름은 파이썬이 인식할 수 있어야 합니다 (표준 인코딩를 참조하세요). 인코딩은 문자열 리터럴, 주석, 식별자를 포함한 모든 어휘 분석에서 모두 사용됩니다.
All lexical analysis, including string literals, comments and identifiers, works on Unicode text decoded using the source encoding. Any Unicode code point, except the NUL control character, can appear in Python source.
source_character: <any Unicode code point, except NUL>
2.1.5. 명시적인 줄 결합¶
둘 이상의 물리적인 줄은 역 슬래시 문자(\
)를 사용해서 논리적인 줄로 결합할 수 있습니다: 물리적인 줄이 문자열 리터럴이나 주석의 일부가 아닌 역 슬래시 문자로 끝나면, 역 슬래시와 뒤따르는 개행 문자가 제거된 채로, 현재 만들어지고 있는 논리적인 줄에 합쳐집니다. 예를 들어:
if 1900 < year < 2100 and 1 <= month <= 12 \
and 1 <= day <= 31 and 0 <= hour < 24 \
and 0 <= minute < 60 and 0 <= second < 60: # 유효한 날짜처럼 보입니다
return 1
역 슬래시로 끝나는 줄은 주석이 포함될 수 없습니다. 역 슬래시는 주석을 결합하지 못합니다. 역 슬래시는 문자열 리터럴을 제외한 어떤 토큰도 결합하지 못합니다 (즉, 문자열 리터럴 이외의 어떤 토큰도 역 슬래시를 사용해서 두 줄에 나누어 기록할 수 없습니다.). 문자열 리터럴 밖에 있는 역 슬래시가 앞에서 언급한 장소 이외의 곳에 등장하는 것은 문법에 어긋납니다.
2.1.6. 묵시적인 줄 결합¶
괄호(()
), 대괄호([]
), 중괄호({}
)가 사용되는 표현은 역 슬래시 없이도 여러 개의 물리적인 줄로 나눌 수 있습니다. 예를 들어:
month_names = ['Januari', 'Februari', 'Maart', # 이것들은
'April', 'Mei', 'Juni', # 일년을 이루는
'Juli', 'Augustus', 'September', # 달들의
'Oktober', 'November', 'December'] # 네덜란드 이름입니다
묵시적으로 이어지는 줄들은 주석을 포함할 수 있습니다. 이어지는 줄들의 들여쓰기는 중요하지 않습니다. 중간에 빈 줄이 들어가도 됩니다. 묵시적으로 줄 결합하는 줄 들 간에는 NEWLINE 토큰이 만들어지지 않습니다. 묵시적으로 이어지는 줄들은 삼중 따옴표 된 문자열들에서도 등장할 수 있는데 (아래를 보라), 이 경우는 주석이 포함될 수 없습니다.
2.1.7. 빈 줄¶
A logical line that contains only spaces, tabs, formfeeds and possibly a
comment, is ignored (i.e., no NEWLINE
token is generated).
During interactive input of statements, handling of a blank line may differ
depending on the implementation of the read-eval-print loop.
In the standard interactive interpreter, an entirely blank logical line (that
is, one containing not even whitespace or a comment) terminates a multi-line
statement.
2.1.8. 들여쓰기¶
논리적인 줄의 제일 앞에 오는 공백(스페이스와 탭)은 줄의 들여쓰기 수준을 계산하는 데 사용되고, 이는 다시 문장들의 묶음을 결정하는 데 사용되게 됩니다.
탭은 (왼쪽에서 오른쪽으로) 1~8개의 스페이스로 변환되는데, 치환된 후의 총 스페이스 문자 수가 8의 배수가 되도록 맞춥니다. (유닉스에서 사용되는 규칙에 맞추려는 것입니다.) 첫 번째 비 공백 문자 앞에 나오는 공백의 총수가 줄의 들여쓰기를 결정합니다. 들여쓰기는 역 슬래시를 사용해서 여러 개의 물리적인 줄로 나눠질 수 없습니다; 첫 번째 역 슬래시 이전의 공백이 들여쓰기를 결정합니다.
소스 파일이 탭과 스페이스를 섞어 쓰는 경우, 탭이 몇 개의 스페이스에 해당하는지에 따라 다르게 해석될 수 있으면 TabError
를 일으킵니다.
크로스-플랫폼 호환성 유의 사항: UNIX 이외의 플랫폼에서 편집기들이 동작하는 방식 때문에, 하나의 파일 내에서 들여쓰기를 위해 탭과 스페이스를 섞어 쓰는 것은 현명한 선택이 아닙니다. 다른 플랫폼들에서는 최대 들여쓰기 수준에 제한이 있을 수도 있다는 점도 주의해야 합니다.
폼 피드 문자는 줄의 처음에 나올 수 있습니다; 앞서 설명한 들여쓰기 수준 계산에서는 무시됩니다. 선행 공백의 다른 곳에 등장하는 폼 피드 문자는 정의되지 않은 효과를 줍니다 (가령, 스페이스 수가 0으로 초기화될 수 있습니다).
The indentation levels of consecutive lines are used to generate
INDENT
and DEDENT
tokens, using a stack,
as follows.
Before the first line of the file is read, a single zero is pushed on the stack;
this will never be popped off again. The numbers pushed on the stack will
always be strictly increasing from bottom to top. At the beginning of each
logical line, the line’s indentation level is compared to the top of the stack.
If it is equal, nothing happens. If it is larger, it is pushed on the stack, and
one INDENT
token is generated. If it is smaller, it must be one of the
numbers occurring on the stack; all numbers on the stack that are larger are
popped off, and for each number popped off a DEDENT
token is generated.
At the end of the file, a DEDENT
token is generated for each number
remaining on the stack that is larger than zero.
여기에 (혼란스럽다 할지라도) 올바르게 들여쓰기 된 파이썬 코드 조각이 있습니다:
def perm(l):
# l 의 모든 순열의 리스트를 계산합니다
if len(l) <= 1:
return [l]
r = []
for i in range(len(l)):
s = l[:i] + l[i+1:]
p = perm(s)
for x in p:
r.append(l[i:i+1] + x)
return r
다음 예는 여러 가지 들여쓰기 에러를 보여줍니다:
def perm(l): # 에러: 첫 줄을 들여쓰기 했습니다
for i in range(len(l)): # 에러: 들여쓰지 않았습니다
s = l[:i] + l[i+1:]
p = perm(l[:i] + l[i+1:]) # 에러: 예기치 않은 들여쓰기
for x in p:
r.append(l[i:i+1] + x)
return r # 에러: 일관성 없는 내어쓰기
(사실, 처음 세 개의 에러는 파서가 감지합니다. 단지 마지막 에러만 어휘 분석기가 감지합니다. — return r
의 들여쓰기가 스택에 있는 값과 일치하지 않습니다.)
2.1.9. 토큰 사이의 공백¶
Except at the beginning of a logical line or in string literals, the whitespace
characters space, tab and formfeed can be used interchangeably to separate
tokens. Whitespace is needed between two tokens only if their concatenation
could otherwise be interpreted as a different token. For example, ab
is one
token, but a b
is two tokens. However, +a
and + a
both produce
two tokens, +
and a
, as +a
is not a valid token.
2.1.10. End marker¶
At the end of non-interactive input, the lexical analyzer generates an
ENDMARKER
token.
2.2. 다른 토큰들¶
Besides NEWLINE
, INDENT
and DEDENT
,
the following categories of tokens exist:
identifiers and keywords (NAME
), literals (such as
NUMBER
and STRING
), and other symbols
(operators and delimiters, OP
).
Whitespace characters (other than logical line terminators, discussed earlier)
are not tokens, but serve to delimit tokens.
Where ambiguity exists, a token comprises the longest possible string that
forms a legal token, when read from left to right.
2.3. Names (identifiers and keywords)¶
NAME
tokens represent identifiers, keywords, and
soft keywords.
Within the ASCII range (U+0001..U+007F), the valid characters for names
include the uppercase and lowercase letters (A-Z
and a-z
),
the underscore _
and, except for the first character, the digits
0
through 9
.
Names must contain at least one character, but have no upper length limit. Case is significant.
Besides A-Z
, a-z
, _
and 0-9
, names can also use “letter-like”
and “number-like” characters from outside the ASCII range, as detailed below.
All identifiers are converted into the normalization form NFKC while parsing; comparison of identifiers is based on NFKC.
Formally, the first character of a normalized identifier must belong to the
set id_start
, which is the union of:
Unicode category
<Lu>
- uppercase letters (includesA
toZ
)Unicode category
<Ll>
- lowercase letters (includesa
toz
)Unicode category
<Lt>
- titlecase lettersUnicode category
<Lm>
- modifier lettersUnicode category
<Lo>
- other lettersUnicode category
<Nl>
- letter numbers{
"_"
} - the underscore<Other_ID_Start>
- an explicit set of characters in PropList.txt to support backwards compatibility
The remaining characters must belong to the set id_continue
, which is the
union of:
all characters in
id_start
Unicode category
<Nd>
- decimal numbers (includes0
to9
)Unicode category
<Pc>
- connector punctuationsUnicode category
<Mn>
- nonspacing marksUnicode category
<Mc>
- spacing combining marks<Other_ID_Continue>
- another explicit set of characters in PropList.txt to support backwards compatibility
Unicode categories use the version of the Unicode Character Database as
included in the unicodedata
module.
These sets are based on the Unicode standard annex UAX-31. See also PEP 3131 for further details.
Even more formally, names are described by the following lexical definitions:
NAME:xid_start
xid_continue
* id_start: <Lu> | <Ll> | <Lt> | <Lm> | <Lo> | <Nl> | "_" | <Other_ID_Start> id_continue:id_start
| <Nd> | <Pc> | <Mn> | <Mc> | <Other_ID_Continue> xid_start: <all characters inid_start
whose NFKC normalization is in (id_start
xid_continue
*)"> xid_continue: <all characters inid_continue
whose NFKC normalization is in (id_continue
*)"> identifier: <NAME
, except keywords>
A non-normative listing of all valid identifier characters as defined by Unicode is available in the DerivedCoreProperties.txt file in the Unicode Character Database.
2.3.1. 키워드¶
The following names are used as reserved words, or keywords of the language, and cannot be used as ordinary identifiers. They must be spelled exactly as written here:
False await else import pass
None break except in raise
True class finally is return
and continue for lambda try
as def from nonlocal while
assert del global not with
async elif if or yield
2.3.2. 소프트 키워드¶
Added in version 3.10.
Some names are only reserved under specific contexts. These are known as soft keywords:
These syntactically act as keywords in their specific contexts, but this distinction is done at the parser level, not when tokenizing.
As soft keywords, their use in the grammar is possible while still preserving compatibility with existing code that uses these names as identifier names.
버전 3.12에서 변경: type
is now a soft keyword.
2.3.3. 식별자의 예약 영역¶
(키워드와는 별개로) 어떤 부류의 식별자들은 특별한 의미가 있습니다. 이 부류의 식별자들은 시작과 끝의 밑줄 문자 패턴으로 구분됩니다:
_*
from module import *
에 의해 임포트되지 않습니다._
In a
case
pattern within amatch
statement,_
is a soft keyword that denotes a wildcard.한편, 대화형 인터프리터는 마지막 평가 결과물을 변수
_
에 저장합니다. (print
와 같은 내장 함수와 함께,builtins
모듈에 저장됩니다.)Elsewhere,
_
is a regular identifier. It is often used to name “special” items, but it is not special to Python itself.참고
이름
_
은 종종 국제화(internationalization)와 관련되어 사용됩니다. 이 관례에 관해서는gettext
모듈의 문서를 참조하십시오.It is also commonly used for unused variables.
__*__
시스템 정의 이름, 비공식적으로 “던더(dunder)” 이름이라고 알려졌습니다. 이 이름들은 인터프리터와 그 구현(표준 라이브러리를 포함합니다)이 정의합니다. 현재 정의된 시스템 이름은 특수 메서드 이름들 섹션과 그 외의 곳에서 논의됩니다. 파이썬의 미래 버전에서는 더 많은 것들이 정의될 가능성이 큽니다. 어떤 문맥에서건, 명시적으로 문서로 만들어진 사용법을 벗어나는
__*__
이름의 모든 사용은, 경고 없이 손상될 수 있습니다.__*
클래스-비공개 이름. 이 부류의 이름들을 클래스 정의 문맥에서 사용하면 뒤섞인 형태로 변형됩니다. 부모 클래스와 자식 클래스의 “비공개(private)” 어트리뷰트 간의 이름 충돌을 피하기 위함입니다. 식별자 (이름) 섹션을 보세요.
2.4. 리터럴¶
리터럴(literal)은 몇몇 내장형들의 상숫값을 위한 표기법입니다.
In terms of lexical analysis, Python has string, bytes and numeric literals.
Other “literals” are lexically denoted using keywords
(None
, True
, False
) and the special
ellipsis token (...
).
2.5. 문자열과 바이트열 리터럴¶
String literals are text enclosed in single quotes ('
) or double
quotes ("
). For example:
"spam"
'eggs'
The quote used to start the literal also terminates it, so a string literal can only contain the other quote (except with escape sequences, see below). For example:
'Say "Hello", please.'
"Don't do that!"
Except for this limitation, the choice of quote character ('
or "
)
does not affect how the literal is parsed.
Inside a string literal, the backslash (\
) character introduces an
escape sequence, which has special meaning depending on the character
after the backslash.
For example, \"
denotes the double quote character, and does not end
the string:
>>> print("Say \"Hello\" to everyone!")
Say "Hello" to everyone!
See escape sequences below for a full list of such sequences, and more details.
2.5.1. Triple-quoted strings¶
Strings can also be enclosed in matching groups of three single or double quotes. These are generally referred to as triple-quoted strings:
"""This is a triple-quoted string."""
In triple-quoted literals, unescaped quotes are allowed (and are
retained), except that three unescaped quotes in a row terminate the literal,
if they are of the same kind ('
or "
) used at the start:
"""This string has "quotes" inside."""
Unescaped newlines are also allowed and retained:
'''This triple-quoted string
continues on the next line.'''
2.5.2. String prefixes¶
String literals can have an optional prefix that influences how the content of the literal is parsed, for example:
b"data"
f'{result=}'
The allowed prefixes are:
r
: Raw stringf
: Formatted string literal (“f-string”)t
: Template string literal (“t-string”)u
: No effect (allowed for backwards compatibility)
See the linked sections for details on each type.
Prefixes are case-insensitive (for example, ‘B
’ works the same as ‘b
’).
The ‘r
’ prefix can be combined with ‘f
’, ‘t
’ or ‘b
’, so ‘fr
’,
‘rf
’, ‘tr
’, ‘rt
’, ‘br
’, and ‘rb
’ are also valid prefixes.
Added in version 3.3: 날 바이트열 리터럴의 'br'
와 같은 의미가 있는 'rb'
접두어가 추가되었습니다.
파이썬 2.x 와 3.x 에서 동시에 지원하는 코드들의 유지보수를 단순화하기 위해 예전에 사용되던 유니코드 리터럴 (u'value'
)이 다시 도입되었습니다. 자세한 정보는 PEP 414 에 나옵니다.
2.5.3. Formal grammar¶
String literals, except “f-strings” and “t-strings”, are described by the following lexical definitions.
These definitions use negative lookaheads (!
)
to indicate that an ending quote ends the literal.
STRING: [stringprefix
] (stringcontent
) stringprefix: <("r" | "u" | "b" | "br" | "rb"), case-insensitive> stringcontent: | "'''" ( !"'''"longstringitem
)* "'''" | '"""' ( !'"""'longstringitem
)* '"""' | "'" ( !"'"stringitem
)* "'" | '"' ( !'"'stringitem
)* '"' stringitem:stringchar
|stringescapeseq
stringchar: <anysource_character
, except backslash and newline> longstringitem:stringitem
| newline stringescapeseq: "\" <anysource_character
>
Note that as in all lexical definitions, whitespace is significant. In particular, the prefix (if any) must be immediately followed by the starting quote.
2.5.4. 이스케이프 시퀀스¶
Unless an ‘r
’ or ‘R
’ prefix is present, escape sequences in string and
bytes literals are interpreted according to rules similar to those used by
Standard C. The recognized escape sequences are:
이스케이프 시퀀스 |
의미 |
---|---|
|
|
|
|
|
|
|
|
|
ASCII 벨 (BEL) |
|
ASCII 백스페이스 (BS) |
|
ASCII 폼 피드 (FF) |
|
ASCII 라인 피드 (LF) |
|
ASCII 캐리지 리턴 (CR) |
|
ASCII 가로 탭 (TAB) |
|
ASCII 세로 탭 (VT) |
|
|
|
|
|
|
|
|
|
2.5.4.1. Ignored end of line¶
A backslash can be added at the end of a line to ignore the newline:
>>> 'This string will not include \
... backslashes or newline characters.'
'This string will not include backslashes or newline characters.'
The same result can be achieved using triple-quoted strings, or parentheses and string literal concatenation.
2.5.4.2. Escaped characters¶
To include a backslash in a non-raw Python string
literal, it must be doubled. The \\
escape sequence denotes a single
backslash character:
>>> print('C:\\Program Files')
C:\Program Files
Similarly, the \'
and \"
sequences denote the single and double
quote character, respectively:
>>> print('\' and \"')
' and "
2.5.4.3. Octal character¶
The sequence \ooo
denotes a character with the octal (base 8)
value ooo:
>>> '\120'
'P'
Up to three octal digits (0 through 7) are accepted.
In a bytes literal, character means a byte with the given value. In a string literal, it means a Unicode character with the given value.
버전 3.11에서 변경: Octal escapes with value larger than 0o377
(255) produce a
DeprecationWarning
.
버전 3.12에서 변경: Octal escapes with value larger than 0o377
(255) produce a
SyntaxWarning
.
In a future Python version they will raise a SyntaxError
.
2.5.4.4. Hexadecimal character¶
The sequence \xhh
denotes a character with the hex (base 16)
value hh:
>>> '\x50'
'P'
표준 C와는 달리, 정확히 두 개의 16진수가 제공되어야 합니다.
In a bytes literal, character means a byte with the given value. In a string literal, it means a Unicode character with the given value.
2.5.4.5. Named Unicode character¶
The sequence \N{name}
denotes a Unicode character
with the given name:
>>> '\N{LATIN CAPITAL LETTER P}'
'P'
>>> '\N{SNAKE}'
'🐍'
This sequence cannot appear in bytes literals.
버전 3.3에서 변경: Support for name aliases has been added.
2.5.4.6. Hexadecimal Unicode characters¶
These sequences \uxxxx
and \Uxxxxxxxx
denote the
Unicode character with the given hex (base 16) value.
Exactly four digits are required for \u
; exactly eight digits are
required for \U
.
The latter can encode any Unicode character.
>>> '\u1234'
'ሴ'
>>> '\U0001f40d'
'🐍'
These sequences cannot appear in bytes literals.
2.5.4.7. Unrecognized escape sequences¶
Unlike in Standard C, all unrecognized escape sequences are left in the string unchanged, that is, the backslash is left in the result:
>>> print('\q')
\q
>>> list('\q')
['\\', 'q']
Note that for bytes literals, the escape sequences only recognized in string
literals (\N...
, \u...
, \U...
) fall into the category of
unrecognized escapes.
버전 3.6에서 변경: Unrecognized escape sequences produce a DeprecationWarning
.
버전 3.12에서 변경: Unrecognized escape sequences produce a SyntaxWarning
.
In a future Python version they will raise a SyntaxError
.
2.5.5. Bytes literals¶
Bytes literals are always prefixed with ‘b
’ or ‘B
’; they produce an
instance of the bytes
type instead of the str
type.
They may only contain ASCII characters; bytes with a numeric value of 128
or greater must be expressed with escape sequences (typically
Hexadecimal character or Octal character):
>>> b'\x89PNG\r\n\x1a\n'
b'\x89PNG\r\n\x1a\n'
>>> list(b'\x89PNG\r\n\x1a\n')
[137, 80, 78, 71, 13, 10, 26, 10]
Similarly, a zero byte must be expressed using an escape sequence (typically
\0
or \x00
).
2.5.6. Raw string literals¶
Both string and bytes literals may optionally be prefixed with a letter ‘r
’
or ‘R
’; such constructs are called raw string literals
and raw bytes literals respectively and treat backslashes as
literal characters.
As a result, in raw string literals, escape sequences
are not treated specially:
>>> r'\d{4}-\d{2}-\d{2}'
'\\d{4}-\\d{2}-\\d{2}'
날 리터럴에서 조차, 따옴표는 역 슬래시로 이스케이프 됩니다. 하지만 역 슬래시가 결과에 남게 됩니다; 예를 들어, r"\""
는 올바른 문자열 리터럴인데, 두 개의 문자가 들어있습니다: 역 슬래시와 큰따옴표; r"\"
는 올바른 문자열 리터럴이 아닙니다 (날 문자열조차 홀수개의 역 슬래시로 끝날 수 없습니다.). 좀 더 명확하게 말하자면, 날 리터럴은 하나의 역 슬래시로 끝날 수 없습니다(역 슬래시가 뒤에 오는 따옴표를 이스케이프 시키기 때문입니다). 역 슬래시와 바로 뒤에 오는 개행문자는 줄 결합이 아니라 리터럴에 포함되는 두 개의 문자로 인식됨에 주의해야 합니다.
2.5.7. 포맷 문자열 리터럴¶
Added in version 3.6.
A formatted string literal or f-string is a string literal
that is prefixed with ‘f
’ or ‘F
’. These strings may contain
replacement fields, which are expressions delimited by curly braces {}
.
While other string literals always have a constant value, formatted strings
are really expressions evaluated at run time.
이스케이프 시퀀스는 일반 문자열 리터럴처럼 디코딩됩니다 (동시에 날 문자열인 경우는 예외입니다). 디코딩 후에 문자열의 내용은 다음과 같은 문법을 따릅니다:
f_string: (literal_char
| "{{" | "}}" |replacement_field
)* replacement_field: "{"f_expression
["="] ["!"conversion
] [":"format_spec
] "}" f_expression: (conditional_expression
| "*"or_expr
) (","conditional_expression
| "," "*"or_expr
)* [","] |yield_expression
conversion: "s" | "r" | "a" format_spec: (literal_char
|replacement_field
)* literal_char: <any code point except "{", "}" or NULL>
중괄호 바깥 부분은 일반 리터럴처럼 취급되는데, 이중 중괄호 '{{'
나 '}}'
가 대응하는 단일 중괄호로 치환된다는 점만 예외입니다. 하나의 여는 중괄호 '{'
는 치환 필드를 시작시키는데, 파이썬 표현식이 뒤따릅니다. 평가 후 표현식 텍스트와 해당 값을 모두 표시하려면 (디버깅에 유용합니다), 표현식 뒤에 등호 '='
를 추가할 수 있습니다. 느낌표 '!'
로 시작하는, 변환(conversion) 필드가 뒤따를 수 있습니다. 포맷 지정자(format specifier)도 덧붙일 수 있는데, 콜론 ':'
으로 시작합니다. 치환 필드는 닫는 중괄호 '}'
로 끝납니다.
포맷 문자열 리터럴의 표현식은 괄호로 둘러싸인 일반적인 파이썬 표현식으로 취급되는데, 몇 가지 예외가 있습니다. 빈 표현식은 허락되지 않고, lambda
와 대입 표현식 :=
은 모두 명시적인 괄호로 둘러싸야 합니다. 각 표현식은 포맷 문자열 리터럴이 등장한 지점의 문맥에서 왼쪽에서 오른쪽으로 계산됩니다. 치환 표현식은 단일 따옴표와 삼중 따옴표로 둘러싸인 포맷 문자열 리터럴 모두에 개행문자를 포함할 수 있으며 주석도 포함할 수 있습니다. 치환 필드 내에서 #
뒤에 오는 모든 내용은 주석으로 처리됩니다 (닫는 중괄호와 따옴표 조차 그렇습니다). 이 경우 치환 필드는 다른 줄에서 닫혀야 합니다.
>>> f"abc{a # This is a comment }"
... + 3}"
'abc5'
버전 3.7에서 변경: 파이썬 3.7 이전에는, 구현 문제로 인해 포맷 문자열 리터럴의 표현식에서 await
표현식과 async for
절을 포함하는 컴프리헨션은 유효하지 않았습니다.
버전 3.12에서 변경: Prior to Python 3.12, comments were not allowed inside f-string replacement fields.
등호 기호 '='
이 제공되면, 출력에는 표현식 텍스트, '='
및 평가된 값이 포함됩니다. 여는 중괄호 '{'
뒤, 표현식 내, '='
뒤의 스페이스는 모두 출력에 유지됩니다. 기본적으로, '='
은 포맷 지정자가 없는 한 표현식의 repr()
을 제공합니다. 포맷이 지정되면 변환 '!r'
이 선언되지 않는 한 기본적으로 표현식의 str()
이 사용됩니다.
Added in version 3.8: 등호 기호 '='
.
변환(conversion)이 지정되면, 표현식의 결과가 포매팅 전에 변환됩니다. 변환 '!s'
는 결과에 str()
을 호출하고, '!r'
은 repr()
을 호출하고, '!a'
은 ascii()
를 호출합니다.
결과는 format()
프로토콜로 포매팅합니다. 포맷 지정자는 표현식이나 변환 결과의 __format__()
메서드 로 전달됩니다. 포맷 지정자가 생략되면 빈 문자열이 전달됩니다. 이제 포맷된 결과가 최종 문자열에 삽입됩니다.
최상위 포맷 지정자는 중첩된 치환 필드들을 포함할 수 있습니다. 이 중첩된 필드들은 그들 자신의 변환 필드와 포맷 지정자를 포함할 수 있지만, 깊이 중첩된 치환 필드들을 포함할 수는 없습니다. 포맷 지정자 간이 언어는 str.format()
메서드에서 사용되는 것과 같습니다.
포맷 문자열 리터럴을 이어붙일 수는 있지만, 치환 필드가 여러 리터럴로 쪼개질 수는 없습니다.
포맷 문자열 리터럴의 예를 들면:
>>> name = "Fred"
>>> f"He said his name is {name!r}."
"He said his name is 'Fred'."
>>> f"He said his name is {repr(name)}." # repr() 은 !r 과 같습니다
"He said his name is 'Fred'."
>>> width = 10
>>> precision = 4
>>> value = decimal.Decimal("12.34567")
>>> f"result: {value:{width}.{precision}}" # 중첩된 필드
'result: 12.35'
>>> today = datetime(year=2017, month=1, day=27)
>>> f"{today:%B %d, %Y}" # 날짜 포맷 지정자 사용
'January 27, 2017'
>>> f"{today=:%B %d, %Y}" # 날짜 포맷 지정자와 디버깅 사용
'today=January 27, 2017'
>>> number = 1024
>>> f"{number:#0x}" # 정수 포맷 지정자 사용
'0x400'
>>> foo = "bar"
>>> f"{ foo = }" # 공백을 보존합니다
" foo = 'bar'"
>>> line = "The mill's closed"
>>> f"{line = }"
'line = "The mill\'s closed"'
>>> f"{line = :20}"
"line = The mill's closed "
>>> f"{line = !r:20}"
'line = "The mill\'s closed" '
Reusing the outer f-string quoting type inside a replacement field is permitted:
>>> a = dict(x=2)
>>> f"abc {a["x"]} def"
'abc 2 def'
버전 3.12에서 변경: Prior to Python 3.12, reuse of the same quoting type of the outer f-string inside a replacement field was not possible.
Backslashes are also allowed in replacement fields and are evaluated the same way as in any other context:
>>> a = ["a", "b", "c"]
>>> print(f"List a contains:\n{"\n".join(a)}")
List a contains:
a
b
c
버전 3.12에서 변경: Prior to Python 3.12, backslashes were not permitted inside an f-string replacement field.
포맷 문자열 리터럴은 독스트링(docstring)으로 사용될 수 없습니다. 표현식이 전혀 없더라도 마찬가집니다.
>>> def foo():
... f"Not a docstring"
...
>>> foo.__doc__ is None
True
포맷 문자열 리터럴 추가에 대한 제안은 PEP 498 을 참조하고, 관련된 포맷 문자열 메커니즘을 사용하는 str.format()
도 살펴보는 것이 좋습니다.
2.5.8. t-strings¶
Added in version 3.14.
A template string literal or t-string is a string literal
that is prefixed with ‘t
’ or ‘T
’.
These strings follow the same syntax and evaluation rules as
formatted string literals, with the following differences:
Rather than evaluating to a
str
object, template string literals evaluate to astring.templatelib.Template
object.The
format()
protocol is not used. Instead, the format specifier and conversions (if any) are passed to a newInterpolation
object that is created for each evaluated expression. It is up to code that processes the resultingTemplate
object to decide how to handle format specifiers and conversions.Format specifiers containing nested replacement fields are evaluated eagerly, prior to being passed to the
Interpolation
object. For instance, an interpolation of the form{amount:.{precision}f}
will evaluate the inner expression{precision}
to determine the value of theformat_spec
attribute. Ifprecision
were to be2
, the resulting format specifier would be'.2f'
.When the equals sign
'='
is provided in an interpolation expression, the text of the expression is appended to the literal string that precedes the relevant interpolation. This includes the equals sign and any surrounding whitespace. TheInterpolation
instance for the expression will be created as normal, except thatconversion
will be set to ‘r
’ (repr()
) by default. If an explicit conversion or format specifier are provided, this will override the default behaviour.
2.6. 숫자 리터럴¶
NUMBER
tokens represent numeric literals, of which there are
three types: integers, floating-point numbers, and imaginary numbers.
NUMBER:integer
|floatnumber
|imagnumber
The numeric value of a numeric literal is the same as if it were passed as a
string to the int
, float
or complex
class
constructor, respectively.
Note that not all valid inputs for those constructors are also valid literals.
Numeric literals do not include a sign; a phrase like -1
is
actually an expression composed of the unary operator ‘-
’ and the literal
1
.
2.6.1. 정수 리터럴¶
Integer literals denote whole numbers. For example:
7
3
2147483647
There is no limit for the length of integer literals apart from what can be stored in available memory:
7922816251426433759354395033679228162514264337593543950336
Underscores can be used to group digits for enhanced readability, and are ignored for determining the numeric value of the literal. For example, the following literals are equivalent:
100_000_000_000
100000000000
1_00_00_00_00_000
Underscores can only occur between digits.
For example, _123
, 321_
, and 123__321
are not valid literals.
Integers can be specified in binary (base 2), octal (base 8), or hexadecimal
(base 16) using the prefixes 0b
, 0o
and 0x
, respectively.
Hexadecimal digits 10 through 15 are represented by letters A
-F
,
case-insensitive. For example:
0b100110111
0b_1110_0101
0o177
0o377
0xdeadbeef
0xDead_Beef
An underscore can follow the base specifier.
For example, 0x_1f
is a valid literal, but 0_x1f
and 0x__1f
are
not.
Leading zeros in a non-zero decimal number are not allowed.
For example, 0123
is not a valid literal.
This is for disambiguation with C-style octal literals, which Python used
before version 3.0.
Formally, integer literals are described by the following lexical definitions:
integer:decinteger
|bininteger
|octinteger
|hexinteger
|zerointeger
decinteger:nonzerodigit
(["_"]digit
)* bininteger: "0" ("b" | "B") (["_"]bindigit
)+ octinteger: "0" ("o" | "O") (["_"]octdigit
)+ hexinteger: "0" ("x" | "X") (["_"]hexdigit
)+ zerointeger: "0"+ (["_"] "0")* nonzerodigit: "1"..."9" digit: "0"..."9" bindigit: "0" | "1" octdigit: "0"..."7" hexdigit:digit
| "a"..."f" | "A"..."F"
버전 3.6에서 변경: 리터럴에서 숫자들의 그룹을 표현할 목적으로 밑줄을 허락합니다.
2.6.2. 실수 리터럴¶
Floating-point (float) literals, such as 3.14
or 1.5
, denote
approximations of real numbers.
They consist of integer and fraction parts, each composed of decimal digits.
The parts are separated by a decimal point, .
:
2.71828
4.0
Unlike in integer literals, leading zeros are allowed in the numeric parts.
For example, 077.010
is legal, and denotes the same number as 77.10
.
As in integer literals, single underscores may occur between digits to help readability:
96_485.332_123
3.14_15_93
Either of these parts, but not both, can be empty. For example:
10. # (equivalent to 10.0)
.001 # (equivalent to 0.001)
Optionally, the integer and fraction may be followed by an exponent:
the letter e
or E
, followed by an optional sign, +
or -
,
and a number in the same format as the integer and fraction parts.
The e
or E
represents “times ten raised to the power of”:
1.0e3 # (represents 1.0×10³, or 1000.0)
1.166e-5 # (represents 1.166×10⁻⁵, or 0.00001166)
6.02214076e+23 # (represents 6.02214076×10²³, or 602214076000000000000000.)
In floats with only integer and exponent parts, the decimal point may be omitted:
1e3 # (equivalent to 1.e3 and 1.0e3)
0e0 # (equivalent to 0.)
Formally, floating-point literals are described by the following lexical definitions:
floatnumber: |digitpart
"." [digitpart
] [exponent
] | "."digitpart
[exponent
] |digitpart
exponent
digitpart:digit
(["_"]digit
)* exponent: ("e" | "E") ["+" | "-"]digitpart
버전 3.6에서 변경: 리터럴에서 숫자들의 그룹을 표현할 목적으로 밑줄을 허락합니다.
2.6.3. 허수 리터럴¶
Python has complex number objects, but no complex literals. Instead, imaginary literals denote complex numbers with a zero real part.
For example, in math, the complex number 3+4.2i is written
as the real number 3 added to the imaginary number 4.2i.
Python uses a similar syntax, except the imaginary unit is written as j
rather than i:
3+4.2j
This is an expression composed
of the integer literal 3
,
the operator ‘+
’,
and the imaginary literal 4.2j
.
Since these are three separate tokens, whitespace is allowed between them:
3 + 4.2j
No whitespace is allowed within each token.
In particular, the j
suffix, may not be separated from the number
before it.
The number before the j
has the same syntax as a floating-point literal.
Thus, the following are valid imaginary literals:
4.2j
3.14j
10.j
.001j
1e100j
3.14e-10j
3.14_15_93j
Unlike in a floating-point literal the decimal point can be omitted if the imaginary number only has an integer part. The number is still evaluated as a floating-point number, not an integer:
10j
0j
1000000000000000000000000j # equivalent to 1e+24j
The j
suffix is case-insensitive.
That means you can use J
instead:
3.14J # equivalent to 3.14j
Formally, imaginary literals are described by the following lexical definition:
imagnumber: (floatnumber
|digitpart
) ("j" | "J")
2.7. Operators and delimiters¶
The following grammar defines operator and delimiter tokens,
that is, the generic OP
token type.
A list of these tokens and their names
is also available in the token
module documentation.
OP: | assignment_operator | bitwise_operator | comparison_operator | enclosing_delimiter | other_delimiter | arithmetic_operator | "..." | other_op assignment_operator: "+=" | "-=" | "*=" | "**=" | "/=" | "//=" | "%=" | "&=" | "|=" | "^=" | "<<=" | ">>=" | "@=" | ":=" bitwise_operator: "&" | "|" | "^" | "~" | "<<" | ">>" comparison_operator: "<=" | ">=" | "<" | ">" | "==" | "!=" enclosing_delimiter: "(" | ")" | "[" | "]" | "{" | "}" other_delimiter: "," | ":" | "!" | ";" | "=" | "->" arithmetic_operator: "+" | "-" | "**" | "*" | "//" | "/" | "%" other_op: "." | "@"
참고
Generally, operators are used to combine expressions, while delimiters serve other purposes. However, there is no clear, formal distinction between the two categories.
Some tokens can serve as either operators or delimiters, depending on usage.
For example, *
is both the multiplication operator and a delimiter used
for sequence unpacking, and @
is both the matrix multiplication and
a delimiter that introduces decorators.
For some tokens, the distinction is unclear.
For example, some people consider .
, (
, and )
to be delimiters, while others
see the getattr()
operator and the function call operator(s).
Some of Python’s operators, like and
, or
, and not in
, use
keyword tokens rather than “symbols” (operator tokens).
A sequence of three consecutive periods (...
) has a special
meaning as an Ellipsis
literal.
2.1.3. 주석¶
주석은 문자열 리터럴에 포함되지 않는 해시 문자(
#
)로 시작하고 물리적인 줄의 끝에서 끝납니다. 묵시적인 줄 결합 규칙이 유효하지 않은 이상, 주석은 논리적인 줄을 종료시킵니다. 주석은 문법이 무시합니다.