2. Análise léxica

Um programa Python é lido por um analisador. A entrada para o analisador é um fluxo de tokens, gerados pelo analisador léxico (também conhecido como tokenizador). Este capítulo descreve como o analisador léxico produz esses tokens.

The lexical analyzer determines the program text’s encoding (UTF-8 by default), and decodes the text into source characters. If the text cannot be decoded, a SyntaxError is raised.

Next, the lexical analyzer uses the source characters to generate a stream of tokens. The type of a generated token generally depends on the next source character to be processed. Similarly, other special behavior of the analyzer depends on the first source character that hasn’t yet been processed. The following table gives a quick summary of these source characters, with links to sections that contain more information.

Caractere

Next token (or other relevant documentation)

  • espaço

  • tabulação

  • formfeed

  • CR, LF

  • backslash (\)

  • hash (#)

  • quote (', ")

  • ASCII letter (a-z, A-Z)

  • non-ASCII character

  • underscore (_)

  • number (0-9)

  • dot (.)

  • question mark (?)

  • dollar ($)

  • crase ou backquote (​`​)

  • control character

  • Error (outside string literals and comments)

  • other printing character

  • end of file

2.1. Estrutura das linhas

Um programa Python é dividido em uma série de linhas lógicas.

2.1.1. Linhas lógicas

O fim de uma linha lógica é representado pelo token NEWLINE. As instruções não podem cruzar os limites da linha lógica, exceto onde NEWLINE for permitido pela sintaxe (por exemplo, entre as instruções de instruções compostas). Uma linha lógica é construída a partir de uma ou mais linhas físicas seguindo as regras explícitas ou implícitas que juntam as linhas.

2.1.2. Linhas físicas

Uma linha física é uma sequência de caracteres terminada por uma das seguintes sequências de fim de linha:

  • o formulário Unix usando ASCII LF (avanço de linha),

  • o formulário do Windows usando a sequência ASCII CR LF (retorno seguido de avanço de linha),

  • o formato ‘Classic Mac OS’ usando o caractere ASCII CR (retorno).

Independentemente da plataforma, cada uma dessas sequências é substituída por um único caractere ASCII LF (avanço de linha). (Isso é feito até mesmo dentro de literais de string.) Cada linha pode usar qualquer uma das sequências; elas não precisam ser consistentes dentro de um arquivo.

O fim da entrada também serve como um terminador implícito para a linha física final.

Formalmente:

newline: <ASCII LF> | <ASCII CR> <ASCII LF> | <ASCII CR>

2.1.3. Comentários

Um comentário inicia com um caracter cerquilha (#) que não é parte de uma string literal, e termina com o fim da linha física. Um comentário significa o fim da linha lógica a menos que regras de junção de linha implicitas sejam invocadas. Comentários são ignorados pela sintaxe.

2.1.4. Declarações de codificação

Se um comentário na primeira ou segunda linha de um script Python corresponde com a expressão regular coding[=:]\s*([-\w.]+), esse comentário é processado com uma declaração de codificação; o primeiro grupo dessa expressão indica a codificação do arquivo do código-fonte. A declaração de codificação deve aparecer em uma linha exclusiva para tal. Se está na segunda linha, a primeira linha também deve ser uma linha somente com comentário. As formas recomendadas de uma declaração de codificação são:

# -*- coding: <nome-codificação> -*-

que é reconhecido também por GNU Emacs, e

# vim:fileencoding=<nome-codificação>

que é reconhecido pelo VIM de Bram Moolenaar.

Se nenhuma codificação é declarada, a codificação padrão é UTF-8. Se a codificação implícita ou explícita de um arquivo é UTF-8, uma marca inicial de ordem de byte UTF-8 (b'\xef\xbb\xbf') será ignorada em vez de ser um erro de sintaxe.

Se uma codificação é declarada, o nome da codificação deve ser reconhecida pelo Python (veja Standard Encodings). A codificação é usada por toda análise léxica, incluindo literais strings, comment and identificadores.

Toda a análise lexical, incluindo literais de string, comentários e identificadores, funciona em texto Unicode decodificado usando a codificação de origem. Qualquer ponto de código Unicode, exceto o caractere de controle NUL, pode aparecer no código-fonte Python.

source_character:  <any Unicode code point, except NUL>

2.1.5. Junção de linha explícita

Duas ou mais linhas físicas podem ser juntadas em linhas lógicas usando o caractere contrabarra (\) da seguinte forma: quando uma linha física termina com uma contrabarra que não é parte da uma literal string ou comentário, ela é juntada com a linha seguinte formando uma única linha lógica, removendo a contrabarra e o caractere de fim de linha seguinte. Por exemplo:

if 1900 < year < 2100 and 1 <= month <= 12 \
   and 1 <= day <= 31 and 0 <= hour < 24 \
   and 0 <= minute < 60 and 0 <= second < 60:   # Parece ser uma data válida
        return 1

Uma linha terminada em uma contrabarra não pode conter um comentário. Uma barra invertida não continua um comentário. Uma contrabarra não continua um token, exceto para strings literais (ou seja, tokens diferentes de strings literais não podem ser divididos em linhas físicas usando uma contrabarra). Uma contrabarra é ilegal em qualquer outro lugar em uma linha fora de uma string literal.

2.1.6. Junção de linha implícita

Expressões entre parênteses, colchetes ou chaves podem ser quebradas em mais de uma linha física sem a necessidade do uso de contrabarras. Por exemplo:

month_names = ['Januari', 'Februari', 'Maart',      # Estes são os
               'April',   'Mei',      'Juni',       # nomes holandeses
               'Juli',    'Augustus', 'September',  # para os meses
               'Oktober', 'November', 'December']   # do ano

Linhas continuadas implicitamente podem conter comentários. O recuo das linhas de continuação não é importante. Linhas de continuação em branco são permitidas. Não há token NEWLINE entre linhas de continuação implícitas. Linhas continuadas implicitamente também podem ocorrer dentro de strings com aspas triplas (veja abaixo); nesse caso, eles não podem conter comentários.

2.1.7. Linhas em branco

Uma linha lógica que contém apenas espaços, tabulações, quebras de página e possivelmente um comentário é ignorada (ou seja, nenhum token NEWLINE é gerado). Durante a entrada interativa de instruções, o tratamento de uma linha em branco pode diferir dependendo da implementação do interpretador. No interpretador interativo padrão, uma linha lógica totalmente em branco (ou seja, uma que não contenha nem mesmo espaço em branco ou um comentário) encerra uma instrução multilinha.

2.1.8. Indentação

O espaço em branco (espaços e tabulações) no início de uma linha lógica é usado para calcular o nível de indentação da linha, que por sua vez é usado para determinar o agrupamento de instruções.

As tabulações são substituídas (da esquerda para a direita) por um a oito espaços, de modo que o número total de caracteres até e incluindo a substituição seja um múltiplo de oito (essa é intencionalmente a mesma regra usada pelo Unix). O número total de espaços que precedem o primeiro caractere não em branco determina o recuo da linha. O recuo não pode ser dividido em várias linhas físicas usando contrabarra; o espaço em branco até a primeira contrabarra determina a indentação.

A indentação é rejeitada como inconsistente se um arquivo de origem mistura tabulações e espaços de uma forma que torna o significado dependente do valor de uma tabulação em espaços; uma exceção TabError é levantada nesse caso.

Nota de compatibilidade entre plataformas: devido à natureza dos editores de texto em plataformas não-UNIX, não é aconselhável usar uma mistura de espaços e tabulações para o recuo em um único arquivo de origem. Deve-se notar também que diferentes plataformas podem limitar explicitamente o nível máximo de indentação.

Um caractere de quebra de página pode estar presente no início da linha; ele será ignorado para os cálculos de indentação acima. Os caracteres de quebra de página que ocorrem em outro lugar além do espaço em branco inicial têm um efeito indefinido (por exemplo, eles podem redefinir a contagem de espaços para zero).

Os níveis de indentação das linhas consecutivas são usados para gerar tokens INDENT e DEDENT, usando uma pilha, como segue.

Antes da leitura da primeira linha do arquivo, um único zero é colocado na pilha; isso nunca mais será exibido. Os números colocados na pilha sempre aumentarão estritamente de baixo para cima. No início de cada linha lógica, o nível de indentação da linha é comparado ao topo da pilha. Se for igual, nada acontece. Se for maior, ele é colocado na pilha e um token INDENT é gerado. Se for menor, deve ser um dos números que aparecem na pilha; todos os números maiores na pilha são retirados e, para cada número retirado, um token DEDENT é gerado. Ao final do arquivo, um token DEDENT é gerado para cada número restante na pilha que seja maior que zero.

Aqui está um exemplo de um trecho de código Python indentado corretamente (embora confuso):

def perm(l):
        # Calcula a lista de todas as permutações de l
    if len(l) <= 1:
                  return [l]
    r = []
    for i in range(len(l)):
             s = l[:i] + l[i+1:]
             p = perm(s)
             for x in p:
              r.append(l[i:i+1] + x)
    return r

O exemplo a seguir mostra vários erros de indentação:

 def perm(l):                       # erro: primeira linha indentada
for i in range(len(l)):             # erro: não indentada
    s = l[:i] + l[i+1:]
        p = perm(l[:i] + l[i+1:])   # erro: indentação inesperada
        for x in p:
                r.append(l[i:i+1] + x)
            return r                # erro: desindentação inconsistente

(Na verdade, os três primeiros erros são detectados pelo analisador sintático; apenas o último erro é encontrado pelo analisador léxico — o recuo de não corresponde a um nível retirado da pilha.)

2.1.9. Espaços em branco entre tokens

Exceto no início de uma linha lógica ou em string literais, os caracteres de espaço em branco (espaço, tabulação e quebra de página) podem ser usados alternadamente para separar tokens. O espaço em branco é necessário entre dois tokens somente se sua concatenação puder ser interpretada como um token diferente (por exemplo, ab é um token, mas a b são dois tokens). Entretanto, +a e + a produzem dois tokens, + e a, pois +a não é um token válido.

2.1.10. Marcador de fim

No final da entrada não interativa, o analisador léxico gera um token ENDMARKER.

2.2. Outros tokens

Além de NEWLINE, INDENT e DEDENT, existem as seguintes categorias de tokens: identificadores, palavras-chave (NAME), literais (tal como NUMBER e STRING) e outros símbolos (operadores e delimitadores, OP). Caracteres de espaço em branco (exceto terminadores lógicos de linha, discutidos anteriormente) não são tokens, mas servem para delimitar tokens. Onde existe ambiguidade, um token compreende a string mais longa possível que forma um token legal, quando lido da esquerda para a direita.

2.3. Nomes (identificadores e palavras reservadas)

Tokens NAME representam identificadores, palavras reservadas e palavras reservadas contextuais.

Dentro do intervalo ASCII (U+0001..U+007F), os caracteres válidos para nomes incluem letras maiúsculas e minúsculas (A-Z e a-z), o sublinhado _ e, exceto pelo primeiro caractere, os dígitos 0 a 9.

Os nomes devem conter pelo menos um caractere, mas não há limite máximo de tamanho. Maiúsculas e minúsculas são relevantes.

Além de A-Z, a-z, _ e 0-9, os nomes também podem usar caracteres “letras ou similares” e “números ou similares” de fora do intervalo ASCII, conforme detalhado abaixo.

Todos os identificadores são convertidos no formato normal NFKC durante a análise; a comparação de identificadores é baseada no NFKC.

Formalmente, o primeiro caractere de um identificador normalizado deve pertencer ao conjunto id_start, que é a união de:

  • Categoria Unicode <Lu> - letras maiúsculas (inclui A a Z)

  • Categoria Unicode <Ll> - letras minúsculas (inclui a a z)

  • Categoria Unicode <Lt> - letras em titlecase (coloca em maiúsculo a primeira letra de cada palavra principal)

  • Categoria Unicode <Lm> - letras modificadoras

  • Categoria Unicode <Lo> - outras letras

  • Categoria Unicode <Nl> - números de letras

  • {"_"} - o underscore (sublinhado)

  • <Other_ID_Start> - um conjunto explícito de caracteres em PropList.txt para oferecer suporte à retrocompatibilidade

Os caracteres restantes devem pertencer ao conjunto id_continue, que é a união de:

  • todos os caracteres em id_start

  • Categoria Unicode <Nd> - números decimais (inclui 0 a 9)

  • Categoria Unicode <Pc> - pontuações de conectores

  • Categoria Unicode <Mn> - marcas sem espaçamento

  • Categoria Unicode <Mc> - espaçamento combinando marcas

  • <Other_ID_Continue> - outro conjunto explícito de caracteres em PropList.txt para oferecer suporte à retrocompatibilidade

As categorias Unicode usam a versão do Unicode Character Database (em português, banco de dados de caracteres Unicode) incluída no módulo unicodedata.

Esses conjuntos são baseados no anexo padrão Unicode UAX-31. Veja também PEP 3131 para mais detalhes.

De forma ainda mais formal, os nomes são descritos pelas seguintes definições lexicais:

NAME:         xid_start xid_continue*
id_start:     <Lu> | <Ll> | <Lt> | <Lm> | <Lo> | <Nl> | "_" | <Other_ID_Start>
id_continue:  id_start | <Nd> | <Pc> | <Mn> | <Mc> | <Other_ID_Continue>
xid_start:    <all characters in id_start whose NFKC normalization is
               in (id_start xid_continue*)">
xid_continue: <all characters in id_continue whose NFKC normalization is
               in (id_continue*)">
identifier:   <NAME, except keywords>

Uma lista não normativa de todos os caracteres identificadores válidos, conforme definido pelo Unicode, está disponível no arquivo DerivedCoreProperties.txt no Unicode Character Database.

2.3.1. Palavras reservadas

Os nomes a seguir são usados como palavras reservadas e não podem ser usados como identificadores comuns. Eles devem ser escritos exatamente como estão escritos aqui:

False      await      else       import     pass
None       break      except     in         raise
True       class      finally    is         return
and        continue   for        lambda     try
as         def        from       nonlocal   while
assert     del        global     not        with
async      elif       if         or         yield

2.3.2. Palavras reservadas contextuais

Adicionado na versão 3.10.

Alguns nomes são reservados apenas em contextos específicos. São conhecidos como palavras reservadas contextuais:

  • match, case e _, quando usados na instrução match.

  • type, quando usado na instrução type.

Elas agem sintaticamente como palavra reservada em seus contextos específicos, mas essa distinção é feita no nível do analisador sintático, não na tokenização.

Como palavras reservadas contextuais, seu uso na gramática é possível preservando a compatibilidade com o código existente que usa esses nomes como identificadores.

Alterado na versão 3.12: type é agora uma palavra reservada contextual.

2.3.3. Classes reservadas de identificadores

Certas classes de identificadores (além de palavras reservadas) possuem significados especiais. Essas classes são identificadas pelos padrões de caracteres de sublinhado iniciais e finais:

_*

Não importado por from module import *.

_

Em um padrão case de uma instrução match, _ é uma palavra reservada contextual que denota um curinga.

Isoladamente, o interpretador interativo disponibiliza o resultado da última avaliação na variável _. (Ele é armazenado no módulo builtins, juntamente com funções embutidas como print.)

Em outros lugares, _ é um identificador comum. Muitas vezes é usado para nomear itens “especiais”, mas não é especial para o Python em si.

Nota

O nome _ é frequentemente usado em conjunto com internacionalização; consulte a documentação do módulo gettext para obter mais informações sobre esta convenção.

Também é comumente usado para variáveis não utilizadas.

__*__

Nomes definidos pelo sistema, informalmente conhecidos como nomes “dunder”. Esses nomes e suas implementações são definidos pelo interpretador (incluindo a biblioteca padrão). Os nomes de sistema atuais são discutidos na seção Nomes de métodos especiais e em outros lugares. Provavelmente mais nomes serão definidos em versões futuras do Python. Qualquer uso de nomes __*__, em qualquer contexto, que não siga o uso explicitamente documentado, está sujeito a quebra sem aviso prévio.

__*

Nomes de classes privadas. Os nomes nesta categoria, quando usados no contexto de uma definição de classe, são reescritos para usar uma forma desfigurada para ajudar a evitar conflitos de nomes entre atributos “privados” de classes base e derivadas. Consulte a seção Identificadores (Nomes).

2.4. Literais

Literais são notações para valores constantes de alguns tipos embutidos.

Em termos de análise lexical, Python tem literais de string, de bytes e numéricos.

Outros “literais” são denotados lexicamente usando palavra reservada (None, True, False) e o token de reticências especial (...).

2.5. Literais de string e bytes

Literais de string são textos entre aspas simples (') ou aspas duplas ("). Por exemplo:

"spam"
'eggs'

A aspa usada para iniciar o literal também o encerra, portanto, um literal de string só pode conter a outra aspa (exceto com sequências de escape, veja abaixo). Por exemplo:

'Diga "Olá", por favor.'
"Não faça isso!"

Exceto por essa limitação, a escolha do caractere de aspas (' ou ") não afeta como o literal é analisado.

Dentro de uma literal de string, o caractere de contrabarra (\) introduz uma sequência de escape , que tem um significado especial dependendo do caractere após a contrabarra. Por exemplo, `"`` denota o caractere de aspas duplas e não encerra a string:

>>> print("Diga \"Olá\" para todo mundo!")
Diga "Olá" para todo mundo!

Veja sequências de escape abaixo para uma lista completa dessas sequências e mais detalhes.

2.5.1. Strings entre aspas triplas

Strings também podem ser colocadas emgrupos correspondentes de três aspas simples ou duplas. Geralmente, elas são chamadas de strings entre aspas triplas:

"""Isso é uma string entre aspas triplas."""

Em literais com aspas triplas, aspas sem escape são permitidas (e são mantidas), exceto que três aspas sem escape seguidas encerram o literal, se forem do mesmo tipo (' ou ") usadas no início:

"""Essa string tem "aspas" dentro."""

Novas linhas sem escape também são permitidas e mantidas:

'''Essa string entre aspas triplas
continua na linha seguinte.'''

2.5.2. Prefixos de string

Literais de string podem ter um prefixo opcional que influencia como o conteúdo do literal é analisado, por exemplo:

b"data"
f'{result=}'

Os prefixos permitidos são:

Veja as seções vinculadas para obter detalhes sobre cada tipo.

Prefixos não diferenciam maiúsculas de minúsculas (por exemplo, ‘B’ funciona da mesma forma que ‘b’). O prefixo ‘r’ pode ser combinado com ‘f’, ‘t’ ou ‘b’, portanto, ‘fr’, ‘rf’, ‘tr’, ‘rt’, ‘br’ e ‘rb’ também são prefixos válidos.

Adicionado na versão 3.3: O prefixo 'rb' de literais de bytes brutos foi adicionado como sinônimo de 'br'.

O suporte para o literal legado unicode (u'value') foi reintroduzido para simplificar a manutenção de bases de código duplas Python 2.x e 3.x. Consulte PEP 414 para obter mais informações.

2.5.3. Gramática formal

Literais de string, exceto “f-strings” e “t-strings”, são descritos pelas seguintes definições lexicais.

Essas definições usam negative lookaheads (!) para indicar que uma aspa final encerra o literal.

STRING:          [stringprefix] (stringcontent)
stringprefix:    <("r" | "u" | "b" | "br" | "rb"), case-insensitive>
stringcontent:
   | "'''" ( !"'''" longstringitem)* "'''"
   | '"""' ( !'"""' longstringitem)* '"""'
   | "'" ( !"'" stringitem)* "'"
   | '"' ( !'"' stringitem)* '"'
stringitem:      stringchar | stringescapeseq
stringchar:      <any source_character, except backslash and newline>
longstringitem:  stringitem | newline
stringescapeseq: "\" <any source_character>

Observe que, como em todas as definições lexicais, os espaços em branco são significativos. Em particular, o prefixo (se houver) deve ser imediatamente seguido pela aspa inicial.

2.5.4. Sequências de escape

A menos que um prefixo ‘r’ ou ‘R’ esteja presente, as sequências de escape em literais de string e bytes são interpretadas de acordo com regras semelhantes àquelas usadas pelo Standard C. As sequências de escape reconhecidas são:

Sequência de escape

Significado

\<newline>

Fim de linha ignorado

\\

Contrabarra

\'

Aspa simples

\"

Aspas duplas

\a

ASCII Bell (BEL) - um sinal audível é emitido

\b

ASCII Backspace (BS) - apaga caractere à esquerda

\f

ASCII Formfeed (FF) - quebra de página

\n

ASCII Linefeed (LF) - quebra de linha

\r

ASCII Carriage Return (CR) - retorno de carro

\t

ASCII Horizontal Tab (TAB) - tabulação horizontal

\v

ASCII Vertical Tab (VT) - tabulação vertical

\ooo

Caractere octal

\xhh

Caractere hexadecimal

\N{name}

Caractere nomeado Unicode

\uxxxx

Caractere hexadecimal Unicode

\Uxxxxxxxx

Caractere hexadecimal Unicode

2.5.4.1. Fim de linha ignorado

Uma contrabarra pode ser adicionada ao fim da linha para ignorar a nova linha:

>>> 'Esta string não vai incluir \
... contrabarras e caracteres de nova linha.'
'Esta string não vai incluir contrabarras e caracteres de nova linha.'

O mesmo resultado pode ser obtido usando strings com aspas triplas, ou parênteses e concatenação de literal string.

2.5.4.2. Caracteres escapados

Para incluir uma contrabarra em um literal de string não-bruta Python, ela deve ser duplicada. A sequência de escape \\ denota um único caractere de contrabarra:

>>> print('C:\\Program Files')
C:\Program Files

Da mesma forma, as sequências \' e \" denotam os caracteres de aspas simples e duplas, respectivamente:

>>> print('\' e \"')
' e "

2.5.4.3. Caractere octal

A sequência \ooo denota um caractere com o valor octal (base 8) ooo:

>>> '\120'
'P'

São aceitos até três dígitos octais (0 a 7).

Em um literal de bytes, caractere significa um byte com o valor fornecido. Em um literal de string, significa um caractere Unicode com o valor fornecido.

Alterado na versão 3.11: Escapes octais com valor maior que 0o377 (255) produz uma DeprecationWarning.

Alterado na versão 3.12: Escapes octais com valor maior que 0o377 (255) produzem um SyntaxWarning. Em uma versão futura do Python eles eventualmente vão levantar um SyntaxError.

2.5.4.4. Caractere hexadecimal

A sequência \xhh denota um caractere com o valor hexa (base 16) hh:

>>> '\x50'
'P'

Ao contrário do padrão C, são necessários exatamente dois dígitos hexadecimais.

Em um literal de bytes, caractere significa um byte com o valor fornecido. Em um literal de string, significa um caractere Unicode com o valor fornecido.

2.5.4.5. Caractere nomeado Unicode

A sequência \N{nome} denota um caractere Unicode com o nome fornecido:

>>> '\N{LATIN CAPITAL LETTER P}'
'P'
>>> '\N{SNAKE}'
'🐍'

Esta sequência não pode aparecer em literais de bytes.

Alterado na versão 3.3: Foi adicionado suporte para apelidos de nomes.

2.5.4.6. Caracteres hexadecimais Unicode

As sequências \uxxxx e \Uxxxxxxxx denotam o caractere Unicode com o valor hexadecimal fornecido (base 16). São necessários exatamente quatro dígitos para \u; são necessários exatamente oito dígitos para \U. Este último pode codificar qualquer caractere Unicode.

>>> '\u1234'
'ሴ'
>>> '\U0001f40d'
'🐍'

Estas sequências não pode aparecer em literais de bytes.

2.5.4.7. Sequências de espace não reconhecidas

Diferentemente do Standard C, todas as sequências de escape não reconhecidas são deixadas na string inalteradas, ou seja, a contrabarra é deixada no resultado:

>>> print('\q')
\q
>>> list('\q')
['\\', 'q']

Observe que, para literais de bytes, as sequências de escape reconhecidas apenas em literais de string (\N..., \u..., \U...) se enquadram na categoria de escapes não reconhecidos.

Alterado na versão 3.6: Sequências de escape não reconhecidas produzem um DeprecationWarning.

Alterado na versão 3.12: Sequências de escape não reconhecidas produzem um SyntaxWarning. Em uma versão futura do Python eles vão levantar um SyntaxError.

2.5.5. Literais de bytes

Literais de bytes são sempre prefixados com ‘b’ ou ‘B’; eles produzem uma instância do tipo bytes em vez do tipo str. Eles podem conter apenas caracteres ASCII; bytes com valor numérico igual ou superior a 128 devem ser expressos com sequências de escape (normalmente Caractere hexadecimal ou Caractere octal):

>>> b'\x89PNG\r\n\x1a\n'
b'\x89PNG\r\n\x1a\n'
>>> list(b'\x89PNG\r\n\x1a\n')
[137, 80, 78, 71, 13, 10, 26, 10]

Da mesma forma, um byte zero deve ser expresso usando uma sequência de escape (normalmente \0 ou \x00).

2.5.6. Literais de string brutas

Literais de string e bytes podem opcionalmente ser prefixados com uma letra ‘r’ ou ‘R’; tais construções são chamadas de literais de strings brutas e literais de bytes brutos tratam as contrabarras como caracteres literais. Como resultado, em literais de string bruta, as sequências de escape não são tratados de maneira especial.

>>> r'\d{4}-\d{2}-\d{2}'
'\\d{4}-\\d{2}-\\d{2}'

Mesmo em um literal bruto, as aspas podem ser escapadas com uma contrabarra, mas a barra invertida permanece no resultado; por exemplo, r"\"" é uma literal de string válida que consiste em dois caracteres: uma contrabarra e aspas duplas; r"\" não é uma literal de string válida (mesmo uma string bruta não pode terminar em um número ímpar de contrabarras). Especificamente, um literal bruto não pode terminar em uma única contrabarra (já que a contrabarra escaparia do seguinte caractere de aspas). Observe também que uma única contrabarra seguida por uma nova linha é interpretada como esses dois caracteres como parte do literal, não como uma continuação de linha.

2.5.7. Literais de strings formatadas

Adicionado na versão 3.6.

Um literal de string formatada ou f-string é uma literal de string prefixado com ‘f’ ou ‘F’. Essas strings podem conter campos de substituição, que são expressões delimitadas por chaves {}. Embora outros literais de string sempre tenham um valor constante, strings formatadas são, na verdade, expressões avaliadas em tempo de execução.

As sequências de escape são decodificadas como em literais de string comuns (exceto quando um literal também é marcado como uma string bruta). Após a decodificação, a gramática do conteúdo da string é:

f_string:          (literal_char | "{{" | "}}" | replacement_field)*
replacement_field: "{" f_expression ["="] ["!" conversion] [":" format_spec] "}"
f_expression:      (conditional_expression | "*" or_expr)
                     ("," conditional_expression | "," "*" or_expr)* [","]
                   | yield_expression
conversion:        "s" | "r" | "a"
format_spec:       (literal_char | replacement_field)*
literal_char:      <any code point except "{", "}" or NULL>

As partes da string fora das chaves são tratadas literalmente, exceto que quaisquer chaves duplas '{{' ou '}}' são substituídas pela chave única correspondente. Uma única chave de abertura '{' marca um campo de substituição, que começa com uma expressão Python. Para exibir o texto da expressão e seu valor após a avaliação (útil na depuração), um sinal de igual '=' pode ser adicionado após a expressão. Um campo de conversão, introduzido por um ponto de exclamação '!', pode vir a seguir. Um especificador de formato também pode ser anexado, introduzido por dois pontos ':'. Um campo de substituição termina com uma chave de fechamento '}'.

Expressões em literais de strings formatadas são tratadas como expressões regulares do Python entre parênteses, com algumas exceções. Uma expressão vazia não é permitida e as expressões lambda e de atribuição := devem ser colocadas entre parênteses explícitos. Cada expressão é avaliada no contexto onde o literal de string formatada aparece, na ordem da esquerda para a direita. As expressões de substituição podem conter novas linhas em f-strings tanto entre aspas simples quanto em triplas e podem conter comentários. Tudo o que vem depois de um # dentro de um campo de substituição é um comentário (até mesmo chaves e aspas). Nesse caso, os campos de substituição deverão ser fechados em uma linha diferente.

>>> f"abc{a # Este é um comentário }"
... + 3}"
'abc5'

Alterado na versão 3.7: Antes do Python 3.7, uma expressão await e compreensões contendo uma cláusula async for eram ilegais nas expressões em literais de strings formatadas devido a um problema com a implementação.

Alterado na versão 3.12: Antes do Python 3.12, comentários não eram permitidos dentro de campos de substituição em f-strings.

Quando o sinal de igual '=' for fornecido, a saída terá o texto da expressão, o '=' e o valor avaliado. Os espaços após a chave de abertura '{', dentro da expressão e após '=' são todos preservados na saída. Por padrão, '=' faz com que repr() da expressão seja fornecida, a menos que haja um formato especificado. Quando um formato é especificado, o padrão é o str() da expressão, a menos que uma conversão '!r' seja declarada.

Adicionado na versão 3.8: O sinal de igual '='.

Se uma conversão for especificada, o resultado da avaliação da expressão será convertido antes da formatação. A conversão '!s' chama str() no resultado, '!r' chama repr() e '!a' chama ascii().

O resultado é então formatado usando o protocolo format(). O especificador de formato é passado para o método __format__() da expressão ou resultado da conversão. Uma string vazia é passada quando o especificador de formato é omitido. O resultado formatado é então incluído no valor final de toda a string.

Os especificadores de formato de nível superior podem incluir campos de substituição aninhados. Esses campos aninhados podem incluir seus próprios campos de conversão e especificadores de formato, mas podem não incluir campos de substituição aninhados mais profundamente. A minilinguagem do especificador de formato é a mesma usada pelo método str.format().

Literais de strings formatadas podem ser concatenados, mas os campos de substituição não podem ser divididos entre literais.

Alguns exemplos de literais de string formatada:

>>> nome = "Fred"
>>> f"Ele falou que o nome dele é {nome!r}."
"Ele falou que o nome dele é 'Fred'."
>>> f"Ele falou que o nome dele é {repr(nome)}."  # repr() é um equivalente a !r
"Ele falou que o nome dele é 'Fred'."
>>> largura = 10
>>> precisão = 4
>>> valor = decimal.Decimal("12.34567")
>>> f"resultado: {valor:{largura}.{precisão}}"  # campos aninhados
'resultado: 12.35'
>>> hoje = datetime(year=2017, month=1, day=27)
>>> f"{hoje:%B %d, %Y}"  # usando especificador de formato de data
'January 27, 2017'
>>> f"{hoje=:%B %d, %Y}"  # usando especificador de formato de data e depuração
'hoje=January 27, 2017'
>>> número = 1024
>>> f"{número:#0x}"  # usando especificador de formato de número inteiro
'0x400'
>>> foo = "bar"
>>> f"{ foo = }"  # preserva espaço em branco
" foo = 'bar'"
>>> linha = "Olha a caixa d'água"
>>> f"{linha = }"
'linha = "Olha a caixa d\'água"'
>>> f"{linha = :20}"
"linha = Olha a caixa d'água "
>>> f"{linha = !r:20}"
'linha = "Olha a caixa d\'água"'

É permitido reutilizar o tipo de aspas externas da f-string dentro de um campo de substituição:

>>> a = dict(x=2)
>>> f"abc {a["x"]} def"
'abc 2 def'

Alterado na versão 3.12: Antes do Python 3.12, a reutilização do mesmo tipo de aspas externas da f-string dentro de um campo de substituição não era possível.

Contrabarras também são permitidas em campos de substituição e são avaliadas da mesma forma que em qualquer outro contexto:

>>> a = ["a", "b", "c"]
>>> print(f"A lista a contém:\n{"\n".join(a)}")
A lista a contém:
a
b
c

Alterado na versão 3.12: Antes do Python 3.12, contrabarras não eram permitidas dentro de um campo de substituição em uma f-string.

Literais de strings formatadas não podem ser usados como strings de documentação, mesmo que não incluam expressões.

>>> def foo():
...     f"Não é uma docstring"
...
>>> foo.__doc__ is None
True

Consulte também PEP 498 para a proposta que adicionou literais de strings formatadas e str.format(), que usa um mecanismo de string de formato relacionado.

2.5.8. Literais de strings templates (t-strings)

Adicionado na versão 3.14.

Uma literal de string template ou t-string é uma literal de string que é prefixada com ‘t’ ou ‘T’. Essas strings seguem a mesma sintaxe e regras de avaliação que literais de string formatada, com as seguintes diferenças:

  • Em vez de serem avaliados como um objeto str, os literais de string template são avaliados como um objeto string.templatelib.Template.

  • O protocolo format() não é usado. Em vez disso, o especificador de formato e conversões (se houver alguma) são passados para um novo objeto Interpolation que é criado para cada expressão avaliada. Cabe ao código que processa o objeto Template resultante decidir como tratar especificadores de formato e conversões.

  • Format specifiers containing nested replacement fields are evaluated eagerly, prior to being passed to the Interpolation object. For instance, an interpolation of the form {amount:.{precision}f} will evaluate the inner expression {precision} to determine the value of the format_spec attribute. If precision were to be 2, the resulting format specifier would be '.2f'.

  • When the equals sign '=' is provided in an interpolation expression, the text of the expression is appended to the literal string that precedes the relevant interpolation. This includes the equals sign and any surrounding whitespace. The Interpolation instance for the expression will be created as normal, except that conversion will be set to ‘r’ (repr()) by default. If an explicit conversion or format specifier are provided, this will override the default behaviour.

2.6. Literais numéricos

Tokens NUMBER representam literais numéricos, dos quais existem três tipos: inteiros, números de ponto flutuante e números imaginários.

NUMBER: integer | floatnumber | imagnumber

O valor numérico de um literal numérico é o mesmo que seria se fosse passado como uma string para os construtores de classe int, float ou complex, respectivamente. Observe que nem todas as entradas válidas para esses construtores também são literais válidos.

Literais numéricos não incluem um sinal; uma frase como -1 é, na verdade, uma expressão composta pelo operador unário ‘-’ e o literal 1.

2.6.1. Inteiros literais

Literais inteiros denotam números inteiros. Por exemplo:

7
3
2147483647

Não há limite para o comprimento de literais inteiros, exceto o que pode ser armazenado na memória disponível:

7922816251426433759354395033679228162514264337593543950336

Sublinhados podem ser usados para agrupar dígitos para melhor legibilidade e são ignorados para determinar o valor numérico do literal. Por exemplo, os seguintes literais são equivalentes:

100_000_000_000
100000000000
1_00_00_00_00_000

Sublinhados só podem ocorrer entre dígitos. Por exemplo, _123, 321_ e 123__321 não são literais válidos.

Os números inteiros podem ser especificados em binário (base 2), octal (base 8) ou hexadecimal (base 16) usando os prefixos 0b, 0o e 0x, respectivamente. Os dígitos hexadecimais de 10 a 15 são representados pelas letras A-F, sem distinção entre maiúsculas e minúsculas. Por exemplo:

0b100110111
0b_1110_0101
0o177
0o377
0xdeadbeef
0xDead_Beef

Um sublinhado pode seguir o especificador base. Por exemplo, 0x_1f é um literal válido, mas 0_x1f e 0x__1f não são.

Zeros à esquerda em um número decimal diferente de zero não são permitidos. Por exemplo, 0123 não é um literal válido. Isso serve para desambiguação com literais octais no estilo C, que o Python usava antes da versão 3.0.

Formalmente, literais inteiros são descritos pelas seguintes definições lexicais:

integer:      decinteger | bininteger | octinteger | hexinteger | zerointeger
decinteger:   nonzerodigit (["_"] digit)*
bininteger:   "0" ("b" | "B") (["_"] bindigit)+
octinteger:   "0" ("o" | "O") (["_"] octdigit)+
hexinteger:   "0" ("x" | "X") (["_"] hexdigit)+
zerointeger:  "0"+ (["_"] "0")*
nonzerodigit: "1"..."9"
digit:        "0"..."9"
bindigit:     "0" | "1"
octdigit:     "0"..."7"
hexdigit:     digit | "a"..."f" | "A"..."F"

Alterado na versão 3.6: Os sublinhados agora são permitidos para fins de agrupamento de literais.

2.6.2. Literais de ponto flutuante

Literais de ponto flutuante (float), como 3.14 ou 1.5, denotam aproximações de números reais.

Eles consistem em partes inteiras e fracionárias, cada uma composta por dígitos decimais. As partes são separadas por um ponto decimal, .:

2.71828
4.0

Ao contrário dos literais inteiros, zeros à esquerda são permitidos nas partes numéricas. Por exemplo, 077.010 é válido e denota o mesmo número que 77.10.

Assim como em literais inteiros, sublinhados simples podem ocorrer entre dígitos para ajudar na legibilidade:

96_485.332_123
3.14_15_93

Qualquer uma dessas partes, mas não ambas, pode estar vazia. Por exemplo:

10.  # (equivalente a 10.0)
.001  # (equivalente a 0.001)

Opcionalmente, o inteiro e a fração podem ser seguidos por um expoente: a letra e ou E, seguida por um sinal opcional, + ou -, e um número no mesmo formato das partes inteira e fracionária. O e ou E representa “dez vezes elevado à potência de”:

1.0e3  # (representa 1.0×10³ ou 1000.0)
1.166e-5  # (representa 1.166×10⁻⁵ ou 0.00001166)
6.02214076e+23  # (representa 6.02214076×10²³ ou 602214076000000000000000.)

Em floats com apenas partes inteiras e expoentes, o ponto decimal pode ser omitido:

1e3  # (equivalente a 1.e3 e 1.0e3)
0e0  # (equivalente a 0.)

Formalmente, literais de ponto flutuante são descritos pelas seguintes definições léxicas:

floatnumber:
   | digitpart "." [digitpart] [exponent]
   | "." digitpart [exponent]
   | digitpart exponent
digitpart: digit (["_"] digit)*
exponent:  ("e" | "E") ["+" | "-"] digitpart

Alterado na versão 3.6: Os sublinhados agora são permitidos para fins de agrupamento de literais.

2.6.3. Literais imaginários

Python possui objetos número complexo, mas não possui literais complexos. Em vez disso, literais imaginários denotam números complexos com parte real zero.

Por exemplo, na matemática, o número complexo 3+4.2i é escrito como o número real 3 somado ao número imaginário 4.2i. Python usa uma sintaxe semelhante, exceto que a unidade imaginária é escrita como j em vez de i:

3+4.2j

Esta é uma expressão composta pelo literal inteiro 3, o operador+’ e o literal imaginário 4.2j. Como esses são três tokens separados, espaços em branco são permitidos entre eles:

3 + 4.2j

Nenhum espaço em branco é permitido dentro de cada token. Em particular, o sufixo j não pode ser separado do número que o precede.

O número antes do j tem a mesma sintaxe de um literal de ponto flutuante. Portanto, os seguintes são literais imaginários válidos:

4.2j
3.14j
10.j
.001j
1e100j
3.14e-10j
3.14_15_93j

Ao contrário de um literal de ponto flutuante, o ponto decimal pode ser omitido se o número imaginário tiver apenas uma parte inteira. O número ainda é avaliado como um número de ponto flutuante, não um inteiro.

10j
0j
1000000000000000000000000j   # equivalente a 1e+24j

O sufixo j não diferencia maiúsculas de minúsculas. Isso significa que você pode usar J em vez disso:

3.14J   # equivalente a 3.14j

Formalmente, literais imaginários são descritos pela seguinte definição léxica:

imagnumber: (floatnumber | digitpart) ("j" | "J")

2.7. Operators and delimiters

The following grammar defines operator and delimiter tokens, that is, the generic OP token type. A list of these tokens and their names is also available in the token module documentation.

OP:
   | assignment_operator
   | bitwise_operator
   | comparison_operator
   | enclosing_delimiter
   | other_delimiter
   | arithmetic_operator
   | "..."
   | other_op

assignment_operator:   "+=" | "-=" | "*=" | "**=" | "/="  | "//=" | "%=" |
                       "&=" | "|=" | "^=" | "<<=" | ">>=" | "@="  | ":="
bitwise_operator:      "&"  | "|"  | "^"  | "~"   | "<<"  | ">>"
comparison_operator:   "<=" | ">=" | "<"  | ">"   | "=="  | "!="
enclosing_delimiter:   "("  | ")"  | "["  | "]"   | "{"   | "}"
other_delimiter:       ","  | ":"  | "!"  | ";"   | "="   | "->"
arithmetic_operator:   "+"  | "-"  | "**" | "*"   | "//"  | "/"   | "%"
other_op:              "."  | "@"

Nota

Generally, operators are used to combine expressions, while delimiters serve other purposes. However, there is no clear, formal distinction between the two categories.

Some tokens can serve as either operators or delimiters, depending on usage. For example, * is both the multiplication operator and a delimiter used for sequence unpacking, and @ is both the matrix multiplication and a delimiter that introduces decorators.

For some tokens, the distinction is unclear. For example, some people consider ., (, and ) to be delimiters, while others see the getattr() operator and the function call operator(s).

Some of Python’s operators, like and, or, and not in, use keyword tokens rather than “symbols” (operator tokens).

A sequence of three consecutive periods (...) has a special meaning as an Ellipsis literal.