6.2. re — Opérations à base d’expressions rationnelles

Code source : Lib/re.py


Ce module fournit des opérations sur les expressions rationnelles similaires à celles que l’on trouve dans Perl.

Both patterns and strings to be searched can be Unicode strings (str) as well as 8-bit strings (bytes). However, Unicode strings and 8-bit strings cannot be mixed: that is, you cannot match a Unicode string with a byte pattern or vice-versa; similarly, when asking for a substitution, the replacement string must be of the same type as both the pattern and the search string.

Les expressions rationnelles utilisent le caractère backslash ('\') pour indiquer des formes spéciales ou permettre d’utiliser des caractères spéciaux sans en invoquer le sens. Cela entre en conflit avec l’utilisation en Python du même caractère pour la même raison dans les chaînes littérales ; par exemple, pour rechercher un backslash littéral il faudrait écrire '\\\\' comme motif, parce que l’expression rationnelle devrait être \\, et chaque backslash exprimé par \\ au sein des chaînes littérales Python.

La solution est d’utiliser la notation des chaînes brutes en Python pour les expressions rationnelles ; Les backslashes ne provoquent aucun traitement spécifique dans les chaînes littérales préfixées par 'r'. Ainsi, r"\n" est une chaîne de deux caractères contenant '\' et 'n', tandis que "\n" est une chaîne contenant un unique caractère : un saut de ligne. Généralement, les motifs seront exprimés en Python à l’aide de chaînes brutes.

Il est important de noter que la plupart des opérations sur les expressions rationnelles sont disponibles comme fonctions au niveau du module et comme méthodes des expressions rationnelles compilées. Les fonctions sont des raccourcis qui ne vous obligent pas à d’abord compiler un objet regex, mais auxquelles manquent certains paramètres de configuration fine.

Voir aussi

Le module tiers regex, dont l’interface est compatible avec le module re de la bibliothèque standard, mais offre des fonctionnalités additionnelles et un meilleur support de l’Unicode.

6.2.1. Syntaxe des Expressions Rationnelles

Une expression rationnelle (regular expression ou RE) spécifie un ensemble de chaînes de caractères qui lui correspondent ; les fonctions de ce module vous permettent de vérifier si une chaîne particulière correspond à une expression rationnelle donnée (ou si un expression rationnelle donnée correspond à une chaîne particulière, ce qui revient à la même chose).

Les expressions rationnelles peuvent être concaténées pour former de nouvelles expressions : si A et B sont deux expressions rationnelles, alors AB est aussi une expression rationnelle. En général, si une chaîne p valide A et qu’une autre chaîne q valide B, la chaîne pq validera AB. Cela est vrai tant que A et B ne contiennent pas d’opérations de précédence ; de conditions liées entre A et B ; ou de références vers des groupes numérotés. Ainsi, des expressions complexes peuvent facilement être construites depuis de plus simples expressions primitives comme celles décrites ici. Pour plus de détails sur la théorie et l’implémentation des expressions rationnelles, consultez le livre de Frield référencé plus tôt, ou à peu près n’importe quel livre dédié à la construction de compilateurs.

Une brève explication sur le format des expressions rationnelles suit. Pour de plus amples informations, et une meilleure présentation, référez-vous au Regular Expression HOWTO.

Les expressions rationnelles peuvent contenir à la fois des caractères spéciaux et ordinaires. Les plus ordinaires, comme 'A', 'a' ou '0' sont les expressions rationnelles les plus simples : elles correspondent simplement à elles-mêmes. Vous pouvez concaténer deux caractères ordinaires, donc last correspond à la chaîne 'last'. (Dans la suite de cette section, nous écrirons les expressions rationnelles dans ce style spécifique, généralement sans guillemets, et les chaînes à tester 'entourées de simples guillemets'.)

Some characters, like '|' or '(', are special. Special characters either stand for classes of ordinary characters, or affect how the regular expressions around them are interpreted.

Les caractères de répétition (*, +, ?, {m,n}, etc.) ne peuvent être directement imbriqués. Cela empêche l’ambiguïté avec le suffixe modificateur non gourmand ?, et avec les autres modificateurs dans d’autres implémentations. Pour appliquer une seconde répétition à une première, des parenthèses peuvent être utilisées. Par exemple, l’expression (?:a{6})* valide toutes les chaînes composées d’un nombre de caractères 'a' multiple de six.

Les caractères spéciaux sont :

.
(Point.) Dans le mode par défaut, il valide tout caractère à l’exception du saut de ligne. Si l’option DOTALL a été spécifiée, il valide tout caractère, saut de ligne compris.
^
(Accent circonflexe.) Valide le début d’une chaîne de caractères, ainsi que ce qui suit chaque saut de ligne en mode MULTILINE.
$
Valide la fin d’une chaîne de caractères, ou juste avant le saut de ligne à la fin de la chaîne, ainsi qu’avant chaque saut de ligne en mode MULTILINE. foo valide à la fois “foo” et “foobar”, tandis que l’expression rationnelle foo$ ne correspond qu’à “foo”. Plus intéressant, chercher foo.$ dans 'foo1\nfoo2\n' trouve normalement “foo2”, mais “foo1” en mode MULTILINE ; chercher un simple $ dans 'foo\n' trouvera deux correspondances (vides) : une juste avant le saut de ligne, et une à la fin de la chaîne.
*
Implique à l’expression rationnelle résultante de valider 0 répétition ou plus de l’expression qui précède, avec autant de répétitions que possible. ab* validera “a”, “ab” ou “a” suivi de n’importe quel nombre de “b”.
+
Implique à l’expression rationnelle résultante de valider une répétition ou plus de l’expression qui précède. ab+ validera “a” suivi de n’importe quel nombre non nul de “b” ; ça ne validera pas la chaîne “a”.
?
Implique à l’expression rationnelle résultante de valider 0 ou 1 répétition de l’expression qui précède. ab? correspondra à la fois à “a” et “ab”.
*?, +?, ??
The '*', '+', and '?' qualifiers are all greedy; they match as much text as possible. Sometimes this behaviour isn’t desired; if the RE <.*> is matched against '<a> b <c>', it will match the entire string, and not just '<a>'. Adding ? after the qualifier makes it perform the match in non-greedy or minimal fashion; as few characters as possible will be matched. Using the RE <.*?> will match only '<a>'.
{m}
Spécifie qu’exactement m copies de l’expression rationnelle qui précède devront être validées ; un nombre plus faible de correspondances empêche l’expression entière de correspondre. Par exemple, a{6} correspondra exactement à six caractères 'a', mais pas à cinq.
{m,n}
Causes the resulting RE to match from m to n repetitions of the preceding RE, attempting to match as many repetitions as possible. For example, a{3,5} will match from 3 to 5 'a' characters. Omitting m specifies a lower bound of zero, and omitting n specifies an infinite upper bound. As an example, a{4,}b will match 'aaaab' or a thousand 'a' characters followed by a 'b', but not 'aaab'. The comma may not be omitted or the modifier would be confused with the previously described form.
{m,n}?
Implique à l’expression rationnelle résultante de valider entre m et n répétitions de l’expression qui précède, cherchant à en valider le moins possible. Il s’agit de la version non gourmande du précédent qualificateur. Par exemple, dans la chaîne de 6 caractères 'aaaaaa', a{3,5} trouvera 5 caractères 'a', alors que a{3,5}? n’en trouvera que 3.
\

Échappe à la fois les caractères spéciaux (permettant d’utiliser des caractères comme '*', '?' et autres), ou signale une séquence spéciale ; les séquences spéciales sont décrites ci-dessous.

Si vous n’utilisez pas de chaînes brutes pour exprimer le motif, souvenez-vous que Python utilise aussi le backslash comme une séquence d’échappement dans les chaînes littérales ; si la séquence d’échappement n’est pas reconnue par le parseur Python, le backslash et les caractères qui le suivent sont inclus dans la chaîne renvoyée. Cependant, si Python avait reconnu la séquence, le backslash aurait dû être doublé. C’est assez compliqué et difficile à comprendre, c’est pourquoi il est hautement recommandé d’utiliser des chaînes brutes pour tout sauf les expressions les plus simples.

[]

Utilisé pour indiquer un ensemble de caractères. Dans un ensemble :

  • Les caractères peuvent être listés individuellement, e.g. [amk] correspondra à 'a', 'm' ou 'k'.
  • Ranges of characters can be indicated by giving two characters and separating them by a '-', for example [a-z] will match any lowercase ASCII letter, [0-5][0-9] will match all the two-digits numbers from 00 to 59, and [0-9A-Fa-f] will match any hexadecimal digit. If - is escaped (e.g. [a\-z]) or if it’s placed as the first or last character (e.g. [-a] or [a-]), it will match a literal '-'.
  • Les caractères spéciaux perdent leur sens à l’intérieur des ensembles. Par exemple, [(+*)] validera chacun des caractères littéraux '(', '+', '*' ou ')'.
  • Les classes de caractères telles que \w ou \S (définies ci-dessous) sont aussi acceptées à l’intérieur d’un ensemble, bien que les caractères correspondant dépendent de quel mode est actif entre ASCII et LOCALE.
  • Les caractères qui ne sont pas dans un intervalle peuvent être trouvés avec l’ensemble complémentaire (complementing). Si le premier caractère de l’ensemble est '^', tous les caractères qui ne sont pas dans l’ensemble seront validés. Par exemple, [^5] correspondra à tout caractère autre que '5', et [^^] validera n’importe quel caractère excepté '^'. ^ n’a pas de sens particulier s’il n’est pas le premier caractère de l’ensemble.
  • Pour insérer un ']' littéral dans un ensemble, il faut le précéder d’un backslash ou le placer au début de l’ensemble. Par exemple, [()[\]{}] et []()[{}] vont tous deux correspondre à une parenthèse, un crochet ou une accolade.
|
A|B, where A and B can be arbitrary REs, creates a regular expression that will match either A or B. An arbitrary number of REs can be separated by the '|' in this way. This can be used inside groups (see below) as well. As the target string is scanned, REs separated by '|' are tried from left to right. When one pattern completely matches, that branch is accepted. This means that once A matches, B will not be tested further, even if it would produce a longer overall match. In other words, the '|' operator is never greedy. To match a literal '|', use \|, or enclose it inside a character class, as in [|].
(...)
Matches whatever regular expression is inside the parentheses, and indicates the start and end of a group; the contents of a group can be retrieved after a match has been performed, and can be matched later in the string with the \number special sequence, described below. To match the literals '(' or ')', use \( or \), or enclose them inside a character class: [(], [)].
(?...)
Il s’agit d’une notation pour les extensions (un '?' suivant une '(' n’a pas de sens autrement). Le premier caractère après le '?' détermine quel sens donner à l’expression. Les extensions ne créent généralement pas de nouveaux groupes ; (?P<name>...) est la seule exception à la règle. Retrouvez ci-dessous la liste des extensions actuellement supportées.
(?aiLmsux)
(One or more letters from the set 'a', 'i', 'L', 'm', 's', 'u', 'x'.) The group matches the empty string; the letters set the corresponding flags: re.A (ASCII-only matching), re.I (ignore case), re.L (locale dependent), re.M (multi-line), re.S (dot matches all), re.U (Unicode matching), and re.X (verbose), for the entire regular expression. (The flags are described in Contenu du module.) This is useful if you wish to include the flags as part of the regular expression, instead of passing a flag argument to the re.compile() function. Flags should be used first in the expression string.
(?:...)
Une version non capturante des parenthèses habituelles. Valide n’importe quelle expression rationnelle à l’intérieur des parenthèses, mais la sous-chaîne correspondant au groupe ne peut pas être récupérée après l’analyse ou être référencée plus loin dans le motif.
(?imsx-imsx:...)

(Zéro lettres ou plus de l’ensemble 'i', 'm', 's', 'x', optionnellement suivies par '-' ainsi qu’une ou plusieurs lettres du même ensemble.) Les lettres activent ou désactivent les options correspondantes : re.I (ignorer la casse), re.M (multi-ligne), re.S (les points correspondent à tous les caractères) et re.X (verbeux), pour cette partie de l’expression. (Les options sont décrites dans la section Contenu du module.)

Nouveau dans la version 3.6.

(?P<name>...)

Similaires aux parenthèses habituelles, mais la sous-chaîne validée par le groupe est accessible via le nom name du groupe symbolique. Les noms de groupes doivent être des identifiants Python valides, et chaque nom de groupe ne doit être défini qu’une seule fois dans une expression rationnelle. Un groupe symbolique est aussi un groupe numéroté, de la même manière que si le groupe n’était pas nommé.

Les groupes nommés peuvent être référencés dans trois contextes. Si le motif est (?P<quote>['"]).*?(?P=quote) (i.e. correspondant à une chaîne entourée de guillemets simples ou doubles).

Contexte de référence au groupe « quote » Manières de le référencer
lui-même dans le même motif
  • (?P=quote) (comme vu)
  • \1
when processing match object m
  • m.group('quote')
  • m.end('quote') (etc.)
in a string passed to the repl argument of re.sub()
  • \g<quote>
  • \g<1>
  • \1
(?P=name)
Une référence arrière à un groupe nommé ; elle correspond à n’importe quel texte validé plus tôt par le groupe nommé name.
(?#...)
Un commentaire ; le contenu des parenthèses est simplement ignoré.
(?=...)
Matches if ... matches next, but doesn’t consume any of the string. This is called a lookahead assertion. For example, Isaac (?=Asimov) will match 'Isaac ' only if it’s followed by 'Asimov'.
(?!...)
Matches if ... doesn’t match next. This is a negative lookahead assertion. For example, Isaac (?!Asimov) will match 'Isaac ' only if it’s not followed by 'Asimov'.
(?<=...)

Matches if the current position in the string is preceded by a match for ... that ends at the current position. This is called a positive lookbehind assertion. (?<=abc)def will find a match in 'abcdef', since the lookbehind will back up 3 characters and check if the contained pattern matches. The contained pattern must only match strings of some fixed length, meaning that abc or a|b are allowed, but a* and a{3,4} are not. Note that patterns which start with positive lookbehind assertions will not match at the beginning of the string being searched; you will most likely want to use the search() function rather than the match() function:

>>> import re
>>> m = re.search('(?<=abc)def', 'abcdef')
>>> m.group(0)
'def'

Cet exemple recherche un mot suivi d’un trait d’union :

>>> m = re.search('(?<=-)\w+', 'spam-egg')
>>> m.group(0)
'egg'

Modifié dans la version 3.5: Ajout du support des références aux groupes de taille fixe.

(?<!...)
Valide si la position courante dans la chaîne n’est pas précédée par une correspondance sur .... On appelle cela une negative lookbehind assertion. À la manière des assertions lookbehind positives, le motif contenu ne peut que correspondre à des chaînes de taille fixe. Les motifs débutant par une assertion lookbehind négative peuvent correspondre au début de la chaîne analysée.
(?(id/name)yes-pattern|no-pattern)
Essaiera de faire la correspondance avec yes-pattern si le groupe indiqué par id ou name existe, et avec no-pattern s’il n’existe pas. no-pattern est optionnel et peut être omis. Par exemple, (<)?(\w+@\w+(?:\.\w+)+)(?(1)>|$) est un motif simpliste pour identifier une adresse courriel, qui validera '<user@host.com>' ainsi que 'user@host.com' mais pas '<user@host.com' ni 'user@host.com>'.

Les séquences spéciales sont composées de '\' et d’un caractère de la liste qui suit. Si le caractère ordinaire n’est pas un chiffre ASCII ou une lettre ASCII, alors l’expression rationnelle résultante validera le second caractère de la séquence. Par exemple, \$ correspond au caractère '$'.

\number
Correspond au contenu du groupe du même nombre. Les groupes sont numérotés à partir de 1. Par exemple, (.+) \1 correspond à 'the the' ou '55 55', mais pas à 'thethe' (notez l’espace après le groupe). Cette séquence spéciale ne peut être utilisée que pour faire référence aux 99 premiers groupes. Si le premier chiffre de number est 0, ou si number est un nombre octal de 3 chiffres, il ne sera pas interprété comme une référence à un groupe, mais comme le caractère à la valeur octale number. À l’intérieur des '[' et ']' d’une classe de caractères, tous les échappements numériques sont traités comme des caractères.
\A
Correspond uniquement au début d’une chaîne de caractères.
\b

Matches the empty string, but only at the beginning or end of a word. A word is defined as a sequence of word characters. Note that formally, \b is defined as the boundary between a \w and a \W character (or vice versa), or between \w and the beginning/end of the string. This means that r'\bfoo\b' matches 'foo', 'foo.', '(foo)', 'bar foo baz' but not 'foobar' or 'foo3'.

By default Unicode alphanumerics are the ones used in Unicode patterns, but this can be changed by using the ASCII flag. Word boundaries are determined by the current locale if the LOCALE flag is used. Inside a character range, \b represents the backspace character, for compatibility with Python’s string literals.

\B
Matches the empty string, but only when it is not at the beginning or end of a word. This means that r'py\B' matches 'python', 'py3', 'py2', but not 'py', 'py.', or 'py!'. \B is just the opposite of \b, so word characters in Unicode patterns are Unicode alphanumerics or the underscore, although this can be changed by using the ASCII flag. Word boundaries are determined by the current locale if the LOCALE flag is used.
\d
Pour les motifs Unicode (str) :
Valide n’importe quel chiffre décimal Unicode (soit tout caractère Unicode de catégorie [Nd]). Cela inclue [0-9], mais aussi bien d’autres caractères de chiffres. Si l’option ASCII est utilisée, seuls les caractères de la classe [0-9] correspondront (mais l’option affectant l’expression rationnelle entière, il peut être préférable dans ce genre de cas d’utiliser un [0-9] explicite).
Pour les motifs 8-bit (bytes) :
Valide n’importe quel chiffre décimal ; équivalent à [0-9].
\D
Matches any character which is not a decimal digit. This is the opposite of \d. If the ASCII flag is used this becomes the equivalent of [^0-9] (but the flag affects the entire regular expression, so in such cases using an explicit [^0-9] may be a better choice).
\s
Pour les motifs Unicode (str) :
Valide les caractères d’espacement Unicode (qui incluent [ \t\n\r\f\v] et bien d’autres, comme les espaces insécables requises par les règles typographiques de beaucoup de langues). Si l’option ASCII est utilisée, seuls les caractères de la classe [ \t\n\r\f\v] sont validés (mais l’option affectant l’expression rationnelle entière, il peut être préférable dans ce genre de cas d’utiliser un [ \t\n\r\f\v] explicite).
Pour les motifs 8-bit (bytes) :
Valide les caractères considérés comme des espacements dans la table ASCII ; équivalent à [ \t\n\r\f\v].
\S
Matches any character which is not a whitespace character. This is the opposite of \s. If the ASCII flag is used this becomes the equivalent of [^ \t\n\r\f\v] (but the flag affects the entire regular expression, so in such cases using an explicit [^ \t\n\r\f\v] may be a better choice).
\w
Pour les motifs Unicode (str) :
Valide les caractères Unicode de mot ; cela inclut la plupart des caractères qui peuvent être compris dans un mot d’une quelconque langue, aussi bien que les nombres et les tirets bas. Si l’option ASCII est utilisée, seuls les caractères de la classe [a-zA-Z0-9_] sont validés (mais l’option affectant l’expression rationnelle entière, il peut être préférable dans ce genre de cas d’utiliser un [a-zA-Z0-9_] explicite).
Pour les motifs 8-bit (bytes) :
Matches characters considered alphanumeric in the ASCII character set; this is equivalent to [a-zA-Z0-9_]. If the LOCALE flag is used, matches characters considered alphanumeric in the current locale and the underscore.
\W
Matches any character which is not a word character. This is the opposite of \w. If the ASCII flag is used this becomes the equivalent of [^a-zA-Z0-9_] (but the flag affects the entire regular expression, so in such cases using an explicit [^a-zA-Z0-9_] may be a better choice). If the LOCALE flag is used, matches characters considered alphanumeric in the current locale and the underscore.
\Z
Correspond uniquement à la fin d’une chaîne de caractères.

La plupart des échappements standards supportés par les chaînes littérales sont aussi acceptés par le parseur d’expressions rationnelles:

\a      \b      \f      \n
\r      \t      \u      \U
\v      \x      \\

(Notez que \b est utilisé pour représenter les bornes d’un mot, et signifie « backspace » uniquement à l’intérieur d’une classe de caractères.)

'\u' and '\U' escape sequences are only recognized in Unicode patterns. In bytes patterns they are errors.

Les séquences octales d’échappement sont inclues dans une forme limitée. Si le premier chiffre est un 0, ou s’il y a trois chiffres octaux, la séquence est considérée comme octale. Autrement, il s’agit d’une référence vers un groupe. Comme pour les chaînes littérales, les séquences octales ne font jamais plus de 3 caractères de long.

Modifié dans la version 3.3: Les séquences d’échappement '\u' et '\U' ont été ajoutées.

Modifié dans la version 3.6: Les séquences inconnues composées de '\' et d’une lettre ASCII sont maintenant des erreurs.

Voir aussi

Maîtriser les expression rationnelles
Livre sur les expressions rationnelles par Jeffrey Friedl, publié chez OReilly. La seconde édition de ce livre ne couvre plus du tout Python, mais la première version explique en détails comment écrire de bonnes expressions rationnelles.

6.2.2. Contenu du module

Le module définit plusieurs fonctions, constantes, et une exception. Certaines fonctions sont des versions simplifiées des méthodes plus complètes des expressions rationnelles compilées. La plupart des applications non triviales utilisent toujours la version compilée.

Modifié dans la version 3.6: Les constantes d’options sont maintenant des instances de RegexFlag, sous-classe de enum.IntFlag.

re.compile(pattern, flags=0)

Compile un motif vers une expression rationnelle compilée, dont les méthodes match() et search(), décrites ci-dessous, peuvent être utilisées pour analyser des textes.

Le comportement des expressions peut être modifié en spécifiant une valeur flags. Les valeurs sont comprises dans les variables suivantes, et peuvent être combinées avec un ou bit-à-bit (opérateur |).

La séquence :

prog = re.compile(pattern)
result = prog.match(string)

est équivalente à :

result = re.match(pattern, string)

mais utiliser re.compile() et sauvegarder l’expression rationnelle renvoyée pour la réutiliser est plus efficace quand l’expression est amenée à être utilisée plusieurs fois dans un même programme.

Note

Les versions compilées des motifs les plus récents passés à re.compile() et autres fonctions d’analyse du module sont mises en cache, ainsi les programmes qui n’utilisent que quelques expressions rationnelles en même temps n’ont pas à s’inquiéter de la compilation de ces expressions.

re.A
re.ASCII

Make \w, \W, \b, \B, \d, \D, \s and \S perform ASCII-only matching instead of full Unicode matching. This is only meaningful for Unicode patterns, and is ignored for byte patterns. Corresponds to the inline flag (?a).

Notez que par compatibilité envers les versions précédentes, l’option re.U existe toujours (ainsi que son synonyme re.UNICODE et sa version embarquée (?u)), mais elles sont redondantes en Python 3 depuis que l’analyse est faite en Unicode par défaut pour les chaînes de caractères (et que l’analyse Unicode n’est pas permise pour les chaînes 8-bit).

re.DEBUG

Display debug information about compiled expression. No corresponding inline flag.

re.I
re.IGNORECASE

Perform case-insensitive matching; expressions like [A-Z] will also match lowercase letters. Full Unicode matching (such as Ü matching ü) also works unless the re.ASCII flag is used to disable non-ASCII matches. The current locale does not change the effect of this flag unless the re.LOCALE flag is also used. Corresponds to the inline flag (?i).

Note that when the Unicode patterns [a-z] or [A-Z] are used in combination with the IGNORECASE flag, they will match the 52 ASCII letters and 4 additional non-ASCII letters: “İ” (U+0130, Latin capital letter I with dot above), “ı” (U+0131, Latin small letter dotless i), “ſ” (U+017F, Latin small letter long s) and “K” (U+212A, Kelvin sign). If the ASCII flag is used, only letters “a” to “z” and “A” to “Z” are matched (but the flag affects the entire regular expression, so in such cases using an explicit (?-i:[a-zA-Z]) may be a better choice).

re.L
re.LOCALE

Make \w, \W, \b, \B and case-insensitive matching dependent on the current locale. This flag can be used only with bytes patterns. The use of this flag is discouraged as the locale mechanism is very unreliable, it only handles one « culture » at a time, and it only works with 8-bit locales. Unicode matching is already enabled by default in Python 3 for Unicode (str) patterns, and it is able to handle different locales/languages. Corresponds to the inline flag (?L).

Modifié dans la version 3.6: re.LOCALE` ne peut être utilisée qu’avec les motifs 8-bit et n’est pas compatible avec re.ASCII.

re.M
re.MULTILINE

When specified, the pattern character '^' matches at the beginning of the string and at the beginning of each line (immediately following each newline); and the pattern character '$' matches at the end of the string and at the end of each line (immediately preceding each newline). By default, '^' matches only at the beginning of the string, and '$' only at the end of the string and immediately before the newline (if any) at the end of the string. Corresponds to the inline flag (?m).

re.S
re.DOTALL

Make the '.' special character match any character at all, including a newline; without this flag, '.' will match anything except a newline. Corresponds to the inline flag (?s).

re.X
re.VERBOSE

Cette option vous autorise à écrire des expressions rationnelles qui présentent mieux et sont plus lisibles en vous permettant de séparer visuellement les sections logiques du motif et d’ajouter des commentaires. Les caractères d’espacement à l’intérieur du motif sont ignorés, sauf à l’intérieur des classes de caractères ou quand précédés d’un backslash non échappé. Quand une ligne contient un # qui n’est pas dans une classe de caractères ou précédé d’un backslash non échappé, tous les caractères depuis le # le plus à gauche jusqu’à la fin de la ligne sont ignorés.

Cela signifie que les deux expressions rationnelles suivantes qui valident un nombre décimal sont fonctionnellement égales :

a = re.compile(r"""\d +  # the integral part
                   \.    # the decimal point
                   \d *  # some fractional digits""", re.X)
b = re.compile(r"\d+\.\d*")

Corresponds to the inline flag (?x).

re.search(pattern, string, flags=0)

Analyse string à la recherche du premier emplacement où l’expression rationnelle pattern trouve une correspondance, et renvoie l”objet de correspondance trouvé. Renvoie None si aucune position dans la chaîne ne valide le motif ; notez que cela est différent de trouver une correspondance avec une chaîne vide à un certain endroit de la chaîne.

re.match(pattern, string, flags=0)

Si zéro ou plus caractères au début de string correspondent à l’expression rationnelle pattern, renvoie l”objet de correspondance trouvé. Renvoie None si la chaîne ne correspond pas au motif ; notez que cela est différent d’une correspondance avec une chaîne vide.

Notez que même en mode MULTILINE, re.match() ne validera qu’au début de la chaîne et non au début de chaque ligne.

Si vous voulez trouver une correspondance n’importe où dans string, utilisez plutôt search() (voir aussi search() vs. match()).

re.fullmatch(pattern, string, flags=0)

Si l’entièreté de la chaîne string correspond à l’expression rationnelle pattern, renvoie l”objet de correspondance trouvé. Renvoie None si la chaîne ne correspond pas au motif ; notez que cela est différent d’une correspondance avec une chaîne vide.

Nouveau dans la version 3.4.

re.split(pattern, string, maxsplit=0, flags=0)

Sépare string selon les occurrences de pattern. Si des parenthèses capturantes sont utilisées dans pattern, alors les textes des groupes du motif sont aussi renvoyés comme éléments de la liste résultante. Si maxsplit est différent de zéro, il ne pourra y avoir plus de maxsplit séparations, et le reste de la chaîne sera renvoyé comme le dernier élément de la liste. :

>>> re.split('\W+', 'Words, words, words.')
['Words', 'words', 'words', '']
>>> re.split('(\W+)', 'Words, words, words.')
['Words', ', ', 'words', ', ', 'words', '.', '']
>>> re.split('\W+', 'Words, words, words.', 1)
['Words', 'words, words.']
>>> re.split('[a-f]+', '0a3B9', flags=re.IGNORECASE)
['0', '3', '9']

If there are capturing groups in the separator and it matches at the start of the string, the result will start with an empty string. The same holds for the end of the string:

>>> re.split('(\W+)', '...words, words...')
['', '...', 'words', ', ', 'words', '...', '']

De cette manière, les séparateurs sont toujours trouvés aux mêmes indices relatifs dans la liste résultante.

Note

split() doesn’t currently split a string on an empty pattern match. For example:

>>> re.split('x*', 'axbc')
['a', 'bc']

Même si 'x*' correspond aussi à 0 “x” avant “a”, entre “b” et “c”, et après “c”, ces correspondances sont actuellement ignorées. Le comportement correct (i.e. découper aussi sur les correspondances vides et renvoyer ['', 'a', 'b', 'c', '']) sera implémenté dans les futures versions de Python, mais comme cela constitue un changement incompatible avec les précédentes, une FutureWarning sera levée pendant la transition.

Les motifs qui ne peuvent correspondre qu’à des chaînes vides ne permettent actuellement pas de découper la chaîne. Puisque cela ne correspond pas au comportement voulu, une ValueError sera levée à partir de Python 3.5 :

>>> re.split("^$", "foo\n\nbar\n", flags=re.M)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  ...
ValueError: split() requires a non-empty pattern match.

Modifié dans la version 3.1: Ajout de l’argument optionnel flags

Modifié dans la version 3.5: Découper sur un motif qui peut correspondre à une chaîne vide lève maintenant un avertissement. Les motifs qui ne peuvent correspondre qu’à des chaînes vides sont maintenant rejetés.

re.findall(pattern, string, flags=0)

Renvoie toutes les correspondances de pattern dans string qui ne se chevauchent pas, sous forme d’une liste de chaînes. Le chaîne string est analysée de la gauche vers la droite, et les correspondances sont renvoyées dans l’ordre où elles sont trouvées. Si un groupe ou plus sont présents dans le motif, renvoie une liste de groupes ; il s’agira d’une liste de tuples si le motif a plus d’un groupe. Les correspondances vides sont inclues dans le résultat sauf si elles touchent le début d’une autre correspondance.

re.finditer(pattern, string, flags=0)

Renvoie un iterator produisant des objets de correspondance pour toutes les correspondances non chevauchantes de l’expression rationnelle pattern sur la chaîne string. string est analysée de la gauche vers la droite, et les correspondances sont renvoyées dans l’ordre où elles sont trouvées. Les correspondances vides sont inclues dans le résultat sauf si elles touchent le début d’une autre correspondance.

re.sub(pattern, repl, string, count=0, flags=0)

Return the string obtained by replacing the leftmost non-overlapping occurrences of pattern in string by the replacement repl. If the pattern isn’t found, string is returned unchanged. repl can be a string or a function; if it is a string, any backslash escapes in it are processed. That is, \n is converted to a single newline character, \r is converted to a carriage return, and so forth. Unknown escapes such as \& are left alone. Backreferences, such as \6, are replaced with the substring matched by group 6 in the pattern. For example:

>>> re.sub(r'def\s+([a-zA-Z_][a-zA-Z_0-9]*)\s*\(\s*\):',
...        r'static PyObject*\npy_\1(void)\n{',
...        'def myfunc():')
'static PyObject*\npy_myfunc(void)\n{'

If repl is a function, it is called for every non-overlapping occurrence of pattern. The function takes a single match object argument, and returns the replacement string. For example:

>>> def dashrepl(matchobj):
...     if matchobj.group(0) == '-': return ' '
...     else: return '-'
>>> re.sub('-{1,2}', dashrepl, 'pro----gram-files')
'pro--gram files'
>>> re.sub(r'\sAND\s', ' & ', 'Baked Beans And Spam', flags=re.IGNORECASE)
'Baked Beans & Spam'

The pattern may be a string or a pattern object.

L’argument optionnel count est le nombre maximum d’occurrences du motif à remplacer : count ne doit pas être un nombre négatif. Si omis ou nul, toutes les occurrences seront remplacées. Les correspondances vides avec le motif sont remplacées uniquement quand elles ne sont pas adjacentes à une précédente correspondance, ainsi sub('x*', '-', 'abc') renvoie '-a-b-c-'.

Dans les arguments repl de type string, en plus des séquences d’échappement et références arrières décrites au-dessus, \g<name> utilisera la sous-chaîne correspondant au groupe nommé name, comme défini par la syntaxe (?P<name>...). \g<number> utilise le groupe numéroté associé ; \g<2> est ainsi équivalent à \2, mais n’est pas ambigu dans un remplacement tel que \g<2>0, \20 serait interprété comme une référence au groupe 20, et non une référence au groupe 2 suivie par un caractère littéral '0'. La référence arrière \g<0> est remplacée par la sous-chaîne entière validée par l’expression rationnelle.

Modifié dans la version 3.1: Ajout de l’argument optionnel flags

Modifié dans la version 3.5: Les groupes sans correspondance sont remplacés par une chaîne vide.

Modifié dans la version 3.6: Les séquences d’échappement inconnues dans pattern formées par '\' et une lettre ASCII sont maintenant des erreurs.

Déprécié depuis la version 3.5, sera supprimé dans la 3.7 : Les séquences d’échappement dans repl formées d’un “” et d’une lettre ASCII lèvent maintenant un avertissement de dépréciation et seront interdites en Python 3.7.

re.subn(pattern, repl, string, count=0, flags=0)

Réalise la même opération que sub(), mais renvoie un tuple (nouvelle_chaîne, nombre_de_substitutions_réalisées).

Modifié dans la version 3.1: Ajout de l’argument optionnel flags

Modifié dans la version 3.5: Les groupes sans correspondance sont remplacés par une chaîne vide.

re.escape(pattern)

Échappe tous les caractères de pattern à l’exception des lettres ASCII, des nombres et de '_'. Cela est utile si vous voulez valider une quelconque chaîne littérale qui pourrait contenir des métacaractères d’expressions rationnelles. Par exemple :

>>> print(re.escape('python.exe'))
python\.exe

>>> legal_chars = string.ascii_lowercase + string.digits + "!#$%&'*+-.^_`|~:"
>>> print('[%s]+' % re.escape(legal_chars))
[abcdefghijklmnopqrstuvwxyz0123456789\!\#\$\%\&\'\*\+\-\.\^_\`\|\~\:]+

>>> operators = ['+', '-', '*', '/', '**']
>>> print('|'.join(map(re.escape, sorted(operators, reverse=True))))
\/|\-|\+|\*\*|\*

This functions must not be used for the replacement string in sub() and subn(), only backslashes should be escaped. For example:

>>> digits_re = r'\d+'
>>> sample = '/usr/sbin/sendmail - 0 errors, 12 warnings'
>>> print(re.sub(digits_re, digits_re.replace('\\', r'\\'), sample))
/usr/sbin/sendmail - \d+ errors, \d+ warnings

Modifié dans la version 3.3: Le caractère '_' n’est plus échappé.

re.purge()

Vide le cache d’expressions rationnelles.

exception re.error(msg, pattern=None, pos=None)

Exception levée quand une chaîne passée à l’une des fonctions ici présentes n’est pas une expression rationnelle valide (contenant par exemple une parenthèse non fermée) ou quand d’autres erreurs se produisent durant la compilation ou l’analyse. Il ne se produit jamais d’erreur si une chaîne ne contient aucune correspondance pour un motif. Les instances de l’erreur ont les attributs additionnels suivants :

msg

Le message d’erreur non formaté.

pattern

Le motif d’expression rationnelle.

pos

L’index dans pattern où la compilation a échoué (peut valoir None).

lineno

La ligne correspondant à pos (peut valoir None).

colno

La colonne correspondant à pos (peut valoir None).

Modifié dans la version 3.5: Ajout des attributs additionnels.

6.2.3. Objets d’expressions rationnelles

Les expressions rationnelles compilées supportent les méthodes et attributs suivants :

regex.search(string[, pos[, endpos]])

Analyse string à la recherche du premier emplacement où l’expression rationnelle trouve une correspondance, et envoie l”objet de correspondance trouvé. Renvoie None si aucune position dans la chaîne ne satisfait le motif ; notez que cela est différent que de trouver une correspondance vide dans la chaîne.

Le second paramètre pos (optionnel) donne l’index dans la chaîne où la recherche doit débuter ; il vaut 0 par défaut. Cela n’est pas complètement équivalent à un slicing sur la chaîne ; le caractère de motif '^' correspond au début réel de la chaîne et aux positions juste après un saut de ligne, mais pas nécessairement à l’index où la recherche commence.

The optional parameter endpos limits how far the string will be searched; it will be as if the string is endpos characters long, so only the characters from pos to endpos - 1 will be searched for a match. If endpos is less than pos, no match will be found; otherwise, if rx is a compiled regular expression object, rx.search(string, 0, 50) is equivalent to rx.search(string[:50], 0).

>>> pattern = re.compile("d")
>>> pattern.search("dog")     # Match at index 0
<_sre.SRE_Match object; span=(0, 1), match='d'>
>>> pattern.search("dog", 1)  # No match; search doesn't include the "d"
regex.match(string[, pos[, endpos]])

Si zéro caractère ou plus au début de string correspondent à cette expression rationnelle, renvoie l”objet de correspondance trouvé. Renvoie None si la chaîne ne correspond pas au motif ; notez que cela est différent d’une correspondance vide.

The optional pos and endpos parameters have the same meaning as for the search() method.

>>> pattern = re.compile("o")
>>> pattern.match("dog")      # No match as "o" is not at the start of "dog".
>>> pattern.match("dog", 1)   # Match as "o" is the 2nd character of "dog".
<_sre.SRE_Match object; span=(1, 2), match='o'>

Si vous voulez une recherche n’importe où dans string, utilisez plutôt search() (voir aussi search() vs. match()).

regex.fullmatch(string[, pos[, endpos]])

Si la chaîne string entière valide l’expression rationnelle, renvoie l”object de correspondance associé. Renvoie None si la chaîne ne correspond pas au motif ; notez que cela est différent d’une correspondance vide.

The optional pos and endpos parameters have the same meaning as for the search() method.

>>> pattern = re.compile("o[gh]")
>>> pattern.fullmatch("dog")      # No match as "o" is not at the start of "dog".
>>> pattern.fullmatch("ogre")     # No match as not the full string matches.
>>> pattern.fullmatch("doggie", 1, 3)   # Matches within given limits.
<_sre.SRE_Match object; span=(1, 3), match='og'>

Nouveau dans la version 3.4.

regex.split(string, maxsplit=0)

Identique à la fonction split(), en utilisant le motif compilé.

regex.findall(string[, pos[, endpos]])

Similar to the findall() function, using the compiled pattern, but also accepts optional pos and endpos parameters that limit the search region like for search().

regex.finditer(string[, pos[, endpos]])

Similar to the finditer() function, using the compiled pattern, but also accepts optional pos and endpos parameters that limit the search region like for search().

regex.sub(repl, string, count=0)

Identique à la fonction sub(), en utilisant le motif compilé.

regex.subn(repl, string, count=0)

Identique à la fonction subn(), en utilisant le motif compilé.

regex.flags

Les options de validation de l’expression rationnelle. Il s’agit d’une combinaison des options données à compile(), des potentielles options (?...) dans le motif, et des options implicites comme UNICODE si le motif est une chaîne Unicode.

regex.groups

Le nombre de groupes capturants dans le motif.

regex.groupindex

Un dictionnaire associant les noms de groupes symboliques définis par (?P<id>) aux groupes numérotés. Le dictionnaire est vide si aucun groupe symbolique n’est utilisé dans le motif.

regex.pattern

La chaîne de motif depuis laquelle l’objet expression rationnelle a été compilé.

6.2.4. Objets de correspondance

Les objets de correspondance ont toujours une valeur booléenne True. Puisque match() et search() renvoient None quand il n’y a pas de correspondance, vous pouvez tester s’il y a eu correspondance avec une simple instruction if :

match = re.search(pattern, string)
if match:
    process(match)

Les objets de correspondance supportent les méthodes et attributs suivants :

match.expand(template)

Renvoie la chaîne obtenue en substituant les séquences d’échappement du gabarit template, comme réalisé par la méthode sub(). Les séquences comme \n sont converties vers les caractères appropriés, et les références arrières numériques (\1, \2) et nommées (\g<1>, \g<name>) sont remplacées par les contenus des groupes correspondant.

Modifié dans la version 3.5: Les groupes sans correspondance sont remplacés par une chaîne vide.

match.group([group1, ...])

Returns one or more subgroups of the match. If there is a single argument, the result is a single string; if there are multiple arguments, the result is a tuple with one item per argument. Without arguments, group1 defaults to zero (the whole match is returned). If a groupN argument is zero, the corresponding return value is the entire matching string; if it is in the inclusive range [1..99], it is the string matching the corresponding parenthesized group. If a group number is negative or larger than the number of groups defined in the pattern, an IndexError exception is raised. If a group is contained in a part of the pattern that did not match, the corresponding result is None. If a group is contained in a part of the pattern that matched multiple times, the last match is returned.

>>> m = re.match(r"(\w+) (\w+)", "Isaac Newton, physicist")
>>> m.group(0)       # The entire match
'Isaac Newton'
>>> m.group(1)       # The first parenthesized subgroup.
'Isaac'
>>> m.group(2)       # The second parenthesized subgroup.
'Newton'
>>> m.group(1, 2)    # Multiple arguments give us a tuple.
('Isaac', 'Newton')

Si l’expression rationnelle utilise la syntaxe (?P<name>...), les arguments groupN peuvent alors aussi être des chaînes identifiant les groupes par leurs noms. Si une chaîne donnée en argument n’est pas utilisée comme nom de groupe dans le motif, une exception IndexError est levée.

A moderately complicated example:

>>> m = re.match(r"(?P<first_name>\w+) (?P<last_name>\w+)", "Malcolm Reynolds")
>>> m.group('first_name')
'Malcolm'
>>> m.group('last_name')
'Reynolds'

Named groups can also be referred to by their index:

>>> m.group(1)
'Malcolm'
>>> m.group(2)
'Reynolds'

If a group matches multiple times, only the last match is accessible:

>>> m = re.match(r"(..)+", "a1b2c3")  # Matches 3 times.
>>> m.group(1)                        # Returns only the last match.
'c3'
match.__getitem__(g)

This is identical to m.group(g). This allows easier access to an individual group from a match:

>>> m = re.match(r"(\w+) (\w+)", "Isaac Newton, physicist")
>>> m[0]       # The entire match
'Isaac Newton'
>>> m[1]       # The first parenthesized subgroup.
'Isaac'
>>> m[2]       # The second parenthesized subgroup.
'Newton'

Nouveau dans la version 3.6.

match.groups(default=None)

Renvoie un tuple contenant tous les sous-groupes de la correspondance, de 1 jusqu’au nombre de groupes dans le motif. L’argument default est utilisé pour les groupes sans correspondance ; il vaut None par défaut.

Par exemple :

>>> m = re.match(r"(\d+)\.(\d+)", "24.1632")
>>> m.groups()
('24', '1632')

If we make the decimal place and everything after it optional, not all groups might participate in the match. These groups will default to None unless the default argument is given:

>>> m = re.match(r"(\d+)\.?(\d+)?", "24")
>>> m.groups()      # Second group defaults to None.
('24', None)
>>> m.groups('0')   # Now, the second group defaults to '0'.
('24', '0')
match.groupdict(default=None)

Return a dictionary containing all the named subgroups of the match, keyed by the subgroup name. The default argument is used for groups that did not participate in the match; it defaults to None. For example:

>>> m = re.match(r"(?P<first_name>\w+) (?P<last_name>\w+)", "Malcolm Reynolds")
>>> m.groupdict()
{'first_name': 'Malcolm', 'last_name': 'Reynolds'}
match.start([group])
match.end([group])

Renvoie les indices de début et de fin de la sous-chaîne correspondant au groupe group ; group vaut par défaut zéro (pour récupérer les indices de la correspondance complète). Renvoie -1 si group existe mais ne figure pas dans la correspondance. Pour un objet de correspondance m, et un groupe g qui y figure, la sous-chaîne correspondant au groupe g (équivalente à m.group(g)) est :

m.string[m.start(g):m.end(g)]

Notez que m.start(group) sera égal à m.end(group) si group correspond à une chaîne vide. Par exemple, après m = re.search('b(c?)', 'cba'), m.start(0) vaut 1, m.end(0) vaut 2, m.start(1) et m.end(1) valent tous deux 2, et m.start(2) lève une exception IndexError.

An example that will remove remove_this from email addresses:

>>> email = "tony@tiremove_thisger.net"
>>> m = re.search("remove_this", email)
>>> email[:m.start()] + email[m.end():]
'tony@tiger.net'
match.span([group])

Pour un objet de correspondance m, renvoie le tuple (m.start(group), m.end(group)). Notez que si group ne figure pas dans la correspondance, (-1, -1) est renvoyé. group vaut par défaut zéro, pour la correspondance entière.

match.pos

La valeur de pos qui a été passée à la méthode search() ou match() d’un objet expression rationnelle. C’est l’index dans la chaîne à partir duquel le moteur d’expressions rationnelles recherche une correspondance.

match.endpos

La valeur de endpos qui a été passée à la méthode search() ou match() d’un objet expression rationnelle. C’est l’index dans la chaîne que le moteur d’expressions rationnelles ne dépassera pas.

match.lastindex

L’index entier du dernier groupe de capture validé, ou None si aucun groupe ne correspondait. Par exemple, les expressions (a)b, ((a)(b)) et ((ab)) auront un lastindex == 1 si appliquées à la chaîne 'ab', alors que l’expression (a)(b) aura un lastindex == 2 si appliquée à la même chaîne.

match.lastgroup

Le nom du dernier groupe capturant validé, ou None si le groupe n’a pas de nom, ou si aucun groupe ne correspondait.

match.re

The regular expression object whose match() or search() method produced this match instance.

match.string

La chaîne passée à match() ou search().

6.2.5. Exemples d’expressions rationnelles

6.2.5.1. Rechercher une paire

Dans cet exemple, nous utiliserons cette fonction de facilité pour afficher les objets de correspondance sous une meilleure forme :

def displaymatch(match):
    if match is None:
        return None
    return '<Match: %r, groups=%r>' % (match.group(), match.groups())

Supposez que vous écriviez un jeu de poker où la main d’un joueur est représentée par une chaîne de 5 caractères avec chaque caractère représentant une carte, « a » pour l’as, « k » pour le roi (king), « q » pour la reine (queen), « j » pour le valet (jack), « t » pour 10 (ten), et les caractères de « 2 » à « 9 » représentant les cartes avec ces valeurs.

To see if a given string is a valid hand, one could do the following:

>>> valid = re.compile(r"^[a2-9tjqk]{5}$")
>>> displaymatch(valid.match("akt5q"))  # Valid.
"<Match: 'akt5q', groups=()>"
>>> displaymatch(valid.match("akt5e"))  # Invalid.
>>> displaymatch(valid.match("akt"))    # Invalid.
>>> displaymatch(valid.match("727ak"))  # Valid.
"<Match: '727ak', groups=()>"

That last hand, "727ak", contained a pair, or two of the same valued cards. To match this with a regular expression, one could use backreferences as such:

>>> pair = re.compile(r".*(.).*\1")
>>> displaymatch(pair.match("717ak"))     # Pair of 7s.
"<Match: '717', groups=('7',)>"
>>> displaymatch(pair.match("718ak"))     # No pairs.
>>> displaymatch(pair.match("354aa"))     # Pair of aces.
"<Match: '354aa', groups=('a',)>"

Pour trouver de quelle carte est composée la paire, on pourrait utiliser la méthode group() de l’objet de correspondance de la manière suivante :

>>> pair.match("717ak").group(1)
'7'

# Error because re.match() returns None, which doesn't have a group() method:
>>> pair.match("718ak").group(1)
Traceback (most recent call last):
  File "<pyshell#23>", line 1, in <module>
    re.match(r".*(.).*\1", "718ak").group(1)
AttributeError: 'NoneType' object has no attribute 'group'

>>> pair.match("354aa").group(1)
'a'

6.2.5.2. Simuler scanf()

Python n’a actuellement pas d’équivalent à la fonction C scanf(). Les expressions rationnelles sont généralement plus puissantes, mais aussi plus verbeuses, que les chaînes de format scanf(). Le tableau suivant présente des expressions rationnelles plus ou moins équivalentes aux éléments de formats de scanf().

Élément de scanf() Expression rationnelle
%c .
%5c .{5}
%d [-+]?\d+
%e, %E, %f, %g [-+]?(\d+(\.\d*)?|\.\d+)([eE][-+]?\d+)?
%i [-+]?(0[xX][\dA-Fa-f]+|0[0-7]*|\d+)
%o [-+]?[0-7]+
%s \S+
%u \d+
%x, %X [-+]?(0[xX])?[\dA-Fa-f]+

Pour extraire le nom de fichier et les nombres depuis une chaîne comme :

/usr/sbin/sendmail - 0 errors, 4 warnings

vous utiliseriez un format scanf() comme :

%s - %d errors, %d warnings

L’expression rationnelle équivalente serait :

(\S+) - (\d+) errors, (\d+) warnings

6.2.5.3. search() vs. match()

Python offre deux opérations primitives basées sur les expressions rationnelles : re.match() cherche une correspondance uniquement au début de la chaîne, tandis que re.search() en recherche une n’importe où dans la chaîne (ce que fait Perl par défaut).

Par exemple :

>>> re.match("c", "abcdef")    # No match
>>> re.search("c", "abcdef")   # Match
<_sre.SRE_Match object; span=(2, 3), match='c'>

Les expressions rationnelles commençant par '^' peuvent être utilisées avec search() pour restreindre la recherche au début de la chaîne :

>>> re.match("c", "abcdef")    # No match
>>> re.search("^c", "abcdef")  # No match
>>> re.search("^a", "abcdef")  # Match
<_sre.SRE_Match object; span=(0, 1), match='a'>

Note however that in MULTILINE mode match() only matches at the beginning of the string, whereas using search() with a regular expression beginning with '^' will match at the beginning of each line.

>>> re.match('X', 'A\nB\nX', re.MULTILINE)  # No match
>>> re.search('^X', 'A\nB\nX', re.MULTILINE)  # Match
<_sre.SRE_Match object; span=(4, 5), match='X'>

6.2.5.4. Construire un répertoire téléphonique

split() découpe une chaîne en une liste délimitée par le motif donné. La méthode est inestimable pour convertir des données textuelles vers des structures de données qui peuvent être lues et modifiées par Python comme démontré dans l’exemple suivant qui crée un répertoire téléphonique.

First, here is the input. Normally it may come from a file, here we are using triple-quoted string syntax:

>>> text = """Ross McFluff: 834.345.1254 155 Elm Street
...
... Ronald Heathmore: 892.345.3428 436 Finley Avenue
... Frank Burger: 925.541.7625 662 South Dogwood Way
...
...
... Heather Albrecht: 548.326.4584 919 Park Place"""

Les entrées sont séparées par un saut de ligne ou plus. Nous convertissons maintenant la chaîne en une liste où chaque ligne non vide aura sa propre entrée :

>>> entries = re.split("\n+", text)
>>> entries
['Ross McFluff: 834.345.1254 155 Elm Street',
'Ronald Heathmore: 892.345.3428 436 Finley Avenue',
'Frank Burger: 925.541.7625 662 South Dogwood Way',
'Heather Albrecht: 548.326.4584 919 Park Place']

Finalement, on sépare chaque entrée en une liste avec prénom, nom, numéro de téléphone et adresse. Nous utilisons le paramètre maxsplit de split() parce que l’adresse contient des espaces, qui sont notre motif de séparation :

>>> [re.split(":? ", entry, 3) for entry in entries]
[['Ross', 'McFluff', '834.345.1254', '155 Elm Street'],
['Ronald', 'Heathmore', '892.345.3428', '436 Finley Avenue'],
['Frank', 'Burger', '925.541.7625', '662 South Dogwood Way'],
['Heather', 'Albrecht', '548.326.4584', '919 Park Place']]

Le motif :? trouve les deux points derrière le nom de famille, pour qu’ils n’apparaissent pas dans la liste résultante. Avec un maxsplit de 4, nous pourrions séparer le numéro du nom de la rue.

>>> [re.split(":? ", entry, 4) for entry in entries]
[['Ross', 'McFluff', '834.345.1254', '155', 'Elm Street'],
['Ronald', 'Heathmore', '892.345.3428', '436', 'Finley Avenue'],
['Frank', 'Burger', '925.541.7625', '662', 'South Dogwood Way'],
['Heather', 'Albrecht', '548.326.4584', '919', 'Park Place']]

6.2.5.5. Mélanger les lettres des mots

sub() remplace toutes les occurrences d’un motif par une chaîne ou le résultat d’une fonction. Cet exemple le montre, en utilisant sub() avec une fonction qui mélange aléatoirement les caractères de chaque mot dans une phrase (à l’exception des premiers et derniers caractères) :

>>> def repl(m):
...     inner_word = list(m.group(2))
...     random.shuffle(inner_word)
...     return m.group(1) + "".join(inner_word) + m.group(3)
>>> text = "Professor Abdolmalek, please report your absences promptly."
>>> re.sub(r"(\w)(\w+)(\w)", repl, text)
'Poefsrosr Aealmlobdk, pslaee reorpt your abnseces plmrptoy.'
>>> re.sub(r"(\w)(\w+)(\w)", repl, text)
'Pofsroser Aodlambelk, plasee reoprt yuor asnebces potlmrpy.'

6.2.5.6. Trouver tous les adverbes

findall() matches all occurrences of a pattern, not just the first one as search() does. For example, if one was a writer and wanted to find all of the adverbs in some text, he or she might use findall() in the following manner:

>>> text = "He was carefully disguised but captured quickly by police."
>>> re.findall(r"\w+ly", text)
['carefully', 'quickly']

6.2.5.7. Trouver tous les adverbes et leurs positions

If one wants more information about all matches of a pattern than the matched text, finditer() is useful as it provides match objects instead of strings. Continuing with the previous example, if one was a writer who wanted to find all of the adverbs and their positions in some text, he or she would use finditer() in the following manner:

>>> text = "He was carefully disguised but captured quickly by police."
>>> for m in re.finditer(r"\w+ly", text):
...     print('%02d-%02d: %s' % (m.start(), m.end(), m.group(0)))
07-16: carefully
40-47: quickly

6.2.5.8. Notation brutes de chaînes

Raw string notation (r"text") keeps regular expressions sane. Without it, every backslash ('\') in a regular expression would have to be prefixed with another one to escape it. For example, the two following lines of code are functionally identical:

>>> re.match(r"\W(.)\1\W", " ff ")
<_sre.SRE_Match object; span=(0, 4), match=' ff '>
>>> re.match("\\W(.)\\1\\W", " ff ")
<_sre.SRE_Match object; span=(0, 4), match=' ff '>

When one wants to match a literal backslash, it must be escaped in the regular expression. With raw string notation, this means r"\\". Without raw string notation, one must use "\\\\", making the following lines of code functionally identical:

>>> re.match(r"\\", r"\\")
<_sre.SRE_Match object; span=(0, 1), match='\\'>
>>> re.match("\\\\", r"\\")
<_sre.SRE_Match object; span=(0, 1), match='\\'>

6.2.5.9. Écrire un analyseur lexical

Un analyseur lexical ou scanner analyse une chaîne pour catégoriser les groupes de caractères. C’est une première étape utile dans l’écriture d’un compilateur ou d’un interpréteur.

Les catégories de texte sont spécifiées par des expressions rationnelles. La technique est de les combiner dans une unique expression rationnelle maîtresse, et de boucler sur les correspondances successives :

import collections
import re

Token = collections.namedtuple('Token', ['typ', 'value', 'line', 'column'])

def tokenize(code):
    keywords = {'IF', 'THEN', 'ENDIF', 'FOR', 'NEXT', 'GOSUB', 'RETURN'}
    token_specification = [
        ('NUMBER',  r'\d+(\.\d*)?'),  # Integer or decimal number
        ('ASSIGN',  r':='),           # Assignment operator
        ('END',     r';'),            # Statement terminator
        ('ID',      r'[A-Za-z]+'),    # Identifiers
        ('OP',      r'[+\-*/]'),      # Arithmetic operators
        ('NEWLINE', r'\n'),           # Line endings
        ('SKIP',    r'[ \t]+'),       # Skip over spaces and tabs
        ('MISMATCH',r'.'),            # Any other character
    ]
    tok_regex = '|'.join('(?P<%s>%s)' % pair for pair in token_specification)
    line_num = 1
    line_start = 0
    for mo in re.finditer(tok_regex, code):
        kind = mo.lastgroup
        value = mo.group(kind)
        if kind == 'NEWLINE':
            line_start = mo.end()
            line_num += 1
        elif kind == 'SKIP':
            pass
        elif kind == 'MISMATCH':
            raise RuntimeError(f'{value!r} unexpected on line {line_num}')
        else:
            if kind == 'ID' and value in keywords:
                kind = value
            column = mo.start() - line_start
            yield Token(kind, value, line_num, column)

statements = '''
    IF quantity THEN
        total := total + price * quantity;
        tax := price * 0.05;
    ENDIF;
'''

for token in tokenize(statements):
    print(token)

L’analyseur produit la sortie suivante :

Token(typ='IF', value='IF', line=2, column=4)
Token(typ='ID', value='quantity', line=2, column=7)
Token(typ='THEN', value='THEN', line=2, column=16)
Token(typ='ID', value='total', line=3, column=8)
Token(typ='ASSIGN', value=':=', line=3, column=14)
Token(typ='ID', value='total', line=3, column=17)
Token(typ='OP', value='+', line=3, column=23)
Token(typ='ID', value='price', line=3, column=25)
Token(typ='OP', value='*', line=3, column=31)
Token(typ='ID', value='quantity', line=3, column=33)
Token(typ='END', value=';', line=3, column=41)
Token(typ='ID', value='tax', line=4, column=8)
Token(typ='ASSIGN', value=':=', line=4, column=12)
Token(typ='ID', value='price', line=4, column=15)
Token(typ='OP', value='*', line=4, column=21)
Token(typ='NUMBER', value='0.05', line=4, column=23)
Token(typ='END', value=';', line=4, column=27)
Token(typ='ENDIF', value='ENDIF', line=5, column=4)
Token(typ='END', value=';', line=5, column=9)