dataclasses — Classes de données

Code source : Lib/dataclasses.py


This module provides a decorator and functions for automatically adding generated special methods such as __init__() and __repr__() to user-defined classes. It was originally described in PEP 557.

Les variables membres à utiliser dans ces méthodes générées sont définies en utilisant les annotations de type PEP 526. Par exemple :

from dataclasses import dataclass

@dataclass
class InventoryItem:
    """Class for keeping track of an item in inventory."""
    name: str
    unit_price: float
    quantity_on_hand: int = 0

    def total_cost(self) -> float:
        return self.unit_price * self.quantity_on_hand

will add, among other things, a __init__() that looks like:

def __init__(self, name: str, unit_price: float, quantity_on_hand: int = 0):
    self.name = name
    self.unit_price = unit_price
    self.quantity_on_hand = quantity_on_hand

Il est important de noter que cette méthode est ajoutée automatiquement dans la classe. Elle n’est jamais écrite dans la définition de InventoryItem.

Nouveau dans la version 3.7.

Classe de données

@dataclasses.dataclass(*, init=True, repr=True, eq=True, order=False, unsafe_hash=False, frozen=False, match_args=True, kw_only=False, slots=False, weakref_slot=False)

Cette fonction est un décorateur qui ajoute aux classes des méthodes spéciales générées automatiquement. Voici une description plus détaillée.

Le décorateur dataclass() examine la classe pour trouver des champs. Un champ est défini comme une variable de classe qui possède une annotation de type. À deux exceptions près décrites plus bas, dataclass() ne prend pas en considération le type donné dans l'annotation.

L’ordre des paramètres des méthodes générées est celui d’apparition des champs dans la définition de la classe.

Le décorateur dataclass() ajoute diverses méthodes spéciales à la classe, décrites ci-après. Si l’une des méthodes ajoutées existe déjà dans la classe, le comportement dépend des paramètres. Le décorateur renvoie la classe sur laquelle il est appelé ; aucune nouvelle classe n'est créée.

Si dataclass() est utilisé directement, il se comporte comme si on l’avait appelé sans argument (c.-à-d. en laissant les valeurs par défaut de sa signature). Ainsi, les trois usages suivants de dataclass() sont équivalents :

@dataclass
class C:
    ...

@dataclass()
class C:
    ...

@dataclass(init=True, repr=True, eq=True, order=False, unsafe_hash=False, frozen=False,
           match_args=True, kw_only=False, slots=False, weakref_slot=False)
class C:
    ...

Les paramètres de dataclass() sont les suivants :

  • init: If true (the default), a __init__() method will be generated.

    If the class already defines __init__(), this parameter is ignored.

  • repr: If true (the default), a __repr__() method will be generated. The generated repr string will have the class name and the name and repr of each field, in the order they are defined in the class. Fields that are marked as being excluded from the repr are not included. For example: InventoryItem(name='widget', unit_price=3.0, quantity_on_hand=10).

    If the class already defines __repr__(), this parameter is ignored.

  • eq: If true (the default), an __eq__() method will be generated. This method compares the class as if it were a tuple of its fields, in order. Both instances in the comparison must be of the identical type.

    If the class already defines __eq__(), this parameter is ignored.

  • order: If true (the default is False), __lt__(), __le__(), __gt__(), and __ge__() methods will be generated. These compare the class as if it were a tuple of its fields, in order. Both instances in the comparison must be of the identical type. If order is true and eq is false, a ValueError is raised.

    If the class already defines any of __lt__(), __le__(), __gt__(), or __ge__(), then TypeError is raised.

  • unsafe_hash: If False (the default), a __hash__() method is generated according to how eq and frozen are set.

    __hash__() is used by built-in hash(), and when objects are added to hashed collections such as dictionaries and sets. Having a __hash__() implies that instances of the class are immutable. Mutability is a complicated property that depends on the programmer's intent, the existence and behavior of __eq__(), and the values of the eq and frozen flags in the dataclass() decorator.

    By default, dataclass() will not implicitly add a __hash__() method unless it is safe to do so. Neither will it add or change an existing explicitly defined __hash__() method. Setting the class attribute __hash__ = None has a specific meaning to Python, as described in the __hash__() documentation.

    If __hash__() is not explicitly defined, or if it is set to None, then dataclass() may add an implicit __hash__() method. Although not recommended, you can force dataclass() to create a __hash__() method with unsafe_hash=True. This might be the case if your class is logically immutable but can nonetheless be mutated. This is a specialized use case and should be considered carefully.

    Here are the rules governing implicit creation of a __hash__() method. Note that you cannot both have an explicit __hash__() method in your dataclass and set unsafe_hash=True; this will result in a TypeError.

    If eq and frozen are both true, by default dataclass() will generate a __hash__() method for you. If eq is true and frozen is false, __hash__() will be set to None, marking it unhashable (which it is, since it is mutable). If eq is false, __hash__() will be left untouched meaning the __hash__() method of the superclass will be used (if the superclass is object, this means it will fall back to id-based hashing).

  • frozen: If true (the default is False), assigning to fields will generate an exception. This emulates read-only frozen instances. If __setattr__() or __delattr__() is defined in the class, then TypeError is raised. See the discussion below.

  • match_args: If true (the default is True), the __match_args__ tuple will be created from the list of parameters to the generated __init__() method (even if __init__() is not generated, see above). If false, or if __match_args__ is already defined in the class, then __match_args__ will not be generated.

Nouveau dans la version 3.10.

  • kw_only: If true (the default value is False), then all fields will be marked as keyword-only. If a field is marked as keyword-only, then the only effect is that the __init__() parameter generated from a keyword-only field must be specified with a keyword when __init__() is called. There is no effect on any other aspect of dataclasses. See the parameter glossary entry for details. Also see the KW_ONLY section.

Nouveau dans la version 3.10.

  • slots: If true (the default is False), __slots__ attribute will be generated and new class will be returned instead of the original one. If __slots__ is already defined in the class, then TypeError is raised.

Nouveau dans la version 3.10.

Modifié dans la version 3.11: If a field name is already included in the __slots__ of a base class, it will not be included in the generated __slots__ to prevent overriding them. Therefore, do not use __slots__ to retrieve the field names of a dataclass. Use fields() instead. To be able to determine inherited slots, base class __slots__ may be any iterable, but not an iterator.

  • weakref_slot : s'il est vrai (la valeur par défaut est False), ajoute un slot nommé "__weakref__", ce qui est nécessaire pour pouvoir référencer faiblement une instance. C'est une erreur de spécifier weakref_slot=True sans spécifier également slots=True.

Nouveau dans la version 3.11.

Les champs peuvent éventuellement préciser une valeur par défaut, en utilisant la syntaxe Python normale :

@dataclass
class C:
    a: int       # 'a' has no default value
    b: int = 0   # assign a default value for 'b'

In this example, both a and b will be included in the added __init__() method, which will be defined as:

def __init__(self, a: int, b: int = 0):

Une TypeError est levée si un champ sans valeur par défaut est défini après un champ avec une valeur par défaut. C’est le cas que ce soit dans une seule classe ou si c’est le résultat d’un héritage de classes.

dataclasses.field(*, default=MISSING, default_factory=MISSING, init=True, repr=True, hash=None, compare=True, metadata=None, kw_only=MISSING)

Dans les cas les plus simples et courants, ce qui a été décrit jusqu'ici suffit. Cependant, les classes de données possèdent des fonctionnalités supplémentaires fondées sur des métadonnées propres à chaque champ. Pour remplir ces métadonnées, il suffit de mettre un appel à la fonction field() à la place de la valeur par défaut, comme dans cet exemple :

@dataclass
class C:
    mylist: list[int] = field(default_factory=list)

c = C()
c.mylist += [1, 2, 3]

Comme le montre la signature, la constante MISSING est une valeur sentinelle pour déterminer si des paramètres ont été fournis par l'utilisateur. None ne conviendrait pas puisque c'est une valeur avec un sens qui peut être différent pour certains paramètres. La sentinelle MISSING est interne au module et ne doit pas être utilisée dans vos programmes.

Les paramètres de field() sont :

  • default : s'il est fourni, il devient la valeur par défaut du champ. L'appel à field() est mis à la place normale de la valeur par défaut, d'où la nécessité de ce paramètre.

  • default_factory : s'il est fourni, ce doit être un objet appelable sans argument. Il est alors appelé à chaque fois qu'il faut une valeur par défaut pour le champ. Ceci permet, entre autres choses, de définir des champs dont les valeurs par défaut sont mutables. Une erreur se produit si default et default_factory sont donnés tous les deux.

  • init: If true (the default), this field is included as a parameter to the generated __init__() method.

  • repr: If true (the default), this field is included in the string returned by the generated __repr__() method.

  • hash: This can be a bool or None. If true, this field is included in the generated __hash__() method. If None (the default), use the value of compare: this would normally be the expected behavior. A field should be considered in the hash if it's used for comparisons. Setting this value to anything other than None is discouraged.

    Cependant, une raison légitime de mettre hash à False alors que compare est à True est la concourance de trois facteurs : le champ est coûteux à hacher ; il est nécessaire pour les comparaisons d'égalité ; et il y a déjà d'autres champs qui participent au hachage des instances. À ce moment, on peut alors se passer du champ dans le hachage tout en le faisant participer aux comparaisons.

  • compare: If true (the default), this field is included in the generated equality and comparison methods (__eq__(), __gt__(), et al.).

  • metadata : ce paramètre est un tableau associatif (mapping en anglais). La valeur par défaut de None est prise comme un dictionnaire vide. Le tableau associatif devient accessible sur l'objet Field, sous la forme d'un MappingProxyType() afin qu'il soit en lecture seule.

  • kw_only: If true, this field will be marked as keyword-only. This is used when the generated __init__() method's parameters are computed.

Nouveau dans la version 3.10.

Si la valeur par défaut d'un champ est donnée dans un appel à field() (et pas directement), l'attribut correspondant de la classe est remplacé par cette valeur. Si le paramètre default n'est pas passé, l'attribut est simplement supprimé. De cette manière, après le passage du décorateur dataclass(), les attributs de la classe contiennent les valeurs par défaut des champs exactement comme si elles avaient été définies directement. Par exemple :

@dataclass
class C:
    x: int
    y: int = field(repr=False)
    z: int = field(repr=False, default=10)
    t: int = 20

Après l'exécution de ce code, l'attribut de classe C.z vaut 10 et l'attribut C.t vaut 20, alors que les attributs C.x et C.y n'existent pas.

class dataclasses.Field

Les objets Field contiennent des informations sur les champs. Ils sont créés en interne, et on y accède à l'aide de la méthode au niveau du module fields() (voir plus bas). Les utilisateurs ne doivent jamais instancier un objet Field eux-mêmes. Les attributs documentés sont les suivants :

  • name : le nom du champ ;

  • type : le type associé au champ par l'annotation ;

  • default, default_factory, init, repr, hash, compare, metadata et kw_only qui correspondent aux paramètres de field() et en prennent les valeurs.

D'autres attributs peuvent exister, mais ils sont privés et ne sont pas censés être inspectés. Le code ne doit jamais reposer sur eux.

dataclasses.fields(class_or_instance)

Renvoie un n-uplet d'objets Field correspondant aux champs de l'argument, à l'exclusion des pseudo-champs ClassVar ou InitVar. L'argument peut être soit une classe de données, soit une instance d'une telle classe ; si ce n'est pas le cas, une exception TypeError est levée.

dataclasses.asdict(obj, *, dict_factory=dict)

Convertit la classe de données obj en un dictionnaire (en utilisant la fonction dict_factory). Les clés et valeurs proviennent directement des champs. Les dictionnaires, listes, n-uplets et instances de classes de données sont parcourus récursivement. Les autres objets sont copiés avec copy.deepcopy().

Exemple d'utilisation de asdict() sur des classes de données imbriquées :

@dataclass
class Point:
     x: int
     y: int

@dataclass
class C:
     mylist: list[Point]

p = Point(10, 20)
assert asdict(p) == {'x': 10, 'y': 20}

c = C([Point(0, 0), Point(10, 4)])
assert asdict(c) == {'mylist': [{'x': 0, 'y': 0}, {'x': 10, 'y': 4}]}

Pour créer une copie superficielle, la solution de contournement suivante peut être utilisée :

dict((field.name, getattr(obj, field.name)) for field in fields(obj))

asdict() lève TypeError si obj n'est pas une instance d'une classe de données.

dataclasses.astuple(obj, *, tuple_factory=tuple)

Convertit l'instance d'une classe de données obj en un n-uplet (en utilisant la fonction tuple_factory). Chaque classe de données est convertie vers un n-uplet des valeurs de ses champs. Cette fonction agit récursivement sur les dictionnaires, listes et n-uplets. Les autres objets sont copiés avec copy.deepcopy().

Pour continuer l'exemple précédent :

assert astuple(p) == (10, 20)
assert astuple(c) == ([(0, 0), (10, 4)],)

Pour créer une copie superficielle, la solution de contournement suivante peut être utilisée :

tuple(getattr(obj, field.name) for field in dataclasses.fields(obj))

astuple() lève TypeError si obj n'est pas une instance d'une classe de données.

dataclasses.make_dataclass(cls_name, fields, *, bases=(), namespace=None, init=True, repr=True, eq=True, order=False, unsafe_hash=False, frozen=False, match_args=True, kw_only=False, slots=False, weakref_slot=False, module=None)

Crée une nouvelle classe de données avec le nom cls_name. Les champs proviennent de fields. Les classes mères sont lues dans bases. L'espace de nommage de la classe est initialisé par namespace. fields est un itérable dont les éléments sont individuellement de la forme name, (name:type) ou (name, type, Field). Si seul name est fourni, typing.Any est utilisé pour type. Les valeurs de init, repr, eq, order, unsafe_hash, frozen, match_args, kw_only, slots et weakref_slot ont la même signification que dans dataclass().

If module is defined, the __module__ attribute of the dataclass is set to that value. By default, it is set to the module name of the caller.

Cette fonction est pratique mais pas absolument nécessaire, puisqu'il suffit de créer par un moyen quelconque une classe avec l'attribut __annotation__ et de lui appliquer la fonction dataclass(), qui la convertit en une classe de données. Par exemple, ceci :

C = make_dataclass('C',
                   [('x', int),
                     'y',
                    ('z', int, field(default=5))],
                   namespace={'add_one': lambda self: self.x + 1})

est équivalent à :

@dataclass
class C:
    x: int
    y: 'typing.Any'
    z: int = 5

    def add_one(self):
        return self.x + 1
dataclasses.replace(obj, /, **changes)

Crée un nouvel objet du même type que obj en affectant aux champs les valeurs données par changes. Si obj n'est pas une classe de données, TypeError est levée. Si une clé dans changes ne correspond à aucun champ de l'instance, TypeError est levée.

The newly returned object is created by calling the __init__() method of the dataclass. This ensures that __post_init__(), if present, is also called.

Init-only variables without default values, if any exist, must be specified on the call to replace() so that they can be passed to __init__() and __post_init__().

Si une clé de changes correspond à un champ défini avec init=False, ValueError est levée.

Be forewarned about how init=False fields work during a call to replace(). They are not copied from the source object, but rather are initialized in __post_init__(), if they're initialized at all. It is expected that init=False fields will be rarely and judiciously used. If they are used, it might be wise to have alternate class constructors, or perhaps a custom replace() (or similarly named) method which handles instance copying.

dataclasses.is_dataclass(obj)

Renvoie True si l'argument est soit une classe de données, soit une instance d'une telle classe. Sinon, renvoie False.

Pour vérifier qu'un objet obj est une instance d'une classe de données, et non pas lui-même une classe de données, ajoutez le test not isinstance(obj, type) :

def is_dataclass_instance(obj):
    return is_dataclass(obj) and not isinstance(obj, type)
dataclasses.MISSING

Une valeur sentinelle pour dénoter l'absence de default ou default_factory.

dataclasses.KW_ONLY

A sentinel value used as a type annotation. Any fields after a pseudo-field with the type of KW_ONLY are marked as keyword-only fields. Note that a pseudo-field of type KW_ONLY is otherwise completely ignored. This includes the name of such a field. By convention, a name of _ is used for a KW_ONLY field. Keyword-only fields signify __init__() parameters that must be specified as keywords when the class is instantiated.

Dans cet exemple y et z sont marqués comme exclusivement nommés :

@dataclass
class Point:
    x: float
    _: KW_ONLY
    y: float
    z: float

p = Point(0, y=1.5, z=2.0)

Une erreur est levée s'il y a plus d'un champ de type KW_ONLY dans une unique classe de données.

Nouveau dans la version 3.10.

exception dataclasses.FrozenInstanceError

Raised when an implicitly defined __setattr__() or __delattr__() is called on a dataclass which was defined with frozen=True. It is a subclass of AttributeError.

Post-initialisation

dataclasses.__post_init__()

When defined on the class, it will be called by the generated __init__(), normally as self.__post_init__(). However, if any InitVar fields are defined, they will also be passed to __post_init__() in the order they were defined in the class. If no __init__() method is generated, then __post_init__() will not automatically be called.

Cette méthode permet, entre autres, d'initialiser des champs qui dépendent d'autres champs. Par exemple :

@dataclass
class C:
    a: float
    b: float
    c: float = field(init=False)

    def __post_init__(self):
        self.c = self.a + self.b

The __init__() method generated by dataclass() does not call base class __init__() methods. If the base class has an __init__() method that has to be called, it is common to call this method in a __post_init__() method:

class Rectangle:
    def __init__(self, height, width):
      self.height = height
      self.width = width

@dataclass
class Square(Rectangle):
    side: float

    def __post_init__(self):
        super().__init__(self.side, self.side)

Note, however, that in general the dataclass-generated __init__() methods don't need to be called, since the derived dataclass will take care of initializing all fields of any base class that is a dataclass itself.

See the section below on init-only variables for ways to pass parameters to __post_init__(). Also see the warning about how replace() handles init=False fields.

Variables de classe

One of the few places where dataclass() actually inspects the type of a field is to determine if a field is a class variable as defined in PEP 526. It does this by checking if the type of the field is typing.ClassVar. If a field is a ClassVar, it is excluded from consideration as a field and is ignored by the dataclass mechanisms. Such ClassVar pseudo-fields are not returned by the module-level fields() function.

Variables d'initialisation

Another place where dataclass() inspects a type annotation is to determine if a field is an init-only variable. It does this by seeing if the type of a field is of type dataclasses.InitVar. If a field is an InitVar, it is considered a pseudo-field called an init-only field. As it is not a true field, it is not returned by the module-level fields() function. Init-only fields are added as parameters to the generated __init__() method, and are passed to the optional __post_init__() method. They are not otherwise used by dataclasses.

On peut par exemple imaginer un champ initialisé à partir d'une base de données s'il n'a pas reçu de valeur explicite :

@dataclass
class C:
    i: int
    j: int | None = None
    database: InitVar[DatabaseType | None] = None

    def __post_init__(self, database):
        if self.j is None and database is not None:
            self.j = database.lookup('j')

c = C(10, database=my_database)

Ici, fields() renvoie des objets Field correspondant à i et à j, mais pas à database.

Instances figées

It is not possible to create truly immutable Python objects. However, by passing frozen=True to the dataclass() decorator you can emulate immutability. In that case, dataclasses will add __setattr__() and __delattr__() methods to the class. These methods will raise a FrozenInstanceError when invoked.

There is a tiny performance penalty when using frozen=True: __init__() cannot use simple assignment to initialize fields, and must use object.__setattr__().

Héritage

Au moment de la création d'une classe de données, le décorateur dataclass() parcourt toutes les classes mères dans l'ordre inverse de résolution des méthodes (donc en commençant par object). À chaque fois qu'une classe de données est rencontrée, ses champs sont insérés dans un tableau associatif ordonné. Pour finir, les champs de la classe elle-même sont rajoutés. Toutes les méthodes générées utilisent en interne ce même tableau associatif. Puisqu'il est ordonné, les champs des classes filles écrasent ceux des classes mères. Voici un exemple :

@dataclass
class Base:
    x: Any = 15.0
    y: int = 0

@dataclass
class C(Base):
    z: int = 10
    x: int = 15

La liste finale des champs contient, dans l'ordre, x, y, z. Le type de x est int, comme déclaré dans C.

The generated __init__() method for C will look like:

def __init__(self, x: int = 15, y: int = 0, z: int = 10):

Re-ordering of keyword-only parameters in __init__()

After the parameters needed for __init__() are computed, any keyword-only parameters are moved to come after all regular (non-keyword-only) parameters. This is a requirement of how keyword-only parameters are implemented in Python: they must come after non-keyword-only parameters.

Dans cet exemple, Base.y, Base.w, et D.t sont des champs exclusivement nommés alors que Base.x et D.z sont des champs normaux :

@dataclass
class Base:
    x: Any = 15.0
    _: KW_ONLY
    y: int = 0
    w: int = 1

@dataclass
class D(Base):
    z: int = 10
    t: int = field(kw_only=True, default=0)

The generated __init__() method for D will look like:

def __init__(self, x: Any = 15.0, z: int = 10, *, y: int = 0, w: int = 1, t: int = 0):

Les paramètres ont été réarrangés par rapport à leur ordre d'apparition dans la liste des champs : les paramètres provenant des attributs normaux sont suivis par les paramètres qui proviennent des attributs exclusivement nommés.

The relative ordering of keyword-only parameters is maintained in the re-ordered __init__() parameter list.

Fabriques de valeurs par défaut

Le paramètre facultatif default_factory de field() est une fonction qui est appelée sans argument pour fournir des valeurs par défaut. Par exemple, voici comment donner la valeur par défaut d'une liste vide :

mylist: list = field(default_factory=list)

If a field is excluded from __init__() (using init=False) and the field also specifies default_factory, then the default factory function will always be called from the generated __init__() function. This happens because there is no other way to give the field an initial value.

Valeurs par défaut mutables

En Python, les valeurs par défaut des attributs sont stockées dans des attributs de la classe. Observez cet exemple, sans classe de données :

class C:
    x = []
    def add(self, element):
        self.x.append(element)

o1 = C()
o2 = C()
o1.add(1)
o2.add(2)
assert o1.x == [1, 2]
assert o1.x is o2.x

Comme attendu, les deux instances de C partagent le même objet pour l'attribut x.

Avec les classes de données, si ce code était valide :

@dataclass
class D:
    x: list = []      # This code raises ValueError
    def add(self, element):
        self.x.append(element)

il générerait un code équivalent à :

class D:
    x = []
    def __init__(self, x=x):
        self.x = x
    def add(self, element):
        self.x.append(element)

assert D().x is D().x

This has the same issue as the original example using class C. That is, two instances of class D that do not specify a value for x when creating a class instance will share the same copy of x. Because dataclasses just use normal Python class creation they also share this behavior. There is no general way for Data Classes to detect this condition. Instead, the dataclass() decorator will raise a ValueError if it detects an unhashable default parameter. The assumption is that if a value is unhashable, it is mutable. This is a partial solution, but it does protect against many common errors.

Pour qu'un champ d'un type mutable soit par défaut initialisé à un nouvel objet pour chaque instance, utilisez une fonction de fabrique :

@dataclass
class D:
    x: list = field(default_factory=list)

assert D().x is not D().x

Modifié dans la version 3.11: au lieu de rechercher et d'interdire les objets de type list, dict ou set, les objets non hachables ne sont plus autorisés comme valeurs par défaut. Le caractère non-hachable est utilisé pour approximer la muabilité.

Descriptor-typed fields

Fields that are assigned descriptor objects as their default value have the following special behaviors:

  • The value for the field passed to the dataclass's __init__ method is passed to the descriptor's __set__ method rather than overwriting the descriptor object.

  • Similarly, when getting or setting the field, the descriptor's __get__ or __set__ method is called rather than returning or overwriting the descriptor object.

  • To determine whether a field contains a default value, dataclasses will call the descriptor's __get__ method using its class access form (i.e. descriptor.__get__(obj=None, type=cls). If the descriptor returns a value in this case, it will be used as the field's default. On the other hand, if the descriptor raises AttributeError in this situation, no default value will be provided for the field.

class IntConversionDescriptor:
    def __init__(self, *, default):
        self._default = default

    def __set_name__(self, owner, name):
        self._name = "_" + name

    def __get__(self, obj, type):
        if obj is None:
            return self._default

        return getattr(obj, self._name, self._default)

    def __set__(self, obj, value):
        setattr(obj, self._name, int(value))

@dataclass
class InventoryItem:
    quantity_on_hand: IntConversionDescriptor = IntConversionDescriptor(default=100)

i = InventoryItem()
print(i.quantity_on_hand)   # 100
i.quantity_on_hand = 2.5    # calls __set__ with 2.5
print(i.quantity_on_hand)   # 2

Note that if a field is annotated with a descriptor type, but is not assigned a descriptor object as its default value, the field will act like a normal field.