pickle — 파이썬 객체 직렬화

소스 코드: Lib/pickle.py


pickle 모듈은 파이썬 객체 구조의 직렬화와 역 직렬화를 위한 바이너리 프로토콜을 구현합니다. “피클링(pickling)”은 파이썬 객체 계층 구조가 바이트 스트림으로 변환되는 절차이며, “역 피클링(unpickling)”은 반대 연산으로, (바이너리 파일 이나 바이트열류 객체로 부터의) 바이트 스트림을 객체 계층 구조로 복원합니다. 피클링(그리고 역 피클링)은 “직렬화(serialization)”, “마샬링(marshalling)” 1 또는 “평탄화(flattening)” 라고도 합니다; 그러나, 혼란을 피하고자, 여기에서 사용된 용어는 “피클링” 과 “역 피클링” 입니다.

경고

pickle 모듈은 잘못되었거나 악의적으로 생성된 데이터에 대해 안전하지 않습니다. 신뢰할 수 없거나 인증되지 않은 출처에서 받은 데이터를 절대로 역 피클 하지 마십시오.

다른 파이썬 모듈과의 관계

marshal 과의 비교

파이썬이 marshal 이라 불리는 좀 더 원시적인 직렬화 모듈을 가지고 있지만, 일반적으로 pickle 은 항상 파이썬 객체를 직렬화하기 위해 선호되는 방법이어야 합니다. marshal 은 주로 파이썬의 .pyc 파일을 지원하기 위해 존재합니다.

pickle 모듈은 marshal과 몇 가지 중요한 점에서 다릅니다:

  • pickle 모듈은 이미 직렬화된 객체를 추적하므로 나중에 같은 객체에 대한 참조가 다시 직렬화되지 않습니다. marshal 은 이렇게 하지 않습니다.

    이는 재귀 객체와 객체 공유에 모두 관련이 있습니다. 재귀 객체는 자신에 대한 참조를 포함하는 객체입니다. 이것은 마샬에 의해 처리되지 않으며, 실제로 재귀 객체를 마샬 하려고 하면 파이썬 인터프리터가 충돌합니다. 객체 공유는 직렬화되는 객체 계층의 다른 위치에서 같은 객체에 대한 다중 참조가 있을 때 발생합니다. pickle 은 그러한 객체를 한 번만 저장하고, 다른 모든 참조가 마스터 복사본을 가리키도록 만듭니다. 공유 객체는 공유된 상태로 유지되는데, 가변 객체의 경우 매우 중요할 수 있습니다.

  • marshal은 사용자 정의 클래스와 인스턴스를 직렬화하는 데 사용할 수 없습니다. pickle 은 클래스 인스턴스를 투명하게 저장하고 복원할 수 있지만, 클래스 정의는 객체를 저장할 때와 같은 모듈에 존재하고 임포트 할 수 있어야 합니다.

  • marshal 직렬화 형식은 파이썬 버전 간에 이식성이 보장되지 않습니다. 가장 중요한 일은 .pyc 파일을 지원하는 것이므로, 파이썬 구현자는 필요할 때 직렬화 형식을 과거 호환되지 않는 방식으로 변경할 권리를 갖습니다. pickle 직렬화 형식은, 호환성 있는 피클 프로토콜이 선택되고 여러분의 데이터가 파이썬 2와 파이썬 3의 호환되지 않는 언어 경계를 가로지를 때 피클링과 역 피클링 코드가 두 파이썬 형의 차이점을 다루는 한, 파이썬 배포 간의 과거 호환성을 보장합니다.

json 과의 비교

pickle 프로토콜과 JSON (JavaScript Object Notation) 간에는 근본적인 차이가 있습니다:

  • JSON은 텍스트 직렬화 형식(유니코드 텍스트를 출력하지만, 대개는 utf-8 으로 인코딩됩니다)인 반면, pickle은 바이너리 직렬화 형식입니다.

  • JSON은 사람이 읽을 수 있지만, 피클은 그렇지 않습니다.

  • JSON은 상호 운용이 가능하며 파이썬 생태계 외부에서 널리 사용되는 반면, 피클은 파이썬으로만 한정됩니다.

  • JSON은, 기본적으로, 파이썬 내장형 일부만 표시할 수 있으며 사용자 정의 클래스는 표시할 수 없습니다; 피클은 매우 많은 수의 파이썬 형을 나타낼 수 있습니다 (그중 많은 것들은 파이썬의 인트로스펙션 기능을 영리하게 사용하여 자동으로; 복잡한 경우는 특정 객체 API 를 구현해서 해결할 수 있습니다).

더 보기

json 모듈: JSON 직렬화와 역 직렬화를 가능하게 하는 표준 라이브러리 모듈.

데이터 스트림 형식

pickle 이 사용하는 데이터 형식은 파이썬에 고유합니다. 이것은 JSON 또는 XDR (포인터 공유를 나타낼 수 없음)과 같은 외부 표준에 의해 부과된 제약이 없다는 장점이 있습니다. 그러나 비 파이썬 프로그램은 피클 된 파이썬 객체를 재구성할 수 없다는 것을 의미합니다.

기본적으로, pickle 데이터 포맷은 상대적으로 간결한 바이너리 표현을 사용합니다. 최적의 크기 특성이 필요하다면, 피클 된 데이터를 효율적으로 압축 할 수 있습니다.

모듈 pickletools 에는 pickle 에 의해 생성된 데이터 스트림을 분석하는 도구가 있습니다. pickletools 소스 코드에는 피클 프로토콜에서 사용되는 옵코드(opcode)에 대한 광범위한 주석이 있습니다.

현재 피클링에 쓸 수 있는 5가지 프로토콜이 있습니다. 사용된 프로토콜이 높을수록, 생성된 피클을 읽으려면 더 최신 파이썬 버전이 필요합니다.

  • 프로토콜 버전 0은 최초의 “사람이 읽을 수 있는” 프로토콜이며 이전 버전의 파이썬과 과거 호환됩니다.

  • 프로토콜 버전 1은 역시 이전 버전의 파이썬과 호환되는 오래된 바이너리 형식입니다.

  • 프로토콜 버전 2는 파이썬 2.3에서 소개되었습니다. 그것은 훨씬 더 효율적인 뉴스타일 클래스의 피클링을 제공합니다. 프로토콜 2에 의해 개선된 사항에 대한 정보는 PEP 307을 참조하십시오.

  • 프로토콜 버전 3은 파이썬 3.0에서 추가되었습니다. 명시적으로 bytes 객체를 지원하며 파이썬 2.x에서 역 피클 될 수 없습니다. 이것은 기본 프로토콜이며, 다른 파이썬 3 버전과의 호환성이 필요한 경우 권장되는 프로토콜입니다.

  • 프로토콜 버전 4가 파이썬 3.4에 추가되었습니다. 매우 큰 객체, 더 많은 종류의 객체에 대한 피클링, 일부 데이터 형식 최적화에 대한 지원을 추가합니다. 프로토콜 4에 의해 개선된 사항에 대한 정보는 PEP 3154를 참조하십시오.

참고

직렬화는 지속성보다 더 원시적인 개념입니다; pickle 이 파일 객체를 읽거나 쓰기는 하지만, 지속적인 객체의 이름 지정도 (더 복잡한) 지속적인 객체에 대한 동시 액세스 문제도 처리하지 않습니다. pickle 모듈은 복잡한 객체를 바이트 스트림으로 변환할 수 있고 바이트 스트림을 같은 내부 구조를 가진 객체로 변환할 수 있습니다. 아마도 이러한 바이트 스트림으로 할 가장 분명한 작업은 파일에 쓰는 것이겠지만, 네트워크를 통해 보내거나 데이터베이스에 저장하는 것도 고려할 수 있습니다. shelve 모듈은 DBM 스타일의 데이터베이스 파일에 객체를 피클/역 피클 하는 간단한 인터페이스를 제공합니다.

모듈 인터페이스

객체 계층 구조를 직렬화하려면, 단순히 dumps() 함수를 호출하면 됩니다. 마찬가지로, 데이터 스트림을 역 직렬화하려면 loads() 함수를 호출합니다. 그러나, 직렬화와 역 직렬화에 대한 더 많은 제어를 원하면, 각각 PicklerUnpickler 객체를 만들 수 있습니다.

pickle 모듈은 다음과 같은 상수를 제공합니다:

pickle.HIGHEST_PROTOCOL

정수, 사용 가능한 가장 높은 프로토콜 버전. 이 값은 함수 dump()dumps() 그리고 Pickler 생성자에 protocol 값으로 전달될 수 있습니다.

pickle.DEFAULT_PROTOCOL

정수, 피클링에 사용되는 기본 프로토콜 버전. HIGHEST_PROTOCOL 보다 작을 수 있습니다. 현재 기본 프로토콜은 3인데, 파이썬 3 용으로 설계된 새로운 프로토콜입니다.

pickle 모듈은 피클링 절차를 보다 편리하게 하려고 다음과 같은 함수를 제공합니다:

pickle.dump(obj, file, protocol=None, *, fix_imports=True)

Write the pickled representation of the object obj to the open file object file. This is equivalent to Pickler(file, protocol).dump(obj).

선택적 protocol 인자(정수)는 피클러가 주어진 프로토콜을 사용하도록 지시합니다; 지원되는 프로토콜은 0부터 HIGHEST_PROTOCOL 입니다. 지정하지 않으면 기본값은 DEFAULT_PROTOCOL 입니다. 음수가 지정되면, HIGHEST_PROTOCOL 이 선택됩니다.

file 인자에는 단일 바이트열 인자를 받아들이는 write() 메서드가 있어야 합니다. 따라서 바이너리 쓰기를 위해 열린 디스크 상의 파일, io.BytesIO 인스턴스 또는 이 인터페이스를 충족시키는 다른 사용자 정의 객체일 수 있습니다.

fix_imports 가 참이고 protocol 이 3보다 작으면, pickle은 새로운 파이썬 3 이름을 파이썬 2에서 사용된 이전 모듈 이름에 매핑하려고 시도하여, 파이썬 2에서 피클 데이터 스트림을 읽을 수 있도록 합니다.

pickle.dumps(obj, protocol=None, *, fix_imports=True)

Return the pickled representation of the object obj as a bytes object, instead of writing it to a file.

인자 protocolfix_importsdump()와 같은 의미입니다.

pickle.load(file, *, fix_imports=True, encoding="ASCII", errors="strict")

Read the pickled representation of an object from the open file object file and return the reconstituted object hierarchy specified therein. This is equivalent to Unpickler(file).load().

The protocol version of the pickle is detected automatically, so no protocol argument is needed. Bytes past the pickled representation of the object are ignored.

인자 file 에는 두 가지 메서드가 있어야 합니다, 정수 인자를 받아들이는 read() 메서드와 인자가 없는 readline() 메서드. 두 메서드 모두 바이트열를 반환해야 합니다. 따라서 file 은 바이너리 읽기를 위해 열린 디스크 상의 파일, io.BytesIO 객체 또는 이 인터페이스를 만족하는 다른 사용자 정의 객체일 수 있습니다.

선택적 키워드 인자는 fix_imports, encodingerrors 인데, 파이썬 2에서 생성된 피클 스트림에 대한 호환성 지원을 제어하는 데 사용됩니다. fix_imports 가 참이면, pickle은 이전 파이썬 2 이름을 파이썬 3에서 사용된 새로운 이름으로 매핑하려고 합니다. encodingerrors 는 파이썬 2에 의해 피클 된 8비트 문자열 인스턴스를 디코딩하는 방법을 pickle에게 알려줍니다. 기본값은 각각 ‘ASCII’와 ‘strict’ 입니다. encoding 은 ‘bytes’ 가 될 수 있는데, 8비트 문자열 인스턴스를 바이트열 객체로 읽습니다. NumPy 배열과 파이썬 2에서 피클 된 datetime, datetime 인스턴스를 역 피클링하려면 encoding='latin1'을 사용해야 합니다.

pickle.loads(data, *, fix_imports=True, encoding="ASCII", errors="strict")

Return the reconstituted object hierarchy of the pickled representation data of an object. data must be a bytes-like object.

The protocol version of the pickle is detected automatically, so no protocol argument is needed. Bytes past the pickled representation of the object are ignored.

선택적 키워드 인자는 fix_imports, encodingerrors 인데, 파이썬 2에서 생성된 피클 스트림에 대한 호환성 지원을 제어하는 데 사용됩니다. fix_imports 가 참이면, pickle은 이전 파이썬 2 이름을 파이썬 3에서 사용된 새로운 이름으로 매핑하려고 합니다. encodingerrors 는 파이썬 2에 의해 피클 된 8비트 문자열 인스턴스를 디코딩하는 방법을 pickle에게 알려줍니다. 기본값은 각각 ‘ASCII’와 ‘strict’ 입니다. encoding 은 ‘bytes’ 가 될 수 있는데, 8비트 문자열 인스턴스를 바이트열 객체로 읽습니다. NumPy 배열과 파이썬 2에서 피클 된 datetime, datetime 인스턴스를 역 피클링하려면 encoding='latin1'을 사용해야 합니다.

pickle 모듈은 세 가지 예외를 정의합니다:

exception pickle.PickleError

다른 피클링 예외의 공통 베이스 클래스입니다. Exception을 상속합니다.

exception pickle.PicklingError

Pickler 가 피클 가능하지 않은 객체를 만날 때 발생하는 에러. PickleError 를 상속합니다.

어떤 종류의 객체가 피클 될 수 있는지 배우려면 어떤 것이 피클 되고 역 피클 될 수 있을까요?를 참조하십시오.

exception pickle.UnpicklingError

데이터 손상 또는 보안 위반과 같이 객체를 역 피클 할 때 문제가 있으면 발생하는 에러. PickleError 를 상속합니다.

역 피클링 중에 다른 예외도 발생할 수 있음에 유의하십시오. AttributeError, EOFError, ImportError, IndexError 등이 발생할 수 있지만, 이에 국한되지는 않습니다.

pickle 모듈은 두 개의 클래스를 노출합니다, PicklerUnpickler:

class pickle.Pickler(file, protocol=None, *, fix_imports=True)

피클 데이터 스트림을 쓸 바이너리 파일을 받아들입니다.

선택적 protocol 인자(정수)는 피클러가 주어진 프로토콜을 사용하도록 지시합니다; 지원되는 프로토콜은 0부터 HIGHEST_PROTOCOL 입니다. 지정하지 않으면 기본값은 DEFAULT_PROTOCOL 입니다. 음수가 지정되면, HIGHEST_PROTOCOL 이 선택됩니다.

file 인자에는 단일 바이트열 인자를 받아들이는 write() 메서드가 있어야 합니다. 따라서 바이너리 쓰기를 위해 열린 디스크 상의 파일, io.BytesIO 인스턴스 또는 이 인터페이스를 충족시키는 다른 사용자 정의 객체일 수 있습니다.

fix_imports 가 참이고 protocol 이 3보다 작으면, pickle은 새로운 파이썬 3 이름을 파이썬 2에서 사용된 이전 모듈 이름에 매핑하려고 시도하여, 파이썬 2에서 피클 데이터 스트림을 읽을 수 있도록 합니다.

dump(obj)

Write the pickled representation of obj to the open file object given in the constructor.

persistent_id(obj)

기본적으로 아무것도 하지 않습니다. 이것은 서브 클래스가 재정의할 수 있게 하려고 존재합니다.

persistent_id()None 을 반환하면, obj 는 보통 때처럼 피클 됩니다. 다른 값은 Picklerobj 의 지속성(persistent) ID로 반환 값을 출력하도록 합니다. 이 지속성 ID의 의미는 Unpickler.persistent_load() 에 의해 정의되어야 합니다. persistent_id() 에 의해 반환된 값 자체는 지속성 ID를 가질 수 없음에 유의하십시오.

자세한 내용과 사용 예는 외부 객체의 지속성를 참조하십시오.

dispatch_table

피클러 객체의 디스패치 테이블은 copyreg.pickle() 을 사용하여 선언할 수 있는 환원 함수(reduction functions) 의 등록소입니다. 키가 클래스이고 값이 환원 함수인 매핑입니다. 환원 함수는 관련 클래스의 단일 인자를 취하며 __reduce__() 메서드와 같은 인터페이스를 따라야 합니다.

기본적으로, 피클러 객체는 dispatch_table 어트리뷰트를 가지지 않을 것이고, 대신 copyreg 모듈에 의해 관리되는 전역 디스패치 테이블을 사용할 것입니다. 그러나 특정 피클러 객체의 피클링을 사용자 정의하기 위해서 dispatch_table 어트리뷰트를 딕셔너리류 객체로 설정할 수 있습니다. 또는, Pickler 의 서브 클래스가 dispatch_table 어트리뷰트를 가지고 있다면, 이 클래스의 인스턴스를 위한 기본 디스패치 테이블로 사용됩니다.

사용 예는 디스패치 테이블을 참조하십시오.

버전 3.3에 추가.

fast

폐지되었습니다. 참값으로 설정된 경우 빠른 모드를 활성화합니다. 빠른 모드는 메모 사용을 비활성화하므로, 불필요한 PUT 옵코드를 생성하지 않아 피클링 절차의 속도를 높입니다. 자신을 참조하는 객체에 사용되면 안 됩니다. 그렇지 않으면 Pickler 가 무한 재귀에 빠집니다.

더 간결한 피클이 필요하면 pickletools.optimize() 를 사용하십시오.

class pickle.Unpickler(file, *, fix_imports=True, encoding="ASCII", errors="strict")

피클 데이터 스트림을 읽는 데 사용될 바이너리 파일을 받아들입니다.

피클의 프로토콜 버전이 자동으로 감지되므로 프로토콜 인자가 필요하지 않습니다.

인자 file 에는 두 가지 메서드가 있어야 합니다, 정수 인자를 받아들이는 read() 메서드와 인자가 없는 readline() 메서드. 두 메서드 모두 바이트열을 반환해야 합니다. 따라서 file 은 바이너리 읽기를 위해 열린 디스크 상의 파일 객체, io.BytesIO 객체 또는 이 인터페이스를 만족하는 다른 사용자 정의 객체일 수 있습니다.

선택적 키워드 인자는 fix_imports, encodingerrors 인데, 파이썬 2에서 생성된 피클 스트림에 대한 호환성 지원을 제어하는 데 사용됩니다. fix_imports 가 참이면, pickle은 이전 파이썬 2 이름을 파이썬 3에서 사용된 새로운 이름으로 매핑하려고 합니다. encodingerrors 는 파이썬 2에 의해 피클 된 8비트 문자열 인스턴스를 디코딩하는 방법을 pickle에게 알려줍니다. 기본값은 각각 ‘ASCII’와 ‘strict’ 입니다. encoding 은 ‘bytes’ 가 될 수 있는데, 8비트 문자열 인스턴스를 바이트열 객체로 읽습니다.

load()

Read the pickled representation of an object from the open file object given in the constructor, and return the reconstituted object hierarchy specified therein. Bytes past the pickled representation of the object are ignored.

persistent_load(pid)

기본적으로 UnpicklingError를 발생시킵니다.

정의되면, persistent_load() 는 지속성 ID pid 로 지정된 객체를 반환해야 합니다. 유효하지 않은 지속성 ID가 발견되면 UnpicklingError를 일으켜야 합니다.

자세한 내용과 사용 예는 외부 객체의 지속성를 참조하십시오.

find_class(module, name)

필요하면 module 을 임포트하고 거기에서 name 이라는 객체를 반환합니다. 여기서 modulename 인자는 str 객체입니다. 그 이름이 제시하는 것과는 달리, find_class() 는 함수를 찾는 데에도 사용됨에 유의하십시오.

로드되는 객체의 형과 로드 방법을 제어하기 위해 서브 클래스는 이것을 재정의할 수 있고, 잠재적으로 보안 위험을 감소시킵니다. 자세한 내용은 전역 제한하기를 참조하십시오.

어떤 것이 피클 되고 역 피클 될 수 있을까요?

다음 형을 피클 할 수 있습니다:

  • None, TrueFalse

  • 정수, 실수, 복소수

  • 문자열, 바이트열, 바이트 배열(bytearray)

  • 피클 가능한 객체만 포함하는 튜플, 리스트, 집합과 딕셔너리

  • 모듈의 최상위 수준에서 정의된 함수 (lambda 가 아니라 def 를 사용하는)

  • 모듈의 최상위 수준에서 정의된 내장 함수

  • 모듈의 최상위 수준에서 정의된 클래스

  • 그런 클래스의 인스턴스 중에서 __dict____getstate__() 를 호출한 결과가 피클 가능한 것들 (자세한 내용은 클래스 인스턴스 피클링 절을 참조하세요).

피클 가능하지 않은 객체를 피클 하려고 하면 PicklingError 예외가 발생합니다; 이런 일이 일어났을 때, 특정할 수 없는 길이의 바이트열이 하부 파일에 이미 기록되었을 수 있습니다. 매우 재귀적인 데이터 구조를 피클 하려고 하면 최대 재귀 깊이를 초과할 수 있고, 이때 RecursionError 가 발생합니다. sys.setrecursionlimit() 을 사용하여 이 제한을 조심스럽게 올릴 수 있습니다.

함수(내장 및 사용자 정의)는 값이 아니라 “완전히 정규화된” 이름 참조로 피클 됨에 유의하십시오. 2 이것은 함수가 정의된 모듈의 이름과 함께 함수의 이름만 피클 된다는 것을 의미합니다. 함수의 코드도 함수 어트리뷰트도 피클 되지 않습니다. 따라서 정의하는 모듈은 역 피클 환경에서 임포트 가능해야 하며, 모듈에는 그 이름의 객체가 있어야 합니다. 그렇지 않으면 예외가 발생합니다. 3

마찬가지로, 클래스는 이름 참조로 피클 되므로 역 피클링 환경에서 같은 제한이 적용됩니다. 클래스의 코드 나 데이터가 피클 되지 않음에 유의하세요. 그래서 다음 예제에서 클래스 어트리뷰트 attr 은 역 피클링 환경에서 복원되지 않습니다:

class Foo:
    attr = 'A class attribute'

picklestring = pickle.dumps(Foo)

이러한 제한이 피클 가능한 함수와 클래스가 모듈의 최상위 수준에서 정의되어야 하는 이유입니다.

마찬가지로, 클래스 인스턴스가 피클 될 때, 클래스의 코드와 데이터는 함께 피클 되지 않습니다. 인스턴스 데이터만 피클 됩니다. 이는 의도한 것으로, 클래스의 버그를 수정하거나 클래스에 메서드를 추가할 수 있고, 이전 버전의 클래스로 만들어진 객체를 여전히 로드 할 수 있습니다. 여러 버전의 클래스에 걸치는 수명이 긴 객체를 만들 계획이라면, 클래스의 __setstate__() 메서드로 적절한 변환을 할 수 있도록 객체에 버전 번호를 넣는 것이 좋습니다.

클래스 인스턴스 피클링

이 절에서는 클래스 인스턴스를 피클 및 역 피클 하는 방법을 정의, 사용자 정의 및 제어할 수 있는 일반적인 메커니즘을 설명합니다.

대부분은, 인스턴스를 피클 가능하게 만드는 데 추가 코드가 필요하지 않습니다. 기본적으로, pickle은 인트로스펙션을 통해 인스턴스의 클래스와 어트리뷰트를 조회합니다. 클래스 인스턴스가 역 피클 될 때, __init__() 메서드는 보통 호출되지 않습니다. 기본 동작은, 먼저 초기화되지 않은 인스턴스를 만든 다음 저장된 어트리뷰트를 복원합니다. 다음 코드는 이 동작의 구현을 보여줍니다:

def save(obj):
    return (obj.__class__, obj.__dict__)

def load(cls, attributes):
    obj = cls.__new__(cls)
    obj.__dict__.update(attributes)
    return obj

클래스는 다음과 같은 하나 이상의 특수 메서드를 제공하여 기본 동작을 변경할 수 있습니다:

object.__getnewargs_ex__()

프로토콜 2 이상에서, __getnewargs_ex__() 메서드를 구현하는 클래스는 역 피클링 때 __new__() 메서드에 전달되는 값을 지시할 수 있습니다. 이 메서드는 (args, kwargs) 쌍을 반환해야 합니다. args 는 위치 인자의 튜플이고 kwargs 는 이름있는 인자의 딕셔너리인데, 객체를 구성하는 데 사용됩니다. 그것들은 역 피클링 때 __new__() 메서드로 전달될 것입니다.

클래스의 __new__() 메서드에 키워드 전용 인자가 필요하면 이 메서드를 구현해야 합니다. 그렇지 않으면 호환성을 위해 __getnewargs__() 를 구현하는 것이 좋습니다.

버전 3.6에서 변경: __getnewargs_ex__() 는 이제 프로토콜 2와 3에서 사용됩니다.

object.__getnewargs__()

이 메서드는 __getnewargs_ex__() 와 비슷한 목적을 수행하지만, 위치 인자만 지원합니다. 역 피클링 때 __new__() 메서드에 전달될 인자의 튜플 args 를 반환해야 합니다.

__getnewargs_ex__() 가 정의되면 __getnewargs__() 는 호출되지 않습니다.

버전 3.6에서 변경: 파이썬 3.6 이전에는, 프로토콜 2와 3에서 __getnewargs_ex__() 대신 __getnewargs__() 가 호출되었습니다.

object.__getstate__()

클래스는 인스턴스가 피클 되는 방식에 더 많은 영향을 줄 수 있습니다; 클래스가 메서드 __getstate__() 를 정의하면, 인스턴스의 딕셔너리 내용 대신, 이 메서드가 호출되고 반환된 객체를 인스턴스의 내용으로 피클 합니다. __getstate__() 메서드가 없다면, 인스턴스의 __dict__ 가 평소와 같이 피클 됩니다.

object.__setstate__(state)

역 피클링 때, 클래스가 __setstate__() 를 정의하면, 그것은 역 피클 된 상태(state)로 호출됩니다. 이 경우 상태 객체가 딕셔너리일 필요는 없습니다. 그렇지 않으면, 피클 된 상태는 딕셔너리 여야하고 그 항목이 새 인스턴스의 딕셔너리에 삽입됩니다.

참고

__getstate__() 가 거짓 값을 반환하면, __setstate__() 메서드가 역 피클링 때 호출되지 않습니다.

__getstate__()__setstate__() 메서드를 사용하는 방법에 대한 더 자세한 정보는 상태 저장 객체 처리 절을 참조하십시오.

참고

At unpickling time, some methods like __getattr__(), __getattribute__(), or __setattr__() may be called upon the instance. In case those methods rely on some internal invariant being true, the type should implement __new__() to establish such an invariant, as __init__() is not called when unpickling an instance.

앞으로 살펴보겠지만, 피클은 위에서 설명한 메서드를 직접 사용하지 않습니다. 사실, 이 메서드들은 __reduce__() 특수 메서드를 구현하는 복사 프로토콜의 일부입니다. 복사 프로토콜은 객체를 피클 하고 복사하는 데 필요한 데이터를 조회하기 위한 통일된 인터페이스를 제공합니다. 4

강력하기는 하지만, 여러분의 클래스에서 직접 __reduce__() 를 구현하면 잘못되기 쉽습니다. 이런 이유로, 클래스 설계자는 가능하면 고수준 인터페이스(즉, __getnewargs_ex__(), __getstate__()__setstate__())를 사용해야 합니다. 하지만, 우리는 __reduce__() 를 사용하는 것이 유일한 옵션이거나 더 효율적인 피클링을 제공하거나 혹은 둘 다인 경우를 보여줄 것입니다.

object.__reduce__()

인터페이스는 현재 다음과 같이 정의됩니다. __reduce__() 메서드는 아무런 인자도 받아들이지 않으며 문자열이나 바람직하게는 튜플을 반환합니다 (반환된 객체는 흔히 “환원 값(reduce value)”이라고 불립니다).

문자열이 반환되면, 문자열은 전역 변수의 이름으로 해석되어야 합니다. 모듈에 상대적인 객체의 지역 이름이어야 합니다; pickle 모듈은 객체의 모듈을 결정하기 위해 모듈 이름 공간을 검색합니다. 이 동작은 일반적으로 싱글톤에 유용합니다.

튜플이 반환될 때는, 길이가 2나 5가 되어야 합니다. 선택적인 항목은 생략되거나 None 이 값으로 제공될 수 있습니다. 각 항목의 의미는 순서대로 다음과 같습니다:

  • 객체의 초기 버전을 만들기 위해 호출할 콜러블 객체.

  • 콜러블 객체에 대한 인자의 튜플. 콜러블 객체가 인자를 받아들이지 않으면 빈 튜플을 제공해야 합니다.

  • 선택적으로, 객체의 상태. 앞에서 설명한 대로 객체의 __setstate__() 메서드에 전달됩니다. 객체에 그런 메서드가 없다면, 그 값은 딕셔너리 여야 하며 객체의 __dict__ 어트리뷰트에 추가됩니다.

  • 선택적으로, 연속적인 항목을 생성하는 이터레이터(시퀀스가 아닙니다). 이 항목들은 obj.append(item) 을 사용하거나 한꺼번에 obj.extend(list_of_items) 를 사용하여 객체에 추가될 것입니다. 이것은 주로 리스트 서브 클래스에 사용되지만, 적절한 서명을 갖는 append()extend() 메서드가 있는 한 다른 클래스에서 사용될 수 있습니다. (append()extend() 중 어느 것이 사용되는지는 어떤 피클 프로토콜 버전이 사용되는가와 추가 할 항목의 수에 따라 달려있으므로 둘 다 지원되어야 합니다.)

  • 선택적으로, 연속적인 키-값 쌍을 생성하는 이터레이터(시퀀스가 아닙니다). 이 항목들은 obj[key] = value 를 사용하여 객체에 저장됩니다. 이것은 주로 딕셔너리 서브 클래스에 사용되지만, __setitem__() 을 구현하는 한 다른 클래스에서 사용될 수 있습니다.

object.__reduce_ex__(protocol)

또는, __reduce_ex__() 메서드를 정의할 수 있습니다. 유일한 차이점은 이 메서드가 프로토콜 버전인 단일 정수 인자를 받아들여야 한다는 것입니다. 정의되면, pickle은 __reduce__() 메서드보다 선호합니다. 또한, __reduce__() 는 자동으로 확장 버전의 동의어가 됩니다. 이 메서드의 주된 용도는 구형 파이썬 배포를 위해 과거 호환성 있는 환원 값을 제공하는 것입니다.

외부 객체의 지속성

객체 지속성의 효용을 위해, pickle 모듈은 피클 된 데이터 스트림 밖의 객체에 대한 참조 개념을 지원합니다. 이러한 객체는 지속성 ID에 의해 참조되며, 영숫자 문자열(프로토콜 0의 경우) 5 또는 임의의 객체(모든 최신 프로토콜의 경우)여야 합니다.

The resolution of such persistent IDs is not defined by the pickle module; it will delegate this resolution to the user-defined methods on the pickler and unpickler, persistent_id() and persistent_load() respectively.

To pickle objects that have an external persistent ID, the pickler must have a custom persistent_id() method that takes an object as an argument and returns either None or the persistent ID for that object. When None is returned, the pickler simply pickles the object as normal. When a persistent ID string is returned, the pickler will pickle that object, along with a marker so that the unpickler will recognize it as a persistent ID.

외부 객체를 역 피클 하려면, 역 피클러는 지속성 ID 객체를 받아들여 참조된 객체를 반환하는 사용자 정의 persistent_load() 메서드를 가져야 합니다.

다음은 지속성 ID를 외부 객체를 참조로 피클 하는데 사용하는 방법을 보여주는 포괄적인 예입니다.

# Simple example presenting how persistent ID can be used to pickle
# external objects by reference.

import pickle
import sqlite3
from collections import namedtuple

# Simple class representing a record in our database.
MemoRecord = namedtuple("MemoRecord", "key, task")

class DBPickler(pickle.Pickler):

    def persistent_id(self, obj):
        # Instead of pickling MemoRecord as a regular class instance, we emit a
        # persistent ID.
        if isinstance(obj, MemoRecord):
            # Here, our persistent ID is simply a tuple, containing a tag and a
            # key, which refers to a specific record in the database.
            return ("MemoRecord", obj.key)
        else:
            # If obj does not have a persistent ID, return None. This means obj
            # needs to be pickled as usual.
            return None


class DBUnpickler(pickle.Unpickler):

    def __init__(self, file, connection):
        super().__init__(file)
        self.connection = connection

    def persistent_load(self, pid):
        # This method is invoked whenever a persistent ID is encountered.
        # Here, pid is the tuple returned by DBPickler.
        cursor = self.connection.cursor()
        type_tag, key_id = pid
        if type_tag == "MemoRecord":
            # Fetch the referenced record from the database and return it.
            cursor.execute("SELECT * FROM memos WHERE key=?", (str(key_id),))
            key, task = cursor.fetchone()
            return MemoRecord(key, task)
        else:
            # Always raises an error if you cannot return the correct object.
            # Otherwise, the unpickler will think None is the object referenced
            # by the persistent ID.
            raise pickle.UnpicklingError("unsupported persistent object")


def main():
    import io
    import pprint

    # Initialize and populate our database.
    conn = sqlite3.connect(":memory:")
    cursor = conn.cursor()
    cursor.execute("CREATE TABLE memos(key INTEGER PRIMARY KEY, task TEXT)")
    tasks = (
        'give food to fish',
        'prepare group meeting',
        'fight with a zebra',
        )
    for task in tasks:
        cursor.execute("INSERT INTO memos VALUES(NULL, ?)", (task,))

    # Fetch the records to be pickled.
    cursor.execute("SELECT * FROM memos")
    memos = [MemoRecord(key, task) for key, task in cursor]
    # Save the records using our custom DBPickler.
    file = io.BytesIO()
    DBPickler(file).dump(memos)

    print("Pickled records:")
    pprint.pprint(memos)

    # Update a record, just for good measure.
    cursor.execute("UPDATE memos SET task='learn italian' WHERE key=1")

    # Load the records from the pickle data stream.
    file.seek(0)
    memos = DBUnpickler(file, conn).load()

    print("Unpickled records:")
    pprint.pprint(memos)


if __name__ == '__main__':
    main()

디스패치 테이블

피클링에 의존하는 다른 코드를 방해하지 않고 일부 클래스의 피클링을 사용자 정의하려면, 사설 디스패치 테이블을 갖는 피클러를 만들 수 있습니다.

copyreg 모듈에 의해 관리되는 전역 디스패치 테이블은 copyreg.dispatch_table로 사용 가능합니다. 그러므로, 사설 디스패치 테이블로 copyreg.dispatch_table 의 수정된 복사본을 사용할 수 있습니다.

예를 들면

f = io.BytesIO()
p = pickle.Pickler(f)
p.dispatch_table = copyreg.dispatch_table.copy()
p.dispatch_table[SomeClass] = reduce_SomeClass

SomeClass 클래스를 특별히 처리하는 사설 디스패치 테이블을 갖는 pickle.Pickler 의 인스턴스를 생성합니다. 또는, 코드

class MyPickler(pickle.Pickler):
    dispatch_table = copyreg.dispatch_table.copy()
    dispatch_table[SomeClass] = reduce_SomeClass
f = io.BytesIO()
p = MyPickler(f)

가 같은 일을 하지만, MyPickler 의 모든 인스턴스는 기본적으로 같은 디스패치 테이블을 공유합니다. copyreg 모듈을 사용하는 동등한 코드는 다음과 같습니다

copyreg.pickle(SomeClass, reduce_SomeClass)
f = io.BytesIO()
p = pickle.Pickler(f)

상태 저장 객체 처리

다음은 클래스의 피클 동작을 수정하는 방법을 보여주는 예제입니다. TextReader 클래스는 텍스트 파일을 열고, readline() 메서드가 호출될 때마다 줄 번호와 줄 내용을 반환합니다. TextReader 인스턴스가 피클 되면, 파일 객체 멤버를 제외한 모든 어트리뷰트가 저장됩니다. 인스턴스가 역 피클 될 때, 파일이 다시 열리고, 마지막 위치에서 읽기가 다시 시작됩니다. __setstate__()__getstate__() 메서드가 이 행동을 구현하는 데 사용됩니다.

class TextReader:
    """Print and number lines in a text file."""

    def __init__(self, filename):
        self.filename = filename
        self.file = open(filename)
        self.lineno = 0

    def readline(self):
        self.lineno += 1
        line = self.file.readline()
        if not line:
            return None
        if line.endswith('\n'):
            line = line[:-1]
        return "%i: %s" % (self.lineno, line)

    def __getstate__(self):
        # Copy the object's state from self.__dict__ which contains
        # all our instance attributes. Always use the dict.copy()
        # method to avoid modifying the original state.
        state = self.__dict__.copy()
        # Remove the unpicklable entries.
        del state['file']
        return state

    def __setstate__(self, state):
        # Restore instance attributes (i.e., filename and lineno).
        self.__dict__.update(state)
        # Restore the previously opened file's state. To do so, we need to
        # reopen it and read from it until the line count is restored.
        file = open(self.filename)
        for _ in range(self.lineno):
            file.readline()
        # Finally, save the file.
        self.file = file

사용 예는 다음과 같은 식입니다:

>>> reader = TextReader("hello.txt")
>>> reader.readline()
'1: Hello world!'
>>> reader.readline()
'2: I am line number two.'
>>> new_reader = pickle.loads(pickle.dumps(reader))
>>> new_reader.readline()
'3: Goodbye!'

전역 제한하기

기본적으로, 역 피클링은 피클 데이터에서 찾은 모든 클래스나 함수를 임포트 합니다. 많은 응용 프로그램에서는, 역 피클러가 임의 코드를 임포트하고 호출할 수 있으므로, 이 동작을 받아들일 수 없습니다. 이 손으로 만든 피클 데이터 스트림이 로드될 때 하는 일을 생각해보십시오:

>>> import pickle
>>> pickle.loads(b"cos\nsystem\n(S'echo hello world'\ntR.")
hello world
0

이 예제에서, 역 피클러는 os.system() 함수를 임포트하고 문자열 인자 “echo hello world”를 적용합니다. 이 예제가 공격적이지는 않지만, 어떤 것들은 시스템을 손상할 수 있다고 상상하기 어렵지 않습니다.

이런 이유로, 여러분은 Unpickler.find_class()를 사용자 정의하여 언 피클 되는 것을 제어하고 싶을 수 있습니다. 이름이 제안하는 것과는 달리, Unpickler.find_class() 는 전역(즉, 클래스나 함수)이 요청될 때마다 호출됩니다. 따라서 전역을 완전히 금지하거나 안전한 부분집합으로 제한할 수 있습니다.

다음은 builtins 모듈에서 몇 가지 안전한 클래스만 로드되도록 허용하는 역 피클러의 예입니다:

import builtins
import io
import pickle

safe_builtins = {
    'range',
    'complex',
    'set',
    'frozenset',
    'slice',
}

class RestrictedUnpickler(pickle.Unpickler):

    def find_class(self, module, name):
        # Only allow safe classes from builtins.
        if module == "builtins" and name in safe_builtins:
            return getattr(builtins, name)
        # Forbid everything else.
        raise pickle.UnpicklingError("global '%s.%s' is forbidden" %
                                     (module, name))

def restricted_loads(s):
    """Helper function analogous to pickle.loads()."""
    return RestrictedUnpickler(io.BytesIO(s)).load()

우리의 역 피클러 작업이 의도한 사용 예:

>>> restricted_loads(pickle.dumps([1, 2, range(15)]))
[1, 2, range(0, 15)]
>>> restricted_loads(b"cos\nsystem\n(S'echo hello world'\ntR.")
Traceback (most recent call last):
  ...
pickle.UnpicklingError: global 'os.system' is forbidden
>>> restricted_loads(b'cbuiltins\neval\n'
...                  b'(S\'getattr(__import__("os"), "system")'
...                  b'("echo hello world")\'\ntR.')
Traceback (most recent call last):
  ...
pickle.UnpicklingError: global 'builtins.eval' is forbidden

예를 통해 알 수 있듯이, 역 피클을 허락하는 것에 주의를 기울여야 합니다. 따라서 보안이 중요하다면, xmlrpc.client 나 제삼자 솔루션의 마샬링 API 같은 대안을 고려할 수 있습니다.

성능

최신 버전의 피클 프로토콜(프로토콜 2 이상)은 몇 가지 공통 기능 및 내장형에 대한 효율적인 바이너리 인코딩을 제공합니다. 또한, pickle 모듈은 C로 작성된 투명한 최적화기를 가지고 있습니다.

예제

가장 간단한 코드로, dump()load() 함수를 사용하십시오.

import pickle

# An arbitrary collection of objects supported by pickle.
data = {
    'a': [1, 2.0, 3, 4+6j],
    'b': ("character string", b"byte string"),
    'c': {None, True, False}
}

with open('data.pickle', 'wb') as f:
    # Pickle the 'data' dictionary using the highest protocol available.
    pickle.dump(data, f, pickle.HIGHEST_PROTOCOL)

다음 예제는 결과로 나온 피클 데이터를 읽습니다.

import pickle

with open('data.pickle', 'rb') as f:
    # The protocol version used is detected automatically, so we do not
    # have to specify it.
    data = pickle.load(f)

더 보기

모듈 copyreg

확장형에 대한 피클 인터페이스 생성자 등록

모듈 pickletools

피클 된 데이터로 작업하고 분석하는 도구.

모듈 shelve

객체의 인덱싱 된 데이터베이스; pickle을 사용합니다.

모듈 copy

얕거나 깊은 객체 복사.

모듈 marshal

내장형의 고성능 직렬화.

각주

1

이것을 marshal 모듈과 혼동하지 마십시오.

2

이것이 lambda 함수가 pickle 될 수 없는 이유입니다: 모든 lambda 함수는 같은 이름을 공유합니다: <lambda>.

3

발생하는 예외는 ImportErrorAttributeError 일 가능성이 크지만, 그 밖의 다른 것일 수 있습니다.

4

copy 모듈은 얕거나 깊은 복사 연산에 이 프로토콜을 사용합니다.

5

영숫자 문자의 제한은 프로토콜 0에서 지속성 ID가 개행 문자로 구분되기 때문입니다. 따라서 지속성 ID에 개행 문자가 포함되면 결과 피클을 읽을 수 없게 됩니다.