tarfile
— Leer y escribir archivos tar¶
Código fuente: Lib/tarfile.py
El módulo tarfile
hace posible escribir y leer archivos tar, incluyendo aquellos que hacen uso de compresión gzip, bz2 y lzma. Utiliza el módulo zipfile
para leer o escribir archivos .zip
, o las funciones de nivel superior en shutil.
Algunos hechos y cifras:
lee y escribe archivos comprimidos
gzip
,bz2
ylzma
si los respectivos módulos están disponibles.soporte de lectura/escritura para el formato POSIX.1-1988 (ustar).
soporte de lectura/escritura para el formato GNU tar incluyendo extensiones longname y longlink, soporte de solo escritura para todas las variantes de extensiones de sparse (archivo disperso) incluyendo restablecimiento de archivos dispersos.
soporte de lectura/escritura para el formato POSIX.1-2001 (pax).
gestiona directorios, archivos regulares, enlaces duros, enlaces simbólicos, fifos, dispositivos de carácter, dispositivos de bloque y puede adquirir y restaurar información de archivo como marca de tiempo, permisos de acceso y dueño.
Distinto en la versión 3.3: Añadido soporte para compresión lzma
.
-
tarfile.
open
(name=None, mode='r', fileobj=None, bufsize=10240, **kwargs)¶ Retorna un objeto
TarFile
para el nombre de ruta name. Para información detallada en los objetos de la claseTarFile
y los argumentos por palabra clave que están permitidos, dirígete a Objetos TarFile.mode tiene que ser una cadena de texto en el formato
'filemode[:compression]'
, adquiere el valor de'r'
de forma predeterminada. Aquí hay una lista completa de combinaciones de modo:modo
acción
'r' o 'r:*'
Abrir para leer con compresión transparente (recomendado).
'r:'
Abrir para leer exclusivamente sin compresión.
'r:gz'
Abrir para leer con compresión gzip.
'r:bz2'
Abrir para leer con compresión bzip2.
'r:xz'
Abrir para leer con compresión lzma.
'x'
o'x:'
Crear un archivo tarfile exclusivamente sin compresión. Lanza una excepción
FileExistsError
si el archivo ya existe.'x:gz'
Crear un archivo tar con compresión gzip. Lanza una excepción
FileExistsError
si ya existe.'x:bz2'
Crear un archivo tar con compresión bzip2. Lanza una excepción
FileExistsError
si ya existe.'x:xz'
Crear un archivo tar con compresión lzma. Lanza una excepción
FileExistsError
si ya existe.'a' or 'a:'
Abrir para anexar sin compresión. El archivo se crea si no existe.
'w' o 'w:'
Abrir para escritura con compresión lzma.
'w:gz'
Abrir para escritura con compresión gzip.
'w:bz2'
Abrir para escritura con compresión bzip2.
'w:xz'
Abrir para escritura con compresión lzma.
Ten en cuenta que
'a:gz'
,'a:bz2'
or'a:xz'
no son posibles. Si mode no es apropiado para abrir ciertos archivos (comprimidos) para lectura, se lanza una excepción de tipoReadError
. Usa el modo'r'
para evitar esto. Si el método de compresión no es admitido, se lanza una excepciónCompressionError
.Si fileobj es especificado, se utiliza como alternativa a file object abierto en modo binario para name. Debe estar en la posición 0.
Para los modos
'w:gz'
,'r:gz'
,'w:bz2'
,'r:bz2'
,'x:gz'
,'x:bz2'
,tarfile.open()
acepta el argumento por palabra clave compresslevel (por defecto9
) para especificar el nivel de compresión del archivo.For modes
'w:xz'
and'x:xz'
,tarfile.open()
accepts the keyword argument preset to specify the compression level of the file.Para propósitos especiales, hay un segundo formato para modo:
'filemode|[compression]'
.tarfile.open()
retornará un objetoTarFile
que procesa sus datos como un stream de bloques. No se realizará una búsqueda aleatoria en el archivo. Si se proporciona, fileobj puede ser un objeto con los métodosread()
owrite()
(dependiendo del modo). bufsize especifica el blocksize y por default tiene un valor de20 * 512
bytes. Utiliza esta variante en combinación con por ejemplosys.stdin
, un socket file object o un tape device. Sin embargo, dicho objetoTarFile
está limitado en el aspecto de que no permite acceso aleatorio. Consulta Ejemplos. Los modos posibles:Modo
Acción
'r|*'
Abre un stream de bloques tar para leer con compresión transparente.
'r|'
Abre un stream de bloques tar sin comprimir para lectura.
'r|gz'
Abre un stream comprimido con gzip para lectura.
'r|bz2'
Abre un stream bzip2 comprimido para lectura.
'r|xz'
Abre un stream lzma comprimido para lectura.
'w|'
Abre un stream sin comprimir para escritura.
'w|gz'
Abre un stream gzip comprimido para escritura.
'w|bz2'
Abre un stream bzip2 comprimido para escritura.
'w|xz'
Abre un stream lzma comprimido para escritura.
Distinto en la versión 3.5: El modo
'x'
(creación exclusiva) fue añadido.Distinto en la versión 3.6: El parámetro name acepta un objeto path-like object.
-
class
tarfile.
TarFile
Clase para leer y escribir archivos tar. No utilices esta clase directamente; usa
tarfile.open()
en su lugar. Consulta Objetos TarFile.
-
tarfile.
is_tarfile
(name)¶ Retorna
True
si name es un archivo tar, que el módulotarfile
puede leer. name puede ser unstr
, archivo o un objeto similar a un archivo.Distinto en la versión 3.9: Soporte para archivos y objetos similares a archivos.
El módulo tarfile
define las siguientes excepciones:
-
exception
tarfile.
ReadError
¶ Se lanza cuando un archivo tar se abre, que no puede ser manejado por el módulo
tarfile
o de alguna manera no es válido.
-
exception
tarfile.
CompressionError
¶ Se lanza cuando un método de compresión no tiene soporte o cuando la información no puede ser decodificada de manera apropiada.
-
exception
tarfile.
StreamError
¶ Se lanza para limitaciones que son comunes para objetos stream-like
TarFile
.
-
exception
tarfile.
ExtractError
¶ Se lanza para errores no fatales cuando se utiliza
TarFile.extract()
, pero solo siTarFile.errorlevel
== 2
.
-
exception
tarfile.
HeaderError
¶ Se lanza por
TarInfo.frombuf()
si el buffer que obtiene es invalido.
Las siguientes constantes están disponibles a nivel de módulo:
-
tarfile.
ENCODING
¶ La codificación para caracteres predeterminada:
'utf-8'
en Windows, de otra manera, el valor retornado porsys.getfilesystemencoding()
.
Cada una de las siguientes constantes define un formato de archivo tar que el módulo tarfile
puede crear. Ve la sección: Formatos tar con soporte para más detalles.
-
tarfile.
USTAR_FORMAT
¶ Formato POSIX.1-1988 (ustar).
-
tarfile.
GNU_FORMAT
¶ Formato GNU tar.
-
tarfile.
PAX_FORMAT
¶ Formato POSIX.1-2001 (pax).
-
tarfile.
DEFAULT_FORMAT
¶ El formato predeterminado para crear archivos. Es actualmente
PAX_FORMAT
.Distinto en la versión 3.8: El formato predeterminado para nuevos archivos fue cambiado de
GNU_FORMAT
aPAX_FORMAT
.
Ver también
- Módulo
zipfile
Documentación del módulo estándar
zipfile
.- Operaciones de archivado
Documentación para las facilidades de archivos de más alto nivel proporcionadas por el módulo estándar
shutil
.- Manual GNU tar, formato básico tar
Documentación para archivos de tipo tar, incluyendo extensiones GNU tar.
Objetos TarFile¶
El objeto TarFile
provee una interfaz a un archivo tar. Un archivo tar es una secuencia de bloques. Un miembro de archivos (un archivo almacenado) está hecho de un bloque de encabezado seguido de bloques de datos. Es posible almacenar un archivo dentro de un tar múltiples veces. Cada archivo miembro está representado por un objeto TarInfo
, consulta Objetos TarInfo para más detalles.
Un objeto TarFile
puede ser usado como un administrador de contexto en una declaración with
. Será automáticamente cerrado cuando el bloque sea completado. Ten en cuenta que en el evento de una excepción un archivo abierto para escritura no será terminado; solo el objeto de archivo interno será cerrado. Consulta la sección Ejemplos para un caso de uso.
Nuevo en la versión 3.2: Añadido soporte para el protocolo de administración de contexto.
-
class
tarfile.
TarFile
(name=None, mode='r', fileobj=None, format=DEFAULT_FORMAT, tarinfo=TarInfo, dereference=False, ignore_zeros=False, encoding=ENCODING, errors='surrogateescape', pax_headers=None, debug=0, errorlevel=1)¶ Los siguientes argumentos son opcionales y también se pueden acceder como atributos de instancia.
name es el nombre de ruta del archivo. name puede ser un objeto path-like object. Puede ser omitido si fileobj se proporciona. En este caso, el atributo
name
del objeto de archivo se usa si existe.mode puede ser
'r'
para leer desde un archivo existente,'a'
para adjuntar datos a un archivo existente,``”w”`` para crear un nuevo archivo sobrescribiendo uno existente, o'x'
para crear un nuevo archivo únicamente si este no existe.Si fileobj es proporcionado, se utiliza para escritura o lectura de datos. Si puede ser determinado, mode puede ser anulado por el modo de fileobj. fileobj será usado desde la posición 0.
Nota
fileobj no se cierra cuando
TarFile
se cierra.format controla el formato de archivo para la escritura. Debe ser una de las constantes
USTAR_FORMAT
,GNU_FORMAT
oPAX_FORMAT
que se definen a nivel de módulo. Al leer, el formato se detectará automáticamente, incluso si hay diferentes formatos en un solo archivo.El argumento tarinfo puede ser utilizado para reemplazar la clase predeterminada
TarInfo
con una diferente.Si dereference tiene el valor de
False
, añade enlaces simbólicos y duros al archivo. Si tiene el valor deTrue
, añade el contenido de archivos objetivo al archivo. Esto no tiene ningún efecto en los sistemas que no admiten enlaces simbólicos.Si ignore_zeros tiene el valor de
False
, trata un bloque vacío como el final del archivo. Si esTrue
, omite los bloques vacíos (y no válidos) e intenta obtener tantos miembros como sea posible. Esto solo es útil para leer archivos concatenados o dañados.debug puede ser establecido con valores desde
0
(sin mensajes de depuración) hasta3
(todos los mensajes de depuración). Los mensajes son escritos ensys.stderr
.Si errorlevel es
0
, todos los errores son ignorados cuando se utilizaTarFile.extract()
. Sin embargo, aparecen como mensajes de error en la salida de depuración, cuando la depuración está habilitada. Si errorlevel es1
, todos los errores fatal son levantados como excepcionesOSError
. Si errorlevel es2
, todos los errores non-fatal son levantados como excepcionesTarError
.Los argumentos encoding y errors definen la codificación de caracteres que se utilizará para lectura o escritura del archivo y como los errores de conversión van a ser manejados. La configuración predeterminada funcionará para la mayoría de los usuarios. Mira la sección Problemas Unicode para más información a detalle.
El argumento pax_headers es un diccionario opcional de cadenas las cuales serán añadidas como un encabezado pax global si el valor de format es
PAX_FORMAT
.Distinto en la versión 3.2: Utiliza
'surrogateescape'
como valor predeterminado del argumento errors.Distinto en la versión 3.5: El modo
'x'
(creación exclusiva) fue añadido.Distinto en la versión 3.6: El parámetro name acepta un objeto path-like object.
-
classmethod
TarFile.
open
(...)¶ Constructor alternativo. La función
tarfile.open()
es un acceso directo a este método de la clase.
-
TarFile.
getmember
(name)¶ Retorna un objeto
TarInfo
para el miembro name. Si name no puede ser encontrado, entonces una excepción de tipoKeyError
será lanzada.Nota
Si un miembro aparece más de una vez en el archivo, se asume que su última aparición es la versión más actualizada.
-
TarFile.
getmembers
()¶ Retorna los miembros del archivo como una lista de objetos
TarInfo
. La lista tiene el mismo orden que los miembros del archivo.
-
TarFile.
getnames
()¶ Retorna los miembros como una lista de sus nombres. Tiene el mismo orden que la lista retornada por
getmembers()
.
-
TarFile.
list
(verbose=True, *, members=None)¶ Imprime en
sys.stdout
una tabla de contenidos. Si verbose esFalse
, solo los nombres de los miembros son impresos. si esTrue
, se produce una salida de impresión similar a la de ls -l. Si el parámetro members es proporcionado, debe ser un subconjunto de la lista retornada porgetmembers()
.Distinto en la versión 3.5: Se agregó el parámetro members.
-
TarFile.
next
()¶ Retorna el siguiente miembro del archivo como un objeto
TarInfo
cuandoTarFile
se abre para lectura. RetornaNone
si no hay más miembros disponibles.
-
TarFile.
extractall
(path=".", members=None, *, numeric_owner=False)¶ Extrae todos los miembros de un archivo al directorio de trabajo actual o al directorio de path. Si se proporciona el parámetro opcional members, debe ser un subconjunto de la lista retornada por el método
getmembers()
. Información de directorio como dueño, fecha de modificación y permisos son establecidos una vez que todos los miembros han sido extraídos. Esto se realiza para trabajar con dos problemáticas: La fecha de modificación de un directorio es modificada cada vez que un archivo es creado en el. Y si los permisos de un directorio no permiten escritura, extraer archivos en el no será posible.Si numeric_owner tiene el valor de
True
, los números uid y gid del archivo tar se utilizan para establecer el dueño/grupo de los archivos extraídos. De lo contrario, se utilizan los valores nombrados del archivo tar.Advertencia
Nunca extraigas archivos de fuentes no confiables sin una inspección previa. Es posible que los archivos se creen fuera de path, Ej. miembros que tienen nombres de archivo absolutos que comienzan con
"/"
o nombres de archivo con dos puntos".."
.Distinto en la versión 3.5: Se agregó el parámetro numeric_owner.
Distinto en la versión 3.6: El parámetro path acepta a path-like object.
-
TarFile.
extract
(member, path="", set_attrs=True, *, numeric_owner=False)¶ Extrae un miembro del archivo al directorio de trabajo actual utilizando su nombre completo. La información de su archivo se extrae con la mayor precisión posible. member puede ser un nombre de archivo o un objeto
TarInfo
. Puedes especificar un directorio diferente utilizando path. path puede ser un path-like object. Los atributos de archivo (dueño, fecha de modificación, modo) son establecidos a no ser que set_attrs sea falso.Si numeric_owner tiene el valor de
True
, los números uid y gid del archivo tar se utilizan para establecer el dueño/grupo de los archivos extraídos. De lo contrario, se utilizan los valores nombrados del archivo tar.Nota
El método
extract()
no cuida de varios problemas de extracción. En la mayoría de los casos deberías considerar utilizar el métodoextractall()
.Advertencia
Consulta la advertencia para
extractall()
.Distinto en la versión 3.2: Se agregó el parámetro set_attrs.
Distinto en la versión 3.5: Se agregó el parámetro numeric_owner.
Distinto en la versión 3.6: El parámetro path acepta a path-like object.
-
TarFile.
extractfile
(member)¶ Extrae un miembro del archivo como un objeto de archivo. member puede ser un nombre de archivo o un objeto
TarInfo
. Si member es un archivo normal o un enlace, se retorna un objetoio.BufferedReader
. Para todos los demás miembros existentes, se retornaNone
. Si member no aparece en el archivo, se lanzaKeyError
.Distinto en la versión 3.3: Retorna un objeto
io.BufferedReader
.
-
TarFile.
add
(name, arcname=None, recursive=True, *, filter=None)¶ Añade el archivo name al archivo. name puede ser cualquier tipo de archivo (directorio, fifo, enlace simbólico, etc.). Si se proporciona, arcname especifica un nombre alternativo para el archivo en el archivo. Los directorios se agregan de forma recursiva de forma predeterminada. Esto se puede evitar estableciendo recursive con el valor de
False
. La recursividad agrega entradas en orden ordenado. Si se proporciona filter, debería ser una función que tome un argumento de objetoTarInfo
y retorna el objetoTarInfo
modificado. Si en cambio retornaNone
, el objetoTarInfo
será excluido del archivo. Consulta Ejemplos para ver un ejemplo.Distinto en la versión 3.2: Se agregó el parámetro filter.
Distinto en la versión 3.7: La recursividad agrega entradas en orden ordenado.
-
TarFile.
addfile
(tarinfo, fileobj=None)¶ Añade el objeto
TarInfo
tarinfo al archivo. Si se proporciona fileobj, debería ser un binary file, y los bytes detarinfo.size
se leen y se agregan al archivo. Puedes crear objetosTarInfo
directamente o usandogettarinfo()
.
-
TarFile.
gettarinfo
(name=None, arcname=None, fileobj=None)¶ Crea un objeto
TarInfo
a partir del resultado deos.stat()
o equivalente en un archivo existente. El archivo es nombrado por name o especificado como un objeto file object fileobj con un descriptor de archivo. name puede ser un objeto path-like object. Si es proporcionado, arcname especifica un nombre alternativo para el archivo en el archivo, de otra forma, el nombre es tomado del atributo fileobj’sname
, o el argumento name. El nombre puede ser una cadena de texto.Puedes modificar algunos de los atributos de la clase
TarInfo
’ antes de que lo añadas utilizado el métodoaddfile()
. Si el archivo objeto no es un archivo objeto ordinario posicionado al principio del archivo, atributos comosize
puede que necesiten modificaciones. Este es el caso para objetos comoGzipFile
. El atributoname
también puede ser modificado, en cuyo caso arcname podría ser una cadena ficticia.Distinto en la versión 3.6: El parámetro name acepta un objeto path-like object.
-
TarFile.
close
()¶ Cierra
TarFile
. En el modo de escritura, se añaden dos bloques de cero de finalización al archivo.
-
TarFile.
pax_headers
¶ Un diccionario que contiene pares claves-valor de los encabezados globales pax.
Objetos TarInfo¶
Un objeto TarInfo
representa un miembro en TarFile
. Además de almacenar todos los atributos requeridos de un archivo (como tipo de archivo, tamaño, fecha, permisos, dueño, etc.), provee de algunos métodos útiles para determinar su tipo. No contiene los datos del archivo por si mismo.
Los objetos TarInfo
son retornados por métodos TarFile
” getmember()
, getmembers()
y gettarinfo()
.
-
classmethod
TarInfo.
frombuf
(buf, encoding, errors)¶ Crea y retorna un objeto
TarInfo
.Lanza una excepción
HeaderError
si el buffer es invalido.
-
classmethod
TarInfo.
fromtarfile
(tarfile)¶ Lee el siguiente miembro del objeto de la clase
TarFile
tarfile y lo retorna como un objetoTarInfo
.
-
TarInfo.
tobuf
(format=DEFAULT_FORMAT, encoding=ENCODING, errors='surrogateescape')¶ Crear un buffer de cadena a partir de un objeto
TarInfo
. Para información sobre los argumentos consulta el constructor de la claseTarFile
.Distinto en la versión 3.2: Utiliza
'surrogateescape'
como valor predeterminado del argumento errors.
Un objeto TarInfo
tiene los siguientes atributos de dato públicos:
-
TarInfo.
name
¶ Nombre del archivo miembro.
-
TarInfo.
size
¶ Tamaño en bytes.
-
TarInfo.
mtime
¶ Hora de la última modificación.
-
TarInfo.
mode
¶ Bits de permiso.
-
TarInfo.
type
¶ Tipo de archivo. type es por lo general una de las siguientes constantes:
REGTYPE
,AREGTYPE
,LNKTYPE
,SYMTYPE
,DIRTYPE
,FIFOTYPE
,CONTTYPE
,CHRTYPE
,BLKTYPE
,GNUTYPE_SPARSE
. Para determinar el tipo de un objetoTarInfo
de forma más conveniente, utiliza los métodosis*()
de abajo.
-
TarInfo.
linkname
¶ Nombre del archivo objetivo, el cual solo está presente en los objetos
TarInfo
de tipoLNKTYPE
y del tipoSYMTYPE
.
-
TarInfo.
uid
¶ ID de usuario que originalmente almacenó este miembro.
-
TarInfo.
gid
¶ ID de grupo del usuario que originalmente almacenó este miembro.
-
TarInfo.
uname
¶ Nombre de usuario.
-
TarInfo.
gname
¶ Nombre del grupo.
-
TarInfo.
pax_headers
¶ Un diccionario que contiene pares key-value de un encabezado pax extended.
Un objeto TarInfo
también provee de algunos métodos de consulta convenientes:
Interfaz de línea de comandos¶
Nuevo en la versión 3.4.
El módulo tarfile
provee una interfaz de línea de comandos sencilla para interactuar con archivos tar.
Si quieres crear un nuevo archivo tar, especifica su nombre después de la opción -c
y después lista el nombre de archivo(s) que deberían ser incluidos:
$ python -m tarfile -c monty.tar spam.txt eggs.txt
Proporcionar un directorio también es aceptable:
$ python -m tarfile -c monty.tar life-of-brian_1979/
Si deseas extraer un archivo tar en el directorio actual, utiliza la opción -e
:
$ python -m tarfile -e monty.tar
También puedes extraer un archivo tar en un directorio diferente pasando el nombre del directorio como parámetro:
$ python -m tarfile -e monty.tar other-dir/
Para obtener una lista de archivos dentro de un archivo tar, utiliza la opción -l
:
$ python -m tarfile -l monty.tar
Opciones de línea de comandos¶
-
-c
<tarfile> <source1> ... <sourceN>
¶ -
--create
<tarfile> <source1> ... <sourceN>
¶ Crear archivo tar desde archivos fuente.
-
-e
<tarfile> [<output_dir>]
¶ -
--extract
<tarfile> [<output_dir>]
¶ Extrae el archivo tar en el directorio actual si output_dir no es especificado.
-
-v
,
--verbose
¶
Output verbose.
Ejemplos¶
Cómo extraer un archivo tar entero al directorio de trabajo actual:
import tarfile
tar = tarfile.open("sample.tar.gz")
tar.extractall()
tar.close()
Cómo extraer un subconjunto de un archivo tar con TarFile.extractall()
utilizando una función generadora en lugar de una lista:
import os
import tarfile
def py_files(members):
for tarinfo in members:
if os.path.splitext(tarinfo.name)[1] == ".py":
yield tarinfo
tar = tarfile.open("sample.tar.gz")
tar.extractall(members=py_files(tar))
tar.close()
Cómo crear un archivo tar sin comprimir desde una lista de nombres de archivo:
import tarfile
tar = tarfile.open("sample.tar", "w")
for name in ["foo", "bar", "quux"]:
tar.add(name)
tar.close()
El mismo ejemplo utilizando la declaración with
:
import tarfile
with tarfile.open("sample.tar", "w") as tar:
for name in ["foo", "bar", "quux"]:
tar.add(name)
Cómo leer un archivo tar comprimido con gzip y desplegar un poco de información del miembro:
import tarfile
tar = tarfile.open("sample.tar.gz", "r:gz")
for tarinfo in tar:
print(tarinfo.name, "is", tarinfo.size, "bytes in size and is ", end="")
if tarinfo.isreg():
print("a regular file.")
elif tarinfo.isdir():
print("a directory.")
else:
print("something else.")
tar.close()
Cómo crear un archivo y reiniciar la información del usuario usando el parámetro filter en TarFile.add()
:
import tarfile
def reset(tarinfo):
tarinfo.uid = tarinfo.gid = 0
tarinfo.uname = tarinfo.gname = "root"
return tarinfo
tar = tarfile.open("sample.tar.gz", "w:gz")
tar.add("foo", filter=reset)
tar.close()
Formatos tar con soporte¶
Hay tres formatos tar que puede ser creados con el módulo tarfile
:
El formato (
USTAR_FORMAT
) POSIX.1-1988 ustar. Admite nombres de archivos de hasta una longitud de 256 caracteres y nombres de enlace de hasta 100 caracteres. El tamaño máximo de archivo es de 8 GiB. Este es un formato viejo y limitado pero con amplio soporte.El formato GNU tar (
GNU_FORMAT
). Admite nombres de archivo largos y nombres de enlace, archivos más grandes que 8 GiB de tamaño y archivos dispersos. Es el estándar de facto en sistemas GNU/Linux.tarfile
admite de forma completa las extensiones de GNU tar para nombres largos, el soporte para archivos dispersos es de solo lectura.El formato pax POSIX.1-2001 (
PAX_FORMAT
). Es el formato más flexible prácticamente sin límites. Admite nombres de archivo largos y nombres de enlaces, archivos grandes y almacena nombres de ruta de forma portátil. Las implementaciones modernas de tar, incluyendo GNU tar, bsdtar/libarchive y star, son totalmente compatibles con las características extendidas pax; Es posible que algunas bibliotecas antiguas o no mantenidas no lo hagan, pero deberían tratar los archivos pax como si estuvieran en el formato ustar compatible universalmente. Es el formato predeterminado actual para archivos nuevos.Extiende el formato existente ustar con cabeceras adicionales para información que no puede ser almacenada de otra manera. Hay dos variaciones de encabezados pax: Los encabezados extendidos solo afectan al encabezado del archivo posterior, las encabezados globales son validos para el archivo entero y afectan todos los siguientes archivos. Todos los datos en un encabezado pax son codificados en UTF-8 por razones de portabilidad.
Existen más variantes del formato tar que puede ser leídas, pero no creadas:
El antiguo formato V7. Este es el primer formato tar de Unix Seventh Edition, almacena solo archivos y directorios normales. Los nombres no deben tener más de 100 caracteres, no hay información de nombre de usuario/grupo disponible. Algunos archivos tienen sumas de comprobación de encabezado mal calculadas en el caso de campos con caracteres que no son ASCII.
El formato extendido tar de SunOS. Este formato es una variante del formato POSIX.1-2001 pax, pero no es compatible.
Problemas Unicode¶
El formato tar fue originalmente concebido para realizar respaldos en unidades de cinta con el objetivo principal de preservar la información del sistema de archivos. Hoy en día los archivos tar son comúnmente utilizados para distribución de archivos e intercambio de archivos sobre redes. Un problema del formato original (el cual es la base de todos los demás formatos) es que no hay concepto de soporte para diferentes codificaciones de caracteres. Por ejemplo, un archivo tar ordinario creado en un sistema UTF-8 no puede ser leído correctamente en un sistema Latin-1 si este contiene caracteres de tipo no ASCII. Los meta-datos textuales (como nombres de archivos, nombres de enlace, nombres de usuario/grupo) aparecerán dañados. Desafortunadamente, no hay manera de detectar de forma automática la codificación de un archivo. El formato pax fue diseñado para resolver este problema. Almacena los metadatos no ASCII usando una codificación de caracteres universal UTF-8.
Los detalles de la conversión de caracteres en el módulo tarfile
son controlados por los argumentos de palabra clave encoding y errors de la clase TarFile
.
encoding define la codificación de caracteres a utilizar para los metadatos del archivo. El valor predeterminado es sys.getfilesystemencoding()
o 'ascii'
como una alternativa. Dependiendo de si el archivo se lee o escribe, los metadatos deben decodificarse o codificarse. Si el encoding no se configura correctamente, esta conversión puede fallar.
El argumento errors define como van a ser tratados los caracteres que no pueden ser transformados. Los valores admitidos están listados en la sección Manejadores de errores. El esquema predeterminado es 'surrogateescape'
el cual Python también utiliza para sus llamadas al sistema de archivos. Consulta Nombres de archivos, argumentos de la línea de comandos y variables de entorno.
Para archivos PAX_FORMAT
(el formato default), el encoding generalmente no es necesario porque todos los meta-datos son almacenados utilizando UTF-8, el encoding solo es utilizado en aquellos casos cuando las cabeceras binarias PAX son decodificadas o cuando se almacenan cadenas de texto con caracteres sustitutos.