27.4. Python プロファイラ¶
ソースコード: Lib/profile.py と Lib/pstats.py
27.4.1. プロファイラとは¶
cProfile
と profile
は 決定論的プロファイリング (deterministic profiling) を行います。 プロファイル (profile) とは、プログラムの各部分がどれだけ頻繁に呼ばれたか、そして実行にどれだけ時間がかかったかという統計情報です。 pstats
モジュールを使ってこの統計情報をフォーマットし表示することができます。
Python 標準ライブラリは同じインターフェイスを提供するプロファイラの実装を2つ提供しています:
cProfile
はほとんどのユーザーに推奨されるモジュールです。 C言語で書かれた拡張モジュールで、オーバーヘッドが少ないため長時間実行されるプログラムのプロファイルに適しています。 Brett Rosen と Ted Czotter によって提供されたlsprof
に基づいています。profile
はピュア Python モジュールで、cProfile
モジュールはこのモジュールのインタフェースを真似ています。対象プログラムに相当のオーバーヘッドが生じます。もしプロファイラに何らかの拡張をしたいのであれば、こちらのモジュールを拡張する方が簡単でしょう。このモジュールはもともと Jim Roskind により設計、実装されました。
注釈
2つのプロファイラモジュールは、与えられたプログラムの実行時プロファイルを取得するために設計されており、ベンチマークのためのものではありません (ベンチマーク用途には timeit
のほうが正確な計測結果を求められます)。これは Python コードと C で書かれたコードをベンチマークするときに特に大きく影響します。プロファイラは Python コードに対してオーバーヘッドを発生しますが、C言語レベルの関数に対してはオーバーヘッドを生じません。なのでC言語で書かれたコードが、実際の速度と関係なく、Pythonで書かれたコードより速く見えるでしょう。
27.4.2. かんたんユーザマニュアル¶
この節は "マニュアルなんか読みたくない人"のために書かれています。ここではきわめて簡単な概要説明とアプリケーションのプロファイリングを手っ取り早く行う方法だけを解説します。
1つの引数を取る関数をプロファイルしたい場合、次のようにできます:
import cProfile
import re
cProfile.run('re.compile("foo|bar")')
(お使いのシステムで cProfile
が使えないときは代わりに profile
を使って下さい)
上のコードは re.compile()
を実行して、プロファイル結果を次のように表示します:
197 function calls (192 primitive calls) in 0.002 seconds
Ordered by: standard name
ncalls tottime percall cumtime percall filename:lineno(function)
1 0.000 0.000 0.001 0.001 <string>:1(<module>)
1 0.000 0.000 0.001 0.001 re.py:212(compile)
1 0.000 0.000 0.001 0.001 re.py:268(_compile)
1 0.000 0.000 0.000 0.000 sre_compile.py:172(_compile_charset)
1 0.000 0.000 0.000 0.000 sre_compile.py:201(_optimize_charset)
4 0.000 0.000 0.000 0.000 sre_compile.py:25(_identityfunction)
3/1 0.000 0.000 0.000 0.000 sre_compile.py:33(_compile)
最初の行は 197 回の呼び出しを測定したことを示しています。その中で 192 回は プリミティブ です。すなわち呼び出しが再帰によってなされてはいません。次の行は Ordered by: standard name
は一番右の列の文字列が出力のソートに用いられたことを示します。列の見出しは以下を含みます:
- ncalls
- 呼び出し回数
- tottime
- 与えられた関数に消費された合計時間 (sub-function の呼び出しで消費された時間は除外されています)
- percall
tottime
をncalls
で割った値- cumtime
- この関数と全ての subfunction に消費された累積時間 (起動から終了まで)。この数字は再帰関数に ついても 正確です。
- percall
cumtime
をプリミティブな呼び出し回数で割った値- filename:lineno(function)
- その関数のファイル名、行番号、関数名
最初の行に 2 つの数字がある場合 (たとえば 3/1
) は、関数が再帰的に呼び出されたということです。2 つ目の数字はプリミティブな呼び出しの回数で、1 つ目の数字は総呼び出し回数です。関数が再帰的に呼び出されなかった場合、それらは同じ値で数字は 1 つしか表示されないことに留意してください。
run()
関数でファイル名を指定することで、プロファイル実行の終了時に出力を表示する代わりに、ファイルに保存することが出来ます。
import cProfile
import re
cProfile.run('re.compile("foo|bar")', 'restats')
pstats.Stats
クラスはファイルからプロファイルの結果を読み込んで様々な書式に整えます。
ファイル cProfile
は他のスクリプトをプロファイルするためのスクリプトとして起動することも出来ます。例えば:
python -m cProfile [-o output_file] [-s sort_order] myscript.py
-o
はプロファイルの結果を標準出力の代わりにファイルに書き出します。
-s
は出力を sort_stats()
で出力をソートする値を指定します。-o
がない場合に有効です。
pstats
モジュールの Stats
クラスにはプロファイル結果のファイルに保存されているデータを処理して出力するための様々なメソッドがあります。
import pstats
p = pstats.Stats('restats')
p.strip_dirs().sort_stats(-1).print_stats()
strip_dirs()
メソッドによって全モジュール名から無関係なパスが取り除かれました。sort_stats()
メソッドにより、出力される標準的な モジュール/行/名前 文字列にしたがって全項目がソートされました。print_stats()
メソッドによって全統計が出力されました。以下のようなソート呼び出しを試すことができます:
p.sort_stats('name')
p.print_stats()
最初の行ではリストを関数名でソートしています。2行目で情報を出力しています。さらに次の内容も試してください:
p.sort_stats('cumulative').print_stats(10)
このようにすると、関数が消費した累計時間でソートして、さらにその上位10件だけを表示します。どのアルゴリズムが時間を多く消費しているのか知りたいときは、この方法が役に立つはずです。
ループで多くの時間を消費している関数はどれか調べたいときは、次のようにします:
p.sort_stats('time').print_stats(10)
上記はそれぞれの関数で消費された時間でソートして、上位10件の関数の情報が表示されます。
次の内容も試してください:
p.sort_stats('file').print_stats('__init__')
このようにするとファイル名でソートされ、そのうちクラスの初期化メソッド (メソッド名 __init__
) に関する統計情報だけが表示されます:
p.sort_stats('time', 'cumulative').print_stats(.5, 'init')
上記は時間 (time) をプライマリキー、累計時間 (cumulative time) をセカンダリキーにしてソートした後でさらに条件を絞って統計情報を出力します。 .5
は上位 50% だけを選択することを意味し、さらにその中から文字列 init
を含むものだけが表示されます。
どの関数がどの関数を呼び出しているのかを知りたければ、次のようにします (p
は最後に実行したときの状態でソートされています):
p.print_callers(.5, 'init')
このようにすると、関数ごとの呼び出し側関数の一覧が得られます。
さらに詳しい機能を知りたければマニュアルを読むか、次の関数の実行結果から内容を推察してください:
p.print_callees()
p.add('restats')
スクリプトとして起動した場合、 pstats
モジュールはプロファイルのダンプを読み込み、分析するための統計ブラウザとして動きます。シンプルな行指向のインタフェース (cmd
を使って実装) とヘルプ機能を備えています。
27.4.3. リファレンスマニュアル -- profile
と cProfile
¶
profile
および cProfile
モジュールは以下の関数を提供します:
-
profile.
run
(command, filename=None, sort=-1)¶ この関数は
exec()
関数に渡せる一つの引数と、オプション引数としてファイル名を指定できます。全ての場合でこのルーチンは以下を実行します:exec(command, __main__.__dict__, __main__.__dict__)
そして実行結果からプロファイル情報を収集します。 ファイル名が指定されていない場合は、
Stats
のインスタンスが自動的に作られ、簡単なプロファイルレポートが表示されます。 sort が指定されている場合は、Stats
インスタンスに渡され、結果をどのように並び替えるかを制御します。
-
profile.
runctx
(command, globals, locals, filename=None, sort=-1)¶ この関数は
run()
に似ていますが、 globals、 locals 辞書を command のために与えるための追加引数を取ります。このルーチンは以下を実行します:exec(command, globals, locals)
そしてプロファイル統計情報を
run()
同様に収集します。
-
class
profile.
Profile
(timer=None, timeunit=0.0, subcalls=True, builtins=True)¶ このクラスは普通、プロファイリングを
cProfile.run()
関数が提供するもの以上に正確に制御したい場合にのみ使われます。timer 引数に、コードの実行時間を計測するためのカスタムな時刻取得用関数を渡せます。これは現在時刻を表す単一の数値を返す関数でなければなりません。もしこれが整数を返す関数ならば、 timeunit には単位時間当たりの実際の持続時間を指定します。たとえば関数が 1000 分の 1 秒単位で計測した時間を返すとすると、 timeunit は
.001
でしょう。Profile
クラスを直接使うと、プロファイルデータをファイルに書き出すことなしに結果をフォーマット出来ます:import cProfile, pstats, io pr = cProfile.Profile() pr.enable() # ... do something ... pr.disable() s = io.StringIO() sortby = 'cumulative' ps = pstats.Stats(pr, stream=s).sort_stats(sortby) ps.print_stats() print(s.getvalue())
-
enable
()¶ プロファイリングデータの収集を開始します。
-
disable
()¶ プロファイリングデータの収集を停止します。
-
create_stats
()¶ プロファイリングデータの収集を停止し、現在のプロファイルとして結果を内部で記録します。
-
dump_stats
(filename)¶ 現在のプロファイルの結果を filename に書き出します。
-
runcall
(func, *args, **kwargs)¶ func(*args, **kwargs)
をプロファイルします。
-
27.4.4. Stats
クラス¶
Stats
クラスを使用してプロファイラデータを解析します。
-
class
pstats.
Stats
(*filenames or profile, stream=sys.stdout)¶ このコンストラクタは filename で指定した (単一または複数の) ファイルもしくは
Profile
のインスタンスから "統計情報オブジェクト" のインスタンスを生成します。出力は stream で指定したストリームに出力されます。The file selected by the above constructor must have been created by the corresponding version of
profile
orcProfile
. To be specific, there is no file compatibility guaranteed with future versions of this profiler, and there is no compatibility with files produced by other profilers. If several files are provided, all the statistics for identical functions will be coalesced, so that an overall view of several processes can be considered in a single report. If additional files need to be combined with data in an existingStats
object, theadd()
method can be used.プロファイルデータをファイルから読み込む代わりに、
cProfile.Profile
またはprofile.Profile
オブジェクトをプロファイルデータのソースとして使うことができます。Stats
には次のメソッドがあります:-
strip_dirs
()¶ Stats
クラスのこのメソッドは、ファイル名の前に付いているすべてのパス情報を取り除くためのものです。出力の幅を80文字以内に収めたいときに重宝します。このメソッドはオブジェクトを変更するため、取り除いたパス情報は失われます。パス情報除去の操作後、オブジェクトが保持するデータエントリは、オブジェクトの初期化、ロード直後と同じように "ランダムに" 並んでいます。strip_dirs()
を実行した結果、2つの関数名が区別できない (両者が同じファイルの同じ行番号で同じ関数名となった) 場合、一つのエントリに合算されされます。
-
add
(*filenames)¶ Stats
クラスのこのメソッドは、既存のプロファイリングオブジェクトに情報を追加します。引数は対応するバージョンのprofile.run()
またはcProfile.run()
によって生成されたファイルの名前でなくてはなりません。関数の名前が区別できない (ファイル名、行番号、関数名が同じ) 場合、一つの関数の統計情報として合算されます。
-
dump_stats
(filename)¶ Stats
オブジェクトに読み込まれたデータを、ファイル名 filename のファイルに保存します。ファイルが存在しない場合は新たに作成され、すでに存在する場合には上書きされます。このメソッドはprofile.Profile
クラスおよびcProfile.Profile
クラスの同名のメソッドと等価です。
-
sort_stats
(*keys)¶ このメソッドは
Stats
オブジェクトを指定した基準に従ってソートします。典型的には引数にソートのキーにしたい項目を示す文字列を指定します (例:'time'
や'name'
など)。2つ以上のキーが指定された場合、2つ目以降のキーは、それ以前のキーで等価となったデータエントリの再ソートに使われます。たとえば
sort_stats('name', 'file')
とした場合、まずすべてのエントリが関数名でソートされた後、同じ関数名で複数のエントリがあればファイル名でソートされます。キー名には他のキーと判別可能である限り綴りを省略して名前を指定できます。現在のバージョンで定義されているキー名は以下の通りです:
有効な引数 意味 'calls'
呼び出し数 'cumulative'
累積時間 'cumtime'
累積時間 'file'
ファイル名 'filename'
ファイル名 'module'
ファイル名 'ncalls'
呼び出し数 'pcalls'
プリミティブな呼び出し回数 'line'
行番号 'name'
関数名 'nfl'
関数名/ファイル名/行番号 'stdname'
標準名 'time'
内部時間 'tottime'
内部時間 すべての統計情報のソート結果は降順 (最も多く時間を消費したものが一番上に来る) となることに注意してください。ただし、関数名、ファイル名、行数に関しては昇順 (アルファベット順) になります。
'nfl'
と'stdname'
には微妙な違いがあります。標準名 (standard name) とは表示された名前によるソートで、埋め込まれた行番号のソート順が特殊です。たとえば、 (ファイル名が同じで) 3、20、40という行番号のエントリがあった場合、20、3、40 の順に表示されます。一方'nfl'
は行番号を数値として比較します。要するに、sort_stats('nfl')
はsort_stats('name', 'file', 'line')
と指定した場合と同じになります。後方互換性のため、数値を引数に使った
-1
,0
,1
,2
の形式もサポートしています。それぞれ'stdname'
,'calls'
,'time'
,'cumulative'
として処理されます。引数をこの旧スタイルで指定した場合、最初のキー (数値キー) だけが使われ、複数のキーを指定しても2番目以降は無視されます。
-
reverse_order
()¶ Stats
クラスのこのメソッドは、オブジェクト内の情報のリストを逆順にソートします。デフォルトでは選択したキーに応じて昇順、降順が適切に選ばれることに注意してください。
-
print_stats
(*restrictions)¶ Stats
クラスのこのメソッドは、profile.run()
の項で述べたプロファイルのレポートを出力します。出力するデータの順序はオブジェクトに対し最後に行った
sort_stats()
による操作に基づきます (add()
とstrip_dirs()
による制限にも支配されます)。引数は (もし与えられると) リストを重要なエントリのみに制限するために使われます。初期段階でリストはプロファイルした関数の完全な情報を持っています。制限の指定は、 (行数を指定する) 整数、 (行のパーセンテージを指定する) 0.0 から 1.0 までの割合を指定する小数、 (出力する standard name にマッチする) 正規表現として解釈される文字列のいずれかを使って行います。複数の制限が指定された場合、指定の順に適用されます。たとえば次のようになります:
print_stats(.1, 'foo:')
上記の場合まず出力するリストは全体の10%に制限され、さらにファイル名の一部に文字列
.*foo:
を持つ関数だけが出力されます:print_stats('foo:', .1)
こちらの例の場合、リストはまずファイル名に
.*foo:
を持つ関数だけに制限され、その中の最初の 10% だけが出力されます。
-
print_callers
(*restrictions)¶ Stats
クラスのこのメソッドは、プロファイルのデータベースの中から何らかの関数呼び出しを行った関数をすべて出力します。出力の順序はprint_stats()
によって与えられるものと同じです。出力を制限する引数も同じです。各呼び出し側関数についてそれぞれ一行ずつ表示されます。フォーマットは統計を作り出したプロファイラごとに微妙に異なります:
-
print_callees
(*restrictions)¶ Stats
クラスのこのメソッドは、指定した関数から呼び出された関数のリストを出力します。呼び出し側、呼び出される側の方向は逆ですが、引数と出力の順序に関してはprint_callers()
と同じです。
-
27.4.5. 決定論的プロファイリングとは¶
決定論的プロファイリング とは、すべての 関数呼び出し, 関数からのリターン, 例外発生 をモニターし、正確なタイミングを記録することで、イベント間の時間、つまりどの時間にユーザコードが実行されているのかを計測するやり方です。もう一方の 統計的プロファイリング (このモジュールでこの方法は採用していません) とは、有効なインストラクションポインタからランダムにサンプリングを行い、プログラムのどこで時間が使われているかを推定する方法です。後者の方法は、オーバヘッドが少ないものの、プログラムのどこで多くの時間が使われているか、その相対的な示唆に留まります。
Python の場合、実行中は必ずインタプリタが動作しているため、決定論的プロファイリングを行うにあたり、計測用にコードを追加する必要はありません。 Python は自動的に各イベントに フック (オプションのコールバック) を提供します。加えて Python のインタプリタという性質によって、実行時に大きなオーバーヘッドを伴う傾向がありますが、それに比べると一般的なアプリケーションでは決定論的プロファイリングで追加される処理のオーバーヘッドは少ない傾向にあります。結果的に、決定論的プロファイリングは少ないコストで Python プログラムの実行時間に関する詳細な統計を得られる方法となっているのです。
呼び出し回数はコード中のバグ発見にも使用できます (とんでもない数の呼び出しが行われている部分)。インライン拡張の対象とすべき部分を見つけるためにも使えます (呼び出し頻度の高い部分)。内部時間の統計は、注意深く最適化すべき"ホットループ"の発見にも役立ちます。累積時間の統計は、アルゴリズム選択に関連した高レベルのエラー検知に役立ちます。なお、このプロファイラは再帰的なアルゴリズム実装の累計時間を計ることが可能で、通常のループを使った実装と直接比較することもできるようになっています。
27.4.6. 制限事項¶
一つの制限はタイミング情報の正確さに関するものです。決定論的プロファイラには正確さに関する根本的問題があります。最も明白な制限は、 (一般に) "クロック"は .001 秒の精度しかないということです。これ以上の精度で計測することはできません。仮に充分な精度が得られたとしても、"誤差"が計測の平均値に影響を及ぼすことがあります。この最初の誤差を取り除いたとしても、それがまた別の誤差を引き起こす原因となります。
もう一つの問題として、イベントを検知してからプロファイラがその時刻を実際に 取得 するまでに "いくらかの時間がかかる" ことです。同様に、イベントハンドラが終了する時にも、時刻を取得して (そしてその値を保存して) から、ユーザコードが処理を再開するまでの間に遅延が発生します。結果的に多く呼び出される関数または多数の関数から呼び出される関数の情報にはこの種の誤差が蓄積する傾向にあります。このようにして蓄積される誤差は、典型的にはクロックの精度を下回ります (1クロック以下) が、一方でこの時間が累計して非常に大きな値になることも あり得ます 。
この問題はオーバーヘッドの小さい cProfile
よりも profile
においてより重要です。そのため、 profile
は誤差が確率的に (平均値で) 減少するようにプラットフォームごとに補正する機能を備えています。プロファイラに補正を施すと (最小二乗の意味で) 正確さが増しますが、ときには数値が負の値になってしまうこともあります (呼び出し回数が極めて少なく、確率の神があなたに意地悪をしたとき :-) )。プロファイルの結果に負の値が出力されても 驚かないでください 。これは補正を行った場合にのみ生じることで、補正を行わない場合に比べて計測結果は実際にはより正確になっているはずだからです。
27.4.7. キャリブレーション (補正)¶
profile
のプロファイラは time 関数呼び出しおよびその値を保存するためのオーバーヘッドを補正するために、各イベントの処理時間から定数を引きます。デフォルトでこの定数の値は 0 です。以下の手順で、プラットフォームに合った、より適切な定数が得られます (制限事項 参照)。
import profile
pr = profile.Profile()
for i in range(5):
print(pr.calibrate(10000))
calibrate メソッドは引数として与えられた数だけ Python の呼び出しを行います。直接呼び出す場合と、プロファイラを使って呼び出す場合の両方が実施され、それぞれの時間が計測されます。その結果、プロファイラのイベントに隠されたオーバーヘッドが計算され、その値は浮動小数として返されます。たとえば、 1.8 GHz の Intel Core i5 で Mac OS X を使用、 Python の time.clock() をタイマとして使った場合、値はおよそ 4.04e-6 となります。
この手順で使用しているオブジェクトはほぼ一定の結果を返します。 非常に 早いコンピュータを使う場合、もしくはタイマの性能が貧弱な場合は、一定の結果を得るために引数に 100000 や 1000000 といった大きな値を指定する必要があるかもしれません。
一定の結果が得られたら、それを使う方法には3通りあります:
import profile
# 1. Apply computed bias to all Profile instances created hereafter.
profile.Profile.bias = your_computed_bias
# 2. Apply computed bias to a specific Profile instance.
pr = profile.Profile()
pr.bias = your_computed_bias
# 3. Specify computed bias in instance constructor.
pr = profile.Profile(bias=your_computed_bias)
選択肢がある場合は、補正値は小さめに設定した方が良いでしょう。プロファイルの結果に負の値が表われる"頻度が低く"なるはずです。
27.4.8. カスタムな時刻取得用関数を使う¶
プロファイラが時刻を取得する方法を変更したいなら (たとえば、実測時間やプロセスの経過時間を使いたい場合)、時刻取得用の関数を Profile
クラスのコンストラクタに指定することができます:
pr = profile.Profile(your_time_func)
この結果生成されるプロファイラは時刻取得に your_time_func()
を呼び出すようになります。 profile.Profile
と cProfile.Profile
のどちらを使っているかにより、 your_time_func
の戻り値は異なって解釈されます:
profile.Profile
your_time_func()
は単一の数値、あるいは (os.times()
と同じように) その合計が累計時間を示すリストを返すようになっていなければなりません。関数が1つの数値、あるいは長さ2の数値のリストを返すようになっていれば、ディスパッチルーチンには特別な高速化バージョンが使われます。あなたが選択した時刻取得関数のために、プロファイラのクラスを補正すべきであることを警告しておきます (キャリブレーション (補正) 参照)。ほとんどのマシンでは、プロファイル時のオーバヘッドの小ささという意味においては、時刻取得関数が長整数値を返すのが最も良い結果を生みます。 (
os.times()
は浮動小数点数のタプルを返すので かなり悪い です。) 綺麗な手段でより良い時刻取得関数に置き換えたいと望むなら、クラスを派生して、ディスパッチメソッドを置き換えてあなたの関数を一番いいように処理するように固定化してしまってください。補正定数の調整もお忘れなく。cProfile.Profile
your_time_func()
は単一の数値を返すようになっていなければなりません。単一の整数を返すのであれば、クラスコンストラクタの第二引数に単位時間当たりの実際の持続時間を渡せます。例えばyour_integer_time_func
が 1000 分の 1 秒単位で計測した時間を返すとすると、Profile
インスタンスを以下のように構築出来ます:pr = cProfile.Profile(your_integer_time_func, 0.001)
cProfile.Profile
クラスはキャリブレーションができないので、自前のタイマ関数は注意を払って使う必要があり、またそれは可能な限り速くなければなりません。自前のタイマ関数で最高の結果を得るには、_lsprof
内部モジュールの C ソースファイルにハードコードする必要があるかもしれません。
Python 3.3 で time
に、プロセス時間や実時間の精密な計測に使える新しい関数が追加されました。
例えば、 time.perf_counter()
を参照してください。