ライブラリと拡張 FAQ

目次

ライブラリ一般の質問

作業 X を行うためのモジュールやアプリケーションを探すにはどうしますか?

ライブラリリファンレス から関係がありそうな標準ライブラリモジュールがあるかどうか調べてください。 (標準ライブラリに何があるかが分かるようになると、この段階をスキップすることができます。)

For third-party packages, search the Python Package Index or try Google or another Web search engine. Searching for "Python" plus a keyword or two for your topic of interest will usually find something helpful.

math.py (socket.py, regex.py, etc.) のソースファイルはどこにありますか?

モジュールのソースファイルが見付けられない場合は、それは C 、 C++ かもしくは別のコンパイル言語で実装された、ビルトインもしくは動的に読み込まれるモジュールかもしれません。この場合、ソースは手に入らないかもしれませんし、 mathmodule.c のようなものが (Python の読み込みパスに無い) C ソースディレクトリのどこかにあるかもしれません。

Python のモジュールには、(少なくとも) 3 種類あります:

  1. Python で書かれたモジュール (.py)。

  2. C で書かれ、動的にロードされるモジュール (.dll, .pyd, .so, .sl, etc)。

  3. C で書かれ、インタプリタにリンクされているモジュール。このリストを得るには、こうタイプしてください:

    import sys
    print(sys.builtin_module_names)
    

Python のスクリプトを Unix で実行可能にするにはどうしますか?

二つの条件があります :スクリプトファイルのモードが実行可能で、最初の行が #! で始まり Python インタプリタのパスが続いていなければなりません。

前者は、chmod +x scriptfile 、場合によっては chmod 755 scriptfile を実行すればできます。

後者は、いくつかの方法でできます。最も直接的な方法はこのように

#!/usr/local/bin/python

のようにファイルの一番最初の行に、プラットフォーム上の Python がインストールされているパス名を書くことです。

スクリプトを Python インタプリタの場所に依存させたくない場合は、 env プログラムが使えます。 Python インタプリタがユーザの PATH のディレクトリにあることを前提とすれば、ほとんど全ての Unix 系 OS では次の書き方をサポートしています:

#!/usr/bin/env python

CGI スクリプトでこれをやっては いけません 。 CGI スクリプトの PATH 変数はたいてい最小限のものになっているので、実際のインタプリタの絶対パスを使う必要があります。

Occasionally, a user's environment is so full that the /usr/bin/env program fails; or there's no env program at all. In that case, you can try the following hack (due to Alex Rezinsky):

#! /bin/sh
""":"
exec python $0 ${1+"$@"}
"""

これには、スクリプトの __doc__ 文字列を定義するというちょっとした欠点があります。しかし、これを付け足せば直せます:

__doc__ = """...Whatever..."""

Python には curses/termcap パッケージはありますか?

Unix 系 OS において: 標準の Python ソースディストリビューションには Modules サブディレクトリに curses モジュールが付いてきますが、デフォルトではコンパイルされていません。 (これは Windows 用ディストリビューションでは利用できないことに注意してください -- Windows には curses モジュールはありません。)

curses モジュールは基本的な curses の機能や、色付きの表示、別の文字集合サポート、パッド、マウスサポートなどの ncurses や SYSV curses の多くの機能をサポートしています。このことは、モジュールが BSD curses だけしか持っていない OS とは互換性が無いことを意味しますが、現在メンテナンスされている OS でそういう類のものは無さそうです。

Windows では: the consolelib module を使ってください。

Python には C の onexit() に相当するものはありますか?

atexit モジュールは、 C の onexit() と同じような関数登録を提供します。

シグナルハンドラが動かないのですがなぜですか?

最もありがちな問題は、シグナルハンドラが間違った引数リストで宣言されていることです。これは次のように呼び出されます

handler(signum, frame)

だから、これは二つの引数で宣言されるべきです:

def handler(signum, frame):
    ...

よくある作業

Python のプログラムやコンポーネントをテストするにはどうしますか?

Python には二つのテストフレームワークがついています。doctest モジュールは、モジュールの docstring から使用例を見つけてそれらを実行し、出力を docstring によって与えられた望まれる出力と比較します。

unittest モジュールは、Java や Smalltalk のテストフレームワークを模した装飾されたテストフレームワークです。

テスト作業を簡単にするために、プログラムにおいてモジュール性の良い設計を使うべきです。プログラムでは、ほぼ全ての処理を関数やクラスのメソッドで包むべきです -- こうすることで、プログラムが速くなるという驚くような愉快な効果がときおり得られることがあります (というのも、ローカル変数へのアクセスはグローバルなアクセスよりも速いからです)。さらに言うと、テストを行うのがより難しくなってしまうため、プログラムは可変なグローバル変数に依存するのを避けるべきです。

プログラムの "global main logic" は

if __name__ == "__main__":
    main_logic()

のように main モジュールの最後に出来る限りシンプルなものを書くのが良いでしょう。

プログラムが整理され、関数やクラスの動作が追いやすい状態になったら、その動作を試すテスト関数を書くべきです。一連のテストを自動化するテストスイートは、それぞれのモジュールに関連付けることができます。これは手間が掛かりそうに思えますが、Python は簡素で融通が効くので、驚くほど簡単です。"製品コード (production code)" と並行でテスト関数を書くことで、バグや設計の不備でさえも早い段階で簡単に見付かるようになるので、コーディング作業をより心地良く楽しいものにできます。

プログラムのメインモジュールとして設計されたのではない "補助モジュール" には、モジュールの自己テストを含めるといいでしょう。

if __name__ == "__main__":
    self_test()

複雑な外部インタフェースと作用し合うプログラムでさえ、外部インタフェースが使えない時でも、Python で実装された "fake" インタフェースを使ってテストできます。

Python のドキュメント文字列からドキュメントを生成するにはどうしますか?

pydoc モジュールで Python ソースコード内のドキュメント文字列から HTML を生成できます。純粋に docstring から API ドキュメントを生成するには、他に epydoc という選択肢もあります。 Sphinx も docstring の内容を含めることができます。

一度に一つの押鍵を取得するにはどうしますか?

Unix 系 OS ではいくつか解決方法があります。curses を使うのが素直なやり方ですが、curses は学ぶには少し大き過ぎるモジュールです。

スレッド

スレッドを使ったプログラムを書くにはどうしますか?

_thread モジュールではなく、必ず threading モジュールを使ってください。 threading モジュールは、 _thread モジュールで提供される低レベルな基本要素の、便利な抽象化を構成します。

Aahz は、役立つスレッディングのチュートリアルから成るスライドを揃えています。 http://www.pythoncraft.com/OSCON2001/ を参照してください。

スレッドが一つも実行されていないようです。なぜですか?

メインスレッドが終了するとともに、全てのスレッドは終了されます。メインスレッドは速く働きすぎるので、スレッドには何をする時間も与えられません。

簡単な解決策は、プログラムの終わりに、スレッドが完了するのに十分な時間のスリープを加えることです:

import threading, time

def thread_task(name, n):
    for i in range(n):
        print(name, i)

for i in range(10):
    T = threading.Thread(target=thread_task, args=(str(i), i))
    T.start()

time.sleep(10)  # <---------------------------!

しかし、実際は (ほとんどのプラットフォームでは) スレッドは並行して実行されるのではなく、一つづつ実行されるのです!なぜなら、OS のスレッドスケジューラは、前のスレッドがブロックされるまで新しいスレッドを開始しないからです。

簡単に直すには、関数の実行の最初にちょっとスリープを加えることです:

def thread_task(name, n):
    time.sleep(0.001)  # <--------------------!
    for i in range(n):
        print(name, i)

for i in range(10):
    T = threading.Thread(target=thread_task, args=(str(i), i))
    T.start()

time.sleep(10)

time.sleep() の良い遅延時間を推測しようとするよりも、セマフォのような仕組みを使う方が良いでしょう。 1 つのアイディアは queue モジュールを使って、キューオブジェクトを作り、各スレッドが完了したときにキューにトークンを追加し、メインスレッドにスレッドと同じ数のトークンをキューから読み出させることです。

たくさんのワーカースレッドに作業を割り振るにはどうしますか?

最も簡単な方法は、新しい concurrent.futures モジュール、特に ThreadPoolExecutor クラスを使うことです。

もしくは、実行アルゴリズムを上手にコントロールしたい場合は、自身の手でロジックを書くこともできます。 queue モジュールを使って、ジョブのリストを含むキューを作ってください。 Queue クラスはオブジェクトのリストを保持し、キューに要素を追加する .put(obj) メソッド、それら要素を返す .get() メソッドを持っています。このクラスは、それぞれのジョブがきっちり 1 回だけ取り出されることを保証するのに必要なロック処理にも配慮します。

ここにちょっとした例があります:

import threading, queue, time

# The worker thread gets jobs off the queue.  When the queue is empty, it
# assumes there will be no more work and exits.
# (Realistically workers will run until terminated.)
def worker():
    print('Running worker')
    time.sleep(0.1)
    while True:
        try:
            arg = q.get(block=False)
        except queue.Empty:
            print('Worker', threading.currentThread(), end=' ')
            print('queue empty')
            break
        else:
            print('Worker', threading.currentThread(), end=' ')
            print('running with argument', arg)
            time.sleep(0.5)

# Create queue
q = queue.Queue()

# Start a pool of 5 workers
for i in range(5):
    t = threading.Thread(target=worker, name='worker %i' % (i+1))
    t.start()

# Begin adding work to the queue
for i in range(50):
    q.put(i)

# Give threads time to run
print('Main thread sleeping')
time.sleep(5)

実行時には、以下のように出力されます:

Running worker
Running worker
Running worker
Running worker
Running worker
Main thread sleeping
Worker <Thread(worker 1, started 130283832797456)> running with argument 0
Worker <Thread(worker 2, started 130283824404752)> running with argument 1
Worker <Thread(worker 3, started 130283816012048)> running with argument 2
Worker <Thread(worker 4, started 130283807619344)> running with argument 3
Worker <Thread(worker 5, started 130283799226640)> running with argument 4
Worker <Thread(worker 1, started 130283832797456)> running with argument 5
...

より詳しいことはモジュールのドキュメントを調べてください; Queue クラスは多機能なインターフェースを提供しています。

グローバルな値のどんな種類の変更がスレッドセーフになるのですか?

global interpreter lock (GIL) が内部で使われ、Python VM で一度に一つだけのスレッドが実行されることが保証されています。一般に、Python ではスレッド間の切り替えをバイトコード命令の間でのみ行います。切り替えの周期は、 sys.setswitchinterval() で設定できます。したがって、それぞれのバイトコード命令、そしてそれぞれの命令が届く全ての C 実装コードは、 Python プログラムの観点からは、アトミックです。

このことから、理論上は、正確な勘定のためには PVM バイトコードの実装を理解することが必要です。実際上は、組み込みデータ型(整数、リスト、辞書、等)の、変数を共有する "アトミックそうな" 演算は、実際にアトミックです。

例えば、以下の演算は全てアトミックです (L、L1、L2 はリスト、 D、D1、D2 は辞書、x、y はオブジェクト、i、j は整数です):

L.append(x)
L1.extend(L2)
x = L[i]
x = L.pop()
L1[i:j] = L2
L.sort()
x = y
x.field = y
D[x] = y
D1.update(D2)
D.keys()

これらは、アトミックではありません:

i = i+1
L.append(L[-1])
L[i] = L[j]
D[x] = D[x] + 1

他のオブジェクトを置き換えるような演算は、そのオブジェクトの参照カウントがゼロになったときに __del__() メソッドを呼び出すことがあり、これが影響を及ぼすかもしれません。これは特に、辞書やリストの大規模な更新に当てはまります。疑わしければ、mutex を使ってください!

グローバルインタプリタロック (Global Interpreter Lock) を取り除くことはできないのですか?

マルチスレッド Python プログラムは事実上一つの CPU しか使えず、 (ほとんど) 全ての Python コードが グローバルインタプリタロック (GIL) が保持されている間しか作動しなくなるということで、GIL は、 Python をハイエンドなマルチプロセッササーバマシン上に配備する上で邪魔であると見なされがちです。

Python 1.5 の時代、Greg Stein は実際に、GIL を取り除いてよりきめ細かいロッキングで置き換える包括的なパッチセット ("free threading" パッチ) を実装しました。Adam Olsen は最近、python-safethread プロジェクトで似たような実験を行いました。残念ながらどちらの実験も、GIL の除去を補償するために必要なきめ細かいロッキングの量のため、シングルスレッドのパフォーマンスの極端な低下 (少なくとも 30% の遅れ) を示しました。

これは、マルチ CPU マシン上で Python を使いこなせないことを意味しません!タスクを複数の スレッド ではなく複数の プロセス に分けることを考えればいいのです。これは、新しい concurrent.futures モジュールの ProcessPoolExecutor クラスを使えば簡単です。multiprocessing モジュールは、タスクのディスパッチをより深く制御したいときのためのより低水準な API を提供します。

C 拡張をうまく使うことも役立ちます。C 拡張を時間のかかるタスクの実行に使えば、その拡張は実行が C コードで行われている間 GIL を解放でき、その間に他のスレッドで作業が進められます。 zlibhashlib など、すでにこれを行なっている標準ライブラリモジュールもあります。

GIL を本当にグローバルにするより、インタプリタ状態ごとのロックにするべきという提案もあります。そして、インタプリタはオブジェクトを共有するべきではないということです。残念ながら、どちらも実現しないでしょう。多くのオブジェクトの実装は現在、グローバル状態を持っているので、実現はたいへんな大仕事になりそうです。例えば、小さな整数と短い文字列はキャッシュされます。このキャッシュはインタプリタ状態に動かされなくてはなりません。他のオブジェクト型は自身の自由変数リストを持っています。これらの自由変数リストはインタプリタ状態に動かされなくてはなりません。等々。

それどころか、その作業が終わる時が来るかもわかりません。なぜなら、サードパーティ拡張にも問題があるからです。サードパーティ拡張が書かれるペースは、インタプリタ状態にすべてのグローバル状態を格納するように変換できるペースよりも速いことでしょう。

そして最後に、一旦複数のインタプリタを状態を全く共有しないようにしたとして、それぞれのインタプリタを独立したプロセス上で動かしてなにが得られるというのでしょうか?

入力と出力

ファイルを削除するにはどうしますか? (その他、ファイルに関する質問...)

os.remove(filename) または os.unlink(filename) を使ってください。ドキュメントは、 os モジュールを参照してください。この二つの関数は同じものです。 unlink() は単に、この関数の Unix システムコールの名称です。

ディレクトリを削除するには、os.rmdir() を使ってください。作成には os.mkdir() を使ってください。os.makedirs(path)path の中間のディレクトリの、存在しないものを作成します。os.removedirs(path) は中間のディレクトリが空である限り、それらを削除します。ディレクトリツリー全体とその中身全てを削除したいなら、shutil.rmtree() を使ってください。

ファイルの名前を変更するには、os.rename(old_path, new_path) を使ってください。

ファイルを切り詰めるには、 f = open(filename, "rb+") を使ってファイルを開き、 f.truncate(offset) を使ってください; offset はデフォルトでは現在のシーク位置です。 os.open() で開かれたファイル用の os.ftruncate(fd, offset) もあります。 fd はファイルディスクリプタ (小さい整数値) です。

shutil モジュールにも、copyfile()copytree()rmtree() 等、ファイルに作用する関数がいくつか含まれます。

ファイルをコピーするにはどうしますか?

shutil モジュールには copyfile() 関数があります。なお、MacOS 9 ではリソースフォークやファインダー情報をコピーしません。

バイナリデータを読み書きするにはどうしますか?

複雑なバイナリデータ形式の読み書きには、struct モジュールを使うのが一番です。これでバイナリデータ (通常は数) を含む文字列を取って、 Python オブジェクトに変換することができますし、その逆もできます。

例えば、以下のコードはファイルから 2 バイトの整数 2 個と 4 バイトの整数 1 個をビッグエンディアンフォーマットで読み込みます:

import struct

with open(filename, "rb") as f:
    s = f.read(8)
    x, y, z = struct.unpack(">hhl", s)

フォーマット中の '>' はデータを強制的にビッグエンディアンにします。ファイルから、文字 'h' は一つの"整数"(2 バイト)を読み込み、文字 'l' は一つの"long 整数"を読み込みます。

より規則的なデータ (例えば、整数や浮動小数点数の中身の型が揃ったリスト) に対しては、 array モジュールを使うこともできます。

注釈

バイナリデータを読み書きするには、 (ここにあるように "rb"open() に渡して) ファイルをバイナリモードで開く義務があります。代わりに (デフォルトの) "r" を使った場合は、ファイルはテキストモードで開かれ、 f.read()bytes オブジェクトではなく str オブジェクトを返します。

os.popen() によって作られたパイプで os.read() が使われていないようです。なぜですか?

os.read() は、開かれたファイルを表す小さな整数、ファイルディスクリプタを引数に取る、低レベルの関数です。 os.popen() は、組み込みの open() 関数の返り値と同じ型の、高レベルなファイルオブジェクトを作成します。従って、 os.popen() によって作成されたパイプ p から n バイト分だけ読み取るには、 p.read(n) を使う必要があります。

シリアル (RS232) ポートにアクセスするにはどうしますか?

Win32、POSIX (Linux、BSD、など)、Jythonでは:

Unix では、Mitch Chapman による Usenet の投稿を参照してください:

sys.stdout (stdin, stderr) を閉じようとしても実際に閉じられないのはなぜですか?

Python の file object は、低水準の C ファイルディスクリプタ上の、抽象の高水準レイヤです。

組み込みの open() 関数によって生成されたほとんどのファイルオブジェクトでは、 f.close() は Python ファイルオブジェクトが Python の視点からは閉じられているものとする印をつけ、その下にある C ファイルディスクリプタを閉じるように手配します。これは、 f がガベージとなったときにも、 f のデストラクタで自動的に起こります。

しかし、stdin、stdout、stderr は C で特別な立場が与えられていることから、Python でも同様に特別に扱われます。sys.stdout.close() を実行すると、Python レベルのファイルオブジェクトには閉じられているものとする印がつけられますが、C ファイルディスクリプタは 閉じられません

下にある C ファイルディスクリプタのうち、この三つのどれかを閉じるには、まず本当に閉じる必要があることを確かめるべきです (例えば、拡張モジュールの I/O を混乱させてしまうかもしれません)。本当に必要ならば、 os.close() を使ってください:

os.close(stdin.fileno())
os.close(stdout.fileno())
os.close(stderr.fileno())

または、数の定数としてそれぞれ 0, 1, 2 も使えます。

ネットワーク/インターネットプログラミング

Python の WWW ツールには何がありますか?

ライブラリリファレンスマニュアルの インターネットプロトコルとサポートインターネット上のデータの操作 という章を参照してください。Python には、サーバサイドとクライアントサイドの web システムを構築するのに便利な多くのモジュールがあります。

利用可能なフレームワークの概要は Paul Boddie によって、 https://wiki.python.org/moin/WebProgramming でメンテナンスされています。

Cameron Laird は、http://phaseit.net/claird/comp.lang.python/web_python で Python のウェブ技術に関する便利なページ群を整備しています。

CGI フォームの発信 (METHOD=POST) を模倣するにはどうしますか?

フォームを POST した結果のウェブページを取得したいです。簡単に取得するためのコードはあるでしょうか?

あります。これは urllib.request を利用した簡単な例です:

#!/usr/local/bin/python

import urllib.request

# build the query string
qs = "First=Josephine&MI=Q&Last=Public"

# connect and send the server a path
req = urllib.request.urlopen('http://www.some-server.out-there'
                             '/cgi-bin/some-cgi-script', data=qs)
with req:
    msg, hdrs = req.read(), req.info()

一般的には、パーセント記号でエンコードされた POST 操作では、クエリ文字列は urllib.parse.urlencode() を使って処理されなければならないことに注意してください。例えば、 name=Guy Steele, Jr. を送信するには:

>>> import urllib.parse
>>> urllib.parse.urlencode({'name': 'Guy Steele, Jr.'})
'name=Guy+Steele%2C+Jr.'

Python のスクリプトからメールを送るにはどうしますか?

標準ライブラリモジュール smtplib を使ってください。

以下に示すのが、これを使ったごく単純な対話型のメール送信器です。このメソッドは SMTP リスナをサポートするホストならどこででも作動します。

import sys, smtplib

fromaddr = input("From: ")
toaddrs  = input("To: ").split(',')
print("Enter message, end with ^D:")
msg = ''
while True:
    line = sys.stdin.readline()
    if not line:
        break
    msg += line

# The actual mail send
server = smtplib.SMTP('localhost')
server.sendmail(fromaddr, toaddrs, msg)
server.quit()

Unix 限定の代わりの選択肢は sendmail を使うことです。sendmail プログラムの場所はシステムによって様々です; あるときは /usr/lib/sendmail だったり、あるときは /usr/sbin/sendmail だったり。sendmail のマニュアルページが助けになるでしょう。サンプルコードはこのようになります:

import os

SENDMAIL = "/usr/sbin/sendmail"  # sendmail location
p = os.popen("%s -t -i" % SENDMAIL, "w")
p.write("To: receiver@example.com\n")
p.write("Subject: test\n")
p.write("\n")  # blank line separating headers from body
p.write("Some text\n")
p.write("some more text\n")
sts = p.close()
if sts != 0:
    print("Sendmail exit status", sts)

ソケットの connect() メソッドでブロッキングされなくするにはどうしますか?

主に select モジュールがソケットの非同期の I/O を扱うのに使われます。

TCP 接続がブロッキングされないようにするために、ソケットをノンブロッキングモードに設定することが出来ます。そして connect() したときに、即座に接続できるか、エラー番号を .errno として含む例外を受け取るかのどちらかになります。errno.EINPROGRESS は、接続が進行中であるが、まだ完了していないということを示します。異なる OS では異なる値が返されるので、あなたのシステムで何が返されるかを確かめておく必要があります。

connect_ex() メソッドを使えば例外を生成しなくて済みます。これは単に errno の値を返すでしょう。ポーリングのためには、後でまた connect_ex() を呼び出すことができます -- 0 または errno.EISCONN は接続されたことを表します -- または、選択するソケットにこれを渡して書き込み可能か調べることができます。

注釈

asyncore モジュールは、ノンブロッキングのネットワークコードを書く作業のためにフレームワークのような方法を提供します。サードパーティの Twisted ライブラリは一般的で多機能な選択肢です。

データベース

Python にはデータベースパッケージへのインタフェースはありますか?

はい。

標準の Python には、 DBMGDBM などの、ディスクベースのハッシュへのインタフェースも含まれています。また、 sqlite3 モジュールは、軽量なディスクベースの関係データベースを提供します。

ほとんどの関係データベースがサポートされています。詳細は DatabaseProgramming wiki page を参照してください。

Python で永続的なオブジェクトを実装するにはどうしますか?

pickle ライブラリモジュールで、ごく一般的な方法でこれを解決できます (開かれたファイル、ソケット、ウィンドウのようなものを保管することはできませんが)。 shelve ライブラリモジュールは pickle と (g)dbm を使い、任意の Python オブジェクトを含む永続的なマッピングを生成します。

数学と数

Python で乱数を生成するにはどうしますか?

標準モジュールの random が乱数生成器を実装しています。使い方は単純です:

import random
random.random()

これは区間 [0, 1) 内のランダムな浮動小数点数を返します。

このモジュールにはその他多くの特化した生成器もあります。例えば:

  • randrange(a, b) は区間 [a, b) から整数を選びます。
  • uniform(a, b) は区間 [a, b) から浮動小数点数を選びます。
  • normalvariate(mean, sdev) は正規 (ガウス) 分布をサンプリングします。

シーケンスに直接作用する高水準な関数もあります。例えば:

  • choice(S) は与えられたシーケンスからランダムな要素を選びます。
  • shuffle(L) はリストをインプレースにシャッフルします。すなわち、ランダムに並び替えます。

Random クラスのインスタンスを生成して、複数の独立な乱数生成器をつくることもできます。