【Techの道も一歩から】第42回「Luigiとgokartを試用して比べて特徴を掴む」

f:id:kanjirz50:20190104142720j:plain

こんにちは。 DSOC R&D グループの高橋寛治です。

最近は、ことあるごとにMLOpsと言っています。そんなMLOpsの本丸とも言えるパイプラインツールの一つであるgokartを開発された西場さん（@m_nishiba）が部長ということで、使ってみないわけにはいかないgokartを使ってみました*1。

わからないときは、直接聞けます。

Luigiとgokart

LuigiはSpotifyが開発しているPythonによるパイプラインパッケージです。

下記の以前の記事でも紹介しましたが、Luigiが提供するお作法（クラス設計）に従うことで、依存関係を持つパイプラインを簡潔に記載することができます。

buildersbox.corp-sansan.com

gokartはLuigiのラッパーとして、チーム開発を志向した機械学習パイプラインに特化した機能を提供しています。

使ってみて感じた特徴を二つあげます。

一つ目に、入出力の制約が強くなっていることがあげられます。 Luigiでは入出力を行うために、様々な記述が必要です。一方のgokartではloadメソッドとdumpメソッドが用意されており、基本的に記述が不要となります。 pickleでシリアライズされ、入出力の方式が統一されることとなります。機械学習でありがちな、形式を考慮しながら読み書きするといったコードが不要になります。

二つ目に、再現性を担保するための入出力の記録がフレームワークによりサポートされることがあげられます。タスクへのパラメータが異なると、パラメータごとのハッシュがファイル名に自動的に付与されて出力されます。これにより、機械学習でありがちな一部のパラメータを変えて再実行する場合において、過去の結果の利用が容易となります。仮にLuigiで実現する場合はパラメータをファイル名に加えたり、gokartと同様にハッシュを計算したりといった工夫を自分で記述する必要があると思います。

他に、TaskInstanceParameterと呼ばれるタスクをパラメータとして渡せる機能がありますが、次のサンプルコードでは使っていないため割愛します。

MNISTを題材とした機械学習パイプラインで比べる

サンプルコードを書いてみました。 MNISTデータセットを取得し、前処理、学習、評価を行う単純なパイプラインです。

github.com

mnist-gokartはcookiecutterを利用してプロジェクトを作成しています。

一つ目の特徴で述べた入出力の制約について、わかりやすい箇所を上げます。なお、下記ではgokartとLuigiの例を併記していますが、実際は別ファイルとなります。

# luigiやgokart関連のimportは省略
from sklearn.datasets import load_digits

# gokartの例（mnist_gokart/model/mnist.py）
class GetMNISTDatasetTask(GokartTask):
    def run(self):
        digits = load_digits()
        self.dump(digits)


# Luigiの例（mnist_luigi/tasks/data_fetcher.py）
class GetMNISTDatasetTask(luigi.Task):
    def output(self):
        return luigi.LocalTarget(
            "data/mnist.pickle",
            format=luigi.format.Nop
        )

    def run(self):
        digits = load_digits()

        with self.output().open("wb") as fout:
           joblib.dump(digits, fout)