こんにちは。 DSOC R&D グループの高橋寛治です。
2021年2月18日に開催された 第4回 MLOps 勉強会 で登壇の機会をいただき、MLOps に関する取り組みについて発表いたしました。
勉強会の概要と発表内容について簡単に紹介いたします。
MLOps 勉強会
日本の MLOps をより盛んにすべく活動されている団体です。 座談会や勉強会という形式で、MLOps に関する取り組みや最新動向の共有、MLOpsに関するコミュニティ形成を目的として活動されています。
connpass ページにて勉強会の案内がされておりますので、詳しくは上記リンクよりご覧ください。
運営コミュニティが書いているイベントレポートからも勉強会の雰囲気がわかるかと思います。
発表内容
以前に本ブログに掲載した Data Version Control の内容を充実させたものを発表しました。
発表資料はこちらです。
内容は、実務での実験管理を主目的に Data Version Control と呼ばれるツールを実際に使用した際の導入方法や解決したことについて紹介したものです。
ツールを導入することで、実験の再現性や実験の記録が容易になり、サービスの改善が取り組みやすくなりました。 詳しくは発表資料をご覧ください。
質問をいただいていくつか感じたことを挙げます。
「MLflow などと比べた際にどういった利点があるか」という質問をいただきました。 どのツールをどう使い分けていくかという点は改めて非常に難しいと思います。 多種多様なツールが登場しており重なる機能もありますが、ツールごとに特徴や動作のさせ方が異なります。 何を効率化したいか、という点を定めてからでないと、適切なツール選定は難しいかと思います。 例えば、本発表においては実験管理(記録と再現)を重視して、Data Version Control の主にパイプラインを使っています。そのため、本番提供のオペレーションについてはまったく別の方法をとっています。
「DVC のキャッシュの扱いや、動作が重くないか」というような質問をいただきました。 実験管理を中心として使用する中だと特に不便はありませんでした。 あくまでも Linux 仮想マシン上で実験管理を中心に使用するという用途だから問題になっていないのかと思います。 おそらく、実験ごとにデータを DVC で管理してコミットすると、動作が重くなったりキャッシュがディスクを圧迫したりするのではないかと思います。 機能や特徴で語られるとすごく理解しやすいですが、自分のユースケースにあっているかの判断は、なかなか難しいと感じます。
オンラインカンファレンスの感想
今回は Remo というオンラインカンファレンスサービス上での開催でした。
Remo は Web 上に仮想的な部屋が作られます。 全体に通して声を届けるモードと、仮想的なテーブル内でのみ通話するモードの大きく2つの音声コミュニケーション方法が準備されており、オフラインであった状況に近いものとなっています。
登壇時に、人数を数値ではなく、人のアイコンで数えられるのは、オフラインの発表時に前に立ったときの感覚に近いものがありました。
また、懇親会も Remo 上で行われました。 テーブルだと数人で会話できることや、外からは何人くらいで会話しているかがわかりやすくてよかったと思います。 他の方の MLOps の取り組みや最新情報を知れたことはとてもよかったです。
おわりに
MLOps 勉強会の運営の皆様および聴講いただいた皆様どうもありがとうございました。
発表資料を作る中や、質問を頂いている中で、まだまだ MLOps が全然できていないなと感じています。 また、新しい取り組みや改善例が出てきたら、本ブログや勉強会で紹介したいと思います。
執筆者プロフィール
高橋寛治 Sansan株式会社 DSOC (Data Strategy & Operation Center) 研究開発部 研究員
阿南工業高等専門学校卒業後に、長岡技術科学大学に編入学。同大学大学院電気電子情報工学専攻修了。在学中は、自然言語処理の研究に取り組み、解析ツールの開発や機械翻訳に関連する研究を行う。大学院を卒業後、2017年にSansan株式会社に入社。キーワード抽出など自然言語処理を生かした研究開発に取り組む。