今回は、前回の 「BERTで日本語固有表現抽出器を作ってみた」 に続き、作った固有表現抽出器をWebAPI化します。
モデルを把握する
transformers ライブラリの 固有表現抽出のサンプル を流用してモデルを作成しました。
こちらのコードをもとに学習を実行すると、コマンドライン引数で指定したディクレトリにモデルファイルが出力されます。
model_dir ├── config.json ├── eval_results.txt ├── pytorch_model.bin ├── special_tokens_map.json ├── test_predictions.txt ├── test_results.txt ├── test_test_predictions.tsv ├── tokenizer_config.json ├── training_args.bin └── vocab.txt
transformers ライブラリでは、固有表現抽出器で利用する BertTokenizer
や BertForTokenClassification
クラスがファイルから読み込むメソッド(from_pretrained
)を提供しています。
このメソッドに、上記のモデルファイルのディレクトリのパスを渡すことで、モデルを読み込みます。
ここから紹介するコードではやや冗長な箇所もありますが、サンプルで提供されている utils_ner.py
を最大限に利用しています。