- 3行で
- はじめに
- Sentencepieceとは
- subwordとは
- Sentencepieceでの取り組み
- SentencepieceとMeCabの比較
- 利用するデータセット
- 利用したコード
- 適当なTweetを分かち書きしてみる
- Tweet全部を分かち書きし、頻度順に並べてみる
- まとめ
- 注釈
3行で
- Sentencepieceの論文概要を説明した。
- 自身のTweetを用いて、SentencepieceとMeCabの分割点の違いを調べた。
- Sentencepieceでは生文から生成された特徴的な分割が見られた。一方、今回のような少ない学習データでは上手く分割できない。