Sansan Builders Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

自然言語処理

BERTによる日本語固有表現抽出の精度改善 〜BERT-CRFの紹介〜

こんにちは、DSOC R&Dグループ インターンの笛木正雄です。大学院では離散最適化の研究室に所属しています。インターンでは、日々、知らないことだらけで、色々なことを経験させていただき、伸びしろを実感する毎日です。 現在は、SansanやEightのニュース配…

自分のTweetを使ってSentencepieceとMeCabの分かち書きの比較を行う

3行で はじめに Sentencepieceとは subwordとは Sentencepieceでの取り組み SentencepieceとMeCabの比較 利用するデータセット 利用したコード 適当なTweetを分かち書きしてみる Tweet全部を分かち書きし、頻度順に並べてみる まとめ 注釈 3行で Sentencepie…

© Sansan, Inc.