Sansan Builders Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

自然言語処理

アクセスに基づいた推薦のために、文書のどのような情報を使うべきか(その1)

3行で アクセスに基づいた推薦のために、文書のどのような情報を使うべきか考えた。 ニュースの中の名詞、固有名詞、名詞×ジャンル、固有名詞×ジャンルの4つに分けて推薦を行い、ユーザーが興味を持ちそうなニュースを推薦できているかを定性的に確認した。…

Sansan Builders Stage 2021 セッションレポート第1弾 〜自然言語処理&機械学習編〜

こんにちは。DSOC 研究開発部の鈴木碩人です。21卒で今年の4月にSansanに入社しました。 今回は11/5に開催された「Sansan Builders Stage 2021」に参加したのでその中の、私も所属する研究開発部から、高橋が発表した「継続して改善する固有表現抽出」と齋藤…

BERTによる日本語固有表現抽出の精度改善 〜BERT-CRFの紹介〜

こんにちは、DSOC R&Dグループ インターンの笛木正雄です。大学院では離散最適化の研究室に所属しています。インターンでは、日々、知らないことだらけで、色々なことを経験させていただき、伸びしろを実感する毎日です。 現在は、SansanやEightのニュース配…

自分のTweetを使ってSentencepieceとMeCabの分かち書きの比較を行う

3行で はじめに Sentencepieceとは subwordとは Sentencepieceでの取り組み SentencepieceとMeCabの比較 利用するデータセット 利用したコード 適当なTweetを分かち書きしてみる Tweet全部を分かち書きし、頻度順に並べてみる まとめ 注釈 3行で Sentencepie…

© Sansan, Inc.