高橋寛治 の検索結果:
… R&D グループの高橋寛治です。 前回のTF-IDFで、使ってはいたけれど触れなかった文書や単語の表現方法について述べます。 実際に文書をベクトルとして表現し、コサイン類似度を計算することで理解を深めます。 scikit-learnを使わずにできる限りnumpyを利用してコードを記述してみます。 ノートブックはこちらにあります。 ベクトルで取り扱うと計算しやすい 自然言語を取り扱う研究では、文書や単語といったように自然言語を何らかの単位で取り扱います。 自然言語処理でも活用…
… R&D グループの高橋寛治です。 前回のブログの終わりに書きましたが、今回からは言語処理のアルゴリズムの紹介を行います。 ただ単にアルゴリズムを紹介するだけではなく、実際に実装し動作させた結果も掲載することで直感的な感覚も掴めるものにしたいと思います。 まずは、単純かつよく利用されるTF-IDFから始めていきます。 TF-IDFの基本的な考え方 TF(Term Frequency)-IDF(Inverse Document Frequency)とは、文書中の単語の重要度を頻…