Sansan Builders Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

Techの道も一歩から の検索結果:

【Techの道も一歩から】第17回「チームで社内データアクセスライブラリを作った話」

こんにちは。 DSOC R&D グループの高橋寛治です。 光陰矢のごとしとはまさにこのことで、気づけば入社して2年が経とうとしています。 今でこそある程度わかってきましたが、入社当初はどこにどんなデータがあり、どのようにアクセスするのかよくわかっていませんでした。 知らないことを知るということは非常に難しく、「それさぁ。早く言ってよ〜」とどこかで聞いたことのあるようなフレーズをぼやくのは簡単なのです。 しかし、そういった事態を避けるために情報を共有しようとしますが、実際には非…

【Techの道も一歩から】第16回「Rに入門してテキストマイニング」

こんにちは。 DSOC R&D グループの高橋寛治です。 私が所属する R&D グループでは、プログラミングの使用言語は特に定まっていないので、私は使い慣れている Python を利用しています。 つい最近のことですが、別の研究員が R を用いてワードクラウドを作っているのを横目で見ていました。 コードを見させていただいたところ少量でわかりやすく、非常に便利そうだと感じました。 新年新しいことを始めてみようという気持ちも相まって、今回はRに入門してみます。 こちらの「Rによる…

【Techの道も一歩から】第15回「Pythonによる正規表現のまとめ」

こんにちは。 DSOC R&D グループの高橋寛治です。 今回は、何かと忘れて検索しがちな正規表現についてまとめたいと思います。 正規表現の文法やPythonコードによる具体例で書くことで、備忘録としたいと思います。

【Techの道も一歩から】第14回「出現頻度と連接頻度に基づく専門用語抽出器を実装してみる」

こんにちは。 DSOC R&D グループの高橋寛治です。 最近、アルゴリズムを実装して勉強することにハマっています。 ある程度理解しないと実装できないですし、そもそも実装したものが動くということは非常に嬉しいものです。 さて、今回は最近実装した「出現頻度と連接頻度に基づく専門用語抽出器」について理論と実装の紹介を行います。 早く実装が見たいというかたは、こちらからすぐにご覧いただけます。 「出現頻度と連接頻度に基づく専門用語抽出」の理論 次の論文の内容を実装します。

【Techの道も一歩から】第13回「文書や単語をどうやって表現するかコサイン類似度で学ぶ」

こんにちは。 DSOC R&D グループの高橋寛治です。 前回のTF-IDFで、使ってはいたけれど触れなかった文書や単語の表現方法について述べます。 実際に文書をベクトルとして表現し、コサイン類似度を計算することで理解を深めます。 scikit-learnを使わずにできる限りnumpyを利用してコードを記述してみます。 ノートブックはこちらにあります。 ベクトルで取り扱うと計算しやすい 自然言語を取り扱う研究では、文書や単語といったように自然言語を何らかの単位で取り扱います。…

【Techの道も一歩から】第12回「基礎的な考え方であるTF-IDFを学ぶ」

Techの道も一歩から こんにちは。 DSOC R&D グループの高橋寛治です。 前回のブログの終わりに書きましたが、今回からは言語処理のアルゴリズムの紹介を行います。 ただ単にアルゴリズムを紹介するだけではなく、実際に実装し動作させた結果も掲載することで直感的な感覚も掴めるものにしたいと思います。 まずは、単純かつよく利用されるTF-IDFから始めていきます。 TF-IDFの基本的な考え方 TF(Term Frequency)-IDF(Inverse Document Fr…

© Sansan, Inc.