高橋寛治 の検索結果:
…技術本部研究開発部の高橋寛治です。 Sansan Advent Calendar 2023を書いた人達で交流と技術への理解を深めるために、社内でLT*1会を実施しました。 準備が少なくテンポ良く会として進められるため、LT形式を取りました。 また、フライドチキンや飲み物を用意し、ゆるい雰囲気で実施しました。 本記事は、そのLT会の開催報告です。 LT大会のハイライト 4本の発表がありました。 それぞれの内容について簡単に紹介したいと思います。 オンラインとオフラインのハイブリ…
…技術本部研究開発部の高橋寛治です。 毎年恒例のアドベントカレンダーの時期がやってきました。 今回は、技術ブログの執筆を技術で支援するツールを用意したため、その内容を紹介したいと思います。 なお、本記事はそのツールを用いて書かれたものです。 技術ブログを書きやすくしたい 技術に関する知見を共有することは、知見を元にした新しい技術を生むことや、類似の事象の早期解決につながることなど、様々な利点があると私は考えています。 ある知見が新しい知見を呼び、新しい知見が更なる新しい知見を呼…
…技術本部研究開発部の高橋寛治です。 最近、簡単なデモレベルの Slack アプリを初めて作成しました。 いろいろな設定をしたり、リファレンスを見たりと、やることが多かったです。 次回に作る際に迷わないように、まとめておきたいと思います。 おさえておくこと フレームワーク Bolt を使うこと デモレベルではソケットモードで作うこと メッセージの作成には Block Kit Builder を使うこと(textも設定すること) Slack APIも利用すること 簡素にすること …
…技術本部研究開発部の高橋寛治です。 「神山通信」の連載は、私が表参道での勤務に戻るためにvol.4で最終回となります。 最終回は、神山の楽しいドライブルート・・・ではなく、神山の様子を紹介した後に、少し技術的な内容を含めて締めくくりたいと思います。 冬の神山 こちらの写真は、お正月に神山ラボに門松が立てられていた時のものです。 神山ラボに立てられた門松 門松だぁ、と眺めていたところ、そもそも門松が何者なのか気になってきました。 いざ門松が何かを自分に問いかけてみると、斜めに切…
…技術本部研究開発部の高橋寛治です。 私はお昼ご飯を食べないと、力が出ないタイプです。 さて、神山ラボ近辺で最近食べたお昼ご飯を紹介したいと思います。 神山ラボを起点に、お昼休み中に徒歩で行けるところと車で行けるところで分けています。 写真と経路と一言感想で紹介しますので、気になるお店には行ってみてください。 徒歩で行けるところ めん処 林商店 うどんと天ぷら(2023年1月11日(水)) ラボから歩いて約3分です。 どこか懐かしい風味のうどんとともに、好きな種類の天ぷらをいた…
…技術本部研究開発部の高橋寛治です。 サテライト拠点の神山ラボには、薪ストーブが設置されています。 薪ストーブで暖を取ったり、揺らぐ炎を見てコーディングしたりしてみたくないですか?してみたいですよね。 ということで、今回は神山ラボの薪ストーブと覚えたばかりの薪着火について紹介します。 いろいろ教わりながら勉強しているところですので、間違っているところがあれば、こっそりご連絡ください。 神山ラボに置かれている薪ストーブ 薪ストーブとは、薪を燃料とする暖房器具です。 神山ラボに置か…
…技術本部研究開発部の高橋寛治です。 徳島県名西郡神山町にあるサテライト拠点の神山ラボで10月から勤務しています。 神山ラボ勤務での日常について、ざっくばらんに紹介します。 神山ラボへの通勤 今は徳島平野に住んでいます。 神山ラボへは車で通勤しています。 片道約50分の道のりです。通勤時間は橋など特定の場所で渋滞が発生します。 ある雨の日の朝は、家から2km進むのに約50分かかって心が折れ、おとなしく引き返して在宅勤務としました。 渋滞発生時間帯回避マップを必ず確認し、最適な時…
…技術本部研究開発部の高橋寛治です。 SageMakerのInf1推論エンドポイントで機械学習モデルを試したので紹介します。 部分的に紹介しているため、SageMakerやHuggingFaceを使ったことがないと、わかりづらいかと思いますがご了承ください。 目的 現在SageMakerの推論エンドポイントで、独自コンテナの機械学習モデルを稼働させています。 これをコスパよく、より高速に動かしたいというのが今回の目的です。 Inf1インスタンス Inf1インスタンスは、機械学習…
…技術本部研究開発部の高橋寛治です。 以前に紹介したStreamlitは、非常に便利でよく使っています。 buildersbox.corp-sansan.com Webアプリとしてインターフェイスが提供されるため、ちょっとしたデモを誰かに試してもらうのが容易で重宝しています。 ただ、いつも忘れてしまうのが、Nginxで複数のStreamlitアプリを提供する方法です。 今回は、デモとしてとりあえず動いたらいい状態になるような設定について紹介します。 Nginxの設定 ここからは…
…術本部 研究開発部の高橋寛治です。 Python でプロジェクトを始める際に、ディレクトリ構成を考えたり、パッケージ方法を考えたり、もしくは何か参考になるものを見つけてコピペしたり、と意外と時間をかけていました。 これをコマンド一つで解決する Cookiecutter および社内での活用事例を紹介します。 Cookiecutterとは Cookiecutter とは、プロジェクトテンプレートからプロジェクトを作成してくれるコマンドラインツールです。 ここでのプロジェクトとは、…
… R&D グループの高橋寛治です。 ログイン後に動的にレンダリングされたページから必要な情報を抽出する、いわゆるスクレイピングを最近行いました。 スクレイピングを行うためにはヘッドレスブラウザ*1の操作が必要です。 pyppeteerを少し踏み込んで使ったため、その備忘録として取り組みを紹介します。 そもそもスクレイピングについては、こちらで書籍の紹介をしていますので、本稿では割愛します。 やりたいことと対象の概要 やりたいことは、あるWebアプリケーション中の所定のページか…
… R&D グループの高橋寛治です。 本記事は Sansan Advent Calendar 2021 - Adventar の初日の記事です*1。 Pythonによるパイプラインツールについて、Prefectというフレームワークが良さそうという話を小耳に挟みました。 第42回の記事と同様にMNISTを題材にパイプラインを作ってみます。 buildersbox.corp-sansan.com Prefect Prefectは、Pythonで書かれたオープンソースのワークフロー管…
… R&D グループの高橋寛治です。 お昼休みに、社内制度Geek Seek Workshops*1を活用し懇親会代補助を受けて、ご飯を食べアルゴリズム勉強会を行っています。 そこでは、競技プログラミングサイトやプログラミングサイトを利用し問題を解いています。 これらのサイトでは、標準入出力で検証が行われます。 オンラインのエディタも用意されているのですが、手元の環境でコードを書き手軽に検証したいですので、環境を整えます。 コードは、GitHubで公開しています。 目標 任意の…
… R&D グループの高橋寛治です。 最近は、ことあるごとにMLOpsと言っています。 そんなMLOpsの本丸とも言えるパイプラインツールの一つであるgokartを開発された西場さん(@m_nishiba)が部長ということで、使ってみないわけにはいかないgokartを使ってみました*1。 わからないときは、直接聞けます。 Luigiとgokart LuigiはSpotifyが開発しているPythonによるパイプラインパッケージです。 下記の以前の記事でも紹介しましたが、Luig…
…が、メンターの黒木や高橋寛治をはじめ、多くの研究員の方にご協力いただき、精度改善、プロダクトに反映させることができました。 今後ともプロダクトに貢献できるような精度改善に邁進していきます! 参考文献 [1] Souza, F., Nogueira, R., and Lotufo, R. (2019). Portuguese named entity recognition using bert-crf. arXiv:1909.10649. *1:大規模な学習データセットがあれ…
… R&D グループの高橋寛治です。 最近は、MLOpsへの興味が大きく、ツールの実利用や勉強会での発表を行っています。 機械学習プロジェクトにおいて、久々の実行や引き継いだコードの実行の際に、順序や実行環境を思い出したり準備したりしながら確認するのはすごく大変です。 コンテナ化された上でパイプラインがあると、実行順序も実行環境も覚えたり記録したりする必要がなくなります。 コンテナとパイプラインを組み合わせて利用するAmazon SageMakerを利用し、学習パイプラインを構…
…C R&Dグループの高橋寛治です。 2021年7月8日に開催された【Sansan×Unipos×M3】事例から学ぶ!MLOps・データ分析基盤 最前線事例共有勉強会において、ニュース配信におけるMLOpsの取り組みについて発表いたしました。 勉強会の概要と発表内容についてご紹介いたします。 勉強会の概要 事の始まりは、ばんくしさんのつぶやきでした。 SansanとUniposが提携したという事は、Sansan×Unipos×M3でのMLOps勉強会の機運が高まっているという事…
… R&D グループの高橋寛治です。 社内の研究開発部勉強会にて、Texthero が便利だという話を聞きかじりました。 Texthero は、テキストの前処理から変換、可視化までを pandas 上でうまく扱える Python パッケージです。 現状では、英語のみ対応しているパッケージです。 本記事では、日本語を解析できるように追加でコードを書いて使ってみたので紹介します。 Texthero のコードを読む Texthero は GitHub 上で公開されています。 Vers…
… R&D グループの高橋寛治です。 最近は Google App Engine(App Engine) を用いて WebAPI としてアルゴリズムを提供できるよう開発中です。 App Engine を触ったのは初めてだったため、備忘録として App Engine の概要や環境構築からデプロイまで書きたいと思います。 App Engine の説明や設定の考え方が主となります。 App Engine とは Webアプリケーションの提供のためのフルマネージド型のサーバーレスプラット…
… R&D グループの高橋寛治です。 最近、部内で Streamlit による可視化を見かけるようになってきました。 Streamlit は、インタラクティブなデータの可視化に特化した Web アプリケーションを少ないコードで素早く提供することができる Python ライブラリです。 私自身は Web アプリケーションとしてデモ化する際に手慣れた Flask で書くことが多いです。 慣れているとはいえ時間を要するため、同じ結果を爆速で実現できるなら使わないわけにはいきません。 …
… R&D グループの高橋寛治です。 あるプロジェクトにおいて、 「DB からデータを取得し整形した結果を出力する」という一連の処理をパイプラインパッケージである Luigi を用いて行いました。 ワークフローの監視や記述が簡単に記述できて良かった*1と感じたため、ここで流れを紹介したいと思います。 Luigi Luigi は Spotify が開発・運用しているオープンソースの Python のワークフローパッケージです。 pip install luigi で簡単に導入でき…
… R&D グループの高橋寛治です。 2021年2月18日に開催された 第4回 MLOps 勉強会 で登壇の機会をいただき、MLOps に関する取り組みについて発表いたしました。 勉強会の概要と発表内容について簡単に紹介いたします。 MLOps 勉強会 日本の MLOps をより盛んにすべく活動されている団体です。 座談会や勉強会という形式で、MLOps に関する取り組みや最新動向の共有、MLOpsに関するコミュニティ形成を目的として活動されています。 mlops.connpa…
… R&D グループの高橋寛治です。 私は Python で WebAPI を開発する際には、Flask をよく利用しています。 最近は、FastAPI がいいらしいという話を同僚から聞くようになりました。 少し公式ドキュメントを覗いてみると、Flask をより便利に高機能にしたものに感じました。 これは使わねばと思い、開発環境の構築からテストまでやってみたため、ここで紹介します。 (しっかり理解したい場合は、充実した公式のチュートリアルがおすすめです。ドキュメントがしっかり整…
… R&D グループの高橋寛治です。 アルゴリズムを開発する際に、課題やデータ量に応じた手法の一つとして、ルールベースを採用することがあります。 ルールベースによるアルゴリズムを運用していると、想定外の事象による例外が発生するものです。 これを的確に把握することで、改善へとつなげることができます。 動作するコードのエラーを的確に把握するということは、ソフトウェア開発では当たり前のことだとは思います。 しかしながら、研究開発という観点だと考慮が漏れがちな点ではないでしょうか。 今…
…SOC 研究開発部の高橋寛治です。 本記事は Sansan Advent Calendar 2020 - Adventar の初日の記事です。 クリスマスにアノテーションされたデータがプレゼントされると幸せですよね。 プレゼントを渡せるように、タグ設計やアノテーションについて、どのような考えでどうデータを作るのかを具体的に紹介します。 ただし、Advent Calendar 1日目ということでゆる~く紹介したいと思います。 最近は、固有表現抽出のアノテーションデータの説明や実…
…SOC 研究開発部の高橋寛治です。 社内の論文読み会で紹介した評価に関する文献である「Beyond Accuracy: Behavioral Testing of NLP Models with CheckList」について簡単に所感を交えて*1紹介したいと思います。 なお、本文内での図表は基本的に文献から引用したものとなります。 Beyond Accuracy: Behavioral Testing of NLP Models with CHECKLIST 文献情報 Mar…
…OC 研究開発部の 高橋寛治です。 突然ですが、みなさん MLOps を実践されていますか。私は雰囲気しか知りません。 今回はそんな MLOps について学んだ概念と一つのツールである DVC について紹介します。 また、今実際に使っている中で感じている点についても少し紹介できればと思います。 MLOps とは Machine Learning (機械学習)と Operations (運用)を組み合わせた単語です。 ざっくり言うと、「機械学習システムをいい感じに運用する」とい…
…OC 研究開発部の 高橋寛治です。 リモートワークが盛んである今、 VPN 接続を利用している人が多いのではないでしょうか。 私もそんな一人ですが、そういえば VPN サーバを立てたことがなかったので、挑戦してみました、というのは表向きの理由で、IPv6 による経路の VPN 接続を行いたいということが真の目的です。 自宅回線は IPv4(PPPoE)・IPv6(IPoE) となっており、IPv4 インターネット利用時は PPPoE の輻輳だと考えられますが、混み合う時間帯に…
…OC 研究開発部の 高橋寛治です。 今回は業務に利用している手元の環境を Mac から Windows に変更したという軽い話です。 交換した理由や Mac から Windows に乗り換えた時にセットアップする点について記します。 交換した理由 マシンスペックに不足を感じたことと WSL の進化が理由となります。 SSH で基本的に作業するため、軽くて持ち運びしやすい SSH クライアントと思って Macbook を利用していました。 しかしながら、昨今のリモートワーク事情…
…is Group の高橋寛治が講師となり実施しました。こちらでは、実際の事例も出しつつ求められるエンジニアリングのレベルの目安などについても触れています。全体的には、DSOC 研究開発部 として求められるであろうエンジニアリング技術の基本的なところを触れるような内容になっています。研修資料とその時のコードは下記を参照ください。研修資料&コード 研修終了後 上記の研修終了後には、すぐにこの研修を受講した新卒社員らにアンケートを実施しました。 実施して満足していたのでは、なんのた…