Sansan Tech Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

機械学習

iOS/macOSオンデバイスで爆速で動作する音声認識モデルWhisperKit

iOSエンジニアの堤です。先日3月28日に開催された弊社主催のLTイベントで、「WhisperKitがだいぶ良いので紹介する」というタイトルで発表しました。 スライドはこちら: www.docswell.com 本記事は、同発表をベースとしつつ、(LTでは時間が足りないので)発…

【R&D DevOps通信】Google Compute Engine + GPUで動作するMLサービスの基盤を刷新した話(技術選定編)

技術本部 研究開発部 Architectグループの島です。見習い12年目です。 今回は、当社のデータ化技術の粋である「NineOCR」について、そのインフラ・デプロイの基盤を刷新したお話をします。NineOCRに関しては、以下の記事などをご参照ください。 buildersbox.…

Vision-Language Modelによる画像品質評価のまとめ

はじめに 研究開発部の今井海人です。普段は画像復元や画像の品質評価といった分野に携わっています。今年はVision-Language Model(VLM)の発展が特筆すべきトレンドだったかと思います。特にGPT-4Vの登場により、画像品質評価におけるアプローチも大きく変…

NineOCR の最近と今後

本記事は Sansan Advent Calendar 2023 第9日目の記事です。 adventar.org はじめに こんにちは、研究開発部の内田です。 みなさん師走はどうお過ごしでしょうか。 私は先日Jリーグを見に行きまして、その試合で見事、東京ヴェルディが昇格を決めました。 16…

Sansan R&D TECH SHOWCASE -ビジネスをドライブするR&Dのウラガワ大公開-を開催しました

こんにちは、研究開発部の西田です。 週末朝9時からのバスケの練習に向かう電車の中でこの記事を執筆しています。先週の金曜日、研究開発部の取り組みを紹介するSansan R&D TECH SHOWCASEを開催しました!その興奮が冷めやらぬうちに、イベントのハイライト…

try! Swift NYCに参加してきました! #tryswiftnyc

研究開発部の堤と申します。今年9月にニューヨークで開催されたtry! Swift NYCというカンファレンスに参加してきました。 www.tryswift.co try! Swiftは2016年から東京・インド・ニューヨーク等で開催されている、Swiftのデベロッパーカンファレンスです。東…

spaCyを用いて日本語の固有表現抽出(NER)モデルを学習する

はじめに 最近、固有表現抽出(Named Entity Recognition: NER)の学習をspaCyを用いて行う機会があったため、そのやり方について簡単にまとめたいと思います。

自社OCRエンジン「NineOCR」の学習効率化のため SageMaker Training を導入した話

はじめに NineOCR とは NineOCR が抱える課題 Amazon SageMaker Training とは SageMaker Training の始め方 事前準備 AWS が提供しているコンテナイメージを拡張する方法 独自のコンテナイメージに SageMaker Training Toolkit をインストールする方法 スク…

BERTopic で文書のクラスタリングを試す

こんにちは。研究開発部の青見 (@nersonu) です。 そろそろ花粉症の季節ですね。週1でしか出社しない私は、なんとか引きこもって数ヶ月しのぎたいところです。 さて、今回は BERTopic という OSS について、さっくりとした手法の解説もしつつ、簡単に文書の…

第26回 MLOps 勉強会で発表しました

研究開発部 Architectグループの堤(@shu223)と申します。2022年12月7日に開催された 第26回 MLOps 勉強会 - connpass で登壇の機会をいただき、「SansanにおけるエッジAIの実用例とMLOps」というタイトルで発表させていただきました。

【研究開発部の技術】第5回 ニュース配信を支える自然言語処理技術

研究開発部Architectグループの堤(@shu223)と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 buildersbox.corp-sansan.com 第5弾となる今回は、Sansan/Eightのニュース配…

【研究開発部の技術】第4回 coremltoolsを用いたCore MLモデルへの変換

研究開発部Architectグループの堤です。最近は研究開発部の技術や成果物について紹介する記事をいくつか書いてきたのですが、 今回は、下記記事で紹介した"Smart Captured"(略してスマキャプ)の開発の中で行った「Core ML化」について深堀りしたいと思いま…

【研究開発部の技術】第3回 名刺に特化した文字認識エンジン「NineOCR」

研究開発部Architectグループの堤と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 第三弾となる今回は、Sansanの名刺データ化フローの中で使われている弊社が独自開発した…

【研究開発部の技術】第2回 SansanにおけるエッジAIの活用事例

研究開発部Architectグループの堤と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 buildersbox.corp-sansan.com 第二弾となる今回は、「スマキャプ」と社内で呼んでいる技…

【研究開発部の技術】第1回 Sansanの名刺データ化技術

研究開発部 Architectグループの堤と申します。今年4月より、まったくの門外漢だったところから研究開発部でマネジメントを担当することになりました。入社して早6カ月が経とうとしていますが、マネジメントの面でも技術面でもまだまだ学ぶことだらけです。…

#iOSDC Japan 2022 に登壇しました!

はじめまして、本ブログでは初めて記事を書かせていただく堤と申します。12年ほどずっとiOSエンジニアをやっていたのですが、ひょんなことからSansanの研究開発部のマネージャーをやることになり、今年の4月からSansanで働いています。というわけで今はiOSか…

hypothesis+panderaで始める、データフレームに対するProperty Based Testing

技術本部 R&D研究員の前嶋です。梅雨の季節ですが、少しでも快適に過ごせるようにOnのCloud 5 wpを購入しました。水に強くて軽快な履き心地で最高ですね。(追記:この記事の公開作業をしている間に梅雨が終わってしまいました) 今回は、データフレームのテス…

【ネットワークの統計解析】第12回 株式市場とネットワーク分析 (1)

こんにちは.研究開発部の黒木裕鷹です.前回の記事から大分時間が空いてしまいました. 12月に宮崎で開催される青島太平洋マラソン2022にエントリーしました. ベスト(ネットタイムで3時間58分)を更新できるよう頑張りたいのですが,あまりの暑さで思うよ…

【ネットワークの統計解析】第11回 「NeurIPS'21 読み会」「AAAI'22 読み会」で発表してきました

こんにちは. 研究開発部の黒木裕鷹です. ついに初めてフルマラソン(長野マラソン)に出場しました. タイムはネットで 3:58:25 で,サブ4を達成することができました! 次の目標はサブ3.5(3時間半切り)でしょうか.道のりは遠いです.

「Sansan × atmaCup #12」を開催しました

本記事は,Sansan Advent Calendar 2021 第18日目の記事です. こんにちは,研究開発部の内田です.いつの間にやら季節は進んで,街路樹の葉も落ちたり燻んだり,日常の風景からも寒さを感じるようになってきました.最近は,そんな日常に彩りを加えるべく,…

【ネットワークの統計解析】第10回 PageRank とその周辺を探りたい

こんにちは. DSOC 研究開発部の黒木裕鷹です. 膝が痛いです. やってしまいました. なまじ走れるようになってきたのが楽しく,まだ脚ができてないにも関わらず走りすぎてしまいました... 調べてみたところ,膝の外側の靭帯(腸脛靭帯)と前十字靭帯を…

アクセスに基づいた推薦のために、文書のどのような情報を使うべきか(その1)

3行で アクセスに基づいた推薦のために、文書のどのような情報を使うべきか考えた。 ニュースの中の名詞、固有名詞、名詞×ジャンル、固有名詞×ジャンルの4つに分けて推薦を行い、ユーザーが興味を持ちそうなニュースを推薦できているかを定性的に確認した。…

Sansan Builders Stage 2021 セッションレポート第1弾 〜自然言語処理&機械学習編〜

こんにちは。DSOC 研究開発部の鈴木碩人です。21卒で今年の4月にSansanに入社しました。 今回は11/5に開催された「Sansan Builders Stage 2021」に参加したのでその中の、私も所属する研究開発部から、高橋が発表した「継続して改善する固有表現抽出」と齋藤…

【ネットワークの統計解析】第9回 「ICML'21読み会」「KDD'21読み会」で発表してきました

こんにちは. DSOC 研究開発部の黒木裕鷹です. なんとハーフマラソンにエントリーしてしまいました.思いつきって怖いですね. やるからには良いタイムで走りたいと思い,2時間切りを目標に練習しています. とはいえインターネットの記事や Youtube でしか…

BERTによる日本語固有表現抽出の精度改善 〜BERT-CRFの紹介〜

こんにちは、DSOC R&Dグループ インターンの笛木正雄です。大学院では離散最適化の研究室に所属しています。インターンでは、日々、知らないことだらけで、色々なことを経験させていただき、伸びしろを実感する毎日です。 現在は、SansanやEightのニュース配…

書評:『施策デザインのための機械学習入門』

こんにちは. DSOC 研究開発部の黒木裕鷹です. なんと,思いつきで始めたランニングが続いており,最初の1ヶ月は65kmほど走っていたようです! やはり,ばっちり形から入りかっこいいシューズとウェアを用意したのが効いたようです. フルマラソン目指して…

【ML Tech RPT.】第26回 Crowd Counting (群衆の数え上げ) を学ぶ

DSOC研究員の吉村です。最近は、現代短歌について少し興味を持ち始めて、歌集を読んだりしています。様々な解釈ができるので、思考を色々と巡らすのがとても楽しいです。まだまだ基礎も分かっていないところもあるので、その辺りも知りつつ更にいろいろな角…

【ネットワークの統計解析】第8回 事例紹介「Uber における GNN の活用」

こんにちは. DSOC 研究開発部の黒木裕鷹です. 夏の訪れを感じつつある最近ですが,ランニングをはじめました. 形から入ろうと思い,かっちょいいシューズとウェアを揃えたのですが,なんとか1週間は続いており気分が良いです. まだまだ2, 30分走るだけで…

【ML Tech RPT.】第25回 k-center クラスタリングを学ぶ

DSOC 研究員の吉村です。あまり外出できない日々が続いているので、読書に勤しんでおります。直接業務に関係の無いようなものでも、蓄積しておくことでどこかで役に立つだろうという気持ちで幅広いジャンルの本に手を出しては、本の山が部屋を埋め尽くしてい…

自分のTweetを使ってSentencepieceとMeCabの分かち書きの比較を行う

3行で はじめに Sentencepieceとは subwordとは Sentencepieceでの取り組み SentencepieceとMeCabの比較 利用するデータセット 利用したコード 適当なTweetを分かち書きしてみる Tweet全部を分かち書きし、頻度順に並べてみる まとめ 注釈 3行で Sentencepie…

© Sansan, Inc.