iOS/macOSオンデバイスで爆速で動作する音声認識モデルWhisperKit

iOS モバイルレポート勉強会機械学習

iOSエンジニアの堤です。先日3月28日に開催された弊社主催のLTイベントで、「WhisperKitがだいぶ良いので紹介する」というタイトルで発表しました。スライドはこちら： www.docswell.com 本記事は、同発表をベースとしつつ、（LTでは時間が足りないので）発…

#iOS #Swift #OpenAI #CoreML #音声認識

2024-04-05

【R&D DevOps通信】Google Compute Engine + GPUで動作するMLサービスの基盤を刷新した話（技術選定編）

GCP AWS 機械学習

技術本部研究開発部 Architectグループの島です。見習い12年目です。今回は、当社のデータ化技術の粋である「NineOCR」について、そのインフラ・デプロイの基盤を刷新したお話をします。NineOCRに関しては、以下の記事などをご参照ください。 buildersbox.…

2023-12-15

Vision-Language Modelによる画像品質評価のまとめ

R&D 機械学習画像認識

はじめに研究開発部の今井海人です。普段は画像復元や画像の品質評価といった分野に携わっています。今年はVision-Language Model（VLM）の発展が特筆すべきトレンドだったかと思います。特にGPT-4Vの登場により、画像品質評価におけるアプローチも大きく変…

2023-12-09

NineOCR の最近と今後

R&D 画像認識機械学習 MLOps

本記事は Sansan Advent Calendar 2023 第9日目の記事です。 adventar.org はじめにこんにちは、研究開発部の内田です。みなさん師走はどうお過ごしでしょうか。私は先日Jリーグを見に行きまして、その試合で見事、東京ヴェルディが昇格を決めました。 16…

2023-11-14

Sansan R&D TECH SHOWCASE -ビジネスをドライブするR&Dのウラガワ大公開-を開催しました

主催イベント R&D MLOps 機械学習画像認識

こんにちは、研究開発部の西田です。週末朝9時からのバスケの練習に向かう電車の中でこの記事を執筆しています。先週の金曜日、研究開発部の取り組みを紹介するSansan R&D TECH SHOWCASEを開催しました！その興奮が冷めやらぬうちに、イベントのハイライト…

2023-11-09

try! Swift NYCに参加してきました！ #tryswiftnyc

Swift レポート iOS 機械学習自然言語処理

研究開発部の堤と申します。今年9月にニューヨークで開催されたtry! Swift NYCというカンファレンスに参加してきました。 www.tryswift.co try! Swiftは2016年から東京・インド・ニューヨーク等で開催されている、Swiftのデベロッパーカンファレンスです。東…

2023-07-26

spaCyを用いて日本語の固有表現抽出(NER)モデルを学習する

データ分析機械学習自然言語処理 Python

はじめに最近、固有表現抽出(Named Entity Recognition: NER)の学習をspaCyを用いて行う機会があったため、そのやり方について簡単にまとめたいと思います。

2023-03-06

自社OCRエンジン「NineOCR」の学習効率化のため SageMaker Training を導入した話

MLOps R&D 機械学習ディープラーニング AWS

はじめに NineOCR とは NineOCR が抱える課題 Amazon SageMaker Training とは SageMaker Training の始め方事前準備 AWS が提供しているコンテナイメージを拡張する方法独自のコンテナイメージに SageMaker Training Toolkit をインストールする方法スク…

2023-02-21

BERTopic で文書のクラスタリングを試す

R&D 機械学習自然言語処理 Python

こんにちは。研究開発部の青見 (@nersonu) です。そろそろ花粉症の季節ですね。週1でしか出社しない私は、なんとか引きこもって数ヶ月しのぎたいところです。さて、今回は BERTopic という OSS について、さっくりとした手法の解説もしつつ、簡単に文書の…

2022-12-25

第26回 MLOps 勉強会で発表しました

R&D 機械学習 iOS MLOps DevOps

研究開発部 Architectグループの堤（@shu223）と申します。2022年12月7日に開催された第26回 MLOps 勉強会 - connpass で登壇の機会をいただき、「SansanにおけるエッジAIの実用例とMLOps」というタイトルで発表させていただきました。

2022-12-22

【研究開発部の技術】第5回ニュース配信を支える自然言語処理技術

R&D 機械学習自然言語処理連載

研究開発部Architectグループの堤（@shu223）と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 buildersbox.corp-sansan.com 第5弾となる今回は、Sansan/Eightのニュース配…

2022-11-25

【研究開発部の技術】第4回 coremltoolsを用いたCore MLモデルへの変換

R&D 機械学習 iOS 連載

研究開発部Architectグループの堤です。最近は研究開発部の技術や成果物について紹介する記事をいくつか書いてきたのですが、今回は、下記記事で紹介した"Smart Captured"（略してスマキャプ）の開発の中で行った「Core ML化」について深堀りしたいと思いま…

2022-11-17

【研究開発部の技術】第3回名刺に特化した文字認識エンジン「NineOCR」

機械学習 R&D 連載

研究開発部Architectグループの堤と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。第三弾となる今回は、Sansanの名刺データ化フローの中で使われている弊社が独自開発した…

2022-11-01

【研究開発部の技術】第2回 SansanにおけるエッジAIの活用事例

R&D 機械学習 iOS Android 連載

研究開発部Architectグループの堤と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 buildersbox.corp-sansan.com 第二弾となる今回は、「スマキャプ」と社内で呼んでいる技…

2022-10-27

【研究開発部の技術】第1回 Sansanの名刺データ化技術

機械学習 R&D 連載

研究開発部 Architectグループの堤と申します。今年4月より、まったくの門外漢だったところから研究開発部でマネジメントを担当することになりました。入社して早6カ月が経とうとしていますが、マネジメントの面でも技術面でもまだまだ学ぶことだらけです。…

2022-10-04

#iOSDC Japan 2022 に登壇しました！

R&D MLOps DevOps iOS 機械学習

はじめまして、本ブログでは初めて記事を書かせていただく堤と申します。12年ほどずっとiOSエンジニアをやっていたのですが、ひょんなことからSansanの研究開発部のマネージャーをやることになり、今年の4月からSansanで働いています。というわけで今はiOSか…

2022-08-10

hypothesis+panderaで始める、データフレームに対するProperty Based Testing

Python データ分析自動テスト機械学習 MLOps

技術本部 R&D研究員の前嶋です。梅雨の季節ですが、少しでも快適に過ごせるようにOnのCloud 5 wpを購入しました。水に強くて軽快な履き心地で最高ですね。(追記：この記事の公開作業をしている間に梅雨が終わってしまいました) 今回は、データフレームのテス…

2022-07-27

【ネットワークの統計解析】第12回株式市場とネットワーク分析 (1)

R&D データ分析ネットワーク分析機械学習

こんにちは．研究開発部の黒木裕鷹です．前回の記事から大分時間が空いてしまいました． 12月に宮崎で開催される青島太平洋マラソン2022にエントリーしました．ベスト（ネットタイムで3時間58分）を更新できるよう頑張りたいのですが，あまりの暑さで思うよ…

2022-04-20

【ネットワークの統計解析】第11回「NeurIPS'21 読み会」「AAAI'22 読み会」で発表してきました

R&D 機械学習勉強会

こんにちは．研究開発部の黒木裕鷹です．ついに初めてフルマラソン（長野マラソン）に出場しました．タイムはネットで 3:58:25 で，サブ4を達成することができました！次の目標はサブ3.5（3時間半切り）でしょうか．道のりは遠いです．

2021-12-18

「Sansan × atmaCup #12」を開催しました

R&D 主催イベントレポートデータ分析機械学習

本記事は，Sansan Advent Calendar 2021 第18日目の記事です．こんにちは，研究開発部の内田です．いつの間にやら季節は進んで，街路樹の葉も落ちたり燻んだり，日常の風景からも寒さを感じるようになってきました．最近は，そんな日常に彩りを加えるべく，…

2021-12-07

【ネットワークの統計解析】第10回 PageRank とその周辺を探りたい

R&D 機械学習連載

こんにちは． DSOC 研究開発部の黒木裕鷹です．膝が痛いです．やってしまいました．なまじ走れるようになってきたのが楽しく，まだ脚ができてないにも関わらず走りすぎてしまいました．．．調べてみたところ，膝の外側の靭帯（腸脛靭帯）と前十字靭帯を…

2021-12-04

アクセスに基づいた推薦のために、文書のどのような情報を使うべきか（その１）

データ分析機械学習自然言語処理

3行でアクセスに基づいた推薦のために、文書のどのような情報を使うべきか考えた。ニュースの中の名詞、固有名詞、名詞×ジャンル、固有名詞×ジャンルの４つに分けて推薦を行い、ユーザーが興味を持ちそうなニュースを推薦できているかを定性的に確認した。…

2021-11-12

Sansan Builders Stage 2021 セッションレポート第1弾〜自然言語処理＆機械学習編〜

機械学習自然言語処理

こんにちは。DSOC 研究開発部の鈴木碩人です。21卒で今年の4月にSansanに入社しました。今回は11/5に開催された「Sansan Builders Stage 2021」に参加したのでその中の、私も所属する研究開発部から、高橋が発表した「継続して改善する固有表現抽出」と齋藤…

2021-10-25

【ネットワークの統計解析】第9回「ICML'21読み会」「KDD'21読み会」で発表してきました

機械学習勉強会データ分析 R&D

こんにちは． DSOC 研究開発部の黒木裕鷹です．なんとハーフマラソンにエントリーしてしまいました．思いつきって怖いですね．やるからには良いタイムで走りたいと思い，2時間切りを目標に練習しています．とはいえインターネットの記事や Youtube でしか…

2021-09-21

BERTによる日本語固有表現抽出の精度改善〜BERT-CRFの紹介〜

R&D 機械学習自然言語処理インターン

こんにちは、DSOC R&Dグループインターンの笛木正雄です。大学院では離散最適化の研究室に所属しています。インターンでは、日々、知らないことだらけで、色々なことを経験させていただき、伸びしろを実感する毎日です。現在は、SansanやEightのニュース配…

2021-08-25

書評：『施策デザインのための機械学習入門』

R&D データ分析機械学習

こんにちは． DSOC 研究開発部の黒木裕鷹です．なんと，思いつきで始めたランニングが続いており，最初の1ヶ月は65kmほど走っていたようです！やはり，ばっちり形から入りかっこいいシューズとウェアを用意したのが効いたようです．フルマラソン目指して…

2021-08-18

【ML Tech RPT.】第26回 Crowd Counting (群衆の数え上げ) を学ぶ

機械学習 R&D 連載

DSOC研究員の吉村です。最近は、現代短歌について少し興味を持ち始めて、歌集を読んだりしています。様々な解釈ができるので、思考を色々と巡らすのがとても楽しいです。まだまだ基礎も分かっていないところもあるので、その辺りも知りつつ更にいろいろな角…

2021-07-15

【ネットワークの統計解析】第8回事例紹介「Uber における GNN の活用」

R&D データ分析連載機械学習

こんにちは． DSOC 研究開発部の黒木裕鷹です．夏の訪れを感じつつある最近ですが，ランニングをはじめました．形から入ろうと思い，かっちょいいシューズとウェアを揃えたのですが，なんとか1週間は続いており気分が良いです．まだまだ2, 30分走るだけで…

2021-07-12

【ML Tech RPT.】第25回 k-center クラスタリングを学ぶ

機械学習 R&D 連載

DSOC 研究員の吉村です。あまり外出できない日々が続いているので、読書に勤しんでおります。直接業務に関係の無いようなものでも、蓄積しておくことでどこかで役に立つだろうという気持ちで幅広いジャンルの本に手を出しては、本の山が部屋を埋め尽くしてい…

2021-06-21

自分のTweetを使ってSentencepieceとMeCabの分かち書きの比較を行う

データ分析機械学習自然言語処理 Python ディープラーニング

3行ではじめに Sentencepieceとは subwordとは Sentencepieceでの取り組み SentencepieceとMeCabの比較利用するデータセット利用したコード適当なTweetを分かち書きしてみる Tweet全部を分かち書きし、頻度順に並べてみるまとめ注釈 3行で Sentencepie…

Sansan Tech Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

機械学習

iOS/macOSオンデバイスで爆速で動作する音声認識モデルWhisperKit

【R&D DevOps通信】Google Compute Engine + GPUで動作するMLサービスの基盤を刷新した話（技術選定編）

Vision-Language Modelによる画像品質評価のまとめ

NineOCR の最近と今後

Sansan R&D TECH SHOWCASE -ビジネスをドライブするR&Dのウラガワ大公開-を開催しました

try! Swift NYCに参加してきました！ #tryswiftnyc

spaCyを用いて日本語の固有表現抽出(NER)モデルを学習する

自社OCRエンジン「NineOCR」の学習効率化のため SageMaker Training を導入した話

BERTopic で文書のクラスタリングを試す

第26回 MLOps 勉強会で発表しました

【研究開発部の技術】第5回ニュース配信を支える自然言語処理技術

【研究開発部の技術】第4回 coremltoolsを用いたCore MLモデルへの変換

【研究開発部の技術】第3回名刺に特化した文字認識エンジン「NineOCR」

【研究開発部の技術】第2回 SansanにおけるエッジAIの活用事例

【研究開発部の技術】第1回 Sansanの名刺データ化技術

#iOSDC Japan 2022 に登壇しました！

hypothesis+panderaで始める、データフレームに対するProperty Based Testing

【ネットワークの統計解析】第12回株式市場とネットワーク分析 (1)

【ネットワークの統計解析】第11回「NeurIPS'21 読み会」「AAAI'22 読み会」で発表してきました

「Sansan × atmaCup #12」を開催しました

【ネットワークの統計解析】第10回 PageRank とその周辺を探りたい

アクセスに基づいた推薦のために、文書のどのような情報を使うべきか（その１）

Sansan Builders Stage 2021 セッションレポート第1弾〜自然言語処理＆機械学習編〜

【ネットワークの統計解析】第9回「ICML'21読み会」「KDD'21読み会」で発表してきました

BERTによる日本語固有表現抽出の精度改善〜BERT-CRFの紹介〜

書評：『施策デザインのための機械学習入門』

【ML Tech RPT.】第26回 Crowd Counting (群衆の数え上げ) を学ぶ

【ネットワークの統計解析】第8回事例紹介「Uber における GNN の活用」

【ML Tech RPT.】第25回 k-center クラスタリングを学ぶ

自分のTweetを使ってSentencepieceとMeCabの分かち書きの比較を行う