Sansan Tech Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

テスト設計の属人化からの脱却─AIで工数半減と品質標準化を実現したQAチームの挑戦

はじめに:QAの未来を創造するための試み

こんにちは。Bill OneでQAエンジニアをしている林 樹坤です。
私たちのチームは「AIを活用した新しいテストプロセス」を目指して、品質保証のあり方を変えようとチャレンジしています。
今回は、AIを活用してテスト設計の「属人化」という長年の課題を解決した話をします。誰が担当しても85%以上の品質を安定的に実現できる仕組みを構築し、その結果として工数も54.3%削減することができました。

属人化が招いた「品質の不均一性」と「テストの網羅性欠如」

私たちの取り組みは、チームが抱えていた「テスト設計の属人化」という課題から始まりました。テストの形式や設計手法が個人の経験に依存していて、統一するのが難しい状況でした。これがレビューの非効率化や成果物の品質バラつきの原因になっていたんです。
この問題が表面化したのは、複雑なワークフロー機能の開発時でした。個人の力だけでテストパターンを網羅するのは難しく、結果として「テストの網羅性欠如」が発生。属人化が品質の不均一性を生み、機能の複雑性と相まって重大な欠陥の見落としにつながることがハッキリしました。
この2つの課題を同時に解決するために、「誰が担当しても一定の品質と形式を担保できる仕組み」を作ろうと、AIの活用に着目しました。

AIへの安易な委託と、その後に訪れた挫折

「まずは仕様書をAIに入力してみよう」
意気込んでPBIや仕様書をAIに入力し、「テストケースを作成せよ」と指示しました。でも、返ってきた成果物は抽象的すぎて、対象機能に詳しくないと理解できないものでした。実務で使うには程遠いレベルです。
AIは魔法の杖じゃない―この当たり前のことに気づいて、「AIに丸投げする」という考えを捨て、「AIを優秀なアシスタントに育てる」という視点に切り替えました。

AIの実用性を確立するための3つの試行錯誤

精度と実用性の両立を目指して、3つの軸で徹底的に検証しました。

1. AIモデルの比較検討:各々の特性の判別

まず着手したのはAIモデルの選定です。汎用的な網羅性に優れたChatGPT、長文読解と論理的整合性の検証が得意なGemini、社内情報との連携に強いNotion AI。それぞれの特性を比較して、タスクに応じて使い分ける方針にしました。

生成(観点・テスト条件):多様な視点と高い網羅性を持つChatGPTを活用
レビュー:生成物に対し、Geminiが論理的な矛盾を検知。さらにNotion AIが、データベースに蓄積された過去の仕様やドメインナレッジを参照して、より深いレビューを実施
テストケース化:最終的なテストケースは、構造化されたテーブル形式での出力が得意なNotion AIで作成

2. プロセスの確立:AIとの対話の体系化

次に、AIの出力を制御するためのプロセス設計です。
AIは一度に複雑な指示を与えるより、タスクを分解して段階的に実行させる方が、出力精度が向上する傾向があります。この特性に基づき、次の4段階のプロセスを確立しました。

  1. 観点の「枠組み」抽出
  2. 詳細テスト観点抽出
  3. 詳細テスト条件抽出
  4. テストケース生成

※上記の4工程は人間のレビューは必須
このプロセスで、AIの思考を段階的に誘導し、出力のばらつきを抑えると同時に、各段階で人間による的確なレビューを可能にしました。

3. プロンプトの標準化:専門技術の汎用化

最後に、プロンプトの洗練です。試行錯誤の末に導き出した最適な指示内容をAI自身に分析させ、汎用的なプロンプトとして再構築させました。これをチームの標準テンプレートにすることで、誰が使っても一定の品質が担保される仕組み、つまり「属人化からの脱却」を実現しました。

「時間よりも精度」— 価値を証明するための概念実証(PoC)

準備が整ったので、2チームで過去に欠陥の見落としが発生した複雑な案件を対象に、概念実証(PoC)を実施しました。
このPoCで最重要視したのは、時間削減効果ではなく「精度」です。いくら速くても、品質が伴わなければ実務上意味がないからです。評価指標は次の3点に絞りました。

網羅性(カバレッジ率): 人間が作成したテストケースを、AIがどの程度網羅しているか(目標: 85%以上)
重大欠陥漏れ率: クリティカルな観点をAIが見落としていないか(目標: 0件)
再現性: 過去に実際に発生した不具合のパターンを網羅できているか

結果は、すべての指標で目標値を達成。AIが生成したテスト観点は、人間が考案した観点をほぼ網羅し、かつ人間が見落としていたエッジケースまで抽出してくれました。AIの実用性を確信した瞬間でした。

Bill One QA展開を通じて見えた「工数半減」と「属人化の解消」

PoCの成功を受け、2025年6月から8月の期間(19Y1Q)、Bill OneのQAチーム全体でAI活用の本格導入に踏み切りました。測定指標も「効率化」に加え、より厳格な「精度」へと拡大しました。
精度の評価には、レビューでの指摘内容の重要度に応じて点数化する「ポイント制」を導入し、単なる指摘数に左右されない客観的な評価を目指しました。

結果

【属人化の解消】

観点精度: 平均 85.7%(誰が作っても安定した品質)
ケース精度: 平均 89.8%(個人差の解消)
AI活用率(観点生成): 100%(完全標準化を達成)
AI活用率(ケース生成): 77.8%

標準化されたプロセスとプロンプトによって、誰が作成しても一定の品質が担保される仕組みを実現しました。これにより、長年の課題だった「テスト設計の属人化」を解消し、レビュー工数も大幅に削減できました。個人のスキルや経験に依存せず、安定した85%以上の精度を維持できるようになったことが最大の成果です。
一方で、ケース生成の活用率が77.8%に留まったのは、Bill One特有の複雑なドメイン知識を要する場面ではAIの出力精度が低下し、手動で作成する方が効率的だという現場の合理的な判断によるものです。これも実践から得られた貴重な知見となりました。
【工数削減】

テスト設計必要工数: 54.3%削減(合計6176分)

AI活用により、テスト工数を54.3%削減することにも成功しました。ただし、これはAI導入による必然的な結果であり、重要なのは「品質を維持しながら」削減できた点です。

私たちの挑戦は始まったばかり — 次なる課題

工数削減と品質の安定化という大きな成果を上げましたが、これに満足せず、次の段階を見据えています。ケース生成の課題にもあったように、AIの精度をさらに向上させるには、より深い「ドメインナレッジ」をAIに与える必要があります。
そこで、次の試みは「ドメインナレッジ基盤の構築」です。
仕様書、過去のインシデント情報、テストケースといった、社内に散在する暗黙知・形式知を一元管理し、AIが常時参照可能なデータベースの構築を計画しています。これにより、ドメイン知識の不足によるAIの出力ミスや手戻りを最小限に抑え、修正コメントの80%削減を目標にしています。

最後に

AIはQAエンジニアの仕事を奪う存在ではなく、むしろ定型業務から解放し、より創造的で本質的な「品質とは何か」を考える時間を与えてくれる、最良のパートナーだと確信しています。
私たちのチームでは、こうして常に新しい技術を積極的に取り入れ、楽しみながら品質保証の未来を模索し続けています。

we are hiring

Sansan技術本部では中途の方向けにカジュアル面談を実施しています。Sansan技術本部での働き方、仕事の魅力について、現役エンジニアの視点からお話しします。「実際に働く人の話を直接聞きたい」「どんな人が働いているのかを事前に知っておきたい」とお考えの方は、ぜひエントリーをご検討ください。

open.talentio.com
open.talentio.com

© Sansan, Inc.