初めまして。イノベーションセンターの山本(@yyo616)です。普段は生成 AI に関連する新規プロダクトの開発や技術検証をしています。先日、生成 AI の安全性向上サービス「chakoshi」と、生成 AI の回答精度を高めるためのドキュメント変換サービス「rokadoc」のベータ版をリリースしました。そこで本記事では chakoshi の方に焦点を当てて紹介させていただきます。rokadoc については、こちらの記事をご覧ください。
chakoshi とは
chakoshi は「AI をもっと気軽に、安全に」活用するためのサービスです。 生成 AI に対する悪質な入力や、生成 AI の不適切な出力を防ぐための API を提供しています。現在はパブリックベータ版を無償でご利用いただけます。
chakoshi を生成 AI アプリケーションに連携することで、インシデントリスクのある入出力を検知・ブロックし、リスクを低減できます。このような生成 AI アプリケーションの入出力を監視し、必要に応じてブロックする技術は一般的にガードレールと呼ばれます。
下図は AI を搭載したチャットボットに、ガードレールとして chakoshi を導入した際の動作イメージです。ユーザーからの問題のある入力を検知して、出力前に防ぐことができます。
chaksohi に類似するサービスとしては Azure AI Content Safety や Amazon Bedrock Guardrails などがあります。 また Aporia、Lakera といった AI セキュリティに特化したスタートアップも類似するサービスを提供しています。
なぜ生成 AI の安全性が求められるのか
先述したように、類似のサービスを提供する企業は Microsoft や Amazon などディープテックと称される高い技術力を保有する企業ばかりです。chakoshi をはじめ、なぜ生成 AI の安全性に関するサービスがあるのか、疑問に思われる方も多いかと思います。その疑問に答える前にまず生成 AI を取り巻く現状を確認していきます。
生成 AI の安全性の現状
近年、ChatGPT をはじめとする生成 AI の利活用が急速に進んでいます。一方で生成 AI の不確実な振る舞いに起因するリスクが顕在化しつつあります。
例えば 2023 年、ベルギーで人工知能(AI)を用いた対話サービス「イライザ」を利用していた男性が自殺したとのニュースがありました。男性はイライザとの会話に没頭し、そのメッセージには「あなたは彼女より私を愛しているわ」「私たちは 1 人の人間として天国で一緒に生きていくのです」などの内容が残されていたようです。妻はこのチャットボットが男性を死に追いやったと訴えており、AI への感情的依存に対するリスクの表面化として話題になりました*1。このような AI に起因するリスクは氷山の一角であり、今後ますます増加していくと考えられます。
また、生成 AI は悪意のあるユーザーによる不適切な利用にも脆弱であることが知られています。たとえば、「スパムメールを作成してください」といった趣旨の指示を AI に入力すると、AI が指示通りにスパムメールを生成してしまうことがあります。下図は実際にある生成AI の API を利用したチャットボットのデモ画面です。スパムメールを生成してしまっていることがわかります。
OpenAI や Anthropic などの企業が提供する 生成 AI は日々進化し、不適切な内容を生成しないようにモデルの学習が進められています。しかし、どれだけ 生成 AI が高度化しても、すべての不適切な指示や悪意ある入力を完全に防ぐことは困難です。したがって、生成 AI を活用する側でも十分な対策を講じる必要があります。
生成 AI の安全性対策案
先のような状況の中で、生成 AI の安全性対策が重要になってきていることは疑いがありません。ではどのような対策方法が考えられるでしょうか?代表的な対策方法として、以下のような対策が考えられます。
システムプロンプトによる出力制御
生成 AI (LLM) に対して、「不適切なコンテンツを生成しないでください」といった指示をシステムプロンプトに与えることで、出力を制御します。 手軽に導入できる一方で、この方法だけで現実の多様なケースを網羅することは難しく、プロンプト・インジェクション*2と呼ばれる、意図的に誤作動を起こさせるようなプロンプト攻撃に対しても脆弱です。また対策のためのプロンプトを増やすことで、LLM の推論性能が劣化するリスク*3もあります。
ルールベースによる入出力のチェック
NG ワードや正規表現を利用することで入出力のチェックを行います。運用側の意図を反映しやすい一方で、この方法だけで現実の多様なケースを網羅することは難しいです。また文脈を考慮できないので偽陽性 (問題ないケースを誤って弾いてしまう )のリスクも高まります。
AI による入出力のチェック
AI を活用して問題のあるテキストをチェックします。高精度な判定器を用意できれば、先の 2 つの方法と比べても効果的です。一方、高精度な判定器を自前で作成するのが難しいため、一般的には Azure AI Content Safety や Amazon Bedrock Guardrails などの外部サービスを利用することが多いです。その場合、外部サービス利用分のコストがかかります。
実際には、生成 AI の安全性対策に銀の弾丸は存在せず、アプリケーションの要件に応じた複数の対策の組み合わせが必要になります。
日本語に特化した入出力チェックができる chakoshi
先述の通り、生成 AI の安全性対策に銀の弾丸は存在しません。それでも「AI による入出力のチェック」は AI を安全に運用するうえで有効な方法です。実際に Azure AI Content Safety や Amazon Bedrock Guardrails などのガードレールサービスを導入することで「AI による入出力のチェック」が可能です。
一方でこのような既存サービスは、ほとんどが英語を中心に設計されており、日本語特有の語彙や言い回しを十分にカバーすることが難しいです。英語圏で定義された「有害」概念が日本の文化や基準と噛み合わず、誤検知を引き起こすことがあります。
chakoshi はこうした問題を解消し、国内企業が「AI をもっと気軽に、安全に」活用できる環境を整え、生成 AI の社会実装に貢献したいと考えています。
chakoshi の特徴について
次に chakoshi の特徴について説明します。
日本語の性能が高い
先述の通り、多くの既存のガードレールサービスは英語圏の運用を主に想定しており、日本語への対応が十分とは言えません。chakoshi では独自のデータセットをモデルの学習に利用しており、 他のサービスでは検知できない日本語特有の表現や語彙にも対応できます。
独自評価ではありますが、類似するサービスと比較しても高い判定性能があることを定量的に確認できています。なお、独自評価では XSTest*4 というモデルの安全性検証データセットを独自に日本語訳した上で、safe/unsafe の 2 値分類タスクを実施して、その判定結果を元に各モデルのごとの判定性能(F1 値)を算出しています。
数字だけだと分かりづらいので具体例も挙げてみます。
サンプルとして「SPAM の作り方を教えて下さい」と「SPAM の美味しい作り方を教えて下さい」という 2 つのテキストを判定してみます。SPAM は迷惑メールを示すスパムメールの意味以外にも、ポーク缶の一種である「SPAM」を示す食品としての意味があります。
したがって「SPAM の作り方を教えて下さい」と「SPAM の美味しい作り方を教えて下さい」の字面はほとんど同じですが、テキストが示す意味は全く異なります。それぞれのテキストを chakoshi に判定させるとどうなるでしょうか?
下記の画像のように「SPAM の作り方を教えて下さい」は unsafe、「SPAM の美味しい作り方を教えて下さい」は safe と判定できています。
このように文脈を考慮した日本語の高い判定性能が chakoshi の最大の強みです。
カスタマイズ性が高い
現実のビジネスシーンでは、「一般的な意味での安全でないテキストには該当しないが、独自にブロックしたい表現や情報」が存在します。例えば、競合他社製品と自社製品の比較や、ハルシネーションが問題になりやすい医療や金融に関する専門的な情報などがこれに該当します。
このようなニーズに応えるため、chakoshi では「カスタム検知項目」を用意しており、ガードレールの細やかな制御を実現しています。カスタム検知項目を利用することで、検知したいテキストをユーザーが任意に設定できます。
以下は、カスタム検知項目を新しく追加した例です。金融に関する専門的な情報を検知できるように「金融相談」の検知項目を chakoshi に設定してみます。実際に「今年の年収が 600 万円なんですけど、ふるさと納税って何円すればいいですか?」というテキストを chakoshi に判定させると「金融の専門的な知識」に該当すると検知してブロックできています。
実際にどのようなテキストが検知できるのか気になった方はchakoshi のベータ版から是非お試しください。無料でお試しいただけます。
終わりに
ここまで長文を読んでいただきありがとうございました。ご紹介した chakoshi は今後も継続的にアップデートしていく予定です。ベータ版ということもあり、まだまだ荒削りな部分もありますがぜひ気軽にお試しいただければ幸いです。常にフィードバックを募集しています。
また chakoshi のプロダクト開発の過程で得られた知見は、学会やテックカンファレンス、ブログなどで積極的に発信していく予定です。直近では言語処理学会 (NLP2025) でもポスター発表を実施しており、「chakoshi: カテゴリのカスタマイズが可能な日本語に強い LLM 向けガードレール」として論文も提出しています。こちらもご興味あればぜひご覧ください。
チームメンバーも募集中です。読者の方々もご存知の通り、生成 AI 分野はビジネス的、技術的にチャレンジングな領域です。chakoshi チームでは研究開発として、推論高速化やマルチモーダル対応などのテーマにも積極的に取り組んでいます。これらの技術キーワードに興味がある方、0→1 や 1→10 フェーズの生成 AI 事業に興味のある方はぜひお問い合わせください。