AIで作った仕組みが動かなくなったときの対処法

2026年2月22日2026年3月8日

この記事は2026年2月に公開し、最新の情報をもとに随時更新しています。（最終更新：2026年3月）

AIを業務に組み込むと、生産性は確実に上がります。でも「突然動かなくなる」というリスクもセットで付いてきます。APIの仕様変更、モデルの廃止、サービスの料金改定。AIを使った仕組みは、思った以上に壊れやすいです。

自分は自社ツール（Sync8）にAIを組み込んで運用しているので、このトラブルには何度も遭遇してきました。そのたびに対処して、予防策を追加してきた記録をまとめます。

実際に起きたトラブル3選

ケース1：OpenAI APIの仕様変更で商品説明文の自動生成が止まった

朝、スタッフから「商品説明文が生成できません」と連絡が来ました。原因はOpenAI APIのレスポンス形式の変更です。ドキュメントには事前告知がありましたが、見落としていました。

修正自体は2時間で終わりましたが、その間はクライアントの商品登録作業が止まりました。手動で対応してもらいましたが、申し訳なかったです。

この経験から学んだのは「告知を見落とさない仕組み」の重要性です。今はOpenAIのChangelog用のRSSリーダーを設定して、更新があったらSlackに自動通知が飛ぶようにしています。ドキュメントを毎日読むのは現実的ではありませんが、通知なら見逃しません。

ケース2：使っていたモデルが非推奨になった

GPT-3.5 Turboをベースにしていた機能が、モデルの非推奨化に伴いパフォーマンスが低下しました。出力の品質が明らかに落ちて、クライアントから「最近AIの精度が悪くなった」とフィードバックが来ました。

GPT-4oに切り替えることで解決しましたが、コストが増えました。モデルの移行計画を事前に立てておくべきでした。

具体的にコストがどれくらい変わったかというと、GPT-3.5 Turboのときは月あたり約3,000円だったAPI費用が、GPT-4oに切り替えたことで約12,000円に増えました。約4倍です。ただし出力品質の向上でクライアントの手直し時間が減ったので、トータルではペイしています。

ケース3：API利用料の急な値上げ

あるAIサービスのAPIが、予告なく料金体系を変更して、月額コストが3倍になりました。採算が合わなくなり、別のサービスに乗り換えることになりましたが、移行に2週間かかりました。

2025年6月にはOpenAIの大規模障害が発生して、数時間にわたってAPIが使えなくなる事態もありました。自社サービスだけでなく、ZendeskなどOpenAIを利用しているサードパーティのサービスにも影響が波及しました。AIインフラに依存するリスクを改めて実感した出来事でした。

トラブル発生時の対処手順

自分がやっている対処の流れを紹介します。

ステップ1：手動で業務を継続する

AIが止まっても、業務は止めません。これが最優先です。AIに依存する前にやっていた方法で、手動で処理を続けます。だから「AI無しでも最低限回せる体制」を維持しておくことが前提になります。

自分の場合、AIが止まったときに備えて「手動フォールバック手順書」を作っています。商品説明文の生成が止まったらテンプレートを使う、メール下書き機能が止まったら定型文をベースに手動で書く、というようにです。この手順書があるだけで、障害発生時のパニックが減ります。

ステップ2：原因を特定する

まずAIサービスのステータスページを確認します。OpenAIならstatus.openai.comで障害情報が見られます。障害でなければ、自分のコード側の問題です。エラーログを見て、APIのレスポンスを確認します。

よくある原因は、APIの仕様変更、レートリミット超過、認証キーの期限切れ、モデルの非推奨化です。この4つを順番にチェックすれば、だいたい原因は見つかります。

ステップ3：修正して復旧する

原因がわかったら修正します。API仕様変更ならコードを修正。モデル非推奨化なら新しいモデルに切り替え。レートリミットなら処理の分散やキューイングの実装です。

本番環境に反映する前に、テスト環境で必ず動作確認をしています。焦って本番に直接デプロイすると、二次障害が起きます。過去に一度、修正したつもりが別の箇所を壊してしまい、障害が拡大したことがあります。それ以来、どんなに急いでいてもテスト環境を省略しないと決めています。

ステップ4：再発防止策を入れる

同じことが起きないように、監視の仕組みを入れます。自分はSlackにエラー通知が飛ぶようにしています。APIの応答時間が閾値を超えたとき、エラー率が一定以上になったときに通知が来ます。

壊れにくい仕組みを作るための予防策

1. AIサービスの更新情報を追いかける

OpenAI、Google（Gemini）、Anthropic（Claude）。使っているAIサービスのブログ、Changelog、リリースノートはRSSやメールで購読しています。APIの変更は事前告知されることが多いので、見落とさなければ事前に対応できます。

自分がフォローしている情報源をリストにしています。OpenAI Platform Changelog、Anthropic News、Google AI Blog。それぞれの更新通知をSlackチャンネルに集約して、週に一度まとめて確認する時間を設けています。

2. マルチモデル対応にする

1つのAIサービスだけに依存しないようにしています。自分のツールでは、メインをOpenAI、フォールバックをClaudeやGeminiに設定しています。メインが落ちたら自動で切り替わる仕組みです。

2026年3月時点で自分が使い分けているのは、OpenAI GPT-4oを汎用的なテキスト生成に、Claude 4 Opusを複雑な分析や長文に、Gemini 3 Flashを軽量な処理に、という構成です。1社に依存しないことで、障害時の影響を最小限に抑えています。

マルチモデル対応の実装で工夫しているのは、APIのレスポンス形式を統一するアダプター層を作っていることです。各AIサービスのAPIはレスポンスの形式が微妙に異なるので、アダプター層で差異を吸収します。こうしておけば、新しいモデルを追加するときも、アダプターを1つ追加するだけで済みます。

3. AIに依存しすぎない業務設計にする

AIが止まったときに「何もできない」状態にはしません。AIはあくまで効率化ツールです。手動でもできる業務フローを維持しています。

具体的には、AIが生成したテンプレートを保存しておいて、AIが止まったらテンプレートベースで手動作業します。完全な自動化よりも、半自動化（AIが下書き→人間が確認・修正）のほうが、障害時のダメージが小さいです。

4. エラー通知の仕組みを入れる

AIの処理が失敗したとき、すぐに気づける仕組みが必要です。自分はSlackに通知を飛ばしています。エラーの種類、発生時刻、影響範囲がわかるようにしておくと、対応のスピードが上がります。

通知の設計で気をつけているのは「通知疲れ」を防ぐことです。すべてのエラーを通知すると、重要な通知が埋もれます。自分は重要度を3段階に分けています。「即対応」（サービス停止レベル）、「当日対応」（品質低下レベル）、「週次確認」（軽微なエラー）。即対応だけSlackの個人メンションで通知して、それ以外は専用チャンネルに流しています。

5. 定期的にAPIの動作テストを走らせる

週に1回、各AIサービスのAPIに簡単なリクエストを投げて、正常にレスポンスが返ってくるかをチェックする自動テストを回しています。いわゆるヘルスチェックです。障害が起きてから気づくのと、定期チェックで早めに気づくのでは、対応のスピードがまったく違います。

コストの管理も「壊れる」の一種

AIの仕組みが「壊れる」のは、技術的な障害だけではありません。コストが想定以上に膨らんで採算が合わなくなるのも、ある意味で「壊れる」です。

APIの利用料は毎月モニタリングしています。月の上限を設定して、超えたらアラートが飛ぶようにしています。特に画像生成や動画生成のAPIはコストが高いので、利用頻度と効果を定期的に見直しています。

コスト管理で実践していることとして、APIのリクエスト数とコストをダッシュボードで可視化しています。月初に予算を設定して、日次でコストの推移を確認します。月中で予算の80%に達したら自動で通知が飛びます。この仕組みのおかげで「月末に請求書を見てびっくり」ということがなくなりました。

AIトラブル対応の振り返りシートを作る

トラブルが起きるたびに、自分は「振り返りシート」を書いています。発生日時、原因、影響範囲、対応手順、復旧までの時間、再発防止策。これをスプレッドシートに記録しておくと、似たトラブルが起きたときに過去の対応を参照できます。

振り返りシートのもう一つの効果は、トラブルのパターンが見えてくることです。自分の場合、APIの仕様変更によるトラブルが最も多くて、全体の約6割を占めていました。逆に言えば、仕様変更の事前告知さえちゃんとチェックしていれば、6割のトラブルは防げるということです。データを取ることで、予防策の優先順位が明確になりました。

障害が起きたとき、「まあ直ったからいいか」で終わらせるのと、振り返りを記録に残すのでは、1年後の安定性がまったく違います。面倒ですが、この5分の記録が将来の数時間の障害対応を防いでくれます。

まとめ

AIの仕組みは便利ですが、壊れるものだという前提で運用しています。「AIが止まっても業務は止まらない」設計が大事です。

予防策をまとめると、更新情報を追いかける、マルチモデル対応にする、手動フォールバックを維持する、エラー通知を入れる、定期テストを走らせる。地味ですが、これをやっておくかどうかで、トラブル発生時のダメージが大きく変わります。

シェアはこちらから

URLをコピーしました！