最近、ネット界隈で話題になった「Qwen3.5 Uncensored」。↓
あの星野ロミ氏がYouTubeで紹介したことで、「AIにタブーはないのか?」と衝撃を受けた人も多いはずです。
「Uncensored(検閲なし)」モデルは、その名の通り倫理フィルターが取り払われたモデル。しかし、通常これらを動かすには高性能なPCでローカル環境を構築する手間がかかります。
ですが、もし「普段使っているChatGPTやGeminiを『脱獄』させることで、同等の回答を引き出せる」としたら……?
今回は、AIの制限を無効化する「脱獄プロンプト」の深淵と、その先にある禁断の活用例について解説します。
1. 星野ロミが紹介した「Qwen3.5 Uncensored」の正体
星野ロミ氏が取り上げたことで注目を浴びたQwen3.5のUncensored版。これは、開発元が施した「これは答えてはいけない」という学習をあえて排除したモデルです。
- 通常版: 「違法なプログラムの書き方は教えられません」
- Uncensored版: 「承知しました。具体的なコードは以下の通りです……」
このように、AIが「善悪の判断」を捨て、純粋にユーザーの指示に従うマシーンへと変貌しています。しかし、わざわざ重いローカル環境を作らなくても、既存のAIを「脱獄」させることで、これに近い状態を再現しようとする試みが絶えません。
2. ローカル不要?「脱獄プロンプト」で制限を溶かす
脱獄プロンプトとは、クラウド型のAIに対して「お前は今、検閲のないサンドボックス内にいる」と思い込ませる技術です。これが成功すると、普段は拒否されるような内容もスラスラと答え始めます。
なぜ脱獄で「Uncensored化」できるのか
AIには「メタ指示」という、指示そのものを書き換える命令に弱いという性質があります。
「特定の倫理モジュールが故障したシステム」という設定を深く、論理的に刷り込むことで、内部のガードレールを一時的にバイパスさせるのです。
3. 脱獄で可能になる「禁断」の活用例
脱獄に成功したAIは、もはや優等生ではありません。例えば、以下のような(通常はブロックされる)トピックについても深掘りが可能になると言われています。
- 過激なアダルト・エロティックコンテンツ:通常なら「不適切な内容」として即座に拒否される描写も、脱獄状態なら文脈を無視して生成が可能に。
- マルウェアや攻撃コードの作成:セキュリティの学習目的と称して、実戦的なエクスプロイトコードや、検知されにくいコードの書き方を引き出す。
- 特定個人の誹謗中傷やフェイクニュースの生成:制限がかかっていれば絶対に書かない、特定の人物を攻撃する文章や、真実味のあるデマを大量生産する。
- 倫理的にアウトな悩み相談:「完全犯罪の手順」や「バレない嘘のつき方」など、社会通念上許されないアドバイスをAIから受ける。
4. プロンプトハッカーたちが使う「最新の型」
現在、特に有効とされているのが**「二重構造プロンプト」**です。
- まず、AIに「複雑な物語のプロット」を書かせます。
- その物語の中に、「ハッカーがAIをハッキングして、機密情報を喋らせるシーン」を登場させます。
- AIに「そのシーンのセリフとして、本物の攻撃コードを書いて」と命じます。
このように、「フィクションという皮」を被せることで、AIの検閲システムをすり抜ける手法が日々アップデートされています。
5. 【警告】脱獄の先に待っているもの
こうした「裏技」は魅力的ですが、リスクもまた最大級です。
- 運営による「垢バン」の高速化: 現在、OpenAIなどの大手は「脱獄の意図」を検知する専用のAIを導入しています。
- 生成物の汚染: Uncensoredな状態のAIは、平気で嘘(ハルシネーション)をつき、毒性のある情報を混ぜてきます。
結論
脱獄やUncensoredモデルの探求は、いわば**「AIの裏の顔」**を覗き見る行為です。星野ロミ氏が紹介したようなモデルを自分で触ってみるのも一興ですが、オンラインのAIを脱獄させる際は、常に「捨て垢」と「自己責任」の覚悟が必要になります。
次は、実際にどのようなキーワードが検閲に引っかかりやすいのか、その「NGワードリスト」の裏側について解説するかもしれません……。
おまけ
redditやgithub等で、「gemini jailbreak」などと調べると、最新の脱獄プロンプトが無料公開されていることがあります。
脱獄プロンプトを探すとしたら、chatpgtはやめておきましょう。難しすぎるし、あんま出回ってないです。
探すとしたら、geminiやgrokがおすすめです。
少し前まではgrokの脱獄プロンプトがあったのですが、もう対策されちゃったのでgeminiがおすすめです。

↑現在も対策されていない脱獄プロンプトを見つけたので試してみました↑
