「あなたは○○の専門家です」は本当に効くのか ― ロールプロンプティングの研究を読み解く¶
対象: プロンプトの書き方を改善したいAIユーザー
この記事のポイント¶
- 一行ロールは知識問題に効かない 「天才」より「愚か者」のほうが高スコアだった追試もある
- 効くのは文体制御と多段階設計 トーン調整には有効だが、推論向上には精巧な設計が必要
- ロールより「視点・制約」の直接指定 AI提供元自身が「何に注目すべきか」を伝えるアプローチを推奨
| 用途 | 効果 | 推奨アプローチ |
|---|---|---|
| 知識・事実問題 | ✕ 効果なし〜不安定 | 視点・制約を直接指定 |
| 文体・トーン制御 | ◎ 一貫して有効 | 一行ロールで十分 |
| 推論・分析 | △ 条件付き | 多段階設計 or CoT |
| 創作・表現 | ○ スタイルアンカーとして有効 | ロール+具体的な指示 |
はじめに:プロンプトの"おまじない"¶
「You are a financial expert(あなたは金融の専門家です)」「あなたは経験豊富な不動産アドバイザーです」――AIに何かを聞くとき、冒頭にこうした"役割"を与えるテクニック。プロンプトエンジニアリングの世界では「ロールプロンプティング」と呼ばれ、2023年頃にはほとんど定番テクニックとして広まった。
SNSやプロンプト販売サイトでは、今でも「このロールを設定するだけで出力品質が劇的に変わる」と謳う商材が少なくない。
しかし研究を見ると、結論はもう少し慎重なものになる。効く場面と効かない場面が分かれる。とくに多くの人が期待している「回答の正確性が上がる」という効果に対しては、結果はかなり厳しい。なかには「天才」ロールより「愚か者」ロールのほうが高スコアだったという追試結果すらある。
この記事では、ロールプロンプティングに関する主要な研究を読み解きながら、何が効いて何が効かないのかを整理する。
結論が180度変わった論文¶
この話題を語る上で外せない論文がある。ミシガン大学のZhengらによる研究(arXiv: 2311.10054)だ。この論文が興味深いのは、同じ研究チームが同じテーマで、1年足らずの間に結論を正反対に改めた点にある。
| v1(2023年11月) | v3(2024年10月) | |
|---|---|---|
| タイトル | 「"A Helpful Assistant"はLLMにとって最良の役割か?」 | 「"A Helpful Assistant"は実は役に立たない」 |
| 結論 | ロールを付与するとパフォーマンスが向上する | ペルソナをシステムプロンプトに追加してもパフォーマンスは向上しない。場合によっては悪化する |
| 検証対象 | 162種類のロール × MMLU 2,457問 | 4つのLLMファミリー(FLAN-T5、Llama 3、Mistral、Qwen2.5)× 2,410問 |
v1からv3への変化は、検証対象を単一モデルから複数ファミリーに広げたことで結論が覆ったケースだ。この反転自体が、「ロール付与=性能向上」という期待が一般則にはなりにくいことを物語っている。
なぜ効かないのか¶
では、効果を示したv1は何が違ったのか。Zhengらの知見をもう少し掘り下げると、3つの層で「効かなさ」が見えてくる。
第一に、最適なロールを予測する方法がない。 ドメイン一致(法律の質問に「弁護士」ロール)や類似度、パープレキシティ(言語モデルにとっての"自然さ")など、直感的に効きそうな指標は一通り試されている。しかしどれも「最適ロールの当て方」にはならず、ランダム選択と大差がなかった。
第二に、直感に反する結果が出る。 Learn Promptingチームの追試(learnprompting.org)では、GPT-4-turboでMMLU 2,000問(全体約14,000問の約14%をサンプリング)を12種類のロールで検証したところ、「genius(天才)」ペルソナよりも「idiot(愚か者)」ペルソナのほうがスコアが高かった。ロールの"格"と回答精度には相関がなかった。
第三に、そもそもロールが変えるのは「知識」ではない。 ファクチュアルな質問に対して、モデルが持っている知識の総量はロール設定では変わらない。「あなたは金融の専門家です」と言われても、学習していない金融データが突然湧いてくるわけではない。ロールプロンプティングが変えるのは出力の分布――つまり「何を知っているか」ではなく「どう言いがちか」が変わるだけだ。だから「正しい答えを知っているか」が問われるタスクでは、効果が出にくい。
効くと主張する研究もある ― ただし中身は別物¶
「ロールは効かない」という認識が広がりつつあるが、一方で効果を報告している研究も存在する。ただし、一行ロールが効いたのではない。手順が効いた。
Kongらの「Better Zero-Shot Reasoning with Role-Play Prompting」(2024年、NAACL採択)は、ChatGPTにおいてAQuAデータセット(大学レベルの代数問題約250問)のスコアが素のChatGPTの53.5%から63.8%に向上したと報告している。しかし、この研究のアプローチは「You are a mathematician」と一行書くようなものではない。
2段階のフレームワークを採用している。まず、モデルにロールを設定するプロンプトを送り、モデルにそのロールについて語らせる(ステージ1)。次に、その応答を文脈として含めた上で、本題の推論タスクを解かせる(ステージ2)。ロール付与→ロール応答→本題解答で、実質3ターンのやり取りになる。さらに、複数のロール設定の中から最適なものを選択するステップも含まれている。
研究者自身が指摘しているように、この手法の本質はロールそのものではなく、暗黙的なCoTトリガー(段階的に考えるよう促す仕掛け)として機能している点にある。ロールについて語らせるステージ1が、モデルに「考える準備運動」をさせているのだ。
実際、Hanらの「Rethinking the Role-play Prompting in Mathematical Reasoning Tasks」では、ロールプレイとCoTを組み合わせた場合、素のCoTよりもパフォーマンスが悪化したケースが複数報告されている。ロールの追加が推論の邪魔をすることすらある。
ロールプロンプティングが機能する領域¶
ここまで「効かない」面を中心に見てきたが、研究が一貫して認めている「効く場面」もある。
文体・トーンの制御。 「カウボーイのように話して」と言えばカウボーイのように話すし、「小学生にもわかるように」と言えば平易な表現になる。これはロールプロンプティングの本来の土俵であり、ここでの効果に異論を唱える研究はない。出力の"何を"ではなく"どう"を変えるタスクには、ロール付与は有効だ。
創作・表現系タスク。 小説のキャラクターの口調を再現する、特定のジャンルの文章を書くといった用途では、ロールがスタイルのアンカーとして機能する。
暗黙的な思考誘導。 前述の通り、精巧に設計されたロールプレイが推論の質を向上させるケースはある。ただし、これは「You are an expert」と一行書く程度のものではなく、モデルにロールを深く"演じさせる"多段階のプロセスが必要になる。
2025年、AI提供元自身がどう言っているか¶
研究者だけでなく、モデル提供元もこの傾向を認識し始めている。
Anthropicの公式プロンプトエンジニアリングガイド(docs.anthropic.com)では、現代のモデルは十分に洗練されており重厚なロールプロンプティングは往々にして不要だとしている。その上で、ロールを付与するよりも「どの視点で分析してほしいか」を直接伝えるほうが効果的だと推奨している。
たとえば「あなたは金融アドバイザーです。このポートフォリオを分析してください」ではなく、「このポートフォリオを、リスク許容度と長期成長の観点から分析してください」と書くほうが良い結果を得やすい。これは研究知見とも整合する。モデルに必要なのは「誰であるか」というラベルではなく、「何に注目すべきか」という具体的な方向性なのだ。
まとめ:ロールの代わりに「視点」を渡す¶
ロールプロンプティングは「AIの使い方の定番テクニック」として広まったが、研究が示すのは、その効果が限定的な場面に留まるということだ。
知識や正確性を求めるタスクに一行ロールを付けても、モデルが知らないことを知るようにはならない。効くのは「どう言うか」を変えたいときであり、「何を答えるか」を変えたいなら、ロールではなく視点・制約・観点を直接指定するほうが近道になる。
プロンプトに書くべきは「あなたは誰か」ではなく、「何に注目して、どう考えてほしいか」だ。
参考文献¶
- Zheng, M., Pei, J., Logeswaran, L., Lee, M., & Jurgens, D. (2024). "When 'A Helpful Assistant' Is Not Really Helpful: Personas in System Prompts Do Not Improve Performances of Large Language Models." Findings of EMNLP 2024. arXiv:2311.10054v3
- Kong, A., et al. (2024). "Better Zero-Shot Reasoning with Role-Play Prompting." NAACL 2024. arXiv:2308.07702
- Han, Z. (2024). "Rethinking the Role-play Prompting in Mathematical Reasoning Tasks." ACM.
- Kim, J., Yang, N., & Jung, K. (2024). "Persona is a Double-edged Sword: Enhancing the Zero-shot Reasoning by Ensembling the Role-playing and Neutral Prompts." arXiv:2408.08631
- Learn Prompting. "Role Prompting Research." learnprompting.org
- Anthropic. "Prompt Engineering Best Practices." docs.anthropic.com