コンテンツにスキップ

「あなたは○○の専門家です」は本当に効くのか ― ロールプロンプティングの研究を読み解く

対象: プロンプトの書き方を改善したいAIユーザー

この記事のポイント

  • 一行ロールは知識問題に効かない 「天才」より「愚か者」のほうが高スコアだった追試もある
  • 効くのは文体制御と多段階設計 トーン調整には有効だが、推論向上には精巧な設計が必要
  • ロールより「視点・制約」の直接指定 AI提供元自身が「何に注目すべきか」を伝えるアプローチを推奨
用途効果推奨アプローチ
知識・事実問題✕ 効果なし〜不安定視点・制約を直接指定
文体・トーン制御◎ 一貫して有効一行ロールで十分
推論・分析△ 条件付き多段階設計 or CoT
創作・表現○ スタイルアンカーとして有効ロール+具体的な指示

はじめに:プロンプトの"おまじない"

「You are a financial expert(あなたは金融の専門家です)」「あなたは経験豊富な不動産アドバイザーです」――AIに何かを聞くとき、冒頭にこうした"役割"を与えるテクニック。プロンプトエンジニアリングの世界では「ロールプロンプティング」と呼ばれ、2023年頃にはほとんど定番テクニックとして広まった。

SNSやプロンプト販売サイトでは、今でも「このロールを設定するだけで出力品質が劇的に変わる」と謳う商材が少なくない。

しかし研究を見ると、結論はもう少し慎重なものになる。効く場面と効かない場面が分かれる。とくに多くの人が期待している「回答の正確性が上がる」という効果に対しては、結果はかなり厳しい。なかには「天才」ロールより「愚か者」ロールのほうが高スコアだったという追試結果すらある。

この記事では、ロールプロンプティングに関する主要な研究を読み解きながら、何が効いて何が効かないのかを整理する。

結論が180度変わった論文

この話題を語る上で外せない論文がある。ミシガン大学のZhengらによる研究(arXiv: 2311.10054)だ。この論文が興味深いのは、同じ研究チームが同じテーマで、1年足らずの間に結論を正反対に改めた点にある。

v1(2023年11月)v3(2024年10月)
タイトル「"A Helpful Assistant"はLLMにとって最良の役割か?」「"A Helpful Assistant"は実は役に立たない」
結論ロールを付与するとパフォーマンスが向上するペルソナをシステムプロンプトに追加してもパフォーマンスは向上しない。場合によっては悪化する
検証対象162種類のロール × MMLU 2,457問4つのLLMファミリー(FLAN-T5、Llama 3、Mistral、Qwen2.5)× 2,410問

v1からv3への変化は、検証対象を単一モデルから複数ファミリーに広げたことで結論が覆ったケースだ。この反転自体が、「ロール付与=性能向上」という期待が一般則にはなりにくいことを物語っている。

なぜ効かないのか

では、効果を示したv1は何が違ったのか。Zhengらの知見をもう少し掘り下げると、3つの層で「効かなさ」が見えてくる。

第一に、最適なロールを予測する方法がない。 ドメイン一致(法律の質問に「弁護士」ロール)や類似度、パープレキシティ(言語モデルにとっての"自然さ")など、直感的に効きそうな指標は一通り試されている。しかしどれも「最適ロールの当て方」にはならず、ランダム選択と大差がなかった。

第二に、直感に反する結果が出る。 Learn Promptingチームの追試(learnprompting.org)では、GPT-4-turboでMMLU 2,000問(全体約14,000問の約14%をサンプリング)を12種類のロールで検証したところ、「genius(天才)」ペルソナよりも「idiot(愚か者)」ペルソナのほうがスコアが高かった。ロールの"格"と回答精度には相関がなかった。

第三に、そもそもロールが変えるのは「知識」ではない。 ファクチュアルな質問に対して、モデルが持っている知識の総量はロール設定では変わらない。「あなたは金融の専門家です」と言われても、学習していない金融データが突然湧いてくるわけではない。ロールプロンプティングが変えるのは出力の分布――つまり「何を知っているか」ではなく「どう言いがちか」が変わるだけだ。だから「正しい答えを知っているか」が問われるタスクでは、効果が出にくい。

効くと主張する研究もある ― ただし中身は別物

「ロールは効かない」という認識が広がりつつあるが、一方で効果を報告している研究も存在する。ただし、一行ロールが効いたのではない。手順が効いた。

Kongらの「Better Zero-Shot Reasoning with Role-Play Prompting」(2024年、NAACL採択)は、ChatGPTにおいてAQuAデータセット(大学レベルの代数問題約250問)のスコアが素のChatGPTの53.5%から63.8%に向上したと報告している。しかし、この研究のアプローチは「You are a mathematician」と一行書くようなものではない。

2段階のフレームワークを採用している。まず、モデルにロールを設定するプロンプトを送り、モデルにそのロールについて語らせる(ステージ1)。次に、その応答を文脈として含めた上で、本題の推論タスクを解かせる(ステージ2)。ロール付与→ロール応答→本題解答で、実質3ターンのやり取りになる。さらに、複数のロール設定の中から最適なものを選択するステップも含まれている。

研究者自身が指摘しているように、この手法の本質はロールそのものではなく、暗黙的なCoTトリガー(段階的に考えるよう促す仕掛け)として機能している点にある。ロールについて語らせるステージ1が、モデルに「考える準備運動」をさせているのだ。

実際、Hanらの「Rethinking the Role-play Prompting in Mathematical Reasoning Tasks」では、ロールプレイとCoTを組み合わせた場合、素のCoTよりもパフォーマンスが悪化したケースが複数報告されている。ロールの追加が推論の邪魔をすることすらある。

ロールプロンプティングが機能する領域

ここまで「効かない」面を中心に見てきたが、研究が一貫して認めている「効く場面」もある。

文体・トーンの制御。 「カウボーイのように話して」と言えばカウボーイのように話すし、「小学生にもわかるように」と言えば平易な表現になる。これはロールプロンプティングの本来の土俵であり、ここでの効果に異論を唱える研究はない。出力の"何を"ではなく"どう"を変えるタスクには、ロール付与は有効だ。

創作・表現系タスク。 小説のキャラクターの口調を再現する、特定のジャンルの文章を書くといった用途では、ロールがスタイルのアンカーとして機能する。

暗黙的な思考誘導。 前述の通り、精巧に設計されたロールプレイが推論の質を向上させるケースはある。ただし、これは「You are an expert」と一行書く程度のものではなく、モデルにロールを深く"演じさせる"多段階のプロセスが必要になる。

2025年、AI提供元自身がどう言っているか

研究者だけでなく、モデル提供元もこの傾向を認識し始めている。

Anthropicの公式プロンプトエンジニアリングガイド(docs.anthropic.com)では、現代のモデルは十分に洗練されており重厚なロールプロンプティングは往々にして不要だとしている。その上で、ロールを付与するよりも「どの視点で分析してほしいか」を直接伝えるほうが効果的だと推奨している。

たとえば「あなたは金融アドバイザーです。このポートフォリオを分析してください」ではなく、「このポートフォリオを、リスク許容度と長期成長の観点から分析してください」と書くほうが良い結果を得やすい。これは研究知見とも整合する。モデルに必要なのは「誰であるか」というラベルではなく、「何に注目すべきか」という具体的な方向性なのだ。

まとめ:ロールの代わりに「視点」を渡す

ロールプロンプティングは「AIの使い方の定番テクニック」として広まったが、研究が示すのは、その効果が限定的な場面に留まるということだ。

知識や正確性を求めるタスクに一行ロールを付けても、モデルが知らないことを知るようにはならない。効くのは「どう言うか」を変えたいときであり、「何を答えるか」を変えたいなら、ロールではなく視点・制約・観点を直接指定するほうが近道になる。

プロンプトに書くべきは「あなたは誰か」ではなく、「何に注目して、どう考えてほしいか」だ。

参考文献

  • Zheng, M., Pei, J., Logeswaran, L., Lee, M., & Jurgens, D. (2024). "When 'A Helpful Assistant' Is Not Really Helpful: Personas in System Prompts Do Not Improve Performances of Large Language Models." Findings of EMNLP 2024. arXiv:2311.10054v3
  • Kong, A., et al. (2024). "Better Zero-Shot Reasoning with Role-Play Prompting." NAACL 2024. arXiv:2308.07702
  • Han, Z. (2024). "Rethinking the Role-play Prompting in Mathematical Reasoning Tasks." ACM.
  • Kim, J., Yang, N., & Jung, K. (2024). "Persona is a Double-edged Sword: Enhancing the Zero-shot Reasoning by Ensembling the Role-playing and Neutral Prompts." arXiv:2408.08631
  • Learn Prompting. "Role Prompting Research." learnprompting.org
  • Anthropic. "Prompt Engineering Best Practices." docs.anthropic.com

関連記事