AIに医療相談する前に知っておきたい、”聞き方で正解率が変わる”という話

職場でもAIが広まってきて、時代の流れを感じている。

これからは患者さんも日常的にAIを使いながら、自分の体と向き合う時代になっていくのだろう。それはとても良いことだと思う。ただ、AIを過信するのは少し危ない。正しい使い方を知っているかどうかで、得られるものは大きく変わる。

AIは優秀だけど、研修医になりたての先生みたいなもの。知識は深いけど、正しさの保証まではまだついてこない。

以前診察した若い患者さんが、ご自身の症状についてChatGPTで調べていらっしゃった。ただ、そこに書かれていた”参考にした論文”は、現実には存在しないものだったこともある。

今日は、ぼくが最近読んで共感した論文の話をしようと思う。

同じAIでも、聞き方で正解率が変わる
でも、もっと印象に残ったのは、医師と組ませた時だった
日常のAI相談に、三つだけ取り入れるなら
最後に、少しだけ
1. この記事に関連する話
2. 参考文献

同じAIでも、聞き方で正解率が変わる

その論文は、4月半ばに npj Digital Medicine というNature系列の医学誌に載ったばかりのもの。中国の循環器チームが書いている。

やっていることは、シンプルだ。

高血圧のシミュレーション症例を300例用意して、4種類のAI（ChatGPT、Claude、Gemini、DeepSeek）に、18種類の”聞き方”で診断と治療方針を尋ねる。そして、どのAI × どの聞き方が、どれくらい正確に答えられるかを比べた。

面白いのは、同じAIでも”聞き方”で精度が変わるというところ。

一番良い組み合わせ（ChatGPTに、手順を踏ませて、複数回答えさせて照合する方法）で、正解率は91.3%。専門家レベルに近い。（これもすごいことだ）
一番悪い組み合わせ（DeepSeekに、何の工夫もなく直球で聞く方法）だと、62.7%。だいたい3回に1回は外す計算だ。

聞き方ひとつで大きな差がついたのだ。

ちなみに、論文の著者たち自身が、結論にこう書いている。

「LLMは、すぐに使える自律的な医療機器ではない。安全性と有用性は、どう問いかけるかに深く左右される」と。

でも、もっと印象に残ったのは、医師と組ませた時だった

論文には、もう一つ大事な実験があった。

研究チームは、6人の医師を集めた。大学病院から2人、県立病院から2人、地域病院から2人。そして、全員に同じ症例を解いてもらう。

条件は3つ。

一人で考える
一番良いAI（例の91.3%の組み合わせ）に相談しながら考える
一番悪いAI（例の62.7%の組み合わせ）に相談しながら考える

結果は、少し予想外だった。

一番良いAIと組んだ時、6人中5人が精度を上げた。特に地域病院の医師は、一人で判断した時より約9ポイントも改善している。

一番悪いAIと組んだ時は、6人全員が精度を下げてしまった。AIに引きずられた格好だ。
不適切な処方が出た割合も、26.6%から35.2%へ増えていた。

さらに面白いのは、大学病院ではなく地域の病院で診療している医師ほど、良いAIの恩恵も大きかったが、悪いAIの害も大きかったという点だ。

論文の著者は、これを “double-edged sword”（諸刃の剣）と呼んでいる。（これはぼくの好きな例えだ。）

AIが間違った方向へ誘導し、医師もつられて間違えてしまう。しかも、もっともらしい文章で書かれているから、疑う余地が少ない。論文ではこれを automation bias という言葉で整理している。AIが言ったから正しそうに見える、という認知のクセのことだ。

実際の臨床現場での感覚とも一致する。

研修医になりたての頃に、一つ上の先輩の言うことが全部正しく聞こえていた時期があった。あの頃の自分に、”その助言は本当か自分で調べないとダメだよ”と言ってあげたい。そんな、気持ちに近い。

日常のAI相談に、三つだけ取り入れるなら

論文の中身は、医療現場のAI活用についての話が中心だ。

ただ、そこで”効果があった”とされた考え方のいくつかは、医療者じゃなくても、日常のAI相談にそのまま応用できると思う。三つ挙げてみる。

1. そのまま聞かず、前提をきちんと伝える

論文で一番大きかった差は、「どれだけ背景情報を渡して聞いたか」だった。

たとえば「英語の勉強法を教えて」とだけ聞くと、教科書的な一般論しか返ってこない。でも、「40代、医療系の仕事、英語論文を月に数本読むけど話すのは苦手、平日は時間がない」と伝えれば、返ってくる答えはぐっと自分に合ったものに変わるのだ。

体のことを聞く時も同じだ。年齢、持病、飲んでいる薬、症状の経過。面倒でも最初に書くとそれだけで、返ってくる答えが変わる。

2. 一度で信じず、言葉を変えて2〜3回聞く

論文で最も精度が高かった”Self-Consistency”という方法は、要するに「同じことを複数回聞いて、答えが一致するか見る」というやり方だった。

これは日常でも真似できる。同じ問いを、少し言い回しを変えて2〜3回尋ねてみる。

答えが揺れなければ、それなりに信用できるサイン。逆に答えが揺れたら、それは”AI自身も確信を持てていないこと”だと思った方がいい。

あと、ぼくはAIの種類を変えて聞くこともする。GeminiとClaudeで同じ質問をするのだ。

こういう”角度を変えて聞く”という楽しみは、以前 Claudeに”ととのう”を聞いてみたら、なぜか哲学の話になったでも書いたことがある。同じ問いでも、切り口を変えると思わぬ方向から答えが返ってくることがあって、それ自体がおもしろい。

3. AIに、自分の答えを疑わせる

もう一つ、論文で重視されていたのが「AIに自分の答えをチェックさせる」というテクニックだった。

実際には、最後にこう一言足すだけでいい。

「今の回答が間違っている可能性は？どの部分が怪しいですか？」

すると、AIは急にトーンを落とす。断定していた部分を「これは別の可能性もあります」「ここは専門家に確認を」と言い直してくれる。これで、”もっともらしいけど実は根拠が薄い”という危ないケースを避けやすくなる。

最後に、少しだけ

この論文を読んで思ったのは、AIは問いかけ方で姿を変える、ということだった。だとしたら、ぼくらが身につけるべきは、答えを引き出す”問いかけ方”のほうなのだろう。

ありふれた言葉だけど、同じ道具でも助けにも、害にもなりうる。ハサミや包丁、自動車でもそうだ。AIも同じ。

冒頭で触れた、”架空の論文”を信じていた若い患者さんの話。

もしあの時、もう一歩だけAIに「その論文、本当にありますか？」と聞き返していたら、違う答えに辿り着いていたのかもしれない。ほんの一手間で、景色が変わる。

もちろん、今回の研究は中国の循環器チームのもので、対象は高血圧で、しかもシミュレーション症例の話。日本の日常にそのまま当てはまるわけではない。それでも、”AIの答えの質は、使う側で変わる”という感覚は、臨床の外でも同じように通じるだろう。

以前、「AIは優秀だ。でも、ベッドサイドに必要なのは人」という記事で、AIには届かない”ベッドサイドの直感”について書いたことがある。あの時は感覚としての話だったけれど、今回の論文を読んで、同じ場所に別の入り口から戻ってきた気がしている。

最後に、一つだけ。

AIは判断を助けてくれる。でも、大事なことを最後に決めるのは、AIでも、インターネットでもない。目の前のあなたを理解し、決断をするのは、あなた自身や家族、そして目の前の医師だ。そこはまだ、AIには代わることができない部分だと思っている。

この記事に関連する話

AIは優秀だ。でも、ベッドサイドに必要なのは人
— AIの得意・不得意と、ベッドサイドでしか分からないことについて
Claudeに”ととのう”を聞いてみたら、なぜか哲学の話になった
— AIとの対話が予想外の方向に転がった話
AIには再現できないものがある。うちにいたシェパード
— AIが届かない領域について

参考文献

Li, Z., Liu, H., Tan, W. et al. The effects of multitype prompt engineering for large language models in hypertension treatment decisions. npj Digit. Med. (2026). https://doi.org/10.1038/s41746-026-02645-y

※この記事は一般的な情報提供としての読書感想です。個別の症状や治療方針については、医療機関にご相談ください。