職場でもAIが広まってきて、時代の流れを感じている。
これからは患者さんも日常的にAIを使いながら、自分の体と向き合う時代になっていくのだろう。それはとても良いことだと思う。ただ、AIを過信するのは少し危ない。正しい使い方を知っているかどうかで、得られるものは大きく変わる。
AIは優秀だけど、研修医になりたての先生みたいなもの。知識は深いけど、正しさの保証まではまだついてこない。
以前診察した若い患者さんが、ご自身の症状についてChatGPTで調べていらっしゃった。ただ、そこに書かれていた”参考にした論文”は、現実には存在しないものだったこともある。
今日は、ぼくが最近読んで共感した論文の話をしようと思う。
同じAIでも、聞き方で正解率が変わる
その論文は、4月半ばに npj Digital Medicine というNature系列の医学誌に載ったばかりのもの。中国の循環器チームが書いている。
やっていることは、シンプルだ。
高血圧のシミュレーション症例を300例用意して、4種類のAI(ChatGPT、Claude、Gemini、DeepSeek)に、18種類の”聞き方”で診断と治療方針を尋ねる。そして、どのAI × どの聞き方が、どれくらい正確に答えられるかを比べた。
面白いのは、同じAIでも”聞き方”で精度が変わるというところ。
一番良い組み合わせ(ChatGPTに、手順を踏ませて、複数回答えさせて照合する方法)で、正解率は91.3%。専門家レベルに近い。(これもすごいことだ)
一番悪い組み合わせ(DeepSeekに、何の工夫もなく直球で聞く方法)だと、62.7%。だいたい3回に1回は外す計算だ。
聞き方ひとつで大きな差がついたのだ。
ちなみに、論文の著者たち自身が、結論にこう書いている。
「LLMは、すぐに使える自律的な医療機器ではない。安全性と有用性は、どう問いかけるかに深く左右される」と。
でも、もっと印象に残ったのは、医師と組ませた時だった
論文には、もう一つ大事な実験があった。
研究チームは、6人の医師を集めた。大学病院から2人、県立病院から2人、地域病院から2人。そして、全員に同じ症例を解いてもらう。
条件は3つ。
- 一人で考える
- 一番良いAI(例の91.3%の組み合わせ)に相談しながら考える
- 一番悪いAI(例の62.7%の組み合わせ)に相談しながら考える
結果は、少し予想外だった。
一番良いAIと組んだ時、6人中5人が精度を上げた。特に地域病院の医師は、一人で判断した時より約9ポイントも改善している。
一番悪いAIと組んだ時は、6人全員が精度を下げてしまった。AIに引きずられた格好だ。
不適切な処方が出た割合も、26.6%から35.2%へ増えていた。
さらに面白いのは、大学病院ではなく地域の病院で診療している医師ほど、良いAIの恩恵も大きかったが、悪いAIの害も大きかったという点だ。
論文の著者は、これを “double-edged sword”(諸刃の剣)と呼んでいる。(これはぼくの好きな例えだ。)
AIが間違った方向へ誘導し、医師もつられて間違えてしまう。しかも、もっともらしい文章で書かれているから、疑う余地が少ない。論文ではこれを automation bias という言葉で整理している。AIが言ったから正しそうに見える、という認知のクセのことだ。
実際の臨床現場での感覚とも一致する。
研修医になりたての頃に、一つ上の先輩の言うことが全部正しく聞こえていた時期があった。あの頃の自分に、”その助言は本当か自分で調べないとダメだよ”と言ってあげたい。そんな、気持ちに近い。
日常のAI相談に、三つだけ取り入れるなら
論文の中身は、医療現場のAI活用についての話が中心だ。
ただ、そこで”効果があった”とされた考え方のいくつかは、医療者じゃなくても、日常のAI相談にそのまま応用できると思う。三つ挙げてみる。
1. そのまま聞かず、前提をきちんと伝える
論文で一番大きかった差は、「どれだけ背景情報を渡して聞いたか」だった。
たとえば「英語の勉強法を教えて」とだけ聞くと、教科書的な一般論しか返ってこない。でも、「40代、医療系の仕事、英語論文を月に数本読むけど話すのは苦手、平日は時間がない」と伝えれば、返ってくる答えはぐっと自分に合ったものに変わるのだ。
体のことを聞く時も同じだ。年齢、持病、飲んでいる薬、症状の経過。面倒でも最初に書くとそれだけで、返ってくる答えが変わる。
2. 一度で信じず、言葉を変えて2〜3回聞く
論文で最も精度が高かった”Self-Consistency”という方法は、要するに「同じことを複数回聞いて、答えが一致するか見る」というやり方だった。
これは日常でも真似できる。同じ問いを、少し言い回しを変えて2〜3回尋ねてみる。
答えが揺れなければ、それなりに信用できるサイン。逆に答えが揺れたら、それは”AI自身も確信を持てていないこと”だと思った方がいい。
あと、ぼくはAIの種類を変えて聞くこともする。GeminiとClaudeで同じ質問をするのだ。
こういう”角度を変えて聞く”という楽しみは、以前 Claudeに”ととのう”を聞いてみたら、なぜか哲学の話になった でも書いたことがある。同じ問いでも、切り口を変えると思わぬ方向から答えが返ってくることがあって、それ自体がおもしろい。
3. AIに、自分の答えを疑わせる
もう一つ、論文で重視されていたのが「AIに自分の答えをチェックさせる」というテクニックだった。
実際には、最後にこう一言足すだけでいい。
「今の回答が間違っている可能性は? どの部分が怪しいですか?」
すると、AIは急にトーンを落とす。断定していた部分を「これは別の可能性もあります」「ここは専門家に確認を」と言い直してくれる。これで、”もっともらしいけど実は根拠が薄い”という危ないケースを避けやすくなる。
最後に、少しだけ
この論文を読んで思ったのは、AIは問いかけ方で姿を変える、ということだった。だとしたら、ぼくらが身につけるべきは、答えを引き出す”問いかけ方”のほうなのだろう。
ありふれた言葉だけど、同じ道具でも助けにも、害にもなりうる。ハサミや包丁、自動車でもそうだ。AIも同じ。
冒頭で触れた、”架空の論文”を信じていた若い患者さんの話。
もしあの時、もう一歩だけAIに「その論文、本当にありますか?」と聞き返していたら、違う答えに辿り着いていたのかもしれない。ほんの一手間で、景色が変わる。
もちろん、今回の研究は中国の循環器チームのもので、対象は高血圧で、しかもシミュレーション症例の話。日本の日常にそのまま当てはまるわけではない。それでも、”AIの答えの質は、使う側で変わる”という感覚は、臨床の外でも同じように通じるだろう。
以前、「AIは優秀だ。でも、ベッドサイドに必要なのは人」という記事で、AIには届かない”ベッドサイドの直感”について書いたことがある。あの時は感覚としての話だったけれど、今回の論文を読んで、同じ場所に別の入り口から戻ってきた気がしている。
最後に、一つだけ。
AIは判断を助けてくれる。でも、大事なことを最後に決めるのは、AIでも、インターネットでもない。目の前のあなたを理解し、決断をするのは、あなた自身や家族、そして目の前の医師だ。そこはまだ、AIには代わることができない部分だと思っている。
この記事に関連する話
- AIは優秀だ。でも、ベッドサイドに必要なのは人
— AIの得意・不得意と、ベッドサイドでしか分からないことについて - Claudeに”ととのう”を聞いてみたら、なぜか哲学の話になった
— AIとの対話が予想外の方向に転がった話 - AIには再現できないものがある。うちにいたシェパード
— AIが届かない領域について
参考文献
Li, Z., Liu, H., Tan, W. et al. The effects of multitype prompt engineering for large language models in hypertension treatment decisions. npj Digit. Med. (2026). https://doi.org/10.1038/s41746-026-02645-y
※この記事は一般的な情報提供としての読書感想です。個別の症状や治療方針については、医療機関にご相談ください。




コメント