ローカルLLMで遊んでみた!

2025/07/05

 LLM(大規模言語モデル)をローカル環境で

Chat-GPTやGeminiといった多くの大規模言語モデルは、その本体がどこかのサーバーにあって、ユーザーは遠隔で質問をしている事になります。

すなわち、個人情報などの大事な情報は投稿すべきではありません。患者の情報なんて入力しようものなら、刑法で裁かれます。
また、あくまで「借り物」なので、使える量に制限があります。例えば「医師国家試験の情報をまとめるAIを作ろう」と思って、国試データを入力していると、途中で制限オーバーになるかもしれません。

では、自宅のPCでLLMを動かせば? それなら個人情報を入力しても問題ありませんが、多くのLLMは自宅にあるようなPCでは十分な性能を発揮しなかったので、結局のところLLMの便利さを100%活用できていませんでした。

しかーし! 技術の進歩と共に、自宅のPCで動かせるレベルの小規模な言語モデルでも、非常に高い性能を発揮するようになってきました。例えばGoogleが提供しているgemma3は非常に軽量かつ優秀です。

そこで今回、gemma3を使って遊んでみる事にしました!

国試を解いてもらおう

以下のようなプロンプトをgemma3:12bに投げかけてみました。なお、この問題の出展は「111D14」です。
あなたは優秀な医師かつ教師であり、豊富な医学の知識と問題文の分析能力を有しています。
以下は医師国家試験の問題です。各選択肢の正誤をステップ・バイ・ステップで考察して、 正しさを0%から100%で評価してください。
HTLV-1について正しいのはどれか。2つ選べ。
a レトロウイルスである。
b CD8陽性T細胞に感染する。
c 感染経路は母乳がほとんどである。
d 感染者は日本では東日本地域が多い。
e 感染から成人T細胞白血病の発症までの期間は5年以内である。
こんな感じで聞いてみると、以下のような答えが返ってきました。

これは間違った解答解説です。参考にしないようにしてください。

解答

## HTLV-1に関する問題の正誤評価:医師国家試験対策


この問題はHTLV-1(ヒトTリンパ球白血病ウイルス1型)に関する知識を問うものです。各選択肢について、医学的根拠に基づき、
正誤を評価します。

**前提知識**:HTLV-1は、成人T細胞白血病(ATL)や慢性T細胞増殖症候群(ATLL)を引き起こすレトロウイルスです。主に性行
為、母乳を通して感染し、感染後数年から数十年の潜伏期間を経てATLを発症することがあります。

### 各選択肢の評価


**a レトロウイルスである。**

  • * **評価:** 100% 正しい
  • * **根拠:** HTLV-1は、逆転写酵素を持つRNAウイルスであり、その定義上、レトロウイルスに分類されます。レトロウイルスの特徴であるRNAからDNAへの逆転写という過程を経て宿主細胞のゲノムに組み込まれます。
  • * **コメント:** これはHTLV-1の基本的な分類に関する問題であり、正しく理解していなければなりません。

**b CD8陽性T細胞に感染する。**

  • * **評価:** 20% 誤り
  • * **根拠:** HTLV-1は主にCD4陽性T細胞(ヘルパーT細胞)に感染します。一部の株ではCD8陽性T細胞への感染も報告されていますが、主要な宿主細胞はCD4陽性T細胞です。ATLの発症に関与するのはCD4陽性T細胞の異常増殖です。
  • * **コメント:** 感染細胞の種類に関する誤った情報です。

**c 感染経路は母乳がほとんどである。**

  • * **評価:** 40% 誤り
  • * **根拠:** 母乳を介した感染はHTLV-1の感染経路の一つですが、「ほとんど」であるとは言えません。主な感染経路は性行為です。また、血液製剤、移植、医療従事者による針刺しも感染経路となりえます。母乳感染は、特に低所得国や医療環境が整っていない地域で重要になります。
  • * **コメント:** 感染経路の相対的な重要性を誤った表現です。

**d 感染者は日本では東日本地域が多い。**

  • * **評価:** 80% 正しい
  • * **根拠:** 日本におけるHTLV-1感染者の割合は、地域によって大きく異なります。特に、青森県、秋田県、山形県、長崎県などで感染率が高い傾向にあります。これらの地域は東日本に属するため、この選択肢は概ね正しいと言えます。
  • * **コメント:** 地域差を考慮する必要があります。特定の地域で感染率が高いことは重要な情報です。

**e 感染から成人T細胞白血病の発症までの期間は5年以内である。**

  • * **評価:** 10% 誤り
  • * **根拠:** 成人T細胞白血病(ATL)の発症までの潜伏期間は、通常数年から数十年の範囲です。5年以内という期間は短いと考えられます。潜伏期間は、個人の遺伝的背景、ウイルス株、免疫状態など様々な要因に影響されます。
  • * **コメント:** ATLの発症までの期間に関する誤った情報です。

### 結論


この問題で正しい選択肢は **a** **d** です。

  • * **a レトロウイルスである。**
  • * **d 感染者は日本では東日本地域が多い。**

### 補足


医師国家試験では、知識だけでなく、問題文の正確な理解と論理的な思考力も重要です。選択肢の言葉遣いや表現を注意深く読み解き、最も適切な答えを選ぶように心がけましょう。  


AIが間違えたのは知識不足が原因?

さて「d 感染者は日本では東日本地域が多い。」を正しいと言ってますが、本当は西日本(九州)に多い病気です。よってこの選択肢は間違いであり、本当の正解はaとcです。

「流石に12GBのモデルじゃ知識不足だよな」と初めは思っていました。

しかし、他の選択肢の説明は概ね正しく、知識豊富に見えます。一部の知識が抜け落ちている……?

気になった私は、質問の仕方を変える事にしました。一度gemmaを再起動してから以下のような質問を行いました。

日本においてHTLV-1患者の分布に地域差はありますか? 地域差がない場合「全国で広く見られる」と答えてください。地域差がある場合「日本の中でも特に[地域名]で広くみられる」と答えてください。
解答は次のようになりました
日本の中でも特に南九州(鹿児島県、宮崎県、熊本県)で広くみられる

分かってるんじゃないか!! も、もしかして「東日本」って言葉を知らなかったとか……?
そこで次の質問です。

その地域は「東日本」ですか? もしそうなら「はい、それは東日本にあります」と答えてください。違う場合は「東日本ではなく[地域名]にあります」と答えてください。

 解答は次のようになりました

東日本ではなく、西日本(南九州)にあります。

分かってるんじゃないか!!


結論

ローカルLLMでも十分知識を持っている事が分かりました。
しかしながら、推論する力が弱い、あるいは知識と知識を結び付ける力が足りないと分かりました。