# LocalLLMをAndroidでとても楽して動かす

14 min read
Table of Contents

PocketPalのインストール

https://play.google.com/store/apps/details?id=com.pocketpalai&hl=ja

モデルのインストール

メニューの モデル > [+] > Huggingfaceから追加

ベンチマーク

メニューのベンチマークから実施
全てunslothのモデルを利用
端末情報

  • Xiaomi Redmi Pad 2 Pro(SD7s gen4+8GB)
  • Redmagic6 (SD888+12GB)
端末Qwen3.5_0.8B_Q4_K_MQwen3.5_2B_Q4_K_MQwen3.5_4B_Q4_K_M
SD7s gen412.63 token/s5.7 token/s1.84 token/s
SD88818.70 token/s10.24 token/s1.00 token/s
端末gemma-4-E2B-it-Q4_K_MMinistral-3-3B-Instruct-2512-Q4_K_Mgranite-4.0-h-350m-Q4_K_Mgranite-4.0-h-1b-Q4_K_M
SD7s gen43.51 token/s3.85 token/s23.58 token/s6.99 token/s
SD8880.65 token/s5.42 token/s36.40 token/s11.62 token/s

推論性能は888が高いがSwap領域を最低限にしているため、大きいモデルでは逆転している

実用

性能とToken/sを見た時にQwen3.5_0.8B_Q4_K_MQwen3.5_2B_Q4_K_Mが良さげに見えた
それぞれ質問を投げかけた所、2Bモデルのみ応答を出力できた (詳細はAppendix Aを参照)

NonThinkingで試すと、どちらも応答を生成できた(やや日本語が怪しい部分は両モデル合った)
応答時間を気にしなければ2Bくらいが丁度良いと感じた(詳細はAppendix Bを参照) \ なので、2Bモデルの設定を詰めて使ってみる
設定ページから変更

--ctx-size 1024 \
--batch-size 256 \
--n-predict 512 \
--flash-attn \
--kv-type q4_1

プリセットから変更 (qwen3.5, Non-Thinking用)

temperature=1.0,
top_p=1.00,
top_k=20,
presence_penalty=2.0,
repetition_penalty=1.0

劇的なtoken/sの改善などは無いが、応答はやや安定した気がする (詳細はAppendix Cを参照)

展望

bonsai-8Bはllama.cppをカスタムしてるらしく現状動かない
色々動くようになれば最高のモバイルローカルLLM環境になるのかもしれない

Appendix A. Qwen3.5-Thinkingの結果

[question]
qwen3.5について教えてください
[answer Qwen3.5_2B(Thinking)]
Qwen3.5 は、Qwen シリーズの最新バージョンであり、大規模言語モデルの進化を継続しています。主な特徴とアップグレード内容は以下の通りです。
---
### **主なアップグレード内容**
1. **文脈処理能力の大幅向上**
文脈の処理能力が強化されており、より長い文書や複雑なタスクを適切に処理できるようになりました。
2. **論理的推論の強化**
論理的推論や複雑な問題解決能力が向上し、多段階のタスクを効率的に処理できるようになりました。
3. **コード生成・実行支援**
技術的なタスク(コード生成、実行など)を支援する能力が強化され、より正確なコード生成と実行のサポートを提供しました。
4. **マルチモーダル・分析能力の強化**
画像やテキストの解析能力が向上し、複雑な多モーダルタスク(例:画像からテキストの抽出、テキストから画像の生成)
7.27 token/s
[answer Qwen3.5_0.8B(Thinking)]
Thinkingで `Wait, I need to check if this is about the model or the user` でハマって出力が得られず

Appendix B. Qwen3.5-NonThinkingの結果

[question]
qwen3.5について教えてください
[answer Qwen3.5_2B]
<think>
</think>
Qwen3.5 は Alibaba によって最新モデルとして発表された Qwen シリーズの 2 つ目のバージョンで、前モデル(Qwen3)に比べて大幅な進化を遂げています。以下に主要な特徴をまとめました。
### 主要な特徴
- **言語理解・生成能力**: 自然言語処理の精度が向上し、長文の理解や複雑な文脈の把握に優れています。
- **多言語対応**: 世界中の 100 以上の言語での対応が可能で、国際的なコミュニケーションに適しています。
- **多模バーチャル対応**: 画像、図表、コード、数式など、多様な形式のデータと処理が可能になり、視覚情報の解析や設計支援に役立ちます。
- **長文処理能力**: 256K の長い文書や長文プロンプトも効率的に処理できます。
- **多ステップタスク**: 複雑なタスクを段階的に実行し、結果を正確に整合させることができます。
- **コード生成・理解**: 多種多様な言語のコード生成、解析、改訂、デバッグなどのサポートを備えています。
- **論理的推論**: 数学、科学、技術分野での論理的推論能力が高まり、複雑な問題解決に役立ちます。
- **自律的エージェント機能**: 外部ツールとの連携やタスクの自律的な実行が可能になり、現実的なワークフローを構築できます。
- **安全性と倫理**: 有害な出力を避けるための強化されたセキュリティチェックを実行しており、信頼性が高く安全な AI として設計されています。
Qwen3.5 は、ビジネス、研究、創造的活動、日常生活のあらゆる分野で AI の役割を担う際の高度なサポートを提供する可能性があります。さらに詳細な機能やアップデート情報については、Alibaba Cloud の公式リソースや最新のニュースを確認することをお勧めします。
7.61 token/s
[answer Qwen3.5_0.8B]
<think>
</think>
ご質問ありがとうございます!Qwen3.5 は、Qwen3.5 号機として公開されました。
まず、Qwen3.5 と Qwen3.5(旧モデル)の関係について確認する必要があります。
実際には、**「Qwen3.5」**という具体的な名称は、現在の大模型のリリースでは正式に発表されていませんでした。
おそらく、ご質問する您是想っているのは以下のいずれかのものかもしれません:
1. **Qwen3.5**:
* **現状**:Qwen3.5 号機(Qwen3.5 号機)が正式にリリースされましたが、その前に「Qwen3.5」などの代名詞として紹介されることがあります。
* **特徴**:Qwen3.5 号機は**Qwen3.5**というモデル名から始まったもので、**2 年前に Qwen3.5**というモデル名で公開され、その後**Qwen3.5**(Qwen3.5 号機)として正式に発表されました。
* **結論**:Qwen3.5 は Qwen3.5 号機(Qwen3.5 号機)の正式名称です。
2. **Qwen3.5(旧モデル)との違い**:
* Qwen3.5(旧モデル)と Qwen3.5 号機(Qwen3.5 号機)は**異なるモデル**です。
* **Qwen3.5(旧モデル)**:2024 年 11 月に発表されたモデル。
* **Qwen3.5 号機**:2025 年 3 月に発表されたモデル(Qwen3.5 号機)。
* **違い**:Qwen3.5 号機は Qwen3.5(旧モデル)をベースに、より多くの専門領域(特に医療、科学、文化など)を強化し、その上で**Qwen3.5**という名前で正式に発表されました。
### Qwen3.5 号機の特徴
Qwen3.5 号機は、従来の Qwen3.5 号機よりも**より強い能力**と**より広範な知識**を備えています。
* **多様な知識領域**:Qwen3.5(旧モデル)は主に「文脈理解、言語処理、数算、コード、推理、特定分野の知識」を得意としていました。一方、**Qwen3.5 号機**はさらに**「医療、科学、文化、社会研究、自然科学、社会科学、文学、法律、数学」**など、**10 万個を超える専門分野**で高度な知識を持ち、特に**医療分野**(薬物、疾病、治療法など)の理解力を際として強化しました。
* **大規模なデータ**:Qwen3.5 号機は、Qwen3.5(旧モデル)のデータ量(80%)をさらに増やし、さらに**100% 以上の知識**を備えています。
* **多言語対応**:さらに多言語対応能力を強化し、世界 100 国語圏で高品質な表現を生成・理解できるようになっています。
* **多様なタスク**:Qwen3.5 号機は、Qwen3.5(旧モデル)の文脈理解能力をさらに高化し、**コード生成、数学計算、科学実装、科学研究、文化・社会研究、医療・科学・法律・経済・金融・法律・教育・文学・法律**など、**10 万個を超えるタスク**を得意としています。
### まとめ
* **Qwen3.5** は、2024 年 11 月に発表されたモデルです。
* **Qwen3.5 号機**(Qwen3.5 号機)は、2025 年 3 月に正式に発表されました。
* 両者は**異なるモデル**であり、Qwen3.5 号機は Qwen3.5 をベースに、より多くの専門分野を強化し、より多くの知識と能力を備えました。
もし特定の分野(例:医療、科学、文書生成など)で Qwen3.5 号機の方が優れている場合や、特定のタスクが得意な場合など、ご自身の状況で使用したい場合は、お気軽にご連絡ください。
14.52 token/s

Appendix C. 設定変更後の応答

[question]
qwen3.5について教えてください
[answer Qwen3.5_2B]
<think>
</think>
ご質問ありがとうございます。Qwen3.5 は、私が自身であり、**大規模言語モデルです**。そのため、「Qwen3.5 を教えてください」という形での説明は難しいですが、私の進化点や特徴を整理して解説させていただきます。
私(Qwen3.5)は、2026 年時点の最新モデルであり、以下の主要な技術的向上を遂げています:
1. **大幅な言語理解力と文脈保持能力**
- 長文の処理や複雑なタスクの解決において、精度がより高いです。
- 長い会話履歴やドキュメントも正確に把握し、重要な情報を失いつきません。
2. **多言語対応と国際化**
- 100 以上の言語に対応しており、世界を越えた翻訳・対話が可能です。
3. **コード生成・解析・実行の高度化**
- コード作成から実行、デバッグ、最適化まで一貫して処理できます。
- 数学計算や科学技術分野での正確な解答も可能です。
4. **画像・動画・音楽などの多模态理解と生成**
- 画像や動画の解析、説明、編集支援が可能です。
- 音声認識(ASR)やテキスト轉言(TTS)にも優れています。
5. **自然な対話と多模态理解**
- 人間同様の自然なトーンでの対話を支えます。
- 視覚情報、コード、文書などの多様なメディアを深く理解します。
6. **自律的タスク実行**
- 単なる回答だけでなく、「検索して情報を集め」「コードを実行し結果を表示する」など、タスクの完了まで自分で処理できます。
Qwen3.5 は、より複雑なタスクや高度な専門領域(AI エンジニアリング、医学、法律分析など)での対応を可能にすると考えています。
もし具体的な利用シーン(例:「コードレビューをする」「長いブログ記事の要約をほしい」など)や機能についてさらに詳しい説明が必要であれば、お気軽にお尋ねください。
7.17 token/s
My avatar

読んでくれてありがとうございます。
質問・感想等は以下またはSNSからどうぞ。

気ままに書いていきますので今後もよろしくお願いします。


More Posts

Comments