Hermes AgentをMacBook Proで実験してみた

投稿者
6月6日
読了時間: 9分

最近話題のHermes AgentをMacBook Pro M4で実験してみました。

実際に導入するには初期投資が必要なので敷居が高いですよね、

導入したいけど

どこまで動くの？
品質は？
応答速度はどうなの？

などが気になるところなのでその辺をメインに記事にしました。

Local LLMとClaude APIを実際に比較した導入備忘録としてシェアします。

■はじめに

最近、SNSでは「Hermes Agent + Ollama + QwenでAI社員が作れる」

「Local LLMならAPIトークン料金を抑えられる」といった話題をよく見かけます。

ただ、実際に業務で使う場合に重要なのは、単に「料金が安いか」だけではありません。

本当に大事なのは、

出力品質が実用レベルなのか
応答時間は許容できるのか
永続メモリは本当に使えるのか
AI社員として業務に使えるのか
そしてClaude APIと比べて何が違うのかという点です。

今回は、MacBook Pro M4、24GBメモリの環境にHermes Agentを導入し、Local LLMとしてQwen3 8BとQwen3 14Bを試しました。

さらに従量課金のClaude Sonnet APIにも切り替えて、Local LLMとの違いを比較しました。

■Hermes Agentについて

Hermes Agentは、Nous Researchが開発しているAIエージェント基盤です。

通常のチャットAIと違い、LLMとの会話だけでなく、永続メモリ、ファイル操作、ターミナル操作、ブラウザ操作、タスク計画、Cronによる定期実行、SlackやTeamsなどの外部連携、Skillsによる機能拡張などを利用できます。

つまり、Hermes Agentは「AIに質問するツール」というより、「AIに任せる業務フローを継続改善するための基盤」に近いものです。

今回の検証では、Hermes Agent v0.15.1を使用した実験レポートです。

■導入した構成概要

今回の構成は、MacBook Pro M4にOllama、Qwen3、Hermes Agentを導入する形です。

最初はOllama上でQwen3 8Bを動かし、その後Qwen3 14Bへ切り替えました。

さらにHermes Agentのモデル接続先をClaude Sonnet APIへ変更し、Local LLMとClaude APIの差を確認しています。

＜構成概要＞

MacBook Pro M4 / 24GB RAM

├─ Ollama

│ ├─ Qwen3 8B

│ └─ Qwen3 14B

│

└─ Hermes Agent

├─ Local LLM接続

├─ Claude Sonnet API接続

├─ Memory

├─ Browser

├─ Terminal

└─ Skills

構成イメージとしては、MacBook Pro M4の上にOllamaがあり、その上でAIの頭脳であるQwen3 8BまたはQwen3 14Bが動きます。

さらにHermes Agentがあり、そこからLocal LLM(Ollama＋Qwen)またはClaude Sonnet APIへ接続する形です。

導入手順と検証概要

大きな流れは以下です。

Ollamaを公式サイトから直接ダウンロード
Qwen3をOllamaコマンドで取得
Hermes AgentをGitHubから取得
setup-hermes.shでインストール
Hermes初期設定
Qwen3 8Bで起動確認
Qwen3 14Bへ切り替え
Claude Sonnet APIへ切り替え

１．Ollamaのインストール

当初、HomebrewでOllamaをインストールしようとしました。

brew install ollama

しかし、今回の環境ではHomebrew版のOllamaで「llama-server binary not found」というエラーが発生してインストールできなかった。そのため、Homebrew版ではなく、Ollama公式サイトからMac版を直接ダウンロードしてインストールしました。

Ollama公式サイトhttps://ollama.com/download/mac

公式サイトからダウンロードしたOllamaアプリをApplicationsフォルダへ移動し起動。

インストール後は、ターミナルで以下を実行して確認しました。

ollama --version

2. Qwen3をOllamaコマンドで取得

Ollamaが動作したら、AIの頭脳であるQwen3をダウンロードしました。

ollama run qwen3

このとき取得されたモデルは、qwen3:latestでした。

モデル情報を確認すると

8.2Bパラメータ（Bは10億の単位）
context length 40960
quantization Q4_K_M
サイズは5.2GBでした。

つまり、最初に動かしたのはQwen3 8Bの量子化（圧縮）モデルです。

通常のOllamaチャットでは非常に快適に動きました。簡単な質問への応答や文章生成は、MacBook Pro M4上でも問題なく動作しましたが文章出力品質が悪いと感じてしまう。

Qwen3 14Bの取得

Qwen3 8BではHermes Agent用途として少し不安定だったため、Qwen3 14Bも試しました。

ollama pull qwen3:14b

Qwen3 14Bへ切り替えることで、文章作成品質や指示理解は明らかに改善しました。

一方で、応答速度は8Bよりめっちゃ遅くなり待ち時間を許容できない。

３．Hermes AgentをGitHubから取得

Hermes AgentはGitHubから取得しました。

cd ~/projectsgit clone https://github.com/NousResearch/hermes-agent.git
cd hermes-agent

４．Hermes Agentのインストール

Hermes Agentは、公式リポジトリに含まれているセットアップスクリプトで簡単にインストールできます。

chmod +x setup-hermes.sh
./setup-hermes.sh

セットアップ後、source /Users/techult/.zshrc、hermes setup、hermes という案内が表示されました。

(1)初期セットアップ

Hermes初期セットアップでは、まずセットアップ方式としてFull setupを選択しました。

Quick Setupではなく、Local LLMやClaude APIを自分で設定したかったためです。

(2)Inference Provider

Inference Providerでは、最初はLocal LLMのQwenを使いたかったため、Custom endpointを選択しました。Qwen CloudやQwen OAuthではなく、Ollama上で動いているQwen3へ接続するためです。

Base URLは以下にしました。

http://127.0.0.1:11434/v1

Modelは以下です。

qwen3:latest

Hermes側では、Detected model: qwen3:latest と表示され、Ollama上のQwen3を認識できました。

(3)API compatibility mode

Auto-detectを選択しました。

Context lengthは最初は自動検出にしました。

ただし、Hermes Agent経由のプロンプト指示は64K以上のコンテキストを要求しエラーが発生したため後で設定ファイルを修正が必要です。

(4)Terminal backend

Keep current localを選択しました。MacBook上でそのまま動かすためです。

(5)Messaging platform

Telegram、Slack、Teamsなどの一覧が表示されましたが、初回は何も選ばずスキップしました。まずはHermes単体で起動確認するためです。

(6)CLI Tools

Web Search、Browser Automation、Terminal、File Operations、Code Execution、Vision、Text-to-Speech、Skills、Task Planning、Memory、Session Search、Clarifying Questions、Task Delegation、Cron Jobs、Cross-Platform Messaging、Computer Useなどがデフォルトで有効になっていたのでそのままGO

(7)Browser provider

Local Browserを選択しました。無料でローカルのChromiumを使う構成です。

(8)Image generation

Skipを選択しました。画像生成は今回の目的ではなかったためです。

(9)Text-to-Speech

Microsoft Edge TTSを選択しました。無料でAPIキー不要のためです。

Search ProviderはDuckDuckGo ddgsを選択しました。

無料でAPIキー不要の検索手段として選んでいます。

(10)Hermes起動確認

ターミナルからの起動コマンドは以下です。

hermes

起動後、Hermes Agent v0.15.1、qwen3:latest、21 tools、74 skillsという表示が出ました。この時点で、Hermes Agent自体の起動は成功。

Context lengthエラーと対応

最初にQwen3 8BでHermesを起動しプロンプト実行した際、以下のエラーが出ました。

Model qwen3:latest has a context window of 40,960 tokens, which is below the minimum 64,000 required by Hermes Agent.

HermesはAgent用途として64K以上のコンテキストを要求される。

そのため、~/.hermes/config.yamlを修正。

修正内容は以下2行です。

model:

default: qwen3:latest

provider: custom

base_url: http://127.0.0.1:11434/v1

context_length: 65536　←追加

ollama_num_ctx: 65536　←追加

この設定により、Hermes側では qwen3:latest 4.09K/65.5K のように表示されるようになり無事エラー解消、Hermes→qwen3経由でチャットが可能になりました。

■Local LLMで実施した所管

(1)Hermes Agent + Qwen3 8Bの動作について

Qwen3 8Bは、通常のOllamaチャットでは速度はそれなりに動きました。

簡単な会話や文章作成であれば、ローカルLLMとして使えます。

一方で、Hermes Agent経由では課題が出ました。Agent初期化に時間がかかること、Tool選択が不安定なこと、MemoryではなくWeb検索に行ってしまうこと、指示意図から外れた回答が出ることがありました。

本チャット内のログでは、8B単体のOllama会話は快適でしたが、Hermes上での初期応答では42秒、別の応答では1分17秒程度のログがありました。

文章案を作成依頼してもしっかりとして文章が出力されません。

そのため、Hermes Agent経由でQwen3 8Bを使う場合、実用上は数十秒単位の待ち時間が発生する場面があります。

(2)Hermes Agent + Qwen3 14Bの動作について

Qwen3 14Bへ切り替えると、文章作成品質は明確に改善しました。情報を与えて文章案を作らせたところ、情報を反映した出力が得られました。

一方で、応答速度に課題があり遅めでした。実測では、文章案の生成に50秒程度かかりました。

つまり、MacBook Pro M4 24GBでもQwen3 14Bは動きますが、Hermes Agent経由では数十秒かかる場面があります。

■Local LLMメリットとデメリット

(1)Local LLMのメリット

Local LLMのメリットは、単にAPIトークン料金が不要というだけではありません。

実際に使ってみると、最大の価値はデータを外部に出さないことだと感じました。

Local LLMはMacBook上で動作するため、社内情報や機密情報を外部APIに送らずに処理できます。

これは、社内資料の要約、採用情報の整理、顧客情報を含む文章の下書き、開発コードの分析、社内ナレッジ検索などで大きな意味があります。

また、API料金を気にせず試行錯誤できる点も大きなメリットです。文章案などを何度も生成する場合、Local LLMならコストを気にせず使えます。

さらに、Ollamaを使えば、Qwenだけでなく、Llama、Gemma、DeepSeekなど、複数のモデルを自由に切り替えられます。

(2)Local LLMのデメリット

一方で、実務で使うと課題も見えました。

まず応答が遅いことです。特にHermes Agentのように、Planning、Tool選択、Memory、File操作、Browser操作を組み合わせる場合、単純なチャットよりも時間がかかります。

また、小さいモデルはTool選択が弱いです。Qwen3 8Bでは、Memoryを読むべき場面でWeb検索に行ってしまうなど、Agentとしての判断が不安定でした。

さらに、文章作成品質はClaude APIに非常に劣ります。Qwen3 14Bはそれなりの品質でしたが、Claude Sonnet APIと比べると、会社情報を使った構成力、読み手に刺さる切り口、文章の自然さでは差があります。

■Hermes Agent + Claude APIとの比較

Claude Sonnet APIへ切り替えたところ、体感は大きく変わりました。

まず、応答速度がかなり速くなりました。Local LLMでは数十秒かかる場面がありましたが、Claude APIでは体感としてかなり速くなりました。

次に、Tool選択が大きく改善しました。Claude APIでは、Memoryを使うべき場面で適切にMemoryを参照でるし、文章作成品質も明確に違います。

単に文章が自然なだけではなく、誰に刺さるか、どの情報を前面に出すか、どの順序で伝えるか、読み手にどう見えるかまで含めて構成してくれます。

■比較まとめ

Qwen3 8Bは、軽量で導入しやすく、通常会話では快適に動きます。ただし、Hermes Agentと組み合わせたAI社員用途では、Tool選択やMemory活用の動作に大きな不安が残りました。

Qwen3 14Bは、文章作成品質がかなり改善され、広報担当等の下書き用途にはそれなりに使える印象でした。ただし、応答速度は数十秒単位になることがあります。

Claude Sonnet APIは、応答速度、Tool選択、Memory活用、文章作成品質のすべてで非常に安定していました。

自動化として使うなら、現時点では最も実用的だと感じました。

Hermes + Qwen3 32Bなど上位版を試したい

今回、Qwen3 14BまではMacBook Pro M4 24GBで動作しました。

次に試したいのは、Qwen3 32Bなどの上位モデルです。

32Bクラスになると、Tool選択精度、Memory参照精度、文章作成品質、指示理解、複雑な業務フローの実行などが改善する可能性があります。

一方で、MacBook Pro M4 24GBではメモリ的に厳しくなる可能性があります。Qwen3 32Bを本格的に使うなら、Mac mini M4 Pro 48GB、Mac mini M4 Pro 64GB、またはGPU搭載Linuxマシンのような環境が望ましいと感じます。

今後は、Qwen3 32Bなどの上位モデルを試し、Hermes + Qwen3 32BがClaude APIにどこまで近づけるか検証したいです。

■結論

今回の検証で分かったことは、Local LLMは「無料だからClaudeの代替になる」わけではないということです。

Local LLMには、API料金が不要、社内情報を外に出さない、何度でも試せるという大きな利点があります。

一方で、応答速度、Tool選択、Memory活用、文章作成品質では、Claude Sonnet APIの方が明確に優れていたことがわかります。

特にHermes AgentのようなAI社員用途では、モデルの賢さがそのまま業務品質に直結します。

現時点での結論として、機密情報を扱う下書きや試行錯誤にはHermes + Qwen3 14Bが向いていますが実用という面では不安が残る。

採用広報、社外向け文章、AI秘書にはHermes + Claude Sonnet APIが向いています。

将来検証したい本命は、Hermes + Qwen3 32B以上です。Tool選択や出力の品質、応答速度がどうなるかは試してみないと

Local LLMはChatGPT、ClaudeCodeの完全代替ではありません。しかし、社内でAIを作る上では、非常に強力な選択肢になります。

特にHermes Agentのようなエージェント基盤と組み合わせることで、記憶する、作業する、定期実行する、外部ツールを使うというローカルAIの土台を作れることが確認できました。

Hermes Agentは永続メモリを持ってskillを自動で改善していける仕組みを設計する方が重要だしチューニングに時間がかかるのでそんな観点も今後シェアできたらと思います。