blog

HRM-Text とは――1,500ドルで学習した階層型推論モデルの構造と意義

HRM-Text とは――1,500ドルで学習した階層型推論モデルの構造と意義

HRM-Text とは何か――概要と登場の背景

HRM-Text とは、AIスタートアップ「Sapient Intelligence」が2026年に発表した約10億(1B)パラメータの言語モデルである。名称中の「HRM」は Hierarchical Reasoning Model(階層型推論モデル) の略であり、人間の脳における二重の情報処理様式――素早い直感的処理と低速な熟慮的処理――から着想を得たアーキテクチャを採用している点が最大の特徴である。

大規模言語モデルの開発競争では、パラメータ数・学習トークン数・計算コストを積み増すことが支配的な戦略であった。GPT系やLlama系モデルが数兆トークンを消費して学習される中、HRM-Textはわずか約400億(40B)トークンでの学習を主張しており、VentureBeat(2026年)は従来モデル比で最大1,000分の1規模のデータ量と報じている。この主張が研究者・エンジニアの注目を集めた本質的な理由は、スケーリング則への問い直しという文脈にある。

モデルの重みおよび学習コードはオープンソースで公開されており、Hugging Face(sapientinc/HRM-Text-1B)およびGitHub(sapientinc/HRM-Text)から入手可能である。ライセンスはApache License 2.0であり、商用利用も許容される。

なお、本記事はTransformerや深層学習の基礎知識を持つ読者を想定している。深層学習の基礎については 深層学習の基礎と応用 を、自然言語処理の文脈でBERTなど主要モデルの構造を把握したい場合は BERTとは何か・NLPガイド を参照されたい。

HRM-Text アーキテクチャ概略

H(高次・低速)モジュール Transformer ブロック ■ 全体文脈・概念把握 ■ 戦略的・抽象的推論 ■ 低頻度更新・深い処理 (熟慮的思考に相当)

双方向 相互作用

L(低次・高速)モジュール Transformer ブロック ■ トークン単位の逐次処理 ■ 局所的・実行的処理 ■ 高頻度更新・浅い処理 (直感的処理に相当)

言語出力

図1. HRM-Text の二重時間スケールアーキテクチャ概略。高次・低速のH層と低次・高速のL層が双方向に相互作用し、言語出力を生成する。(Sapient Intelligence 公式発表および arXiv:2605.20613 をもとに作成)

HRM-Text のアーキテクチャ――二重時間スケール再帰構造の原理

HRM-Text の設計上の核心は、単一のTransformerスタックを単純に深く積み上げるのではなく、時間スケールが異なる2つのTransformerモジュールを階層的に組み合わせる点にある。arXiv論文(arXiv:2605.20613)では、この構造を次のように区別している。

  • H(高次・低速)モジュール:入力シーケンス全体の大局的な文脈を捉え、概念・戦略レベルの推論を担う。更新頻度が相対的に低く、深い処理に対応する。
  • L(低次・高速)モジュール:トークン単位の逐次処理を高速に実行し、局所的な言語パターンや実行的な処理を担う。更新頻度が高く、浅い処理に対応する。

この二層構造はカスケード状に相互作用する再帰型の設計であり、従来の自己回帰モデルとは処理の連鎖の仕方が本質的に異なる。元のHRMは数独や迷路などの非言語的推論タスク向けに開発されたものであり、HRM-Textはその設計思想を言語モデルへ拡張したものとされる(techno-edge.net、2026年5月)。

この構造は、神経科学・認知心理学における「二重過程理論」、すなわちシステム1(高速・直感)とシステム2(低速・論理)という区分と構造的に類似している。ただし、HRM-Textがこの理論的枠組みをどこまで厳密に実装しているかは、公開論文の記述範囲での評価に留めるべきである。

アーキテクチャの多様化という観点では、GANなど生成モデルの設計変遷とも比較しうる。GANの解説 と合わせて参照することで、生成系モデルの設計思想の変化が見えやすくなる。また、マルチモーダルAIにおける複数処理系の統合という視点では マルチモーダルAIの解説 も参考になる。

HRM-Text の学習コストとベンチマーク――数値の正確な読み方

HRM-Textが広く注目される最大の要因は、その学習コストの低さにある。ただし、報道と公式発表の間で数値に幅があることを最初に示しておく。

表1. HRM-Text の学習コスト:出典別比較(2026年)
項目 VentureBeat 報道値 Sapient 公式発表値
推定コスト 約1,500ドル 約1,000ドル(~$1K)
学習時間 約1.9日 おおよそ1日(roughly one day)
使用GPU 約16基のGPUクラスタ (同等の記載あり)
学習トークン数 約400億(40B)トークン
パラメータ数 約10億(1B)

出典:VentureBeat(2026年)および Sapient Intelligence 公式(sapient.inc/introducing-hrm-text/)。数値は出典により幅があるため、いずれも参考値として扱うこと。

ベンチマーク性能については、Sapient Intelligence の公式発表として以下の数値が確認できる(techno-edge.net、2026年5月28日)。

  • MMLU:60.7%
  • MATH:56.2%
  • DROP:82.2%
  • ARC-Challenge:81.9%
  • GSM8K:84.5%(VentureBeat 報道より)

これらの数値を評価する際の留意点は二つある。第一に、いずれも開発者自身による自己申告値であり、独立した第三者機関による再現検証が公表されているかどうかは、本稿執筆時点では確証が持てない。第二に、比較対象となる競合モデル(Qwen、Gemma、Llamaシリーズ等)との優劣の言及はSapient側の主張に基づくものであり、評価設定の細部が同一条件であるかどうかを読者自身が一次情報(arXiv:2605.20613)で確認することを推奨する。

機械学習の評価指標や学習の仕組みについては 機械学習の基礎 を、テキストデータの活用を検討している場合は テキストマイニングの基礎と応用 を参照されたい。

HRM-Text の意義と限界――研究者視点からの冷静な評価

HRM-Textが提示する問いは本質的に「スケーリング則は普遍的か」という命題に向けられている。Hoffmann et al.(2022)の”Chinchilla”論文に代表されるスケーリング則の研究では、最適な学習にはモデルパラメータ数に比例したトークン数が必要とされてきた。1Bパラメータモデルに対して40Bトークンという学習量は、Chinchillaの比率(パラメータ1つあたりおよそ20トークン)とほぼ合致する水準である。

したがって、HRM-Textの主張はスケーリング則そのものを覆したというよりは、効率的なアーキテクチャ設計によって既存の比率内で同等以上の推論性能を実現したという解釈が研究者の間では有力とみられる。この解釈の違いは、HRM-Textの成果を正確に位置づけるうえで重要である。

研究としての意義として評価できる点は以下の通りである。

  • 参入障壁の低下:大規模計算資源を持たない研究機関や個人開発者でも、基盤モデルの学習実験が現実的な選択肢となりうる。
  • アーキテクチャ設計の多様化への貢献:Transformerの単純なスケールアップ以外の方向性を実証した点で、基礎研究への示唆がある。
  • 完全オープンソース公開による再現性の担保:重みとコードのApache 2.0での公開は、コミュニティによる検証と研究加速を促す。

一方、率直に指摘すべき限界も存在する。

  • スケーラビリティの未検証:1Bパラメータでの結果が7B・70B規模でも再現されるかは現時点で不明であり、この点が最も重要な未解決問題である。
  • 自己申告ベンチマーク:独立した再現検証が揃うまで、数値の解釈には慎重さが求められる。
  • 学習データ詳細の不透明性:400Bトークンのデータ構成・品質フィルタリングの具体的な手順は公式発表だけでは確認が困難であり、独自再現実験の障壁となりうる。
  • 推論時コストの評価不足:学習コストの低さが注目されているが、二重モジュール構造が推論時の計算コスト・レイテンシにどう影響するかは別途検証を要する。

スパースモデリングとの設計思想の対比という観点では スパースモデリング も関連する視点を提供している。強化学習との接続可能性については 強化学習の解説 を参照されたい。

弊社クリスタルメソッドが開発するバーチャルヒューマン・AIアバターソリューション「DeepAI」は、実在の人物の容姿・表情・声・振る舞いをデジタル空間で再現し、接客・研修・面接練習・広報などの用途で活用されるソリューションである。HRM-Textのような軽量・低コスト言語モデルのアーキテクチャは、エッジデバイス上での自然言語処理を組み込む場面において今後参照価値のある研究方向として注視している。


まとめ――HRM-Text とは何を問い直したのか

HRM-Text とは、人間の脳の二重処理構造を模した階層型Transformerアーキテクチャにより、約40Bトークン・推定1,000〜1,500ドル相当の計算コストで1Bパラメータモデルをゼロから学習した、Sapient Intelligenceによる言語モデルである。その学習効率の主張は、基盤モデル開発における「大きく・多く・高コスト」という前提を実証的に問い直す試みとして位置づけられる。

研究として評価するならば、独立した再現検証と、より大規模なパラメータ規模へのスケーリング実験が次の試金石となる。Apache 2.0でのオープンソース公開という姿勢は再現性研究を促進するものであり、研究コミュニティへの貢献は実質的と評価できる。ただし、ベンチマーク数値の解釈と競合比較は、一次論文に当たったうえで慎重に行うことが研究者としての基本姿勢である。

AI・機械学習に関する詳細な動向・分析は 弊社ブログ にて随時更新している。HAL3など関連する最新モデル情報は HAL3最新情報 も参考にされたい。


参考文献

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • HRM-Text とは――1,500ドルで学習した階層型推論モデルの構造と意義

    HRM-Text とは――1,500ドルで学習した階層型推論モデルの構造と意義

    HRM-Text とは何か――概要と登場の背景 HRM-Text とは、AIスタートアップ「Sapient Intelligence」が2026年に発表した約1...

  • Meta社内AIトークンコスト数十億ドル問題——Claudeonomics騒動と企業ガバナンスの教訓

    Meta社内AIトークンコスト数十億ドル問題——Claudeonomics騒動と企業ガバナンスの教訓

    Meta「Claudeonomics」騒動の全貌——何が起き、なぜ転換したのか 2026年6月、The Information(記者:Jyoti Mann)によ...

  • AMD Ryzen AI HaloでローカルLLM・オンプレAI開発——日本企業への実務的示唆

    AMD Ryzen AI HaloでローカルLLM・オンプレAI開発——日本企業への実務的示唆

    AMD Ryzen AI Halo Developer Platformとは——ローカルLLM開発機の登場と背景 AMDは2026年5月、ローカルAI開発に特化...

View more