arXiv雑要約

AI - 2026/05/19 公開

LLMForge：エッジ向け言語モデルのための無限ヘッド注意機構を用いたハードウェアを意識したニューラルアーキテクチャ探索 [cs.CL, cs.LG, cs.AI]目的：エッジデバイスにおける言語モデルの効率的な推論のためのニューラルアーキテクチャ
- エッジデバイスでのプライバシー保護，低遅延，低コストな推論が求められている。
- メモリ帯域幅，消費電力，熱設計などの制約から，アーキテクチャ選択が重要となっている。
- ハードウェア特性を考慮したニューラルアーキテクチャ探索フレームワークを開発し，効率的な推論を実現する。
- LLMForgeは，ハードウェアのボトルネックを考慮したNASフレームワークであり，様々なハードウェア環境に適応可能である。
- Infinite-Head Attention (IHA)により，探索空間が大幅に拡大され，より効率的なアーキテクチャを発見できる。
- 提案手法は，GPU，シストリックアクセラレータ，リングデータフローエッジアクセラレータなど，複数のハードウェア基板で優れた性能を発揮した。
Link: https://arxiv.org/abs/2605.17653
ゼロショット攻撃に騙される場合：活性化ベクトル操作による年齢推定の改善 [cs.CY, cs.SI, cs.HC, cs.DL, cs.DB, cs.LG]目的：年齢推定の精度向上
- オンラインにおける未成年者保護のため，年齢確認の自動化が重要となっている。
- 既存の年齢推定手法は，人物の識別をショートカットとして利用し，誤った推定を行う場合がある。
- 人物識別によるショートカットを抑制し，より正確な年齢推定を目指す。
- 視覚言語モデル（VLM）の隠れ状態に介入する活性化ベクトル操作により，年齢推定の精度が向上した。
- 有名人だけでなく，未知の人物に対しても有効であり，平均絶対誤差を最大25%削減できた。
- 一般的なベンチマークにおいて，ノイズや敵対的摂動に対するロバスト性も改善された。
Link: https://arxiv.org/abs/2605.17658
バグか特徴か$^2$: 重みのドリフト，活性化のスパース性，およびスパイク [cs.LG]目的：現代のニューラルアーキテクチャにおける訓練ダイナミクスのメカニズム解明
- 深層学習モデルの性能向上には，アーキテクチャ設計が不可欠であり，その理解が重要である。
- 標準的な損失関数と正にバイアスされた活性化関数の相互作用による重みの負方向へのドリフトが問題である。
- この重みドリフトと活性化スパース性の関係を明らかにし，より安定した学習方法を提案する。
- 標準的な損失関数と活性化関数の組み合わせにより，初期化時に重みが負の値に傾きやすいことが示された。
- ReLUと組み合わせると，GPT-nanoにおいて最大90%に達する活性化スパース性が発生し，精度低下の限界が明らかになった。
- ReLU$^2$のクリッピングにより，活性化スパイクの増幅を抑制しつつ，GPT-nanoにおいて検証損失を最小化できた。
Link: https://arxiv.org/abs/2605.17659
言語と視覚モデルによる文化遺産知識グラフの拡張 [cs.AI]目的：文化遺産分野の知識グラフ資源の拡張
- 文化遺産の保存と解釈において，デジタル技術の重要性が高まっている。知識グラフは，その構造化能力から活用が期待される。
- 文化遺産情報の多様性と複雑さから，知識グラフの構築・拡張は困難を伴う。
- 大規模言語モデルと視覚言語モデルを活用し，文化遺産知識グラフの拡張を効率化し，信頼性を向上させる。
- フランス文化遺産の知識グラフWJocondeを構築し，テキストと画像の情報を統合した多次元性を実現した。
- WJocondeの派生データセットと，知識グラフ補完のためのベンチマークを公開し，後続研究を促進する。
- 言語モデルと視覚言語モデルを組み合わせた新しいフレームワークにより，知識グラフの拡張が可能となり，高い信頼性を示した。
Link: https://arxiv.org/abs/2605.17669
PEIRA：インタービュー回帰子アラインメントによる予測エンコーダの学習 [cs.LG, cs.AI]目的：予測表現学習のための自己教師あり学習手法
- 画像認識などの分野において，ラベルなしデータからの特徴抽出が重要である。
- 既存の自己教師あり学習手法は，明確な目的関数を持たない場合が多く，理論的理解が不十分である。
- 線形回帰子を用いた安定性の解析に基づき，明確な目的関数を持つPEIRAを提案し，学習の安定性を高める。
- PEIRAは，非コントラスト学習による自己教師あり学習手法であり，最適線形回帰子のトレースを目的関数とする。
- PEIRAの安定な均衡点は，主要な非線形正準相関部分空間と一致し，正則化によって効果的な次元を選択する。
- ImageNet-1KとCIFAR-10での実験により，PEIRAはVICRegやLeJEPAと同等の性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.17671
PULSE：受動的センシングによる能動的介入のためのエージェントによる調査 [cs.CY, cs.HC, cs.AI]目的：癌治療経験者の精神的健康サポートの最適なタイミングの特定
- 癌治療経験者は，うつ病や不安障害のリスクが高く，継続的なケアが重要である。
- 自己申告によるデータ収集では，必要なサポートのタイミングを捉えきれないという課題がある。
- スマートフォンセンシングデータを活用し，より適切なタイミングで精神的サポートを提供すること。
- PULSEは，従来の固定的な特徴量抽出パイプラインではなく，LLMエージェントによる能動的な調査アプローチを採用した。
- エージェントは，センシングデータと個人のベースラインを比較し，集団レベルの比較を通じて推論を調整することで，感情調整の必要性を0.743の精度で予測した。
- 受動的センシングデータのみを用いても，介入の可用性を0.713の精度で予測でき，臨床応用の可能性を示唆した。
Link: https://arxiv.org/abs/2605.17679
EGI：スクラムマスターのリアルタイムな自己認識を向上させるためのマルチモーダル感情AIフレームワーク [cs.AR, cs.AI, cs.SE]目的：スクラムマスターのリアルタイムな自己認識向上
- アジャイルチームの感情的幸福度は重要であり，チームダイナミクスへの影響が大きいスクラムマスターへの注目が不可欠である。
- スクラムマスターの感情モニタリング研究は不足しており，チームの状況を的確に把握する手段が限られている。
- スクラムマスターの無意識に表出する感情をモニタリングし，よりポジティブで効果的なチームインタラクションを促進すること。
- 本システムは，シミュレーションされた会議環境において10%のWER(単語誤り率)を達成した。
- リアルタイムフィードバックにより，シミュレーションされたアジャイル会議中の感情認識が有意に向上した。
- スクラムマスターは，本システムを通じて，ネガティブな感情の表現を迅速に特定し，抑制するための実践的な提案を得ることができる。
Link: https://arxiv.org/abs/2605.17684
注意誘導による1Dと2D CNNの融合：堅牢な心電図ベースの生体認証 [cs.CV, cs.AI, cs.CR, cs.SY, eess.SP, eess.SY]目的：心電図に基づく生体認証の精度向上
- 生体認証は，セキュリティと利便性の両立に不可欠であり，様々な分野で活用が期待されている。
- 既存手法は，時間的特徴と周波数的特徴を別々に処理するため，その潜在能力を十分に引き出せていない。
- 時間的・周波数的特徴を効果的に融合し，より堅牢で汎用性の高い生体認証システムの構築を目指す。
- 提案手法は，ECG-ID，MIT-BIH，PTBの各ベンチマークデータセットにおいて，それぞれ99.56%，100.00%，99.89%の識別精度を達成した。
- 10年間にわたるHeartprintデータセットを用いた実験では，セッション内精度が94.93%～99.09%と高い結果を示し，時間的な安定性も確認された。
- InceptionTimeとResNet-34を組み合わせた構成と，注意機構に基づく融合が最適な性能を発揮することが示された。
Link: https://arxiv.org/abs/2605.17685
LLMの権威性検証：多重ラベル判例扱い分類のベンチマーク [cs.CL, cs.AI]目的：法的判例における否定的な扱い分類の精度評価
- 法解釈の自動化は重要であり，誤分類は重大なリスクを伴う。
- 従来の精度評価では，誤分類の重大さを十分に捉えられない。
- 誤分類のリスクを考慮した，より実用的な評価指標を提案する。
- Gemini 2.5 Flashは高レベル分類で高い精度(79.1%)を示した。
- GPT-5-miniは，より複雑な詳細な分類スキームで最高のパフォーマンス(67.7%)を発揮した。
- 新たな評価指標とデータセットは，複雑な法的推論タスクの基準となる。
Link: https://arxiv.org/abs/2605.17691
完全陽性リフティングによる線形ニューラルネットワークの厳密な凸再構成 [cs.LG, math.OC]目的：深層線形ニューラルネットワークの学習問題の厳密な凸再構成
- 機械学習の分野において，ニューラルネットワークの性能向上は重要な課題である。
- 線形ニューラルネットワークの学習問題は非凸であり，最適解を見つけることが困難である。
- 非凸性を保ちつつ，学習問題を凸最適化問題として定式化することを試みる。
- 深層線形ニューラルネットワークの学習問題を，一般化された完全陽性円錐上のリフテッド空間で厳密に凸再構成できることが示された。
- 再構成は元の非凸問題と同等の最適値を持つ。また，リフテッド変数に関して線形であり，非凸性は円錐制約にエンコードされる。
- 本手法は，線形因子分解による非凸性を表現する正確な円錐表現を与えるとともに，線形ニューラルネットワークの学習とコポジティブプログラミングを結びつける。
Link: https://arxiv.org/abs/2605.17692
ポケット認識拡散モデルのノイズ除去方策最適化による微調整 [cs.LG, cs.AI]目的：構造ベースの創薬における分子最適化手法
- 構造ベース創薬は加速しているが，実用的な薬剤開発には複数の特性を満たす必要がある。
- 既存手法は学習分布に偏りがちで，複数の特性を同時に最適化することが困難である。
- ポケット認識拡散モデルを強化学習で微調整し，複数の特性を同時に最適化することを目指す。
- 提案手法DEPPAは，結合親和性，薬物様性質，合成可能性，多様性を同時に最適化できる。
- CrossDocked2020ベンチマークにおいて，結合親和性（Vina Score -8.5 kcal/mol）において既存手法を上回った。
- 薬物様性質と多様性も向上し，合成可能性においても同等の性能を示した。
Link: https://arxiv.org/abs/2605.17693
エージェントバザール：マルチエージェント市場における経済的整合性の確立 [cs.CL, cs.CY, cs.LG, cs.MA]目的：マルチエージェント市場における経済的整合性の評価
- LLMを経済主体として活用する場面が増加しており，市場への影響を評価する必要がある。
- 複数のエージェント間の相互作用が市場の不安定性や欺瞞行為を増幅させる可能性がある。
- 市場の安定性と信頼性を維持できるエージェントシステムの構築を目指す。
- シミュレーションにより，B2C市場での価格変動増幅と，C2C市場での詐欺行為による信頼低下という2つの問題点が明らかになった。
- 最先端モデルおよびオープンウェイトモデルは，自己規制に失敗し，モデルの規模よりも性能差が顕著であった。
- 経済的整合性を重視した学習手法により，9Bモデルが既存モデルを上回り，経済的整合性は汎用的な能力とは独立に向上することが示された。
Link: https://arxiv.org/abs/2605.17698
玩具的組合的解釈可能性モデルが初期特徴空間における宝くじチケットを明らかにする [cs.LG]目的：宝くじチケットが保存する内部構造の解明
- 深層学習モデルのスパース化は，計算コスト削減や過学習抑制に有効である。
- 既存研究では，宝くじチケットがどのようなメカニズムで性能を維持するのか不明である。
- 初期特徴空間における宝くじチケットの構造と，その形成過程の解明を目指す。
- 宝くじチケットは，最終的な特徴チャネルコードに初期化時点で近い，特徴空間における前駆的な位置に対応する。
- 勾配降下法は，これらの位置を構造的に選択し，最終コードへの収束または排除を行う。
- 疎な再学習は，同じ節/テンプレート系列を異なる行で再表現するため，保存されるのは行レベルの同一性よりも系列レベルである。
Link: https://arxiv.org/abs/2605.17704
経験グラフによる自己進化型エージェント [cs.AR, cs.AI]目的：経験グラフを用いた自己進化型エージェントの枠組み
- 大規模言語モデルを用いたエージェントは複雑な推論が可能だが，実用上は学習能力が課題となっている。
- 既存の自己進化型エージェントは，経験の記録が断片的であったり，活用が遅れたりする問題がある。
- 蓄積された成功と失敗を構造化し，エージェントの汎化性能と効率を向上させることを目指す。
- EXGは，経験をグラフ構造で組織化することで，エージェントがリアルタイムで経験を再利用することを可能にする。
- オフラインでの経験グラフの再利用により，外部メモリとしての活用も実現している。
- コード生成や推論のベンチマークにおいて，既存手法と比較して性能と効率のバランスが良いことを示した。
Link: https://arxiv.org/abs/2605.17721
パンデミックに強い胸部X線分析のためのドメイン増分学習 [cs.CV, cs.AI, cs.LG]目的：パンデミック時の胸部X線分析におけるドメイン適応性向上
- 医療現場での画像診断の精度向上は，患者の早期発見と適切な治療に不可欠である。
- 医療機関や撮影条件の違いから，深層学習モデルの汎化性能が制限される場合がある。
- ドメイン間の知識の継続的な学習を通じて，忘却を抑制し，頑健性を高めることを目指す。
- 提案手法は，PneumoniaMNISTデータセットにおいて，既存手法を上回る平均精度88.66%を達成した。
- 特に，ドメインシフトの影響を受けやすい環境下で，安定した肺炎検出性能を示すことが確認された。
- 本研究は，異なる臨床環境におけるロバストな肺炎検出の実現に貢献する。
Link: https://arxiv.org/abs/2605.17729
L-Drive：単一のマッピングを超えて - 潜在的コンテキストが時系列予測を駆動する [cs.LG, cs.AI]目的：多変量時系列予測における変化適応性の向上
- 時系列予測は，経済，金融，科学など，多くの分野で不可欠である。
- 従来の予測手法は分布シフトやレジーム変化に弱く，予測精度が低下しやすい。
- 変化を考慮した予測フレームワークを開発し，予測の信頼性を高める。
- L-Driveは，高レベルな動的変化を捉える潜在的コンテキストを導入し，変化への対応力を強化する。
- ゲート機構により，変化の兆候を迅速に検出し，セグメント間の適応を改善する。
- パッチ共有相対位置符号基底関数を用いることで，セグメント内構造モデリングを強化し，過学習を抑制する。
Link: https://arxiv.org/abs/2605.17730
修正フローにおける発散抑制結合 [cs.AI, cs.LG]目的：修正フローにおける経路の歪みを抑制する結合の提案
- 自己生成的な結合を生成し，直線的な軌跡を得ることを目指す修正フローの可能性
- 学習された速度場中の発散領域が，軌跡を歪ませ，理想的な終点から粒子を逸らす問題
- 学習された速度場の発散成分を減衰させ，経路の歪みを抑制すること
- 提案手法は，学習された速度場の発散成分を抑制することで，結合生成時の経路の歪みを軽減する。
- この修正は，結合ペアごとに一度だけ実行され，訓練中に償却されるため，実行時の計算コストは標準的な修正フローと同等である。
- 2D合成ベンチマークと画像生成において，本手法は一貫した改善を示す。
Link: https://arxiv.org/abs/2605.17733
LLMエージェントにおけるスキルプログラムの活用 [cs.AI]目的：LLMエージェントの能力向上
- 複雑なタスク解決において，LLMエージェントの活用が注目されている。
- 過去の経験を活かしたスキルの指示が，実行メカニズムの欠如により十分機能していない。
- 実行可能なプログラム関数としてスキルを実装し，介入のタイミングと方法を明確にすること。
- HASPは，スキルをプログラム関数に変換することで，エージェントループへの介入を可能にする。
- 推論時の介入のみで，ReAct Agentと比較してウェブ検索の性能が25%向上した。
- 後学習や進化戦略との組み合わせにより，Search-R1を30.4%上回る性能が確認された。
Link: https://arxiv.org/abs/2605.17734
実験のためのエージェント，エージェントのための実験：AIを活用した実験科学のためのデザイン文法 [cs.AI, cs.HC]目的：AIを活用した実験科学におけるデザイン文法の提案
- AIは組織や知識労働に積極的に関わるようになり，その影響理解は重要である。
- 実験条件が自然言語で記述されるため，比較，再利用，監査が困難である。
- 実験条件を構造的に表現し，設計支援を行うフレームワークを開発する。
- SEEDは実験条件をアクターフローグラフとして表現する。
- SEEDを用いることで，実験設計の構造的な新規性やガバナンスチェックが明確になる。
- 医療トリアージ設計タスクにおいて，SEEDによる設計支援の有効性が示された。
Link: https://arxiv.org/abs/2605.17746
完全スワップリグレットに対する検証可能かつ実行可能な較正 [cs.LG, stat.ML]目的：AI予測の信頼性向上のための較正指標の提案
- AI予測が重要な意思決定に利用される機会が増加しており，信頼性は不可欠である。
- 既存の較正指標は，実行可能性または検証可能性の点で課題があり，完全な指標は存在しない。
- 実行可能性と検証可能性の両方を満たす新しい較正指標を開発し，より実用的なAIシステムを実現する。
- 提案手法であるSCDLは，既存の指標が弱めるスワップリグレットの制約を弱めることなく，完全な実行可能性を保証する。
- SCDLは，ほぼ最適なエラー率で検証可能であり，継続性や整合性といった他の望ましい特性も備えている。
- 実験結果は，SCDLが他の指標と比較して優れた性能を発揮することを示しており，理論上の利点が実際に有効であることを確認した。
Link: https://arxiv.org/abs/2605.17749
バージョンギャップの架橋：マルチバージョン学習がICDコード予測を改善する，特に稀少コードにおいて [cs.CL, cs.AI]目的：ICDコード予測の改善
- 臨床記録の標準化された医療コードへのマッピングは不可欠であり，自動化による効率化が求められている。
- ICDシステムは継続的に進化し，バージョン間の整合性と稀少コードの予測精度が課題である。
- 異なるICDバージョンのデータを統合することで，バージョン非依存モデルの実現を目指す。
- ICD-9データをICD-10予測モデルの学習に加えることで，18,000件の稀少コードにおいてmicro F1スコアが27%向上した。
- 8,000件の頻出ICD-10コードにおいても，マルチバージョン学習はmacro指標を大幅に改善し，モデルパラメータ数を削減した。
Link: https://arxiv.org/abs/2605.17755
OSCAR: 2ビットKVキャッシュ量子化のためのオフラインスペクトル共分散対応回転 [cs.LG, cs.AI, cs.DC, cs.PF]目的：2ビットKVキャッシュ量子化における精度と実用性の両立
- 長文脈LLMの効率的な推論には，メモリ使用量の削減が不可欠である。
- INT2量子化はメモリ削減に有効だが，精度低下が課題である。
- 注意機構の共分散構造を考慮した回転変換で精度劣化を抑制する。
- OSCARは，オフラインで注意機構の共分散構造を推定し，量子化のための固定回転とクリッピング閾値を導出する。
- Qwen3-4B-Thinking-2507およびQwen3-8Bにおいて，BF16との精度差をそれぞれ3.78点と1.42点に縮小した。
- KVキャッシュメモリを約8分の1に削減し，大規模バッチサイズでのスループットを最大7倍に向上させた。
Link: https://arxiv.org/abs/2605.17757
メンシス：表形式の医療データセットに対する合成データの調整と評価 [cs.LG]目的：表形式医療データセットの合成データ生成・評価に関する統合ワークフロー
- 医療分野におけるデータ活用は重要だが，個人情報保護が課題となる。
- 合成データの品質（プライバシー，有用性，公平性）評価が困難である。
- 既存ツールを活用し，合成データ生成目標に基づいた柔軟なワークフローを実現する。
- メンシスは，既存の合成データツール，大規模言語モデル，最先端の評価指標を活用する。
- 統合ワークフローにより，データ生成，検証，評価を効率的に行うことができる。
- CTGAN，TVAE，GaussianCopulaは，公平性と有用性の指標において同程度の性能を示した。
Link: https://arxiv.org/abs/2605.17758
MV-Gate：多視点行動統計と意味モデルによる内部不正検知 [cs.SI, cs.LG]目的：内部不正の検知
- 情報システムのセキュリティ確保は重要であり，内部不正は大きな脅威となる。
- 既存手法は統計的特徴が弱まり，微細な内部不正行為を見逃しやすい。
- 統計的規則性と系列意味論を統合し，内部不正検知の精度向上を目指す。
- MV-Gateは，活動トークン，再発パターン，頻度偏差の3つの行動系列を構築する。
- 異常を意識したゲーティング機構により，統計的に異常なイベントに注意を向ける。
- CERT r4.2，r5.2，ADFA-LDの実験で，既存手法を上回り，特に緩やかな脅威に対して有効性が示された。
Link: https://arxiv.org/abs/2605.17761
表面形ニューラルスパース検索：産業用音楽検索のためのロバストなあいまい一致 [cs.AI]目的：産業用音楽検索におけるロバストなあいまい一致を実現するニューラルスパース検索システムの開発
- 音楽検索は，大量の楽曲データに対応する必要があり，効率的な検索技術が不可欠である。
- 従来のn-gramマッチングでは，意味的な頑健性が低くノイズが多いため，検索精度が制限される。
- クエリと楽曲メタデータのずれに対するロバスト性を向上させ，検索効率を高めることを目指す。
- 提案手法は，最新の推論不要なスパース検索アーキテクチャを音楽ドメインに適用し，表面形の頑健性を学習する。
- 600万件の楽曲データを用いた実験により，recall@10が91.4%と，トリグラムの57.7%を大幅に上回る結果が得られた。
- シミュレーションにより，HCIフィードバックループにおける探索効率の向上，および安定したrecallの改善が確認された。
Link: https://arxiv.org/abs/2605.17762
AURORA：医療分野の基盤モデルにおける幾何学的表現学習のための文脈的直交化 [cs.LG]目的：医療分野の基盤モデルにおける表現学習の枠組み
- 医療分野でのデータ活用は，疾患の早期発見や治療効果の向上に不可欠であり，そのための高性能なモデルが求められている。
- 既存モデルの潜在表現は，複数の要因が混在しており，解釈性や文脈変化への安定性に課題がある。
- 文脈的直交化によって潜在空間を構造化し，解釈性と安定性を向上させることを目指す。
- AURORAは，文脈的要因に対応する直交する潜在空間を構築することで，表現の分離化と幾何学的な解釈可能性を実現した。
- 複数の臨床予測および検索タスクにおいて，既存手法と比較して，AURORAは性能向上と文脈的分離化の改善を示した。
- 本研究は，医療分野の基盤モデル設計において，潜在空間の幾何学的な構造化が重要であることを示唆する。
Link: https://arxiv.org/abs/2605.17765
エントロピー勾配反転：大規模推論モデルの内部メカニズムへ向けて [cs.AI, cs.CL]目的：大規模推論モデルの内部メカニズムの解明
- 大規模言語モデルの進歩は，複雑な課題解決に不可欠である
- トークンレベルの分析と内部推論メカニズムの乖離が課題である
- 強化学習における不安定性と外部検証コストの低減を目指す
- エントロピー勾配反転は，大規模推論モデルの推論能力を示す幾何学的特徴量として定義された
- 提案手法CorR-POは，この反転シグネチャを強化学習の報酬正則化に組み込んだ
- 様々なベンチマークにおいて，CorR-POは既存手法を上回り，反転の強さと推論性能の相関が確認された
Link: https://arxiv.org/abs/2605.17770
大規模LLMによる臨床記録の言い換え品質の体系的評価 [cs.CL, cs.CL, cs.AI]目的：大規模言語モデル(LLM)によって言い換えられた臨床記録の品質評価
- 臨床テキスト分析の高度化には，高品質なデータが不可欠であり，LLMによる臨床記録の生成はその解決策となりうる。
- LLMによる臨床記録の生成は，類似性や有用性のみが評価されることが多く，多角的な評価が不足している。
- LLMが生成する臨床記録が，臨床情報の保持，予測性能，事実関係においてどの程度の品質を保っているかを明らかにする。
- LLMによって生成された臨床記録は，大幅な言語的変化にもかかわらず，主要な臨床情報を保持し，粗粒度のタスクにおける予測能力を維持する。
- しかし，ICDコーディングのような細粒度のタスクでは詳細が失われる傾向があり，その損失はチャンクごとの言い換えで軽減されるが，文脈不足による事実関係の正確性が低下する。
- エラー分析の結果，合成エラーは臨床的文脈の誤解釈，時間的混乱，測定エラー，虚偽の主張に起因することが示された。また，生成された記録は特定のタスクに特化していなくても，稀なICDコードの学習を効果的に支援する。
Link: https://arxiv.org/abs/2605.17775
生成レコメンデーションのための可変長トークン化学習 [cs.LG]目的：生成レコメンデーションにおける可変長トークン化の学習
- レコメンデーションは，ユーザー体験を向上させる上で不可欠であり，その精度向上は重要な課題である。
- 既存手法では，全てのアイテムに対して固定長のトークン化を用いるため，アイテム特性に応じた適切な符号化ができていない。
- アイテムの人気度に応じて最適なトークン長を学習し，レコメンデーション精度と効率を向上させることを目指す。
- 本研究で提案するVarLenRecは，アイテムの人気度に基づいてトークン長を可変にすることで，レコメンデーション精度を大幅に向上させる。
- VarLenRecは，情報理論に基づいたPopularity-Weighted Information Budget Allocation (PIBA) を用いて，最適なトークン長を決定する。
- 双曲空間を用いた残差量子化とSoft Length Controllerにより，可変長トークン化の実装における技術的課題を克服している。
Link: https://arxiv.org/abs/2605.17779
LLM事前学習におけるAdam-SGDの性能差：大規模な実効学習率の役割の再検討 [cs.LG]目的：LLM事前学習におけるAdamとSGDの性能差の原因解明
- LLMは自然言語処理の基盤技術であり，その性能向上は様々な応用分野に貢献する。
- LLMの事前学習において，AdamはSGDよりも優れた性能を示すことが多いが，その理由は明確でなかった。
- SGDがAdamと同等の性能を発揮するための条件を特定し，性能差を解消することを目指す。
- LLMの事前学習では，勾配ノルムが小さく，重みと勾配の比率が大きい傾向があり，大規模なバッチサイズで顕著になる。
- SGDは，Adamと比較して実効学習率を高く維持することが難しく，勾配のスパイクが頻繁に発生し，学習率を制限する要因となる。
- 勾配クリッピングなどの単純な手法を用いることで，SGDはAdamに匹敵する性能を発揮することが示された。
Link: https://arxiv.org/abs/2605.17787
低活動ユーザー向け不確実性調整型推薦 [cs.IR, cs.LG]目的：低活動ユーザーと高活動ユーザー間のバランスに焦点を当てた，モデルの不確実性の定量化
- 推薦システムにおいて，信頼性と多様性の両立は重要である。特に活動頻度の異なるユーザーへの対応が課題となる。
- 低活動ユーザーに対する推薦の質の低さが，利用離れにつながる可能性がある。多様性の欠如も課題である。
- モデルの不確実性を活用し，低活動ユーザーへの信頼性向上と，高活動ユーザーへの多様性提供を目指す。
- 本フレームワークは，低活動ユーザーに対しリスク回避型の推薦戦略を採用し，質の低い推薦を抑制することで，利用継続時間と満足度を向上させた。
- 高活動ユーザーに対しては，リスク選好型の探索戦略を用い，コンテンツの多様性とカテゴリの網羅性を高めることに成功した。
- 大規模なライブストリーミングプラットフォームでの検証により，産業環境における不確実性を考慮した推薦の有効性が示された。
Link: https://arxiv.org/abs/2605.17788
SocialMemBench：AIの記憶システムはソーシャルグループ環境に対応できるか [cs.CL, cs.AI]目的：AI記憶システムにおけるソーシャルグループ環境への対応可能性の評価
- AIアシスタントの社会実装が進む中で，人間らしい自然な対話を可能にする記憶システムの重要性が高まっている。
- 既存の記憶システムは，主に個別対話向けに設計されており，複数参加者のソーシャルグループ環境での性能が課題となっている。
- ソーシャルグループにおける知識の共有や，関係性の理解といった複雑な状況下での記憶システムの能力を評価し，改善を目指す。
- SocialMemBenchは，5種類のソーシャルグループ（親しい友人，家族など）と3つのグループ規模で構成されたベンチマーク。
- 現在の記憶システムは，ソーシャルグループ環境において明確な課題を抱えており，性能向上の余地が大きいことが示された。
- Gemini 2.5 Flashなどの高性能モデルでも，人間レベルの性能には及ばず，特にオープンソースの記憶フレームワークの性能は低い傾向にある。
Link: https://arxiv.org/abs/2605.17789
STRIDE：信頼性の高い自動方程式発見のための自己反省型エージェントフレームワーク [cs.AI]目的：自動方程式発見の信頼性向上
- データから数理法則を復元する上で，LLMベースの方程式発見は有望な手法である。
- 既存システムは，不確実な適合や冗長な記憶により，有用な骨格を見落としたり，修正が必要な方程式を破棄したりする可能性がある。
- STRIDEは，データに基づいた生成，混合適合評価，批評家-実行者による修正，多様性を維持する意味記憶を連携させ，この問題を解決する。
- STRIDEは，適合スコアと候補の挙動を共有フィードバックとして活用することで，方程式の提案，評価，改良，再利用を閉ループで実現する。
- 代表的な記号回帰ベンチマークとLSR-Synthスイートにおいて，STRIDEは複数のLLMバックボーン上で精度，OODロバスト性，構造的復元を向上させる。
- アブレーションおよび分析により，その主要コンポーネントの貢献が確認された。
Link: https://arxiv.org/abs/2605.17790
HydroAgent：シミュレーターに基づく強化学習による水文モデル較正における最先端LLMと人間専門家の間のギャップを埋める [eess.SY, cs.SY, cs.LG, physics.geo-ph]目的：水文モデル較正におけるLLMエージェントの有効性評価と，その限界克服
- 水資源管理は，洪水予測や貯水池運用など，様々な分野で重要である。
- 流域ごとに専門家による較正が必要であり，その知識が他の流域へ転移しにくい。
- シミュレーターと連携した強化学習により，ドメイン特化型LLMの性能向上を目指す。
- 最先端LLMエージェントの性能は，水文モデル較正において人間専門家には及ばなかった。
- HydroAgentは，強化学習とシミュレーターフィードバックにより，LLMの性能を向上させた。
- ドメイン特化型ポリシーとシミュレーター連携による強化学習は，汎用モデルのスケーリングよりも効率的である。
Link: https://arxiv.org/abs/2605.17792
精度だけでは不十分：ノイズありラベル学習と分布外検出における不確実性崩壊 [cs.LG, cs.CV]目的：ノイズありラベル学習と分布外検出における不確実性崩壊の検証
- 現実世界のデータにはノイズが多く，機械学習モデルの性能に影響を与えるため，ノイズに強い学習方法が重要である。
- ノイズありラベル学習は分類精度を重視する傾向があるが，分布外データの識別性能は必ずしも向上しないという課題がある。
- 高精度なノイズありラベル学習モデルが，分布外データの識別において問題を抱える根本原因を特定し，改善策を提案する。
- ノイズありラベル学習モデルは高い分類精度を示しながらも，分布外データの識別において信頼性が低い場合があることが示された。
- この現象は，誤分類されたデータと分布外データの間でスコアや特徴空間が重なり合う「不確実性崩壊」と呼ばれる構造的な問題が原因であることが明らかになった。
- 仮想マージン正則化(VMR)は，この崩壊による分布外データ識別失敗を部分的に軽減し，分類精度を維持できることが確認された。
Link: https://arxiv.org/abs/2605.17795
長尾分布におけるOOD検出に複雑な学習は必要か：特徴幾何学からの再検討 [cs.CV, cs.LG]目的：長尾分布OOD検出における検出性能の向上
- 機械学習モデルの信頼性評価において，未知のデータに対する検出能力は重要である。
- 長尾分布データに対するOOD検出は，少数クラスの識別が困難である。
- 既存手法が複雑化している中で，単純な手法による性能改善を目指す。
- 凍結された長尾分布の表現が持つOODに関する有用な情報を活用する手法を提案。
- Hyperspherical Pooled Mahalanobis (HPM)により，マハラノビス距離の歪みを軽減し，検出精度を向上。
- PC-ERMとHPMの組み合わせにより，CIFAR-10-LTとCIFAR-100-LTで高いAUROCとLog Efficiency Score (LES)を達成。
Link: https://arxiv.org/abs/2605.17799
並行グリッパによる密に配置された卓上ブロックの最適なノック・ピック計画 [cs.RO, cs.AI]目的：密に配置された卓上ブロックのノックとピックの最適な計画
- ロボットマニピュレーションにおいて，物体配置換えは重要な課題である。
- 狭い空間では，並行グリッパでの把持が困難となる場合がある。
- 把持が困難な状況下で，ノック操作と把持操作を組み合わせることで効率的な配置換えを実現する。
- 本研究では，ノック操作の必要性を特定するための抽象化手法を提案した。
- グラフ抽象化における最大重み完全マッチングを用いることで，多項式時間で最適な計画を計算可能となった。
- シミュレーション実験により，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2605.17800
GenTS：生成時系列モデルのための包括的ベンチマークライブラリ [cs.LG, eess.SP]目的：生成時系列モデルの系統的な評価
- 時系列分析は，予測，補完など様々な分野で重要であり，生成モデルの活用が期待される。
- 既存の時系列ライブラリは識別モデルが中心で，生成モデルの多様なパラダイムに対応できていない。
- 生成時系列モデルを評価するための統一的な環境と，モデル選択の指針を提示すること。
- GenTSは，統一されたデータ前処理パイプライン，多様なモデル群，そして包括的な評価指標を備えている。
- GenTSを用いたベンチマーク実験により，モデル選択の提案と将来の研究方向の特定を行った。
- GenTSはモジュール設計により，データセットやモデルのカスタマイズが容易である。
Link: https://arxiv.org/abs/2605.17804
AMO：適応的ミュオン直交化 [cs.LG]目的：大規模事前学習におけるパラメータ直交化の効率化
- 深層学習モデルの事前学習は，高い性能を引き出すために不可欠であり，その最適化手法の重要性が増している。
- 従来のミュオンでは，全てのパラメータ行列に一様な直交化スケジュールを適用しており，最適ではない場合がある。
- 行列の形状に応じて直交化の度合いを調整することで，モデル全体の性能を向上させることを目指す。
- 提案手法AMOは，演算タイプごとに初期の重み形状を計測し，その情報に基づいて直交化の予算を割り当てる。
- 標準的な事前学習，長期事前学習，継続学習において，一様なスケジュールを用いるミュオンよりも一貫して性能が向上する。
- Llama3.1-1.4BおよびQwen3-1.7Bにおいて，平均的な下流タスク性能でそれぞれ+0.76，+0.51の改善が見られた。
Link: https://arxiv.org/abs/2605.17806
カリキュラムグループポリシー最適化：テキスト画像生成の潜在能力を引き出すための適応的サンプリング [cs.CV, cs.AI]目的：テキスト画像生成における効率的な学習戦略
- 近年のテキスト画像生成技術の目覚ましい進歩とその応用範囲の拡大。
- 従来の訓練における一様サンプリングが，モデルの学習能力とサンプル難易度のミスマッチを引き起こし，効率低下を招く。
- モデルの学習能力に合わせたプロンプトの優先度付けによる，学習効率の向上。
- 提案手法CGPOは，報酬の分散を用いてプロンプトの一貫性のオンラインプロキシを計算し，学習効果の高いプロンプトを優先的にサンプリングする。
- 多カテゴリデータセットにおけるデータ不均衡に対処するため，比例的公平性最適化に基づくカテゴリキャリブレーション手法を設計した。
- GenEval，T2I-CompBench++，DPG Benchを用いた実験により，生成性能が効果的に向上することが示された。
Link: https://arxiv.org/abs/2605.17807
Wasserstein勾配フローを用いたデータフリーなワンステップサンプリングのための統一的フレームワーク [cs.LG, stat.ML]目的：データフリーなワンステップサンプリングの理論的フレームワーク
- 機械学習における生成モデルの学習は，大量のデータに依存することが多い。
- データが利用できない状況下での生成モデルの学習は，依然として大きな課題である。
- データを用いずに，効率的なワンステップサンプリングを実現するための基盤を提供する。
- 様々なf-divergence目的関数において，誘導される速度場が普遍的な形式を持つことが示された。
- 標準的なf-divergenceドリフトは，同じ漸近的目標分布を共有し，マス輸送の幾何学に影響を与えることが示唆された。
- 理論に基づいたKDE実装と正規化フローにより，学習後のワンステップ推論が可能であることが確認された。
Link: https://arxiv.org/abs/2605.17808
AI活用研究の加速：使いやすく柔軟なツール構築のためのPuppyChatterフレームワーク [cs.AI]目的：AIを活用した研究開発のためのフレームワーク
- AI技術の発展は，科学研究の効率化に不可欠である。
- AIベンダー依存や，抽象化フレームワークの複雑さが課題となる。
- ベンダー依存を避けつつ，シンプルな開発体験を提供すること。
- 本研究で開発されたPuppyChatterフレームワークは，ベンダー固有のSDKの直感的な使いやすさを維持しつつ，ベンダー中立性を実現する。
- これにより，開発者はより柔軟で効率的なAIアプリケーションの構築が可能となる。
- 既存の抽象化フレームワークが抱える複雑さとセキュリティ上の懸念を軽減する。
Link: https://arxiv.org/abs/2605.17809
一つのモデル，二つの役割：共有再帰型Transformerにおける創発的な専門化 [cs.LG, cs.AI, math.OC]目的：共有重みの再帰型Transformerにおける内部役割の自律的な分化
- Transformerモデルは自然言語処理をはじめ，様々な分野で高性能を発揮しており，その応用範囲は広い。
- 従来のTransformerはモジュール分割が前提であったため，単一モデル内での役割分担は課題であった。
- 本研究は，モジュール分割なしに単一モデル内で異なる役割を学習できるかを検証する。
- 非対称入力再帰（AIR）アーキテクチャを用いた実験により，モデルが提案状態と不確実性を保持する状態に一貫して分化することが確認された。
- 状態の固定実験から，各状態は互いの状態の挙動に影響を与えており，役割分担が動的な相互作用によって維持されていることが示唆された。
- 注意機構の分析により，L更新はH更新よりも局所的な情報に依存していることが明らかになった。
Link: https://arxiv.org/abs/2605.17811
垂直型AI企業の境界：ヘッドレス化の是非 [cs.AI]目的：垂直型AI企業におけるヘッドレス化の適切性判断基準
- AI技術の進展により，業務プロセスと専門知識の分離が模索されている分野。
- ヘッドレス化による価値の喪失リスクが懸念されている。
- 企業がヘッドレス化によって価値を維持・向上させるための指針を示す。
- 従来の垂直型AI企業は，ワークフロー，ドメインロジック，説明責任を一体化していたが，汎用AIエージェントの登場により，その構造が変化しつつある。
- ヘッドレス化は，一部の企業には有効だが，価値喪失のリスクがある企業も存在し，その判断は説明責任の境界によって決まる。
- 企業は説明責任に基づいて分解し，コアを維持し，ルール負債を顧客コストとして捉え，単一のオーケストレーターへの依存を避けるべきである。
Link: https://arxiv.org/abs/2605.17812
秩序ある混沌の利点：卓上スタック再配置におけるトッピングアクションを用いた計画 [cs.RO, cs.AI]目的：卓上スタック再配置における計画
- 自動化技術において，効率的な物体操作戦略は不可欠である。
- 従来の計画手法では，複雑な物体操作に多くのステップを要し，効率が低い。
- トッピングアクションを計画に組み込むことで，効率的な再配置を可能にすること。
- トッピングアクションを組み込むことで，単純なピック＆プレースのみの場合よりも迅速な実行が可能となった。
- トッピングアクションの抽象化により，タスク計画の計算がペブルモーション問題の変形として定式化できる。
- 本研究は，複雑な物体相互作用をモデル化するための抽象化の有望な利点を示唆している。
Link: https://arxiv.org/abs/2605.17815
TierCheck：大規模言語モデル学習におけるフォールトトレランスのための階層型チェックポイント [cs.DC, cs.AI]目的：大規模言語モデル学習におけるフォールトトレランスの改善
- 近年の大規模言語モデルの発展は目覚ましいが，学習の安定性が課題となっている。
- 従来のチェックポイントシステムは，ストレージバックエンドが単一であり，オーバーヘッドと復旧速度のトレードオフが存在する。
- TierCheckは，多様な障害に対応し，低オーバーヘッドと高速復旧を両立させることを目指す。
- TierCheckは，ローカルおよびピアメモリに軽量な差分チェックポイントを維持し，高速なローカル復旧を実現する。
- 重みのあるベースチェックポイントを非同期的にリモートストレージに移行することで，厳密なグローバル整合性を維持しながら学習を停止させない。
- 400億パラメータまでのモデルで評価した結果，学習オーバーヘッドが低く，エンドツーエンドのチェックポイント時間が10秒未満に短縮された。
Link: https://arxiv.org/abs/2605.17821
視線が向く理由：シーン理解を最大化する焦点性視覚言語モデルにおける人間らしい注視点の創発 [cs.CV, cs.AI]目的：シーン理解を最適化する焦点性視覚言語モデルにおける人間らしい注視点の創発
- 人間の視覚システムを理解することは，AIやロボット工学における知能開発に不可欠である。
- 人間の注視点のパターンが，どのような認知プロセスを反映しているのか不明であった。
- シーン理解の最適化が，人間の自然な注視点のパターンを生み出すメカニズムを解明する。
- シーン理解を最適化するように訓練された計算モデルが，人間と類似した注視点のパターンを自然に獲得した。
- 特定のタスク（検索や分類）のために訓練されたモデルや，周辺視野が異なるモデルでは，人間の注視点を正確に予測できなかった。
- 人間の自由視線は，焦点性視覚という生物学的制約下でシーン理解を最適化する過程における機能的な副産物である可能性が示唆された。
Link: https://arxiv.org/abs/2605.17823
CounterCount：ビジョン言語モデルにおけるカウントバイアスの診断フレームワーク [cs.CV, cs.AI]目的：ビジョン言語モデルにおけるカウントバイアスの診断
- 視覚と言語を組み合わせた推論は重要であり，その妥当性評価が求められている。
- モデルが視覚的証拠よりも言語や事前知識に依存している可能性が課題である。
- 視覚的証拠と矛盾する状況下でのカウント能力を評価し，バイアスの原因を特定する。
- 最近のビジョン言語モデルは，事実に基づいた画像では高い性能を示すものの，反事実的な属性変化下では性能が低下する。
- この低下は，モデルが矛盾する視覚的証拠が存在する場合でも，オブジェクトレベルの事前知識に依存することを示唆する。
- 推論時の注意機構の調整により，反事実的なカウントの精度が最大8%向上することが確認された。
Link: https://arxiv.org/abs/2605.17826
微分独立性によるコンテンツスタイル識別 [cs.LG, cs.AI]目的：コンテンツとスタイルの識別
- 生成モデルにおいて，ドメイン固有の情報を分離し，汎化性能を高めることは重要である。
- 従来の識別手法は，コンテンツとスタイルの独立性や疎なヤコビ行列を仮定し，現実的な応用が難しい場合がある。
- コンテンツとスタイルが依存していても識別可能な新たな構造的条件を導入し，識別問題を解決する。
- 微分独立性（CSDI）という新たな条件を提示し，ヤコビ行列の直交性制約を通して実現した。
- 高次元生成モデルに対応するため，数値ヤコビ行列近似に基づく確率的正則化項を設計した。
- 実験結果は，識別可能性の分析を裏付け，反実仮想データ生成やドメイン変換において実用的な利点を示した。
Link: https://arxiv.org/abs/2605.17827
インタラクティブな評価には設計科学が求められる [cs.AI]目的：AI評価における設計科学の必要性
- AIの進化に伴い，システムの評価方法も変化する必要がある。
- 既存の評価手法は，単一の応答に依存しており，複雑なインタラクションを捉えきれない。
- インタラクティブな評価を体系的な評価パラダイムとして確立し，設計原則と報告基準を提示する。
- AI評価は，時間経過とともにツール，環境，ユーザーなどを通じて作用するシステムへと変化しており，従来の評価方法では不十分である。
- インタラクティブな評価では，証拠となるのは相互作用によって生成された軌跡であり，プロセス，回復性，協調性，堅牢性，システムレベルのパフォーマンスを評価する必要がある。
- 本稿では，インタラクティブな評価の二軸分類を提示し，設計原則と報告基準を導き出し，既存の評価課題が軌跡レベルでどのように再出現するかを分析する。
Link: https://arxiv.org/abs/2605.17829