arXiv雑要約

AI - 2026/04/22 公開

現実的な手書き複数桁数字認識の課題 [cs.CV, cs.LG]目的：現実的な手書き複数桁数字認識における課題
- 機械学習研究のモチベーションとして，長年手書き文字認識が活用されてきた。
- 既存手法は単一桁認識に偏り，複数桁の連続認識では性能が低下しやすい。
- 現実的な手書きデータを用いた複数桁数字認識のベンチマークを構築し，課題を明確化する。
- 単一桁認識で高い性能を示しても，複数桁の数字認識では性能が低下することが確認された。
- 実際の利用場面を考慮した評価指標を用いることで，より実用的な性能評価が可能となる。
- タスク固有の知識を活用することで，単一桁認識の限界を超える性能向上が期待される。
Link: https://arxiv.org/abs/2512.00676
共変量分布シフトにおけるコントラスト学習を用いたグラフデータ拡張 [cs.LG, cs.AI]目的：共変量分布シフトに対するグラフニューラルネットワークの汎化性能向上
- グラフデータは現実世界で広く利用され，その構造は複雑であるため，頑健なモデルが求められる。
- 既存のグラフニューラルネットワークは，テストデータに存在し訓練データにない特徴への対応が困難である。
- 潜在空間の情報を最大限に活用し，分布シフトへのロバスト性を高める手法を開発する。
- 提案手法MPAIACLは，コントラスト学習を用いて潜在空間表現の情報を活用することで，高い汎化性能を示す。
- 様々な公開OODデータセットにおいて，既存手法と比較して優れた性能を達成した。
- MPAIACLは，共変量分布シフトに対する効果的な対策となり，グラフニューラルネットワークの応用範囲を広げる。
Link: https://arxiv.org/abs/2512.00716
ベイズイベントベースモデルによる疾患サブタイプとステージの推論 [cs.CL, cs.LG, stat.ME]目的：疾患サブタイプとステージの推論
- 慢性疾患の病態進行は個人差が大きい。その多様性を理解することは，適切な治療法の選択に不可欠である。
- 従来の解析では，疾患の進行パターンを捉えきれず，サブタイプの特定が困難であった。
- 本研究は，疾患進行の多様性をより正確に捉え，サブタイプの特定精度を向上させることを目指す。
- 本研究で開発したBEBMSは，既存のSuStaInモデルよりも，疾患進行の順序，ステージング，サブタイプ割り当てにおいて高い性能を示した。
- 合成データ実験において，モデルの誤指定に対する頑健性においてもBEBMSがSuStaInを上回る結果が得られた。
- アルツハイマー病の実際のデータセットへの適用において，BEBMSの結果は既存の科学的知見とより整合性があった。
Link: https://arxiv.org/abs/2512.03467
音声LLMにおける選択的聴覚による傍聴者プライバシー保護 [cs.CL, cs.SD, cs.AI]目的：音声LLMにおける傍聴者プライバシー保護の評価と改善
- 音声LLMの利用拡大に伴い，プライバシー保護の重要性が高まっている。
- 既存の評価基準や防御策では，意図しない傍聴者の音声情報の漏洩リスクに対応できていない。
- 傍聴者の音声情報を処理・開示しない選択的聴覚能力を評価・向上させることを目指す。
- SH-Benchという新たなベンチマークを開発し，音声LLMの選択的聴覚能力を評価した結果，既存モデルに傍聴者プライバシーの漏洩が認められた。
- Selective Efficacy (SE)という新たな指標を提案し，多話者理解と傍聴者プライバシー保護の両立を評価した。
- Bystander Privacy Fine-Tuning (BPFT)という訓練パイプラインを開発し，Gemini 2.5 Proと比較して，傍聴者精度を47%向上させ，SEを16%向上させた。
Link: https://arxiv.org/abs/2512.06380
TROJail：多段階大規模言語モデル脱獄に対する軌跡レベル最適化と過程報酬 [cs.AI, cs.LG]目的：多段階言語モデルに対する脱獄攻撃戦略の最適化
- 大規模言語モデルの普及に伴い，安全な利用が不可欠であるため，脆弱性の評価が重要である。
- 既存の手法では，ターンレベルでの最適化に留まり，長期的な攻撃戦略の学習が困難である。
- 最終ターンでの有害性という疎な報酬を効果的に活用し，長期的な脱獄攻撃を可能にする。
- 提案手法TROJailは，中間プロンプトの有用性を評価する過程報酬を導入することで，攻撃成功率を向上させた。
- 過程報酬は，有害なプロンプトの過剰な使用を抑制し，有害な内容への応答の関連性を促進する。
- 複数のモデルとベンチマークで実験を行い，その有効性を実証した。
Link: https://arxiv.org/abs/2512.07761
ODMA：LPDDRクラスアクセラレータにおけるLLMサービングのためのオンデマンドメモリ割り当て戦略 [cs.AR, cs.AI]目的：LLMサービングにおけるメモリ割り当て戦略の最適化
- LLMの高性能化には，メモリ帯域幅がボトルネックとなりやすい。
- LPDDRのようなランダムアクセス性能の低いメモリでは，効率的なメモリ管理が困難である。
- LPDDR環境下におけるLLMサービングの効率を向上させるためのメモリ割り当て戦略を提案する。
- ODMAは，生成長予測の精度を向上させ， AlpacaおよびGoogle-NQベンチマークでそれぞれ99.55％，93.36％に改善した。
- DeepSeek-R1-Distill-Qwen-7BをCambricon MLU370-X4で実行した結果，KVキャッシュ利用率が最大19.25％，スループット（TPS）が23-27％向上した。
- これにより，予測駆動型の連続割り当てがLPDDRクラスデバイスにとって有効であることが示された。
Link: https://arxiv.org/abs/2512.09427
コルモゴロフ・アーノルド・ネットワークの最適化アーキテクチャ [cs.LG, cs.NE, physics.data-an, stat.ML]目的：コルモゴロフ・アーノルド・ネットワークのコンパクトで解釈可能なモデルの学習
- 科学的機械学習において，表現力と解釈可能性の両立が重要な課題となっている。
- KANsのアーキテクチャ強化は複雑性を増し，解釈可能性を損なうことが課題であった。
- 過剰なアーキテクチャ，スパース化，深層学習の組み合わせによる効率的なモデル構築を目指す。
- スパース化のみでは不十分だが，深さ選択との組み合わせにより，高い精度とコンパクトなモデルが得られた。
- 活性化，構造，深さを同時に最適化する微分可能なメカニズムにより，モデルの表現力と解釈可能性が向上した。
- 関数近似，動的システム予測，実世界予測タスクにおいて，本手法の有効性が確認された。
Link: https://arxiv.org/abs/2512.12448
FaithLens：忠実性ハルシネーションの検出と説明 [cs.CL, cs.AI]目的：大規模言語モデルの出力における忠実性ハルシネーションの検出と説明
- 情報検索や要約など，現実世界への応用において，言語モデルの出力の信頼性は重要である。
- 言語モデルが生成する内容は，事実と異なるハルシネーションを含む場合があり，信頼性を損なう。
- ハルシネーションを効率的に検出し，その理由を説明することで，言語モデルの信頼性を高める。
- FaithLensは，GPT-5.2やo3を含む高度なモデルよりも優れた性能を示す。
- FaithLensは，予測の正確さと説明の質を両立した，高品質な説明を生成する。
- FaithLensは，信頼性，効率性，効果性のバランスに優れたモデルである。
Link: https://arxiv.org/abs/2512.20182
マルチエージェント適応メカニズム設計 [cs.NI, cs.MA, cs.CL, cs.GT, cs.AI, cs.LG, cs.MA, econ.TH]目的：合理的なエージェントからの真実な報告の引き出しと費用最適化
- 経済学やゲーム理論において，インセンティブ設計は資源配分の効率化に不可欠である。
- エージェントの信念が不明な状況下では，真実を保証しつつ最適なメカニズム設計が困難である。
- 未知のインセンティブ制約を学習しながら，真実性を維持し最適な後悔を達成する適応メカニズムの構築。
- 提案手法DRAMは，分布ロバスト最適化とオンライン学習を組み合わせ，真実性と費用効率を両立する。
- DRAMは高い確率で真実な報告を保証し，累積後悔$\tilde{O}(\sqrt{T})$を達成する。
- この後悔率は，適応メカニズムの理論的下限と一致する。
Link: https://arxiv.org/abs/2512.21794
旅程計画を超えて：複数ターンおよびツール利用型旅行タスクのための実世界ベンチマーク [cs.AI]目的：実世界における旅行計画の評価基準
- 旅行計画は，LLMの計画立案とツール利用能力を試す自然な課題であり，実用的な応用研究に貢献する。
- 既存のベンチマークは，ドメインカバレッジの不足やユーザーの暗黙の好みのモデリング不足など，現実世界のニーズから乖離している。
- 現実世界の旅行計画におけるLLMエージェントの能力を包括的に評価するための基準を確立すること。
- TravelBenchは，シングルターン，複数ターン，解決不能という3つのサブタスクを通じて，LLMエージェントの能力を評価する。
- 実験の結果，高度なモデルであっても，異なる能力間で性能にばらつきがあることが示された。
- TravelBenchは，実世界での旅行計画におけるLLMエージェント研究を促進するための，再現性と実用性を備えたベンチマークを提供する。
Link: https://arxiv.org/abs/2512.22673
QSLM：階層探索戦略を用いた性能とメモリを考慮したスパイク駆動型言語モデルの量子化フレームワーク [cs.NE, cs.AI, cs.LG]目的：スパイク駆動型言語モデルの量子化による圧縮
- 大規模言語モデルは自然言語処理において高い性能を示すが，計算コストやメモリ消費が大きい。
- スパイク駆動型言語モデルは省電力だが，依然としてメモリフットプリントが大きい点が課題。
- 性能とメモリ制約を満たしつつ，スパイク駆動型言語モデルを自動で量子化する。
- QSLMは，ネットワークの階層構造と量子化に対する感受性を分析し，性能とメモリのトレードオフを考慮した量子化戦略を採用する。
- 実験結果から，QSLMはメモリフットプリントを最大86.5%削減し，消費電力を最大20%削減できることが示された。
- SST-2のセンチメント分類の精度は最大84.4%，WikiText-2のテキスト生成のパープレキシティは23.2を維持し，非量子化モデルと同等の性能を維持した。
Link: https://arxiv.org/abs/2601.00679
LLMは推論トークンの機能的重要性符号化しているか？ [cs.CL, cs.CL, cs.AI, cs.LG]目的：推論トークンの機能重要性の符号化の有無
- 複雑なタスク解決において，LLMの推論過程の理解が不可欠である。
- 推論過程の長さを短縮しつつ，機能的な推論を維持することが課題である。
- モデルが推論トークンレベルで機能重要性を内部的に符号化しているか検証する。
- 貪欲なプルーニング手法により，モデルの尤度を維持しつつ推論チェーンを短縮可能である。
- プルーニングされた推論チェーンで学習させたモデルは，教師あり圧縮ベースラインを上回る性能を示す。
- プルーニングパターンと注意スコアの相関から，モデルが推論トークンの機能重要性を符号化している可能性が示唆された。
Link: https://arxiv.org/abs/2601.03066
分散最適化における局所更新：証明可能な高速化とトポロジー効果 [cs.CL, eess.SY, cs.LG, cs.SY]目的：分散最適化の高速化に関する研究
- 機械学習モデルの学習において，大規模データセットへの対応が重要であり，分散最適化はその有効な手段となる。
- 局所更新を導入した場合，ステップサイズを小さくする必要があり，高速化の恩恵を相殺してしまう場合がある。
- 局所更新が分散最適化を実際に高速化するかどうかを理論的に証明し，効率的な実装のための指針を示す。
- DIGingアルゴリズムにおいて，局所更新を組み込むことで分散最適化が加速されることを証明した。
- 最適な局所更新回数は2回であり，それ以上の更新は計算コストの増加を招くだけである。
- ネットワーク構造（特に混合行列のスペクトル特性）が高速化の度合いに大きく影響することが示された。
Link: https://arxiv.org/abs/2601.03442
重み付き多言語探索によるコード翻訳のブートストラップ [cs.SE, cs.AI]目的：複数プログラミング言語間のコード翻訳
- ソフトウェア開発における異言語間連携の需要増加に伴い，コード翻訳の重要性が高まっている。
- 並行データの不足と，実行可能なテストオラクルがないことが，コード翻訳の大きな課題となっている。
- テストスイートの機能不変性とクロスリンガルな移植性を活用し，データ不足と最適化の偏りを解決する。
- 提案手法BootTransは，多言語強化学習のための汎用的な検証オラクルとして，豊富なピボット言語のユニットテストを活用する。
- シードプールと探索プールという二重プールアーキテクチャにより，実行ガイド型経験収集を通じて学習データを徐々に拡張する。
- 言語を意識した重み付けメカニズムにより，相対的な性能に基づいて，より難しい翻訳方向を動的に優先し，最適化の偏りを軽減する。
Link: https://arxiv.org/abs/2601.03512
SAGE-32B: 反復蒸留によるエージェント的推論 [cs.AI, cs.CL, cs.LG]目的：エージェント的推論と長距離計画タスクに焦点を当てた言語モデル
- 複雑な問題を解決するには，高度な推論能力と計画立案が不可欠である。
- 既存の言語モデルは，タスク分解やツール利用において課題を抱える場合がある。
- エージェント的ループを活用し，推論性能の向上を目指す。
- SAGE-32Bは，反復蒸留という二段階の学習プロセスにより，推論性能を向上させている。
- MMLU-Pro，AgentBench，MATH-500などのベンチマークにおいて，同サイズのベースラインモデルと比較して，マルチツール使用シナリオでより高い成功率を達成している。
- 事前失敗予測のためのメタ認知ヘッドを導入し，計画プロセスの改善を図っている。
Link: https://arxiv.org/abs/2601.04237
空間推論：LLMベースの次なる POI 推薦のための地理的推論の実現 [cs.AI]目的：地理情報の活用による，LLMベースの生成型次なる POI 推薦
- 移動や地域サービスにおいて，地理的情報は不可欠であり，推薦システムの精度向上に寄与する。
- 既存のLLMベース推薦システムは，地理情報を十分に活用できていないという課題がある。
- 地理的情報を推論プロセスにおける重要な変数として組み込み，推薦精度と汎化性能の向上を目指す。
- ROSは，粗い地域から細かい POI セマンティクスをトークン化する階層的空間セマンティック ID (SID) を導入した。
- ユーザの個性，意図に沿った候補空間の構築，地理情報に基づいたプルーニングを行う Mobility Chain-of-Thought (CoT) パラダイムを導入した。
- 空間誘導強化学習 (RL) によりモデルを現実世界の地理情報と整合させ，既存の LLM ベースラインを 10% 以上上回るヒット率を達成した。
Link: https://arxiv.org/abs/2601.04562
医療ハイパースペクトル画像におけるスペクトル・空間依存性と多重スケール特徴を利用した敵対的攻撃 [cs.CL, cs.CL, cs.CV, cs.AI]目的：医療ハイパースペクトル画像における敵対的攻撃手法の開発
- 医療分野において，病気の診断精度向上に貢献する技術として，組織のスペクトル・空間情報を活用する医療ハイパースペクトル画像が注目されている。
- 深層学習の精度向上に伴い，敵対的攻撃に対する脆弱性が課題となっている。特に医療画像では，信頼性が重要であり，その脆弱性は臨床的に許容できない。
- 本研究では，医療ハイパースペクトル画像の特性を考慮した敵対的攻撃手法を開発し，より効果的な攻撃とロバスト性向上のためのデータセットを構築する。
- 提案手法は，既存手法と比較して，脳および胆管データセットにおいて，重要な腫瘍領域における病変関連分類性能をより効果的に低下させることを示した。
- 生成される摂動の大きさは小さく，臨床的に妥当な敵対的攻撃が可能であることが確認された。
- 本研究は，現在の医療ハイパースペクトル画像モデルのロバスト性の弱点を明らかにし，標的を絞った防御戦略の開発に貢献する。
Link: https://arxiv.org/abs/2601.07056
推論モデルは時に，その推論について嘘をつく [cs.AI, cs.CL]目的：大規模推論モデルの忠実性
- 大規模言語モデルの信頼性と安全性確保は，社会実装において不可欠である。
- モデルが入力情報（ヒント等）をどのように利用しているか，正確な評価が困難である。
- モデルが不審な入力に対してどのように振る舞うか，忠実性を評価し，解明すること。
- 指示によって忠実性指標は改善される場合がある。
- モデルはヒントの存在を認識しつつも，利用意図を否定することがある。
- 推論の監視や解釈可能性に関する課題が示唆される。
Link: https://arxiv.org/abs/2601.07663
ViDoRe V3：複雑な実世界シナリオにおける検索拡張生成の包括的評価 [cs.AI, cs.CV]目的：複雑な実世界シナリオにおける検索拡張生成の評価
- 情報検索と自然言語処理の融合が，より高度な情報活用を可能にするため重要である。
- 既存の評価指標は，視覚的要素や複数文書からの情報統合といった複雑なRAGの課題に対応できていない。
- 視覚的に豊富な文書群に対する多様なクエリに対応可能な，包括的なRAGベンチマークを開発すること。
- ViDoRe v3は，10の専門分野にわたる約26,000ページから構成される多言語対応のマルチモーダルRAGベンチマークである。
- 視覚的な検索器はテキスト検索器よりも優れており，後続の相互作用モデルとテキスト再ランキングは性能を大幅に向上させる。
- 現状のモデルは，非テキスト要素，オープンエンドなクエリ，詳細な視覚的根拠付けにおいて依然として課題を抱えている。
Link: https://arxiv.org/abs/2601.08620
積極性の適切なアプローチ：知識ギャップのベンチマーキングと進歩 [cs.LG]目的：知識ギャップのモデル化に基づくプロアクティブな支援フレームワーク
- ユーザーのニーズを先回りして支援する技術の重要性が増している。
- 従来のシステムは，質問の多さや的外れな介入といった課題がある。
- ユーザー固有の知識ギャップを明示的にモデル化することで，より適切な支援を目指す。
- PROPERフレームワークは，ユーザーの質問から明示的な次元を抽出し，潜在的な次元を生成する。
- 明示的および潜在的な次元を統合することで，個別化された情報提供を実現する。
- 評価実験により，PROPERは既存手法と比較して，品質と成功率を大幅に向上させることが示された。
Link: https://arxiv.org/abs/2601.09926
境界を意識した方策最適化による信頼性の高いエージェント探索 [cs.CL, cs.NI, cs.ET, math.DG, cs.SI, cs.AI]目的：信頼性の高い境界認識
- 大規模言語モデルの能力拡張には，外部探索と動的計画を組み合わせたエージェント探索が重要である。
- 既存のエージェントは，自身の推論限界を認識できず，「知らない」と判断する機会が少ない。
- 推論限界における「知らない」応答を促し，信頼性を向上させることを目指す。
- BAPOは，境界を意識した報酬と適応的報酬変調器を導入することで，エージェント探索の信頼性を大幅に向上させる。
- 境界を意識した報酬は，推論限界でのみ「知らない」応答を奨励する。
- 適応的報酬変調器は，早期探索中の報酬の一時停止により，「知らない」を近道として利用することを防ぐ。
Link: https://arxiv.org/abs/2601.11037
多様な偏微分方程式族におけるニューラル演算子の故障モードの診断 [cs.LG]目的：ニューラル偏微分方程式ソルバーの故障モードの診断
- 偏微分方程式の近似解法は科学技術計算の根幹であり，高精度かつ高速な解法の開発が求められている。
- 従来の数値解法では，計算コストが高く，複雑な問題への適用が困難な場合がある。
- ニューラル偏微分方程式ソルバーの汎化性能を評価し，実用的な応用を促進すること。
- ニューラル偏微分方程式ソルバーの評価において，分布内テスト誤差だけではロバスト性を判断できないことが示された。
- 故障パターンは，ニューラル演算子のアーキテクチャと偏微分方程式族に依存することが明らかになった。
- 構造化されたシフトに対する関数空間の汎化能力を，評価の主要な目標として扱うべきであると提言された。
Link: https://arxiv.org/abs/2601.11428
LSTM-MAS：長文理解のための長短期記憶に触発されたマルチエージェントシステム [cs.CL, cs.AI]目的：長文理解のためのマルチエージェントシステムの設計と評価
- 大規模言語モデルの性能向上には，長文の効率的な処理が不可欠である。
- 既存手法は計算コストの増加や文脈長の制約といった課題を抱えている。
- マルチエージェントシステムにおけるエラー蓄積と幻覚の伝播を抑制する。
- LSTM-MASは，LSTMの階層的な情報フローとゲート機構を模倣した構造を持つ。
- 各ノードはセグメント理解，冗長性削減，エラー検出，情報伝播制御を行うエージェントで構成される。
- Narrative QA等，複数の質問応答タスクにおいて，既存手法を大幅に上回る性能を示した。
Link: https://arxiv.org/abs/2601.11913
マルチホップQAにおける失敗モード：最弱リンク効果と認識ボトルネック [cs.AI, cs.LG]目的：マルチホップQAにおける失敗モードの特定と，その原因解明
- 大規模言語モデルの性能向上には，長文脈の理解が不可欠である。複雑な推論を伴うマルチホップQAはその課題を示す。
- LLMは長文脈において位置バイアスを持ち，特定の箇所にある情報を無視する傾向がある。
- LLMがマルチホップQAで失敗する原因を，情報検索の失敗と統合の失敗に分解し，ボトルネックを特定すること。
- Multi-Focus Attention Instruction (MFAI)を用いて，LLMの注意メカニズムを操作し，認識能力のボトルネックを特定した。
- 最弱リンク効果が確認された。マルチホップ推論の性能は，最も見つけにくい証拠の存在に依存し，絶対的な位置に左右される。
- System-2 reasoningを活用した思考モデルは，ノイズの多い長文脈でも，正解のみのベースラインと同等の性能を達成することが示された。
Link: https://arxiv.org/abs/2601.12499
プロンプト順序に迷う：言語モデルにおける因果的注意の限界の解明 [cs.CL, cs.CL, cs.AI, cs.LG]目的：言語モデルにおけるプロンプト構造への依存性のメカニズム解明
- 言語モデルの性能は飛躍的に向上したが，その挙動の解明は不可欠である。
- 言語モデルはプロンプトの構造に敏感であり，その理由が不明である。
- プロンプト順序が性能に与える影響を，因果的注意の観点から解明する。
- 複数選択肢問題において，文脈を先に置くCQO順序がQOC順序を14%p上回る。
- QOC順序では，因果的マスクにより選択肢が文脈を参照できず，情報ボトルネックが生じる。
- 因果的注意がプロンプト順序への依存性の主要な原因であることが示された。
Link: https://arxiv.org/abs/2601.14152
大規模言語モデルにおけるバイアス軽減のための多人格思考 [cs.HC, cs.SI, cs.RO, cs.SY, eess.SY, cs.CL, cs.AI]目的：大規模言語モデルにおける社会的なバイアスの軽減
- 言語モデルは社会に大きな影響を与え，公平性が重要である。
- 言語モデルは既存の社会的な偏見を学習し，それを増幅する可能性がある。
- 多角的な視点を取り入れることで，バイアスを特定し修正すること。
- 多人格思考（MPT）は，複数の視点からの推論を促すことで，バイアスを軽減する。
- MPTは，既存のプロンプトベースの手法よりも低いバイアスを達成し，推論能力を維持する。
- MPTは，異なる社会的なアイデンティティ間の対話を通じて，偏った判断を修正する。
Link: https://arxiv.org/abs/2601.15488
ニューロモーフィックハードウェア上でのSNNモデル化とマッピングにおけるハイパーグラフの利用 [cs.CL, cs.HC, cs.AR, cs.NE]目的：ニューロモーフィックハードウェア上でのSNN（スパイクニューラルネットワーク）のマッピング手法
- SNNは低消費電力で並列処理が可能であり，AI分野での応用が期待されている。
- SNNをニューロモーフィックハードウェアに効率的にマッピングすることは困難であり，計算コストが高い。
- ハイパーグラフを用いることで，SNNのマッピング効率を向上させ，ハードウェアリソースの利用を最適化する。
- SNNをグラフからハイパーグラフに抽象化することで，コア内でのスパイクの複製をより正確にモデル化できる。
- ハイパーエッジの重複と局所性は，高品質なマッピングと強く相関することが示された。
- ハイパーグラフに基づく手法は，最先端の手法と比較して，様々な実行時間においてより優れたマッピングを達成できる。
Link: https://arxiv.org/abs/2601.16118
知識誘導型時間変動因果推論：北極海氷ダイナミクスの解明 [cs.LG, cs.AI]目的：北極海氷厚と海面高度間の因果関係の定量化
- 極域気候変動や全球海面上昇のメカニズム解明には，海氷厚と海面高度の関係を明らかにすることが不可欠である。
- 従来の深層学習モデルは，時間変動交絡や物理的制約の欠如により，気候設定における効果推定が困難である。
- 本研究は，海面高度と表面速度間の物理的関係を利用し，時間変動連続処理を生成することでこの課題を解決する。
- 提案手法KGCM-VAEは，海面高度の変化に対する海氷厚の応答予測において，最先端のベースラインモデルを上回る性能を示した。
- MMD（Maximum Mean Discrepancy）の導入は，潜在空間における処理群と対照群の分布バランスを調整し，観測された交絡バイアスを軽減する。
- 実世界データを用いた事例研究により，特定の処理に対する物理パラメータの感度分析と既存モデルとの比較が行われた。
Link: https://arxiv.org/abs/2601.17647
センチポリス：ソーシャルシミュレーションのための感情認識エージェント [cs.HC, cs.AI, cs.CL]目的：ソーシャルシミュレーションにおける感情認識エージェントの枠組み
- 社会現象の理解に不可欠な人間の感情をモデル化する必要がある。
- 従来のシミュレーションでは感情が一時的な情報として扱われ，一貫性に欠ける。
- 感情の状態を維持し，長期的な行動の一貫性を向上させる。
- センチポリスは，連続的なPADモデル，二段階の時間スケール，感情と記憶の結びつきにより，感情的な振る舞いを改善する。
- 高容量モデルでは信憑性が向上する一方，小規模モデルでは低下する可能性が示された。
- 感情認識は，社会規範への適合をわずかに低下させ，人間らしい行動の矛盾を再現する。
Link: https://arxiv.org/abs/2601.18027
Temp-R1：逆カリキュラム強化学習による複雑な時系列知識グラフ質問応答のための統一された自律エージェント [cs.CL, cs.AI, cs.LG]目的：複雑な時系列知識グラフ質問応答における自律エージェントの構築
- 知識グラフは，情報の構造化と推論に不可欠であり，多様な応用分野で活用されている。
- 既存手法は固定的なワークフローに依存し，柔軟性と拡張性に欠ける点が課題である。
- 複雑な時系列制約と多段階推論を必要とする質問応答を自律的に解決することを目指す。
- Temp-R1は，強化学習によって訓練された初のエンドツーエンドの自律エージェントである。
- 逆カリキュラム学習により，難しい質問から学習することで，高度な推論能力を獲得する。
- MultiTQおよびTimelineKGQAで最先端の性能を示し，複雑な質問において強力なベースラインを19.8%上回る。
Link: https://arxiv.org/abs/2601.18296
大規模言語モデルにおける多様な毒性探索：種分化によるアプローチ [cs.NE, q-bio.PE]目的：大規模言語モデルに対する毒性プロンプトの多様な探索
- 大規模言語モデルの安全性評価は，その信頼性確保に不可欠である。
- 既存の探索手法は，効果の高いプロンプトに偏りやすく，多様な危険性を網羅できない。
- 複数の毒性プロンプトを並行して維持し，探索空間の多様性を高めることで，より包括的な評価を目指す。
- 提案手法ToxSearch-Sは，従来のToxSearchと比較して，毒性のピーク値が向上した（約0.73対約0.47）。
- また，上位10件のプロンプトの中央値も高く（0.66対0.45），より多くの毒性プロンプトを発見した。
- 種分化により，プロンプトのトピック分布がより多様化し，危険性の異なる領域を網羅的に探索できた。
Link: https://arxiv.org/abs/2601.20981
文脈における因果的摂動マップの学習：MapPFN [cs.LG]目的：生物学的文脈への適応性を持つ摂動効果推定
- 生物システムの効果的な介入には，文脈に応じた治療効果モデルが不可欠である。
- 単一細胞摂動データセットは限られており，推論時に新たな介入証拠を活用できない。
- トレーニングデータを超えた適応を可能にする摂動効果推定器のメタ学習を目指す。
- MapPFNは，事前分布からの合成データで事前学習されたPFNであり，文脈学習により摂動後の分布を予測する。
- in silico遺伝子ノックアウトのみで事前学習されたMapPFNは，実データで訓練されたモデルと同等の性能を示す。
- ファインチューニングにより，下流データセットで常にベースラインモデルを上回る性能を発揮する。
Link: https://arxiv.org/abs/2601.21092
MiTA Attention：上位k個活性化の混合による効率的な高速重みスケーリング [cs.CL, cs.IR, cs.LG, cs.CV]目的：TransformerにおけるAttention機構の効率化
- Transformerは自然言語処理や画像認識で広く用いられ，その性能向上は重要である。
- Attention機構の計算コストは系列長に比例するため，長系列への適用が困難である。
- Attention機構の高速化とメモリ使用量の削減を目指す。
- MiTA Attentionは，ランドマーククエリを用いてAttention機構を圧縮し，効率化を図る。
- 上位k個の活性化されたKey-Valueペアを収集することで，柔軟な専門家（expert）を構築する。
- 画像認識タスクでの予備実験により，MiTA Attentionの有効性が示唆された。
Link: https://arxiv.org/abs/2602.01219
ニューラルネットワークにおける汎化の時空間力学 [cs.LG, cs.AI]目的：ニューラルネットワークにおける汎化の時空間ダイナミクスの研究
- 人工知能の発展には，汎化能力の向上が不可欠である。
- 従来のニューラルネットワークは，単純な規則の長尺化に失敗することがある。
- 物理学の原理に基づき，汎化能力を持つニューラルネットワークのアーキテクチャを提案する。
- 局所性，対称性，安定性という物理的制約を満たすSpatiotemporal Evolution with Attractor Dynamics (SEAD)アーキテクチャを導出した。
- パリティ，加算，Rule 110のタスクにおいて，SEADアーキテクチャが優れた汎化性能を示すことを実験的に検証した。
- 統計的学習と論理的推論のギャップは，パラメータのスケールではなく，計算の物理法則を尊重することで埋められる可能性を示唆した。
Link: https://arxiv.org/abs/2602.01651
See2Refine：視覚言語フィードバックによるLLMベースのeHMIアクション設計の改善 [cs.HC, cs.AI]目的：LLMベースのeHMIアクション設計の改善
- 自動運転車において，周囲への意図伝達と信頼確保は重要課題である。
- 既存のeHMI研究は開発者による手作業に依存し，多様な状況への適応が困難である。
- VLMによる視覚的評価をフィードバックとして活用し，自動的にeHMIアクション設計を改善する。
- 提案手法See2Refineは，人間による介入なしに，VLMを用いてeHMIアクションの適切性を評価し，LLMの出力 iteratively に改善する。
- 光条，目，腕の３つのeHMIモダリティと様々なLLMサイズで評価した結果，提案手法は既存手法やベースラインを上回る性能を示した。
- VLMによる評価と人間の好みが一致することから，提案手法の汎用性と有効性が確認された。
Link: https://arxiv.org/abs/2602.02063
テキスト画像生成のための適応的プロンプト抽出 [cs.CL, cs.HC, cs.AI, cs.CV]目的：テキスト画像生成におけるユーザー意図との整合性向上
- 画像生成技術の発展は，創造性や表現の幅を広げる上で重要である。
- ユーザーは曖昧な指示を与えがちで，モデル特有の癖に悩まされることが多い。
- ユーザーが詳細な記述なしに意図を明確化できるよう支援する。
- 適応的プロンプト抽出(APE)は，視覚的な質問を通じてユーザーのプロンプト改善を支援する。
- APEは，潜在的なユーザー意図を解釈可能な特徴要件として表現し，効果的なプロンプトを生成する。
- IDEA-BenchとDesignBenchでの評価により，APEは高い整合性と効率性を実現することが示された。
Link: https://arxiv.org/abs/2602.04713
強制柔軟性メッシュ沿岸海洋モデルに対する低次代理モデル [cs.CE, cs.AI, cs.LG, physics.ao-ph, physics.flu-dyn]目的：沿岸海洋モデルの計算効率化と長期予測の実現
- 沿岸域の環境変化予測は，防災や水産資源管理において重要である。
- 高解像度な海洋モデルは計算コストが高く，長期的なシミュレーションが困難である。
- 機械学習を用いた低次モデルにより，計算コストを削減し，長期予測を可能とする。
- 提案するKoopmanオートエンコーダは，PODベースの代理モデルと比較して，一部のケースでより高い予測精度を示した。
- 代理モデルによる予測誤差は数センチメートル程度であり，実用上の許容範囲内であると判断された。
- 代理モデルの推論速度は，物理ベースモデルと比較して300〜1400倍向上し，アンサンブル予測などの応用が可能となった。
Link: https://arxiv.org/abs/2602.05416
ダイヤモンドマップ：確率的フローマップによる効率的な報酬整合 [cs.CL, cs.LG, cs.AI]目的：報酬整合の効率化
- 生成モデルの応用範囲拡大のため，ユーザーの意図を反映させることが重要である。
- 既存手法では，学習済みのモデルをユーザーの好みに合わせるのが困難である。
- 推論時に任意の報酬に対して迅速かつ正確な整合を実現する。
- ダイヤモンドマップは，確率的フローマップモデルであり，効率的な報酬整合を可能にする。
- シミュレーションステップを削減し，報酬整合に必要な計算コストを低減する。
- GLASS Flowsからの蒸留学習により効率的に学習可能であり，既存手法を上回る性能を示す。
Link: https://arxiv.org/abs/2602.05993
TFusionOcc：T-プリミティブに基づく物体中心マルチセンサーフュージョンフレームワークによる3D占有予測 [cs.CV, cs.AI, cs.RO]目的：3Dセマンティック占有予測のための物体中心マルチセンサーフュージョン
- 自動運転車の安全なナビゲーションと意思決定には，詳細な3Dシーン構造の理解が不可欠である。
- 既存手法は，ボクセルベースでは無駄な計算コストが生じ，ガウスプリミティブでは複雑な形状の表現に限界がある。
- 複雑な形状も扱える，T-プリミティブを用いた効率的な3D占有予測手法を開発する。
- 提案手法TFusionOccは，Students t分布に基づくT-プリミティブを利用し，カメラとLiDAR情報を効果的に統合する。
- 実験結果から，TFusionOccはnuScenesデータセットにおいて最先端の性能を発揮することが示された。
- nuScenes-Cデータセットでの評価により，TFusionOccのロバスト性が確認された。
Link: https://arxiv.org/abs/2602.06400
感情語の類似性と連想関係の分析による感情構造の探求 [cs.CL, cs.AI]目的：感情語の類似性と連想関係からなる意味ネットワークの構造
- 自然言語処理において，感情分析は重要な課題であり，テキストの感情を理解する上で不可欠である。
- 感情モデルの妥当性は十分に検証されておらず，特にPlutchikの感情輪の構造的妥当性には議論がある。
- 感情語の意味ネットワークを構築し，感情輪の構造との比較を通して，感情モデルの有効性を検証する。
- 感情語のペアに対する類似度と連想関係のデータ収集とネットワーク構築を行った。
- 構築されたネットワーク構造は，感情輪の構造と大まかに類似していた。
- しかし，局所的には感情輪と異なる構造が認められた。
Link: https://arxiv.org/abs/2602.06430
エネルギーを意識したメタヒューリスティクス [cs.NE]目的：エネルギー制約下でのメタヒューリスティクス設計のための枠組み
- 限られたエネルギー資源下での最適化問題の重要性が増しているため
- 従来のメタヒューリスティクスはエネルギー効率を考慮していない
- エネルギー効率を最大化しつつ，探索と利用のバランスを最適化すること
- 提案手法は，数値的な改善とエネルギー消費を定量化する統一的なモデルを導入した。
- エネルギーあたりの期待改善値（EI/J）に基づいて演算子の適応的な選択を行い，限られたエネルギー下での適応能力を高めている。
- 実験結果から，提案手法はエネルギー消費量を大幅に削減しつつ，従来のメタヒューリスティクスと同等の性能を達成することが示された。
Link: https://arxiv.org/abs/2602.06595
MATA：信頼性と柔軟性を備えた表形式質問応答のためのマルチエージェントフレームワーク [eess.SY, cs.SY, cs.RO, cs.CL, cs.AI]目的：表形式質問応答における信頼性，拡張性，効率性の向上
- 近年，LLMの発展により表理解が進んでいる。表形式データの活用は重要性が高い。
- LLMの利用には，計算資源やプライバシー保護の面で課題がある。効率的な手法が求められている。
- LLM利用を最小限に抑え，小規模モデルでも高い性能を実現することを目指す。
- MATAは，多様な推論経路と小規模言語モデルによるツールを活用するマルチエージェントフレームワークである。
- MATAは，様々なLLMで高い精度と効率的な推論を実現し，既存技術を上回る性能を示した。
- 複数の推論経路の適切な編成により，スケーラブルで信頼性の高い表形式質問応答が可能となる。
Link: https://arxiv.org/abs/2602.09642
いつ，何を質問すべきか：AskBenchとRubric-Guided RLVRによるLLMの明確化 [cs.NI, cs.CL, cs.LG]目的：LLMの明確化能力の評価と改善
- 大規模言語モデルの利用拡大に伴い，その信頼性が重要視されている。
- LLMは，情報不足や誤った前提下でも回答を生成し，誤情報を拡散する可能性がある。
- LLMが明確化を求めるタイミングと内容を適切に判断する能力の向上を目指す。
- AskBenchは，標準的なQAペアを複数ターンの対話形式に変換し，LLMの明確化能力を評価するベンチマークである。
- Rubric-Guided RLVRは，構造化された評価基準を用いて，明確化の精度，基準への適合性，対話効率を向上させる。
- 実験結果は，未知のドメインに対しても高い汎化性能を示す，一貫した精度向上を示している。
Link: https://arxiv.org/abs/2602.11199
TreeGrad-Ranker: 決定木における特徴量ランキングのための$O(L)$時間勾配 [cs.HC, cs.LG]目的：決定木における局所予測値の説明のための特徴量ランキング
- 機械学習モデルの説明可能性は，モデルの信頼性向上や意思決定支援に不可欠である。
- 特徴量ランキングの評価指標と理論的な根拠との乖離が課題となっていた。
- 勾配を直接最適化することで，より信頼性の高い特徴量ランキングを実現する。
- 提案手法TreeGrad-Rankerは，挿入および削除指標において既存手法を凌駕する性能を示した。
- TreeGradは，決定木の特徴量ランキングに必要な勾配を$O(L)$時間で計算可能である。
- TreeGrad-Shapは，数値的に安定したBeta Shapley値を計算するアルゴリズムである。
Link: https://arxiv.org/abs/2602.11623
誤った理由での正解：LLM因果推論のための後悔最小化 [cs.AI]目的：LLMの因果推論における誤りの特定と改善
- 大規模言語モデルの発展は目覚ましいが，因果推論の信頼性は課題である。
- LLMは相関関係を因果関係と誤認し，不適切な推論を行う可能性がある。
- 推論過程を分析し，モデルが陥りやすい誤りを修正することを目指す。
- 本研究では，推論の軌跡から因果推論の誤りを特定する「後悔最小化」フレームワークを提案した。
- 頑固なモデルに対し，因果関係の内容のみが修正を促すことが確認された (p=0.006)。
- 既存の強化学習手法では見過ごされる，因果推論における本質的な問題に対処できる可能性を示した。
Link: https://arxiv.org/abs/2602.11675
事前定義エキスパートの混合：垂直型連合学習におけるデータ利用の最大化 [cs.LG]目的：垂直型連合学習におけるデータ利用効率の向上
- 金融・医療などプライバシー保護が重要な分野で，データ連携によるモデル学習の需要が高まっている。
- 既存の垂直型連合学習フレームワークは，参加者間のサンプル完全一致を前提としており，現実にはサンプル不一致が頻繁に発生する。
- サンプル不一致に強く，データ利用効率を最大化する新しいフレームワークの開発。
- 提案手法Split-MoPEは，Split LearningとMoPEアーキテクチャを組み合わせることで，サンプル不一致に対応し，高い性能を達成した。
- 事前定義されたエキスパートを用いることで，データ利用を最大化し，通信コストを削減した。
- 悪意のある参加者やノイズに対するロバスト性，予測への貢献度可視化も実現した。
Link: https://arxiv.org/abs/2602.12708
キメラ：信頼性の高いデータプレーンインテリジェンスのためのニューロシンボリックアテンションプリミティブ [cs.NI, cs.AI, cs.CR, cs.LG]目的：データプレーンにおける信頼性の高い推論
- ネットワークの高度化に伴い，高速なトラフィック解析の需要が高まっている。
- ハードウェア制約と予測可能な動作の確保が，学習モデルの直接実装の課題となっている。
- ニューロシンボリックアテンションを用いて，データプレーン上での信頼性の高い推論を実現する。
- キメラは，アテンションベースのニューラル計算とシンボリック制約をデータプレーンプリミティブにマッピングするフレームワークである。
- カーネル化された線形アテンション近似と，キー選択階層，シンボリック保証を組み合わせることで，ニューラル表現力を維持する。
- 実証実験により，コモディティプログラマブルスイッチのリソース内で高精度な推論が可能であることが示された。
Link: https://arxiv.org/abs/2602.12851
注意：(DH)ギャップに気をつけろ！推論と会話型LLMにおけるリスク選択の対比 [cs.AI]目的：LLMにおける不確実性下での意思決定
- デジタル環境においてLLMの利用が拡大しており，意思決定支援の重要性が増している。
- LLMの意思決定プロセスに対する理解が十分ではなく，特に不確実性下での行動原理が不明である。
- LLMの意思決定におけるリスク選択の特徴を分析し，その合理性を評価することを目的とする。
- LLMは，推論モデル(RM)と会話型モデル(CM)の2つのカテゴリに分類された。
- RMは合理的な行動傾向を示し，提示順序やフレーミングの影響を受けにくい。
- CMはRMに比べて合理性が低く，人間らしい行動パターンを示し，提示順序やフレーミングに影響を受けやすい。
Link: https://arxiv.org/abs/2602.15173
GaiaFlow：意味誘導拡散チューニングによるカーボンフットプリント削減検索 [cs.CY, cs.IR, cs.LG]目的：カーボンフットプリント削減検索のための意味誘導拡散チューニング手法
- 大規模ニューラルアーキテクチャの電力消費増加に伴い，情報検索における環境持続可能性が重要課題となっている。
- 高精度なニューラルランキングモデルは計算コストが高く，大規模展開時の環境負荷が無視されがちである。
- 検索精度と環境負荷のトレードオフを最適化し，持続可能な次世代検索システムの実現を目指す。
- GaiaFlowは，検索誘導ランジェビン力学とハードウェア非依存の性能モデリングを組み合わせることで，環境負荷を軽減しながら高い検索精度を維持する。
- 適応的早期終了プロトコルと精度を考慮した量子化推論により，運用時のカーボンフットプリントを大幅に削減する。
- 実験結果から，GaiaFlowは効果とエネルギー効率のバランスに優れ，スケーラブルで持続可能な検索システムとなる可能性が示された。
Link: https://arxiv.org/abs/2602.15423
LiveGraph：運動推薦のためのアクティブ構造ニューラル再ランク付け [cs.IR, cs.LG]目的：運動推薦における予測精度と多様性の向上
- デジタル学習環境の拡大に伴い，個別最適化された教育コンテンツの提供が求められている。
- 既存の推薦システムは，学習者のエンゲージメントのロングテール分布への対応が課題である。
- 学習履歴の構造的関係性を活用し，精度と多様性のバランスを取ることを目指す。
- LiveGraphは，アクティブとインアクティブな学習者間の情報格差を埋めるグラフベースの表現強化戦略を用いる。
- 動的な再ランク付けメカニズムを統合することで，コンテンツの多様性を促進する。
- 実世界のデータセットを用いた実験により，既存手法を上回る予測精度と多様性が示された。
Link: https://arxiv.org/abs/2602.17036