arXiv雑要約

AI - 2026/05/05 公開

SynQuE：アノテーションなしでの合成データセット品質の推定 [cs.LG]目的：合成データセットの品質推定
- データ収集コストやプライバシー制約から，実データが不足する状況は頻繁に発生する。
- 合成データセットの品質を評価する既存手法は，アノテーションされた実データに依存している場合が多い。
- アノテーションなしで，実世界タスクにおける性能を予測する品質推定手法を確立すること。
- 提案手法SynQuEは，様々なタスクにおいて，実タスク性能との相関が確認された。
- 特に複雑なタスクでは，大規模言語モデルを活用した新しいプロキシ指標LENSが他の手法を上回る性能を示した。
- Text2SQLタスクでは，SynQuEを用いて選択した合成データセットで学習することで，平均精度が8.1%向上した。
Link: https://arxiv.org/abs/2511.03928
統合ヘルスケアスケジューリングコンペティション2024のためのハイブリッド解法アプローチ [cs.AI, math.OC]目的：統合ヘルスケアスケジューリングコンペティション2024における解法アプローチ
- 医療資源の効率的な活用は，患者の満足度向上と医療費抑制に不可欠である。
- 複雑な制約条件を持つスケジューリング問題は，最適解を得ることが困難である。
- 本研究は，複数の解法を組み合わせることで，より高品質なスケジューリング解を効率的に得ることを目指す。
- チームTwenteの解法アプローチは，コンペティションで最終選考に残ったチーム中3位の成績を収めた。
- 混合整数計画法，制約プログラミング，シミュレーテッドアニーリングを組み合わせた3段階の解法が採用された。
- ベンチマークインスタンスに対する最適解の下界値を初めて提示し，アルゴリズムの改善点を示唆した。
Link: https://arxiv.org/abs/2511.04685
蒸留による高速化を用いた多目的RTAインターセプションにおける不確実性モデリング [cs.LG, cs.GT]目的：RTAインターセプションにおける無効または不適切なトラフィックのフィルタリング
- リアルタイムオークションのデータ品質は，下流タスクの信頼性・精度に大きく影響する。
- 不確実性モデリングは重要だが，リアルタイム処理の効率性を損なうボトルネックとなる。
- 不確実性モデリングの計算コストを削減しつつ，予測精度と信頼性を維持すること。
- UMDAは，多目的学習と不確実性モデリングを統合し，トラフィック品質予測と信頼性の高い信頼度推定を実現。
- 知識蒸留を適用することで，UMDAは計算コストを大幅に削減しつつ，予測精度を維持。
- JDおよびCriteoデータセットで，UMDAが下流タスクに有効なサンプルを提供し，推論速度が10倍向上。
Link: https://arxiv.org/abs/2511.05582
構造が役に立たない場合：LLMは期待ほどテキスト属性グラフを効果的に読めない [eess.SY, cs.SY, cs.LG]目的：テキスト属性グラフにおけるLLMの性能に対するグラフ構造のエンコード戦略の影響
- グラフはセマンティックな内容と関係構造を統一的に表現でき，分子モデリング等の分野で重要である。
- 従来のグラフ学習パラダイムでは，構造がLLMベースのグラフ推論に不可欠と考えられてきた。
- LLMにおける構造の利用方法を再考し，セマンティクス駆動型のアプローチを開拓すること。
- ノードのテキスト記述のみでも，多くのタスクでLLMはすでに高い性能を発揮することが示された。
- 構造エンコード戦略の多くは，わずかな改善効果しかなく，場合によっては性能を低下させる。
- 強力な言語モデルにおいては，明示的な構造的プライアが必ずしも必要ではなく，逆効果となる場合もある。
Link: https://arxiv.org/abs/2511.16767
6GにおけるLLMベースのエージェント的交渉：不確実性の軽視とテールイベントリスクへの対処 [cs.NI, cs.AI, cs.MA]目的：6Gネットワークスライシングにおけるロバストなリソース配分
- 次世代6Gネットワークでは，自律的なエージェントによるネットワーク運用が重要となる。
- LLMを搭載したエージェントは，平均値に依存し，極端な事象のリスクを無視する傾向がある。
- 本研究は，エージェントの交渉において，リスクを考慮したフレームワークを提案し，信頼性を高める。
- 提案手法では，デジタルツインを用いて完全な遅延分布を予測し，極値理論のCVaRを用いて評価する。
- 実験結果から，平均値ベースのベースラインは厳格なURLLC SLAを頻繁に違反するのに対し，提案手法は違反を完全に排除した。
- 提案手法は，99.999パーセンタイル遅延を最大51.7%削減し，RTX A4000 GPU上で1.5秒未満の推論時間を達成した。
Link: https://arxiv.org/abs/2511.19175
法的問題ツリーに基づくルーブリックを用いた法的推論経路の評価 [cs.AI, cs.CL]目的：法的推論経路の評価手法
- 専門分野におけるLLMの信頼性と説明責任を確保するため，推論経路の質評価が不可欠である。
- 法的推論は複雑であり，その評価は困難である。既存の評価方法は情報が不足している場合がある。
- 法的問題ツリーを用いて，法的推論経路の網羅性と正確性を評価する。
- 本研究で構築したデータセットLEGITを用いて，LLMの法的推論能力が法的問題の網羅性と正確性に大きく影響されることが示された。
- 検索拡張生成（RAG）とルーブリックを用いた強化学習（RL）が，法的推論能力を向上させる上で相補的な効果をもたらすことが明らかになった。
- RAGは全体的な推論能力を向上させ，RLは正確性を向上させるものの，網羅性が低下する可能性がある。
Link: https://arxiv.org/abs/2512.01020
明示的な保守性なしの長期的モデルベースオフライン強化学習 [cs.LG]目的：長期的ロールアウトにおける価値過大評価の抑制
- オフライン強化学習は，実世界での学習を可能にする重要な技術である。
- 既存手法は保守性を導入するが，それが常に有効とは限らない。
- ベイズ的アプローチにより，保守性なしに長期的な学習を可能にする。
- 本研究では，ベイズ主義が低品質データセットにおいて保守性よりも優れていることを示した。
- 長期的ロールアウトが，保守性を除去した場合の価値過大評価を抑制する上で不可欠であることがわかった。
- NEUBAYは，D4RLおよびNeoRLベンチマークにおいて，最先端の保守的アルゴリズムに匹敵し，7つのデータセットで新たな最高性能を達成した。
Link: https://arxiv.org/abs/2512.04341
TimesNet-Gen：深層学習に基づくサイト固有の強震動生成 [cs.LG, cs.AI]目的：サイト固有の強震動の生成
- 地震災害の軽減には正確な評価が不可欠であり，地盤特性の影響を考慮する必要がある。
- 既存手法では，サイト固有の情報を効果的に組み込むことが課題となっていた。
- サイト固有の強震動を，明示的な条件付けや次元削減なしに生成することを目指す。
- TimesNet-Genは，Dirichletに基づいた潜在空間のリサンプリング戦略により，サイト固有の生成を直接実現した。
- AFADデータセットで事前学習したモデルは，ファインチューニングなしにNGA-West2データを生成し，高い地域間汎化性能を示した。
- log-HVSR空間での分布比較や，PGAと基本サイト周波数の同時解析により，その性能が検証された。
Link: https://arxiv.org/abs/2512.04694
コンピューター断層撮影における新規パッチベースTDAアプローチ [cs.CV, cs.LG]目的：コンピューター断層撮影画像からのトポロジー的特徴抽出手法の開発
- 画像診断，病期分類，予後予測において，コンピューター断層撮影は不可欠な役割を担う。
- 従来のトポロジーデータ解析は，高解像度画像において計算コストが高く，性能が低下する課題があった。
- 本研究は，計算効率と性能を向上させたパッチベースのトポロジーデータ解析手法を提案することで，この課題を解決する。
- 提案手法は，既存のcubical complex法やラディオミクス特徴量と比較して，分類性能と計算時間の双方で優位性を示した。
- 精度，AUC，感度，特異度，F1スコアにおいて，それぞれ平均7.2%，3.6%，2.7%，8.0%，7.2%の改善が確認された。
- 本研究の成果を容易に活用できるよう，Pythonパッケージ「Patch-TDA」を公開した。
Link: https://arxiv.org/abs/2512.12108
静止ニューロン，活発な洞察：大規模言語モデルの活性スパース性を強化する [cs.LG]目的：大規模言語モデルにおける活性スパース性のロバスト性の向上
- 大規模言語モデルの推論高速化は重要であり，活性スパース性はその有力な手段の一つである。
- 既存手法では，高いスパース性で精度が著しく低下する問題が存在する。
- 入力依存的な活性の摂動による表現不安定性を解消し，スパース推論の信頼性を高める。
- 提案手法「SPON」は，ニューロンの自発的活動に着想を得た軽量なメカニズムであり，表現のアンカーとして機能する。
- SPONは，複数のLLMバックボーンにおいて，性能回復，潜在表現の安定化，汎化性能の維持に貢献する。
- SPONは，信頼性の高い活性スパース推論のための効果的な解決策となり，LLMにおける知識保持に関する新たな洞察を提供する。
Link: https://arxiv.org/abs/2512.12744
深層演算ネットワークを用いた炭素/エポキシ複合材料のプロセス誘発変形の確率的予測 [cs.CE, cond-mat.mtrl-sci, cs.LG]目的：炭素/エポキシ複合材料のプロセス誘発変形の予測
- 複合材料の製造工程において，熱膨張率の不一致や硬化収縮が生じ，製品品質に影響を与えるため，予測技術が重要である。
- 従来の予測手法では，複雑な変形を正確に捉えることが難しく，最適化された硬化サイクル設計が困難である。
- 深層演算ネットワークを用いて，プロセス誘発変形の高精度な予測と，硬化スケジュールの最適化を実現する。
- 高精度シミュレーションと実験データを組み合わせたデータセットを用いて，深層演算ネットワーク（DeepONet）を訓練した。
- 初期硬化度などの外部パラメータに対応するFiLM DeepONetを開発し，硬化度，粘度，変形の時間履歴予測を可能にした。
- 実験データが限られている状況下で，転移学習とアンサンブルカルマン反転（EKI）により，不確実性の定量化と硬化スケジュール最適化を実現した。
Link: https://arxiv.org/abs/2512.13746
NRGPT：GPTのエネルギーベースの代替案 [cs.LG]目的：GPTのエネルギーベースモデリングへの統合
- 言語モデルは自然言語処理の根幹であり，その性能向上は重要である。
- GPTは確率モデルであり，エネルギーベースモデルとの統合が課題であった。
- GPTとエネルギーベースモデルを統一し，新たな推論プロセスを確立する。
- 本研究で提案するNRGPTは，エネルギーランドスケープ上でのトークン探索として推論を行う。
- NRGPTの探索は，特定の条件下で勾配降下法と等価であることが証明された。
- ShakespeareデータセットやOpenWebTextにおいて，良好な言語モデル性能が確認された。
Link: https://arxiv.org/abs/2512.16762
地震波場の共通タスクフレームワーク [cs.LG]目的：地震波場の機械学習のための共通タスクフレームワーク
- 地震学は，地震早期警報や地盤変動予測など，社会にとって重要な課題に取り組んでいる。
- 地震波場のシミュレーションは計算量が膨大であり，実データは地球の複雑さを十分に反映できていない。
- 機械学習の進展を促進するため，標準化された評価基盤の確立が求められている。
- 本研究では，グローバル，地殻，局所スケールの3種類のデータセットを用いた共通タスクフレームワークを提案した。
- 提案フレームワークは，予測，再構成，現実的な制約下での汎化性能を評価するための指標を含む。
- フレームワークを用いて様々な手法を評価し，各手法の長所・短所，および適用可能性を明らかにした。
Link: https://arxiv.org/abs/2512.19927
議論を強化した擬似ラベル付けと頻度を考慮した漸進的バイアス軽減：スクリブル注釈による弱学習カモフラージュ物体検出 [cs.CV, cs.AI]目的：弱学習カモフラージュ物体検出における，物体位置とセグメンテーションの精度向上
- カモフラージュ物体検出は，現実世界の様々な応用において重要であり，その自動化が求められている。
- 弱学習設定では，アノテーションコストを削減できるものの，精度が大きく低下する課題がある。
- 擬似ラベルの信頼性向上とスクリブルバイアスの軽減により，精度向上を目指す。
- 提案手法${D}^{3}$ETORは，SAMの性能を向上させる議論強化擬似ラベル付けを導入し，より正確な擬似マスクを生成する。
- FADeNetは，多水準周波数特徴を融合し，グローバルな理解とローカルな詳細モデリングのバランスを取ることで，スクリブルバイアスを軽減する。
- 擬似マスクとスクリブルセマンティクスを組み合わせることで，弱学習とフル学習の性能差を縮小し，最先端の結果を達成する。
Link: https://arxiv.org/abs/2512.20260
訓練済み拡散モデルにおける崩壊からの回復のためのノイズ最適化：遅すぎることはない [cs.CV, cs.LG]目的：訓練済み拡散モデルにおけるモード崩壊の緩和
- 近年の画像生成モデルにおいて，多様性の欠如が課題となっているため，生成品質向上が重要である。
- 同一プロンプトでの画像生成時に，生成される画像が類似しやすく，多様性が不足するという問題がある。
- ノイズ最適化によってモード崩壊を抑制し，生成画像の多様性と品質を向上させることを目指す。
- ノイズ最適化というシンプルな手法が，ベースモデルの忠実性を保ちつつモード崩壊を軽減できることが示された。
- ノイズの周波数特性を分析し，異なる周波数プロファイルを持つノイズ初期化が最適化と探索を改善する可能性が示唆された。
- 実験の結果，ノイズ最適化は生成品質と多様性の両面において，既存手法よりも優れた結果が得られることが確認された。
Link: https://arxiv.org/abs/2601.00090
高次元測定空間における品質多様性最適化のための割引モデル探索 [cs.RO, cs.LG, cs.NE]目的：品質多様性最適化における割引モデル探索
- 多様な解を効率的に探索する手法であり，複雑な問題への応用が期待される。
- 高次元の測定空間では，解が類似した測定値にマッピングされやすく，探索が停滞しやすい。
- 高次元測定空間における探索の停滞を回避し，多様な解の探索を促進すること。
- 提案手法DMSは，割引値を滑らかに表現するモデルを用いて探索を誘導する。
- 高次元測定空間において，DMSは類似した測定値を持つ解を識別し，探索を継続することが可能となる。
- 画像のような高次元データを用いた新たなドメインで有効性を示し，既存手法を上回る性能を達成した。
Link: https://arxiv.org/abs/2601.01082
画像品質評価におけるアルゴリズムの視線：LAION-Aesthetics Predictor の監査とトレース・エスノグラフィー [cs.CL, eess.SY, cs.SY, math.SP, cs.CL, cs.CL, cs.HC, cs.AI, cs.CV]目的：画像生成AIモデルの学習に用いられる美的評価モデルの評価基準の解明
- 画像生成AIの発展において，質の高いデータセット構築が不可欠であり，美的評価モデルはその重要な役割を担う。
- 美的評価は主観的かつ文化的背景に依存するが，既存モデルが特定の価値観を反映している可能性が指摘されている。
- 本研究は，LAION-Aesthetics Predictorが持つバイアスを特定し，より公平な美的評価のあり方を模索する。
- LAION-Aesthetics Datasetにおいて，女性に関する記述のある画像が優先的に選択され，男性やLGBTQ+に関する記述のある画像が除外される傾向が確認された。
- 西洋および日本の芸術家の風景画，都市景観，肖像画などの写実的な画像が，LAPによって高い評価を得る傾向が示された。
- LAPの開発過程におけるデータ収集の偏りが，モデルのバイアスに影響を与えていることが示唆された。
Link: https://arxiv.org/abs/2601.09896
推論ホップのスケール拡大が弱点を露呈：大規模言語モデルにおけるホップ汎化の解明と改善 [cs.CY, cs.HC, cs.CL, cs.LG]目的：大規模言語モデルにおける推論ホップ汎化の弱点解明と改善
- 複雑な問題解決において，大規模言語モデルの能力向上は不可欠である。
- 推論ステップ数が増加すると，性能が著しく低下する問題が存在する。
- 推論過程におけるエラーの集中箇所を特定し，汎化性能を改善する。
- エラーは特定のトークン位置に集中しており，誤った推論経路を増幅する注意ヘッドが存在することが判明した。
- 推論時にこれらの注意ヘッドを無効化することで，正しい予測が回復することが確認された。
- 提案手法であるテスト時推論修正は，推論ホップ汎化性能を向上させることが示された。
Link: https://arxiv.org/abs/2601.21214
E-mem：LLMエージェントメモリのためのマルチエージェントベースのエピソード的文脈再構築 [cs.AI]目的：LLMエージェントメモリにおけるエピソード的文脈再構築
- LLMエージェントの高度な推論能力実現には，長期的な論理整合性の維持が不可欠である。
- 既存のメモリ前処理法は，文脈を破壊的に失い，深層的な推論を阻害する問題がある。
- エピソード的文脈再構築により，文脈の整合性を維持し，LLMエージェントの推論能力を向上させる。
- E-memは，複数の補助エージェントと中央制御エージェントを用いることで，文脈を圧縮せずに保持する。
- LoCoMoベンチマークにおいて，F1スコアが54%を超え，最先端のGAMを7.75%上回る性能を示した。
- トークンコストを70%以上削減し，効率的なメモリ処理を実現した。
Link: https://arxiv.org/abs/2601.21714
モデルのマージ可能性の解明：モデルのマージ成功を予測するための解釈可能な特性 [cs.LG]目的：モデルのマージ成功を予測するための特性
- モデルの効率的な活用が重要視される中で，既存モデルの知識を統合する技術が求められている。
- モデルのマージにおける成功要因が不明確であり，汎用的な予測方法が存在しない。
- モデルのマージ成功に関わる特性を明らかにし，マージ可能性を予測する基盤を構築すること。
- モデルのマージ成功は，マージ方法やタスクに依存することが示された。
- 勾配のL2距離などの解釈可能なペアワイズ指標を用いて，マージ後の精度との相関が明らかになった。
- 特にTIES等の手法では独自の特徴が見られ，勾配アラインメントが重要な指標として示唆された。
Link: https://arxiv.org/abs/2601.22285
混合型特徴を持つ異種表形式データのためのカスケードフローマッチング [cs.LG, stat.ML]目的：異種表形式データにおける混合型特徴の生成
- 表形式データの生成モデルは，プライバシー保護やデータ拡張など，多様な応用が期待されている。
- 離散値と連続値が混在する混合型特徴を，忠実に生成することが課題であった。
- 低解像度表現と高解像度フローマッチングを組み合わせ，混合型特徴の生成精度向上を目指す。
- 本研究で提案するカスケード手法は，輸送コストの上界を厳密化することを数学的に証明した。
- 生成されたサンプルは，より現実的であり，分布の詳細を正確に捉えていることが示された。
- 検出スコアが51.9%向上するなど，性能評価においても良好な結果が得られた。
Link: https://arxiv.org/abs/2601.22816
学術医療センターにおけるLLMの導入と活用 [cs.CY, cs.AI]目的：大規模言語モデル（LLM）の学術医療センターにおける導入と活用
- 医療現場では，LLMを活用することで臨床記録の作成を支援し，業務効率化が期待される。
- 既存のLLMツールは，手動でのデータ入力が必要であり，ワークフローへの組み込みに課題がある。
- 患者の診療記録全体を活用し，LLMの利用を容易にすることで，臨床業務を支援する。
- ChatEHRシステムを開発し，LLMと患者の診療記録を統合することで，様々な臨床タスクへの応用を可能にした。
- 1.5年間で7つの自動化ツールを開発し，1075人のユーザーがUIの利用訓練を完了，最初の3ヶ月で23,000セッションが実施された。
- LLMの導入により，初年度で約600万ドルのコスト削減効果が期待される。費用対効果を評価するためのフレームワークが重要となる。
Link: https://arxiv.org/abs/2602.00074
小規模言語モデルは文脈要約された複数回の顧客サービスQAに対応可能か？合成データ駆動型比較評価 [cs.CL, cs.AI]目的：文脈要約された複数回の顧客サービスQAにおける小規模言語モデルの性能評価
- 顧客対応において，自然な会話理解が不可欠であり，高品質なQAシステムが求められている。
- 大規模言語モデルは高性能だが，計算コストが高く，リソース制約のある環境での利用が難しい。
- 小規模言語モデルの有効性を検証し，リソース制約下での顧客サービスQAの実現を目指す。
- 一部の小規模言語モデルは，大規模言語モデルに匹敵する性能を示すことが確認された。
- 対話の継続性や文脈の整合性を維持することには，モデル間で大きなばらつきが見られた。
- 小規模言語モデルの実用的な顧客サービスQAシステムへの応用可能性と課題が明らかになった。
Link: https://arxiv.org/abs/2602.00665
特定のヘッド，不確かなテール：ファインチューニングされたMoEにおけるテスト時スケーリングのためのエキスパート・サンプル [cs.LG]目的：テスト時スケーリングにおける多様性と安定性のバランス改善
- 大規模言語モデルの性能向上は，多様性と安定性の最適化が不可欠である。
- トークンレベルのサンプリングでは，温度調整による多様性と安定性のトレードオフが課題となる。
- ファインチューニングされたMoEのルーティング特性を活用し，多様性と安定性を両立する。
- エキスパート・サンプルは，高信頼度な選択を維持しつつ，不確かなテールに制御された確率性を導入する。
- 数学，知識推論，コードタスクにおいて，pass@nと検証ベースの精度が常に向上する。
- Qwen3-30B-A3B-InstructのGPQA-Diamond評価で，pass@32が85.4%から91.9%に，精度が59.1%から62.6%に向上した。
Link: https://arxiv.org/abs/2602.02443
トークン疎注意：インターリーブされたトークン選択による効率的な長文脈推論 [cs.CL, cs.CL, cs.LG]目的：大規模言語モデルにおける長文脈推論の効率化
- 言語モデルの性能向上には，より長い文脈を処理する能力が不可欠である。
- 従来の注意機構は計算量が大きいため，長文脈の処理が困難である。
- 動的なトークンレベルでの疎化により，計算コストを削減し，推論速度を向上させる。
- トークン疎注意は，精度劣化を最小限に抑えつつ，注意機構の処理速度を最大3.23倍に向上させた。
- 本手法は，既存の密な注意機構や疎な注意カーネルと互換性があり，容易に組み込むことができる。
- 動的かつインターリーブされたトークンレベルの疎化は，長文脈推論のスケーラビリティを向上させる有効な戦略である。
Link: https://arxiv.org/abs/2602.03216
大規模言語モデルに対するGCG敵対的攻撃におけるトークン位置 [cs.LG]目的：大規模言語モデルに対する敵対的攻撃におけるトークン位置の影響
- 大規模言語モデルの普及に伴い，安全性の確保が急務となっている。
- 敵対的プロンプトによる脱獄攻撃により，安全性評価が困難になっている。
- プロンプト内のトークン位置を考慮することで，より強固な安全性評価を目指す。
- 敵対的攻撃において，接尾辞としてだけでなく接頭辞を生成することも有効であることが示された。
- 敵対的トークンの位置を変化させることで，攻撃成功率が大きく変動することが確認された。
- 現在の安全性評価には，敵対的トークンの位置という重要な盲点が存在することが明らかになった。
Link: https://arxiv.org/abs/2602.03265
言語モデルは文脈内で学習した表現の利用に苦戦する [cs.SI, physics.soc-ph, cs.CL, cs.AI]目的：文脈内学習による表現の利用可能性の評価
- AI研究の重要な目標は，状況の変化に柔軟に対応できるシステムを開発すること。
- 現在のLLMは，文脈内で獲得した表現を効果的に活用できていない。
- 文脈内情報が柔軟に利用可能なモデルの開発を促す。
- オープンウェイトLLMおよび最先端の推論モデルにおいて，文脈内で定義された新しい意味の表現をタスクに適用する能力が低いことが示された。
- LLMは文脈内で意味を潜在表現に符号化できても，それを柔軟に活用できない。
- 本研究は，文脈内情報の符号化だけでなく，その活用を支援する新しい手法開発の必要性を示唆する。
Link: https://arxiv.org/abs/2602.04212
VecSet-Edit：単一画像からのメッシュ編集における事前学習済みLRMの活用 [cs.CV, cs.AI]目的：単一画像からの3Dメッシュ編集手法
- 3Dアセットの柔軟な制御が求められる分野であり，ユーザーエクスペリエンス向上に不可欠である。
- 既存手法は3D Gaussian Splattingやマルチビュー画像に依存し，直接的なメッシュ編集は未開拓である。
- 高精度なVecSet LRMを活用し，2D画像のみからメッシュを正確に編集することを可能とする。
- 本研究では，VecSetトークンの空間的特性を分析し，トークン部分集合が特定の幾何学的領域を制御することを発見した。
- Mask-guided Token SeedingとAttention-aligned Token Gatingにより，2D画像条件のみから目的領域を精密に特定する。
- Drift-aware Token Pruningにより，ノイズ除去過程における幾何学的外れ値を排除し，Detail-preserving Texture Bakingで幾何学的・テクスチャ情報を保持する。
Link: https://arxiv.org/abs/2602.04349
BadSNN：アドバーサリアル発火ニューロンによるスパイクニューラルネットワークへのバックドア攻撃 [cs.CR, cs.AI]目的：スパイクニューラルネットワークに対するバックドア攻撃手法
- スパイクニューラルネットワークは，省エネルギー性と生物学的妥当性から注目されている。
- 深層学習モデルと同様に，スパイクニューラルネットワークもバックドア攻撃に脆弱である可能性がある。
- スパイクニューロンの特性を利用した，スパイクニューラルネットワークへの新たなバックドア攻撃手法を開発する。
- 提案手法BadSNNは，スパイクニューロンのハイパーパラメータ変動を利用してバックドアを注入する。
- トリガー最適化により，攻撃性能を向上させつつ，トリガーパターンを認識しにくくする。
- 様々なデータセットとアーキテクチャにおいて，既存の攻撃手法を上回る性能を示す。
Link: https://arxiv.org/abs/2602.07200
リーマン多様体上の平均フロー [cs.LG]目的：リーマン多様体上での生成モデリングにおけるフローマップ学習
- タンパク質やDNA設計など，科学的サンプリングにおける生成モデリングの重要性が増している。
- 既存手法は推論時に多数のニューラルネットワーク評価を必要とし，計算コストが課題となっている。
- 少ない計算量で高品質なサンプル生成を可能にする新しい手法の開発。
- リーマン平均フロー（RMF）は，多様体上での直接的なフローマップ学習を可能にする。
- RMFは，従来のモデルと同等のサンプル品質を，最大10分の1の計算量で達成する。
- 少ステップのフローマップは，報酬予測ルックアヘッドによる効率的な報酬誘導設計を可能にする。
Link: https://arxiv.org/abs/2602.07744
高等教育における生成型ソーシャルロボットの知識に基づく設計要件 [cs.HC, cs.AI]目的：高等教育における生成型ソーシャルロボットの責任ある効果的な機能に必要な情報
- 教育現場でのロボット活用は，個別最適化された学習支援を可能にする重要な手段となり得る。
- 生成型AIの倫理的課題や，誤情報，過度な依存，プライバシー侵害等のリスクが顕在化している。
- 生成型AIの能力と教育的・倫理的な期待との整合性を図るための設計基盤を構築すること。
- 大学の学生と講師へのインタビューから，自己知識，ユーザ知識，文脈知識の3つの知識タイプに分類される12の設計要件が特定された。
- 自己知識は，ロボットの性格（積極性，誠実さ，友好的さ）と役割のカスタマイズに関する情報を含む。
- ユーザ知識は，学習目標，進捗，モチベーション，感情，背景に関する学生個人の情報である。
Link: https://arxiv.org/abs/2602.12873
衛星画像を用いたAIによる早期の山火事検知とリスク評価：WildfireVLM [cs.CV, cs.AI]目的：山火事の早期検知とリスク評価のためのAIフレームワーク
- 地球温暖化や人為的な活動により山火事の頻度と規模が拡大しており，生態系や社会に甚大な被害をもたらす。
- 衛星画像による監視は，微弱な煙の検出，動的な気象条件，広範囲のリアルタイム分析の必要性から課題が多い。
- 衛星画像と言語駆動型リスク評価を組み合わせ，山火事の早期検知と迅速な対応を可能にすることを目指す。
- WildfireVLMは，Landsat-8/9やGOES-16などの衛星画像を用いて山火事と煙を検知するYOLOv12を採用している。
- 検出結果を多言語大規模言語モデル(MLLM)が文脈に応じたリスク評価と災害管理のための優先度の高い対応策に変換する。
- システムはリアルタイム処理，視覚的なリスクダッシュボード，長期的な山火事追跡をサポートするサービス指向アーキテクチャで実装されている。
Link: https://arxiv.org/abs/2602.13305
多段階推論における量子化の罠：線形スケーリング則の打破 [cs.AI]目的：多段階推論における量子化による線形スケーリング則の打破とそのメカニズム
- AIの進歩にはスケーリング則が重要であり，計算効率とエネルギープロファイルの改善に寄与する。
- 数値精度を下げることによる効率化が，複雑な推論処理において必ずしも成立しないという問題がある。
- 量子化によるエネルギー消費の増加と精度低下を引き起こす「量子化の罠」の発生条件を明らかにすること。
- 量子化（16ビットから8/4ビットへの削減）が，エネルギー消費を増加させ，推論精度を低下させる「量子化の罠」が多段階推論で発生することが示された。
- この現象は，ハードウェアのキャストオーバーヘッドや，逐次的な推論チェーンにおける量子化・非量子化の遅延コストが原因であることが理論的に解明された。
- モデルサイズ，バッチサイズ，ハードウェア構成に応じて「量子化の罠」が深まるか解消されるかを予測する「臨界モデル規模」が導出され，実験的に検証された。
Link: https://arxiv.org/abs/2602.13595
HyMem：動的検索スケジューリングを備えたハイブリッドメモリアーキテクチャ [cs.AI]目的：長文対話における効率的なメモリ管理
- 大規模言語モデルの性能向上には，長文の文脈を効果的に扱うことが不可欠である。
- 既存手法は，効率性と有効性のトレードオフに陥り，複雑な推論に必要な詳細情報の損失や計算コストの増大を招く。
- 多様な問題シナリオに適応可能な，柔軟かつ積極的なメモリスケジューリング機構の実現を目指す。
- HyMemは，マルチ粒度メモリ表現と動的二階層検索システムにより，効率と性能のバランスを実現した。
- LOCOMOとLongMemEvalのベンチマークで，HyMemはフルコンテキストモデルを凌駕しつつ，計算コストを92.6%削減した。
- HyMemは，長文メモリ管理における最先端の性能を確立した。
Link: https://arxiv.org/abs/2602.13933
一つの良い情報源だけで十分：異質なノイズ下におけるバンディット問題に対するほぼ最適な後悔 [cs.LG]目的：異質なノイズを持つ複数のデータソース下での多腕バンディット問題における後悔最小化
- 多腕バンディット問題は，意思決定における探索と活用のトレードオフを扱う重要な研究分野である。
- 現実のデータはノイズを含んでおり，その分散は情報源によって異なる場合がある。分散の推定と適応的な情報源選択が課題となる。
- 最小分散の情報源を特定しつつ，最適な腕を選択することで後悔を最小化することを目指す。
- 提案手法SOARは，分散集中不等式を用いて高分散の情報源を迅速に排除し，最適な腕と最小分散の情報源を同時に特定する。
- SOARは，最小分散の情報源の分散${\sigma^*}^2$を用いて，標準的な単一情報源バンディット問題と同等の後悔境界を達成する。
- 実験結果は，SOARが既存手法よりも優れた性能を示すことを示しており，特に分散の差が大きい場合に効果を発揮する。
Link: https://arxiv.org/abs/2602.14474
RAT+：密に学習し，疎に推論する - 拡張された注意機構による膨張推論 [cs.LG]目的：膨張推論のためのリカレンス拡張注意機構
- 近年，大規模言語モデルの計算コスト削減が重要課題となっている。
- 事前学習済みの注意機構モデルを直接疎化すると，精度が著しく低下する。
- 本研究は，柔軟な再利用を可能にする，精度劣化を抑制した疎化手法を開発する。
- RAT+は，1.5BパラメータでD=16において，密な学習精度に匹敵し，D=64では2～3ポイントの精度低下に抑えられた。
- 2.6Bおよび7.6Bパラメータへの拡張により，より有望な性能が確認された（例：64倍のFLOPs/KVキャッシュ削減で1ポイントの平均精度損失）。
- 単一のRAT+モデルを事前に密に学習することで，推論時に膨張注意機構やハイブリッド構成に柔軟に対応可能である。
Link: https://arxiv.org/abs/2602.18196
UMAP と他の次元削減手法の比較研究 [cs.LG, stat.AP, stat.ML]目的：次元削減手法の比較評価
- 高次元データの解析において，次元削減は不可欠な前処理である。
- UMAP の教師あり学習版は，回帰問題においてその性能が十分に検証されていない。
- 教師あり UMAP の回帰における課題を明らかにし，改善の方向性を示す。
- UMAP は分類問題において良好な性能を示すことが確認された。
- 回帰問題においては，教師あり UMAP は応答変数の情報を効果的に組み込むことが困難であることが示された。
- 教師あり UMAP の回帰問題における性能向上が今後の課題である。
Link: https://arxiv.org/abs/2603.02275
構築，評価，最適化：マルチエージェント型消費者アシスタントの継続的改善のための設計図 [cs.AI, cs.CL, cs.LG]目的：マルチエージェント型消費者アシスタントの継続的改善のための設計図
- 近年，AIエージェントを用いた消費者アシスタントの需要が高まっており，実用化が求められている。
- マルチターン対話の評価方法や，複数エージェント間の連携最適化が課題となっている。
- 本研究では，実用的な評価指標と最適化手法を提示し，消費者アシスタントの品質向上を目指す。
- マルチエージェント型消費者アシスタントの評価指標を，構造化された要素に分解する評価ルブリックを導入した。
- LLMを評価者として活用するパイプラインを開発し，人間の評価との整合性を確認した。
- GEPAを用いたサブエージェント最適化とMAMuTと呼ばれるシステムレベル最適化という2つのプロンプト最適化戦略を調査した。
Link: https://arxiv.org/abs/2603.03565
外生変数を用いた時系列予測のためのグラフ整合生成ネットワーク [cs.DC, cs.LG, cs.AI]目的：外生変数を用いた時系列予測における予測精度向上
- 時系列データは社会の様々な分野で利用され，将来予測は意思決定に不可欠である。
- 従来の予測手法は，時間的相関とチャネル相関を別々にモデル化し，両者の同時相関を捉えきれていない。
- ノイズの影響を受けにくい，時間的・チャネル相関の同時モデリングによる予測精度の向上を目指す。
- 本研究では，グラフ整合生成ネットワーク（GCGNet）を提案し，粗い予測を生成後，グラフ構造による整合性評価でガイドする。
- GCGNetは，生成された相関グラフと真の相関グラフの一致度を評価し，ノイズに強い相関モデリングを実現する。
- 12の現実世界のデータセットを用いた実験で，GCGNetが最先端の基盤モデルを上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.08032
知識グラフにおける詳細レベル：スペクトル熱拡散による抽象化境界の発見 [cs.LG, cs.AI]目的：知識グラフにおける抽象化レベルの境界発見と，そのナビゲーションのメカニズム
- 知識グラフは情報を階層的に整理するが，詳細度の連続的な制御が課題であった。
- 従来のコミュニティ検出は離散的であり，手動でのパラメータ調整が必要である。
- 連続的なズーム操作と，境界検出の保証を提供する枠組みを提案する。
- 提案手法（SLoD）は，グラフラプラシアン上の熱核拡散を用いて，連続的なズーム操作を定義する。
- 合成階層構造において，検出された境界は植えられた階層レベルを高い精度で復元した。
- WordNet名詞階層において，検出された境界は実際の分類学的深さと一致し，パラメータ調整なしに意味のある抽象化レベルの発見が可能となった。
Link: https://arxiv.org/abs/2603.08965
GenRecEdit：コールドスタートアイテムに対する生成レコメンデーションのためのモデル編集の適応 [cs.IR, cs.AI]目的：生成レコメンデーションにおけるコールドスタートアイテムに対する性能改善
- 推薦システムは，ユーザーの興味に合致するアイテムを提示し，情報探索を支援する上で不可欠である。
- 既存の生成レコメンデーションモデルは，コールドスタートアイテムに対して著しく精度が低下するという課題がある。
- 本研究は，モデル編集のパラダイムを生成レコメンデーションに適用し，コールドスタート問題の解決を目指す。
- GenRecEditは，シーケンス全体の文脈と次トークン生成の関係を明示的にモデル化することで，コールドスタートアイテムの推薦性能を大幅に向上させる。
- 反復的なトークンレベル編集と1対1のトリガーメカニズムにより，複数回の編集時の干渉を抑制し，効率的なモデル更新を実現する。
- 実験結果から，GenRecEditは再学習に必要なトレーニング時間の約9.5%で，コールドスタートアイテムに対する推薦性能と既存の推薦品質を維持することが示された。
Link: https://arxiv.org/abs/2603.14259
検出は安価だが，ルーティングは学習される：拒否に基づくアライメント評価が失敗する理由 [cs.CL, cs.LG, cs.AI, cs.CL]目的：政治検閲における概念検出から行動ポリシーへのルーティング機構の解明
- AIアライメントは，AIシステムの安全性と倫理的な行動を保証する上で不可欠である。
- 既存のアライメント評価は，概念のエンコードや拒否応答に焦点を当てており，ルーティング機構を無視している。
- AIモデルにおけるルーティング機構を明らかにし，より包括的なアライメント評価手法を提案すること。
- 中国語起源の言語モデルにおける政治検閲を調査した結果，概念検出の精度だけではアライメント評価に不十分であることが示された。
- モデル固有のルーティング機構が存在し，政治的感受性を除去することで検閲が解消される一方，一部モデルでは知識の混同が確認された。
- 拒否応答だけでは検閲を検出しにくくなっており，検閲はナラティブ誘導によって行われていることが明らかになった。
Link: https://arxiv.org/abs/2603.18280
階層型強化学習を用いた多クラス発生状況におけるリソース制約下での非薬物介入の最適化 [cs.LG]目的：多クラスの感染症発生状況における非薬物介入資源配分戦略
- 感染症の蔓延抑制において，検査や隔離などの非薬物介入は不可欠である。
- 初期段階では資源が限られており，複数の発生クラスへの効率的な配分が課題となる。
- 限られた資源で，複数の発生クラスを考慮した最適な資源配分を可能にすること。
- 提案手法は，既存のRMABベース手法やヒューリスティック手法と比較して，アウトブレイク抑制効果が20～30%向上した。
- 最大40の同時発生クラスにおける実験により，提案手法の拡張性と高速な意思決定能力が示された。
- 本手法は，グローバルな資源需要を調整するコントローラと，クラスごとの資源配分価値を推定するローカルポリシーを組み合わせることで，高い性能を実現している。
Link: https://arxiv.org/abs/2603.19397
ブラックボックスドメイン適応のためのサブネットワーク修正による適応型デュアル教師蒸留 [cs.CV, cs.LG]目的：ブラックボックスドメイン適応におけるセマンティックギャップの解消
- 現実的な利用シーンが多く，ドメイン適応技術の重要性が高まっている。
- 既存手法では，ブラックボックスモデルとViLの知識の不一致が課題となっていた。
- ブラックボックスモデルとViLの知識を調和させ，ドメイン適応性能を向上させる。
- 提案手法DDSRは，ブラックボックスモデルとViLからの予測を融合し，信頼性の高い擬似ラベルを生成する。
- サブネットワークに基づく正則化により，ノイズの多い教師信号への過学習を抑制する。
- ターゲット予測の反復的な改善により，擬似ラベルとViLプロンプトのセマンティックアラインメントを強化する。
Link: https://arxiv.org/abs/2603.22908
高レベル合成のためのエージェントファクトリ：汎用コーディングエージェントはハードウェア最適化においてどこまで到達できるか [cs.AI, cs.AR, cs.LG]目的：ハードウェア設計の最適化
- 高性能なハードウェア設計が求められる現代において，設計効率の向上が重要である。
- 高レベル合成における設計空間の探索は複雑であり，最適解を見つけることが困難である。
- 汎用コーディングエージェントによるハードウェア最適化の可能性を探求し，効率的な設計手法を確立すること。
- 汎用コーディングエージェントの活用により，ベースラインと比較して平均8.27倍の高速化を達成した。
- 特に，streamclusterとkmeansのベンチマークでは，それぞれ20倍以上，約10倍という顕著な高速化が見られた。
- エージェントは，ドメイン固有の学習なしに既知のハードウェア最適化パターンを再発見し，最適な設計はILP上位候補から得られるとは限らないことが示された。
Link: https://arxiv.org/abs/2603.25719
アラインメント経路：言語モデルにおけるポリシー回路の局所化，スケーリング，制御 [cs.FL, cs.CL, cs.DB, cs.CL, cs.AI, cs.LG]目的：アラインメント学習済み言語モデルにおけるポリシールーティング機構の特定
- 大規模言語モデルの安全性と信頼性確保は，社会実装において極めて重要である。
- 言語モデルの安全性を制御するメカニズムが明確でなく，解釈可能性に課題がある。
- 言語モデルのポリシールーティング機構を特定し，その制御方法を明らかにすること。
- アラインメント学習済み言語モデルにおいて，特定の層の注意ゲートがポリシールーティングを担っていることを局所化した。
- このゲートは，モデルの規模に応じて単一のヘッドから複数のヘッドへと変化するが，出力に占める割合は小さくても，その存在は不可欠であることが確認された。
- 検出層への信号を調整することで，モデルのポリシー（拒否，回避，事実応答）を連続的に制御できることが示された。
Link: https://arxiv.org/abs/2604.04385
マルチモーダル融合のトポロジー：創造的認知における現状のアーキテクチャの失敗要因 [cs.AI, cs.LG]目的：マルチモーダルAIアーキテクチャにおけるトポロジー的な構造的限界
- AIにおける創造性の実現は，人間レベルの知能を達成する上で不可欠である。
- 既存のマルチモーダルAIは，異なるモダリティ間の関係性を十分に捉えられていない。
- 既存アーキテクチャのトポロジー的限界を克服し，創造的認知能力を向上させる。
- 現在のマルチモーダルAIアーキテクチャに共通する「モダリティ分離可能性」という幾何学的先験性を指摘。
- ウィットゲンシュタインの「言う／示す」の区別を，中国の職人知論における「象」という概念で再解釈。
- Neural ODEsを用いたUOO実装，および新たなベンチマーク（ANALOGY-MM, META-TOP）を提案し，トポロジー的等価性の検証を試みる。
Link: https://arxiv.org/abs/2604.04465
巡回セールスマン問題における探索学習：最初の推測は最終的な答えではない [eess.SY, cs.SY, cs.LG, cs.AI]目的：巡回セールスマン問題に対する探索手順の学習
- 巡回セールスマン問題は組合せ最適化問題の代表例であり，物流やスケジューリングなど様々な分野に応用される。
- 既存のニューラルネットワークによる解法は単一の解を出力するのみで，実際の応用では改善探索が不可欠である。
- 学習による改善探索手法の性能向上が課題であり，より効率的な探索手順の確立が求められる。
- NICO-TSPは，2-opt改善フレームワークを用いて，既存の手法よりも一貫して強力かつステップ効率の良い改善を実現した。
- NICO-TSPは，より大規模な問題に対しても高い汎化性能を示し，古典的な局所探索手法の代替として利用可能である。
- また，NICO-TSPは構築型ソルバーのテスト時改善モジュールとしても有効であり，組み合わせ最適化問題の解法に貢献する。
Link: https://arxiv.org/abs/2604.06940
LLM誘導アクション空間を用いた合成可能なリード最適化 [cs.LG, cs.AI, cs.CE]目的：創薬におけるリード化合物の最適化
- 創薬において，治療効果と合成可能性の両立が重要であり，効率的なリード化合物の最適化が求められている。
- 既存手法では，合成可能性を無視した最適化や，計算コストの高い網羅的な反応探索が課題となっていた。
- 本研究では，検証済みの反応テンプレートに基づいたアクション空間を構築し，LLMを活用して合成可能な最適化を可能とする。
- MolReActは，13の特性最適化タスクと1つの構造ベースドッキングタスクにおいて，平均Top-10スコア0.571を達成し，全てのベースラインを上回った。
- 14のタスクのうち13で1位または2位を記録し，9つのタスクで最高のサンプル効率を示した。
- MolReActは，各最適化ステップを検証済みの反応テンプレートに基盤することで，特性改善だけでなく，明示的な合成経路も提供する。
Link: https://arxiv.org/abs/2604.07669
重要な箇所にパズルピースを配置：強化学習のための質問拡張フレームワーク [cs.LG]目的：強化学習における大規模言語モデルの推論能力向上
- 大規模言語モデルの推論能力向上は，自然言語処理の重要な課題である。
- 容易な問題での過学習や，困難な問題での疎な報酬が，学習の妨げとなる。
- 重要な推論ステップを戦略的に提示することで，効率的な学習を促す。
- 提案手法PieceHintは，問題の難易度に応じてヒントを適切に割り当てる。
- これにより，モデルは段階的に自律的な推論能力を獲得する。
- 1.5Bモデルが32Bモデルと同等の性能を示し，pass@kの多様性を維持した。
Link: https://arxiv.org/abs/2604.15830