arXiv雑要約

AI - 2026/03/10 公開

ハイパー・トークン：継続的なビデオ・言語理解のためのトークン動的制御 [cs.CV, cs.LG]目的：継続的なビデオ質疑応答におけるタスク間干渉の抑制と，タスク固有プロンプトの記憶コスト削減
- マルチモーダル大規模言語モデルは，ビデオと言語の理解において高い性能を示すが，継続学習には課題がある。
- 継続学習において，新しいタスクを学習する際に過去のタスクの知識が失われる「忘却」が問題となる。
- 動的にトークンを生成・更新することで，記憶容量を固定しつつ忘却を抑制し，継続学習を可能にすること。
- ハイパー・トークンは，Transformerベースのトークン生成器を用いて，必要に応じてファインチューニング・トークンを生成する。
- メタ学習に触発された正則化項により，タスク固有の鋭い方向への過学習を抑制し，過去のタスクへの固定化を促進する。
- 標準的な継続ビデオ質疑応答ベンチマークにおいて，ハイパー・トークンは高い平均精度と低い忘却率を達成し，クロスモーダルImageQA→VideoQAにおいても堅牢な継続転移を実現した。
Link: https://arxiv.org/abs/2603.06662
グラフ・オブ・マーク：グラフベースの視覚的プロンプトによりマルチモーダル言語モデルの空間推論を促進する [cs.CV, cs.AI]目的：マルチモーダル言語モデルにおける空間推論能力の向上
- 画像と言語を理解するAIの発展には，両者の関連性を正確に捉える能力が不可欠である。
- 従来の視覚的プロンプトは，物体間の関係性を考慮せず，孤立したエンティティとして扱ってしまう。
- シーングラフを画像に重ねることで，物体間の空間的な関係性を明示的にモデルに学習させる。
- 提案手法「グラフ・オブ・マーク」は，３つのオープンソースのマルチモーダル言語モデルと４つのデータセットで評価された。
- 実験の結果，視覚的質問応答と物体位置の特定において，ベースラインの精度が最大で11パーセント向上した。
- グラフ記述をテキストプロンプトに加えることで，モデルのゼロショット性能が向上することが確認された。
Link: https://arxiv.org/abs/2603.06663
グローバル時間インデックスを用いた逐次並列3D位置エンコーディングによるビデオ生成推論の高速化 [cs.CV, cs.AI]目的：ビデオ生成推論の高速化
- ビデオ生成技術は，エンターテイメント，教育，コミュニケーションなど幅広い分野で重要性を増している。
- 既存のビデオ生成モデルは，長尺ビデオの生成やリアルタイム推論において，計算コストとメモリ消費量の問題がある。
- 本研究は，効率的な推論パイプラインを構築し，リアルタイムインタラクティブアプリケーションを可能にすることを目指す。
- 提案手法は，8基のA800 GPUクラスタにおいて，生成品質を維持しつつ，最初のフレームのレイテンシーを1秒未満に短縮し，ほぼリアルタイムの推論速度を実現した。
- 480Pの5秒ビデオ生成において，1.58倍の高速化を達成し，リアルタイムインタラクティブアプリケーションへの有効性を証明した。
- 自己強制的な因果自己回帰フレームワークを順次並列推論に適合させ，計算局所化とランク間通信の削減を実現した。
Link: https://arxiv.org/abs/2603.06664
より良い視覚，より良い思考：医学における視覚Chain-of-Thoughtが失敗する理由 [cs.CV, cs.AI]目的：医学的視覚言語タスクにおけるChain-of-Thought（CoT）の有効性に関する調査
- 医療分野における画像とテキストの理解は，診断や治療の精度向上に不可欠である。
- 既存の視覚言語モデルは，医学的画像における微妙な特徴の認識が困難な場合がある。
- 視覚的根拠付けを強化することで，CoTによる性能低下を改善し，正確性を向上させる。
- 医学的視覚質疑応答において，CoTは直接応答（DirA）よりも性能が低い傾向があることが示された。
- この低下は，微妙な領域固有の手がかりが視覚的根拠付けを弱め，CoTが初期の認識の不確実性を増幅させる「医療的知覚のボトルネック」が原因であると考えられる。
- 領域の関心領域や高品質なテキストガイダンスによる介入が，CoTの性能低下を緩和し，DirAとの逆転を解消した。
Link: https://arxiv.org/abs/2603.06665
グラフベースの自己模倣学習によるエッジAIとマイクロサービスのハイブリッドオーケストレーション [cs.NI, cs.AI]目的：エッジAIマイクロサービスシステムのハイブリッドオーケストレーションの最適化
- エッジAI利用拡大に伴い，低遅延な性能を確保するオーケストレーションが重要になっている。
- 既存手法では，サービス間の依存関係を考慮せず，最適化が不十分な場合がある。
- サービス間の連携を考慮した，低遅延かつ高効率なオーケストレーションを実現すること。
- SIL-GPOは，サービス間の依存関係をグラフ注意ネットワークで符号化し，自己模倣学習を用いて学習効率を高めている。
- 実験結果から，SIL-GPOは最先端の手法と比較して，エンドツーエンドのサービス遅延を大幅に削減できることが示された。
- また，リソース利用率の向上も確認されており，エッジAI環境における効率的なオーケストレーションに貢献する。
Link: https://arxiv.org/abs/2603.06669
水面環境におけるレーダー・カメラ融合検出のためのTransformerベースの微分可能キャリブレーション [cs.CV, cs.AI]目的：水面環境におけるレーダー・カメラ融合検出の精度向上
- 悪天候や照明変化下での知覚性能向上が求められるため，レーダーとカメラの融合が重要である。
- 従来のキャリブレーション手法は構造物が多い環境向けであり，水面のようなテクスチャの少ない環境では精度が低下する。
- 水面環境におけるレーダー・カメラ間のずれを修正し，融合検出のロバスト性を高める。
- 提案手法CalibFusionは，検出精度を目的としたエンドツーエンド学習で外在パラメータを自動的に最適化する。
- 水面およびFLOWデータセットの実験により，融合に基づく2D検出性能と合成的なずれに対するロバスト性が向上することが示された。
- nuScenesデータセットでの結果は，この最適化メカニズムが水面環境以外のシナリオにも適用可能であることを示唆する。
Link: https://arxiv.org/abs/2603.06670
ERP-RiskBench: 金融リスクにおける漏洩防止のためのアンサンブル学習 [cs.LG, cs.AI]目的：ERPシステムにおける金融リスク検知のためのアンサンブル学習フレームワーク
- 企業資源計画(ERP)システムは企業の基幹システムであり，その金融リスクの管理は極めて重要である。
- 既存研究では，データセットの説明不足，漏洩リスクのあるパイプライン，そして過大評価された性能報告が問題となっている。
- 本研究は，信頼性の高い金融リスク検知モデルを構築し，再現可能な評価フレームワークを提供することを目指す。
- 提示されたERP-RiskBenchは，公開された調達ログ，不正データ，そして合成データセットから構成され，漏洩防止プロトコルを組み込んだ。
- スタッキングアンサンブルモデルが，他のモデルと比較して最も優れた検知性能を示し，以前に誇張された精度推定値を大幅に削減した。
- 特徴量の重要度分析から，三者対照の不一致など，調達管理機能が最も重要な予測因子であることが示された。
Link: https://arxiv.org/abs/2603.06671
画像から動画へのセマンティックノイズ初期化の転移：ペア診断研究 [cs.CV, cs.AI]目的：セマンティックノイズ初期化の有効性評価
- 拡散モデルは画像生成において高品質な結果を生み出すが，動画生成への応用は課題が多い。
- 動画生成では，時間的な一貫性を保つことが難しく，不安定な結果が生じやすい。
- 動画生成におけるセマンティックノイズ初期化の効果を検証し，その課題を明らかにすること。
- セマンティックノイズ初期化は時間的な側面においてわずかな改善傾向が見られた。
- しかし，統計的有意差は確認されず，ベースラインと同程度の性能であった。
- ノイズ空間の解析から，信号が弱く不安定であることが示唆された。
Link: https://arxiv.org/abs/2603.06672
歴史的油絵断面の微赤外分光画像アンミキシング [cs.CV, cs.LG]目的：歴史的油絵断面の微赤外分光画像の成分分離
- 文化遺産科学において，非侵襲的な材料分析が重要視されており，分光イメージングはその中心的な役割を担う。
- 分光データの解釈は困難であり，手動での参照ライブラリとの比較に依存しており，時間と労力を要する。
- 本研究は，複数の成分が混在する複雑な試料から，自動的に純粋な成分スペクトルと存在量を推定することを目指す。
- 本研究では，ATR-$\mu$FTIR HSIのブラインドアンミキシングのための教師なしCNNオートエンコーダを提案した。
- 提案手法は，空間構造を考慮したパッチベースのモデリングと，スペクトル角度距離損失関数（WSAD）を導入することで，解釈性を向上させた。
- ヘントの祭壇画の断面データへの適用により，本手法の有効性が示された。
Link: https://arxiv.org/abs/2603.06673
AutoFigure-Edit：編集可能な科学イラストの生成 [cs.CV, cs.AI]目的：科学技術的なテキストから編集可能な科学イラストの生成
- 科学的・技術的概念の伝達において，高品質なイラストは不可欠である。
- 既存の自動システムは，編集性，スタイル制御，効率性に限界がある。
- ユーザー指定の参照画像による柔軟なスタイル適応を可能にし，効率的なイラスト作成を目指す。
- AutoFigure-Editは，長文の科学テキストから完全に編集可能な科学イラストを生成する。
- 長文理解，参照画像に基づいたスタイリング，SVG編集を組み合わせることで実現した。
- コードやデモサイトを公開し，本分野のさらなる進歩を促進する。
Link: https://arxiv.org/abs/2603.06674
植物の葉病診断のためのXAIとFew-shot学習に基づくハイブリッド分類モデル [cs.CV, cs.AI, cs.LG]目的：植物の葉病の病状段階の識別と分類
- 農業生産性と食糧安全保障を維持する上で，作物の病気の適時かつ正確な識別は不可欠である。
- 注釈付きデータが限られている状況下での病気の識別と分類は課題である。
- 少ないサンプルから効果的に病気の識別特徴を学習し，高い識別精度を実現すること。
- 提案モデルは，SiameseネットワークとPrototypicalネットワークを統合し，少数サンプルからの識別能力を高めている。
- Grad-CAMを用いて，葉画像内の重要な決定領域を可視化し，分類過程の解釈可能性を確保している。
- 実験結果から，様々な病状段階において92%を超える高い精度，適合率，再現率，F1スコアを達成することが示された。
Link: https://arxiv.org/abs/2603.06676
LVLMにおける並列相対方策最適化によるチャート深層研究 [cs.CV, cs.AI, cs.LG]目的：チャート深層研究の能力向上
- データ科学の発展に伴い，チャートは洞察発見や意思決定支援に不可欠なツールとなっている。
- 既存のチャートデータインテリジェンスは，複雑な推論や高度なデータ分析といった深層研究能力に限界がある。
- 多次元報酬信号の干渉や異種データ勾配の衝突を解消し，深層研究能力の客観的評価を可能にすること。
- 提案手法PRPOは，報酬次元間の並列最適化とデータタイプ間の能力分割により，異種データと多次元報酬信号間の競合を効果的に解消する。
- MCDR-Benchは「エラー一意性原理」に基づいて構築され，主観的な生成評価を制御可能なエラー注入による客観的なエラー特定へと変換する。
- PRPOとMCDR-Benchの組み合わせは，チャート深層研究を体系的に発展させるための統一的な枠組みを確立する。
Link: https://arxiv.org/abs/2603.06677
MultiGen：拡散ゲームエンジンにおける編集可能なマルチプレイヤーワールドのレベルデザイン [cs.AI, cs.CV, cs.GR]目的：拡散ゲームエンジンにおける編集可能なマルチプレイヤーワールドのレベルデザイン
- インタラクティブなシミュレーションやエンターテインメントにおいて，ビデオワールドモデルの応用が期待されている。
- 環境の再現性や編集可能性，複数プレイヤーによる共有といったインタラクティブ性において課題が存在する。
- ユーザー操作に基づき環境構造を直接編集可能にし，リアルタイムマルチプレイヤー環境を実現する。
- 外部メモリを導入することで，ユーザーアクションを反映した持続的な状態を管理し，環境生成をMemory，Observation，Dynamicsのモジュールに分解した。
- これにより，ユーザーは環境構造を直接編集でき，一貫性のある複数プレイヤー間の相互作用が可能となった。
- 従来型の拡散ゲームエンジンとは異なり，フレーム予測ではなく，編集可能なメモリ表現を通じて環境制御を実現した。
Link: https://arxiv.org/abs/2603.06679
画像における視認性と視点推論のための可視性ベンチマーク [cs.CV, cs.AI]目的：画像中の視認性の判断と，視点推論の能力を評価するベンチマーク
- 画像認識技術は，ロボット工学や自動運転など，幅広い分野で不可欠である。
- 既存のモデルは，画像中の何が見えるか，何が見えないかを正確に判断することが難しい。
- 人間の視認性の限界を考慮した上で，モデルの判断能力を評価する。
- 本ベンチマークは，モデルが画像の視認性を正確に判断し，判断できない場合は適切に回答を保留できるかを検証する。
- GPT-4oとGemini 3.1 Proが最高の総合スコア（それぞれ0.728と0.727）を記録し，Gemini 2.5 Proがそれに続いた。
- オープンソースモデルGemma 3 12Bは，ある閉鎖ソースモデルを上回る性能を示した。テキストの編集に対する頑健性が，画像の編集に対する頑健性よりも優れていることが示された。
Link: https://arxiv.org/abs/2603.06680
モンテカルロサンプラーによる拡散モデルの誘導改善 [cs.LG]目的：拡散モデルにおける誘導の改善
- 生成モデルは，画像生成など多様な応用において重要な役割を担う。
- 既存手法では，推定誤差が大きく，正確な誘導が困難である。
- モンテカルロサンプラーを用いて，誘導誤差を低減し，生成品質を向上させる。
- 提案手法(ABMS)は，理論的分析により有効性が示され，様々なタスクで性能が確認された。
- 既存手法で見られる条件間の干渉問題を，二重焦点評価フレームワークで明確化した。
- 高次のサンプラーとの組み合わせで効果を発揮し，生成サンプル品質を安定的に向上させる。
Link: https://arxiv.org/abs/2603.06685
物語紡ぎ手：マルチモーダル条件付けによる制御可能な長距離視覚的一貫性の実現に向けて [cs.CV, cs.AI]目的：マルチモーダル制御，長距離，一貫性のある視覚コンテンツ生成
- 映像制作や広告など，現実世界への応用において，長期間にわたる物語の一貫性が重要である。
- 既存のモデルは高品質な短編コンテンツ生成には優れるものの，長編における物語の一貫性維持に課題がある。
- 本研究は，物語の一貫性と視覚的一貫性を保ちつつ，コンテンツ生成を制御可能にすることを目指す。
- 提案手法「Narrative Weaver」は，高水準のナラティブプランニングと詳細な制御モジュールを組み合わせている。
- 動的なメモリバンクにより視覚的なドリフトを防ぎ，既存の事前学習モデルを活用する効率的な学習戦略を実現した。
- E-commerce Advertising Video Storyboard Dataset (EAVSD)という新たな評価データセットを構築し，その有効性を検証した。
Link: https://arxiv.org/abs/2603.06688
粒子加速器向けイオンビームダイナミクスにおける，教師なし学習とノイズデータを用いた高解像度画像再構成 [cs.CV, cs.LG]目的：高解像度画像再構成手法の開発
- 高エネルギー物理実験におけるビーム制御は重要であり，精密なビーム特性の把握が不可欠である。
- 従来のビーム特性解析手法では，微弱な信号からのノイズ除去と高解像度化に限界がある。
- 教師なし学習を用いて，ノイズの多いデータから高精度なビーム分布の再構成を可能にすること。
- 提案手法は，教師データなしでロバストなノイズ除去と高精度なビームエミッタンス画像再構成を実現した。
- 特に，低S/N比条件下において，従来の測定限界を超える解像度でのビームハロー検出を可能にした。
- 7標準偏差を超える信号の測定を可能にし，未曽有のハロー分解能を達成した。
Link: https://arxiv.org/abs/2603.06689
不変自己教師あり学習のためのソフトな等変性正則化 [cs.CV, cs.LG]目的：不変性および等変性を組み合わせた自己教師あり学習モデルの性能向上
- 画像認識において，自己教師あり学習は重要な役割を果たしており，表現学習の効率化に貢献している。
- 強い不変性を追求すると，幾何学的摂動に対するロバスト性や空間的感応性伝播に有用な構造が失われる場合がある。
- 中間層で等変性を正則化することで，最終的な表現の性能を維持しつつ，ロバスト性と伝播性を向上させる。
- 提案手法SERは，ベースとなる自己教師あり学習の目的関数を維持しながら，中間層の空間的特徴マップに対してソフトな等変性正則化を適用する。
- ImageNet-1kのViT-S/16事前学習において，SERはMoCo-v3を+0.84 Top-1で改善し，DINOやBarlow Twinsも安定的に性能向上させた。
- SERは，ImageNet-C/Pで+1.11/+1.22 Top-1，COCO検出で+1.7 mAPの性能改善を示し，汎用的な設計原則の有効性を裏付けた。
Link: https://arxiv.org/abs/2603.06693
視線とともに考える：医療用VLMの視覚的推論監視としての逐次的な眼追跡 [cs.CV, cs.AI]目的：医療用VLMにおける視覚的推論の監視
- 医療画像診断は視覚情報に基づいて行われるため，視覚的根拠に基づいた推論が重要である。
- 既存のVLMはテキストによる推論に偏りがちで，視覚情報を十分に活用できていないという課題がある。
- 眼追跡データを用いてVLMに人間の視線経路を学習させ，視覚的推論能力を向上させることを目指す。
- 眼追跡データを視線トークンとしてVLMに導入し，画像パッチの選択予測を時間順に行わせることで，人間らしい証拠の獲得と統合を促した。
- MIMIC-EYEおよび複数のゼロショットベンチマークにおいて，ベースラインと比較して一貫した性能向上を示し，最先端の性能を達成した。
- 時間的な順序を持つ視線データが，視覚的根拠に基づいた医療推論学習のための有効な監視信号であることが示された。
Link: https://arxiv.org/abs/2603.06697
MLLMにおける空間知能の一般化能力について [cs.DB, cs.CV, cs.LG]目的：MLLMの空間知能の一般化能力の向上
- 視覚と言語を統合したMLLMは，3D認識やナビゲーションなど多様な応用が期待されている。
- カメラパラメータを考慮しない既存手法は，物体特性と視点を混同し，カメラ依存性が高い。
- カメラ情報を活用し，真の3D幾何学的原理の学習を促すことで，汎化性能を高める。
- カメラパラメータを密な埋め込みで注入するCamera-Aware MLLMフレームワークを提案した。
- カメラパラメータを変化させるデータ拡張により，モデルが視点とシーン内容を分離することを学習させる。
- 3Dビジョンモデルからの幾何学的知識を蒸留することで，空間推論能力を強化する。
Link: https://arxiv.org/abs/2603.06704
ブール値を超えて：データ変換と時間仕様の学習 [cs.LO, cs.AI, cs.FL, cs.PL]目的：データ変換と時間仕様の学習
- システムの振る舞いを自動的に捉え，仕様を抽出する技術は，複雑化するシステム開発に不可欠である。
- 既存手法はブール値抽象化に限定され，データ依存性の高いシステム仕様の表現に課題があった。
- より豊かなデータ型を扱うことで，データに依存するシステムの振る舞いを正確に捉えることを目指す。
- 提案手法は，構文誘導合成(SyGuS)を利用して候補関数を特定し，トレーサビリティを向上させた。
- 時間仕様の形式化言語TSL$_f$を導入し，時間的制約とデータ変換を統合的に学習することを可能にした。
- OpenAI-Gymnasium環境での実験により，汎化性能とサンプル効率の高さが実証された。
Link: https://arxiv.org/abs/2603.06710
大規模ツールスペースにおけるエージェント能力の拡張：効率的な強化学習ファインチューニング [cs.LG, cs.AI]目的：大規模ツールスペース環境下での小規模言語モデルの有効な運用方法
- エージェントシステムは複雑なタスクを遂行するため，多様なツールを組み合わせて利用する必要がある。
- 小規模言語モデルはコンテキストの制約や実行エラーにより，大規模ツールスペースでの運用が困難である。
- コンテキスト制御と実行構造を学習可能にすることで，小規模言語モデルの性能を向上させる。
- ATLASという強化学習ファインチューニングフレームワークを提案し，小規模言語モデルが大規模ツールスペースで効果的に機能するよう学習させる。
- 反復的なツール読み込みとプログラムによるツール編成を組み合わせることで，コンテキストの増加を抑制し，長期的な軌道を安定化させる。
- ルーブリックベースの強化学習ファインチューニングにより，タスクの成功基準を構造化し，小規模な判断モデルを用いたスケーラブルな学習を可能にする。
Link: https://arxiv.org/abs/2603.06713
補完的な静止衛星データと階層的計画を用いた衛星観測の動的ターゲット設定 [cs.RO, cs.RO, cs.AI]目的：衛星観測における動的ターゲット設定の性能向上
- 地球観測において，限られた資源で最大限の科学的成果を得る必要性がある。
- 従来の衛星観測計画は，状況変化への対応が遅れ，観測機会の損失を招くことがある。
- 静止衛星データを活用し，リアルタイムな状況変化に対応できる計画手法を確立する。
- 静止衛星データと階層的計画を組み合わせることで，従来の動的ターゲット設定手法よりも最大で41%高い性能が確認された。
- 静止衛星データの活用は，ターゲットが広範囲に分散する動的な観測シナリオにおいて特に効果的である。
- 長期的計画と短期的計画を組み合わせることで，膨大なデータ量と計算量の問題を解決した。
Link: https://arxiv.org/abs/2603.06719
統計的忠実性から臨床的一貫性へ：スケーラブルな患者軌跡の生成と監査 [cs.LG]目的：患者軌跡の臨床的一貫性を確保するための生成パイプラインの開発
- 医療データの利用は研究において重要だが，個人情報保護の制約がある。
- 既存の合成データ生成手法では，統計的特性は再現できても臨床的整合性が欠如している。
- 本研究は，臨床的に整合性の高い合成患者データを効率的に生成・評価する方法を確立する。
- 合成された臨床イベントの確率分布は，実際のデータと高い一致度を示した(R2=0.99)。
- 臨床家による評価では，合成データに不整合が認められたが，自動監査モジュールによって改善された。
- 監査済みデータで学習したモデルは，実際のデータと同等以上の性能を発揮し，プライバシーリスクは確認されなかった。
Link: https://arxiv.org/abs/2603.06720
ProtAlign：配列と構造のアライメントのためのコントラスト学習パラダイム [cs.LG, cs.AI]目的：配列と構造のアライメントにおける共通埋め込み空間の学習
- タンパク質の機能予測や設計において，配列情報と構造情報の統合は重要な課題である。
- 従来のタンパク質研究では，配列と構造を別々に扱うことが多く，両者の関連性を十分に活用できていない。
- 配列と構造の情報を統合し，より高度なタンパク質の理解と設計を可能にすること。
- コントラスト学習フレームワークを用いることで，配列と構造の情報を一貫して表現する共通埋め込み空間を学習した。
- このアライメントにより，配列から構造の類似タンパク質を検索するなどのクロスモーダル検索が可能になった。
- 機能アノテーションや安定性推定といった下流タスクの性能向上，および配列変異と構造的組織の関係性の解釈に貢献した。
Link: https://arxiv.org/abs/2603.06722
UWPD：埋め込みアルゴリズムに依存しない不可視ウォーターマーク検出の汎用パラダイム [cs.CV, cs.AI]目的：不可視ウォーターマークの有無の判定
- ソーシャルメディアやAIGCの発展に伴い，画像著作権保護技術としての不可視ウォーターマークの重要性が増している。
- 既存の検出手法は特定のアルゴリズムに依存するため，未知のウォーターマーク検出能力が限られている。
- アルゴリズム情報が不要なウォーターマークの有無判定という課題を解決する。
- 本研究では，UniFreq-100Kデータセットを構築し，様々な埋め込みアルゴリズムのサンプルを大規模に提供した。
- 周波数シールドネットワーク(FSNet)を提案し，適応スペクトル知覚モジュール(ASPM)と動的マルチスペクトルアテンション(DMSA)を導入した。
- FSNetは既存モデルを上回り，UWPDタスクにおいて優れたゼロショット検出能力を示すことが実験で明らかになった。
Link: https://arxiv.org/abs/2603.06723
活動を考慮した室内CO2およびPM2.5予測のための双方向フィードバック融合 [cs.LG, cs.AI]目的：室内空気質の予測
- 居住者の健康維持，快適性の確保，およびインテリジェントな建物制御において重要な役割を果たす。
- 環境要因と居住者の行動の複雑な相互作用により，CO2やPM2.5などの汚染物質の予測は困難である。
- 行動に起因する排出量の急増や濃度の急激な変化を予測する能力向上を目指す。
- 提案手法は，既存の予測モデルと比較して有意に高い予測性能を示すことが実証された。
- 共有される融合状態に基づき，行動の合図または長期的な環境傾向を強調することで，予測精度が向上する。
- 不確実性推定は，スマートビルや健康モニタリングシステムへの実用的な導入に不可欠である。
Link: https://arxiv.org/abs/2603.06724
回帰モデルとファウンデーションモデルの融合：実用的な電力価格予測へのハイブリッドAIアプローチ [cs.LG, cs.AI]目的：電力価格予測の精度向上
- 電力市場の安定運用には，正確な電力価格予測が不可欠である。
- 電力価格は変動が激しく，従来の予測手法では精度に限界がある。
- 時間的依存性と交差相関を同時に捉え，予測精度を向上させること。
- 提案手法FutureBoostingは，既存の時系列ファウンデーションモデルや回帰モデルを上回り，電力価格予測の平均絶対誤差を最大30%削減した。
- FutureBoostingは，ファウンデーションモデルによる過去のパターン予測を回帰モデルに組み込むことで，予測性能を強化する。
- 説明可能なAI技術を用いて，予測に寄与する要素やモデルの意思決定プロセスを可視化し，解釈可能性を担保した。
Link: https://arxiv.org/abs/2603.06726
安全Transformer：解釈可能かつ制御可能なアライメントのための明示的な安全ビット [cs.LG, cs.AI]目的：モデルのアライメントにおける安全性と制御可能性の向上
- 大規模言語モデルの安全性確保は，社会への実装において不可欠である。誤った情報や有害なコンテンツの生成を防ぐ必要がある。
- 既存手法では，安全な振る舞いがモデルパラメータに暗黙的に埋め込まれており，判断根拠の解明や介入が困難である。
- 安全ビットを導入することで，安全性の判断根拠を明確にし，必要に応じて安全判断を上書き可能とする。
- 提案手法「Safe Transformer」は，Transformer層間に明示的な安全ビットを導入し，安全性を解釈可能かつ制御可能にした。
- 敵対的評価において，攻撃成功率をほぼゼロに抑え，ベースモデルや安全性ファインチューニングと比較して大幅な性能向上を示した。
- 軽量なファインチューニングで実装可能であり，ゼロからの事前学習は不要である。
Link: https://arxiv.org/abs/2603.06727
Orion：LLMの学習と推論のためのApple Neural Engineの特性評価とプログラミング [cs.LG, cs.AR, cs.CL]目的：Apple Neural Engineを活用したLLMの学習および推論システムの開発
- モバイルデバイスにおけるAI処理の需要増加に伴い，専用アクセラレータの活用が重要になっている。
- Apple Neural Engineは高性能であるものの，CoreMLの抽象化が高く，直接的なプログラミングが困難であった。
- CoreMLを経由せず，ANEを直接制御することで，LLMの学習と推論の効率を向上させることを目指す。
- Orionは，ANEの直接実行，コンパイラパイプライン，安定した多段階学習を組み合わせた初のオープンエンドツーエンドシステムである。
- ANEのコンパイル時間を大幅に削減するため，プログラムの再コンパイルを回避するweight patching手法を導入した。
- M4 Max上でGPT-2 124Mの推論において170+トークン/秒を達成し，TinyStoriesの学習も安定して行えることを示した。
Link: https://arxiv.org/abs/2603.06728
密集群衆におけるニューラルナビゲーションの安全運転範囲拡大：停止と衝突回避の防止 [cs.LG, cs.AI, cs.RO]目的：高密度な群衆におけるナビゲーションの安全性の向上
- ロボットや自動運転車の社会実装において，群衆内での安全な移動は不可欠な課題である。
- 従来の学習ベースの手法は，訓練データにない群衆密度で性能が低下し，衝突回避に失敗する可能性がある。
- 密度に依存しない表現学習と報酬設計により，未知の群衆密度への汎化性能を実現し，安全性を確保すること。
- 提案手法は，訓練時に経験した群衆密度を超えても，高い成功率（99％以上）で目標に到達する。
- また，衝突回避成功率も高く（86％），既存の学習ベースの手法よりも60ポイント以上高い性能を示す。
- さらに，解析的な手法と比較して，移動停止の問題を大幅に軽減することに成功した。
Link: https://arxiv.org/abs/2603.06729
PolyBlocks：AIチップおよびプログラミングフレームワークのためのコンパイラ基盤 [cs.PL, cs.LG]目的：AIチップおよびプログラミングフレームワーク向けコンパイラ基盤の設計と実装
- AI処理の高性能化が求められる現代において，ハードウェアとソフトウェアの協調が不可欠である。
- AIチップの多様化に伴い，各チップに最適化されたコンパイラの開発が課題となっている。
- 新たなAIチップへの対応を容易にし，高性能なコード自動生成を実現することを目標とする。
- PolyBlocksは，MLIRを基盤とするモジュール性と再利用性に優れたコンパイラ基盤である。
- PyTorchおよびJAX向けのJITコンパイル実験において，Torch InductorやXLAと同等以上の性能を示す場合がある。
- 行列積や畳み込みなどの演算において，ベンダー提供のライブラリや手動最適化されたカーネルに匹敵する性能を発揮する。
Link: https://arxiv.org/abs/2603.06731
エージェント狩り：LLMエージェントによる報酬ベースの協調的自動形式化 [cs.LO, cs.AI, cs.SC]目的：大規模な代数的トポロジーの自動形式化
- 形式化された数学的理論は，信頼性の高いソフトウェアやハードウェアを構築する上で不可欠である。
- 自動形式化は計算コストが高く，既存の方法では大規模な理論を効率的に形式化できない。
- LLMエージェントの協調的な活用により，自動形式化のスケールと効率を向上させる。
- 複数のLLMエージェントが，報酬に基づいた市場メカニズムを通じて，自動形式化のタスクを分散して処理する実験を行った。
- エージェントは，新しい補題の提案，報酬の設定，証明義務の履行競争を行うことで，協調的な証明探索と理論構築を実現した。
- 提案された証明は，基盤となる証明アシスタントによって検証され，その結果，大規模な自動形式化の可能性が示唆された。
Link: https://arxiv.org/abs/2603.06737
ランク分解された暗黙的ニューラルバイアス：FlashAttentionを用いた超解像Transformerのスケーリング [cs.LG, cs.AI]目的：超解像Transformerにおける計算効率とスケーラビリティの向上
- Transformerは長距離モデリングに優れ，画像処理分野で注目されている。
- 従来のTransformerは相対位置バイアスに依存し，FlashAttention等の高速化技術が適用困難であった。
- FlashAttentionを適用可能にし，Transformerのスケーラビリティを最大限に引き出す。
- 提案手法RIBは，FlashAttentionをSR Transformerに導入することで，計算効率を大幅に向上させた。
- Urban100$\times$2データセットにおいて，35.63dB PSNRを達成し，PFTと比較して高速化を実現した。
- 学習時間と推論時間をそれぞれ2.1倍，2.9倍短縮し，大規模な学習が可能となった。
Link: https://arxiv.org/abs/2603.06738
ResearchEnvBench：研究コード実行のための環境合成におけるエージェントのベンチマーク [cs.SE, cs.AI]目的：研究コード実行のための環境合成におけるエージェントの性能評価
- 科学研究の自動化が求められており，エージェントの活用が期待されている。
- 既存のベンチマークは環境構築を前提としており，その能力評価が不足している。
- 研究に必要な環境を自動構築するエージェントの開発を促進する。
- ResearchEnvBenchは，研究リポジトリと実行設定から環境を構築するベンチマークである。
- 現状の最先端エージェントは，依存関係の解決やバージョン管理の脆さから失敗が多い。
- 本ベンチマークは，再現性のある科学研究を可能にするエージェント開発のテストベッドとなる。
Link: https://arxiv.org/abs/2603.06739
異種分散型拡散モデル [cs.LG, cs.AI, cs.CV]目的：大規模拡散モデルの効率的な分散学習手法
- 拡散モデルは高品質な画像生成が可能だが，学習には膨大な計算資源が必要である。
- 既存の分散学習は，多大な計算資源と統一的な学習目標を必要とし，参加障壁が高い。
- 異種な学習目標を許容し，計算資源を削減することで分散学習のハードルを下げる。
- 本研究は，異なる目的関数（DDPMとFlow Matching）を用いる異種分散学習フレームワークを提案する。
- 学習に必要な計算量を従来の16分の1（1176 GPU-days → 72 GPU-days）に削減し，データ量も大幅に削減した。
- 提案手法は，FIDスコアとLPIPSスコアの両方で既存手法を上回り，多様性の高い画像を生成可能であることを示した。
Link: https://arxiv.org/abs/2603.06741
事前学習済生成モデルの架け橋による制約付き生成の改善 [cs.LG, cs.AI, cs.RO]目的：制約付き生成手法
- ロボット制御や自動運転など，物理法則や安全制約を遵守する必要がある分野で基盤となる技術である。
- 現実世界の制約は線形不等式ではなく，道路地図のような複雑な領域であることが多い。
- 複雑な制約領域内で現実的なサンプルを直接生成できる手法を開発すること。
- 事前学習済生成モデルを微調整することで，制約の遵守と生成品質のバランスをとる新しい手法を提案した。
- 提案手法は既存の微調整や学習不要な制約付き生成手法とは異なる特性を示し，新たなトレードオフを明らかにした。
- 複雑な制約領域内での生成において，制約充足性とサンプリング品質の両立が可能になった。
Link: https://arxiv.org/abs/2603.06742
拡散言語モデルの強化学習の安定化 [cs.LG, cs.AI]目的：拡散言語モデルにおける強化学習の安定化手法
- 大規模言語モデルの性能向上は，自然言語処理の発展に不可欠である。
- 拡散言語モデルへの強化学習適用は，報酬崩壊を引き起こしやすく，安定性が課題である。
- 推定された重要度比率による不安定性を抑制し，強化学習の安定化を図る。
- 本研究では，拡散言語モデルに特化したGRPOの再構築手法StableDRLを提案した。
- StableDRLは，外れ値の影響を抑制する無条件クリッピングと，勾配の変動を抑える自己正規化を用いる。
- 提案手法は，ブロック単位の拡散モデルにも適用可能であり，階段状注意機構を導入した。
Link: https://arxiv.org/abs/2603.06743
活性化ベクトル操作によるLLMの指示追従性向上：動的拒否による制御 [cs.LG, cs.AI]目的：大規模言語モデルにおける指示追従性の改善
- LLMは自然言語処理の基盤であり，その性能向上は様々な応用を可能にする。
- 複雑な指示に対してLLMはしばしば失敗し，指示追従性に課題が残る。
- 活性化ベクトル操作の過剰な適用による精度低下を防ぎ，指示追従性と生成品質の両立を目指す。
- DIRECTERは，KVキャッシュのスケーリングにより活性化ベクトル操作の強度を動的に調整する。
- 生成される出力の妥当性を評価し，指示追従性が低い場合は操作強度を弱めることで過剰操作を抑制する。
- 様々なベンチマークで，ベースラインと比較して最大6.5%の精度向上を達成し，生成品質の低下は見られなかった。
Link: https://arxiv.org/abs/2603.06745
ButterflyViT：エッジVision Transformerのための354倍の専門家圧縮 [cs.CV, cs.AI]目的：エッジデバイスにおけるVision Transformerのメモリ効率の向上
- 近年，画像認識においてVision Transformerが注目を集めているが，メモリ消費量が課題となっている。
- MoEを用いると専門家数に応じてメモリ使用量が線形に増加し，エッジデバイスでの利用が困難である。
- 共有された基盤を用いて専門家を表現することで，メモリ使用量を専門家数に対して亜線形に削減することを目指す。
- ButterflyViTは，専門家を独立した重み行列ではなく，共有された量子化された基盤の幾何学的再配向として扱う。
- CIFAR-100を用いた実験で，64人の専門家に対して354倍のメモリ削減を達成し，精度への影響は無視できる程度であった。
- 空間的平滑化正則化により，隣接するパッチトークン間のルーティングの不規則性を抑制し，パッチ相関を訓練信号として活用する。
Link: https://arxiv.org/abs/2603.06746
特性駆動型タンパク質逆フォールディング：多目的嗜好性アライメント [cs.LG, cs.AI]目的：タンパク質配列設計における設計可能性と，溶解性，熱安定性，発現などの開発可能性特性とのバランス
- タンパク質設計は創薬やバイオテクノロジーにおいて重要であり，機能性タンパク質を効率的に生み出す必要性がある。
- 既存手法は標的依存性が高く，専門知識やハイパーパラメータ調整が不可欠であり，汎用性に課題があった。
- 複数の開発可能性特性を考慮しつつ，構造的忠実性を維持したタンパク質配列設計を可能にすることを目指す。
- ProtAlignは，事前学習済みの逆フォールディングモデルを微調整し，様々な開発可能性目標を満たす多目的嗜好性アライメントフレームワークである。
- MoMPNNは，設計可能性を損なうことなく，CATH 4.3結晶構造，de novo生成されたバックボーン，実際のバインダー設計など，様々なタスクにおいて開発可能性を向上させる。
- 半オンライン直接嗜好性最適化戦略と柔軟な嗜好性マージンにより，競合する目的間の衝突を軽減し，実用的なタンパク質配列設計フレームワークを提供する。
Link: https://arxiv.org/abs/2603.06748
産業制御のためのロボット基盤モデル：包括的な調査と実用化評価フレームワーク [cs.RO, cs.AI]目的：産業制御におけるロボット基盤モデルの実用化可能性の評価
- ロボット技術は，省人化や生産性向上に不可欠であり，産業界での需要が高い。
- 既存のロボット制御は，特定のタスクに特化しており，柔軟性に欠けるという課題がある。
- ロボット基盤モデルを活用し，より柔軟で汎用的なロボット制御を実現することを目指す。
- ロボット基盤モデルの現状を調査し，産業分野のニーズとの適合性を分析した。
- 149の具体的な評価基準を含むフレームワークを構築し，324のロボット基盤モデルを評価した。
- 現在のロボット基盤モデルは，産業利用に必要な要件を十分に満たしていないことが示された。
Link: https://arxiv.org/abs/2603.06749
XMACNet：マルチモーダル融合による軽量な注意ベースCNNを用いた唐辛子病害分類 [cs.CV, cs.AI]目的：唐辛子病害の検出
- 精密農業において，画像による植物病害の分類は重要な課題である。
- 病害の種類や生育環境により，正確な画像分類が困難となる場合がある。
- 可視画像と植生指数を融合し，軽量かつ解釈可能なモデルを開発する。
- 提案するXMACNetは，既存のResNet-50，MobileNetV2，Swin Transformer等のモデルを上回る高い精度を達成した。
- XMACNetは，自己注意機構とマルチモーダル融合により，病害特徴への注目度を可視化し，解釈性を高めた。
- モデルの小型化と高速な推論により，実世界の農場でのエッジ展開に適している。
Link: https://arxiv.org/abs/2603.06750
潜在オートエンコーダアンサンブルカルマンフィルタによるデータ同化 [cs.LG, cs.NA, math.NA, stat.ME, stat.ML]目的：データ同化の精度向上
- 高次元システムの予測は重要だが，非線形性が強いと精度が低下する。
- 既存のカルマンフィルタは，強い非線形性に対して性能が劣化しやすい。
- 学習された潜在空間で線形性を確保し，カルマンフィルタとの整合性を高める。
- 提案手法LAE-EnKFは，標準的なEnKFや他の潜在空間法よりも，精度と安定性に優れている。
- LAE-EnKFは，潜在空間において線形かつ安定なダイナミクスを学習することで，カルマンフィルタの枠組みとの整合性を回復する。
- 低次元多様体上での線形ダイナミクスの学習に関する理論的解析と，汎化誤差の限界が示されている。
Link: https://arxiv.org/abs/2603.06752
画像再構成/生成タスクのための決定論的および確率的オートエンコーダにおける量子暗黙的ニューラル表現の実装 [cs.LG, quant-ph]目的：画像再構成および生成における量子暗黙的ニューラル表現（QINR）に基づくオートエンコーダ（AE）および変分オートエンコーダ（VAE）の性能評価
- 近年，深層学習と量子計算の融合が注目されており，新たな機械学習モデルの開発が期待されている。
- 既存の量子生成モデルは，多様性の低さや学習の不安定さといった課題を抱えている場合がある。
- 本研究では，QINRを用いることで，VAEの生成能力を向上させ，より安定した画像生成を目指す。
- QINRをVAEに組み込むことで，少ないデータでも多様な画像を生成できることが示された。
- QINR-VAE/AEによって再構成・生成された画像は，鮮明で境界線がくっきりとしており，詳細な表現が可能であることが確認された。
- QINRベースの量子層をAE/VAEフレームワークに組み込むことで，パラメータ数を抑えつつ，再構成および生成性能が向上することが示された。
Link: https://arxiv.org/abs/2603.06755
解釈可能な不均衡概念ドリフト検出のための偏りのないクラスタ記述子の学習 [cs.LG, cs.AI]目的：不均衡データにおける概念ドリフト検出手法
- 動的なシステムを理解する上で，概念ドリフト検出は不可欠である。現実のデータは変動するため，継続的な監視が必要となる。
- 既存の手法は，概念のバランスを前提としており，少数派の概念のドリフトを見落としやすいという課題がある。
- 少数派の概念のドリフトを検出し，少数派と多数派の概念を公平に扱えるドリフト検出手法を開発する。
- 提案手法ICD3は，多粒度探索により少数派の概念の分布を捉え，各概念に対してOne-Cluster Classifierを適用することで，ドリフト検出の解釈可能性を高めている。
- ICD3は，多数派の概念の影響を受けずに，少数派の概念のドリフトを検出し，概念の不均衡比の変化にも頑健であることが実験で示された。
- 様々なベンチマークデータセットでの実験により，ICD3が最先端の手法と比較して優れていることが実証された。
Link: https://arxiv.org/abs/2603.06757
アルツハイマー病診断・予後モデルにおけるSHAP説明可能性の向上 [cs.LG, cs.AI]目的：アルツハイマー病の診断・予後機械学習モデルの説明可能性の評価
- アルツハイマー病の早期診断と正確な予後予測は，患者の治療計画を最適化し，生活の質を向上させる上で不可欠である。
- 機械学習モデルの解釈性は低く，臨床現場での信頼性が課題となっている。特に，SHAP値の頑健性に関する検証が不足している。
- SHAP値の整合性，安定性，一貫性を定量的に評価するフレームワークを構築し，モデルの説明可能性を向上させる。
- 認知機能および機能的マーカーが，診断と予後の両方のSHAP説明において主要な要因であることが示された。
- 診断モデルと予後モデル間のSHAPの一貫性は高く，符号の安定性が100%であり，説明変数の大きさの変化もわずかであった。
- ドメインレベルの寄与は安定しており，予後予測において遺伝的特徴の増加は軽微であった。これにより，SHAP説明の信頼性が示された。
Link: https://arxiv.org/abs/2603.06758
空力形状と制御の勾配ベースのネスト型共同設計：翼型ロボットへの応用 [cs.RO, cs.AI]目的：翼型ロボットの空力形状と制御の最適化
- 飛行ロボットは，着陸やペイロード輸送など，多様な任務をこなせる必要がある。そのため，空力性能の最適化が重要である。
- 従来の形状と制御計画の逐次設計では，非線形な相互作用により最適解が得られない場合がある。
- 複雑な空力条件下のロボット設計において，計算効率と精度を両立する手法の確立を目指す。
- 本研究で提案するネスト型共同設計フレームワークは，勾配ベースの手法により，従来の進化計算手法よりも高速に最適解を導き出す。
- 空力形状と制御を同時に最適化することで，固定翼グライダーの着陸やパーチングといった複雑なタスクの性能を向上させる。
- ニューラルネットワークを用いたサロゲートモデルにより，複雑な亜音速流れを効率的にモデル化し，適用範囲を広げている。
Link: https://arxiv.org/abs/2603.06760
物理情報ニューラルネットワークのための疎なQUBO最適化とハイブリッドコアセットによる多様性を考慮した適応的配置 [cs.LG, cs.AI]目的：物理現象を記述する偏微分方程式の解を学習するための配置点の選択方法
- 物理現象のシミュレーションにおいて，数値計算の精度と計算コストのバランスが重要である。
- 従来の配置点選択方法では，滑らかな領域を過剰にサンプリングし，計算資源を浪費する可能性がある。
- 配置点をより効率的に選択し，計算コストを削減しつつ，精度を向上させることを目指す。
- 提案手法では，配置点選択をコアセット構築問題として捉え，残差に基づく重要度と空間的多様性を考慮した疎なQUBO/BQMモデルを構築する。
- グラフベースの疎なBQMと効率的な修復手順により，密なQUBOと比較して選択オーバーヘッドを削減しつつ，同等またはそれ以上の精度を達成する。
- 粘性バーガース方程式の実験により，提案手法が配置点予算を固定した場合に，選択オーバーヘッドを削減し，精度を向上させることが示された。
Link: https://arxiv.org/abs/2603.06761
グラフ畳み込みニューラルネットワークを用いたネットワーク障害に対するメタ学習による交通配分 [cs.LG]目的：ネットワーク障害時の交通配分に関するメタ学習手法
- 交通需要予測は都市計画や交通管理において不可欠であり，精度の高い予測が求められる。
- 従来の機械学習モデルは過去のデータに依存するため，ネットワーク構造が変化した場合，予測精度が低下しやすい。
- 本研究は，変化するネットワーク環境下でも迅速に適応可能なメタ学習モデルを開発し，予測精度の向上を目指す。
- 提案手法は，未学習のネットワーク閉鎖やOD行列に対し，R^2値約0.85という高い予測精度を達成した。
- メタ学習を用いることで，グラフニューラルネットワークは新しいグラフ構造とOD行列に迅速に適応できることが示された。
- 実務家が，あらゆる関連パターンを網羅したトレーニングデータセットを設計する負担を軽減できる。
Link: https://arxiv.org/abs/2603.06763