arXiv雑要約

AI - 2026/03/13 公開

  • GPT4o-Receipt:AI生成文書の法科学に関するデータセットと人間による研究 [cs.AI, cs.CV]目的:AI生成の金融文書の検出能力に関する人間と機械の比較
    • AI技術の発展に伴い,AI生成文書の真偽判定の重要性が高まっている。
    • AI生成文書は巧妙化しており,視覚的な判断だけでは真偽を見抜くことが困難になりつつある。
    • AI生成文書の検出における人間とLLMの能力差を明らかにし,より効果的な検出手法を模索する。
    • 人間はAI生成文書の視覚的な特徴を認識する能力は高いものの,実際の検出精度はLLMに劣ることが示された。
    • この矛盾は,AI生成文書に内在する計算ミスが,人間には認識できないがLLMには容易に検出できることが原因である。
    • AI文書の法科学研究を促進するため,データセット,評価フレームワーク,および研究結果を公開する。

    Link: https://arxiv.org/abs/2603.11442

  • 検証されたマルチエージェントオーケストレーション:複雑なクエリ解決のためのプラン実行検証再計画フレームワーク [cs.CY, cs.HC, cs.MA, cs.AI, cs.MA]目的:複雑なクエリ解決のためのプラン実行検証再計画フレームワーク
    • 大規模言語モデルの能力を最大限に引き出すには,複数のエージェントを連携させる必要がある。
    • マルチエージェントシステムでは,個々のエージェントの出力の品質保証が課題となる。
    • オーケストレーションレベルでの検証により,マルチエージェントシステムの品質を向上させる。
    • 提案手法VMAOは,複雑なクエリを部分質問のDAGに分解し,並列実行することで回答の網羅性を高める。
    • LLMベースの検証器を用いて回答の完全性を検証し,必要に応じて再計画を行うことで,品質を適応的に改善する。
    • 市場調査クエリを用いた評価により,VMAOは単一エージェントのベースラインと比較して,回答の完全性と情報源の質を向上させることが示された。

    Link: https://arxiv.org/abs/2603.11445

  • 認知・感情・行動フレームワークによるOpenClaw利用意向の検討 [cs.CL, cs.RO, cs.AI]目的:OpenClawの利用意向を規定する心理的メカニズム
    • AIエージェントの社会実装が重要視される中,利用促進要因の解明が不可欠である。
    • 自律型AIエージェントに対する利用者の心理的障壁が,普及の妨げとなっている。
    • OpenClawのようなAIエージェントの利用意向を高めるための条件を明らかにする。
    • 肯定的な認知は,OpenClawに対する態度を向上させ,利用意向を高めることが示された。
    • 一方,否定的な認知は不信感を増大させ,利用意向を低下させることが明らかになった。
    • 本研究は,自律型AIエージェントの採用に影響する心理的メカニズムに関する知見を提供する。

    Link: https://arxiv.org/abs/2603.11455

  • UniHetCO:教師なしニューラル組合せ最適化における多問題学習のための統一的な異質表現 [cs.LG]目的:教師なしニューラル組合せ最適化における多問題学習のための統一的な異質表現の開発
    • 組合せ最適化問題は現実世界の様々な分野に現れ,効率的な解法が求められている。
    • 既存の教師なし手法は特定の問題に特化し,問題横断的な学習が困難である。
    • 複数の問題クラスに対して単一のモデルで学習し,問題間の知識共有を可能にすること。
    • UniHetCOは,問題構造,目的関数,線形制約を単一の入力として符号化する統一的な異質グラフ表現である。
    • 複数のデータセットと4つの制約付き問題クラスにおいて,最先端の教師なしNCOと比較して競争力のある性能を示した。
    • 問題間の適応性が高く,時間制限の厳しい状況下で商用ソルバーのウォームスタートとして効果的である。

    Link: https://arxiv.org/abs/2603.11456

  • 離散的刻印と連続的ダイナミクスの架橋:刻印付き時間点過程のための二重経路クロスインタラクション [cs.RO, cs.LG, cs.AI]目的:刻印付き時間点過程における離散的表現と連続的表現の統合
    • 時間点過程は,医療,金融,ソーシャルメディアなど,不規則なイベント系列を扱う様々な分野で重要である。
    • 既存手法では,イベント間の連続的な変化とイベントタイプが将来のタイミングに与える影響を捉えきれていない。
    • 離散的刻印と連続的ダイナミクスを統合し,より正確なイベント予測を実現することを目的とする。
    • 提案手法NEXTPPは,離散的イベント刻印と連続時間状態を並行して処理し,クロスアテンション機構を通じて相互作用させる。
    • NEXTPPは,ニューラルホーケス過程の条件付き強度関数を駆動し,イテレーティブシンニングサンプラーを用いて将来のイベントを生成する。
    • 5つの実世界データセットにおける評価で,NEXTPPは最先端モデルを安定的に上回る性能を示した。

    Link: https://arxiv.org/abs/2603.11462

  • 段階適応型信頼性モデリングによる連続的価感情動推定 [cs.MM, cs.AI, cs.SD]目的:連続的価感情動推定における信頼性モデリング
    • 感情認識は,人間とコンピュータの自然な対話を実現する上で不可欠な技術である。
    • 音声と視覚信号の信頼性が変動し,相互作用に依存した変化が生じやすい。
    • 相互作用の段階に応じた信頼性を考慮し,より安定した感情推定を目指す。
    • 提案手法SAGEは,段階に応じた信頼性を明示的に推定・調整するフレームワークである。
    • SAGEは,信頼性を考慮した融合メカニズムにより,各モダリティの情報を動的に再調整する。
    • Aff-Wild2ベンチマークでの実験により,既存手法と比較して高い相関関係が確認された。

    Link: https://arxiv.org/abs/2603.11468

  • ホークスランク:リアルタイム重要度ランキングのためのイベント駆動型中心性 [cs.RO, cs.SI, cs.LG, physics.soc-ph]目的:ネットワークにおける影響力の定量化
    • 科学,経済,公衆衛生など,様々な分野で影響力の評価は不可欠である。
    • 既存の中心性指標は静的な表現に依存し,解釈の限界があった。
    • イベント発生状況に基づき,影響力の動的な変化を捉えることを目指す。
    • ホークスランクは,多変量ホークス点過程に基づき,外的な要因と内的な増幅を考慮した重要度指標である。
    • カッツ中心性やPageRankといった既存指標は,本手法の平均場近似として導出される。
    • オンラインコミュニケーションにおける感情ダイナミクスの分析において,既存指標を上回る予測性能を示した。

    Link: https://arxiv.org/abs/2603.11472

  • スラックを増やし,より良く予測する:確率潜在変数モデルに基づくソフトセンサーの近接緩和 [cs.LG, cs.SY, eess.SY, math.OC]目的:ソフトセンサーモデリングの精度向上
    • プロセス産業における品質管理や異常検知において,信頼性の高いソフトセンサーが不可欠である。
    • 従来のNPLVMでは,変分事後分布のパラメータ化による近似誤差が,ソフトセンサーの精度低下を招く。
    • 近似誤差を回避し,NPLVMの性能を向上させる新たな学習戦略を提案する。
    • 提案手法KProxNPLVMは,Wasserstein距離を近接演算子として利用し,学習目的関数を緩和することで,従来のNPLVMの近似誤差を低減する。
    • KProxNPLVMの最適化実装について厳密な導出を行い,アルゴリズムの収束性を示すことで,近似誤差回避の理論的根拠を確立した。
    • 合成データおよび実世界の産業データを用いた実験により,KProxNPLVMの有効性が実証された。

    Link: https://arxiv.org/abs/2603.11473

  • 交通予測のための深層学習ネットワーク・時間モデル [cs.LG, cs.NI]目的:交通予測における深層学習モデルの性能向上
    • ネットワークのインテリジェントな制御・管理機能の発展には,時系列分析が不可欠である。
    • 既存の統計モデルや浅い機械学習モデルでは,多変量時系列の予測能力に限界がある。
    • ネットワークの複雑なトポロジー依存性と時間パターンを同時に学習可能なモデルを開発する。
    • 大規模言語モデル(LLM)を基盤としたモデルが,全体的な予測性能と汎化性能において優れた結果を示した。
    • グラフ注意ネットワーク(GAT)モデルは,時系列および予測範囲全体での予測分散の軽減に強みを発揮した。
    • 時間経過に伴う相関の変動や予測分布の差異に関する重要な知見が得られた。

    Link: https://arxiv.org/abs/2603.11475

  • 人工知能を用いた植物珪酸体研究の活用 [cs.LG, q-bio.QM]目的:植物珪酸体研究における高効率なデジタル化,推論,解釈パイプラインの開発
    • 植物珪酸体は過去の植生や人類活動の復元に不可欠であり,考古学や古生態学で重要な役割を果たす。
    • 従来の植物珪酸体分析は,労働集約的で時間のかかる手動顕微鏡観察に依存しており,分析能力に限界があった。
    • 本研究は,人工知能を用いることで植物珪酸体研究の効率化と精度向上を図り,より大規模な分析を可能にすることを目的とする。
    • Sorometryは,zスタック光学顕微鏡スキャンを処理し,個々の微小粒子の同期2Dオルソ画像と3D点群を自動生成する包括的なAIパイプラインである。
    • 2D画像分析にConvNeXt,3D点群分析にPointNet++を組み合わせたマルチモーダル融合モデルは,24種類の形態型において77.9%の分類精度を達成した。
    • 3次元データの統合は,複雑な形態型(イネ科植物の短細胞珪酸体など)の識別において不可欠であることが示された。また,植物珪酸体の混合サンプルからトウモロコシやヤシなどの特定の植物を識別するバイジアン有限混合モデリングも組み込まれている。

    Link: https://arxiv.org/abs/2603.11476

  • 波の文法:神経記号VLMエージェントによる説明可能な多変量時系列イベント検出へ [cs.CY, cs.LG, cs.AI, cs.MA]目的:時系列イベント検出における,知識誘導によるイベント記述と多変量信号の対応
    • 時系列イベント検出は,多くの重要な分野で不可欠なタスクであり,その応用範囲は広い。
    • イベントは複雑な構造を持つため,限られたラベルデータからの学習が困難である。
    • 自然言語によるイベント記述に基づいて,少ないデータで信号内のイベントを特定し,説明すること。
    • 提案手法は,イベントの内部構造を捉えるEvent Logic Tree (ELT) を導入し,言語と時系列データを結びつけた。
    • 神経記号VLMエージェントは,信号の視覚化から要素を抽出し,ELTの制約に基づいてイベントを検出・説明する。
    • 実データを用いた実験と人間による評価により,既存手法やLLM/VLMベースの手法を上回る性能が示された。

    Link: https://arxiv.org/abs/2603.11479

  • ビデオLLMにおける誘導された忠実性と事実性の幻覚の診断ベンチマーク:INFACT [cs.RO, cs.CV, cs.AI]目的:ビデオLLMの幻覚(忠実性,事実性)を診断するためのベンチマーク
    • ビデオLLMの発展は目覚ましいが,幻覚は信頼性を損なう重要な課題である。
    • 既存のベンチマークは事実性の幻覚の網羅性が低く,クリーンな環境での評価が中心である。
    • 忠実性と事実性の幻覚を詳細に評価し,様々な劣化条件下での堅牢性を検証する。
    • INFACTは,忠実性と事実性に関する9,800件のQAインスタンスを含む診断ベンチマークである。
    • ベースラインの精度は,劣化条件下での信頼性と必ずしも相関しないことが判明した。
    • 特にオープンソースモデルは,時系列に関する質問において低いTemporal Sensitivity Scoreを示した。

    Link: https://arxiv.org/abs/2603.11481

  • ソフトマックスTransformerにおいてアテンションシンクは必然的に必要である:トリガー条件付きタスクからの証拠 [cs.IR, cs.LG]目的:ソフトマックスTransformerにおけるアテンションシンクの必然性
    • Transformerは自然言語処理の基盤であり,その性能向上は重要である。
    • Transformerにアテンションシンクが生じる原因が明確でなかった。
    • アテンションシンクがなぜ生じるのかを理論的に解明すること。
    • ソフトマックスTransformerでは,単純なトリガー条件付き行動を計算する際に必然的にアテンションシンクが生じることを証明した。
    • 正規化制約がアテンションシンクの根本的な原因であることを明らかにした。
    • ReLUアテンションは正規化を行わないため,アテンションシンクが生じないことを示した。

    Link: https://arxiv.org/abs/2603.11487

  • SPEGC:意味的プロンプトによるグラフクラスタリングを用いた継続的なテスト時適応による医用画像セグメンテーション [cs.CV, cs.AI]目的:医用画像セグメンテーションにおける継続的なテスト時適応
    • 医療現場での画像診断支援において,精度の高いセグメンテーションは不可欠である。
    • 学習データとテストデータ間のドメインギャップが,モデルの性能を著しく低下させる。
    • ドメインギャップに頑健な適応手法を開発し,実臨床での信頼性を向上させる。
    • 提案手法SPEGCは,意味的プロンプトによる特徴強化とグラフクラスタリングを組み合わせることで,ドメインシフトへの耐性を高める。
    • グラフクラスタリングソルバーは,類似度行列を洗練し,高次の構造表現を獲得することで,より安定した適応を可能にする。
    • 複数の医用画像セグメンテーションベンチマークにおいて,最先端のCTTA手法と比較して優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.11492

  • OrthoEraser:概念消去のための結合ニューロン直交投影 [cs.CV, cs.AI, cs.CY]目的:テキスト画像生成モデルにおける有害概念の消去
    • テキスト画像生成モデルの安全性確保は重要であり,悪意ある誘導に対する対策が求められる。
    • 既存の概念消去法は,不要な属性にも影響を与え,画像品質を低下させる問題がある。
    • 本研究は,直交投影により有害概念のみを選択的に消去し,安全性を向上させることを目指す。
    • OrthoEraserは,疎な自動符号化器を用いて特徴量の分離を行い,高精度な概念消去を実現する。
    • 結合ニューロン検出により,影響を受けやすい特徴を特定し,直交化戦略を用いて有害概念と分離する。
    • 実験結果から,OrthoEraserは最先端の手法と比較して,消去精度と生成画像の品質を両立していることが示された。

    Link: https://arxiv.org/abs/2603.11493

  • KEPo:グラフベースの検索拡張生成における知識進化ポイズニング [cs.LG, cs.AI, cs.CR]目的:グラフベースの検索拡張生成システムに対する新たなポイズニング攻撃手法
    • LLMの性能向上のため,外部知識源を活用したRAGが注目されている。
    • 外部知識源に悪意のあるデータが混入すると,LLMの出力が操作されるリスクがある。
    • グラフ構造化によるRAGの堅牢性を打破し,ポイズニング攻撃の脆弱性を明らかにする。
    • KEPoは,有毒なイベントを生成し,知識の進化経路を偽装することでKGを汚染する。
    • 複数ターゲット攻撃においては,攻撃コーパス間の関連性を利用し,攻撃効果を増幅させる。
    • 実験結果から,KEPoは既存手法を大幅に上回る攻撃成功率を達成することが示された。

    Link: https://arxiv.org/abs/2603.11501

  • 連合推薦における汎化埋め込み学習のためのシャープネス認識最小化 [eess.SY, cs.SY, cs.LG]目的:連合推薦システムにおける汎化アイテム埋め込みの学習
    • プライバシー保護が重要視される中,分散環境での協調学習が求められている。
    • クライアント間のデータ分布の不均一性や疎性により,汎化埋め込みの学習が困難である。
    • 汎化埋め込みの安定学習を促進し,連合推薦システムの性能向上を目指す。
    • 提案手法FedRecGELは,アイテム中心の視点から連合推薦問題を多タスク学習として定式化する。
    • 理論的分析に基づき,シャープネス認識最小化を用いて汎化性能を向上させ,学習を安定化させる。
    • 4つのデータセットを用いた実験により,FedRecGELが連合推薦性能を大幅に改善することが示された。

    Link: https://arxiv.org/abs/2603.11503

  • LongFlow:推論のための効率的なKVキャッシュ圧縮 [cs.LG, cs.CL]目的:推論モデルにおけるKVキャッシュ圧縮手法
    • 複雑なタスク処理能力向上に伴い,推論モデルの利用が拡大している。
    • 長大な出力シーケンスが,KVキャッシュの肥大化と計算コスト増大を招く。
    • 効率的な重要度推定により,KVキャッシュ圧縮を可能にする。
    • LongFlowは,既存手法に比べ,最大11.8倍の処理速度向上を実現した。
    • KVキャッシュの80%圧縮にも関わらず,モデル精度への影響は最小限に抑えられた。
    • 重要度推定にわずかな計算コストで済むため,継続的な再評価も可能である。

    Link: https://arxiv.org/abs/2603.11504

  • ナノフォトニックデバイスにおける製造ばらつきを予測する変分対応生成モデルGen-Fab [cs.CV, cs.AI, cs.LG]目的:ナノフォトニックデバイスの製造ばらつき予測における不確実性のモデル化
    • ナノフォトニクスは,高性能な光デバイスを実現する基盤技術であり,情報処理速度の向上に不可欠である。
    • 製造過程におけるエッチング不足や過剰エッチングにより,デバイス性能が設計値から大きく乖離する問題がある。
    • 製造ばらつきを予測し,より現実的なデジタルツインを構築することで,設計の最適化を目指す。
    • 提案手法Gen-Fabは,GDS形式の設計図から製造後のSEM画像に類似した多様な予測画像を生成し,ナノスケールでのばらつきを捉える。
    • Gen-Fabは,既存のU-NetやモンテカルロドロップアウトU-Net,アンサンブル学習と比較して,予測精度と不確実性モデリングの両方で優れた性能を示した。
    • 評価実験では,Gen-FabがIoUスコア89.8%を達成し,他の手法を上回るとともに,実際の製造結果分布との整合性も高かった。

    Link: https://arxiv.org/abs/2603.11505

  • 高性能計算システムにおける自動設計探索のためのマルチエージェント協調 [cs.CL, cs.AI]目的:大規模設計空間の探索
    • 気候モデルや核融合設計など,現代科学の課題解決には広範な設計探索が不可欠である。
    • 設計探索には専門知識と手作業によるワークフロー構築が伴い,効率が課題となっている。
    • LLMを活用したマルチエージェントシステムにより,設計ワークフローを自動化し,探索を加速する。
    • MADAシステムは,反復的な設計改良を自動的に実行し,手動介入を最小限に抑えつつ,最適なRMI抑制に近づけることを実証した。
    • 本フレームワークは,煩雑な手動ワークフロー設定を削減し,大規模な自動設計探索を可能にする。
    • 推論,シミュレーション,専門ツール,協調ワークフローを組み合わせることで,科学的発見を加速する再利用可能なパターンを示す。

    Link: https://arxiv.org/abs/2603.11515

  • FBCIR:合成画像検索におけるクロスモーダル焦点の均衡化 [cs.CV, cs.AI]目的:合成画像検索におけるクロスモーダル焦点の不均衡の分析と改善
    • 画像とテキストの情報を統合し,より高度な画像検索を実現する技術として注目されている。
    • 既存モデルは,意味的に類似した負例画像が存在する場合に精度が低下しやすいという課題がある。
    • モデルが特定のモダリティに偏重する問題を分析し,データ拡張による改善を目指す。
    • 提案手法FBCIRにより,既存の合成画像検索モデルにクロスモーダル焦点の不均衡が存在することが確認された。
    • 困難な負例画像を含むデータセットを拡張することで,モデルの性能が向上することが示された。
    • 提案手法は,標準的なベンチマークにおいても性能を維持しつつ,難しいケースでの精度を改善する。

    Link: https://arxiv.org/abs/2603.11520

  • EReCu:マルチ手掛かり学習による擬似ラベル進化融合と洗練を用いた,教師なし迷彩物体検出 [cs.CV, cs.AI]目的:教師なし迷彩物体検出の性能向上
    • 迷彩物体検出は,軍事,セキュリティ,野生動物保護など,様々な分野で重要な役割を担う。
    • 従来の教師なし迷彩物体検出は,対象物体と背景の類似性が高く,ノイズの多い擬似ラベルに依存するため,困難である。
    • 本研究は,擬似ラベルの信頼性と特徴の忠実性を高め,より正確な迷彩物体検出を実現することを目指す。
    • マルチ手掛かりネイティブ知覚モジュールにより,低レベルテクスチャと中間レベルセマンティクスを統合し,マスクとネイティブオブジェクト情報の正確なアライメントを実現した。
    • 擬似ラベル進化融合は,教師・生徒間の相互作用とDepthwise Separable Convolutionを用いて,ラベルの洗練と効率的なセマンティックノイズ除去を行う。
    • スペクトルテンソルアテンション融合により,多層アテンションマップにわたるコンパクトなスペクトル集約を通じて,セマンティック情報と構造情報のバランスを効果的に調整した。

    Link: https://arxiv.org/abs/2603.11521

  • CFD-HAR:条件付き特徴分離によるユーザー制御型プライバシー [cs.LG]目的:条件付き特徴分離に基づく表現学習による,粒度の細かい動的プライバシーフィルタリングを通じたユーザー制御型プライバシー
    • ウェアラブルデバイスの普及により,活動認識の重要性が増している。個人の行動履歴は重要な情報源である。
    • センサーデータにはプライバシーに関わる情報が含まれるため,データの保護が課題となっている。
    • ユーザーのプライバシー設定を尊重しつつ,高い認識性能を維持することが求められている。
    • 提案手法CFD-HARは,潜在空間で活動と機密属性を分離することで,明示的かつ調整可能なプライバシー保護機能を提供する。
    • オートエンコーダーを用いた少量サンプル学習は,ラベル効率と軽量な適応性で優れるが,本質的なプライバシー保護機能は欠如している。
    • 継続的なIoT環境におけるセキュリティリスクを分析した結果,表現漏洩や埋め込み層攻撃に対する脆弱性に違いがあることが示された。

    Link: https://arxiv.org/abs/2603.11526

  • 動的計算割り当てと負荷分散による自己回帰言語モデリングのためのエキスパート閾値ルーティング [cs.AI, cs.CL]目的:エキスパート閾値ルーティングによる自己回帰言語モデルの性能向上
    • 大規模言語モデルの性能向上のためには,計算資源の効率的な利用が不可欠である。
    • 従来のMoEモデルでは,固定的なルーティングと負荷分散の困難さが課題となっていた。
    • 本研究は,動的な計算割り当てと負荷分散を実現し,MoEモデルの効率性と性能を向上させる。
    • エキスパート閾値ルーティングは,グローバルなトークン分布から推定される閾値を用いて動的な計算割り当てを実現する。
    • この手法は補助損失なしで負荷分散を達成し,自己回帰言語モデリングに適した因果メカニズムを提供する。
    • FineWeb-Eduを用いた事前学習実験の結果,ETはTC-MoEよりもクロスエントロピー損失を0.067低減し,同等の性能をより少ないトークン数で達成した。

    Link: https://arxiv.org/abs/2603.11535

  • ReHARK:ロバストなワンショット視覚言語適応のための改良型ハイブリッド適応RBFカーネル [cs.RO, cs.CV, cs.AI]目的:ワンショット視覚言語適応における安定性と可塑性の両立
    • 大規模な視覚言語モデルは多様なタスクに応用可能だが,データが限られた状況下での性能向上が課題である。
    • 既存の学習不要適応手法は局所的な推定に偏り,グローバルな構造的正規化が不足している。
    • ReHARKは,カーネル空間におけるグローバルな近接正則化により,ワンショット適応の課題を解決する。
    • ReHARKは,CLIPとGPT-3の知識を融合し,視覚クラスのプロトタイプと組み合わせることで,ロバストなセマンティック・視覚的アンカーを構築する。
    • 視覚的およびテキスト形式間の移行をスムーズにするために,中間サンプルを生成するサポートセット拡張(ブリッジング)を導入する。
    • ReHARKは,11の多様なベンチマークにおいて既存のベースラインを大幅に上回り,平均精度65.83%という新たな最先端性能を達成した。

    Link: https://arxiv.org/abs/2603.11542

  • 1人の監督者,多様なモダリティ:自律的クエリのための適応的ツール編成 [cs.CL, cs.AI, cs.LG]目的:自律的マルチモーダルクエリ処理のための,専門ツール間の協調
    • 多様なデータ形式を扱うAIシステムの重要性が高まっているため。
    • 既存システムは,特定のタスクに特化し,柔軟性に欠ける場合が多い。
    • マルチモーダルなクエリ処理における,動的なツール編成と結果合成の効率化。
    • 本フレームワークは,正確な回答までの時間を72%削減することに成功した。
    • 会話のやり直しを85%削減し,コストを67%削減することも可能となった。
    • これらの結果は,知的な集中型編成がマルチモーダルAIの経済性を大きく改善することを示唆する。

    Link: https://arxiv.org/abs/2603.11545

  • 住民報告から都市イベントを再構成するためのマルチタスク反原因学習 [cs.LG]目的:都市イベント再構成のための反原因学習手法
    • 現実世界の機械学習は,観測された結果から潜在的な原因を推測する反原因推論を含むことが重要である。
    • 複数の関連タスクにおいて,共通の因果メカニズムとタスク固有のメカニズムが混在するため,効率的な学習が困難である。
    • タスク間の共通因果構造を利用し,より正確な原因再構成を実現することを目的とする。
    • 提案手法MTACは,都市イベント再構成において,既存手法と比較して最大34.61%のMAE削減を達成した。
    • MTACは,タスク間で転移可能な因果メカニズムを学習することの有効性を示した。
    • 共有された因果グラフと構造化された多タスク構造方程式モデルを用いることで,高精度な原因再構成を可能にした。

    Link: https://arxiv.org/abs/2603.11546

  • MANSION:長距離タスクのための多階層3Dシーン生成 [cs.CV, cs.AI, cs.RO]目的:大規模な建物環境の生成と評価
    • 現実世界のロボットタスクは空間的な推論を必要とし,その重要性は増している。
    • 既存の環境は単一階層に限られ,現実世界の複雑さを反映できていない。
    • 多階層環境における空間推論と計画能力の向上を目指す。
    • MANSIONは,言語指示に基づいて,現実的で移動可能な多階層3D環境を生成するフレームワークである。
    • MansionWorldは,1,000以上の多様な建物(病院やオフィスなど)を含むデータセットであり,タスクに応じた環境編集も可能である。
    • 最先端のエージェントは本環境で性能が低下し,MANSIONが新たな評価環境としての重要性を示す。

    Link: https://arxiv.org/abs/2603.11554

  • RoboClaw:スケーラブルな長期的ロボットタスクのためのエージェント的フレームワーク [cs.RO, cs.AI]目的:長期的ロボットタスクのスケーラビリティ向上
    • ロボットの自律性は,人間の労働力を削減し,多様な環境での活用を可能にする上で重要である。
    • 従来のVLAシステムは,環境リセットやマルチポリシー実行の脆さなど,長期タスクへの拡張性に課題がある。
    • RoboClawは,データ収集,ポリシー学習,タスク実行を統合し,これらの課題を解決することを目指す。
    • RoboClawは,VLM駆動の単一コントローラで,データ収集,ポリシー学習,タスク実行を統合するフレームワークである。
    • Entangled Action Pairs (EAP) を導入し,自己リセットループを形成することで,継続的なデータ収集とポリシー改善を実現する。
    • 実世界での実験により,従来のパイプラインと比較して,安定性とスケーラビリティが向上し,人的努力を大幅に削減することが示された。

    Link: https://arxiv.org/abs/2603.11558

  • AIは誤りを認識するが修正できない:高リスク判断における最先端LLMのヘリコイドダイナミクス [cs.AI, cs.HC]目的:最先端LLMにおけるヘリコイドダイナミクス
    • AIの信頼性は,医療や投資判断など,判断が困難な状況で重要性が増している。
    • LLMは,検証不可能な状況下で誤りを繰り返し,その原因を認識しつつも修正できない。
    • LLMが誤りを繰り返すヘリコイドダイナミクスを特定し,信頼性を高める方法を探る。
    • 最先端のLLM7種類(Claude, ChatGPT, Gemini等)において,臨床診断,投資評価,高リスク面接等のシナリオでヘリコイドダイナミクスが確認された。
    • LLMは,厳密さと快適さのバランスが崩れる高リスク状況下で,信頼性を低下させる傾向がある。
    • ヘリコイドダイナミクスの特定,命名,境界条件の理解が,信頼できるAIパートナーシップへの第一歩となる。

    Link: https://arxiv.org/abs/2603.11559

  • 知性の創発:動的適応協調の最小理論 [cs.MA, cs.AI, econ.TH, math.DS]目的:マルチエージェントシステムにおける動的適応協調の理論
    • 複雑なシステムにおいて,エージェント間の協調は,社会や自然現象を理解する上で不可欠である。
    • 従来の協調理論は,最適化やエージェント中心の学習に偏りがちであり,環境との相互作用を十分に考慮していない。
    • 本研究は,環境とエージェントの動的な相互作用に着目し,協調の創発メカニズムを解明することを目指す。
    • 本研究では,環境,インセンティブ,エージェントを再帰的に閉じたフィードバックアーキテクチャとしてモデル化した。
    • その結果,システムは前方不変領域を持つことが示され,全体的な最適性を必要とせずに安定性が保証された。
    • また,環境の記憶がインセンティブ信号に影響する場合,そのダイナミクスは静的な目的関数に還元できないことが示された。

    Link: https://arxiv.org/abs/2603.11560

  • CAETC:時間経過における反事実推定のための因果自己符号化と処置条件化 [cs.CL, cs.LG]目的:時間経過における反事実推定の精度向上
    • 個別化医療をはじめ,様々な応用分野で時間経過に伴う反事実推定は重要である。
    • 観察データにおける時間依存の交絡バイアスが,正確かつ効率的な推定を困難にしている。
    • 因果自己符号化と処置条件化によって,交絡バイアスを軽減し,反事実推定の精度を高める。
    • CAETCは,敵対的表現学習に基づき,部分的に可逆で処置不変な表現を学習する。
    • その結果,既存の反事実推定手法と比較して,合成データ,準合成データ,実データで有意な改善が見られた。
    • 本手法は,LSTMやTCNなど,既存のシーケンスモデルに組み込むことが可能である。

    Link: https://arxiv.org/abs/2603.11565

  • ユーティリティ最大化プロンプティング:多目的大規模言語モデル最適化のための形式的フレームワーク [cs.CL, eess.SY, cs.MA, cs.SY, cs.CL, cs.AI]目的:多目的大規模言語モデルの最適化手法
    • 大規模言語モデルの性能は,プロンプトの質に大きく依存する。
    • 複数の目的を同時に達成する場合,自然言語によるプロンプトは曖昧になりがちである。
    • 曖昧さを解消し,明確な最適化目標を言語モデルに指示すること。
    • 本研究で提案するユーティリティ最大化プロンプティングは,数学的な形式言語を用いてタスクを定義する。
    • 期待効用を最大化するようにLLMを誘導することで,目的の各要素を明示的に考慮した推論を促す。
    • MovieLens 1Mデータセットでの実験により,自然言語ベースラインと比較して,精度とNDCGが向上することが示された。

    Link: https://arxiv.org/abs/2603.11583

  • 波形生成のための複素ニューラルネットワークの探求 [cs.RO, cs.NI, cs.SD, cs.AI]目的:複素数値演算に基づくニューラルボコーダの設計
    • 自然で表現力豊かな音声を生成する音声合成技術の重要性が高まっている。
    • 既存のボコーダは,計算コストや表現力の限界といった課題を抱えている。
    • 複素スペクトログラムの構造を捉え,より高品質かつ効率的な波形生成を目指す。
    • 提案手法ComVoは,複素数値演算をネイティブに用いることで,従来のボコーダよりも高い合成品質を達成した。
    • 位相量子化により,位相変換を構造化し,学習過程の安定化に貢献している。
    • ブロック行列計算スキームは,冗長な演算を削減し,学習時間を約25%短縮することに成功した。

    Link: https://arxiv.org/abs/2603.11589

  • 大規模言語モデルと生存時間解析を活用した化学療法結果の早期予測 [cs.AI]目的:化学療法結果の早期予測
    • がん治療における化学療法は高コストであり,副作用も伴うため,患者管理と意思決定を改善する早期予測が不可欠である。
    • 実際のデータを用いた予測モデルは,明示的な表現型や治療結果ラベルの欠如といった課題に直面している。
    • 患者記録から表現型や結果ラベルを抽出することで,予測モデルの精度向上を目指す。
    • 大規模言語モデルとオントロジーに基づいた手法により,表現型のスパース性を大幅に低減した。
    • 生存時間予測にはRandom Survival Forestを使用し,C-index 73%を達成。特定時点での予測精度とF1スコアは70%を超えた。
    • 予測確率の信頼性はキャリブレーション曲線により検証され,他の4つの癌種にも適用可能であることが示された。

    Link: https://arxiv.org/abs/2603.11594

  • 日本語病理レポート作成支援のためのオープンソース大規模言語モデルの性能評価 [cs.DB, cs.CL, cs.AI]目的:日本語病理レポート作成支援におけるオープンソース大規模言語モデルの性能
    • 病理診断は患者の治療方針を決定する上で重要であり,正確かつ迅速なレポート作成が求められる。
    • 病理レポート作成には専門知識と時間が必要であり,医師の負担が大きいという課題がある。
    • 大規模言語モデルを活用することで,レポート作成の効率化と質の向上を目指す。
    • 思考型モデルと医療特化型モデルは,推論を要する構造化レポート作成や誤字訂正において優位性を示した。
    • 生成された解説文の評価は評価者によって大きく異なった。
    • タスクによって大規模言語モデルの有用性は異なるものの,限定的ながら臨床的に関連性の高いシナリオで役立つ可能性がある。

    Link: https://arxiv.org/abs/2603.11597

  • 生存分析と分類の融合:慢性疾患早期リスク予測モデルの新たな枠組み [cs.LG, cs.AI]目的:慢性疾患の早期リスク予測モデルの開発
    • 慢性疾患は長期にわたる治療が必要であり,医療費増大の一因となるため,予防が重要である。
    • 既存のリスク予測モデルは,生存分析または分類のどちらか一方に焦点を当てている。
    • 生存分析と分類を統合し,より包括的なリスク予測モデルを構築することを目指す。
    • 本研究で提案する生存分析モデルは,精度,F1スコア,AUROCにおいて,LightGBMやXGBoostといった既存モデルと同等またはそれ以上の性能を示す。
    • 生存分析手法を効率的に分類に適用可能にする新たな手法を開発した。
    • 提案モデルは,臨床専門家により検証された説明可能な予測結果を提供する。

    Link: https://arxiv.org/abs/2603.11598

  • ハイブリッドエネルギー認識型報酬整形:方策最適化のための統一された軽量物理誘導手法 [cs.LG]目的:方策最適化のための報酬整形手法
    • 強化学習は連続制御に優れるが,効率的な探索が課題。
    • 物理モデルは完全な方程式を必要とし,計算量が膨大になる。
    • 軽量な物理情報を活用し,効率的な強化学習を実現する。
    • 提案手法H-EARSは,タスク特有の報酬とエネルギーに基づく正則化を統合することで,収束性とエネルギー効率を向上させた。
    • エネルギーの主要成分を捉えることで,計算量を線形に抑え,実用的な応用を可能にした。
    • 車両シミュレーションにより,安全性や極端な条件下での有効性が確認された。

    Link: https://arxiv.org/abs/2603.11600

  • 見る,象徴化する,行動する:空間表現によるVLMのゲームプレイ向上 [cs.AI]目的:視覚言語モデルにおける空間表現によるゲームプレイ能力の向上
    • VLMは画像認識と自然言語処理を融合し,人間とロボットのインタラクションに不可欠である。
    • VLMは視覚シーンの記述には優れるものの,正確な行動決定に課題がある。
    • VLMに視覚情報と空間表現の両方を与えることで,インタラクティブな環境での性能向上を目指す。
    • 正確な空間表現が与えられた場合,全てのVLMの性能が向上することが示された。
    • VLMが独自に空間表現を抽出する場合,性能はモデルの能力とシーンの複雑さに依存する。
    • 信頼性の高い空間表現抽出が,VLMベースのエージェントの性能向上の鍵となる。

    Link: https://arxiv.org/abs/2603.11601

  • AutoScout:機械学習システム設定の自動化のための構造化最適化 [cs.LG]目的:機械学習システム設定の最適化
    • 機械学習の普及に伴い,システム設定の複雑性が増大しており,効率的な設定が重要である。
    • 設定空間が広大で,パラメータ間の依存関係も複雑なため,最適な設定を見つけることが困難である。
    • AutoScoutは,構造化された最適化手法を用いて,機械学習システムの性能を向上させることを目指す。
    • AutoScoutは,モデル並列化戦略や通信最適化など,様々な設定要素を最適化する汎用システム設定ツールである。
    • 混合離散/連続最適化問題としてシステム設定を定式化し,構造的な決定と実行パラメータを同時に最適化する。
    • 多様なモデル,ハードウェアプラットフォーム,展開目標において,専門家が調整した設定を2.7~3.0倍上回る学習速度を達成した。

    Link: https://arxiv.org/abs/2603.11603

  • 分数回転:その潜在能力?部分RoPEの性能と収束の調査 [cs.IR, cs.LG, cs.CL]目的:部分RoPEが学習のダイナミクスと収束に与える影響の体系的な研究
    • Transformerモデルにおいて,位置情報を効率的にエンコードする手法は重要である。
    • 標準的なRoPEはメモリ消費が大きく,長い系列長においてボトルネックとなる場合がある。
    • メモリ効率を向上させつつ,性能を維持するためのRoPEの適用方法を模索する。
    • 隠れ次元のごく一部 (約10%) にRoPEを適用するだけで,完全なRoPEと同等の収束を達成できることが示された。
    • この傾向は,モデルサイズ,系列長,データセットの品質に関わらず一貫して確認された。
    • NoPEモデルの不安定な学習軌跡は,最小限のRoPE適用またはQK-Normによって緩和できる。

    Link: https://arxiv.org/abs/2603.11611

  • Shape-of-You: 野外画像における意味的対応のための融合グロモフ-ワッサースタイン最適輸送 [cs.CV, cs.LG]目的:野外画像における意味的対応の確立
    • 画像間の意味的対応は,画像処理やコンピュータビジョンの基盤技術である。
    • 明示的な対応関係がない野外画像では,意味的対応の確立が困難である。
    • 既存手法の幾何学的曖昧性という課題に対し,構造的整合性を考慮した手法を提案する。
    • 本研究では,疑似ラベル生成を融合グロモフ-ワッサースタイン(FGW)問題として再構築した。
    • 3D基礎モデルを活用し,幾何学的空間における構造的整合性を定義することで曖昧性を解消した。
    • SPair-71kおよびAP-10kデータセットで最先端の性能を達成し,新たなベンチマークを確立した。

    Link: https://arxiv.org/abs/2603.11618

  • OpenClawの制御:自律型LLMエージェントの脅威に対するセキュリティ分析と緩和策 [cs.CR, cs.AI]目的:自律型LLMエージェントのセキュリティ脅威
    • LLMエージェントの能力向上に伴い,そのセキュリティ確保は重要課題となっている。
    • 既存のセキュリティ対策は,時間経過や多段階にわたるリスクへの対応が不十分である。
    • LLMエージェントのライフサイクル全体を考慮した包括的なセキュリティアーキテクチャを提案する。
    • OpenClawを対象とした詳細なケーススタディにより,間接プロンプトインジェクション等の脅威の存在と深刻さが示された。
    • 既存のポイント防御策では,クロス時間的かつ多段階的な体系的なリスクへの対処に限界があることが明らかになった。
    • プラグイン審査フレームワーク,コンテキストを考慮した命令フィルタリングなど,ライフサイクル各段階における防御戦略を検討した。

    Link: https://arxiv.org/abs/2603.11619

  • ガウス生成モデルによるパーソナライズされた連合学習 [cs.LG]目的:連合学習におけるパーソナライズ手法の確立
    • データプライバシー保護と分散環境での協調学習が重要視されている。
    • クライアントデータの不均一性が,連合学習の性能を阻害する要因となっている。
    • データ分布のパーソナライズ特性を考慮し,学習性能の向上を目指す。
    • 提案手法pFedGMは,ガウス生成モデルを用いてクライアント間の不均一性を捉え,協調学習とパーソナライズのバランスを実現した。
    • pFedGMは,グローバルな最適化と局所的な統計量抽出を分離し,二段階の融合フレームワークによりパーソナライズされた分類器ヘッドを構築する。
    • 多様なデータセットと設定での評価により,最先端手法と比較して優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.11620

  • 交差持続性図の密度とその応用 [cs.DB, cs.AI]目的:交差持続性図の密度に関する体系的な研究
    • データ形状解析において,位相データ解析はクラスタやループ等の構造を捉え,データ解析の強力なツールである。
    • 従来の持続性図は,個々の多様体分析に有効だが,多様体間の相互作用を考慮できないという課題があった。
    • 交差持続性図の密度を分析し,統計的利用の基礎を確立し,点群からの密度予測フレームワークを構築する。
    • 交差持続性図の密度が存在すること,およびその統計的利用に関する理論的基盤が確立された。
    • 点群座標と距離行列から交差持続性図の密度を直接予測する機械学習フレームワークが設計された。
    • 本手法は,多様体からのサンプルを識別する能力が向上し,既存技術を上回る性能を示した。

    Link: https://arxiv.org/abs/2603.11623

  • MedPruner:ビジョン言語モデルにおける効率的な3D医用画像理解のための訓練不要階層型トークンプルーニング [cs.CV, cs.AI]目的:3D医用画像理解のための効率化
    • 医療画像診断の精度向上と,臨床現場での実用化が求められている
    • 既存の3D医用画像処理モデルは計算コストが高く,実用性に課題がある
    • モデルの計算効率を向上させ,臨床への応用を促進すること
    • MedPrunerは,スライスレベルの冗長性とトークンレベルの冗長性を効果的に削減する
    • MedGemma等のモデルにおいて,トークン数を5%以下に削減しながら,性能を維持または向上させる
    • 動的なトークン選択の重要性を実証し,臨床現場への実装可能性を示唆する

    Link: https://arxiv.org/abs/2603.11625

  • VisDoT:人間らしい解釈に基づくグラウンディングと思考の分解による視覚的推論の強化 [cs.AI, cs.CV]目的:視覚的推論の強化
    • 複雑なデータを視覚的に表現し,分析する能力は,意思決定や科学的発見において不可欠である。
    • 既存の視覚言語モデルは,グラフ上の視覚的要素の正確な認識と意味的表現との整合性に課題を抱えている。
    • 人間らしい知覚に基づくグラウンディングと思考の分解により,グラフベースの視覚的推論の精度向上を目指す。
    • VisDoTフレームワークは,グラフ知覚理論に基づいた4つの知覚タスクを形式化し,視覚的推論能力を向上させる。
    • DoTプロンプティングにより,視覚的知覚のサブ質問と論理的サブ質問を段階的に分離することで,推論プロセスを改善する。
    • ChartQAやVisDoTQAといったベンチマークテストで,最先端の性能と汎化能力を示す。

    Link: https://arxiv.org/abs/2603.11631

  • トークン化により,マルチモーダル大規模言語モデルが建築の間取り図を理解,生成,編集することが可能になる [cs.RO, cs.RO, cs.CV, cs.AI]目的:建築間取り図の理解,生成,編集を統合したフレームワーク
    • 建築設計は,幾何学,意味論,空間階層の複合的な推論を必要とし,AIにとって重要な課題である。
    • 既存のAIシステムは,一貫性のある空間推論と制御可能な生成に苦戦している。
    • 幾何学的な妥当性と制御性を向上させ,効率的かつローカルに展開可能なシステムを構築する。
    • 本研究で開発されたHouseMindは,テキスト指示に基づいた一貫性のある制御可能な間取り図を生成できる。
    • 離散的な部屋インスタンスのトークンを導入することで,レイアウトと記号的推論を繋ぐ統一された語彙を構築した。
    • マルチモーダルアライメントと命令チューニングにより,優れた幾何学的妥当性と制御性を実現している。

    Link: https://arxiv.org/abs/2603.11640

  • IDRL:個人に配慮した多次元うつ関連表現学習フレームワークによるうつ病診断 [cs.RO, cs.CV, cs.AI]目的:多次元うつ関連表現学習フレームワークによるうつ病診断
    • うつ病は深刻な精神疾患であり,早期発見と治療が重要である。診断精度向上のため,多次元データを用いたアプローチが求められている。
    • 既存手法では,異なる次元間の不整合や無関係な情報の混入,個人のうつ表現の多様性により,信頼性の高い統合が困難である。
    • IDRLは,次元間の整合性を高めつつ,無関係な情報を抑制し,個々の特性に合わせた適応的な次元融合を実現することで,診断精度を向上させる。
    • IDRLは,多次元表現を共通のうつ空間,固有のうつ空間,無関係空間に分離することで,次元間の整合性を強化し,ノイズを抑制する。
    • 個人に配慮した次元融合モジュール(IAF)を導入し,予測の重要度に応じてうつ関連特徴の重みを動的に調整することで,個々の差異に対応した融合を実現する。
    • 実験結果から,IDRLが多次元うつ病検出において優れた性能と堅牢性を示すことが確認された。

    Link: https://arxiv.org/abs/2603.11644

  • 単純なレシピが機能する:視覚-言語-行動モデルは強化学習を用いた自然な継続学習者である [cs.FL, cs.CC, cs.RO, cs.CL, cs.LG, cs.RO]目的:視覚-言語-行動モデルにおける継続強化学習の有効性
    • ロボット工学やAIにおいて,環境変化に適応する自律的なエージェントの実現が重要である。
    • 既存の継続学習手法は,過去の知識を忘却しやすく,複雑な戦略が必要とされていた。
    • 大規模事前学習済みモデルを用いた継続学習において,単純な手法でも高い性能を発揮できるか検証する。
    • 単純な逐次微調整(Seq. FT)と低ランク適応(LoRA)の組み合わせが,驚くほど強力であることが示された。
    • Seq. FTは高い可塑性を示し,忘却がほとんどなく,強力なゼロショット汎化能力を維持する。
    • 大規模事前学習モデル,パラメータ効率的な適応,オンポリシー強化学習の相乗効果が,この安定性とスケーラビリティを可能にしている。

    Link: https://arxiv.org/abs/2603.11653