arXiv雑要約

AI - 2026/04/28 公開

PhysCodeBench：自己修正型マルチエージェントによる3Dシーンの物理法則を考慮した記号的シミュレーションのベンチマーク [cs.MM, cs.RO, cs.AI]目的：3Dシーンにおける物理法則を考慮した記号的シミュレーションの評価基準と改善手法
- ロボティクスやAI等の発展には，現実世界の物理現象を正確にシミュレーションする能力が不可欠である。
- 自然言語による物理現象の記述と，それを実行可能なシミュレーション環境に変換する間には課題が存在する。
- 物理法則を考慮したシミュレーションの精度向上と，その評価基準の確立を目指す。
- PhysCodeBenchは，力学，流体力学，ソフトボディ物理学の700サンプルで構成される，初の包括的なベンチマークである。
- 提案手法SMRFは，最新のSOTAモデルと比較して31.4ポイントの性能向上を達成し，67.7ポイントを記録した。
- エラー修正が物理法則を考慮した記号的シミュレーションにおいて重要であり，マルチエージェントアプローチが効果的であることが示された。
Link: https://arxiv.org/abs/2604.23580
コンプライアンスNLP：知識グラフ拡張RAGによるマルチフレームワーク規制ギャップ検出 [cs.CL, cs.IR, cs.LG]目的：規制ギャップの検出
- 金融機関は，年間6万件を超える規制変更に対応する必要があり，その複雑さからコンプライアンス業務は困難を極める。
- 手作業による規制変更の追跡は非効率であり，2008年の金融危機以降，3000億ドル以上の罰金と和解金が支払われている。
- 規制変更の監視，義務の構造化抽出，機関の方針とのギャップ特定を自動化し，コンプライアンス業務の効率化を目指す。
- 提案手法ComplianceNLPは，SEC，MiFID II，Basel IIIの規制知識グラフを活用したRAGパイプラインにより，高い精度でギャップ検出を実現した。
- GPT-4o+RAGと比較してF1値で+3.5%向上，知識グラフ再ランキングが最も大きな改善をもたらした(F1値+4.6%)。
- 金融機関での4ヶ月間の実運用では，96.0%のリコールと90.7%の精度を達成し，アナリストの効率を3.1倍向上させた。
Link: https://arxiv.org/abs/2604.23585
FinGround: 原子的な主張検証による金融幻覚の検出と根拠付け [cs.AI, cs.CL, cs.IR]目的：金融AIシステムの幻覚検出と根拠付け
- 金融AIは規制遵守が重要であり，誤情報は重大な法的リスクを伴う。
- 既存の幻覚検出器は計算誤りを捉えにくく，金融分野特有の検証が必要である。
- 金融文書QAにおける幻覚を軽減し，正確な根拠に基づいた回答を目指す。
- FinGroundは，テキストと表を組み合わせた検索，原子的な主張への分解，そして検証戦略を用いることで，金融幻覚を効果的に検出する。
- Retrieval-equalized evaluationにより，FinGroundはベースラインと比較して幻覚発生率を68%削減し，GPT-4oに対しては78%の削減を達成した。
- 8Bの蒸留モデルは，低遅延かつ低コストで高い精度を維持し，実用的な展開を可能にする。
Link: https://arxiv.org/abs/2604.23588
AIが査読する場合：査読者に信頼はできるか [cs.AI]目的：AI査読の安全性と信頼性
- 科学論文の投稿数増加に伴い，査読者の確保が課題となっている。
- LLM査読システムは脆弱性があり，悪意のある操作で誤った評価を招く可能性がある。
- AI査読システムの信頼性を評価し，改善点を特定することを目的とする。
- 論文のレビューライフサイクル全体にわたる攻撃を分類し，体系化した。
- ICLR 2025投稿論文を対象に，LLM査読システムへの影響を実験的に検証した。
- プレステージ，主張の強さ，反論への迎合，文脈汚染がレビュー結果に影響を与えることを示した。
Link: https://arxiv.org/abs/2604.23593
区分的ユニティガウス・コルモゴロフ・アーノルドネットワーク [cs.CE, cs.AI, math.AP]目的：区分的ユニティ正規化によるガウス・コルモゴロフ・アーノルドネットワークの安定化
- 機械学習における関数近似は，複雑なシステムのモデリングやデータ解析に不可欠である。
- 従来のRBFネットワークは，パラメータ調整に敏感であり，学習が不安定になる場合がある。
- 本研究では，区分的ユニティ正規化によってRBFネットワークの安定性を向上させることを目指す。
- 区分的ユニティガウス・コルモゴロフ・アーノルドネットワーク(PU-GKAN)は，パラメータ調整に対する感度を低減する。
- PU-GKANは，滑らかで中程度の非滑らかなターゲットに対して検証精度を向上させる。
- 実験結果は，区分的ユニティ正規化がRBFベースのコルモゴロフ・アーノルドネットワークの安定化に有効であることを示唆する。
Link: https://arxiv.org/abs/2604.23599
TimingLLM：Verilogからの合成後タイミング予測のための二段階検索拡張フレームワーク [cs.CL, cs.CY, cs.CL, cs.HC, cs.AR, cs.LG]目的：Verilogコードから合成後の最悪ネガティブスラック（WNS）と総ネガティブスラック（TNS）の予測
- RTL設計の反復速度を向上させるには，ツールの使用を必要としないタイミング予測が不可欠である。
- 従来のタイミング解析は時間がかかり，RTL設計の迅速な反復を妨げる問題がある。
- TimingLLMは，高速かつ高精度なタイミング予測を通じて，この問題を解決することを目指す。
- TimingLLMは，VerilogEvalデータセットにおいて，WNSの相関係数0.91（MAPE 12%），TNSの相関係数0.97（MAPE 16%）を達成した。
- 既存手法と比較して，TimingLLMは1.3〜1.6倍高速に動作する。
- 一度学習後，新しい技術ライブラリやPVT条件に対しては，わずかな回帰ヘッドの再学習で高い性能を維持できる。
Link: https://arxiv.org/abs/2604.23602
臨床医のように思考する：全景プロファイリングと敵対的議論による臨床診断のための認知型AIエージェント [cs.AI]目的：臨床診断のための認知型AIエージェントの構築
- 医療現場におけるAI支援の重要性が高まっている。正確な診断は患者の予後を大きく左右する。
- 大規模言語モデルは，電子カルテの解釈において「視野狭窄」や誤った診断を行う可能性がある。
- 既存の課題を克服し，より信頼性の高い臨床AIシステムを開発すること。
- 提案手法DxChainは，臨床医の思考過程を模倣した反復的な診断ワークフローを実現した。
- DxChainは，患者の包括的なベースラインを確立し，将来の計画とリソース配分を戦略的に行うことで，診断精度と論理的整合性を向上させた。
- MIMIC-IV-Ext Cardiac DiseaseとMIMIC-IV-Ext CDMのベンチマークにおいて，最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.23605
ハミルトングラフ推論ネットワーク：格子ハミルトン系における構造発見と軌道予測 [cs.LG, math-ph, math.MP]目的：格子ハミルトン系の相互作用トポロジーの回復とノードダイナミクスの予測
- 凝縮物質物理，非線形光学，生物物理学など，多様なモデルの基礎となる分野である。
- データからダイナミクスを学習する際，相互作用トポロジーとノードダイナミクスの同質性の両方が未知数となる。
- 分離可能でないハミルトン系や不均一なノードダイナミクス下でも，構造発見と軌道予測を同時に行う。
- HGINは，従来のベースラインと比較して，長時間のエネルギー予測誤差と軌道予測誤差を6～13桁削減した。
- ハミルトン損失に関する対称性議論により，学習された重みは基礎となるペアポテンシャルのパリティをエンコードすることが示された。
- これにより，系の相互作用構造の解釈可能な読み出しが可能となる。
Link: https://arxiv.org/abs/2604.23606
AI支援英語読解におけるTransformerアーキテクチャの応用 [cs.CL, cs.AI]目的：AI支援英語読解のためのTransformerアーキテクチャの解釈性と公平性の向上
- 英語教育におけるAI活用は，学習者の理解度向上や個別最適化に貢献し得る重要な分野である。
- Transformerモデルは高性能だが，解釈性の欠如やバイアスといった課題があり，教育現場での信頼性が低い。
- 本研究は，AI支援英語読解システムにおける公平性と信頼性を高め，より効果的な学習支援を目指す。
- 提案手法は，大規模な英語読解データセットにおいて，精度とマクロ平均F1スコアで最先端モデルを大きく上回った。
- 多週間にわたるユーザー実験の結果，説明可能なTransformerが，採点システムにおける教師の信頼性と操作性を向上させた。
- 本手法は，異なる学習者に対して高い予測精度と公平性を確保し，実用的な教育応用への道を開く。
Link: https://arxiv.org/abs/2604.23615
大規模言語モデルと小規模言語モデルの連携による効率的な推論：Tandem [cs.AI]目的：大規模言語モデルと小規模言語モデルの協調による，高品質かつ低コストな推論手法
- 近年の大規模言語モデルの進化により，段階的な推論を行うことが可能となり，その重要性が増している。
- 段階的な推論は解答の質と解釈性を向上させる一方で，計算コストが著しく増加するという課題がある。
- 大規模言語モデルと小規模言語モデルを連携させ，計算コストを削減しつつ，高品質な推論を実現すること。
- Tandemは，大規模言語モデルが重要な推論情報を生成し，小規模言語モデルがその情報に基づいて推論を行うことで，計算コストを約40%削減した。
- 数学的推論とコード生成のベンチマークにおいて，Tandemは単独のLLMと同等またはそれ以上の性能を達成した。
- あるドメインで学習した十分性分類器は，再学習なしに他のドメインにも効果的に転移することが示された。
Link: https://arxiv.org/abs/2604.23623
ルーマニア語のニューラル文法誤り訂正 [cs.CL, cs.CL, cs.LG]目的：ルーマニア語の文法誤り訂正のためのニューラルモデルの性能向上
- 非英語言語における文法誤り訂正の資源が不足しており，自然言語処理の国際化を阻害している。
- 既存のスペルチェッカーは単純な誤りしか修正できず，高度な文法誤りの訂正には不十分である。
- ルーマニア語の文法誤り訂正の基盤となるデータセットと評価指標の確立を目指す。
- 1万組のルーマニア語の文法誤り訂正コーパスを新たに構築し，ERRANTスコアラーをルーマニア語に対応させた。
- Transformerモデルを小規模データセットのみで訓練した場合，F0.5スコアは44.38であった。
- 人工的に生成したデータでTransformerモデルを事前学習し，実際のコーパスでファインチューニングすることで，F0.5スコアが53.76に向上した。
Link: https://arxiv.org/abs/2604.23627
階層型クラスタリングにおける許容可能な目的関数の特徴づけ [cs.DS, cs.LG]目的：階層型クラスタリングのための許容可能な目的関数の特徴
- データ分析の基礎であり，データ構造の理解に不可欠なクラスタリング手法。
- 目的関数の原理的な定義が長らく欠けており，理論的保証が難しかった。
- 許容可能な目的関数を特定し，アルゴリズムの近似率を保証すること。
- 本研究では，特定のクラスの目的関数（sum-type）において，許容性の特徴づけを行った。
- scaling関数が特定の次数を持つ多項式の場合，再帰的なsparsest cutアルゴリズムの近似率を評価した。
- さらに，新しいクラスの目的関数（max-type）についても，許容性の一般的な特徴づけを示した。
Link: https://arxiv.org/abs/2604.23628
因果発見における弁証的集約：定量的議論枠組み [cs.AI]目的：因果構造の発見
- 因果推論は，科学的発見や意思決定において不可欠な役割を果たす。
- 有限サンプル下では，条件付き独立性の誤った判断が構造的誤りにつながりやすい。
- 条件付き独立性の判断を議論として扱い，よりロバストな因果構造学習を目指す。
- 本研究では，条件付き独立性の結果を段階的な議論として表現するQACDを提案した。
- QACDは，統計的検定の結果を議論の強度に変換し，競合する証拠を集約する。
- 実験の結果，QACDはノイズや不整合のある条件下で構造の一貫性と介入信頼性を向上させた。
Link: https://arxiv.org/abs/2604.23633
権利から儀式へ：スマートホームAIにおける期待値管理 [cs.HC, cs.AI, cs.IR, cs.LG]目的：スマートホームAIに対する期待値の構築と管理に関するモデル
- スマートホームAIは生活に浸透し，倫理的配慮が不可欠となっている。
- 既存の研究では，倫理が後回しにされ，期待値管理が不十分である。
- 組織の権利と文化的な儀式を調和させ，期待値管理の枠組みを提示する。
- 実務家は，期待値を形成，調整，修復することで，スマートホームAIの倫理的課題に対処している。
- 期待値管理は，期待値確認理論や信頼校正とは異なり，倫理的判断と文化的差異を重視する。
- 自動化と自律性，有用性と侵入性，個別化と予測可能性，透明性と不透明性といった設計上の緊張関係が明らかになった。
Link: https://arxiv.org/abs/2604.23635
RaV-IDP：忠実なインテリジェントドキュメント処理のための再構成検証フレームワーク [cs.CV, cs.AI]目的：忠実なインテリジェントドキュメント処理のための再構成検証フレームワーク
- ドキュメント処理は，知識ベースや検索，分析などに応用され，情報活用において不可欠である。
- 既存のパイプラインは，抽出結果の忠実性を検証する仕組みがなく，誤りが後続システムに伝わる可能性がある。
- 本研究は，再構成による検証を通じて，抽出結果の忠実性を高めることを目指す。
- RaV-IDPは，抽出された情報を元のドキュメントと再構成し，その忠実度をスコア化する。
- 忠実度が低い場合，GPT-4.1 visionによるフォールバックを繰り返し，検証ループを継続する。
- 各パイプライン要素に対応する評価フレームワークを提案し，検証を容易にした。
Link: https://arxiv.org/abs/2604.23644
AIエージェントにおける目標整合性の構造的強化：権力分立アーキテクチャ [cs.AI, cs.CR]目的：AIエージェントの目標整合性確保
- AI技術の進歩に伴い，自律的な行動が可能になり，安全性確保が重要となっている。
- 既存の安全性対策は確率的な保証に留まり，モデルの脆弱性を悪用される可能性がある。
- システムレベルでの構造的な制約を通じて，AIエージェントの目標整合性を確保すること。
- 提案アーキテクチャPEAは，意図生成，認可，実行を分離し，安全性をシステムレベルで強化する。
- PEAは，機能と意図の一貫性検証，意図の来歴追跡，目標乖離検出，出力の脅威評価を実現する。
- 形式検証により，モデルが侵害されても目標整合性が維持されることが証明された。
Link: https://arxiv.org/abs/2604.23646
エッジデバイス向け，正規化を保証するハードウェア効率なSoftmaxとLayer Normalization [cs.AR, cs.LG]目的：エッジデバイスにおけるハードウェア効率なSoftmaxおよびLayer Normalizationの設計
- Transformerモデルの普及に伴い，非GEMM演算のハードウェアコストが課題となっている。
- 従来の近似手法は分類タスク向けであり，スコア重視のNLPや生成AIには不向きである。
- 正規化を保証しつつ，ハードウェア効率なSoftmaxとLayer Normalizationを実現すること。
- 提案手法は，SoftmaxおよびLayer Normalizationにおいて，正規化を維持しつつハードウェア効率を向上させている。
- 精度評価では，GLUEで+0.07%，SQuADで-0.01%，perplexityで-0.09%と，わずかな精度劣化で済んでいる。
- 実装結果では，Softmaxが$942\,\mu m^2$，LayerNormが$1199\,\mu m^2$と小型であり，既存手法と比較して最大11倍，14倍の面積削減を達成している。
Link: https://arxiv.org/abs/2604.23647
ResAF-Net：パレスチナにおける樹木検出と農業マッピングのためのアンカーフリーなアテンションベースネットワーク [cs.CV, cs.AI]目的：パレスチナにおける大規模農業モニタリングのための樹木検出フレームワーク
- 食糧安全保障，土地利用計画，経済的強靭性にとって，信頼性の高い農業データは不可欠である。
- パレスチナでは，地形の断片化，現地アクセス制限，航空監視の制約により，大規模なデータ収集が困難である。
- 資源制約下において，高密度かつ異質なシーンでの樹木検出精度向上を目指す。
- ResAF-Netは，MillionTreesベンチマークにおいて，高いRecall（82％）とmAP（63.03％@0.50）を達成した。
- 本モデルは，樹木の存在に対する高い感度と，競争力のある局所化品質を両立している。
- GeoMolgのパレスチナ土地登記データと統合されたウェブベースのGISアプリケーションへの実装は，実用的な実現可能性を示した。
Link: https://arxiv.org/abs/2604.23653
FlowPlace：チップ配置のためのフローマッチング [cs.AR, cs.AI, cs.LG]目的：チップ配置の性能向上
- 集積回路の性能とコストに大きく影響するため，効率的なチップ配置が重要である。
- 既存手法は，生成データの品質やサンプリング速度，配置の重複問題に課題がある。
- 高品質かつ高速な配置生成と，重複のないレイアウトの実現を目指す。
- FlowPlaceは，マスクガイド付きの合成データ生成により，効率的な学習を可能にする。
- フローベースの手法により，従来の10〜50倍のサンプリング速度を実現し，ゼロオーバーラップを達成した。
- OpenROADやICCAD 2015のベンチマークにおいて，既存手法を上回るPPA性能を示した。
Link: https://arxiv.org/abs/2604.23658
インバータベースのマイクログリッドにおけるサイバーレジリエンスなAC/DC保護のためのAIベースの監視測定整合性検証層 [cs.CR, cs.AI, cs.SY, eess.SP, eess.SY]目的：インバータベースのマイクログリッドにおけるAC/DC保護システムの測定整合性検証
- マイクログリッドの普及に伴い，デジタル通信による測定値の利用が増加している。
- デジタル通信の脆弱性により，悪意のある第三者による測定値の改ざんのリスクが存在する。
- 改ざんされた測定値による誤動作を防ぎ，マイクログリッドの信頼性を確保すること。
- 提案手法は，既存の保護リレーに追加のセンサーや変更を必要とせずに適用可能である。
- 再帰型ニューラルネットワークを用いて測定値の一貫性を評価し，サイバー攻撃による改ざんを検出する。
- シミュレーションとハードウェアインザループ検証により，高い検出精度とリアルタイム動作が確認された。
Link: https://arxiv.org/abs/2604.23666
バイブメディシン：人間とAIの共同作業による生物医学研究の再定義 [cs.AI]目的：人間とAIの共同作業による生物医学研究ワークフローの実現
- 生物医学研究は複雑で専門性が高く，資源の少ない研究者にとって障壁となっている。
- 複雑なワークフローと専門知識の必要性から，研究の独立性が損なわれている。
- AIエージェントを活用し，研究者がより容易に生物医学研究を行える環境を構築する。
- 本研究では，自然言語を用いてAIエージェントを指示し，複雑な生物医学ワークフローを実行する「バイブメディシン」を提案。
- 1,000以上のキュレーションされたスキルを含むOpenClawメディカルスキルコレクションを基盤とし，10の生物医学分野で分析を実施。
- 希少疾患診断，薬剤転用，臨床試験設計といったケーススタディを通じて，エンドツーエンドのワークフローの有効性を示す。
Link: https://arxiv.org/abs/2604.23674
ニューログラビティによる転移可能な人間移動ネットワークの再構築 [cs.HC, cs.AI]目的：人間移動ネットワークの再構築
- 都市計画や公衆衛生の課題解決に，正確な人間移動モデルが不可欠である。
- 発展途上国では，詳細な移動調査がないため，データからのネットワーク再構築が困難である。
- 限られた情報から移動フローを再構築し，未観測都市への転移を可能にすること。
- ニューログラビティは，都市施設と人口分布のみから移動フローを高い精度で再構築できる。
- 再構築された移動ネットワークは，社会経済状況や居住性を示す指標と強い相関関係がある。
- 空間的な所得格差がモデルの転移可能性に重要な役割を果たし，格差レベルが類似する都市間での再構築精度が高い。
Link: https://arxiv.org/abs/2604.23678
ランク，ヘッドチャネル非識別性，そして対称性の破れ：Transformerにおける表現崩壊の精密な分析 [cs.LG, cs.CL, stat.ML]目的：Transformerにおける表現崩壊現象の精密な分析
- Transformerは自然言語処理の基盤技術であり，その性能向上は重要な課題である。
- Transformerの構造に関する理解が深まっていないため，効果的な改良が難しい。
- Transformerの表現崩壊メカニズムを明らかにし，その抑制策を提案すること。
- 自己注意機構のみで構成されたTransformerは，ランク崩壊を起こしやすいことが示されている。
- レイヤー正規化はアフィンランクを保存し，従来の「役割がない」という主張を修正する。
- 残差接続はランク崩壊を阻害し，MLPは元の埋め込み表現の線形結合では生成できない特徴方向を生み出す。
Link: https://arxiv.org/abs/2604.23681
共著を超えて：交通研究における意味構造と潜在的な共同研究者（1967-2025年） [cs.RO, cs.SY, eess.SY, eess.SY, cs.SY, cs.CL, cs.DL, cs.LG]目的：交通研究のセマンティック・ストラクチャルアトラスの構築
- 交通研究は社会基盤を支える重要な学問分野であり，その発展は社会の持続可能性に不可欠である。
- 既存の研究では，共著関係に焦点を当てがちで，意味構造に基づいた研究者の繋がりが見過ごされてきた。
- 意味構造に着目することで，潜在的な共同研究者の特定と新たな研究連携の促進を目指す。
- 著者レベルのセマンティックk-最近傍グラフを用いたコミュニティ検出により，23のトピックコミュニティが特定された。
- 共著コミュニティとは弱くしか一致しないことから，両方の情報を統合した予測モデルの構築の余地が示唆された。
- 意味的近傍でありながら共著関係にない「潜在的共同研究者」は，将来的に共著関係に発展する確率が有意に高いことが示された。
Link: https://arxiv.org/abs/2604.23699
Agri-CPJ：キャプション・プロンプト・ジャッジとLLMジャッジを用いた，学習不要な農業害虫診断の説明可能なフレームワーク [cs.CL, cs.AI, cs.CV]目的：農業害虫の診断における説明可能性の向上
- 農業生産において，病害虫の早期正確な診断は，収量増加と農薬使用量削減に不可欠である。
- 既存のモデルはベンチマークで高いスコアを出すものの，誤った種名を生成することが多く，診断根拠が不明確である。
- 本研究は，診断の精度と説明可能性を同時に高めるフレームワークを提案し，実用的な診断支援を目指す。
- Agri-CPJは，学習を必要とせず，構造化された形態的キャプション生成とLLMジャッジを用いることで，診断精度を向上させる。
- CDDMBenchにおいて，GPT-5-NanoとGPT-5-miniの組み合わせで，キャプションなしのベースラインと比較して，病害分類で22.7pp，QAスコアで19.5ポイントの改善が確認された。
- AgMMU-MCQsでは，GPT-5-Nanoが77.84%，Qwen-VL-Chatが64.54%の正答率を達成し，同規模のオープンソースモデルと同等以上の性能を示した。
Link: https://arxiv.org/abs/2604.23701
講義用トーキングスライドアバター：オープンソースのマルチモーダルコミュニケーション手法 [cs.RO, cs.HC, cs.AI, cs.CY]目的：講義用トーキングスライドアバター作成のためのオープンソースワークフロー
- 高等教育におけるスライドベースの教育は一般的であり，効果的な学習支援が重要である。
- オンライン教育では，講師の存在感や表現力が薄れ，学習者の理解を妨げる場合がある。
- スライド教材に講師の個性を加え，学習者のエンゲージメントを高めることを目指す。
- 本研究では，テキスト読み上げと音声駆動型画像合成を組み合わせたワークフローを提案し，スライド教材にアバターを容易に組み込めることを示した。
- アバターは，教育的コミュニケーション設計の問題として捉えられ，倫理的な利用に関するガイドラインが提案された。
- 短く，透明性の高い，適切に設計されたアバターは，オンライン教育におけるスライド教材を人間化し，再利用可能なコミュニケーション層を提供しうる。
Link: https://arxiv.org/abs/2604.23703
MLPは自身のスキップ結合を吸収できるか [cs.LG]目的：単層隠れ層を持つMLPにおけるスキップ結合の吸収可能性
- 深層学習モデルの効率化は，計算資源の削減や推論速度の向上に不可欠である。
- スキップ結合は性能向上に寄与する一方で，モデルの複雑性を増大させる要因となる。
- スキップ結合を吸収し，等価な残差のないMLPを構築することで，モデルを簡素化することを目指す。
- スキップ結合が可逆線形写像である場合，吸収問題は恒等スキップの場合に帰着される。
- ReLU$^2$やReGLUのような同次活性化関数では，次数に関する議論により吸収は不可能となる。
- SwiGLUやGeGLUのようなゲート活性化関数においても，線形化により同様の結果が得られる。スキップ結合と残差のないMLPは，一般に異なる関数クラスを表現する。
Link: https://arxiv.org/abs/2604.23705
OptProver：形式定理証明における継続学習を通じた数学オリンピックと最適化の架け橋 [cs.LG, cs.AI]目的：数学オリンピックレベルと大学レベルの最適化問題における形式定理証明の性能向上
- 形式定理証明は，数学の厳密な検証に不可欠であり，ソフトウェアやハードウェアの信頼性向上に貢献する。
- 既存の定理証明器は，高度な数学オリンピック問題に焦点を当てており，大学レベルの最適化問題への適用が課題となっていた。
- 最適化問題の分野特有の形式化と分布シフトの問題を軽減し，効果的なドメイン転移を実現することを目指す。
- OptProverは，数学オリンピックレベルの証明器から最適化問題に特化したデータと学習目標を用いることで，高いドメイン転移性能を実現した。
- 構築した最適化問題に特化したベンチマークにおいて，OptProverはPass@1およびPass@32で最先端の結果を示した。
- 一般的な定理証明タスクにおいても競争力のある性能を維持し，破滅的な忘却を防ぎながら効果的なドメイン転移を実証した。
Link: https://arxiv.org/abs/2604.23712
AIにおける情報理論的尺度：実践的な意思決定ガイド [cs.AI, cs.IT, cs.LG, cs.MA, math.IT]目的：AIにおける情報理論的尺度の適切な選択
- AI分野において，情報理論的尺度は意思決定，不確実性の定量化，表現学習などに不可欠である。
- 尺度選択が推定方法や限界，誤用のリスクから切り離されている場合がある。
- 各尺度の用途，適切な推定方法，潜在的な誤用を明確化し，実践的な意思決定を支援する。
- 7つの尺度それぞれに対し，その用途，適切な推定方法，最も危険な誤用に関する3つの問いを提示するフレームワークを構築した。
- フローチャートと決定テーブルという2つの成果物を用いて，AI/MLと意思決定エージェントの両方の応用分野を網羅する。
- 表現学習，時間的影響分析，進化型エージェントの複雑性といった具体的なシナリオを通して，フレームワークの実用性を示す。
Link: https://arxiv.org/abs/2604.23716
AIPsy-Affect：言語モデルにおける感情のメカニズム解釈のためのキーワードフリー臨床刺激バッテリー [cs.CL, cs.AI]目的：言語モデルにおける感情のメカニズム解釈のための臨床刺激バッテリー
- 言語モデルの感情理解は，人間との自然な対話を実現する上で不可欠であり，そのメカニズム解明が重要である。
- 既存の研究では，感情を表すキーワードを含む刺激を用いるため，モデルが感情自体を検出しているのか，キーワードを検出しているのか区別が困難である。
- 本研究は，キーワードを含まない刺激を用いて，モデルの感情検出メカニズムをより正確に理解することを目指す。
- AIPsy-Affectは，感情を表すキーワードを含まない480の臨床刺激（各感情8種類×192）と，対応する中立的な刺激で構成される。
- 刺激の構造により，臨床刺激と中立刺激を区別する内部表現が，キーワードの有無に基づいていないことが保証される。
- 自然言語処理による検証の結果，キーワードを含まない刺激に対しては，感情カテゴリの特定精度が低いことが確認された。
Link: https://arxiv.org/abs/2604.23719
準等変メタネットワーク [cs.LG]目的：メタネットワークの表現性と対称性の保存のトレードオフ
- ニューラルネットワークの重み空間での学習は，汎化性能向上の鍵となる。
- 既存のメタネットワークは，重みの対称性を考慮せず表現力に限界がある。
- 厳密な等変性を回避しつつ，機能的同一性を維持する手法を確立する。
- 本研究では，厳密な等変性にとらわれず，機能的同一性を保存する「準等変性」の概念を導入した。
- 準等変メタネットワークは，フィードフォワード，畳み込み，Transformerネットワークを含む多様なアーキテクチャで適用可能であることが示された。
- 実験結果から，準等変メタネットワークが対称性の保存と表現力のバランスに優れていることが確認された。
Link: https://arxiv.org/abs/2604.23720
高速道路監視映像におけるファーフールド異常検知のための，ベイジアン推論に基づく焦点を当てたVLM推論 [eess.SY, cs.SY, cs.CV, cs.AI]目的：高速道路監視映像における遠距離の異常検知
- 高速道路の安全管理において，異常検知は事故防止に不可欠である。
- 遠方の微細な異常車両挙動の検知は，多様な状況下で困難である。
- VLMの注意散漫を抑制し，計算コストを削減することで，効率的な異常検知を実現する。
- 提案手法VIBESは，ベイジアン推論に基づき，遠距離異常の検知精度を向上させた。
- VIBESは，異常箇所を空間・時間的に特定し，計算負荷を軽減する。
- 多様な高速道路環境下で，高いリアルタイム性と説明可能性を示し，汎化性能を実証した。
Link: https://arxiv.org/abs/2604.23724
歩行者の意図予測のためのエネルギーに基づく時空間相互作用認識フレームワークESIA [cs.SI, cs.CV, cs.AI]目的：歩行者の意図予測
- 自動運転技術の発展に伴い，歩行者の行動予測は安全性確保の鍵となる。
- 既存手法は，多人数間の相互作用や環境要因の考慮が不十分であり，予測精度と解釈性に課題がある。
- 本研究は，より現実的な相互作用モデリングと論理的な整合性を実現し，予測の信頼性と解釈性を向上させる。
- 提案手法ESIAは，エネルギーベースのCRFモデルを用いて，歩行者と環境を時空間ノードとして統合的に表現する。
- ESIAは，ノードの単項ポテンシャルで個々の意図，エッジの対項ポテンシャルで社会的・環境的相互作用を捉え，シーン全体の整合性を確保する。
- 標準ベンチマーク実験により，ESIAが既存手法を上回り，高い予測性能と解釈性を持つことが示された。
Link: https://arxiv.org/abs/2604.23728
大規模言語モデルによる日本司法試験記述式問題への法的推論能力の専門家評価 [cs.AI]目的：日本司法試験の記述式問題における大規模言語モデルの法的推論能力
- 法的判断は社会の根幹をなすものであり，その質の確保は重要である。
- 大規模言語モデルの法的推論能力は進歩しているが，記述式問題への対応は未評価である。
- 日本における法的推論能力を評価するためのデータセットと専門家評価を確立すること。
- 本研究では，日本司法試験の記述式問題を用いたデータセットを構築し，大規模言語モデルの法的推論能力を専門家が評価した。
- その結果，モデルには法的推論における限界や課題が存在することが明らかになった。
- また，法的な根拠のない内容を生成する幻覚（hallucination）についても分析し，その発生状況を特定した。
Link: https://arxiv.org/abs/2604.23730
低血糖分類における年齢特化モデルの影響 [cs.LG, cs.AI, cs.HC]目的：低血糖の分類
- 加齢に伴う疾患進行は個人差が大きく，標準的な治療法では対応しきれない場合がある。
- 既存の低血糖分類モデルは，年齢層ごとの差異を十分に考慮していない場合が多い。
- 年齢層ごとの特性に応じた低血糖分類モデルの有効性を検証し，最適なモデル構築を目指す。
- 集団ベースのモデルは，年齢層別に分割して学習したモデルと同等または優れた性能を示した。
- 小児のデータは，年齢特化モデルを用いた場合に最も高い再現率が得られた。
- 年齢によるグルコース変動の違いはあるものの，短期的な低血糖パターンは類似していることが示唆された。
Link: https://arxiv.org/abs/2604.23732
Transformerはスコアベース変分フローのオイラー離散化として [cs.CL, cs.IR, cs.LG]目的：Transformerアーキテクチャの理論的基盤
- 機械学習におけるTransformerの重要性は高いが，その構造は未だ経験則に頼る部分が多い。
- Transformerのアーキテクチャに関する統一的な理論的解釈が不足している。
- Transformerを，より原理的に理解するための枠組みを提示すること。
- Transformerアーキテクチャは，スコアベース変分フロー（SVFlow）のオイラー離散化として正確に導出できる。
- マルチヘッドアテンションは，SVFlowのベクトル場をvMFカーネル平滑化された事後分布で近似する。
- この統一的見解は，アテンションの安定した学習とMoEにおける補助的なバランス損失の必要性を説明する。
Link: https://arxiv.org/abs/2604.23740
LLMの推論におけるSFT-then-RLが混合ポリシー法を上回る [cs.LG, cs.AI, cs.CL]目的：LLMの推論能力向上
- 大規模言語モデル(LLM)は多様なタスクに応用可能だが，推論能力の向上が課題。
- 従来のSFT-then-RLパイプラインは，混合ポリシー法と比較して性能が劣ると報告されてきた。
- 既存研究における誤ったベースラインを特定し，SFT-then-RLの性能を再評価すること。
- 最近の混合ポリシー法の研究には，DeepSpeedのCPUオフロード最適化とOpenRLHFの損失集計における2つのバグが存在した。
- これらのバグを修正した結果，標準的なSFT-then-RLパイプラインが，Qwen2.5-Math-7Bで+3.8点，Llama-3.1-8Bで+22.2点，混合ポリシー法を上回った。
- わずか50ステップのRLのみでも混合ポリシー法を凌駕し，計算コストも低いことが示された。
Link: https://arxiv.org/abs/2604.23747
オーバーライド・ギャップ：知識の衝突における失敗の原因と対策 - Hypernetworkに基づく即時LLM適応の大きさの解釈 [cs.HC, cs.LG, cs.AI]目的：知識の衝突が起こった際のLLM適応の失敗原因の解明と，その対策
- LLMの性能向上には，特定ドメイン知識の迅速な組み込みが不可欠であり，Hypernetworkはそのための有望な手法である。
- HypernetworkによるLLM適応は，既存知識との矛盾が生じた場合，精度が著しく低下するという課題がある。
- 事前学習済みの知識の強度に応じて適応の度合いを調整することで，知識の衝突による精度低下を克服することを目指す。
- Hypernetworkは適切な層をターゲットとするものの，アダプターの規模が一定であるため，既存知識が強い問題で精度が低下する。
- Selective Layer BoostingやConflict-Aware Internalizationといった手法により，知識衝突時の精度が大幅に向上することが示された。
- 新知識の想起性能を維持しつつ，Retrieval-Augmented Generationを上回る性能が確認された。
Link: https://arxiv.org/abs/2604.23750
マルチモーダル融合による認知的評価予測を通じた誘発された快感のモデリング [cs.AI, cs.HC, cs.LG]目的：動画誘発性快感の推論
- ソーシャルメディアの利用増加に伴い，感情分析の重要性が高まっている。
- 視覚的コンテンツが認知的解釈と感情体験に与える影響の解明が課題である。
- 動画から誘発される快感を認知的評価変数を通して予測するモデルを開発する。
- 提案モデルは，ノイズの多いラベルや「ポジティブ感情」と「快感」のギャップといった課題に対処した。
- TransformerアーキテクチャとAttentionメカニズムを活用し，快感に関連する詳細な特徴を捉えた。
- 動画誘発性快感の検出において，最高で0.6624の精度を達成し，有効性が確認された。
Link: https://arxiv.org/abs/2604.23753
大規模原子モデルと大規模言語モデルの融合による材料発見の加速 [cs.LG, cond-mat.mtrl-sci]目的：材料発見のための，大規模原子モデル（LAM）と大規模言語モデル（LLM）を連携させるエージェント的フレームワーク
- 材料発見は，エネルギーや量子技術の発展に不可欠であり，その重要性は高い。
- 従来の機械学習モデルは単独で動作することが多く，材料発見プロセス全体を自律的に実行する能力に課題があった。
- 本研究は，LAMとLLMを連携させ，材料発見プロセス全体を効率化し，新たな材料探索を促進することを目的とする。
- エージェントシステムElementsClawは，超伝導体合成実験を成功させ，４つの新規超伝導体（Zr3ScRe8，HfZrRe4など）を発見した。
- 28 GPU時間で240万以上の安定結晶をスクリーニングし，68,000個の有望な超伝導体候補を特定した。
- 本研究は，AIが材料発見を加速する可能性を示し，物理的信頼性の高い結果を提供する。
Link: https://arxiv.org/abs/2604.23758
Kolmogorov-Arnoldネットワークの普遍性の必要十分条件 [cs.LG, cs.NE, math.FA]目的：Kolmogorov-Arnoldネットワークの普遍近似性に関する必要十分条件の特定
- 機械学習において，複雑な関数を近似する能力は，モデルの性能を左右する重要な要素である。
- Kolmogorov-Arnoldネットワークの近似能力は，エッジ関数の性質に強く依存するが，その条件は明確でなかった。
- エッジ関数に非線形関数が一つ存在すれば普遍近似性が成立するという条件を厳密に証明すること。
- エッジ関数に一つでも非線形関数が存在すれば，深層Kolmogorov-Arnoldネットワークはコンパクト集合上で連続関数全体に密度を持つことが示された。
- 2層のネットワークの場合，普遍近似性はσが非多項式関数であることと同値であることが示された。
- 非多項式関数に対しては，5つの固定された線形関数を用いることで十分であることが示された。
Link: https://arxiv.org/abs/2604.23765
WISE-FM：運用を考慮した，エンジニアリング情報に基づいたマルチタスク井戸設計用基盤モデル [cs.LG]目的：多様な井戸ポートフォリオへの機械学習モデルの展開における汎化性能向上
- 油田開発における生産最適化には，高精度な井戸状態推定が不可欠である。
- 既存手法では，井戸設計と運用挙動の相互関係が十分に考慮されていない。
- 井戸設計を考慮したモデルにより，より正確な予測と最適化を目指す。
- 本研究で開発したWISE-FMは，既存モデルと比較してVFM予測誤差を最大13倍削減した。
- 物理制約を導入することで，負の流量予測を65%削減し，精度の高いフローレジーム分類を可能にした。
- 実データへの適用により，油層，ボトムホール圧力，水分の予測精度がそれぞれR^2=0.89, 0.98, 0.97を達成した。
Link: https://arxiv.org/abs/2604.23767
ノイズの多い歴史的地図からアノテーションなしでマレーシアとインドネシアにおける時系列油ヤシマップを作成 [cs.RO, cs.CV, cs.AI]目的：マレーシアとインドネシアにおける2020年から2024年までの10メートル分解能の油ヤシプランテーションマップの生成
- 東南アジアにおいて，経済発展と環境保全のバランスを取る上で，油ヤシプランテーションの正確なモニタリングは不可欠である。
- 既存のプランテーションマップは空間解像度が低い場合が多く，最新の時系列データが不足しており，急速な土地利用変化の監視を妨げている。
- 粗解像度の歴史的ラベルと10メートル画像間の解像度の不一致を解消し，ラベルノイズの影響を軽減することで，油ヤシマップの精度向上を目指す。
- 本研究で提案する深層学習フレームワークは，手動アノテーションなしで，インドネシアとマレーシアの油ヤシプランテーションマップを生成した。
- 2058点の検証ポイントを用いた評価では，2020年，2022年，2024年の全体的な精度はそれぞれ70.64％，63.53％，60.06％であった。
- 分析の結果，油ヤシ被覆面積は2022年にピークを迎え，2024年には減少傾向にあることが示された。また，油ヤシプランテーションが浸水地植生地域に拡大していることが示唆された。
Link: https://arxiv.org/abs/2604.23776
GLIER：法的事件検索のための生成的法的推論と証拠ランキング [cs.NI, cs.IR, cs.AI]目的：法的事件検索における生成的法的推論と証拠ランキングの枠組み
- 法的文書検索は，専門知識を要し，効率的な情報アクセスが不可欠であるため重要。
- 通常，検索システムは意味の一致に重点を置き，法的根拠の論理構造を無視する。
- この研究は，潜在的な法的変数に基づいた推論により，検索精度と解釈可能性を高める。
- GLIERは，クエリを法的指標（罪状，法的要素）に変換する生成的推論モジュールを用いる。
- 複数の視点からの証拠融合メカニズムにより，ランキングの精度が向上する。
- LeCaRDおよびLeCaRDv2データセットで，既存手法を上回る性能を示し，少ないデータでも高い性能を維持する。
Link: https://arxiv.org/abs/2604.23779
S2G-RAG：構造化された十分性とギャップ判断による反復検索拡張QA [cs.IR, cs.AI]目的：反復検索拡張QAにおける構造化された十分性およびギャップ判断のフレームワーク
- 言語モデルの知識獲得には外部知識が不可欠であり，その活用方法が重要視されている。
- 複数ステップの質問応答では，次回の検索対象と，十分な証拠が得られているかの判断が難しい。
- 不完全な証拠やノイズの蓄積を防ぎ，安定した複数回の検索経路を構築することを目的とする。
- S2G-RAGは，明示的なコントローラーであるS2G-Judgeを用いて，現在の証拠が回答に十分かを予測する。
- 十分でない場合は，不足している情報を構造化されたギャップアイテムとして出力し，次の検索クエリに反映させる。
- TriviaQA，HotpotQA，2WikiMultiHopQAにおける実験で，S2G-RAGが複数ステップQAの性能とロバスト性を向上させることが示された。
Link: https://arxiv.org/abs/2604.23783
FAIR_XAI：幸福度評価のための説明可能性を通じたマルチモーダル基盤モデルの公平性向上 [cs.AI, cs.LG]目的：マルチモーダル基盤モデルにおける公平性の改善
- メンタルヘルスモニタリングにおいて，マルチモーダル機械学習の活用が期待されている。
- Vision-Language Model（VLM）の透明性の欠如とバイアスの可能性が懸念されている。
- VLMの幸福度評価における公平性を高めるための手法を確立する。
- VLMの性能はデータセットやアーキテクチャによって大きく異なり，Phi3.5-VisionはE-DAICで80.4%の精度を達成したが，Qwen2-VLは33.9%にとどまった。
- 両モデルともAFAR-BSFTにおいて過剰なうつ病予測の傾向が見られ，Qwen2-VLは性別による格差，Phi-3.5-Visionは人種によるバイアスが顕著であった。
- 公平性を促すプロンプトはQwen2-VLで完全な機会均等を実現したが，E-DAICでの精度が大幅に低下した。説明可能性に基づいた介入は手続きの一貫性を向上させたものの，結果の公平性を保証せず，人種バイアスを増幅させる場合もあった。
Link: https://arxiv.org/abs/2604.23786
多ソースドメイン適応のための汎用的な表現に基づくアプローチ [cs.LG, stat.ML]目的：多ソースドメイン適応における知識転移の課題解決
- 機械学習において，ラベル付きデータが不足する状況下での性能向上が重要視される
- 既存手法は，識別可能性を確保するための制約条件が必要であり，現実世界への適用が限定される
- 予測タスクに関連する分布の変化を捉え，識別可能な表現学習を可能とする
- 本研究では，ラベルのマルコフブランケットに基づいた表現学習が一般的に未決定であることを示した。
- マルコフブランケットの表現を，ラベルの親，子供，配偶者に分割することで，汎用的なドメイン適応が可能となる。
- 理論的考察に基づき，分布の変化に対応可能な非パラメトリックなドメイン適応手法を開発した。
Link: https://arxiv.org/abs/2604.23790
ELSA：高速かつメモリ効率の良いVision Transformerのための正確な線形スキャン注意機構 [cs.LG, cs.CV]目的：高速かつメモリ効率の良いVision Transformerを実現するための正確な線形スキャン注意機構の開発
- Transformerは画像処理を含む様々な分野で重要な役割を果たしているため，その効率化は不可欠である。
- 既存の注意機構は，精度，ハードウェア依存性，および計算コストの点で課題を抱えている。
- 異なるハードウェア環境下でも高い精度を保ちつつ，計算効率を向上させる注意機構を提供すること。
- ELSAは，正確なsoftmax semanticsを維持しつつ，FP32演算において誤差を理論的に保証する。
- ELSAは，A100およびJetson TX2を含む多様なハードウェア上で，既存手法と比較して1.3～3.5倍の高速化を達成した。
- ELSAは，FP16においても優れた性能を示し，高精度推論を様々なプラットフォームで実現する汎用的なカーネルである。
Link: https://arxiv.org/abs/2604.23798
非パラメトリック混合下における一般環境からの因果表現学習 [cs.LG, stat.ML]目的：潜在的な因果変数とその因果関係の復元
- 現実世界の複雑な現象を理解し，介入効果を予測するために，因果推論は不可欠である。
- 既存手法は，環境変化の仮定が現実のデータに合致せず，汎用性に課題がある。
- より現実的な環境下で因果構造を推定するための理論的枠組みを構築すること。
- 非パラメトリック混合関数と非線形潜在的因果モデルにおいて，潜在DAGと変数を完全に復元できることを示した。
- この結果は，従来の環境変化に対する制約を緩和し，より広範な環境に適用可能である。
- 因果メカニズムの変化条件を適切に活用することで，3次微分までの十分な変化があれば，復元が可能となる。
Link: https://arxiv.org/abs/2604.23800
被覆とトポロジー重み事前分布によるリパラメータ化 [cs.LG]目的：変分オートエンコーダにおける潜在空間のトポロジーを考慮したリパラメータ化手法
- 深層学習モデルの潜在空間の構造化は，生成モデルの性能向上に不可欠である。
- 複雑なトポロジーを持つ潜在空間におけるリパラメータ化は困難であり，解析的な取り扱いが難しい。
- 被覆写像を用いて潜在空間のトポロジーを考慮し，KLダイバージェンスを解析的に計算可能にすること。
- 被覆写像の可測性により，トポロジーが非自明な潜在空間においてもリパラメータ化が可能となる。
- 特定の測度保存特性を持つ被覆写像の下で，KLダイバージェンスに関する不等式を導出し，VAEのELBOを解析的に扱えるようにする。
- クライン瓶を潜在空間に持つVAE (KleinVAE) を構築し，人工データセットの学習に成功した。
Link: https://arxiv.org/abs/2604.23804