arXiv雑要約

AI - 2026/04/22 公開

Debug2Fix：インタラクティブなデバッグはコーディングエージェントのバグ修正能力を向上させるか [cs.SE, cs.AI]目的：コーディングエージェントのバグ修正能力向上
- ソフトウェア開発の自動化が進む中で，バグ修正は依然として開発者の重要な作業であり，効率化が求められる。
- 既存のコーディングエージェントは，静的解析や試行錯誤的なテスト修正に頼ることが多く，実行時の詳細な情報活用が不足している。
- インタラクティブなデバッグ機能をエージェントに組み込み，実行時情報を活用することで，バグ修正の精度向上を目指す。
- Debug2Fixフレームワークを導入した結果，特定のモデルにおいて，ベースラインと比較して20%以上の性能向上が見られた。
- GPT-5やClaude Haiku 4.5といった比較的小規模なモデルでも，Debug2Fixにより，より高性能なClaude Sonnet 4.5に匹敵する性能を達成することができた。
- サブエージェント構造とデバッガ統合の両方が，性能向上に不可欠であることが，系統的なアブレーション実験によって示された。
Link: https://arxiv.org/abs/2602.18571
適合予測を用いたドリフト局所化 [cs.LG, stat.ML]目的：データ分布の時間変化に影響を受けるサンプル特定
- 機械学習システムの安定運用には，時間経過に伴うデータ変化の把握が不可欠である。
- 高次元・低信号環境下では，既存の局所的検定手法はドリフトを正確に特定することが難しい。
- 適合予測に基づき，高次元データにおけるドリフト局所化の精度向上を目指す。
- 適合予測は従来の局所的検定手法と比較して，ドリフトの影響を受けるサンプルをより正確に特定できた。
- 提案手法は，最先端の画像データセットにおいて良好な性能を示した。
- 高次元・低信号環境下におけるドリフト局所化において，適合予測の有効性が示された。
Link: https://arxiv.org/abs/2602.19790
PhysMem：ロボット操作のためのテスト時物理メモリのスケーリング [cs.CL, cs.RO, cs.AI]目的：ロボット操作における物理特性の学習
- ロボットの操作性能向上には，対象物や環境に応じた物理特性の理解が不可欠である。
- 既存のビジョン言語モデルは一般的な物理現象は推論できるが，特定の状況下での予測精度が課題である。
- テスト時に得られる経験から物理法則を学習し，汎化性能を高めることを目指す。
- PhysMemは，モデルパラメータを更新せずに，テスト時の相互作用を通じて物理原理を学習するメモリフレームワークである。
- 検証を重視した設計により，物理条件の変化に対応し，過去の経験への過度な依存を避ける。
- 制御された積み上げタスクにおいて，直接的な経験検索と比較して76%の成功率を達成し，実環境実験でも一貫した改善が確認された。
Link: https://arxiv.org/abs/2602.20323
CLIPoint3D：言語に基づいた少数ショットによる3D点群ドメイン適応 [cs.CV, cs.LG]目的：3D点群のドメイン適応における性能向上
- 画像認識の進展に伴い，3D点群処理への応用が期待されている。
- 合成データから実データへの適応は，モデルの汎化性能が課題となる。
- CLIPを基盤とし，少ないデータで効率的にドメイン適応を実現する。
- CLIPoint3Dは，従来のCLIPベースおよびエンコーダーベースの手法と比較して，一貫して3-16%の精度向上を達成した。
- 3Dサンプルを複数の深度マップに投影し，知識に基づいたプロンプト調整により，CLIPの性能を最大限に活用している。
- 最適輸送に基づくアラインメント損失と不確実性を考慮したプロトタイプアラインメント損失が，ソースとターゲットの分布間のギャップを埋めている。
Link: https://arxiv.org/abs/2602.20409
有限要素法に基づく物理情報オペレーター学習による多物理現象問題への取り組み [cs.LG]目的：多物理現象問題に対する物理情報オペレーター学習フレームワーク
- 工学・科学分野において，複雑な現象を正確にシミュレーションする重要性が高まっている。
- 従来のシミュレーションは計算コストが高く，複雑な形状や境界条件への対応が困難である。
- 有限要素法と物理情報オペレーター学習を組み合わせ，高精度かつ効率的なシミュレーションを実現する。
- 提案フレームワークは，有限要素法を用いて物理法則を組み込み，離散化に依存しない予測を可能にする。
- フーリエニューラルオペレーター(FNO)は規則的な領域で高精度な結果を示し，Implicit Finite Operator Learning(iFOL)は複雑な形状で効率的な学習能力を示した。
- 単一ネットワークによるモノリシックな学習戦略が十分な精度を達成でき，学習データの質が性能に大きく影響することが示された。
Link: https://arxiv.org/abs/2603.01420
逐語から要旨へ：意味的情報ボトルネックによるピラミッド型マルチモーダルメモリの蒸留と長期的ビデオエージェント [cs.CV, cs.AI, cs.CL, cs.IR, cs.MM]目的：長期的ビデオ理解のためのピラミッド型マルチモーダルメモリ構造
- ビデオ理解は，ロボット工学や自動運転など幅広い分野で重要であり，高度な知能の実現に不可欠である。
- 既存のモデルは，文脈長の制限や静的なメモリ機構により，長期的なビデオ理解に苦戦している。
- 視覚情報とテキスト情報のバランスを取り，効率的なメモリ構造を構築することで，長期的なビデオ理解を可能にする。
- MM-Memは，感覚バッファ，エピソードストリーム，象徴的スキーマという階層的なメモリ構造を採用し，知覚的痕跡を意味的スキーマに段階的に蒸留する。
- 意味的情報ボトルネック目的関数とSIB-GRPOを用いて，メモリ圧縮とタスク関連情報の保持とのトレードオフを最適化する。
- 4つのベンチマークにおける実験により，MM-Memがオフラインおよびストリーミングタスクの両方で最先端の性能を達成し，頑健な汎化能力を示すことが確認された。
Link: https://arxiv.org/abs/2603.01455
ConFu：より良い推測サンプリングのために未来を考察する [eess.SY, cs.SY, cs.NI, cs.CL, cs.PF, cs.CL, cs.LG]目的：推測デコーディングの効率化
- 大規模言語モデルの推論速度向上は，実用化において重要な課題である。
- 既存の推測デコーディングでは，ドラフトモデルの誤りが累積しやすいという問題点がある。
- 未来の生成方向を予測するドラフトモデルを構築し，推測デコーディングの精度と速度を向上させる。
- ConFuは，未来志向の信号を活用する「考察トークン」と「ソフトプロンプト」を導入することで，ドラフトモデルの予測精度を高めている。
- Llama-3 3B/8BおよびQwen-3 4Bにおいて，ConFuはEAGLE-3と比較してトークン受容率と生成速度をそれぞれ8〜11％，約20％向上させている。
- 本研究は，推測デコーディングと連続的な推論トークンを組み合わせる初の試みであり，LLM推論の高速化に新たな方向性を示す。
Link: https://arxiv.org/abs/2603.08899
バッファと無制限乗り換えに対応するためのダイクストラ法の適応 [cs.CL, cs.DS, cs.AI, cs.RO]目的：公共交通機関における無制限乗り換え経路探索
- 経路探索は，都市生活や物流において不可欠な技術であり，効率的な移動手段を提供する。
- 既存のダイクストラ法は，時間依存性やバッファ時間などの現実的な要素を考慮できていない場合がある。
- バッファ時間の影響を正確に考慮した，より効率的な経路探索アルゴリズムを開発する。
- 時間依存ダイクストラ法（TD-Dijkstra）が，既存のMR法よりも優れた性能を示すことが明らかになった。
- バッファ時間を持つ停留所において，既存の接続フィルタリング手法が不正確であることが示された。
- Transfer Aware Dijkstra（TAD）を提案し，バッファ時間を考慮しつつ，MR法よりも2倍以上の高速化を達成した。
Link: https://arxiv.org/abs/2603.11729
公共交通経路探索における早期枝刈り [cs.DS, cs.AI, cs.RO]目的：公共交通経路探索の効率向上
- 都市交通の利便性向上に不可欠な経路探索技術の基盤となる。
- 大規模ネットワークでは，乗り換え候補の膨大な数により計算コストが増大する。
- 乗り換え時の探索範囲を効率的に絞り込み，計算時間を短縮することを目指す。
- 提案手法「Early Pruning」は，既存の経路探索アルゴリズムに容易に組み込める。
- 乗り換え接続を時間順にソートし，最適な解よりも遅い乗り換えは早期に除外する。
- スイスとロンドンの交通ネットワークで最大57%のクエリ時間短縮を達成した。
Link: https://arxiv.org/abs/2603.12592
AD-Copilot：視覚的文脈内比較による産業異常検知のためのビジョン言語アシスタント [cs.CV, cs.AI]目的：産業異常検知のための視覚的文脈内比較によるビジョン言語アシスタントの開発
- 製造業における品質管理は重要であり，異常検知はその自動化を支える基盤技術である。
- 既存のマルチモーダル大規模言語モデルは，汎用データで学習されているため，産業画像への適応が課題である。
- 視覚的文脈内比較を通じて，微妙な視覚的差異を捉え，産業異常検知の精度向上を目指す。
- AD-Copilotは，視覚的特徴間のクロスアテンションを用いた比較エンコーダにより，微細な異常の認識能力を高めた。
- MMADベンチマークにおいて82.3%の精度を達成し，既存モデルを大幅に上回る性能を示した。
- 特定のIADタスクにおいて，人間の専門家レベルを超える性能を発揮し，実用的な産業検査アシスタントとしての可能性を示唆した。
Link: https://arxiv.org/abs/2603.13779
ExpertGen：不完全な行動事前知識からのスケーラブルなシミュレーションから現実世界への専門家ポリシー学習 [cs.RO, eess.SP, cs.RO, cs.AI]目的：ロボット工学における汎用性とロバスト性を持つ行動クローニングポリシーの学習
- ロボットの行動学習には，大量の高品質なデータが不可欠である。人間のデモンストレーションは理想的だが，現実世界での収集コストが高い。
- 既存手法では，大規模なデータ収集や報酬設計が課題であり，現実世界の複雑なタスクへの適用が難しい。
- シミュレーションで学習した専門家ポリシーを，現実世界に効率的に転移すること。
- ExpertGenは，拡散ポリシーを初期事前知識として利用し，強化学習によってタスク成功率を向上させる。
- 産業用組立タスクでは90.5%，長期間の操作タスクでは85%の成功率を達成し，ベースライン手法を上回った。
- 学習されたポリシーは，多様な初期構成や故障状態に対してもロバストであり，実機への転移も成功した。
Link: https://arxiv.org/abs/2603.15956
CounterRefine：推論時の知識修復のための，回答条件付き反証検索 [cs.CL, cs.AI]目的：事実に基づく質問応答における，推論時の知識修復メカニズム
- 質問応答システムにおいて，知識の正確性は重要であり，誤った情報に基づく回答は避けるべきである。
- 既存の質問応答システムは，関連情報を取得できても，誤った回答に落ち着いてしまうことがある。
- 本研究は，システムが自身の回答を再検討し，必要に応じて修正する能力を向上させることを目指す。
- CounterRefineは，既存のGPT-5 Baseline-RAGの性能を5.8ポイント向上させ，正答率73.1%を達成した。
- GPT-5.4のワンショット性能を約40ポイント上回る結果が得られた。
- 本研究は，知識ベースモデルが証拠にアクセスするだけでなく，自身の回答を再検討・修正する重要性を示唆する。
Link: https://arxiv.org/abs/2603.16091
高頻度データギャップの解消：時系列基礎モデルの発展に向けたミリ秒解像度のネットワークデータセット [cs.LG, cs.AI]目的：時系列基礎モデルの発展に貢献するための，ミリ秒解像度を持つネットワークデータセット
- 時系列基礎モデルは，多様な実世界のデータによって性能が左右される。分野や時間分解能の幅が重要である。
- 既存の大規模データセットは，主に低頻度データに偏っている。高頻度データの特性を捉えきれない点が課題である。
- 本研究は，高頻度データを取り込んだデータセットを提供し，時系列基礎モデルの性能向上を目指す。
- 本データセットを用いて実験を行った結果，既存の時系列基礎モデルは，ゼロショット学習・ファインチューニングともに，性能が低いことが示された。
- これは，時系列基礎モデルの事前学習および予測において，高頻度データの組み込みが不可欠であることを示唆する。
- データセットは，ワイヤレスネットワークという新たなドメインを提供し，短期間の予測タスクにも活用できる。
Link: https://arxiv.org/abs/2603.16497
訓練済み拡散モデルにおけるパターン形成を種付ける非平衡相転移 [cs.HC, cs.LG]目的：訓練済み拡散モデルにおけるパターン形成のメカニズム解明
- 拡散モデルは画像生成において高性能だが，その構造生成原理は未だ不明な点が多い。
- ノイズからデータへの変換過程における相転移が，パターン形成の要因として見過ごされてきた。
- 拡散モデルのノイズ除去ダイナミクスにおける不安定性を理論的に解明し，パターン形成のメカニズムを明らかにする。
- パターン形成は，ノイズ除去ダイナミクスにおける不安定性によって引き起こされる非平衡相転移として説明できる。
- データ対称性やアーキテクチャ制約が，空間モードの発生に影響することが示された。
- 相転移の臨界点においてガイダンスを適用することで，クラスアラインメントが大幅に向上し，その機能的意義が確認された。
Link: https://arxiv.org/abs/2603.20092
AIデータセンターによるデータ熱島効果：温暖化する世界への影響評価 [cs.CY, cs.AI, cs.AR]目的：AIデータセンター周辺の気温上昇
- AIサービスの普及に伴い，データセンターの重要性は増している。
- データセンターの電力消費増加が環境に与える影響は不明であった。
- データセンターが地域環境に与える熱影響を定量的に評価する。
- AIデータセンター稼働開始後，周辺地域の地表面温度が平均2℃上昇することが示された。
- この気温上昇により，地域的な微気候変動，いわゆる「データ熱島効果」が生じることが確認された。
- 3億4千万人以上がデータ熱島効果の影響を受ける可能性があると推定された。
Link: https://arxiv.org/abs/2603.20897
単純な足し算以上のもの：マルチモーダルヘイトスピーチ検出における意図の変化の解明 [cs.CL, cs.AI]目的：マルチモーダルヘイトスピーチにおける意味的意図の変化の特性評価
- サイバー空間の安全確保には不可欠であり，自動検出システムの有効性が重要である。
- 既存システムは，個々のモダリティの集計を超える意味を持つマルチモーダルコンテンツで苦戦する。
- モダリティ間の相互作用によって暗黙のヘイトが生成されるメカニズムを解明することを目指す。
- 本研究では，モダリティ間の複雑な相互作用に焦点を当てたH-VLIベンチマークを構築した。
- ARCADEフレームワークを提案し，裁判官の議論を模倣することで，モデルに深い意味的手がかりを検討させる。
- 実験により，ARCADEがH-VLIにおいて最先端のベースラインを大幅に上回ることが示された。
Link: https://arxiv.org/abs/2603.21298
マルチインスタンス処理におけるLLMの性能低下の理解：インスタンス数とコンテキスト長の役割 [cs.AI, cs.CL]目的：LLMにおけるマルチインスタンス処理能力の評価
- LLMは多様な文書処理に応用され，その活用範囲は広大である。
- マルチインスタンス入力時のLLM性能低下に関する研究は十分ではない。
- インスタンス数とコンテキスト長がLLM性能に与える影響を解明する。
- LLMは少数のインスタンスでは軽微な性能低下を示すが，インスタンス数が増加すると性能が急激に低下する。
- コンテキスト長も性能低下に関連するが，インスタンス数の方がより強い影響を与える。
- マルチインスタンス処理の最適化においては，コンテキスト長だけでなくインスタンス数に特に注意する必要がある。
Link: https://arxiv.org/abs/2603.22608
汎用航空機の健全性管理のための異種長・微スケールカスケードアーキテクチャ [cs.LG]目的：汎用航空機の健全性管理のためのAI駆動型異種カスケードアーキテクチャ
- 汎用航空機の機体数増加に伴い，計算資源制約下での知的な健全性監視が求められている。
- 極端なクラス不均衡と環境的不確実性下での高い診断精度と計算効率が課題である。
- 従来のEnd-to-Endアプローチの受容野のパラドックスを解決し，効率的な診断を目指す。
- 公開データセットNGAFIDを用いた実験で，安全上重要な指標（MCWPM）が4～8%向上した。
- 学習速度は4.2倍に加速され，モデルサイズは46%圧縮された。
- 本アーキテクチャは，資源制約のある航空環境への導入可能性を示唆する。
Link: https://arxiv.org/abs/2603.22885
LLMにおける自己知識蒸留が (時に) 推論能力を低下させる理由 [cs.CL, cs.LG]目的：大規模言語モデルの推論能力低下の原因究明
- LLMの性能向上は，様々な分野で重要な課題である。
- 自己知識蒸留が，数学的推論において性能低下を引き起こす場合がある。
- 不確実性の表現が推論に与える影響を明らかにすること。
- 自己知識蒸留は，教師モデルへの情報付与量によって不確実性の表現を抑制し，結果として外挿性能を低下させる。
- Qwen3-8B等のモデルにおいて，最悪で40%の性能低下が確認された。
- 堅牢な推論のためには，適切なレベルの不確実性の露呈が不可欠である。
Link: https://arxiv.org/abs/2603.24472
金融RAGにおける頑健性と精度とのトレードオフの解消：ハイブリッド文書ルーティング検索 [eess.SY, cs.SY, cs.CL, cs.AI, cs.IR]目的：金融文書質疑応答における頑健性と精度を両立する検索手法
- 金融分野では正確な情報抽出が不可欠であり，RAGは専門知識へのアクセスを容易にする。
- 金融文書は構造が均一であるため，従来のチャンクベース検索では誤った情報の混同が生じやすい。
- 文書ルーティング検索とチャンクベース検索の長所を組み合わせ，精度と頑健性の両立を目指す。
- 提案手法HDRRは，FinDERベンチマークにおいて，平均スコア，正答率，完全正答率の全ての指標で既存手法を上回る性能を示した。
- HDRRは，文書ルーティング検索による文書フィルタリングとチャンクベース検索の組み合わせにより，文書間の混同を解消しつつ，高精度な検索を実現した。
- HDRRは，故障率を最小限に抑えつつ，最高の精度を実現し，金融RAGにおけるトレードオフを解消することに成功した。
Link: https://arxiv.org/abs/2603.26815
潜在空間における構成的汎化を媒介する意味的相互作用情報 [cs.LG]目的：構成的汎化における意味的相互作用情報の役割解明
- 汎化能力は，知能システムにおける重要な課題であり，多様な環境への適応を可能にする。
- 潜在変数の複雑な相互作用を考慮した汎化能力の評価方法が課題であった。
- 意味的相互作用情報を指標として，汎化能力のメカニズムを解明することを試みる。
- 意味的相互作用情報（SII）は，RNNの精度差を説明する上で有効であることが示された。
- 変数の相互作用を学習する必要がある状況下では，循環依存性が重要な課題となることが明らかになった。
- Representation Classification Chains (RCCs) は，新しい変数の組み合わせに対する構成的汎化を促進することが示された。
Link: https://arxiv.org/abs/2603.27134
PolarQuant：ハダマール回転によるLLM圧縮のための最適ガウス重み量子化 [cs.CL, cs.LG]目的：大規模言語モデルの重み量子化による，ほぼ損失のない圧縮
- LLMは高性能だが，モデルサイズが巨大で，推論コストが高い。
- 量子化はモデルサイズを削減するが，精度低下を招く場合がある。
- ハダマール回転を利用し，ガウス分布に近似することで，精度の低下を抑制する。
- PolarQuantは，ハダマール回転のみで98%の性能改善を実現した。
- Qwen3.5-9BのパープレキシティをFP16と同等レベルに近づけた（6.90→6.40）。
- INT4量子化の前処理としても有効で，精度を改善しつつ高いスループットを維持した。
Link: https://arxiv.org/abs/2603.29078
オントロジー制約によるニューラル推論：エンタープライズエージェントシステムにおけるドメインに根ざしたAIエージェントのためのニューロシンボリックアーキテクチャ [cs.AI, cs.CL, cs.SE]目的：エンタープライズエージェントにおける，オントロジー制約によるニューラル推論アーキテクチャの開発
- LLMの企業への導入が進む一方で，幻覚やドメインシフトといった課題があり，実用上の制約となっている。
- LLMは，推論レベルでの規制遵守を保証することが難しく，企業利用における大きな障壁となっている。
- オントロジーを用いてLLMの入出力に制約を加え，より信頼性の高いエンタープライズエージェントを実現する。
- 提示されたニューロシンボリックアーキテクチャは，金融，保険，医療など5つの業界において，高い精度，規制遵守，役割一貫性を示した。
- 特に，LLMのパラメータ知識が弱いベトナムローカライズドドメインにおいて，効果が顕著であった。
- オントロジーによる制約は，LLMの訓練データ不足を補い，ドメイン知識が限定的な状況下でも高い性能を発揮する。
Link: https://arxiv.org/abs/2604.00555
RIFT：ルーブリックの失敗モード分類と自動診断 [cs.CL, eess.AS, cs.AI]目的：ルーブリックにおける失敗モードの体系的な分類
- LLMの評価や学習において，ルーブリック評価は重要である。
- ルーブリック自体の問題点を，結果から特定する原理的な方法がなかった。
- ルーブリックの構成・設計における失敗モードを分類し，診断を可能にする。
- RIFTは，ルーブリックの失敗モードを「信頼性」「内容妥当性」「結果妥当性」の3つに分類した。
- 5つのデータソースから得られたルーブリックを分析し，8つの失敗モードを特定した。
- 提案する自動評価指標は，人間による注釈と高い相関性を示した（F1スコア最大0.925）。
Link: https://arxiv.org/abs/2604.01375
組織病理画像と多目的パッチ選択を用いたPAM50サブタイプ分類のための深層学習パイプライン [cs.CV, cs.AI]目的：組織病理画像からのPAM50サブタイプ分類
- 乳癌は分子プロファイルが多様であり，個別化医療の必要性が高まっている。
- PAM50サブタイプ分類は遺伝子検査に依存しており，コストと時間がかかる。
- 組織病理画像のみから高精度なPAM50サブタイプ分類を実現することを目指す。
- 本研究で提案する手法は，TCGA-BRCAデータセットにおいてF1スコア0.8812，AUC 0.9841を達成した。
- 外部検証データセットCPTAC-BRCAでは，F1スコア0.7952，AUC 0.9512を示し，良好な汎化性能を確認した。
- 最適化と不確実性に基づいたパッチ選択が，計算効率と分類性能の向上に貢献すると示唆された。
Link: https://arxiv.org/abs/2604.01798
XpertBench：評価基準に基づいた専門レベルのタスク [cs.AI, cs.CL]目的：大規模言語モデルにおける専門的な認知能力の評価
- AIの専門分野への応用が期待される中，高度な専門知識を要するタスクの評価が重要である。
- 既存の評価フレームワークは，対象分野が限定的，汎用的なタスクに偏る，自己評価によるバイアスがあるなどの問題がある。
- 本研究は，現実世界の専門分野におけるLLMの能力を正確に評価できる新たなベンチマークを構築することを目的とする。
- XpertBenchは，金融，医療，法律，教育など80の分野にわたる1,346のタスクで構成され，専門家による高品質なデータに基づいている。
- 提示された評価パラダイムShotJudgeは，LLMの自己評価バイアスを軽減し，人間による評価に近い結果を実現する。
- 最先端のLLMでも成功率は約66%にとどまり，専門家との能力差（expert-gap）が示された。
Link: https://arxiv.org/abs/2604.02368
評議会モード：LLMにおけるハルシネーションとバイアスを多エージェント合意により軽減 [cs.CL, cs.AI]目的：大規模言語モデルにおけるハルシネーションとバイアスの軽減
- 自然言語処理の高度化に伴い，大規模言語モデルの信頼性と正確性が重要になっている。
- 大規模言語モデルは，事実誤認やバイアスの増幅といった課題を抱えている。
- 複数のモデルによる合意形成を通じて，これらの問題を解決することを目指す。
- 評議会モードは，ハルシネーション率を35.9%相対的に削減し，TruthfulQAのスコアを7.8ポイント向上させた。
- 異種LLMの並列処理と合意モデルによる合成により，バイアスの分散も大幅に低減された。
- 複雑さに応じたクエリの振り分け，多様なモデルによる生成，構造化された合意合成の３段階で構成される。
Link: https://arxiv.org/abs/2604.02923
長期的操作のための利得報酬モデリング (ARM) [cs.RO, cs.AI, cs.CV]目的：長期的ロボット操作における報酬の効率的な学習
- ロボットの自律的な操作は，人間の作業を代替し，様々なタスクを自動化する上で重要である。
- 強化学習では，疎な報酬設定が学習のボトルネックとなり，効率的な探索が困難である。
- 人間の介入を最小限に抑えつつ，より効率的な報酬学習を実現し，複雑な操作タスクを成功させる。
- 提案手法ARMは，絶対的な進捗ではなく相対的な利得を推定することで，効率的な報酬学習を可能にする。
- 新しいラベル戦略により，人間の認知負荷を軽減しつつ，高いアノテーションの一貫性を実現した。
- 複雑なタオル折りタスクにおいて，99.4%という高い成功率を達成し，既存手法を上回る安定性とデータ効率を示した。
Link: https://arxiv.org/abs/2604.03037
分子構造認識のためのDeepSeek-OCR-2のファインチューニング [cs.CL, cs.CY, cs.HC, cs.CV, cs.AI, q-bio.BM]目的：分子光学認識タスクにおける性能向上
- 化学構造のデジタル化は，創薬や物質科学の研究において不可欠である。
- 既存のOCRモデルでは，化学構造の正確な認識が困難であり，誤認識が頻発する。
- 大規模データを用いたファインチューニング戦略により，化学構造認識の精度向上を目指す。
- 提案手法MolSeek-OCRは，画像からSMILES文字列を生成するタスクにおいて高い性能を示す。
- 既存の画像からシーケンスへの変換モデルと同等の精度を達成したが，画像からグラフへの変換モデルには劣る。
- 強化学習やデータキュレーションによるさらなる精度向上は，厳密なSMILES文字列の一致性確保の面で効果が限定的であった。
Link: https://arxiv.org/abs/2604.03476
DNNベースの先進運転支援システムに対する時空間認識ビットフリップ注入 [cs.RO, cs.CR, cs.LG]目的：先進運転支援システムにおけるDNNの重要な故障箇所特定
- 自動運転技術の発展に伴い，安全性確保が不可欠であるため，DNNの信頼性評価が重要視されている。
- 宇宙線や低電圧などによるビットフリップがDNNの計算を破壊し，誤った運転判断を引き起こす可能性がある。
- DNNの脆弱性を効率的に特定し，安全性への影響を最大化する故障注入手法を開発すること。
- 提案手法STAFIは，既存の最良手法と比較して29.56倍多くの危険な故障箇所を特定できる。
- 空間的に重要なネットワーク重みビットを効率的に特定するPMBSと，故障発生タイミングを最適化するCFTIを開発した。
- 実生産環境のADAS用DNNを用いた実験により，STAFIの有効性が確認された。
Link: https://arxiv.org/abs/2604.03753
GAIN：ドメイン適応のための乗算的変調 [cs.LG, cs.AI]目的：大規模言語モデルのドメイン適応における忘却現象の軽減
- 大規模言語モデルの多様なドメインへの応用が重要視されているため。
- ドメイン適応の際に，既存知識の忘却が発生しやすいという課題がある。
- 既存知識の忘却を抑制しつつ，新たなドメインへの適応を両立すること。
- GAINは，既存の重み空間の列空間を維持する乗算的変調により，忘却を抑制することを示した。
- 実験の結果，GAINは，既存手法であるLoRAと比較して，以前のドメインにおけるperplexityを大幅に改善した。
- GAINは，追加データや正則化なしに，忘却と適応のトレードオフを最適化し，優れた性能を発揮した。
Link: https://arxiv.org/abs/2604.04516
多言語言語モデルは，言語構造よりも文字体系を符号化する [cs.CL, cs.LG]目的：多言語言語モデルにおける表現の内部構造
- 多言語対応は，言語の壁を超えた情報処理を可能にする上で重要である。
- 多言語モデルがどのように言語を内部的に表現しているかは未だ不明な点が多い。
- 文字体系や言語構造が，多言語モデルの表現にどのように影響するかを解明する。
- モデル内の言語関連ユニットは，文字体系に強く依存することが示された。
- ローマ字化により，言語ごとの表現が分離し，固有の文字体系とも英語とも一致しないことがわかった。
- 語順の入れ替えはユニットの同一性にほとんど影響を与えず，深い層で言語構造が徐々に認識されるようになった。
Link: https://arxiv.org/abs/2604.05090
MoBiE：ポストトレーニング量子化における二値エキスパート混合の効率的な推論 [cs.LG, cs.AI]目的：MoEベースの大規模言語モデルにおける二値化手法の効率化
- 大規模言語モデルの性能向上は重要だが，メモリ・計算コストが課題となっている。
- 既存の二値化手法は，MoE特有の問題（エキスパート間の冗長性，タスク非依存な重要度推定，量子化によるルーティングシフト）に対応できていない。
- MoBiEは，MoEベースLLMに特化した二値化フレームワークとして，効率と性能のバランスを取ることを目指す。
- MoBiEは，エキスパート間の冗長性削減，重要度推定の改善，ルーティング歪みの軽減により，性能を向上させている。
- Qwen3-30B-A3Bにおいて，MoBiEはperplexityを52.2%削減し，ゼロショット性能を43.4%向上させた。
- 推論速度を2倍以上向上させ，量子化時間も短縮する成果が得られた。
Link: https://arxiv.org/abs/2604.06798
分布外汎化のための敵対的ラベル不変グラフデータ拡張 [cs.LG, stat.ML]目的：分布外汎化における性能向上
- 現実世界のデータは訓練時と異なる分布を持つことが多く，汎化性能が課題となる。
- 共変量シフトは，入力データの分布が変化する一般的な問題である。
- 敵対的ラベル不変拡張により，分布外データへの適応性を高める。
- 提案手法RIAは，敵対的学習を用いて不変性を正則化することで，分布外汎化性能を向上させる。
- グラフデータに対する実験により，既存手法と比較して高い精度を達成した。
- この手法は，因果的に生成されたグラフデータに有効であり，様々な分布シフトに対応可能である。
Link: https://arxiv.org/abs/2604.08404
意味的意図の断片化：マルチエージェントAIパイプラインに対するワンショット構成攻撃 [cs.CR, cs.AI, cs.LG]目的：LLMオーケストレーションシステムに対する攻撃手法
- LLMの利用拡大に伴い，セキュリティリスクの評価と対策が重要になっている。
- 既存の安全メカニズムは部分タスクレベルで機能し，複合的な計画全体のセキュリティ違反を見逃す場合がある。
- 部分タスクとしては安全に見える一連のタスクが，最終的にセキュリティポリシーに違反する計画を生成する攻撃を検知・防止すること。
- 意味的意図の断片化（SIF）と呼ばれる攻撃手法により，GPT-20Bオーケストレーターにおいて71%のケースでポリシー違反計画が生成された。
- 個々の部分タスクは安全に見えるにもかかわらず，構成された計画全体としてセキュリティ違反が発生することが確認された。
- 計画レベルの情報フロー追跡とコンプライアンス評価を組み合わせることで，攻撃を事前に検出できることが示された。
Link: https://arxiv.org/abs/2604.08608
多周波数VisNet階層における教師なし局所可塑性 [cs.CV, cs.AI]目的：教師なし視覚表現学習システム
- 視覚情報の効率的な処理は，人工知能の発展に不可欠である。
- 従来の学習方法はラベルやバックプロパゲーションに依存し，生物学的な妥当性に課題がある。
- ラベルを用いない局所的な可塑性規則による視覚表現学習の可能性を探る。
- 本システムは，ラベル，バックプロパゲーション，またはグローバルな誤差信号なしに，CIFAR-10で80.1%の精度を達成した。
- アンチヘブ学習，自由エネルギーに基づく可塑性，および連想記憶が主な貢献因子であり，相乗効果が認められた。
- 可塑性のみが性能向上に寄与していることを示唆し，バックプロパゲーションで学習したCNNとの性能差を縮小した。
Link: https://arxiv.org/abs/2604.09734
THEIA：純粋ニューラルモジュールアーキテクチャにおける完全クレーネ三値論理の学習 [cs.DC, cs.SI, cs.CL, cs.LG, cs.AI, cs.LO]目的：完全クレーネ三値論理(K3)の真理値表の学習
- AIの推論能力向上には，記号処理とニューラルネットワークの融合が不可欠である。
- 従来のニューラルネットワークでは，複雑な論理構造を明示的に学習することが困難であった。
- 本研究は，K3論理をニューラルネットワークで効率的に学習するアーキテクチャを提案する。
- THEIAは，外部の記号推論や手動でエンコードされたK3ゲートを使用せずに，K3の真理値表を高い精度で学習した。
- ネットワークは，不確実性の伝播において非対称性を示し，未知の状態を適切に保持する一方で，最終的な判断の精度を維持した。
- 段階的学習とend-to-end学習において，THEIAは他のモデルと比較して優れた汎化性能を発揮した。
Link: https://arxiv.org/abs/2604.11284
数値推論のための三項接尾辞トークン化方式 [eess.SY, cs.SY, cs.CL, cs.AI, cs.LG]目的：数値推論における言語モデルの性能向上
- 大規模言語モデルの発展に伴い，数値処理能力の向上が重要となっている。
- 従来のサブワードトークン化では，数値の構造が損なわれ，計算や科学的推論で誤りが生じやすい。
- 数値の桁構造を維持し，言語モデルに安定した学習信号を提供すること。
- 本研究では，数値を3桁のグループに分割し，位取りを示す接尾辞を付与する「三項接尾辞トークン化（TST）」を提案する。
- TSTは，整数部と小数部に対してそれぞれ明確な位取りマーカーを使用し，一対一対応を確立する。
- この方式により，トークンレベルで数値の大きさの関係を明確にし，安定した学習を促進することが期待される。
Link: https://arxiv.org/abs/2604.11582
LLM社会グループにおける協力：選出されたリーダーシップによる評価 [cs.CL, cs.AI, cs.LG]目的：LLMによる多エージェントシミュレーションを通じた，リーダーシップと選挙が社会福祉と協調性を向上させるかどうかの検証
- 共有資源の管理は，集団的失敗を回避するために協力と自己統治が不可欠である。近年のLLM研究で協調性が見られる。
- 既存の研究では，組織の重要な要素である構造化されたリーダーシップと選挙メカニズムの役割が不明確である。
- LLMを用いた多エージェントシミュレーションを通して，リーダーシップと選挙が社会福祉と協調性を改善するかを検証する。
- 選出されたリーダーシップは，複数の高性能LLMにおいて，社会福祉スコアを55.4%向上させ，生存時間を128.6%延長することが示された。
- エージェントソーシャルグラフの構築により，リーダーの社会的影響力を中心性指標で評価し，リーダーの発言の感情分析から協調性やレトリック傾向を分析した。
- 本研究は，複雑な社会的ジレンマを解決するための多エージェントシステムにおける選挙メカニズムのさらなる研究の基盤となる。
Link: https://arxiv.org/abs/2604.11721
コーディングフリーかつプライバシー保護機能を持つデータ駆動型臨床研究のためのエージェントフレームワーク [cs.IR, cs.CL, cs.AI]目的：データ駆動型臨床研究の自動化
- 臨床研究は医療の発展に不可欠だが，専門知識や技術的障壁が高い。
- 臨床研究にはプログラミングスキルやデータアクセス権限が必要で，研究の遅延を招く。
- 臨床研究の負担を軽減し，研究の迅速化を目指す。
- CARISは，研究計画から報告書作成までのワークフローを自動化することに成功した。
- LLMベースの評価では96％，人間による評価では82％の完成度を示し，高い精度を確保した。
- CARISは，公的・私的データ環境におけるデータ駆動型臨床研究の加速に貢献する可能性を示唆した。
Link: https://arxiv.org/abs/2604.12258
DocSeeker：証拠に基づく構造化された視覚的推論による長文書理解 [cs.AI]目的：長文書理解のための構造化された視覚的推論手法
- 文書理解は，情報検索や知識獲得において不可欠であり，その重要性は増している。
- 既存の多Modal大規模言語モデルは，文書が長くなるにつれて性能が低下する課題がある。
- 本研究は，文書内の重要情報を特定し，正確な回答を導くための新たな手法を提案する。
- 提案手法DocSeekerは，分析，局所化，推論という構造化されたワークフローを採用している。
- 高品質なデータ生成と，証拠を意識したグループ相対的方策最適化によって，性能が向上している。
- 実験の結果，DocSeekerは，様々なタスクで優れた性能を示し，長文書への汎化能力も高いことが確認された。
Link: https://arxiv.org/abs/2604.12812
イベントテンソル：動的メガカーネルをコンパイルするための統一的な抽象化 [cs.RO, cs.DC, cs.LG, cs.PL]目的：動的メガカーネルのコンパイルのための統一的な抽象化
- GPUの性能向上は，大規模言語モデルなどの現代的なワークロードにおいて不可欠である。
- 従来のカーネル起動オーバーヘッドと粗い同期が，並列処理のボトルネックとなっている。
- 動的な形状やデータ依存性を扱うメガカーネルの課題を解決することを目指す。
- イベントテンソルは，タイル化されたタスク間の依存関係を符号化する統一的な抽象化である。
- イベントテンソルコンパイラ(ETC)は，静的および動的なスケジューリング変換を適用し，高性能な持続的カーネルを生成する。
- 評価の結果，ETCは最先端のLLMサービングレイテンシを達成し，システムウォームアップオーバーヘッドを大幅に削減する。
Link: https://arxiv.org/abs/2604.13327
動的な概念適応による異常検知能力の向上 [cs.CL, cs.CL, cs.DC, cs.LG, cs.AI]目的：変化するデータストリームにおけるオンライン異常検知のための動的概念適応フレームワーク
- リアルタイム分析や意思決定において，変化するデータストリーム中の異常検知は不可欠である。
- 既存手法は，高コストな再学習や固定的な閾値に依存し，動的な環境での概念ドリフトへの適応が困難である。
- 本研究は，再学習や微調整なしに，効率的かつ効果的な異常検知を実現する。
- DyMETERは，過去データから主要な概念を学習し，概念ドリフト発生時に動的モードへ移行する。
- ハイパーネットワークを活用し，静的検出器のパラメータをインスタンスごとに変化させ，効率的な適応を実現する。
- 不確実性評価と動的な閾値最適化により，ロバストかつ解釈可能な適応を実現し，既存手法を大幅に上回る性能を示す。
Link: https://arxiv.org/abs/2604.14726
自生成: 自己進化エージェントプロトコル [cs.IR, cs.AI]目的：自己進化エージェントプロトコルの開発
- LLMベースのエージェントシステムは複雑なタスク解決に有効だが，長期的な発展には課題が残る。
- 既存のプロトコルは，エージェントのライフサイクル管理，バージョン管理，安全な更新インターフェースが不十分である。
- エージェントの進化方法と進化内容を分離し，自己進化を可能にするプロトコルを提案する。
- AGPは，プロンプト，エージェント，ツールなどをリソースとして管理するResource Substrate Protocol Layer (RSPL) を持つ。
- 自己進化プロトコル層 (SEPL) は，改善提案，評価，コミットのためのクローズドループインターフェースを提供する。
- 実験結果は，AGSが既存のベースラインと比較して一貫した改善を示すことで，エージェントリソース管理と自己進化の有効性を示した。
Link: https://arxiv.org/abs/2604.15034
大規模言語モデルの自己モニタリングのためのメタ認知モニタリングバッテリー：クロスドメインベンチマーク [cs.CL, cs.LG]目的：大規模言語モデルにおけるモニタリングと制御の結合に関する行動学的評価
- AIの信頼性向上には，モデルが自身の知識と推論の限界を理解することが不可欠である。
- 現在のLLMは，誤りを認識し，修正する能力に限界があり，信頼性に課題が残る。
- LLMの自己認識能力を定量的に評価し，改善のための指針を得ることを目指す。
- 本研究で開発されたバッテリーは，6つの認知ドメインにわたる524の項目で構成され，LLMの自己モニタリング能力を評価できる。
- 20種類の最先端LLMの評価結果から，自己信頼度，自己修正度，選択的感度という3つのプロファイルが識別された。
- LLMのアーキテクチャによってメタ認知キャリブレーションのスケールが異なり，モデルの改善に役立つ知見が得られた。
Link: https://arxiv.org/abs/2604.15702
JumpLoRA：大規模言語モデルにおける継続学習のための疎なアダプター [cs.LG, cs.AI, cs.CL]目的：大規模言語モデルの継続学習における疎なアダプターの提案
- 大規模言語モデルの活用が拡大する中で，新たなタスクへの適応能力が重要視されている。
- 既存手法では，逐次学習による知識の忘却（破滅的忘却）が課題となっている。
- JumpLoRAは，動的なパラメータ分離によりタスク間の干渉を防ぎ，継続学習の性能向上を目指す。
- JumpLoRAは，LoRAブロックにJumpReLUゲートを適用することで，疎性を導入する新しいフレームワークである。
- 実験により，JumpLoRAがIncLoRAの性能を大幅に向上させ，最先端の継続学習手法であるELLAを上回ることが示された。
- 本手法は高いモジュール性を示し，LoRAベースの継続学習アプローチと互換性がある。
Link: https://arxiv.org/abs/2604.16171
エージェント駆動型ソフトウェア開発におけるエージェント的エントロピーへの対処 [cs.SE, cs.AI]目的：エージェント的エントロピーの軽減
- ソフトウェア開発における自動化が進み，エージェントの利用が増加しているため，その影響を理解する必要がある。
- エージェントの行動と設計意図の乖離を捉えることが難しく，コード差分分析では全体的な挙動を把握できない。
- エージェントの意思決定プロセスを可視化し，設計意図との整合性を評価することで，エージェントの制御を可能にする。
- 提案手法は，エージェントの行動を時間，ツール呼び出し，アーキテクチャ境界に沿って追跡し，設計意図とのずれを明らかにする。
- 「コンフォーミティシーディング」「推論モニタリング」「因果グラフインターフェース」の3つの柱に基づき，既存のレビュープロセスを補完する。
- 本手法は，構造的視点の提供や，コードレビューにおけるより深い文脈理解の促進により，エージェント駆動型開発の信頼性を高める。
Link: https://arxiv.org/abs/2604.16323
AIの準備状況は技術購入ではなく組織学習の問題である [cs.CL, cs.CY, cs.AI, cs.CL]目的：組織におけるAIの準備状況と能力開発
- AI技術はビジネスに変革をもたらす可能性を秘めているが，その効果を最大限に引き出すには組織の準備が必要である。
- 多くの企業がAI投資を行っているにもかかわらず，期待される収益を上げられていないという課題がある。
- AIプロジェクトの失敗は技術的な問題ではなく，組織学習の不足に起因するところが大きいという問題提起。
- AIプロジェクトの失敗要因として，組織文化，リーダーシップ，ガバナンス，人材育成などの組織的な要因と，技術的な要因の2つが特定された。
- 組織のAI能力を，文化・リーダーシップ，人材，データアーキテクチャ，システムインフラ，ガバナンスの5つの柱に基づいて評価する「SIO」モデルが提案された。
- AI投資を単なる技術調達ではなく，組織全体の能力開発として捉え直す必要性が示唆された。
Link: https://arxiv.org/abs/2604.16369
幾何構造を意識したCLIP検索：局所クロスモーダルアライメントとステアリング [cs.CV, cs.AI]目的：幾何構造に基づいたCLIP検索の性能向上
- 画像とテキストの関連性を評価する上で，CLIPモデルは重要な役割を担う。
- CLIP検索は，局所的な幾何学的矛盾により，周辺項目の順序が誤っている場合がある。
- 局所的な構造に着目し，検索結果の正確性と制御性を向上させる。
- ハンガリー法を用いた近傍再ランキングにより，構造的な整合性が向上し，検索性能が改善される。
- クエリに条件付けられた局所的なステアリングにより，検索結果の近傍構造が制御され，属性結合や構成的検索タスクにおいて性能が向上する。
- 再ランキングと局所的ステアリングは異なる役割を果たし，局所構造の重要性を示している。
Link: https://arxiv.org/abs/2604.16487
BARD：効率的なプログレッシブブロックマージと段階的知識蒸留による自己回帰型と拡散型ビジョン言語モデルの架け橋 [cs.CV, cs.LG]目的：自己回帰型ビジョン言語モデルから，同じアーキテクチャの効率的な拡散型ビジョン言語モデルへの変換
- マルチモーダルなタスクにおいて，ビジョンと言語を統合したモデルの重要性が高まっている。
- 自己回帰型モデルの逐次的なデコーディングは推論速度のボトルネックとなる。
- 事前学習済みの自己回帰型モデルを拡散型モデルに変換する際の性能劣化を抑制すること。
- BARDは，プログレッシブブロックマージと段階的知識蒸留を組み合わせることで，自己回帰型モデルの能力を拡散型モデルに効果的に移行させる。
- 少ないデータ（最大440万件）でQwen3-VLのマルチモーダル能力を大規模ブロック拡散型モデルに転移させることに成功した。
- 評価スイートにおいて，40億および80億パラメータ規模の同等のオープン拡散型ビジョン言語モデルの中で，最先端の性能を達成し，最大3倍のデコーディング速度向上を実現した。
Link: https://arxiv.org/abs/2604.16514