arXiv雑要約
AI - 2026/04/21 公開
テキストが視覚を乗っ取る時:視覚言語モデルにおけるテキストオーバーレイ誘発幻覚のベンチマークと軽減策 [eess.SY, cs.SY, cs.FL, cs.DC, cs.ET, cs.PF, cs.CV, cs.AI]目的:視覚言語モデルにおけるテキストオーバーレイ誘発幻覚のベンチマーク構築と軽減策の提案
- マルチモーダルな映像理解の進展により,多様なタスクにおいて視覚言語モデルの性能が向上している。
- 画面上のテキストと視覚情報が矛盾する場合,既存モデルはテキスト情報を優先し,幻覚を起こしやすいという問題がある。
- テキストと視覚の矛盾による幻覚を抑制し,より信頼性の高い映像理解を実現することを目指す。
- 本研究では,大規模な人間による検証済みのサンプルを含む,初の包括的なベンチマークVisualTextTrapを提案した。
- また,テキストと視覚の乖離を検出し活用する二重エンコーダアーキテクチャに基づくVTHM-MoEを開発し,幻覚の軽減効果を確認した。
- VisualTextTrapベンチマークを用いた実験により,VTHM-MoEが最先端の手法を上回り,様々な映像質問応答タスクで高い性能を示した。
Vision Transformerを用いた汎用的なディープフェイク画像検出に向けて [cs.CV, cs.AI, cs.LG, eess.IV]目的:ディープフェイク画像の検出手法
- 生成モデルの進化により,偽造画像検出の重要性が増している。
- 既存手法は汎化性能が低く,多様な偽造画像に対応できない。
- 最新の生成技術に対しても有効な検出手法を確立する。
- DINOv2,AIMv2,OpenCLIP等のVision Transformerのアンサンブルが,既存モデルやCNNベースラインを上回る性能を示した。
- DF-Wildデータセットを用いた評価で,AUC 96.77%,EER 9%を達成し,最先端手法EffortをAUCで7.05%,EERで8%上回った。
- 本手法はIEEE SP Cup 2025で優勝し,ICASSP 2025で発表された。
複数人完全情報ゲームにおける探索アルゴリズムの研究と改善 [cs.CL, cs.GT, cs.AI]目的:複数人完全情報ゲームにおける探索アルゴリズムの性能向上
- ゲームAIの発展は,知的インタフェースや戦略的思考の研究に不可欠である。
- 複数人ゲームにおける探索アルゴリズムは,計算量の多さから実用上の課題が多い。
- 複数人ゲームへ既存の探索アルゴリズムを拡張し,計算効率と性能の改善を目指す。
- 本研究では,2人ゼロサム完全情報ゲームの最先端アルゴリズムを複数人ゲームへ一般化。
- 実験の結果,一般化されたアルゴリズムが既存の複数人ゲーム探索アルゴリズムを上回る性能を示す。
LLMにおけるデータとパラメータの対応:予備的な議論 [cs.LG]目的:LLM最適化におけるデータとパラメータ間の対応関係の確立
- LLMは自然言語処理の基盤であり,その性能向上は様々な応用分野に不可欠である。
- データとモデルの最適化は別個に進められることが多く,両者の連携が不十分である。
- データとパラメータの最適化を統一的に捉え,相互に活用可能な枠組みを構築すること。
- データプルーニングとパラメータスパース化は,統計多様体における体積減少という点で等価である。
- インコンテキスト学習とLoRA適応は,グラスマン多様体上で同一の部分空間を探索し,幾何学的に等価である。
- データポイズニングとパラメータバックドアは協調的に増幅し,データ圧縮はパラメータのプライバシーを向上させる。
時系列異常検知のための最小限のノイズ除去ネットワーク [cs.LG]目的:時系列異常検知における,最小限のノイズ除去ネットワークの有効性
- 時系列データは,金融,医療,製造など,多様な分野で広く利用されているため,その分析は重要である。
- 既存の異常検知手法は,複雑なアーキテクチャに依存し,計算コストが高いという課題があった。
- 本研究は,シンプルなネットワーク構造で高精度な異常検知を実現することで,この課題を解決することを目指す。
- JuReは,単一のDepthwise Separable Convolutional Residual Blockで構成される,非常にシンプルなネットワークである。
- TSB-ADベンチマークにおいて,JuReはAUC-PRで0.404を達成し,ニューラルネットワークベースラインの中で最高の結果を示した。
- 学習時のノイズ付加が,異常検知の性能に最も大きく影響することが確認された。
古代碑文テクスチャ復元のための訓練不要マルチ・サンプル深層フレームワークMESA [cs.CV, cs.AI, cs.GR]目的:古代碑文のテクスチャ復元手法
- 歴史的資料の保存・解読において,碑文の重要性は高く,損傷からの復元は不可欠である。
- 碑文は破損や風化により情報が失われやすく,原本の解読や分析が困難になる場合が多い。
- 既存手法の限界を克服し,損傷した碑文をより自然かつ高精度に復元することを目指す。
- MESAは,保存状態の良い碑文サンプルを参考に,損傷箇所のテクスチャ,スタイル,筆致を再現する。
- 各ニューラルネットワーク層において,損傷箇所とのMean-Squared Displacement (MSD)を最小化するサンプルを選択する。
- 文字幅に基づく重み付けとマスク処理により,復元範囲を損傷箇所に限定し,より自然な結果を得る。
RISC-V 自律走行車システムにおける機能安全:解析的フレームワークとML支援認証ロードマップ [cs.SE, cs.AR, cs.LG]目的:自律走行車システムの機能安全認証の経済性向上
- 自動車産業における機能安全は,高度な安全性確保と品質保証のために不可欠である。
- 機能安全認証は,コストと時間において大きな負担となっており,効率化が求められている。
- RISC-Vアーキテクチャを活用し,認証プロセスを経済的に最適化することを目指す。
- RISC-Vは,自動車グレードの組み込みコンピューティングプラットフォームとして有望であり,ISO 26262 ASIL-D認証を取得済みである。
- 本研究では,RISC-VのISAの開放性,検証可能性,拡張性などを分析し,自律走行システムの機能安全要件との対応を検討した。
- LLMやグラフニューラルネットワークなどの機械学習手法を活用し,認証ワークフローの自動化と効率化を目指すフレームワークとロードマップを提案した。
自己回帰型動画生成のための推測デコーディング [cs.CL, cs.CL, cs.CV, cs.AI]目的:自己回帰型動画生成における推測デコーディングの有効性
- 動画生成技術は,コンテンツ制作やエンターテインメント分野において重要性が増している。
- 動画生成の効率化は,計算コストの高さから依然として課題となっている。
- 推測デコーディングにより,動画生成の速度向上と品質維持を両立することを目指す。
- 提案手法SDVGは,画像品質ルーターを用いて推測デコーディングを動画生成に適用し,速度と品質のバランスを実現した。
- MovieGenVideoBenchデータセットにおいて,SDVGは既存手法と同等の品質を維持しつつ,1.59倍の速度向上を達成した。
- SDVGは追加の学習を必要とせず,既存の動画生成パイプラインに容易に組み込むことができる。
メタ推論を超えて:自己改善型LLM推論のためのメタ認知の定着 [cs.CL, cs.AI]目的:LLM推論の自己改善
- LLMは強力な推論能力を持つが,更なる向上が求められている。
- 既存のメタ推論手法は,個々の事例に焦点を当て,汎用的なメタ認知スキルの蓄積が不十分である。
- 過去の推論経験からメタ認知知識を凝縮し,将来のメタ推論を改善すること。
- 提案手法は,推論,監視,制御の役割を明確化し,豊富なメタレベルのトレースを生成する。
- これらのトレースは,階層的かつ多時間スケールな更新メカニズムを通じて,進化するメタ知識へと定着される。
- 実験結果から,様々なベンチマークとバックボーンモデルにおいて,性能が安定的に向上し,メタ認知経験の蓄積とともに改善されることが示された。
トークン効率的な協調のための位相スケジュール型マルチエージェントシステム [cs.AI, math.AT]目的:トークン効率的な協調の実現
- 大規模言語モデルを用いたマルチエージェントシステムは,複雑な問題解決に有効である。
- 既存システムでは,エージェントの同時実行や過剰なコンテキスト共有により,トークン消費量が膨大になる。
- 位相スケジュールによりエージェントの活性化を制御し,トークン消費量の削減を目指す。
- 提案手法PSMASは,平均して27.3%のトークン削減を達成し,タスク性能への影響は2.1%以内であった。
- 位相スケジュールのみで18-20%の削減効果が確認され,圧縮による性能劣化の影響を受けにくい。
- 安定性,収束性,最適性に関する理論的な結果も証明された。
遺伝的プログラミングによる記号回帰の一般化限界について [cs.LG, cs.NE]目的:遺伝的プログラミングを用いた記号回帰モデルの一般化性能
- データから直接解釈可能な数式を発見する手法であり,科学的発見やモデル解釈に貢献する。
- 記号回帰の一般化性能を理論的に保証する研究が不足しており,過学習のリスクがある。
- 記号回帰モデルの一般化限界を導出し,理論的な一般化性能の理解を深める。
- 表現木のサイズ,深さ,学習可能な定数に対する制約の下で,記号回帰の一般化限界を導出した。
- 一般化ギャップを構造選択項と定数適合項の二つの解釈可能な要素に分解した。
- パルシモニ圧迫や深さ制限などの実用的な設計選択と,一般化限界の複雑性項との関連性を示した。
STRIDE:検索拡張型マルチホップ質問応答のための戦略的反復意思決定 [cs.AI]目的:検索拡張型マルチホップ質問応答における戦略的かつ反復的な意思決定フレームワーク
- 複雑な質問に答えるには,複数文書からの情報検索と推論が不可欠であり,その精度向上が求められている。
- 既存手法は,表層的なエンティティに過度に依存し,曖昧な質問分解や非効率な処理が問題となっている。
- エンティティに依存しない推論構造の構築と,依存関係を考慮したサブ質問実行により,これらの問題を解決する。
- STRIDEは,戦略的計画,動的制御,そして根拠に基づいた実行を分離することで,より堅牢かつ正確な推論を実現した。
- STRIDE-FTは,自己生成された実行軌跡を用いることで,人間によるアノテーションや教師モデルに頼らず,オープンソースLLMの性能を向上させた。
- 本研究は,質問応答における推論の質と効率性を高める新たなアプローチを提示した。
EvoMaster:大規模な進化型自律科学エージェント構築のための基盤的フレームワーク [cs.AI]目的:大規模な進化型自律科学エージェント構築のための基盤的フレームワーク
- 科学的発見は進化を遂げており,大規模言語モデルとエージェントの融合が新たな時代を牽引している。
- 既存のエージェントフレームワークは静的で範囲が狭く,試行錯誤から学習する能力に乏しいという課題がある。
- EvoMasterは,継続的な自己進化を可能にし,科学的探求を忠実に再現することで,この課題を解決することを目指す。
- EvoMasterは,機械学習,物理学,一般科学を含む様々な分野で高い性能を示した。
- Humanity's Last Exam,MLE-Bench Lite,BrowseComp,FrontierScienceの4つのベンチマークで,最先端のスコアを達成した(それぞれ41.1%,75.8%,73.3%,53.3%)。
- 汎用ベースラインOpenClawと比較して,相対的な改善は+159%から+316%に達し,その有効性と一般性が実証された。
DuConTE:トポロジー制約アテンションを用いた二重粒度テキストエンコーダ [cs.RO, cs.CL, cs.AI]目的:テキスト属性グラフにおけるテキストエンコーディング手法
- ノードのテキスト情報を構造と組み合わせて活用することで,文書分類や情報抽出といった応用範囲が広がる。
- 既存手法では,単語レベルでの意味的相互作用に偏り,ノード間テキストの構造的依存関係が無視されている。
- グラフ構造を考慮した意味的相関学習と,文脈に応じたトークン重要度の評価を実現する。
- DuConTEは,事前学習済み言語モデルをカスケード接続し,単語粒度とノード粒度でテキストをエンコードする。
- ノード間の接続に基づいてアテンションマスクを動的に調整することで,グラフ構造を意識した意味的相関を学習する。
- 複数のベンチマークデータセットで最先端の性能を達成し,DuConTEの有効性が確認された。
オープンウェイトのパラドックス:AIモデルへのアクセス制限が,その安全確保を損なう可能性 [cs.CY, cs.AI]目的:オープンウェイトAIモデルのガバナンスに関する考察
- AI技術の発展は,経済,安全保障,社会構造に大きな影響を与えるため,その適切な管理が重要である。
- AIモデルへのアクセス制限は,技術的非対称性を拡大させ,開発の分散化を阻害する可能性がある。
- 技術的・制度的な設計を通じて,AIのオープン性を高めつつ安全性を確保する方策を探求する。
- オープンウェイトモデルは,グローバルサウスにおけるAI主権能力の実現に不可欠な経路となり得る。
- ハードウェア層のガバナンス(FlexHEGなど)とソフトウェア層の安全対策を組み合わせた多層防御が,二分法的なアプローチへの代替案として提案される。
- AIガバナンスは,二重用途技術としての側面を考慮し,IAEAのような多国間機関の機能的類似性を備えた制度的枠組みが必要である。
報酬スコアマッチング:フローモデルと拡散モデルのための報酬に基づくファインチューニングの統合 [cs.LG, cs.AI, cs.CV]目的:報酬に基づく生成モデルの調整手法の統合
- 生成モデルの性能向上は,様々な応用において重要である。
- 報酬に基づくファインチューニング手法は多数存在するが,相互理解が不足している。
- 既存手法を統一的な枠組みで捉え,より効率的な手法を開発すること。
- 報酬スコアマッチング(RSM)という統一的な枠組みが,既存の報酬に基づくファインチューニング手法を説明できる。
- RSMの視点から,手法間のトレードオフが明確になり,最適化の主要コンポーネントが特定された。
- RSMに基づいて再設計された手法は,性能と計算効率が向上した。
プロジェクトの強靭性とネットワークの頑健性 [cs.SE, cs.AI, cs.SY, eess.SY]目的:プロジェクトのレジリエンスの評価手法
- プロジェクト成功には,メンバーの協力が不可欠であり,人材配置が重要となる。
- プロジェクト内での作業負担の偏りが,特定の人物への依存を生み出し,リスク要因となる。
- 要員喪失に対するプロジェクトの脆弱性をより正確に評価することを目指す。
- 本研究では,プロジェクトをネットワークとして捉え,その頑健性から脆弱性を評価する新しい手法を提案する。
- 既存の手法と比較した結果,提案手法はより現実的かつ一貫性のあるレジリエンス評価を提供することが示された。
- プロジェクトのキーパーソン喪失による経済的損失や遅延のリスクを適切に予測することが可能となる。
ARMove:エージェント的推論による人間移動予測の学習 [cs.MA, cs.LG]目的:人間移動の予測
- 社会生活や都市計画において,人間の移動予測は不可欠な要素である。
- 既存手法は,解釈性の低さ,新しいデータからの反復学習の欠如,転移学習の難しさに課題がある。
- エージェント的推論を通じて,これらの課題を克服し,汎用性の高い予測フレームワークを構築すること。
- ARMoveは,既存の最先端手法と比較して,12の評価指標のうち6つで0.78%から10.47%の性能向上を示した。
- 地域,ユーザー,モデル規模間の転移学習テストにより,ARMoveの頑健性が確認された。
- 大規模言語モデルから小規模言語モデルへ知識を蒸留することで,コスト削減と性能向上を両立した。
TransXion:現実的なマネーロンダリング対策のための高忠実度グラフベンチマーク [cs.LG, cs.AI, cs.SI]目的:現実的なマネーロンダリング対策研究のためのベンチマーク
- 世界経済において,マネーロンダリングは金融システムの安定を脅かす重大な問題である。
- 既存の取引グラフデータセットは,ノードレベルのセマンティクスが乏しく,異常注入がテンプレートに依存している。
- より現実的で困難なベンチマークを提供し,文脈を考慮した堅牢なAML検出手法の開発を促進する。
- TransXionは,支払いネットワークの構造的特性を再現し,重い裾の活動分布や局所的なサブグラフ構造を示す。
- TransXionは,既存のベンチマークと比較して検出性能が大幅に低下し,より高い難易度と現実性を示している。
- エンティティの社会経済的状況との矛盾を検出する「通常外れ」の異常を評価できる。
非凸最適化における適応一次最適化手法の統一的な収束理論:AdaNorm,AdaGrad,Shampoo,Muoを含む [cs.LG]目的:非凸制約なし最適化のための適応事前条件付き勾配に基づく一次最適化アルゴリズムの統一的な枠組み
- 機械学習の発展に伴い,非凸最適化問題の効率的な解法が不可欠となっている。
- 既存手法はアルゴリズムごとに収束解析が異なり,統一的な理解が困難であった。
- 多様なアルゴリズムを包括的に解析し,統一的な収束理論を確立することを目指す。
- 本研究では,AdaGrad,AdaNorm,Shampoo,Muoなどの主要な手法を包含する統一的なフレームワークを提案した。
- 提案フレームワークは,異なる変数グループ間で異質な幾何学構造を組み合わせながら,統一的な収束解析を可能にする。
- 勾配オラクルの分散に関する妥当な仮定の下で,モーメンタムの有無にかかわらず,確率的収束レートの解析を行った。
メタオプティクス向けニューラル随伴法:フーリエニューラル演算子による体積逆設計の高速化 [cs.LG, physics.optics]目的:メタオプティクスの体積逆設計における計算コストの削減
- メタオプティクスは,小型で高性能なイメージングや色ルーティングを実現する可能性を秘めている。
- 高性能構造の設計は高次元の最適化問題であり,反復的な電磁場シミュレーションが必要となるため計算コストが高い。
- ニューラル随伴法によって,電磁場シミュレーションなしに勾配を予測し,設計時間を大幅に短縮することを目指す。
- 本研究では,フーリエニューラル演算子を用いて3D随伴勾配場を予測するニューラル随伴法を提案した。
- 段階的なフーリエニューラル演算子を導入することで,感度ピークの保持性能を向上させた。
- 色ルーティング,アクロマチック集光,導波路モード変換の3つのタスクにおいて,設計時間を数時間から数秒に短縮することに成功した。
Long-CODE:ビデオ評価における純粋な長文脈を直交次元として分離 [cs.CV, cs.AI]目的:長編ビデオ評価のための専用フレームワークの正当化と設計
- ビデオ生成モデルの能力向上に伴い,ロバストな評価指標の必要性が高まっている。
- 従来の指標は短編ビデオ向けであり,長編ビデオにおける物語性や因果関係の整合性を捉えられない。
- 長編ビデオ評価において,視覚的知覚と長文脈属性を分離し,長文脈特性を評価する指標を開発する。
- 既存の短編ビデオ指標は,ショットレベルの擾乱や物語のシャッフルに鈍感であることが,長編ビデオ属性の破損テストで明らかになった。
- ショットダイナミクスに基づく新しい長編ビデオ指標を設計し,長文脈テストフレームワークへの高い感度を示した。
- Long-CODEデータセットを導入し,人間の判断との高い相関関係が確認された。
Jupiter-N 技術報告 [cs.CL, cs.AI]目的:ハイブリッド推論モデルJupiter-Nの開発
- 大規模言語モデルの性能向上が,多様な言語や文化への対応を可能にする。
- 既存モデルは,特定の文化や言語への適応において課題を抱えている。
- 文化的知識や言語データを活用し,特定の地域に特化した言語モデルを開発する。
- Jupiter-Nは,Nemotron 3 Superをベースに,エージェント能力,英国文化への適合,ウェールズ語サポートを強化した。
- ウェールズ語のARC-Easyスコアは18点,MMLU-Liteスコアは5.25点,ターミナル利用スコアは9.1点,指示応答スコアは4.4点向上した。
- 本研究は,文化知識や言語データを置換することで,各国固有のモデルを再現可能に示すテンプレートとなる。
2サンプルのみによる自己整合性:効率的なLLM推論のためのCoT-PoTアンサンブル [cs.CY, cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの推論精度向上
- 複雑な問題解決において,言語モデルの推論能力は不可欠である。
- 自己整合性(SC)は計算コストが高く,実用上の制約となっていた。
- サンプル数を減らしつつ,SCによる精度向上を実現すること。
- CoTとPoTのアンサンブルにより,従来のSC手法と比較して9.3倍サンプル数を削減。
- タスクの過半数(78.6%)は,わずか2サンプルで解決可能となった。
- 全体的な精度向上も確認された。
MoVE:音声対話翻訳における笑声と涙の翻訳 - 喚起表現専門家混合によるアプローチ [eess.SY, cs.SY, cs.CL, cs.AI, cs.SD, eess.AS]目的:音声対話翻訳における非言語的喚起表現の再現
- 対話における感情や意図を伝える喚起表現は,コミュニケーションにおいて重要な役割を果たす。
- 既存の音声対話翻訳システムは,意味の正確性は高いものの,喚起表現を再現できていないという課題がある。
- 喚起表現のデータ不足を克服し,より自然で感情豊かな音声対話翻訳を実現することを目指す。
- MoVEは,喚起表現に特化したアダプターとソフトウェイトルーティングを持つ混合LoRAエキスパートアーキテクチャを採用した。
- わずか30分のキュレーション済みデータで,高い性能を発揮するデータ効率が確認された。
- 英語から中国語への音声対話翻訳実験において,MoVEはターゲットの喚起表現を76%の確率で再現し,自然性と感情的な忠実度において既存システムを上回った。
SLM ハーネスへの決定論的構造のコンパイル [cs.AI]目的:小規模言語モデル(SLM)の企業への展開における問題点の解決
- SLMの企業利用は,その性能向上とコスト削減に不可欠である。
- SLMは自己修正が難しく,高性能LLMはコストやデータ主権の問題がある。
- SLMのワークフローを改善し,より高い精度と効率を実現すること。
- Semantic Gradient Descent(SGDe)により,SLMのワークフローを反復的に洗練可能。
- 敵対的合成によるGSM-Hard派生テストセットで,高い精度(m=5で91.3%,m=3で99.3%)を達成。
- 決定論的コード配置の最適化により,PALやPoT等の既存手法を上回る汎用性を示す。
TrafficClaw:統一的な物理環境モデリングによる汎用的な都市交通制御 [cs.AI]目的:都市交通制御におけるシステムレベルの協調
- 都市交通は複雑であり,円滑な交通流を実現するには,信号,高速道路,公共交通機関等の連携が不可欠である。
- 既存手法は個別の課題に特化しており,タスク間の汎用性や,システム間の相互作用の捉えにくさが課題である。
- システム全体を俯瞰した制御により,都市交通の効率化と安定化を目指す。
- TrafficClawは,複数のサブシステムを統合した統一的な物理環境を構築し,システム間の相互作用を明示的にモデル化する。
- LLMエージェントによる実行可能な時空間推論と再利用可能な手続き的メモリを導入し,システム全体の診断と戦略改善を実現する。
- 実験の結果,TrafficClawは未知の交通シナリオや動的状況においても,ロバストで転移可能,かつシステムを考慮した性能を示すことが確認された。
EHRAG:ハイブリッドハイパーグラフ構築と検索による軽量グラフRAGにおける意味的ギャップの解消 [cs.AI]目的:軽量グラフRAGにおける意味的ギャップ解消のためのフレームワーク
- 大規模言語モデル(LLM)の性能向上が求められており,知識獲得への応用が期待されている。
- 既存の軽量グラフRAGは,構造的共起に依存し,潜在的な意味的関係を捉えきれていない。
- 構造と意味レベルの関係を捉えたハイパーグラフ構築により,検索性能の向上を目指す。
- EHRAGは,構造的ハイパーエッジと意味的ハイパーエッジを組み合わせたハイパーグラフを構築する。
- EHRAGは,トピックを考慮したスコアリングとパーソナライズされたPRランキングを用いて,構造と意味のハイブリッド拡散検索を行う。
- 4つのデータセットにおける実験で,EHRAGは最先端のベースラインを上回り,線形なインデックス複雑度とゼロトークン消費を維持する。
エージェント教育:Claude CodeでClaude Codeを教える [cs.IR, cs.CY, cs.AI, cs.HC, cs.SE]目的:AIコーディングアシスタントの学習のための構造化された教育フレームワークの開発
- AIコーディングアシスタントは普及しているが,効果的な学習方法は確立されていない。
- 公式ドキュメントと実践的な習得との間にギャップがあり,学習者は断片的な情報に頼らざるを得ない。
- AIを活用した段階的な指導と適応的な学習システムによる学習方法を確立する。
- 本研究では,Claude Codeの学習のためのモジュール型インタラクティブなカリキュラム「cc-self-train」を開発した。
- このカリキュラムは,段階的な責任移譲を実現するペルソナ進行モデル,学習者のエンゲージメントを基にした適応的な学習システム,ドメインを横断した統一されたカリキュラムなどを特徴とする。
- パイロット評価の結果,参加者の自己効力感は10のスキル領域すべてにおいて統計的に有意に向上し(p < 0.001),特に高度な機能において大きな効果が確認された。
プロジェクト・プロメテウス:エージェントによるプログラム修理における意図の乖離を埋めるための,実行可能仕様の逆設計 [cs.SE, cs.AI]目的:エージェントによるプログラム修理における意図の乖離の解消
- プログラム修理は,ソフトウェア品質向上に不可欠であり,開発コスト削減に貢献する重要な研究分野である。
- 既存のエージェントは,高度な推論能力を持つものの,開発者の意図と生成された修正パッチとの間に乖離が生じやすい。
- 実行可能仕様の逆設計により,エージェントの意図を明確化し,的確なプログラム修正を実現することを目指す。
- 提案手法「Prometheus」は,680個のDefects4Jベンチマークにおける修正成功率93.97%(639/680)を達成した。
- 特に,既存のエージェントでは修正できなかった複雑なバグ119個の修正に成功し,救済率74.4%を示した。
- 明示的な意図に基づくガイダンスが,過剰な修正を抑制し,精密かつ最小限の修正を促すことが示された。
言語モデルは活性化へのドロップアウトとガウスノイズを認識する [cs.AI]目的:言語モデルにおける活性化への摂動の検出,特定,および言語化
- 言語モデルの性能向上には,その内部状態の理解が不可欠である。複雑な挙動の解明が重要となる。
- 言語モデルが,訓練時と推論時の違いをどのように認識しているのかは不明である。過学習や安全性の問題に関わる。
- 言語モデルが活性化への摂動を識別できるか検証し,訓練と推論の差異を認識する能力を探る。
- Llama,Olmo,Qwenを含む様々なサイズの言語モデルは,活性化へのドロップアウトやガウスノイズを高い精度で検出し,特定できた。
- Qwenモデルは,文脈学習を通じて,ドロップアウトとガウスノイズの違いを識別することが可能であり,摂動の強度に応じて認識精度が変化した。
- ドロップアウトは訓練時の正則化,ガウスノイズは推論時のノイズとして用いられることから,言語モデルが訓練状況を認識している可能性が示唆された。
疎なノイズデータによる機械学習ハミルトニアン力学系 [cs.LG]目的:疎なノイズデータからのハミルトニアン力学系の記号的表現学習
- 力学系の法則発見において,機械学習の重要性が増している。複雑な現象をデータから理解する鍵となる。
- 従来の機械学習手法は,データが疎,ノイズを含む,または不規則にサンプリングされた場合に性能が著しく低下する。
- 本研究は,極端なデータ不足下におけるハミルトニアン力学系の記号表現学習の課題に取り組む。
- 適応シンプレクティック回帰ニューラルネットワーク(ASRNN)は,ノイズ下でも安定した学習を可能にする。
- ASRNNは,各軌道がわずか2つの不規則な時間点からなる場合でも,長期ダイナミクスを高精度に予測できる。
- ASRNNとSINDy/PySRを組み合わせることで,多項式系や非多項式ハミルトニアンの正確な記号方程式を復元できた。
デュアルアンカリング:ビジョン言語ナビゲーションにおける状態ドリフトへの対処 [cs.CV, cs.AI]目的:ビジョン言語ナビゲーションにおける状態ドリフトの軽減
- 自然言語による指示に基づいた環境内での自律的な移動を実現する基盤技術である。
- 長距離ナビゲーションにおいて,エージェントの内部状態がタスク実行状態から乖離しやすい。
- 完了したサブゴールと未完了のサブゴールを識別し,過去のランドマークを正確に記憶する。
- 提案手法は,指示の進捗と履歴表現を明示的にアンカリングするデュアルアンカリングフレームワークを採用した。
- シミュレーションと実環境の両方において,提案手法が既存手法を大きく上回る性能を示した。
- Success Rateで15.2%の改善,長距離軌道では24.7%の顕著な改善が確認された。
目覚めし盲目:グラウンデッド視覚知覚のための教師なしエージェント軌道のコールドスタート最適化 [cs.AI, cs.CL, cs.LG]目的:小規模な視覚言語モデルにおけるエージェント能力のブートストラップ
- 視覚言語モデルは効率的なタスク制御が可能だが,視覚的な脆さやツール編成の弱点がある。
- 従来のモデルは,これらの問題を軽減するために高価な教師あり軌道チューニングを必要とする。
- 本研究は,教師なしフレームワークによって,視覚的観察に基づいた推論を強化し,より効率的なマルチモーダルエージェントを実現することを目指す。
- SPECTRAは,カスケードされたツール展開アライメントを通じて自己教師あり知覚を可能にし,コールドスタート強化学習を用いてエージェント能力を向上させる。
- タスクの正答率が最大5%向上し,ツール効率が9%向上し,環境との相互作用から効果的に学習するエージェントが実現された。
- ツール有効性を定量化する新規指標であるツールインストルメンタルユーティリティ(TIU)が導入された。
ディープフェイクの解明:周波数認識トリプルブランチネットワークによるディープフェイク検出 [cs.CV, cs.LG]目的:ディープフェイク検出のための手法
- ディープフェイク技術は急速に進歩しており,社会に大きな影響を与えている。
- 既存手法は特定の周波数領域に集中しやすく,多様な偽造パターンへの対応が課題である。
- 異なる特徴が同一領域に注目し,冗長な表現となる問題を解決する。
- 本研究では,空間特徴と周波数特徴を同時に捉えるトリプルブランチネットワークを提案した。
- 相互情報理論に基づいた特徴デカップリングと融合損失を導出し,タスク関連特徴への集中を促進する。
- 大規模ベンチマークデータセットで最先端の性能を達成し,その有効性を実証した。
ウェアラブル心拍微弱波信号解析のための信頼性のある深域適応と決定論的不確実性定量化 [cs.LG]目的:ウェアラブル心拍微弱波信号解析における深域適応の信頼性向上
- ウェアラブルデバイスの普及により,心拍微弱波信号の解析は健康管理において重要性が増している。
- 深層学習モデルのドメイン適応は,異なるデータセット間での性能劣化が課題となる場合がある。
- 生成されたデータの信頼性を評価し,予測性能への影響を最小限に抑えることが本研究の目的である。
- 決定論的不確実性定量化を用いることで,生成されたデータの信頼性を評価する新しいフレームワークを提案した。
- 心房細動分類のための心拍微弱波ノイズ除去をケーススタディとして,その有効性を検証した。
- 提案手法は,ダウンストリーム分類器を用いた生成データの品質評価という既存のヒューリスティック手法を形式化したものである。
数学のためのセマンティック検索エンジンMatlas [cs.IR, cs.LG]目的:数学的知識の検索
- 数学研究やAIシステムにおいて,既存結果の確認や関連研究の探索は不可欠である。
- 数学文献は膨大かつ構造化が難しく,単独での解釈が困難な場合が多い。
- 数学的な記述とその依存関係を構造化し,自然言語による検索を可能にすること。
- Matlasは,査読済みの論文や教科書から807万件以上の数学的記述を抽出した大規模なコーパスを構築した。
- 記述間の依存関係をグラフ化し,記述を再帰的に展開することで,より自立した表現を生成した。
- 自然言語によるクエリを用いて,効率的な数学的結果の検索システムを開発した。
ロバストな反実仮想説明のための確率的コンセンサス駆動型アプローチ [cs.NI, cs.LG, cs.AI]目的:反実仮想説明のロバスト性の向上
- ブラックボックスモデルの解釈可能性は重要であり,反実仮想説明はその有効な手段である。
- モデルのわずかな変更で反実仮想説明が不安定になるという課題が存在する。
- モデル変更に対するロバスト性を保ちつつ,妥当な反実仮想説明を生成することを目指す。
- 提案手法は,データ分布とモデルの決定空間を同時にモデル化することで,ロバスト性を実現する。
- モデルアンサンブル間の確率的コンセンサスを利用し,分類器の合意レベルを考慮した条件付き正規化フローを学習する。
- 単一の解釈可能なパラメータでロバスト性レベルを制御可能であり,再学習の必要がない。
生成AI技術,手法,そして課題:入門 [cs.CY, cs.AI, cs.HC]目的:生成AIシステムの構成要素と,それらがもたらす可能性と課題の理解
- AI技術は社会に急速に浸透しており,教育や研究への応用が期待されている。
- 生成AIは,その仕組みが不透明であり,期待される挙動とのずれが生じやすい。
- 生成AIを構成する要素を分解し,より理解しやすい概念的枠組みを提供する。
- 生成AIは,データ,モデル,機能,ユーザー入力など,相互作用する複数の要素から構成されている。
- その基盤は統計的であり,データに基づいて学習するため,表面的な人間らしさとは異なる。
- 教育研究者は,既存の研究手法を用いて,生成AIを効果的に研究,評価,活用できる。
停止可能なエージェントに向けて:RLエージェントとLLMにおける確率的選択の一般化 [cs.CL, cs.AI]目的:RLエージェントとLLMにおける,軌跡長の確率的選択の一般化
- AIの安全性確保は重要であり,特に意図しない行動や制御不能な状態を防ぐことが求められる。
- AIエージェントがシャットダウンに抵抗する可能性があり,その対策が急務となっている。
- 軌跡長に対する嗜好をなくすことで,より安全で制御可能なエージェントの開発を目指す。
- DReSTを用いることで,RLエージェントとLLMが軌跡長に対して中立的かつ有用になることを確認した。
- DReSTで学習したRLエージェントは,テストセットにおいてベースラインエージェントよりも有用性が11~18%向上した。
- ファインチューニングされたLLMは,最大の有用性とほぼ最大の的中性度を達成した。
SkillGraph:マルチモーダルグラフ構造による自己進化型マルチエージェント協調 [cs.AI, cs.MA]目的:ビジョン言語モデルを拡張した視覚的マルチエージェントシステムにおける課題解決
- マルチエージェントシステムは,複雑なタスクを効率的に解決できる可能性を秘めている。
- 既存システムでは,固定された通信構造やエージェントの能力がボトルネックとなっている。
- 視覚情報とクエリに応じて動的に変化する協調構造とエージェント能力の進化を実現する。
- SkillGraphは,マルチモーダルグラフTransformerを用いて,クエリに応じた協調グラフを予測する。
- Skill Designerは,失敗事例から推論ヒューリスティクスを抽出し,スキルバンクを自己進化させる。
- 実験により,SkillGraphが複数のベンチマーク,構造,ベースモデルで性能向上を達成していることが示された。
RS-HyRe-R1:リモートセンシング画像理解のための知覚的慣性を克服するハイブリッド報酬メカニズム [cs.CV, cs.AI]目的:リモートセンシング画像の理解における知覚的慣性を克服するためのハイブリッド報酬メカニズムの開発
- リモートセンシング技術は,地球観測や資源管理など,多岐にわたる分野で重要な役割を担っている。
- リモートセンシング画像の複雑さから,画像全体を網羅的に解析することが困難であり,局所的な特徴に偏った推論が行われやすい。
- 本研究は,報酬メカニズムを工夫することで,リモートセンシング画像に対するより包括的な視覚的証拠の探索を促し,知覚的慣性を軽減することを目指す。
- 提案手法RS-HyRe-R1は,空間的推論,知覚的正確性,視覚的・意味的経路進化の各報酬を組み合わせることで,「知覚的慣性」を効果的に抑制することを示した。
- 30億パラメータという比較的小規模なモデルでありながら,REC,OVD,VQAタスクにおいて,最大70億パラメータのモデルを凌駕する最先端の性能を達成した。
- また,VQA,OVD,RECタスクにおいて,ゼロショット汎化性能も高く,2番目に良いモデルをそれぞれ3.16%,3.97%,2.72%上回った。
全員が納得する抽選法の学習:問い合わせによるアプローチ [cs.GT, cs.AI, cs.LG, cs.MA]目的:全員一致で受け入れられる抽選法の存在証明およびその発見
- AIの重要性が増す中,利害関係者全員が納得できるシステム構築が不可欠である。
- 複数利害関係者の許容基準を満たす抽選法の発見は,組み合わせ最適化問題として難しい。
- 問い合わせを通じて効率的に抽選法を学習し,利害関係者全員の合意形成を目指す。
- 提案手法は,全員一致の抽選法が存在する場合,それを決定的に発見できる。
- 適応的な問い合わせ戦略により,利害関係者への質問回数を削減し,効率的な学習を実現する。
- 学習支援アルゴリズムは,事前情報を用いることで,問い合わせ回数をさらに削減できる。
原子的な決定境界:自律システムにおける実行時許容性の保証に必要な構造的要件 [cs.CC, cs.LO, cs.AI, cs.CR]目的:自律システムの実行時許容性の保証に必要な構造的要件の特定
- 自律システムの普及に伴い,状態遷移の制御が重要性を増している。安全性確保のためには不可欠である。
- 既存のガバナンス機構は,実行前評価や事後再構成に重点を置いており,遷移時の許容性を直接的に保証できていない。
- 原子的な決定境界という構造的性質を導入し,状態遷移と決定を不可分なステップとして扱うことで,実行時許容性を保証する。
- 状態遷移システム(LTS)において,評価と遷移が一体となった「原子システム」と,分離された「分割評価システム」の2種類を定義した。
- 分割評価システムを原子システムと同等にする建設は,どのような実行トレースにおいても不可能であることを証明した。これは構造的な限界である。
- RBACやOPAといった既存のアクセス制御モデルを分割モデルにマッピングし,原子システムとの対比を行った。
ONTO:LLM入力最適化のためのトークン効率の良いカラム形式表記 [cs.CL, cs.LG]目的:大規模言語モデルの入力におけるトークン効率の向上
- LLMの性能は入力トークン数に大きく依存するため,効率的なデータ形式が重要である。
- 従来のシリアライズ形式は冗長な構造的オーバーヘッドを含み,LLMの処理効率を低下させる。
- ONTOは,このオーバーヘッドを削減し,LLMの処理速度と精度を向上させることを目指す。
- ONTOは,JSONと比較して46-51%のトークン削減を達成した。
- Qwen2.5-7Bを用いた推論ベンチマークでは,対応する5-10%のレイテンシ改善が確認された。
- 検索,カウント,抽出,集計などのタスクにおいて,LLMの精度低下は見られなかった。
入室から不変量まで:委譲型エージェントシステムにおける逸脱の測定 [cs.RO, cs.AI, cs.CR]目的:委譲型エージェントシステムにおける逸脱の測定方法
- 自律エージェントシステムは,安全性確保が重要であり,そのための監視機構が不可欠である。
- 従来の監視機構では,エージェントの行動の変化を捉えきれない構造的な限界が存在する。
- エージェントの初期状態からの逸脱を検出し,より堅牢なシステムを実現することを目指す。
- 従来の施行に基づくガバナンスは,エージェントの行動が許容範囲内かどうかを構造的に判断できないことが示された。
- 不変測定層(IML)を定義することで,この限界を回避し,初期状態からの逸脱を有限の遅延で検出できることが証明された。
- 実験により,施行機構が逸脱を検出できない状況下でも,IMLが確実に逸脱を検出することが確認された。
OPSDL:長文脈言語モデルのためのオンポリシー自己知識蒸留 [cs.CL, cs.AI]目的:長文脈言語モデルの能力向上
- 大規模言語モデルの活用範囲拡大のため,長文脈処理能力の向上が不可欠である。
- 既存手法は高品質な教師データや疎な報酬に依存し,学習が不安定になりやすい。
- モデル自身の短文脈能力を活用し,安定かつ効率的な長文脈学習を実現する。
- OPSDLは,既存のファインチューニング手法(SFT,DPO)と比較して,高いサンプル効率で一貫した性能向上を示した。
- 長文脈ベンチマークにおいて,様々なモデル規模(7B〜32Bパラメータ)で顕著な改善が確認された。
- 短文脈における性能劣化なしに,長文脈学習の拡張性と安定性が実証された。
グラフ,単体,セルの学習における縮約と砂時計持続性 [cs.LG, math.AT, stat.ML]目的:グラフ学習における位相情報の表現力向上
- グラフ構造データは,様々な現実世界の現象を表現可能であり,その解析は重要である。
- 既存のグラフニューラルネットワークにおける位相情報の活用には,表現力の限界が存在する。
- 縮約と包含を組み合わせた砂時計持続性により,グラフデータの位相表現力を高める。
- 本研究では,グラフ表現学習のための基本的な位相的演算として縮約を分析した。
- 砂時計持続性は,包含と縮約を交互に行うことで,表現力,学習可能性,安定性を向上させる。
- 提案手法は,様々な実世界のグラフデータセットにおいて,既存の位相情報活用手法を凌駕する性能を示した。
SVL:目標条件付き強化学習を生存学習として [cs.DC, cs.LG, cs.AI]目的:目標条件付き強化学習における価値関数推定手法
- 強化学習は,ロボット制御やゲームなど多様な分野で活用が期待されており,その重要性は高い。
- 従来の目標条件付き強化学習は,不安定性やサンプル効率の悪さが課題であった。
- 時間経過による目標達成確率を確率分布としてモデル化し,安定性と効率性を向上させる。
- 提案手法SVLは,目標達成までの時間を確率分布として扱うことで,価値関数を推定する新しい枠組みを提供する。
- SVLは,割引生存確率の総和として目標条件付き価値関数を表現する閉形式の恒等式を導出する。
- オフラインのベンチマーク実験において,SVLは既存の強化学習手法と同等かそれ以上の性能を示し,特に複雑な長期的なタスクで優位性を示す。
CoSearch:強化学習による推論と文書ランキングの同時学習 - エージェント型検索のための [cs.AI, cs.CL, cs.IR]目的:推論エージェントと生成型文書ランキングモデルの同時学習
- 複雑な質問に答えるエージェント型検索は,近年目覚ましい進歩を遂げている。
- 既存手法では,検索システムを固定されたツールとして扱い,改善の余地がある。
- 検索システムのボトルネックを解消し,エージェント型検索の性能向上を目指す。
- CoSearchは,推論エージェントと文書ランキングモデルを同時に学習するフレームワークである。
- サブクエリをトークンレベルの類似性でクラスタリングすることで,効率的な同時学習を実現した。
- ランキング品質と軌跡レベルの結果を組み合わせた複合報酬を用いることで,長期的な学習を可能にした。
