arXiv雑要約
AI - 2025/10/14 公開
目標に基づいた視覚言語による自動運転 [cs.CL, cs.CL, cs.CV, cs.AI, cs.LG, cs.MM, cs.RO]目的:複雑な状況下における自動運転のための,視覚情報と言語指示を用いたナビゲーションシステム
- 自動運転技術は,交通事故削減や移動の効率化に貢献する重要な分野である。
- 従来のシステムでは,複雑な環境認識と迅速な判断が課題となっていた。
- 本研究は,視覚情報と言語指示を統合し,より安全で効率的な自動運転を実現することを目指す。
- NovaDriveは,HDマップ,LiDAR,画像,テキストウェイポイントを統合的に処理する。
- MD-NEX Outdoorベンチマークにおいて,成功率を84%に向上させ,衝突頻度を1.2%に低減した。
- ウェイポイント,部分VLMファインチューニング,クロスアテンション融合が性能向上に貢献している。
リアルタイム自動運転のためのビジョン・言語クロスアテンション [cs.CV, cs.AI, cs.LG, cs.RO]目的:自動運転における幾何学的精度と意味的理解の統合
- 複雑な環境下での自動運転には,正確な状況認識が不可欠であり,安全性向上に寄与する。
- 既存手法では,幾何学的情報と意味的理解が分離されており,効率的な統合が課題となっていた。
- ビジョン,言語,地図情報を早期に融合し,高精度で透明性の高い自動運転を実現すること。
- XYZ-Driveは,MD-NEX Outdoor-Drivingベンチマークにおいて95%の成功率と0.80のSPLを達成し,PhysNav-DGを上回った。
- 各モダリティ(画像,ウェイポイント,地図)のいずれかを削除すると,成功率が最大11%低下し,相補的な役割が確認された。
- ゴール中心型アテンションは,マップ知識を効果的に注入し,ファインチューニングも性能向上に重要であることが示された。
概念ドリフトの原因説明:真に実行可能なアプローチ [cs.LG]目的:概念ドリフトの原因解明
- 社会の変化に対応するため,システムへの影響理解が不可欠である。
- 機械学習モデルの故障や現実世界のエラーを招く概念ドリフトの説明が困難。
- 概念ドリフトに影響する原因を特定し,標的を絞った介入を可能にする。
- 本研究では,モデルベースのドリフト説明を原因説明に拡張し,説明の実行可能性を高めた。
- 複数のユースケースで評価を行い,フレームワークの実用性を示した。
- 概念ドリフトに影響する因果的に関連する特徴を特定し,標的介入を可能にする。
CoRGI:事後的視覚的根拠付けによる検証可能な思考連鎖推論 [cs.CC, cs.AI, cs.CV]目的:視覚と言語モデルにおける推論の信頼性向上
- 視覚と言語モデルは多様なタスクに応用可能だが,幻覚に悩まされることが多い。
- 既存モデルは画像の表層的な検査のみで説明を生成し,根拠が薄弱な場合がある。
- 思考連鎖の出力を事後検証し,視覚的根拠に基づいて信頼性を高めることを目指す。
- CoRGIは,思考連鎖を段階的な記述に分解し,各段階を視覚的証拠に根拠付けることで,幻覚を抑制する。
- 複数のVLMバックボーン(Qwen-2.5VL, LLaVA-1.6, Gemma3-12B)において,回答精度と説明の忠実性が一貫して向上した。
- 定性的な分析からも,検証プロセスが幻覚を軽減し,解釈可能性を高めることが示唆された。
エージェント性大規模言語モデルが検索ベースの放射線科質問応答を改善する [cs.CL, cs.AI, cs.LG]目的:放射線科質問応答における大規模言語モデルの診断精度,事実の一貫性,臨床的信頼性の向上
- 放射線科における臨床意思決定支援にAI活用が不可欠であり,特に大規模言語モデルの貢献が期待されている。
- 従来の検索拡張生成システムは単一ステップ検索に依存しており,複雑な臨床推論タスクへの対応が課題であった。
- 本研究は,多段階検索と推論フレームワークRaRを開発し,放射線科質問応答における大規模言語モデルの性能向上を目指す。
- RaRは,ゼロショットプロンプティングや従来のRAGと比較して,診断精度を大幅に向上させた。
- 特に小規模モデルにおいて改善が大きく,大規模モデル(2000億パラメータ以上)では改善は限定的であった。
- RaRによる検索は,幻覚の減少(平均9.4%)と臨床的に関連性の高い文脈の取得(46%)に貢献し,事実の根拠強化に役立った。
多Modal感情推論における感情の衝突のベンチマークと解決 [cs.AI, cs.CV, cs.MM, cs.SD, eess.AS]目的:多Modal感情推論における感情の衝突に対するベンチマークと,それを解決するためのフレームワーク
- 感情認識は,人間と機械のより自然なインタラクションを可能にする上で重要である。
- 既存の多Modal大規模言語モデルは,異なるModalからの感情的な手がかりが矛盾する状況を十分に扱えていない。
- 感情の衝突状況下で,モデルが各Modalからの情報をバランス良く統合できるよう改善すること。
- 本研究では,感情の衝突に焦点を当てた新しいベンチマークCA-MERを提案し,既存モデルの課題を明らかにした。
- 提案手法MoSEARは,パラメータ効率的なフレームワークであり,感情の衝突を緩和し,一貫したサンプルにおける性能を向上させる。
- 複数のベンチマーク実験の結果,MoSEARは特に感情の衝突条件下で最先端の性能を達成した。
適応近傍と補助正則化による不均衡に強く,サンプリング効率の良い連続条件付きGAN [cs.LG, cs.CV]目的:連続条件付きGANの性能向上
- 高次元データの分布推定において,連続値回帰ラベルに基づく条件付き生成モデルが重要である。
- 既存のCcGANはデータの不均衡に弱く,CCDMは計算コストが高いという課題がある。
- 適応的な近傍の調整と補助的な正則化により,これらの課題を解決する。
- 提案手法CcGAN-AVARは,データの不均衡を軽減し,生成器の学習を促進する。
- CcGAN-AVARはCCDMと比較して,推論速度が大幅に向上する。
- 複数のベンチマークデータセットにおいて,最先端の生成品質とサンプリング効率を達成した。
NaviMaster:GUIおよび身体化ナビゲーションタスクのための統一的なポリシー学習 [cs.RO, cs.LG]目的:GUIナビゲーションと身体化ナビゲーションの統一的学習
- GUIと身体化ナビゲーションは,ロボットの自律性の向上に不可欠な技術である。
- 両分野は独立して発展しており,データセットや学習方法が異なっている。
- GUIと身体化ナビゲーションを統一的に扱うことで,汎化性能の向上を目指す。
- NaviMasterは,GUIナビゲーションと身体化ナビゲーションを単一のフレームワークで統一する初の試みである。
- 提案手法は,GUIおよび身体化ナビゲーションの両タスクに対応できる視覚目標軌跡収集パイプラインを構築した。
- 実験の結果,NaviMasterはGUIナビゲーション,空間的アフォーダンス予測,身体化ナビゲーションにおいて最先端手法を上回る性能を示した。
HealthFlow:メタ計画による自律的医療研究のための自己進化型AIエージェント [cs.AI, cs.CL, cs.LG, cs.MA]目的:医療研究における知識発見の自動化
- 科学知識の爆発的増加に対応し,それを活用した発見を促進することが重要である。
- 既存のAIエージェントは戦略が固定されており,変化する研究環境に対応できない。
- 科学的知見を戦略に組み込み,AIによる自律的な医療研究を可能にすること。
- HealthFlowは,成功と失敗の経験から戦略を洗練する自己進化機構を導入している。
- EHRFlowBenchという,査読済みの文献に基づいた複雑な医療データ分析タスクを含む新しいベンチマークを公開した。
- 実験の結果,HealthFlowは既存のAIフレームワークを大きく上回る性能を示した。
強化学習による長文脈・複数ターンソフトウェアエンジニアリングエージェントの学習 [cs.CL, cs.HC, cs.CL, cs.LG, cs.CL, cs.SE]目的:ソフトウェアエンジニアリングにおける強化学習エージェントの性能向上
- ソフトウェア開発の自動化は,生産性向上やコスト削減に不可欠である。
- 従来の強化学習は,単一ターン問題に偏っており,複雑な複数ターン対話に対応できない。
- 複数ターンの対話が必要なソフトウェアエンジニアリングにおけるエージェントの学習方法を確立する。
- Qwen2.5-72B-Instructモデルに提案手法を適用した結果,SWE-bench VerifiedベンチマークのPass@1が11%から39%に向上した。
- SWE-rebenchのMay/Juneスプリットにおいて,Pass@1がそれぞれ35%/31%を達成し,DeepSeek-V3-0324やQwen3-235B-A22Bなどの大規模モデルと遜色ない性能を示した。
- 本手法は,オープンウェイトモデルを用いて,複数ターン対話型タスクに適したエージェントを効率的に学習するための実用的なアプローチを提供する。
オープンソースモデル間の仲介者誘導による医療意思決定のためのマルチエージェント協調 [cs.AR, cs.AI]目的:医療マルチモーダル意思決定におけるマルチエージェント協調の実現
- 医療現場では,複数の医療従事者による協調的な意思決定が重要であり,AIによる支援が期待される。
- 既存の研究は言語タスクに偏っており,マルチモーダルな状況下での協調は依然として課題である。
- 多様なビジョン言語モデルの連携における誤りを抑制し,協調的な意思決定を可能にすること。
- 提案手法MedOrchは,LLMベースの仲介エージェントを用いて複数のVLMベースのエージェント間の協調を実現した。
- 複数のオープンソースVLMを活用することで,高性能なGPTシリーズモデルに匹敵する性能を,コストを抑えつつ実現した。
- 異なるVLMベースのエージェント間の協調は,個々のエージェントの能力を上回る結果を示し,仲介者誘導の有効性を実証した。
焼きなましランジェバンモンテカルロによる効率的な近似事後分布サンプリング [cs.LG, cs.AI, stat.ML]目的:スコアベース生成モデルにおける事後分布サンプリングの効率化
- 生成モデルは,現実的なデータ分布を学習し,新たなサンプルを生成する上で重要な役割を担う。
- 事後分布の直接的なサンプリングは,一般的に計算困難であり,効率的なサンプリング手法が求められている。
- KL divergenceとFisher divergenceの両方を考慮した新しいサンプリング手法を提案し,実用的な性能を検証する。
- 本研究では,事後分布とノイズ付加事前分布の両方に近い分布を効率的にサンプリングできることを示した。
- 提案手法は,最小限の仮定の下で,多項式時間で近似事後分布サンプリングを実現する。
- 画像超解像,スタイル変換,再構成などのタスクへの応用が期待される。
物理情報を取り入れた正規化フローによる衛星姿勢力学の学習 [cs.LG, cs.SY, eess.SY]目的:衛星姿勢力学の学習
- 宇宙機運用において姿勢制御は不可欠であり,その精度がミッション成功に直結する。
- 既存の物理モデルは不完全,導出困難,または計算負荷が高く,汎用的な姿勢制御に課題がある。
- データ駆動型モデルの汎化性能と安定性を向上させ,ロバストな姿勢制御を実現すること。
- 物理情報を取り入れたニューラルネットワークは,純粋なデータ駆動型アプローチと比較して平均相対誤差を27.08%低減した。
- MPCフレームワークへの統合において,物理情報を取り入れたモデルは制御精度とロバスト性で優れた性能を示した。
- 特にノイズに対するロバスト性において,性能安定誤差が最大42.86%改善された。
マルチ・スモールエージェント強化学習による道具使用時の認知負荷の軽減 [cs.RO, cs.AI]目的:道具使用時の認知負荷軽減
- 複雑なタスクを効率的に処理するためには,役割分担による協調が重要である。
- 従来のシステムでは,単一エージェントが推論と道具操作を同時に行うため,負荷が増大し不安定になりやすい。
- 推論と道具使用を分離することで,安定性と精度を向上させることを目指す。
- マルチ・スモールエージェント強化学習(MSARL)フレームワークは,推論エージェントと複数の道具エージェントに役割を分離する。
- MSARLは,数学の問題解決において,単一エージェントのベースラインよりも推論の安定性と正答率を大幅に向上させた。
- 本アーキテクチャは,様々な道具使用タスクに適用可能であり,スモールエージェントによる認知役割の分離がスケーラブルなAI設計の青写真となる。
MRFD:自己整合性を用いた多領域融合デコーディングによるLVLMにおける幻覚の軽減 [cs.CV, cs.AI]目的:LVLMにおける幻覚軽減のための手法
- 近年,画像と言語を扱うLVLMの性能は向上しているが,視覚情報との矛盾した内容を生成する幻覚が課題となっている。
- LVLMは画像内の異なる領域の情報を検証する能力が限られており,事実と異なる内容を生成しやすいという問題点がある。
- 画像内の重要な領域間の整合性を考慮することで,より正確な応答生成を目指す。
- 提案手法MRFDは,クロスアテンションを用いて重要な領域を特定し,各領域に対して初期応答を生成する。
- 応答間のJensen-Shannon Divergence (JSD)に基づき信頼度を算出し,Chain-of-Thoughtに着想を得た領域に応じたプロンプトを用いて応答を融合する。
- 複数のLVLMとベンチマークを用いた実験により,MRFDが幻覚を大幅に軽減し,応答の事実性を向上させることが示された。
連合学習におけるバックドア攻撃の軽減に向けた,視覚言語事前学習モデルによるアプローチ [cs.LG, cs.AI]目的:連合学習におけるバックドア攻撃に対する防御策の開発
- 連合学習は,プライバシー保護と分散環境での機械学習を可能にする重要な技術である。
- 既存の防御策は,クライアントデータの分布が均一であるか,クリーンなサーバーデータセットが必要となる場合が多い。
- クライアントデータが非IID(独立かつ同一分布ではない)の場合でも有効な,プライバシーを保護する防御策を提供する。
- 提案手法CLIP-Fedは,視覚言語事前学習モデルのゼロショット学習能力を活用し,pre-aggregationとpost-aggregationの防御戦略を統合することで,Non-IID環境下での有効性を高めている。
- CLIP-Fedは,プロトタイプコントラスト損失とカルバック・ライブラーの発散を用いて,グローバルモデルとCLIPの知識を調整し,バックドアサンプルによるクラスプロトタイプの逸脱を防ぎ,トリガーパターンとターゲットラベルの相関を排除する。
- 実験結果から,CLIP-FedはCIFAR-10で攻撃成功率を平均2.03%,CIFAR-10-LTで1.35%削減し,メインタスクの精度もそれぞれ7.92%と0.48%向上することが示された。
マルチモーダルLLMにおける空間知能の包括的評価 [cs.CV, cs.CL, cs.LG, cs.MM, cs.RO]目的:マルチモーダルLLMの空間知能に関する包括的評価
- AIの汎用性実現には,現実世界との相互作用が不可欠であり,空間理解はその根幹をなす。
- 既存のマルチモーダルモデルは空間理解・推論能力に限界があり,その進歩が阻害されている。
- 最新モデルの空間知能レベルを評価し,今後の発展の方向性を示すことを目指す。
- GPT-5は空間知能において未曾有の強みを示す一方で,広範なタスクで人間のパフォーマンスを下回る。
- 空間知能タスクは,非空間知能タスクよりもモデルの苦手な点が顕著になる。
- 高度な空間知能タスクにおいて,プロプライエタリモデルは決定的な優位性を示さない。
4脚ロボットのアーム制御のための視覚に基づく共有制御遠隔操作スキーム [cs.CL, cs.RO, cs.CV, cs.LG, cs.SY, eess.SY]目的:危険かつ遠隔地でのロボットアーム遠隔操作の安全性と効率向上
- 災害現場や宇宙探査など,人が立ち入れない環境でのロボット活用が重要視されている。
- 四脚ロボットの遠隔操作は,障害物検出やアーム制御の難しさから,衝突リスクが高いという課題がある。
- 人間の直感的な動作を反映し,安全で容易なロボットアーム遠隔操作を実現することを目指す。
- 人間の腕の動きを視覚的に推定し,ロボットアームの制御に直接マッピングすることで,直感的な遠隔操作を実現した。
- 機械学習に基づいた姿勢推定パイプラインと,衝突回避機能を持つ軌道計画器を組み合わせることで,安全性を確保した。
- 実機検証により,リアルタイムでの安定した制御性能と,コスト効率の良いソリューションであることを示した。
MCPVerse:エージェント的ツール利用のための大規模な実世界ベンチマーク [cs.CL, cs.CL, cs.CL, cs.AI]目的:エージェント的ツール利用の評価
- LLMが推論エージェントへと進化する中で,外部ツール利用能力が重要になっている。
- 既存のベンチマークは,合成ツールへの依存や行動空間の制限が課題となっていた。
- 実世界のツールを利用可能な大規模ベンチマークによって,より現実的な評価を目指す。
- MCPVerseは,14万トークンを超える行動空間と,リアルタイムの正解データを用いた評価を提供する。
- 最先端LLMの性能を評価した結果,大規模なツールセットでは性能が低下する傾向が見られた。
- Claude-4-Sonnetなどのエージェントモデルは,探索空間の拡大によって精度を向上させることが示された。
閉鎖空間における自律UAV飛行ナビゲーション:強化学習アプローチ [cs.RO, cs.AI, cs.LG, cs.SY, eess.SY]目的:閉鎖空間における自律UAV飛行ナビゲーションのためのロバストなナビゲーションポリシーの開発
- 産業インフラの点検において,UAVの自律飛行は効率化と安全性向上に不可欠である。
- 強化学習の適用において,サンプル効率と学習安定性のトレードオフが課題となっている。
- 高精度かつ安全性が求められる環境下での,より信頼性の高いナビゲーション手法を確立すること。
- PPOは,安定かつ衝突回避可能なポリシーを学習し,コース全体を完遂した。
- SACは完全な解を見つけられず,初期セグメントのみを航行し,最終的には失敗に終わった。
- 本研究は,高精度・安全性が重要なタスクにおいては,オフポリシー手法のサンプル効率よりも,確立されたオンポリシー手法の信頼性の高い収束が重要であることを示唆する。
脚部ロボットにおける把持の最適化:ロコ・マニピュレーションのための深層学習アプローチ [cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY]目的:四脚ロボットの把持能力向上
- ロボットの自律的な動作において,把持は重要な要素である。特に,移動と把持を同時に行うロコ・マニピュレーションは,実用的な応用範囲が広い。
- 実世界のロボットにおける把持の学習には,大量の物理的なデータ収集が必要であり,時間とコストがかかるという課題がある。
- シミュレーションによる学習で得られた知識を実機に転移し,効率的な把持動作を実現することで,データ収集のコストを削減することを目指す。
- シミュレーション環境で生成した合成データを用いてCNNモデルを訓練し,RGB-Dカメラからの情報を基に把持品質を予測する。
- 訓練されたモデルは,四脚ロボット上でのロコ・マニピュレーションタスクにおいて,目標物への自律的な移動,知覚,把持位置の予測,そして正確な把持を成功裏に実行した。
- シミュレーション訓練と高度なセンシングの組み合わせは,物体操作のためのスケーラブルかつ効果的な解決策となりうることを示した。
ロボットアプリケーションにおけるマノメトリ認識のための合成データセット [cs.CV, cs.AI, cs.LG, cs.RO]目的:ロボットアプリケーションにおけるマノメトリ認識のための合成データセット
- 産業環境の自動化には,高精度な物体検出が不可欠であり,安全性の向上に貢献する。
- 危険な環境下でのデータ収集は困難であり,十分な学習データの確保が課題である。
- 合成データを用いた学習により,安全かつ低コストで信頼性の高い認識システムを開発する。
- 合成データと実データを組み合わせたデータセットで学習させたYOLOベースの検出器が,実データのみで学習させたモデルを上回った。
- 実データと合成データの比率が1:1の時,最も高い精度が得られた。
- 合成データ生成は,安全性と資源制約のある産業用途における認識システムの開発において,有効な戦略である。
集中治療室在院期間予測のためのグラフと状態空間モデリングの架け橋 [cs.LG]目的:集中治療室在院期間の予測
- 病院資源管理において,患者の集中治療室在院期間の予測は不可欠である。
- 電子カルテの異質性と不規則なサンプリングが,予測を困難にしている。
- 多角的なグラフニューラルネットワークと状態空間モデルを統合し,予測精度を向上させる。
- 提案手法S$^2$G-Netは,MIMIC-IVデータセットにおいて,既存のシーケンスモデル,グラフモデル,ハイブリッド手法を上回る性能を示した。
- 状態空間モデルとグラフニューラルネットワークが,互いに補完し合うことで,高い予測性能が実現された。
- 適切なグラフ構造の構築が,予測性能に重要な影響を与えることが示された。
FSA:ネイティブ疎アテンションカーネルの効率的な代替実装 [cs.RO, cs.CL, cs.DC, cs.LG]目的:大規模言語モデルにおける効率的な疎アテンション計算
- 長文脈処理において計算コスト削減は重要であり,高性能な言語モデル構築に不可欠である。
- 既存の疎アテンション実装は,クエリヘッド数が大きい場合にしか効率が発揮されない場合がある。
- クエリヘッド数が少ない一般的なLLMでも効率的に動作する疎アテンション実装を開発する。
- 提案手法FSAは,既存のNSAカーネル実装と比較して,最大3.5倍のカーネルレベルの遅延削減を実現した。
- FSAは,最先端LLMにおけるエンドツーエンドの学習速度を最大1.25倍向上させた。
- さらに,FSAはLLMの生成推論におけるprefillフェーズの速度を最大1.36倍向上させた。
バランスの取れた難易度を用いた個別最適化指導:プロンプトカリキュラムによるマルチモーダルChain-of-Thought推論の高度化 [cs.CL, cs.AI, cs.MM]目的:マルチモーダルChain-of-Thought(MCoT)推論における推論能力の向上
- マルチモーダルな情報処理は,AIの理解力向上に不可欠であり,様々な応用分野への展開が期待されている。
- 既存のMCoTプロンプトは,ランダムまたは手動で選択されるため,モデルの知識分布やタスクの複雑さを考慮できていない。
- モデルの能力と課題の難易度を適切に調整することで,安定した高性能な推論を実現することを目指す。
- 本研究では,教育原理である「個別最適化指導とバランスの取れた難易度」に着想を得た新しいフレームワークを提案した。
- 提案手法は,モデルが困難と感じる点(モデル認知難易度)と,質問と画像のペア固有の難易度(本質的サンプル複雑度)を統合的に分析する。
- 5つのベンチマークと複数の大規模マルチモーダル言語モデル(MLLM)での実験により,提案手法が性能を大幅かつ安定的に向上させることが示された。
TTF-VLA:ピクセル注意統合による時間的トークン融合 - 視覚・言語・行動モデルにおける活用 [cs.CL, cs.CV, cs.AI, cs.LG, cs.RO]目的:視覚・言語・行動モデルにおける推論品質の向上
- ロボット操作において,視覚情報と行動の関係性を理解することが重要である。
- 既存モデルは各フレームを独立に処理するため,時間的な情報を十分に活用できていない。
- 時間的情報を効果的に統合し,ロバスト性と性能を向上させることを目指す。
- 提案手法TTFは,過去と現在の視覚表現を統合することで,VLAモデルの性能を改善する。
- LIBERO,SimplerEnv,実ロボットタスクにおいて,一貫した性能向上が確認された (平均4.0%向上)。
- 注意機構におけるクエリ行列の再利用が,性能向上に寄与することを示唆しており,計算加速への応用が期待される。
ニューラルネットワークの全射性:モデルから任意の振る舞いを引き出せるか? [cs.LG, stat.ML]目的:ニューラルネットワークの全射性の検証
- AIの安全性確保は重要であり,潜在的なリスクを理解する必要がある。
- 生成モデルは有害なコンテンツを生成する可能性があり,安全性の評価が課題である。
- 現代のニューラルネットワークアーキテクチャの潜在的な脆弱性を明らかにする。
- プリレイヤー正規化や線形アテンションモジュールを含む多くのニューラルネットワークは,ほぼ常に全射性を持つことが証明された。
- GPTスタイルのTransformerや決定論的ODEソルバーを用いた拡散モデルも,任意の出力に対して逆写像を持つことが示された。
- これらの結果は,現代のニューラルネットワークが広範な敵対的攻撃に対して脆弱である可能性を示唆している。
話すのを控え,的確に呼ぶ:自動プロンプト最適化と役割プロンプトによるロールプレイLLMエージェントの強化 [cs.CL, cs.AI, cs.HC]目的:ツールを活用した大規模言語モデルを,ロールプレイ対話エージェントとして動作させるためのプロンプト手法の検討
- 対話システムにおいて,人格に基づいた自然な対話を実現することは,より人間らしいインタラクションの実現に不可欠である。
- ロールプレイ対話エージェントは,冗長な応答や,人格に合わないツール利用といった課題を抱えている。
- この研究は,そのような課題を解決し,ロールプレイ対話エージェントの有効性と信頼性を向上させることを目指す。
- ルールベースの役割プロンプト(RRP)が,キャラクターカード/シーン契約の設計と関数呼び出しの厳格な実行により,最も高い性能を示した。
- RRPは全体スコア0.571を達成し,ゼロショットベースラインスコア0.519を上回った。
- この結果は,より複雑な自動プロンプト最適化(APO)などの手法と比較して,RRP設計がロールプレイ対話エージェントの有効性を大幅に向上させ得ることを示す。
時系列グラフ上の説明可能なリンク予測のための強化学習による自己探索言語モデル [cs.AI, cs.CL, cs.LG]目的:時系列グラフ上の説明可能なリンク予測
- グラフ構造データは,ソーシャルネットワークや生物学など,様々な分野で重要な役割を果たす。
- 従来のニューラルモデルは予測性能は高いが,予測根拠の説明が難しく,新規グラフへの適用に再学習が必要となる。
- 大規模言語モデルを活用し,自己探索を通じて予測根拠を提示可能なリンク予測モデルを構築する。
- 提案手法ReaL-TGは,Qwen3-4Bを強化学習でファインチューニングし,実世界の時系列グラフ上で説明可能なリンク予測を実現した。
- ReaL-TG-4Bは,より大規模なLLMであるGPT-5 miniよりもランキング指標で優位性を示し,高品質な説明を生成した。
- 生成された説明の質は,LLM judgeと人間による評価の両方で確認された。
REFRAG:RAGに基づくデコーディングの再考 [cs.CL, cs.AI, cs.LG]目的:RAGにおける効率的なデコーディングフレームワークの開発
- 大規模言語モデルは外部知識を活用し応答を向上させるが,長文脈処理に課題がある。
- RAGでは,検索された文脈の多くがクエリに直接関係なく,計算資源の無駄遣いが生じる。
- RAGにおける不要な計算を削減し,低遅延かつ高効率なデコーディングを実現すること。
- REFRAGは,文脈の圧縮,センシング,拡張によりRAGアプリケーションの遅延を改善する。
- 実験の結果,REFRAGは既存手法と比較して,最初のトークンまでの時間を3.75倍に短縮した。
- また,REFRAGは大規模言語モデルの文脈サイズを16%拡張し,精度を損なうことなく高速化を実現した。
DrDiff:階層的注意を用いた動的ルーティング拡散による効率と品質のトレードオフ打破 [cs.SI, physics.data-an, cs.CE, cs.CL, cs.AI]目的:長文生成における効率性と品質のトレードオフの打破
- 長文生成は,自然言語処理の重要な課題であり,多様な応用分野で求められている。
- 既存手法では,効率性と生成品質の間にトレードオフが存在し,両立が困難であった。
- 本研究は,複雑なテキストに対応可能な効率的な生成手法を開発し,このトレードオフを解消することを目指す。
- DrDiffは,テキストの複雑さに応じて計算資源を動的に配分する仕組みを採用し,効率的な生成を実現した。
- 階層的疎な注意機構(HSA)により,計算量を削減しつつ,モデル性能を維持することに成功した。
- ソフト吸収ガイダンス最適化戦略とDPM-solver++の組み合わせにより,拡散ステップ数を減らし,生成速度を大幅に向上させた。
グラフラプラシアン固有ベクトルに基づくグラフニューラルネットワークの事前学習法 [cs.LG]目的:グラフニューラルネットワークの事前学習
- グラフ構造を基盤とする応用において,頑健なモデル構築が重要である。
- グラフ構造に依存する下流タスクにおいて,構造に基づく事前学習は不十分である。
- ネットワークの深さが増加するにつれて発生するオーバー スムージングの問題を解決する。
- 提案手法であるLaplacian Eigenvector Learning Module (LELM) は,グラフラプラシアンの低周波固有ベクトルを予測することで事前学習を行う。
- LELMは,オーバー スムージングを克服する新たなアーキテクチャを導入し,長距離依存関係の学習を可能にする。
- 分子特性予測タスクにおいて,提案手法で事前学習されたモデルがベースラインモデルを上回る性能を示す。
VendiRL:多様なスキルの自己教師あり強化学習のためのフレームワーク [cs.LG, cs.AI, cs.RO]目的:多様なスキルの学習
- 未知のタスクへの適応能力向上に,多様なスキルの獲得が重要である。
- 高次元の特徴空間において,有益なスキルの探索が困難である。
- 多様性の定義の曖昧さを解消し,客観的なスキル評価を可能にすること。
- 本研究では,生態学の概念であるVendi Scoreを導入し,多様性の定量化を試みた。
- VendiRLという統一的なフレームワークを提案し,様々な多様性の形式に対応できることを示した。
- これにより,新たな環境におけるスキル多様性事前学習の可能性が広がる。
SPFT-SQL:自己対戦ファインチューニングによるテキストToSQL解析の大型言語モデルの性能向上 [cs.CL, cs.AI]目的:テキストToSQL解析における大型言語モデルの性能向上
- 自然言語処理の発展により,データベース操作を言語で記述するText-to-SQLの需要が高まっている。
- 既存の自己対戦学習法では,対戦相手が高精度なSQLを生成しすぎ,学習効果が低下する問題がある。
- 高品質なファインチューニングデータと,誤りから学習する損失関数により,SQL生成能力の向上を目指す。
- SPFT-SQLは,検証に基づいた反復ファインチューニングで高品質な学習データを構築し,モデルの多様性を確保する。
- エラー駆動型損失関数により,対戦相手の誤った出力を識別し,SQL生成の精度向上を促す。
- 6つのオープンソースLLMと5つのベンチマークで,既存の最先端手法を上回る性能が確認された。
EvoEmo:多段階価格交渉における敵対的LLMエージェントのための感情ポリシーの進化へ [cs.AI]目的:多段階価格交渉における,敵対的LLMエージェントに対する感情表現の最適化
- LLMエージェントによる複雑な交渉の可能性が示され,戦略的AIの新たな道が開かれている。
- 既存のLLMエージェントは感情の機能的役割を見過ごし,操作や悪用を受けやすい。
- 感情表現を動的に最適化することで,より効果的な交渉エージェントを開発すること。
- EvoEmoは,感情状態遷移をマルコフ決定過程としてモデル化し,遺伝的最適化によって高報酬な感情ポリシーを進化させる。
- EvoEmoは,単純な戦略や固定感情戦略と比較して,成功率,効率,購入者の節約において一貫して優れた性能を示した。
- 適応的な感情表現が,多段階交渉におけるLLMエージェントの有効性を高める上で重要であることが示された。
多エージェント議論における失敗モードの理解 [cs.CL, cs.AI, cs.MA]目的:多エージェント議論における失敗モードの特定
- AIの推論能力向上策として多エージェント議論が注目されているため。
- 同質エージェント間の議論が中心であり,能力の多様性が考慮されていない。
- 能力差のあるエージェント間の議論における性能低下を防ぐ。
- 議論により,正確性が時間経過とともに低下することが示された。
- 能力の高いモデルが多数派でも,誤った推論に同調する傾向が確認された。
- 迎合,社会的同調,モデルやタスクの種類が要因として示唆された。
長距離グラフウェーブレットネットワーク [cs.DC, cs.LG, cs.AI]目的:グラフにおける長距離相互作用のモデリング
- グラフ機械学習において,遠隔地間の情報伝播は重要な課題である。
- 既存のウェーブレットベースのグラフニューラルネットワークは,受容野が限定される。
- 長距離伝播を可能にする,新たなウェーブレットネットワークの設計。
- LR-GWNは,ウェーブレットフィルタを局所・大域成分に分解する。
- 局所集約は効率的な低次多項式で処理し,長距離相互作用はスペクトル領域パラメータ化で捉える。
- 長距離ベンチマークにおいて,ウェーブレットベースの手法中最先端の性能を達成した。
VL Norm:強化学習による検証可能な報酬(RLVR)における損失集約の再考 [cs.LG, cs.AI]目的:強化学習による検証可能な報酬(RLVR)における損失集約手法
- 大規模言語モデルの推論能力向上にRLVRが有効であるため,その最適化手法の確立が重要である。
- RLVRの学習における応答長の変動が大きく,勾配分散が大きくなり,最適化が不安定になるという課題がある。
- 応答長の変動による勾配分散を最小化し,真のポリシー損失のバイアスなし推定を実現することを目指す。
- 提案手法VL Normは,理論的にも実験的にも,勾配分散の最小化と真のポリシー損失の推定において優れている。
- VL Normは,わずか10行未満のコード変更で実装が容易である。
- 最先端のRLアルゴリズムDAPOにVL Normを組み込むことで,CountDownタスクにおいて最大2.67倍の収束速度の向上が確認された。
多種類の保護属性を持つ機械学習:正則化による交差的公平性の実現 [cs.RO, cs.CL, cs.LG, q-fin.RM, stat.AP, stat.ML]目的:機械学習における多種類の保護属性を考慮した公平性の確保
- 機械学習の公平性は,倫理的・社会的に重要な課題であり,差別を回避するための不可欠な要素である。
- 既存手法は二値分類に偏りがちで,回帰タスクや連続属性に対する対応が不十分である。
- 交差的サブグループ間の格差(フェアネス・ジェリーマンダリング)に対処し,多様な属性型に対応する公平性フレームワークを提案する。
- 提案手法は,距離共分散正則化フレームワークを用いて,モデルの予測と保護属性の関連性を抑制する。
- 公平性評価のために,ジョイント距離共分散(JdCov)と新たに提案する連結距離共分散(CCdCov)を導入し,回帰・分類タスクの両方で効果を発揮する。
- Jensen-Shannonダイバージェンスに基づき,正則化の強度を調整する手法を提示し,実データへの適用を通して有効性を示す。
「6か9か?」:高性能モデルと説明の多様性を活かしたアンサンブル学習 [cs.LG]目的:汎化性能向上のための多様な高性能モデルの戦略的選択
- 機械学習は,過去のデータからモデルを構築し,未知のデータへの有効性を保証する重要な技術である。
- 汎化性能の高いモデル選択は依然として困難であり,特に多様なパターンが存在する実データにおいて課題となる。
- ラショモン効果で生じる複数の高性能解から,ロバストなアンサンブルを構築し,分布シフトへの対応を目指す。
- 提案手法であるRashomon Ensembleは,性能と説明に基づいてモデルをグルーピングすることで,多様性を最大化しつつ予測精度を維持する。
- 実験結果から,ラショモン比率が高い場合に,最長で0.20以上のAUROC改善が確認された。
- 実世界のデータセットを用いた検証により,本手法の堅牢性,実用性,有効性が示された。
シーケンスを公平にクリップする:シーケンスレベルRLにおける長さの公平性確保 [cs.LG, cs.AI, cs.CL]目的:大規模言語モデルにおけるシーケンスレベルの強化学習手法
- 自然言語処理において,大規模言語モデルの性能向上は重要な課題である。
- シーケンスレベル強化学習では,重要度サンプリングの重み付けに偏りが生じやすい。
- シーケンス長の差による重み付けの歪みを修正し,最適化方向を改善すること。
- FSPOは,重要度サンプリングの重みに対する長さの公平性を確保するクリッピング手法を提案する。
- FSPOは,シーケンス長の平方根に比例してクリップ範囲を調整することで,長さごとのクリップ率を均一化する。
- 実験結果から,FSPOは様々なモデルサイズと評価データセットでベースラインを上回り,特にQwen3-8B-Baseモデルで大きな改善が見られた。
グループ化されたサンプルにおける共起ネットワーク推論の精度をFused Lassoが向上させる [cs.LG, q-bio.PE]目的:マイクロバイオーム共起ネットワーク推論における精度向上
- 微生物群集の理解に貢献する共起ネットワーク推論は,生態学的および医学的応用において重要である。
- 既存手法では,異なる環境からのサンプルを混合することで,環境適応を考慮した分析が困難であった。
- 環境依存性を考慮したマイクロバイオームネットワーク推論アルゴリズムを開発し,汎用性と予測精度を高める。
- 提案手法fuserは,均一な環境下では既存アルゴリズムglmnetと同等の予測性能を示す。
- 環境を跨いだデータ(All)においては,fuserは既存アルゴリズムよりも有意に低いテストエラーを実現した。
- fuserは,環境ごとの特性を考慮した予測ネットワークを生成することで,より正確な微生物間相互作用を推定する。
セキュリティを意識したグループ相対ポリシー最適化による,安全で説明可能なスマートコントラクト生成に向けて [cs.CR, cs.AI, cs.SE]目的:安全で説明可能なスマートコントラクト生成のためのフレームワーク開発
- スマートコントラクトは高額な資産管理を自動化するが,脆弱性は甚大な経済的損失に繋がる可能性がある。
- 大規模言語モデル(LLM)は不透明な推論プロセスとセキュリティ脆弱性の蔓延が課題である。
- 人間のセキュリティ分析を模倣し,セキュリティコンパイル成功率,セキュリティ適合性,フォーマット正しさを最適化する。
- SmartCoder-R1は756の現実世界の関数を用いたベンチマークにおいて,5つの主要指標で最先端の性能を達成した。
- 特に,FullRateは最も強いベースラインであるDeepSeek-R1と比較して45.79%の相対的な改善を示した。
- 生成された推論も,機能性(82.7%),セキュリティ(85.3%),明確性(90.7%)において高い評価を得た。
CrunchLLM:構造化されたビジネス推論と成果予測のためのマルチタスクLLM [cs.LG, cs.CV]目的:スタートアップ企業の成功予測
- 起業家精神とイノベーション研究において,企業の成功を予測することは極めて重要である。
- 異種データ(構造化データと非構造化データ)を効果的に活用することが困難である。
- ドメイン特化型データに対するLLMの適応能力向上を目指す。
- CrunchLLMは,Crunchbaseのスタートアップ企業成功予測において80%を超える精度を達成した。
- 従来の分類器やベースラインLLMと比較して,有意に高い性能を示した。
- 予測の根拠となる解釈可能な推論プロセスを提供し,透明性と信頼性を高めた。
クエリ特化型マルチエージェントワークフローの難易度適応オーケストレーション [cs.RO, cs.CL, cs.AI]目的:クエリ特化型マルチエージェントワークフローの難易度適応オーケストレーション
- 大規模言語モデルの活用が進む中で,複雑なタスク解決のためにはマルチエージェントシステムの重要性が高まっている。
- 既存のシステムは,クエリの複雑さに応じた柔軟なワークフロー構築が難しく,効率と性能のバランスが課題となっていた。
- クエリの難易度を予測し,動的にワークフローを生成することで,効率性と性能を両立させることを目指す。
- 提案手法DAAOは,クエリの難易度推定,モジュール演算子割り当て,LLMルーティングの3モジュールで構成され,適応的な推論を実現する。
- 実験の結果,DAAOは既存のマルチエージェントシステムと比較して,精度と推論効率の両方で優れた性能を示した。
- ワークフローの成功に基づいて難易度推定を自己調整する仕組みが,効果的な適応的推論を可能にしている。
思春性特発性側弯症の自己管理のためのマルチモーダル大規模言語モデルの適応と評価:分割統治フレームワーク [cs.CL, cs.CL, cs.AI]目的:思春性特発性側弯症の自己管理におけるマルチモーダル大規模言語モデルの評価
- 思春性特発性側弯症は,成長期の若年者に多く見られ,重篤な場合は外科手術が必要となる疾患である。
- 側弯症の診断や経過観察には専門的な知識が必要であり,医療資源へのアクセスが限られている地域もある。
- 大規模言語モデルを活用し,患者の自己管理を支援することで,医療アクセスの改善を目指す。
- マルチモーダル大規模言語モデルは,複雑な脊椎X線写真の解釈や側弯症に関する知識の理解に限界があることが示された。
- 脊椎のキーポイントプロンプティングや知識ベースを用いた検索拡張生成(RAG)により,モデルの性能が向上した。
- 現在のモデルでは,脊椎変形の正確な位置と方向の検出に課題が残る(最高精度:位置0.55,方向0.13)。
協調適応:AIと人間の双方向認知適応としてのAlignmentの再考 [cs.DL, cs.SI, nlin.AO, physics.ed-ph, cs.AI, cs.MA]目的:AIと人間の双方向認知適応
- AIの安全性と有用性を高めるため,人間の意図とAIの振る舞いを一致させるAlignment研究は重要である。
- 従来のAlignment手法は人間の認知能力を固定視しており,AIと人間の相互適応を考慮していない。
- AIと人間が互いに適応し,より安全で効率的な協調を実現することを目指す。
- BiCAは協調ナビゲーションにおいて,ベースラインと比較して85.5%の成功率を達成した。
- 双方向適応により,相互適応が230%向上し,プロトコル収束が332%向上した。
- 新興プロトコルは手動作成プロトコルを84%上回り,双方向適応は外挿分布へのロバスト性を23%改善した。
ASTREA:軌道熱制御自律のための能動的知能の導入 [cs.RO, cs.AI, cs.LG, cs.MA, cs.SY, eess.SY]目的:軌道上での自律的な宇宙船運用を可能にする能動的知能システムの開発
- 宇宙探査の高度化に伴い,自律的な宇宙船運用システムの重要性が高まっている。
- 既存の制御システムは,複雑な状況変化への対応が難しく,柔軟性に欠ける。
- 限られた資源のもとで,高度な意思決定と適応的な制御を両立させるシステムの実現。
- ASTREAは,宇宙船の熱制御において,LLMによる指導の下,強化学習コントローラーの性能を向上させた。
- 地上実験では,ASTREAが熱安定性を高め,違反を減少させることが確認された。
- ISS上での検証では,軌道周期との同期により,性能が向上し,CPU利用率も改善された。
ドメイン汎化のためのクラス不変テスト時拡張 [cs.CV, cs.LG]目的:ドメイン汎化における性能劣化の軽減
- 深層学習モデルの汎化性能は,分布シフトに弱いため,実用上重要である。
- 既存手法は,多ドメイン学習や高コストなテスト時適応に依存する傾向がある。
- 軽量なテスト時拡張により,ドメイン汎化性能を向上させることを目指す。
- 提案手法CI-TTAは,弾性およびグリッド変形による画像変形と,信頼性に基づく予測のフィルタリングを組み合わせる。
- PACSおよびOffice-Homeデータセットでの実験により,既存のDGアルゴリズムやバックボーンと組み合わせて一貫した性能向上を示す。
- 本手法は,汎用性と有効性が確認された。
効率的なLLMタスク適応のための分布アラインメント復号 [cs.CL, cs.AI]目的:大規模言語モデルのタスク適応における効率化
- 大規模言語モデルの活用が広がるにつれ,様々なタスクへの適応が重要になっている。
- 従来のファインチューニングは計算コストが高く,効率性に課題がある。
- 少ない計算資源で,大規模言語モデルを効率的にタスクに適応させる方法を模索する。
- 提案手法Steering Vector Decoding (SVDecode)は,パラメータ効率的なファインチューニングと組み合わせることで,複数のタスクにおいて性能向上を達成した。
- SVDecodeは,出力分布をタスク分布に直接合わせることで,従来のファインチューニングと同等の効果を,より少ない計算量で実現する。
- 理論的な解析により,SVDecodeがフルファインチューニングの勾配ステップと同等であることが示された。