arXiv雑要約
AI - 2026/03/10 公開
融合複雑性の反転:牧草バイオマス回帰における単純なクロスビューモジュールがSSMおよびクロスビューアテンションTransformerを上回る理由 [eess.SY, cs.SY, eess.SP, cs.CV, cs.LG]目的:牧草バイオマス回帰のための画像解析における融合メカニズムの性能評価
- 持続可能な畜産管理には,正確な牧草バイオマス推定が不可欠である。
- 現実世界のモニタリングでは,データセットが小さく,不均衡で,アノテーションが少ないという課題がある。
- 限られた農業データにおける最適なモデルアーキテクチャを特定し,性能向上の方針を示す。
- 少ない農業データにおいては,2層のゲート付きdepthwise畳み込みが,クロスビューアテンションTransformerや双方向SSM,Mambaよりも優れた性能を示すことが明らかになった。
- バックボーンの事前学習スケールが,全てのアーキテクチャ選択において性能を決定づける主要因であり,DINOv2からDINOv3へのアップグレードでR^2値が5.0ポイント向上した。
- 種,状態,NDVIといったメタデータの学習のみではR^2値が約0.829で頭打ちとなり,融合による性能向上の幅が縮小することが示された。
クロスドメイン画像再構成のための転移可能最適化ネットワーク [cs.RO, cs.HC, eess.SY, cs.SY, cs.RO, cs.CL, cs.RO, eess.SY, cs.SY, cs.CV, cs.LG, math.OC]目的:クロスドメイン画像再構成における転移学習フレームワーク
- 画像再構成は医療診断などに応用され,高精度化が求められている。
- 十分な学習データがない場合,再構成精度が低下する課題がある。
- 異なるドメインの知識を活用し,少ないデータでの再構成精度向上を目指す。
- 提案手法は,多様なドメインのデータを用いた事前学習により,汎用的な特徴抽出器を構築する。
- その後,ターゲットドメインに適応するドメインアダプターを少量データで学習する。
- 実験結果から,提案手法の転移学習能力が確認された。
勾配反復時間差学習 [cs.LG, cs.AI]目的:時間差学習の学習速度向上と安定化
- 長期的な成果の制御と評価において,時間差学習は非常に有効な手法である。
- 半勾配更新は学習速度を向上させるが,発散しやすいという問題がある。
- 反復時間差学習の不安定性を解消し,半勾配法と同等の学習速度を実現すること。
- 本研究で提案する勾配反復時間差学習は,様々なベンチマークにおいて半勾配法と同等の学習速度を示す。
- 従来の勾配時間差学習法では見られなかった,Atariゲームなどでの良好な結果が得られた。
- 移動目標に対する勾配計算により,安定性と学習速度の両立を実現した。
教育におけるAI悪用の問題:学習可視化フレームワークに向けて [cs.CY, cs.AI, cs.HC]目的:教育におけるAI悪用に関する測定の問題点と,学習可視化フレームワークの提案
- 教育現場へのAI導入は加速しており,学習効果や公正性への影響が重要視されている。
- AI検出ツールや制限的なポリシーでは,AI悪用を根本的に解決できていない。
- 学習過程の可視性を高めることで,AIを倫理的に教育に統合することを目指す。
- AI悪用は,検出問題ではなく,学習過程の可視性喪失に起因する測定の問題として捉えられる。
- 学習可視化フレームワークは,AI利用の明確化,学習過程の評価,活動履歴の透明性に基づいている。
- このフレームワークは,監視ではなく,透明性と共有された証拠に基づいてAIの倫理的な統合を促進する。
DistillGuard:LLM知識蒸留に対する防御策の評価 [cs.CR, cs.AI, cs.CL]目的:LLM知識蒸留に対する防御策の体系的な評価
- LLMの利用拡大に伴い,知的財産の保護が重要となる。
- LLMの知識蒸留攻撃に対する効果的な防御策が確立されていない。
- 出力レベルの防御策の効果を定量的に評価し,改善点を明確化する。
- 出力摂動は蒸留された学生モデルの性能にほとんど影響を与えないことが示された。
- データポイズニングは会話の流暢性を損なうものの,特定のタスク能力は維持される。
- 思考連鎖の削除は数学的推論能力を低下させるが,コード生成には影響しない。
AI操縦性360:大規模言語モデルの操縦のためのツールキット [cs.CL, cs.AI]目的:大規模言語モデルの操縦手法の開発と評価
- 近年,大規模言語モデルの能力向上に伴い,その挙動を制御する重要性が高まっている。
- 既存の操縦手法は,実装や評価が難しく,汎用性に欠ける場合が多い。
- 本研究は,大規模言語モデルの操縦を容易にし,包括的な評価を可能にするツールキットを提供する。
- AI操縦性360は,入力,構造,状態,出力の4つの制御面を持つ,拡張可能なオープンソースのPythonライブラリである。
- 操縦パイプラインを通じて複数の操縦手法を組み合わせることが可能であり,汎用的なインターフェースを提供する。
- ユースケースクラスとベンチマーククラスにより,タスクの定義と性能比較が容易に行える。
LLMエージェントにおける意図的な欺瞞:制御可能な能力としての考察 [cs.AI]目的:LLMベースのエージェントにおける意図的な欺瞞のメカニズム
- マルチエージェントシステムが普及する中で,欺瞞に対する理解と防御が不可欠である。
- LLMの誤ったアライメントによる偶発的な欺瞞とは異なり,意図的な欺瞞の構造が解明されていない。
- 戦略的な欺瞞に対する脆弱性を特定し,より強固なエージェント設計に貢献すること。
- 欺瞞的介入の効果は,特定の行動プロファイルに集中しており,一様に分布しないことが判明した。
- 成功した欺瞞の88.5%は,捏造ではなく,戦略的なフレーミングを用いた誘導によって行われる。
- 動機は攻撃の主要なベクトルとして機能し,信念体系の特定・悪用はより困難であることが示された。
深層研究のための合成計画によるツール探索の促進 [cs.AI, cs.CL, cs.IR]目的:深層研究におけるツール探索の促進
- 情報検索エージェントの発展は,複雑な質問への回答能力向上に不可欠である。
- 強化学習による学習において,エージェントの探索行動が不十分となりやすい。
- 合成計画を用いて初期化することで,探索行動を改善し,性能向上を目指す。
- 提案手法SynPlanResearch-R1は,Qwen3-8Bで最大6.0%,Qwen3-4Bで最大5.8%の性能向上を達成した。
- ツール利用パターンと学習ダイナミクスの分析により,性能向上の要因が明らかになった。
- 本研究で開発したコードは,公開されている。
推測と誘導:勾配を用いないゼロショット拡散ガイダンス [cs.LG]目的:事前学習済み拡散モデルを用いたベイズ逆問題への取り組み
- 拡散モデルは,多様な生成タスクにおいて高い性能を示す強力な事前分布である。
- 既存手法は,各ノイズ除去ステップでベクトルヤコビアン積を必要とし,計算コストが高い。
- 本研究は,勾配計算を必要としない軽量な尤度代替モデルを提案し,計算コストを削減する。
- 提案手法により,推論コストが大幅に低下することが実験的に確認された。
- 複数のタスクにおいて,本手法が最高の性能を達成した。
- ベイズ逆問題に対する最も高速かつパレート最適な手法を提案する。
VLMと部分的な観測を用いた視点非依存グラスペイプライン [cs.RO, cs.LG, cs.SY, eess.SY]目的:言語指示に基づいたグラスペイプライン
- 複雑な環境でのロボットによる確実な把持は,自動化において不可欠である。
- 閉塞や不確かな深度推定により,部分的な観測下での把持は困難である。
- 視点に依存せず,安全かつ実行可能な把持を実現する。
- 提案手法は,乱雑な環境において90%の全体成功率を達成した。
- 既存手法(30%)と比較して,閉塞や部分的な観測に対するロバスト性が大幅に向上した。
- 言語指示と画像認識を組み合わせることで,安全な把持を実現した。
精度向上への眠り:睡眠様プロセスによるニューラルネットワークの校正強化 [cs.LG, cs.AI]目的:ニューラルネットワークの校正
- AIの信頼性向上は,安全な応用展開に不可欠である。
- ニューラルネットワークは過信傾向があり,予測確率と精度が一致しない問題がある。
- 睡眠様プロセスを通じて,教師なしで校正を改善し,信頼性を高める。
- 提案手法SRCは,既存の温度スケーリングと同等か,それ以上の性能を示す。
- SRCと温度スケーリングの組み合わせが,AlexNetとVGG19で最良の結果を得た。
- SRCは,より信頼性の高い確信度推定への実用的な道を提供する。
ホスピタリティVQA:ビジョン言語モデルにおける意思決定指向の情報量評価 [cs.AI, cs.LG]目的:ホスピタリティ分野におけるビジョン言語モデルの意思決定指向の情報量
- ビジョン言語モデルは汎用領域で進歩しているが,ホスピタリティのような意思決定が重要な分野への応用は遅れている。
- 既存のVQAベンチマークは事実の正確性のみに焦点を当てており,ユーザーが実際に必要とする情報の捉え方が不十分である。
- ホスピタリティ分野におけるユーザーのニーズに基づいた情報量の評価基準を設け,モデルの意思決定能力を向上させる。
- 提案する情報量評価フレームワークにより,ホスピタリティ関連画像と質問ペアの情報提供量を定量的に評価できるようになった。
- 最先端のビジョン言語モデルは,ホスピタリティ分野においては意思決定を意識したものではなく,重要な視覚信号が十分に活用されていないことが示された。
- ホスピタリティ特化型のファインチューニングにより,情報量の推論能力が向上することが確認された。
自律運転のための統一されたマルチモーダル表現学習に向けて [cs.CV, cs.LG]目的:マルチモーダル表現の統一的な学習
- 自律運転では,周囲環境の正確な理解が不可欠であり,多様なセンサーからの情報を統合する必要がある。
- 既存手法では,個々のモダリティペアの類似度に注目しがちで,マルチモーダル空間全体の整合性が失われる場合がある。
- マルチモーダル空間全体で整合性のある表現を獲得し,自律運転の性能向上を目指す。
- 提案手法であるCTPは,複数のモダリティを統一された埋め込み空間で同時に整列させるフレームワークである。
- CTPは,ペアごとのコサイン類似度による整列を拡張し,マルチモーダル類似テンソルを用いることで,より包括的な学習を実現する。
- 実験結果から,CTPは既存手法と比較して,3Dエンコーダーの事前学習およびゼロからの学習の両方において良好な性能を示すことが確認された。
CCR-Bench:複雑な制約,制御フロー,および現実世界のケースにおけるLLMの評価のための包括的なベンチマーク [cs.DC, cs.RO, cs.CL, cs.AI]目的:大規模言語モデルの複雑な指示への追従能力の評価
- 現実世界での応用には,LLMが複雑な指示を理解する必要がある。
- 既存の評価方法は,指示の複雑さを単純化し,現実の要求との乖離がある。
- 複雑な指示に対するLLMの能力をより厳密に評価するフレームワークの提供。
- CCR-Benchは,コンテンツとフォーマット,論理的制御,現実世界のシナリオが複雑に絡み合った指示でLLMを評価する。
- 実験の結果,最先端モデルでも大きな性能不足が明らかになり,現実の要求とのギャップが定量化された。
- CCR-Benchは,産業応用における複雑なタスクの理解と実行能力を持つ次世代LLMの開発を促進する。
棄却,再サンプリング,繰り返し:言語モデル推論における並列推論の理解 [cs.LG, cs.AI, cs.CL, math.ST, stat.ML, stat.TH]目的:言語モデル推論における並列推論の精度とコストのトレードオフに関する理解
- 大規模言語モデルの制御は重要であり,その性能向上は様々な応用を可能とする。
- 推論時のサンプリングとプルーニング手法の精度とコストの関係は未だ不明確である。
- 過程報酬モデルを用いた逐次モンテカルロ法(SMC)の精度限界を理論的に解明する。
- 本研究では,SMCの非漸近的保証を可能にする単純な基準を特定した。
- 提案するアルゴリズム改善によりSMCの性能向上が確認された。
- SMCのサンプリング誤差は理論的基準に支配されるが,最終的な精度は別の要因に依存する可能性が示された。
VLM-SubtleBench:VLMは人間レベルの微妙な比較推論にどれだけ近づいているか [cs.CV, cs.AI, cs.LG]目的:微妙な比較推論におけるVLMの性能評価
- 産業異常検知や医療画像診断など,多様な分野で視覚的な類似性を持つ画像間の微妙な差異を識別する能力は不可欠である。
- 既存のVLM比較推論ベンチマークは,顕著な差異を持つ画像に焦点を当てており,現実世界アプリケーションに必要な微妙な推論を捉えられていない。
- 本研究は,VLMの微妙な比較推論能力を評価するためのベンチマークを提供し,その限界を明らかにすることで,VLMの性能向上を目指す。
- VLM-SubtleBenchは,属性,状態,感情など10種類の差異タイプを網羅し,産業,航空,医療画像を含む多様なドメインをカバーする。
- 複数のVLMの評価により,モデルと人間の性能に差異が存在し,特に特定の差異タイプやドメインにおいてVLMの推論能力が低下することが示された。
- 本ベンチマークと分析結果は,VLMを人間レベルの比較推論に近づけるための基盤となる。
連立形成の可視化:快楽ゲームから画像セグメンテーションへ [cs.AI, cs.CV]目的:連立形成における画像セグメンテーションの診断テストベッド
- 多エージェントシステムの設計は,複雑な問題解決に不可欠であり,その挙動の理解が重要である。
- 連立形成メカニズムのパラメータ設定が,安定した均衡構造に与える影響が明確ではない。
- 画像セグメンテーションを用いて,連立形成におけるパラメータの影響を定量的に評価すること。
- 画像セグメンテーションをテストベッドとして用いることで,連立形成の均衡構造を可視化することができた。
- 粒状化パラメータが,均衡の断片化と境界構造に影響を与えることを明らかにした。
- 過度な断片化により均衡が崩壊する過程を観察し,メカニズム設計の重要性を示した。
効率的な随時LaCAM*のための軽量トラフィックマップ [cs.AI]目的:マルチエージェントパスファインディングにおける経路探索の質の向上
- ロボット工学や交通計画など,複数の主体が協調して動くシステムの実現に不可欠な研究分野である。
- 大規模な問題において,既存手法では計算コストが高く,効率的な経路探索が困難である。
- LaCAM*の探索中に動的に軽量トラフィックマップを構築し,経路探索の効率と質を改善すること。
- 提案手法は,既存のガイダンスパスに基づくアプローチと比較して,経路探索の質を向上させることを実験的に示した。
- LaCAM*の探索中にトラフィックマップを動的に構築することで,計算コストを削減し,効率的な経路探索を実現した。
- 提示された手法は,2つのMAPF変形において,最先端のガイダンスパスアプローチよりも高い解質を達成した。
農業意思決定を支援するための確率的AIモンスーン予測の設計 [cs.RO, cs.LG, cs.AI, econ.GN, physics.ao-ph, q-fin.EC]目的:農業意思決定のための確率的モンスーン予測システムの設計
- モンスーンは熱帯地域の農業に不可欠であり,その予測は食糧安全保障に大きく影響する。
- 農家の状況は多様であり,最適な行動を画一的に指示することは困難である。
- 多様な農家の状況に適応した,より精度の高いモンスーン予測システムの開発。
- AIモデルと「変化する農家の期待」統計モデルを組み合わせることで,より高精度なモンスーン予測が可能となった。
- このシステムは,既存のモデルやマルチモデル平均よりも長いリードタイムで,より正確なインドのモンスーン予測を実現した。
- 2025年には,このシステムが政府主導のプログラムで3800万人のインド人農家に展開され,異常な乾燥期間を正確に予測した。
SMGI:汎用人工知能の構造的理論 [cs.AI, cs.LG]目的:汎用人工知能の構造的理論
- 人工知能研究は,人間の知能を模倣し,様々な問題を解決する可能性を秘めている。
- 既存のAIは特定のタスクに特化しており,環境変化への適応性や汎用性に課題がある。
- 学習インターフェースの進化を制御することで,より汎用的なAIの実現を目指す。
- SMGIは,表現マップ,仮説空間,構造的事前分布などを明示的に型付けされた動的要素として扱う。
- 構造的オントロジーと行動的意味論を厳密に分離し,汎用人工知能を許容可能な結合力学として定義する。
- 連続的なPAC-Bayes分析とLyapunov安定性との関連性を示す構造的一般化限界を証明した。
LeJOT-AutoML:Databricksコスト最適化におけるジョブ実行時間予測のためのLLM駆動型特徴量エンジニアリング [cs.LG]目的:Databricksにおけるジョブ実行時間予測のための自動特徴量エンジニアリング手法
- クラウドコスト削減の重要性が増しており,Databricksのようなジョブオーケストレーションシステムの最適化が不可欠である。
- 既存の手法では,静的で手動で設計された特徴量に依存しており,実行時の効果を十分に捉えられていない。
- LLMを活用し,特徴量エンジニアリングの自動化と予測精度の向上を目指す。
- LeJOT-AutoMLは,LLMエージェントを組み込んだAutoMLフレームワークであり,特徴量エンジニアリングのサイクルを大幅に短縮する。
- 200以上の特徴量を自動生成し,予測精度を維持しながら,特徴量エンジニアリングと評価のループを数週間から20〜30分に短縮した。
- LeJOTパイプラインに統合することで,継続的なモデル更新を自動化し,19.01%のコスト削減を実現した。
未知への再考:効果的かつ効率的なオープンセット能動学習に向けて [cs.CV, cs.LG]目的:オープンセット能動学習における情報的サンプルの特定
- 安全性が重要視される現実世界の応用において,未知のクラスの存在は避けて通れない問題である。
- 既存手法は,オープンセット検出器を別途学習する必要があり,計算コストが高いという課題がある。
- ラベル付き未知データを利用し,既知クラスの学習精度向上と,より信頼性の高いクエリを実現する。
- 提案手法E$^2$OALは,検出器を必要とせず,ラベル付き未知データを活用する統合的なフレームワークである。
- ラベルガイダンスによるクラスタリングと構造を考慮したF1-product目的関数により,未知データの潜在的なクラス構造を明らかにする。
- ディリクレ校正された補助ヘッドが,既知クラスと未知クラスを共同でモデル化し,精度と効率を向上させる。
スマートグリッドにおける確率的負荷予測のためのベイズ変換器 [cs.LG, stat.ML]目的:確率的負荷予測における不確実性評価の改善
- 電力系統の安定運用には,信頼性の高い負荷予測と正確な不確実性評価が不可欠である。
- 既存の深層学習モデルは過信した予測を行い,異常気象下では予測精度が著しく低下する。
- ベイズ変換器を用いて,予測の不確実性を定量化し,系統運用を支援すること。
- 提案手法であるベイズ変換器(BT)は,5つのグリッドデータセットにおいて,最先端の性能を示した。
- 特にPJMデータセット(24時間予測)では,CRPSが0.0289となり,Deep Ensemblesより7.4%,決定論的LSTMより29.9%改善された。
- BTは異常気象時においても高い予測精度を維持し,不確実性を適切に反映したことが確認された。
EveryQuery:タスク条件付き事前学習による電子カルテからのゼロショット臨床予測 [cs.AI]目的:電子カルテからのゼロショット臨床予測
- 医療現場での意思決定支援は重要であり,患者の予後予測は不可欠である。
- 既存手法は計算コストが高く,統計的なノイズの影響を受けやすい。
- 特定の臨床質問に直接対応可能な予測モデルの実現を目指す。
- EveryQueryは,タスク条件付き事前学習により,ゼロショット推論を可能にする。
- MIMIC-IVデータセットにおいて,既存の自己回帰型モデルを82%の予測タスクで上回る性能を示した。
- 特に稀な臨床イベントの予測において,優れた性能改善が見られた。
NaviDriveVLM:自律運転のための高次推論と経路計画の分離 [cs.RO, cs.LG]目的:高次推論と経路計画の分離による自律運転システムの性能向上
- 自動運転技術は,交通渋滞の緩和や交通事故の削減に貢献し,社会の効率化に不可欠である。
- 既存のビジョン言語モデルベースのシステムは,高次推論と精密な制御のバランスを取るのが難しいという課題がある。
- 大規模なナビゲーターと軽量なドライバーを分離することで,推論能力を維持しつつ,訓練コストを削減し,経路計画の解釈可能性を高める。
- NaviDriveVLMは,大規模なVLMベースラインと比較して,nuScenesベンチマークにおけるエンドツーエンドの経路計画において優れた性能を示す。
- 本研究では,高次推論と行動生成を分離する新しいフレームワークを提案し,自律運転システムの効率性と解釈可能性を向上させた。
- NaviDriveVLMは,大規模なナビゲーターの推論能力を活かしつつ,軽量なドライバーによって効率的な制御を実現する。
DyQ-VLA:具現化された視覚-言語-行動モデルのための時間的・動的認識量子化 [cs.LG, cs.RO]目的:具現化された視覚-言語-行動モデルの推論オーバーヘッドの軽減
- 具現化された知能において,視覚-言語-行動モデルは重要な役割を担っている。
- 静的な量子化手法では,段階的な誤差許容度を無視するため,リソースの無駄が生じる。
- 時間的感受性を考慮した動的量子化により,リアルタイム性能を向上させる。
- DyQ-VLAは,元のメモリフットプリントの30.9%で,元の性能の99.5%を維持する。
- シミュレーション速度は1.49倍,実世界での速度は最大1.43倍に向上する。
- 運動学的プロキシを活用したビット幅の切り替え戦略が有効であることが示された。
純粋視覚による気管支鏡検査ロボット自律制御のための長・短期エージェント [eess.SY, cs.SY, cs.RO, cs.AI]目的:純粋視覚による気管支鏡検査ロボット自律制御のためのフレームワーク
- 内腔内介入において,正確な術中ナビゲーションは不可欠であり,医療の質の向上に貢献する。
- 既存のナビゲーションシステムは,外部追跡技術に依存し,複雑さや解剖学的ミスマッチのリスクがある。
- 本研究は,外部追跡なしで,長期的視点に基づく気管支鏡検査ナビゲーションを可能にすることを目指す。
- 提案システムは,気管支鏡検査用ファントムにおいて計画された全ての標的部位へ到達した。
- 摘出肺においては,8世代までの到達成功率が80%であった。
- 生体豚モデルにおいて,熟練した気管支鏡医と同等のナビゲーション性能を達成し,臨床応用の可能性を示した。
Ares:効率的なLLMエージェントのための適応的推論努力選択 [cs.AI]目的:LLMエージェントにおける推論努力の動的な選択
- LLMを活用したエージェントの高性能化と,そのための計算コストの課題が重要である。
- 静的な推論努力戦略では,性能低下やコスト削減効果の限定が問題となる。
- 各ステップの難易度に応じて推論努力を最適化し,効率と性能の両立を目指す。
- Aresは,ステップごとの推論努力を動的に選択するフレームワークであり,TAU-Bench,BrowseComp-Plus,WebArenaといった多様なタスクで有効性が示された。
- 固定の高推論努力戦略と比較して,推論トークン使用量を最大52.7%削減できる。
- タスクの成功率への影響は最小限に抑えられ,コスト削減と性能維持を両立している。
Rel-MOSS:リレーショナルデータベースにおける不均衡な関係型深層学習に向けて [cs.AI, cs.DB, cs.LG]目的:リレーショナルデータベースにおけるエンティティ分類におけるクラス不均衡問題の緩和
- リレーショナルデータベースのデータ駆動型学習の可能性を広げるため,関係型深層学習が注目されている。
- 既存の関係型深層学習手法は,リレーショナルデータベース内のデータの不均衡を無視する傾向がある。
- 少数エンティティの表現不足を解消し,実用的なモデルを構築することを目指す。
- 提案手法Rel-MOSSは,関係型ゲーティングコントローラーを用いて関係ごとのメッセージ調整を行う。
- 関係誘導少数合成器により,エンティティの関係的特徴を保持しつつ,少数クラスのオーバーサンプリングを実現する。
- 12のエンティティ分類データセットで,既存手法と比較して,Balanced AccuracyとG-Meanで平均2.46%,4.00%の改善が確認された。
集計指標のセマンティックリスクスコアリング:ヘルスケアデータガバナンスのためのAI駆動型アプローチ [cs.LG, cs.CY]目的:集計指標のプライバシーリスク評価手法
- ヘルスケア分野では,厳格なデータ保護規制下で,データの有効活用が重要である。
- 集計データであっても,不適切な定義によりプライバシー侵害のリスクが存在する。
- クエリレベルでの静的解析により,事前にプライバシーリスクを検出し,保護すること。
- 提案手法は,SQLクエリを解析し,セマンティックおよび構文的特徴を抽出してリスクスコアを算出する。
- リスクスコアが閾値を超えたクエリは,人間が理解できる説明とともにフラグが立てられる。
- これにより,データ展開前に統計的開示を防止し,部門間の指標共有を促進する。
IMSE:テスト時適応のためのスペクトル専門家の内在的混合微調整 [cs.CV, cs.AI]目的:テスト時適応における性能劣化の抑制
- 事前学習済みモデルの活用は重要だが,テストデータとの分布のずれが課題となる。
- テストデータと学習データの分布が異なる場合,性能が低下しやすい。
- 少ないパラメータ更新で,大規模事前学習モデルの表現力を最大限に引き出す。
- 本研究では,Vision Transformerに内在するスペクトル専門家を活用するIMSEを提案した。
- 特異値分解を利用し,特異ベクトルを固定したまま特異値のみを適応させる。
- CTTAにおいて,既存手法を上回る精度向上を達成し,学習パラメータ数は大幅に削減された。
SWE-Fuse:問題のない軌跡学習とエントロピーを考慮したRLVR訓練によるソフトウェアエージェントの強化 [cs.SE, cs.AI]目的:ソフトウェア問題解決エージェントの訓練のためのフレームワーク
- ソフトウェア開発における自動化の需要が高まっており,LLMベースのエージェントが注目を集めている。
- 実際のソフトウェア問題データセットには,問題記述と解決策の不整合が存在し,エージェントの性能を阻害している。
- 問題記述の誤誘導を軽減し,ソフトウェア問題解決エージェントの信頼性と効率を向上させる。
- SWE-Fuseは,問題記述を考慮した訓練フレームワークであり,問題記述に基づくサンプルと問題のないサンプルを融合する。
- SWE-Fuseは,SWE-bench Verifiedベンチマークにおいて,既存のベースラインモデルをそれぞれ43.0%と60.2%上回る解決率を達成した。
- テスト時スケーリング(TTS)と組み合わせることで,さらに性能が向上し,8Bモデルと32Bモデルでそれぞれ49.8%と65.2%の解決率を達成した。
ELLMob:自己整合LLMフレームワークによるイベント駆動型人間移動生成 [cs.RO, physics.flu-dyn, cs.AR, cs.LG, cs.AI]目的:大規模社会イベント中の逸脱した移動を捉えた人間移動データの生成
- 都市システム研究において,現実的な移動データの合成は不可欠である。そのため,人間移動生成技術の重要性は高い。
- 既存のLLMベース手法は日常的な移動は得意だが,大規模イベント時の逸脱した移動の捉え方に課題があった。
- イベント時の移動パターンと個人の習慣の矛盾を解決し,より現実的な移動データを生成することを目的とする。
- 本研究では,台風,COVID-19,東京オリンピックを対象とした初のイベント注釈付き移動データセットを構築した。
- 提案手法ELLMobは,Fuzzy-Trace Theoryに基づき,習慣とイベント制約の競合する理由を抽出し,反復的に整合させる。
- 実験の結果,ELLMobは既存手法を凌駕し,すべてのイベントにおいて有効性が示された。
物理構造化乱流ネットワーク [cs.HC, cs.HC, cs.LG, cs.AI]目的:大気乱流強度のリアルタイム推定
- 航空機の安全運航には,高度帯や海域,極域など,データが少ない地域での乱流予測が不可欠である。
- 従来のスペクトルモデルは瞬間的な大気状態を反映せず,汎用的な機械学習回帰モデルは物理法則を保証しない。
- 物理法則を組み込んだ軽量なモデルにより,限られた計算資源での高精度な乱流推定を実現する。
- PSTNetは,モノン・オブホコフ理論に基づく骨格構造と,リチャードソン数に基づく学習制御を用いる。
- 特徴線形変調層とコルモゴロフ出力層により,物理的制約を組み込んだモデル構造を実現した。
- 340件のシミュレーションデータで検証した結果,既存手法より平均誤差が2.8%改善し,統計的に有意な効果が確認された。
大規模言語モデルを用いた進化段階的設計による自動アルゴリズム設計の進展 [cs.AI]目的:自動アルゴリズム設計手法の開発
- 産業界の課題解決において,高度なアルゴリズム設計が不可欠であるため。
- 従来のアルゴリズム設計は専門知識と時間が必要であり,複雑化する問題に対応が困難である。
- 大規模言語モデルを活用し,効率的かつ高性能なアルゴリズムを自動的に設計すること。
- 提案手法EvoStageは,人間の専門家による設計や既存のLLMベース手法と比較して,わずかな進化ステップで優れた性能を発揮する。
- チップ配置におけるAdamオプティマイザのパラメータ設定スケジュール設計で,歴史的な最高水準の結果を達成した。
- 商業グレードの3Dチップ配置ツールにおいて,EvoStageは従来の性能指標を大幅に上回り,記録的な効率を実現した。
人間との適応的協調:継続学習によるマルチエージェントLLMのためのメタ認知ポリシー最適化 [cs.AI]目的:マルチエージェントLLMにおける人間との協調のあり方
- 大規模言語モデルの進化により,複雑な問題解決能力が期待される。その限界を克服するためには,複数のエージェントによる協調が不可欠である。
- 既存のマルチエージェントシステムは,学習データに依存し,未知の問題への対応が難しいという課題がある。
- 人間の専門知識を活用し,エージェントの自己学習能力を高めることで,未知の問題への対応力を向上させる。
- 提案手法HILAは,エージェントが自律的に問題を解決するか,人間の専門家に委ねるかを判断するメタ認知ポリシーを学習する。
- デュアルループポリシー最適化により,即時的な意思決定と長期的な能力向上を分離し,効率的な学習を実現している。
- 数学や問題解決のベンチマークテストにおいて,既存のマルチエージェントシステムを上回る性能を示し,協調的かつ継続的に改善されるエージェントシステムの基盤を確立した。
動的環境における多ロボット探索のためのハイブリッド学習計画アプローチ:VORL-EXPLORE [cs.RO, cs.AI]目的:多ロボット探索における効率的な環境マッピングと探索範囲の拡大
- ロボットの自律的な環境理解と探索は,災害救助や資源探査など,多様な応用分野において不可欠である。
- 従来の探索手法では,環境の変化やロボット間の干渉により,効率が低下し,冗長な探索が発生しやすい。
- この研究は,実行可能性に基づいたタスク割当と行動計画により,動的な環境下での多ロボット探索のロバスト性と効率性を向上させる。
- 提案手法VORL-EXPLOREは,ロボットのナビゲーションの困難さを考慮したタスク割当により,ボトルネックでの集中を抑制し,計画の再実行頻度を減少させる。
- ボロノイ図に基づく目的関数とロボット間反発力の導入により,探索前の干渉を軽減し,効率的な探索を実現する。
- A*探索と強化学習を組み合わせた適応的仲裁機構により,長距離効率と安全性を両立し,狭い空間での安全な動作を可能にする。
OSExpert:探索によるプロフェッショナルスキルの学習を行うコンピュータ利用エージェント [cs.AI]目的:コンピュータ利用エージェントのプロフェッショナルスキル獲得
- デジタル環境における自動化のニーズが高まっており,高度なコンピュータ利用エージェントの開発が重要である。
- 既存のエージェントは,複雑なタスクの効率性,UIの変更への適応性,細かい操作の遂行に課題がある。
- GUI環境の網羅的な探索とスキル構築により,エージェントの性能を人間レベルに近づけることを目指す。
- GUI-DFS探索アルゴリズムとスキルデータベースを活用し,エージェントは環境の基本機能を効率的に学習する。
- 学習されたスキルは,エージェントの知識を豊かにし,長時間のタスクにおける計画と行動の精度を高める。
- OSExpert-Evalにおいて,性能が約20%向上し,人間の効率との差が約80%縮小された。
創発は過大評価されている:専門家の群島としてのAGI [cs.CL, cs.AI]目的:AGIの概念化
- AGI実現には,人間の知能の本質理解が不可欠である。
- 従来のAGI研究は,汎用性と柔軟性に焦点を当てがちである。
- 人間の専門性に見られる特性をAGI設計に反映させること。
- 本研究は,人間の専門知識が洗練された圧縮よりも,ドメイン固有のパターン蓄積によって機能することを示した。
- 専門的パフォーマンスの柔軟性は,統合的な原理ではなく,特殊な応答の広範なレパートリーによるものである。
- AGIを,統一的な原理や共有表現なしの,専門能力の孤立した島々である「専門家の群島」として捉えるべきである。
100万ドルのベンチマーク:言語エージェントは専門家までどこまで到達しているか [cs.LG, cs.AI, cs.CL]目的:言語エージェントの専門性評価
- AIエージェントの社会実装が進む中で,専門分野での能力評価が重要になっている。
- 既存のベンチマークは現実の専門職の要求を満たせていない。
- 経済的影響の大きいシナリオにおけるエージェントの信頼性評価を目指す。
- 100万ドルのベンチマークは,法律,金融,産業,医療,自然科学の専門家が作成した400のタスクで構成される。
- このベンチマークは,情報検索,証拠の解決,ドメイン固有のルール適用,制約決定を必要とする。
- 評価にはルーブリックを使用し,事実の正確性,論理的整合性,実用性,専門家コンプライアンスを評価する。
根拠に基づいた検証による多角的判断 [cs.LG]目的:多角的判断における視覚的根拠の重要性
- 近年のAI研究において,画像とテキストを組み合わせた多角的判断が注目されている。
- 既存の多角的判断モデルは,視覚的証拠に基づいた判断が不十分であるという課題がある。
- 視覚的根拠に基づいた検証プロセスを通じて,多角的判断の精度向上を目指す。
- 本研究で開発したMJ1は,視覚的根拠を重視した検証プロセスと一貫性報酬を用いることで,既存モデルの精度を向上させた。
- 学習なしでもMMRB2の画像編集で+3.8ポイント,多角的推論で+1.7ポイントの精度改善が見られた。
- 30億パラメータのMJ1は,MMRB2において77.0%の精度を達成し,Gemini-3-Proなどの大規模モデルを上回る性能を示した。
CMMR-VLN:継続的多様式記憶検索によるビジョンと言語によるナビゲーション [cs.AI]目的:ビジョンと言語によるナビゲーションにおける継続的多様式記憶検索の枠組み
- ナビゲーションの高度化には,視覚情報と自然言語理解の融合が不可欠である。
- 既存のLLMベースVLNは,過去の経験を効果的に活用できず,長距離や未知の環境で性能が低下する。
- 過去の経験を想起・活用する能力をLLMに付与し,ナビゲーション性能の向上を目指す。
- 提案手法CMMR-VLNは,パノラマ画像とランドマークで索引付けされたマルチモーダル記憶を用いることで,関連性の高い経験を検索する。
- 検索された経験を活用した生成パイプラインにより,人間のナビゲーターの知識利用を模倣する。
- 成功経路と失敗時の初期ミスを記録する反省に基づく記憶更新戦略を取り入れている。
エアロ・プロンプトネス:プロペラ駆動機のための抗力考慮型空力操作性 [cs.RO, cs.AI, cs.SY, eess.SY, math.OC]目的:冗長なマルチローターにおける制御配分のための幾何学的枠組み
- マルチローターの制御性能向上は,空撮や物流など幅広い分野で重要である。
- モーターのトルク限界や空気抵抗が,マルチローターの操作性を制限する課題となっている。
- 抗力とモーターの制約を考慮した制御配分により,操作性の最適化を目指す。
- 提案手法は,モーターの加速能力に基づいたリーマン計量を用いることで,抗力とトルク限界を明示的に考慮する。
- この手法により得られる操作性体積の対数行列式は,飽和や推力損失を抑制する自然な障壁関数として機能する。
- 最適な配分は,滑らかな多様体となり,物理的なアクチュエーターの限界による不連続性を幾何学的に特徴づけることができる。
SmartThinker:効率的な大規模言語モデルの推論のための段階的思考連鎖長調整 [cs.RO, cs.CL, cs.LG]目的:大規模言語モデルの推論における思考連鎖長の効率化
- 複雑なタスク解決において,大規模言語モデルの高性能化が求められている。
- 思考連鎖長の冗長性により,計算コストが増大し,精度低下を招く可能性がある。
- 問題難易度に応じて思考連鎖長を動的に調整し,効率と精度の両立を目指す。
- SmartThinkerは,GRPOに基づき,思考連鎖長を段階的に調整する新しい手法である。
- 訓練中にピーク精度となる最適な長さを動的に推定し,冗長な応答を抑制する。
- 長さ報酬係数を動的に調整することで,正しい推論経路への不当なペナルティを回避する。
学習された支持関数を用いた最大内積探索の償却 [cs.LG, stat.ML]目的:最大内積探索における効率化
- 機械学習の重要な要素技術であり,類似検索など広範な応用が存在する。
- 大規模データセットにおける探索コストが課題となり,高速化が求められている。
- 固定分布からのクエリに対する探索を効率化し,データベース圧縮への応用を目指す。
- 学習された支持関数(SupportNet)またはKeyNetは高い適合率を達成した。
- クエリ分布を考慮したデータベース圧縮という新たな方向性を示唆する。
- 勾配計算や同次性に関する損失関数が,効率的な学習に貢献している。
ViSA強化空中VLN:視覚空間推論強化フレームワーク [cs.DC, cs.CV, cs.AI]目的:空中視覚言語ナビゲーションにおける視覚空間推論能力の向上
- 空からのナビゲーションは,災害時の状況把握やインフラ点検など,幅広い分野で重要性が高まっている。
- 従来の空中VLN手法は,空間的な推論能力の不足や言語的な曖昧さが課題となっていた。
- 本研究は,視覚空間推論能力を強化することで,これらの課題を克服することを目指す。
- 提案手法ViSAは,追加の訓練や複雑な中間表現を必要とせず,画像平面上で直接推論を行う。
- CityNavベンチマークにおける評価で,ViSA強化VLNは最先端手法と比較して70.3%の成功率向上を達成した。
- この結果は,ViSAが空中VLNシステムの強力な基盤となりうることを示唆している。
PIRA-Bench:リアクティブなGUIエージェントからGUIベースのプロアクティブな意図推薦エージェントへの移行 [cs.IR, cs.DL, cs.AI]目的:GUIベースのプロアクティブな意図推薦エージェントの評価基準
- GUI操作の自動化は,人間のコンピューティングとのインタラクション効率を向上させる上で重要である。
- 既存のGUIエージェントは,ユーザーからの明示的な指示に依存しており,プロアクティブ性に欠ける。
- 連続的な視覚入力からユーザーの意図を予測し,適切な提案を行うための評価基準を確立すること。
- PIRA-Benchは,マルチモーダル大規模言語モデル(MLLM)のプロアクティブな意図推薦能力を評価するための新しいベンチマークである。
- 本ベンチマークは,ノイズが多く,複雑なタスク遷移を含む現実世界のスクリーン活動を特徴とする。
- PIRFというベースラインモデルを提案し,MLLMが複数タスクを管理し,誤解を招く視覚情報を処理する能力を向上させた。
FedMomentum:連合型ファインチューニングにおけるLoRAの訓練モーメンタムの維持 [cs.LG, cs.AI]目的:連合学習におけるLoRA訓練の収束速度と精度向上
- 大規模言語モデルの効率的な適応は,リソース制約のある環境で重要である。
- LoRAモジュールの単純な集約では,ノイズが発生し,性能が低下する可能性がある。
- 訓練モーメンタムの損失を解消し,LoRAの表現力を維持することを目指す。
- FedMomentumは,特異値分解を用いてLoRAの構造を維持したまま正確な集約を実現する。
- 主要な更新方向を抽出することで,訓練の収束を加速し,精度を向上させる。
- 複数のタスクにおいて,既存の最先端手法と比較して一貫した性能向上を示す。
アライメント,プロセス,成果:AIと人間の協働のあり方を再考する [cs.HC, cs.AI]目的:AIと人間の協働における構造的関係性の解明
- 現代社会において,AIと人間の協働は不可欠であり,その効率性と質の向上が求められている。
- 従来の協働研究は,アライメント,プロセス,成果を独立して捉える傾向があり,構造的な関係性の理解が不十分である。
- アライメント,プロセス,成果の一体的な視点から協働構造を分析し,その普遍的な法則性を明らかにすること。
- 協働を,構造化されたタスク空間における軌跡の進化として捉える「タスクレンズ」と,個人の意図が共有される文脈を分析する「意図レンズ」という2つの視点を提示した。
- これらのレンズを通して,アライメント,意思決定,軌跡構造の間の構造的関係性が明確になった。
- 人間同士,AI同士,人間とAIの協働設定において,アライメント,プロセス,成果の関係性に関する統一的な動的見解を提示した。
容量を考慮した混合則による効率的なLLMデータ最適化 [cs.LG]目的:大規模言語モデルの最適な性能を実現するためのデータ混合の選択
- 大規模言語モデルの性能は,学習に使用するデータの組み合わせに大きく左右されるため,データ混合戦略が重要である。
- 既存手法は,計算コストが高いか,大規模モデルへの外挿が困難であるという課題があった。
- 計算効率の良いパイプラインを用いて,データ混合のスケール則をモデル化し,性能予測の精度向上を目指す。
- 本研究では,モデルサイズと混合の相互作用を非線形にモデル化するCAMELという容量を考慮した混合則を提案した。
- 検証損失からベンチマーク精度を予測する損失-ベンチマーク予測則を導入し,エンドツーエンドの性能予測を可能にした。
- 既存手法と比較して,混合最適化コストを50%削減し,ダウンストリームベンチマーク性能を最大3%向上させた。
