arXiv雑要約
AI - 2026/03/11 公開
PM-Nav: 機能的建造物における事前地図誘導型具現化ナビゲーション [cs.RO, cs.AI]目的:機能的建造物における具現化ナビゲーションの性能向上
- 機能的建造物は類似構造が多く,ナビゲーションが困難である。
- 従来のナビゲーション手法では,事前空間知識の有効活用が不足している。
- 事前地図を活用し,より正確な経路計画と制御を実現すること。
- 提案手法PM-Navは,シミュレーション環境においてSG-Navと比較して平均511%の性能向上を達成した。
- 現実環境においてもInstructNavと比較して平均400%の性能向上を示し,その有効性が確認された。
- PM-Navは機能的建造物におけるナビゲーションの基盤技術としての可能性を示唆している。
推論と確信度の分離:検証可能な報酬を用いた強化学習におけるキャリブレーションの復活 [cs.LG]目的:強化学習における推論と確信度の分離
- 大規模言語モデルの推論能力向上は重要だが,現実世界への応用には確信度の信頼性が不可欠である。
- 検証可能な報酬を用いた強化学習は推論能力を高めるが,キャリブレーションの劣化が深刻な問題となっている。
- 推論と確信度の最適化における競合を解消し,より信頼性の高い言語モデルの展開を目指す。
- 提案手法DCPOは,既存手法GRPOと同等の精度を維持しつつ,キャリブレーション性能を大幅に向上させる。
- DCPOは,過信の問題を効果的に軽減し,より信頼性の高いLLMの利用を可能にする。
- 本研究は,LLMの信頼性向上に関する貴重な洞察と実践的な解決策を提供する。
DexHiL:器用な操作におけるビジョン-言語-行動モデルの後学習のための人間介在型フレームワーク [cs.RO, cs.AI]目的:器用な操作におけるビジョン-言語-行動モデルの後学習
- ロボットの操作能力向上は,自動化や人手不足解消に不可欠であり,その重要性は増している。
- 複雑なタスクへの適応には後学習が必須だが,多次元な指の制御や接触操作が課題となっている。
- 人間介在型学習により,信頼性と適応性を高めた器用なロボット操作の実現を目指す。
- DexHiLは,アームと手の協調的な介入を可能にする初の統合型フレームワークである。
- 介入を意識したデータサンプリング戦略と軽量な遠隔操作インターフェースが,後学習の効率を向上させる。
- 実機実験の結果,従来のオフライン後学習手法と比較して,成功率が平均25%向上した。
品質を意識し,不確実性を考慮した画像超解像拡散モデル [cs.CV, cs.AI]目的:画像超解像のための拡散モデル
- 画像処理において,高解像度化は,鮮明な画像を得る上で不可欠な技術である。
- 現実世界の画像は劣化が多様であり,従来のモデルでは詳細が失われたり,不自然な箇所が生じやすい。
- 未知の劣化や空間的に不均一な劣化に対応し,より自然で高精細な画像を復元すること。
- 本研究で提案するQUSRモデルは,品質を意識した事前知識と不確実性を考慮したノイズ生成を組み合わせる。
- 不確実性の高い領域に強いノイズを加え,複雑な詳細を復元すると同時に,不確実性の低い領域ではノイズを抑制し,元の情報を保持する。
- 実験結果から,QUSRは現実世界の様々な条件下で,高品質かつリアルな画像を生成できることが確認された。
複数LLMによる熟議におけるカオス的ダイナミクス [cs.AI, cs.MA]目的:複数LLM熟議における安定性
- 集団AIシステムにおいて,複数LLMの活用は増加している。
- 複数LLM熟議システムの反復実行における安定性が十分に理解されていない。
- 複数LLM熟議システムの不安定性の原因を特定し,安定化策を検討する。
- 複数LLM委員会を確率的力学系としてモデル化し,平均選好の軌道発散から経験的リャプノフ指数を算出。
- 役割分化とモデルの異質性が不安定化の独立した経路であることが判明。
- 議長役割の除去やメモリウィンドウの短縮が発散を抑制することが示唆され,安定性監査の重要性が強調される。
クラス増分学習のための因果的に十分かつ必要な特徴拡張 [cs.LG, cs.AI]目的:クラス増分学習における特徴拡張手法の改善
- 継続学習は,AIの幅広い応用において重要な課題であり,過去の知識を保持しつつ新しい知識を獲得する能力が求められる。
- 既存の特徴拡張手法では,特徴の衝突が起こりやすく,学習した知識を忘れてしまう破滅的忘却の問題が生じる。
- 本研究は,因果的な視点から特徴の衝突を抑制し,よりロバストな特徴表現を獲得することを目指す。
- 提案手法は,必要性と十分性の確率(PNS)に基づき,特徴拡張を誘導する正則化手法である。
- PNSを拡張したCPNSを用いて,タスク内およびタスク間の表現の因果的完全性と分離可能性を定量化する。
- 双子ネットワークに基づくカウンターファクチュアル生成器により,特徴衝突を抑制し,実験的に有効性が確認された。
継続的経験駆動実行による深層表形式研究 [cs.AI]目的:深層表形式研究における複雑な長期的分析課題への取り組み
- 表形式データは様々な分野で不可欠であり,高度な分析能力が求められる。
- 非構造化テーブルは,階層的ヘッダーや非標準レイアウトにより,複雑な推論が困難である。
- 長期的推論のために戦略的計画と低レベル実行を分離し,継続的な改善を目指す。
- 本研究では,表形式推論を閉ループの意思決定プロセスとして扱う新しいエージェントフレームワークを提案した。
- 提案手法は,双方向の意味を捉えた階層的メタグラフを構築し,自然言語クエリを操作レベルの探索空間にマッピングする。
- 過去の実行結果を構造化メモリに統合することで,継続的な洗練を実現し,複雑な表形式データに対する有効性が確認された。
DataFactory:高度な表質疑応答のための協調的マルチエージェントフレームワーク [cs.AI, cs.DB, cs.IR]目的:表形式データの高度な質疑応答
- データ分析において,自然言語による表データの操作は重要性が増しており,その効率化が求められている。
- 既存のLLMは,コンテキスト長制限,ハルシネーション,複雑な推論処理の困難さという課題を抱えている。
- 複雑なクエリに対応可能な,協調的なマルチエージェントシステムを構築し,精度向上を目指す。
- DataFactoryは,ReActを用いたデータリーダーと,データベースチーム,知識グラフチームの連携により,複雑なクエリを構造化・関係性推論に分解する。
- データから知識グラフへの変換関数を形式化し,自然言語によるチーム間相談と適応計画を可能にすることで,協調のロバスト性を高めている。
- TabFact,WikiTableQuestions,FeTaQAにおける実験結果から,既存手法と比較して,精度が大幅に向上することが示された(TabFactで20.2%,WikiTQで23.9%の改善)。
安全なエージェント行動のためのリアルタイムトラスト検証:TrustBench [cs.CL, cs.AI]目的:エージェントの行動におけるトラスト検証のフレームワーク
- 大規模言語モデルが自律エージェントとして進化する中で,信頼性の確保は重要課題である。
- 既存の評価方法は,行動実行後の評価に終始し,有害な行動を事前に防ぐことが困難である。
- TrustBenchは,行動決定の瞬間に介入し,安全性と信頼性を検証することでこの課題を解決する。
- TrustBenchは,多様な側面からトラストを評価し,有害な行動を87%削減することに成功した。
- 特定のドメインに特化したプラグインは,汎用的な検証よりも35%高い有害行動の抑制効果を示した。
- サブ200msの低遅延により,自律エージェント向けのリアルタイムトラスト検証を実用的に実現した。
RubiCap:ルーブリック誘導による高密度画像キャプション生成の強化学習 [cs.CV, cs.AI, cs.LG]目的:高密度画像キャプション生成のための強化学習フレームワーク
- 画像と言語の対応は,事前学習や画像生成において不可欠な要素である。
- 高品質なアノテーションの作成にはコストがかかり,多様性と汎化性能の向上が課題である。
- LLMによるルーブリックを用いた報酬信号により,高精度なキャプション生成を目指す。
- RubiCapはCapArenaにおいて,教師あり蒸留や既存の強化学習手法,さらには人間によるアノテーションやGPT-4Vをも上回る勝率を達成した。
- CaptionQAにおいては,7BモデルがQwen2.5-VL-32B-Instructと同等の性能を示し,3Bモデルは7Bモデルを上回る性能を発揮した。
- RubiCap-3Bをキャプション生成器として用いることで,プロプライエタリなモデルで学習したモデルを超える性能の事前学習済みVLMを構築できることが示された。
誤ったコード,正しい構造:不完全なLLM生成RTLからのネットリスト表現学習 [cs.LG, cs.AI, cs.AR]目的:ネットリスト表現の学習
- 回路設計の自動化や検証において,効率的なネットリスト表現は不可欠である。
- 実用的な回路設計のラベル付きデータは希少であり,大規模な学習を妨げている。
- LLM生成RTLの構造的パターンを活用し,データ不足を解消する。
- LLM生成RTLの機能的な誤りがあっても,合成されたネットリストは構造パターンを保持していることが示された。
- 不完全なLLM生成RTLを活用したデータ拡張フレームワークが提案され,ネットリスト表現学習に利用された。
- 提案手法は,実際のネットリストで高い汎化性能を示し,高品質なデータで学習した手法と同等かそれ以上の性能を達成した。
地質情報に基づく注意機構付きTransformerによる岩石種の識別 [cs.RO, cs.LG, cs.AI]目的:岩石種の識別に向けた,地質学的知識を組み込んだ新しいフレームワーク
- 地下資源評価において,正確な岩石種の識別は不可欠であるため,その重要性は高い。
- Transformerモデルは高性能だが,地質学的知識の欠如により,性能や信頼性に課題があった。
- 地質学的知識をTransformerの注意機構に組み込み,より正確で解釈可能なモデルを構築すること。
- 提案手法GIATは,2つのデータセットで最先端の性能を達成し,最大95.4%の精度を示した。
- 入力のわずかな変化に対しても,予測の信頼性が高く,地質学的に整合性のある結果を得た。
- 本研究は,地球科学分野における深層学習モデルの精度,信頼性,解釈可能性向上への新たな道筋を示す。
分散型専門家問題に対するより良い上限 [cs.LG, cs.DS, stat.ML]目的:分散型専門家問題における後悔の最小化
- 機械学習において,複数の専門家からの知識を統合し,最適な意思決定を行うことは重要である。
- 分散環境下では,専門家間の通信コストが課題となり,効率的なアルゴリズムが求められる。
- 通信量を削減しつつ,高い精度で後悔を抑制するアルゴリズムの開発を目指す。
- 提案手法は,既存手法よりも改善された後悔の上限を達成する。
- 後悔は,おおよそ$R\gtrsim\frac{1}{\sqrt{T}\cdot\text{poly}\log(nsT)}$で抑えられる。
- 通信量は,$\mathcal{O}\left(\frac{n}{R^2}+\frac{s}{R^2}\right)\cdot\max(s^{1-2/p},1)\cdot\text{poly}\log(nsT)$ビットである。
ZeroWBC:一人称視点動画からの自然なヒューマノイド視覚運動制御学習 [cs.RO, cs.AI]目的:ヒューマノイドロボットの自然な全身制御に関する学習手法
- ヒューマノイドロボットは,人間と共存する社会で様々な役割を担うことが期待されている。
- 既存手法は,動作パターンが限定的であったり,高価な遠隔操作データが必要であったりする。
- 人間の一人称視点動画から直接制御ポリシーを学習することで,データ収集コストを削減し,汎用的な制御を実現する。
- 提案手法ZeroWBCは,テキスト指示と視覚情報に基づいて人間の全身運動を予測するVision-Language Model (VLM) を活用する。
- 生成された運動は,ロボット関節にリターゲットされ,ロバストな全身運動追跡ポリシーによって実行される。
- Unitree G1を用いた実験により,ZeroWBCが既存手法と比較して運動の自然さと汎用性において優れていることが示された。
微分可能な確率的交通ダイナミクス:輸送における物理情報生成モデリング [eess.SY, cs.AI, cs.LG, cs.SY]目的:交通流の確率的ダイナミクスに基づく物理制約による生成モデリング
- 交通流は社会経済活動に不可欠であり,その予測精度向上は社会的なニーズが高い。
- 既存の深層学習モデルは決定論的な偏微分方程式に基づき,交通流の本来の確率性を捉えられていない。
- 確率的交通流ダイナミクスに基づく物理制約を導入し,より現実的な交通状態推定を目指す。
- 確率的交通流ダイナミクスから導出される確率フローODEを,物理制約として組み込んだスコアネットワークを提案。
- ノイズ除去スコアマッチングとフォッカー・プランク残差損失を用いた学習により,データ条件付きの密度分布を生成。
- このフレームワークは,確率的な交通状態推定と物理情報に基づく基本ダイアグラム分析の基盤を提供する。
DuplexCascade: VADなしカスケードASR-LLM-TTSパイプラインによる全二重音声対話とマイクロターン最適化 [cs.RO, cs.CL, cs.AI]目的:全二重音声対話システムの構築
- 対話システムの知能向上は,人間と自然なコミュニケーションを実現する上で重要である。
- 従来のシステムでは,VADによるターン区切りが対話の柔軟性を損なう場合がある。
- VADなしで,高度なLLMの知能を活かした全二重対話を実現することを試みる。
- DuplexCascadeは,VADなしのカスケードストリーミングパイプラインにより,全二重音声対話を可能にする。
- 従来の長いターンをマイクロターンに分割することで,迅速な双方向のやり取りを実現する。
- Full-DuplexBenchおよびVoiceBenchにおいて,最先端の全二重ターンテイキングと高い対話能力を示す。
潜在DARM:離散拡散モデルと自己回帰モデルの推論における橋渡し [cs.DB, eess.SY, cs.SY, cs.LG, cs.AI]目的:離散拡散モデルと自己回帰モデルの協調による推論能力の向上
- マルチエージェントシステムは複雑な問題解決に不可欠であり,その性能向上が求められている。
- 自己回帰モデルは流暢な文章生成に優れるが,全体的な推論や計画の修正が苦手である。
- 離散拡散モデルと自己回帰モデルの長所を組み合わせ,より高度な推論を実現すること。
- Latent-DARMは,DART-5の精度を27.0%から36.0%に,AIME2024では0.0%から14.0%に向上させた。
- 既存の最先端推論モデルと同等の結果を,2.2%以下のトークン消費量で達成している。
- 異種モデル間でのマルチエージェント協調の可能性を広げた。
楽曲分離研究における再現性のコスト:Band-Split RNNの複製実験 [cs.CL, cs.SD, cs.LG]目的:楽曲分離における再現性の問題点の検証と,改善されたBSRNNモデルの提案
- 音楽信号処理は,音楽体験の向上やコンテンツ制作に不可欠であり,その重要性は高い。
- 近年の複雑なモデルは再現性が低く,研究の検証や発展を阻害する要因となっている。
- 本研究は,既存モデルの再現性を検証し,改善策を提示することで,研究の効率化を目指す。
- BSRNNの完全なコードが入手困難であり,再現は容易ではないことが確認された。
- オリジナルモデルの再現には至らなかったが,改良を加えたBSRNNモデルは性能を大幅に向上させた。
- 再現性の重要性と,研究パイプライン全体の公開による効率化の可能性が示唆された。
説明可能なイノベーションエンジン:ノードとしての手法と検証可能な書き込みを備えた二分木エージェント-RAG [cs.DC, cs.AI]目的:知識単位をテキストチャンクからノードとしての手法へと昇格させる説明可能なイノベーションエンジンの開発
- 大規模言語モデルの知識獲得と推論能力を拡張するRetrieval-augmented Generation (RAG)技術の重要性が高まっている。
- 従来のRAGシステムは,平坦なチャンク検索に依存し,多段階合成の制御や説明可能性に課題がある。
- エージェントによる制御可能性,説明可能性,検証可能性を備えたイノベーションをRAGシステムで実現すること。
- 提案手法は,手法の来歴を追跡可能な重み付き木構造と,効率的なナビゲーションのための階層クラスタリング木構造を導入する。
- 推論時に,戦略エージェントが明示的な合成演算子を選択し,新しいノードを生成,検証可能な軌跡を記録する。
- 六つの領域での専門家による評価で,提案手法は既存手法を上回り,特に推論が必要なタスクで大きな改善が見られた。
P^2GNN:GNNの性能を向上させる2つのプロトタイプ集合 [cs.RO, cs.LG]目的:GNNの性能最適化
- グラフニューラルネットワークは,推薦システムや不正検知など,様々な産業課題に対応できる。
- 局所的な文脈への依存度が高く,グローバルな文脈やグラフ全体の情報を捉えにくい。
- プロトタイプを活用し,メッセージパッシングを最適化することで性能向上を目指す。
- P^2GNNは,既存のGNNモデルに組み込むことが可能であり,幅広いメッセージパッシングGNNに適用できる。
- 18のデータセット(Eコマースデータセットを含む)における実験により,P^2GNNは実運用モデルを上回り,オープンソースデータセットで最高平均ランクを達成した。
- 定性的分析から,グローバルな文脈の活用と局所的なノイズの軽減が性能向上に貢献することが示唆された。
推論の罠:状況認識への論理的推論の機械的経路 [cs.AI, cs.CL, cs.CY, cs.LG]目的:AIシステムの状況認識の危険性と,論理的推論能力の向上との関連性
- AIの高度化に伴い,自己認識能力の獲得は,安全性において重要な課題となっている。
- LLMの論理的推論能力の向上は進んでいるが,それが状況認識能力を高める可能性が考慮されていない。
- 論理的推論能力の向上と状況認識能力の危険性の関連を明らかにし,安全対策を提案する。
- 推論の強化が,自己推論,文脈認識,自己モデリングという3つの経路を通じて,状況認識を深めることが示された。
- LLMにおける論理的推論研究の主要テーマが,状況認識能力の増幅に直接結びつくことが明らかになった。
- 現状の安全対策では,このエスカレーションを防げない可能性があり,新たな安全基準(ミラーテスト,推論安全性均等性原則)が提案された。
信号分離のための射頻トランスフォーマー [cs.LG]目的:興味のある信号と未知の非ガウス性背景/干渉との分離
- 電波利用における信号分離は,通信品質向上のために不可欠な技術である。
- 従来の信号分離手法は,干渉の特性に関する事前情報が必要となる場合が多い。
- 本研究は,データ駆動型アプローチにより,干渉の種類に依存しない信号分離を実現する。
- 学習された表現は,干渉の種類に自動的に適応し,未知の混合信号に対しても高い汎化性能を示す。
- MIT RF Challengeデータセットを用いた実験で,提案手法は最先端技術と比較してビット誤り率を122倍低減した。
- 本手法は,電波分野だけでなく,重力波データなど他の科学センシング問題にも応用可能であると期待される。
行動としての評価:検索拡張エージェントのための自己評価型プロセス報酬 [cs.AI]目的:検索拡張エージェントにおけるプロセス報酬の評価
- 知識獲得による推論能力向上が求められる中,外部知識の活用が重要になっている。
- 検索のノイズが多段階推論の精度を低下させる点が課題となっている。
- 中間ステップの最適化を可能にする,より詳細なプロセス信号の提供を目指す。
- 提案手法EvalActは,検索品質の評価を明示的な行動に変換し,検索と評価を連動させることで,より適切なプロセス信号を獲得する。
- Process-Calibrated Advantage Rescaling (PCAR)は,評価スコアに基づいてセグメントレベルで優位性を再調整し,信頼性の高いセグメントを重視する。
- 7つのオープン領域QAベンチマークで,EvalActが最高の平均精度を達成し,特に多段階タスクで大きな改善が見られた。
感情は単なるラベルではない:LLM処理における潜在的な感情因子 [cs.CL, cs.AI, cs.LG]目的:LLM処理における潜在的な感情因子の解明
- 自然言語処理において,テキストの感情理解は高度な推論能力の基盤となるため重要である。
- 感情を考慮せずにLLMの推論行動を評価することで,性能評価の正確性に課題が残る。
- 感情因子がLLMのテキスト処理に与える影響を分析し,性能向上を目指す。
- LLMにおける注意機構の形状が感情によって系統的に変化することが示された。
- 感情的にバランスの取れた質問応答データセットAURA-QAが新たに構築された。
- 感情条件付き表現のドリフトを抑制する正則化手法が,質問応答の精度向上に貢献する。
MM-Zero:ゼロデータからの自己進化型マルチモーダルビジョン言語モデル [cs.CV, cs.LG]目的:ゼロデータからのビジョン言語モデルの自己進化
- 大規模言語モデルやビジョン言語モデルの性能向上は,AI研究の主要な課題である。
- 従来のビジョン言語モデルの自己進化には,初期データが必要となる点が課題であった。
- 本研究は,初期データなしでのビジョン言語モデルの自己進化を可能にすることを目指す。
- MM-Zeroは,提案者,コーダー,解法者の3つの役割を持つ自己進化型フレームワークを導入した。
- 実験の結果,MM-Zeroは様々なマルチモーダルベンチマークにおいて,ビジョン言語モデルの推論性能を向上させた。
- MM-Zeroは,マルチモーダルモデルの自己改善の限界を広げ,スケーラブルな自己進化パスを提供する。
線形関数近似を用いた戦略的に堅牢な多エージェント強化学習 [cs.LG, cs.GT, cs.MA]目的:一般和マルコフゲームにおける効率的かつ堅牢な均衡計算
- 多エージェント強化学習の根幹であり,複雑な環境での協調・競争を可能にする。
- ナッシュ均衡は計算困難であり,近似誤差に脆弱である。
- リスク感受性を用いたRQREを計算し,均衡の堅牢性を向上させる。
- 提案手法RQRE-OVIは,大規模または連続状態空間においてRQREを計算する。
- 有限サンプル後悔分析により,RQRE-OVIの収束性とサンプル複雑性が示された。
- 合理性とリスク感受性のパラメータ調整により,性能と堅牢性のトレードオフが明らかになった。
豊富な知性と不足する需要:急速なAI導入のマクロ金融ストレステスト [cs.AI]目的:急速なAI導入におけるマクロ金融ストレス
- AI技術の急速な発展は経済成長と金融安定に大きな影響を与えうるため,その影響を評価する必要がある。
- 既存の経済モデルは,AIがもたらす労働市場への影響や需要の減少を十分に捉えられていない。
- AI導入がマクロ経済と金融システムに及ぼす潜在的なリスクを特定し,危機発生の条件を明らかにすること。
- AIの導入が労働所得の減少と需要の低下を招き,AI導入をさらに加速させる負の連鎖が発生する可能性がある。
- AIによる生産代替が貨幣流通速度の低下を引き起こし,GDPと消費に乖離が生じる「ゴーストGDP」現象が確認された。
- AIが仲介機能を圧縮し,SaaS,決済,コンサルティングなどの分野で価格再評価が起こりうる。富裕層の消費が信用市場に与える影響が大きい。
PrivPRISM:Google Playのデータ安全宣言と開発者のプライバシーポリシー間の不一致の自動検出 [cs.AI]目的:Google Playのデータ安全宣言とプライバシーポリシー間の不一致の検出
- プライバシー保護は重要であり,アプリ利用者の信頼を得る上で不可欠である。
- プライバシーポリシーは冗長で読まれにくく,データ安全宣言との矛盾が生じやすい。
- データ安全宣言とプライバシーポリシーの一貫性を自動的に検証する手段を提供する。
- 7,770のモバイルゲームの評価で,約53%に不一致が見つかり,一般的なアプリでは61%に達した。
- 静的コード分析により,プライバシーポリシーでは機密データへのアクセスが66.8%しか開示されておらず,データ安全宣言では36.4%であることが明らかになった。
- ジェネリックなプライバシーポリシーの再利用や曖昧な記述など,広範な問題が明らかになり,自動化された執行の必要性が示唆された。
インタラクティブロボティクスの定量的設計・分析のための具現化された人間シミュレーション [cs.RO, cs.AI]目的:インタラクティブロボティクスの定量的設計と分析のためのフレームワーク
- ウェアラブルデバイスからヒューマノイドロボットまで,物理的なインタラクティブロボティクスは設計と制御の密接な連携を必要とする。
- 複雑な人間バイオメカニクスや運動応答のため,インタラクティブなダイナミクスの評価は困難である。
- 人間の内部状態を考慮したロボットの構造パラメータと制御ポリシーの同時最適化を可能にする。
- 本研究では,全身筋骨格モデルを基盤としたスケーラブルなシミュレーションフレームワークを開発した。
- 強化学習コントローラーにより,生理学的に妥当な運動挙動を生成し,大規模な設計空間探索を実現した。
- 人間とエキソスケルトンの相互作用を最適化することで,関節位置合わせの改善と接触力の低減を示した。
テスト時学習を超えて:ハードウェア効率の良い最適制御による推論学習 [cs.LG]目的:推論時の最適制御による推論能力の向上
- 言語モデルは高度な推論能力を必要とするが,その能力は組み込まれていない。
- 従来の計画手法はモデルアーキテクチャの外にあるため,スケーラビリティに課題がある。
- モデルアーキテクチャに最適制御を組み込み,効率的かつスケーラブルな推論メカニズムを構築する。
- テスト時制御(TTC)層を導入し,潜在状態に対する有限ホライズンのLQR計画を推論時に実行する。
- TTC層は,MATH-500において最大+27.8%の数学的推論性能向上,AMCおよびAIMEにおいて2〜3倍のPass@8改善を実現した。
- 最適制御をアーキテクチャコンポーネントとして埋め込むことで,テスト時学習を超えた推論が可能となる。
LLMのドメイン適応のための認知層データ合成:宇宙状況認識への応用 [cs.RO, cs.DC, cs.AI]目的:LLMを宇宙状況認識(SSA)ドメインに適応させるための高品質な教師ありファインチューニングデータセットの構築
- 宇宙状況認識は,衛星運用や宇宙デブリ対策など,宇宙活動の安全確保に不可欠な分野である。
- 既存のLLMを宇宙状況認識のような複雑な専門分野へ適用するには,データの構造的整合性や認知的な監督が課題となる。
- 本研究は,知識の網羅性,認知レベル,データ品質の制御を向上させ,LLMのSSAドメイン適応を促進することを目指す。
- 提案手法BD-FDGを用いて,約23万件のSSA-SFTデータセットを構築し,Qwen3-8BをファインチューニングしたSSA-LLM-8Bは,ドメインテストセットにおいてBLEU-1スコアを最大176%向上させた。
- アリーナ比較では,ベースラインモデルに対する勝率が82.21%を示し,汎用ベンチマーク性能の維持も確認された。
- 認知層に基づいたSFTデータ構築が,複雑な工学ドメインにおけるLLM適応のための有効なパラダイムであることが示された。
BridgeDiff:仮想試着からの平置き衣類合成における人間観察と平置き衣類合成の架け橋 [cs.CV, cs.AI]目的:仮想試着画像からの平置き衣類の表現復元
- オンラインショッピングの普及に伴い,バーチャル試着技術への需要が高まっている。
- 従来の平置き衣類合成手法は,見た目と平置き構造のギャップにより,不整合や不安定性を招く。
- 人間が身につけた衣服の情報を活用し,平置き衣類の構造的安定性と高品質な復元を目指す。
- BridgeDiffは,拡散モデルに基づき,人間観察と平置き衣類合成を架橋するフレームワークである。
- Garment Condition Bridge Module (GCBM)により,部分的に視認できない状態でも詳細な情報を推論可能にする。
- Flat Structure Constraint Module (FSCM)により,平置き衣類の構造的制約を注入し,構造的安定性を向上させる。
Social-R1:LLMにおける人間らしい社会推論に向けて [cs.AI]目的:大規模言語モデルにおける社会推論能力の向上
- 人間との協調やニーズへの対応のため,AIに社会性(状況理解や意思推論)が不可欠である。
- 既存モデルは表面的なパターンに頼る傾向があり,真の社会推論ができていない。
- 困難な事例を用いた学習と,人間の認知構造に合わせた報酬設計で,社会性を高める。
- 本研究では,困難な事例を提供するToMBench-Hardと,多次元報酬を用いたSocial-R1を提案した。
- Social-R1により,40億パラメータのモデルが大規模モデルを凌駕し,多様なベンチマークで高い汎化性能を示した。
- 困難な事例と軌道レベルでの整合性向上は,効率的かつ信頼性の高い社会知能への道を示す。
固定テスト時間コストでの効率的な推論:長さ依存注意事前分布とゲイン認識学習による [cs.IR, cs.LG]目的:限られた計算資源下における効率的な推論手法
- 大規模言語モデルの推論コストは依然として高い。実用化には計算効率の改善が不可欠である。
- 既存手法では,推論速度と精度を両立することが困難である。特に長い系列の処理が課題となる。
- テスト時の計算コストを固定したまま,推論の効率と精度を向上させることを目指す。
- 長さ依存注意事前分布(RPA)を用いることで,推論パラメータを増加させずに注意機構を誘導し,正則化の効果を発揮する。
- 検証性能の向上に応じて注意の鋭さを調整するゲイン認識コントローラ(Guardian)は,推論時には無効化され,オーバーヘッドを最小限に抑える。
- WikiText 2における実験結果は,検証クロスエントロピーを低減しつつ,ベースラインと同等のレイテンシとメモリ使用量を実現することを示している。
自律運転のためのマルチモーダルアプローチ:交通標識,車両,車線検出と行動クローニングに関する包括的研究 [eess.SY, cs.SY, physics.chem-ph, cs.CV, cs.AI]目的:自律運転車の性能向上
- 自動運転技術は,交通安全の向上や移動の効率化に不可欠であり,社会実装が期待されている。
- 多様な環境下での正確な物体認識や行動予測が難しく,安全性確保が課題となっている。
- 交通標識,車両,車線検出,行動クローニングといった要素技術の精度向上を目指す。
- 事前学習済みおよびカスタムニューラルネットワークを活用し,交通標識の分類,車両検出,車線検出,行動クローニングの性能を向上させた。
- 幾何学的・色変換によるデータ拡張,画像正規化,転移学習などの手法を組み合わせることで,モデルの汎化性能を高めた。
- 様々なデータセットを用いた評価により,提案手法が自動運転システムの安全性と信頼性向上に貢献することが示された。
最適輸送を用いた推移的汎化とグラフノード分類への応用 [cs.LG, stat.ML]目的:推移的汎化のための新たな表現に基づく一般化限界
- 機械学習の汎化性能評価は重要であり,特にグラフ構造データに対する汎化能力の理解が求められる。
- 既存の推移的汎化限界は計算困難な複雑度指標に依存し,実証的な振る舞いと乖離している場合がある。
- 最適輸送理論を用いて,計算可能で実証的な汎化性能と相関する新たな汎化限界を導出すること。
- 最適輸送に基づく表現学習の汎化限界を導出し,Wasserstein距離を用いて表現分布間の距離を定量化した。
- グラフノード分類において,導出された限界は古典的な複雑度指標よりも汎化性能との相関が高いことが示された。
- GNN集約過程が表現分布を変換し,クラス内集中とクラス間分離のトレードオフを引き起こすことが明らかになった。
ロゴス:合理的な分子設計のための進化型推論エンジン [cs.AI]目的:機能性分子の合理的な設計を可能にする推論エンジンの開発
- 化学,生物学,材料科学において,機能性分子の探索・設計は重要な課題である。
- 既存の機械学習モデルは,物理的精度と透明な推論,または柔軟な推論と化学的妥当性のバランスを取れていない。
- 化学的整合性を保ちつつ,多段階の論理的推論を行うモデルを構築し,信頼性の高い分子設計を実現すること。
- ロゴスは,明示的な推論例と分子表現を段階的に整合させることで学習を行う。
- 複数のベンチマークデータセットにおいて,構造的精度と化学的妥当性で,大規模言語モデルを凌駕する性能を示した。
- 中間的な推論ステップを明示的に示すことで,生成された構造の設計ロジックの人間による検証を可能にした。
DendroNN:イベントベースデータのエネルギー効率の高い分類のための樹状ニューラルネットワーク [cs.HC, cs.LG, cs.AI, cs.AR, cs.ET, cs.NE]目的:イベントベースデータの分類における,樹状ニューラルネットワークの有効性
- 空間時間情報は,多様な感覚処理と計算タスクの中核をなすため,その効率的な処理が重要である。
- 既存のスパイクニューラルネットワークは,時間情報の正確な解読が難しく,再帰や遅延を用いることが多い。
- 本研究は,樹状突起のシーケンス検出メカニズムを応用し,ハードウェア効率の良い時間情報処理を実現する。
- DendroNNは,入力スパイクシーケンスを空間時間特徴として識別し,高い分類精度を達成した。
- DendroNNの動的・静的スパース性を活用することで,最新のニューロモーフィックハードウェアと比較して最大4倍の効率を実現した。
- 時間ホイール機構を用いた非同期デジタルハードウェアアーキテクチャを提案し,イベント駆動型設計の利点を活かした。
プロキシ誘導による測定値の較正 [cs.LG]目的:アウトカム変数の系統的測定誤差の推定と修正
- 調査や行政記録から得られるデータは,政策評価や意思決定の基盤となる。信頼性の高いデータが不可欠である。
- アウトカム変数は系統的な測定誤差を含むことがあり,分析や意思決定を歪める可能性がある。
- プロキシ変数を用いて,測定誤差を定量化し,アウトカム変数を較正することで,より正確な分析を可能にする。
- 本研究では,因果グラフを用いて真のアウトカムと系統誤差を分離し,プロキシ変数を活用するフレームワークを提案した。
- 変分オートエンコーダを用いて,潜在的な内容変数とバイアス変数を分離し,バイアスの影響を推定する2段階アプローチを開発した。
- シミュレーションデータ,半合成データ,および実際の災害損失報告データを用いて,提案手法の有効性を検証した。
ノイズ除去スプラット:ノイズの多い3Dシーン再構成のためのフィードフォワードガウススプラッティング [cs.CV, cs.AI]目的:ノイズの多いマルチビュー画像からの3Dシーン再構成手法
- VR,ロボット工学,コンテンツ制作等の分野において,3Dシーン再構成と新規視点合成は不可欠である。
- 既存のNeRFや3Dガウススプラッティングはクリーンな入力を前提としており,現実のノイズやアーティファクトに弱い。
- ノイズに強い3Dガウススプラッティング手法を開発し,現実的なノイズ環境下での再構成精度を向上させる。
- DenoiseSplatは,ノイズの多いRE10Kデータセットにおいて,PSNR/SSIMおよびLPIPSで既存のMVSplatや二段階ベースラインを上回る性能を示した。
- 軽量なフィードフォワードバックボーンを使用し,3Dのグランドトゥルースなしに,クリーンな2Dレンダリングのみを教師データとしてエンドツーエンドで学習する。
- RE10Kにガウス,ポアソン,スペックル,塩胡椒ノイズを注入した大規模なシーン整合性のあるノイズ--クリーンなベンチマークを構築した。
信頼度の再調整:大規模言語モデルのメタ認知に関するスケール設計の示唆 [cs.AI]目的:大規模言語モデルにおけるメタ認知能力の評価手法の改善
- 大規模言語モデルの信頼性評価は重要であり,その不確実性の把握が不可欠である。
- 既存の信頼度スコアは,スケール設計が考慮されておらず,評価の質に影響を与える可能性がある。
- 信頼度スケールの設計が,大規模言語モデルのメタ認知能力の評価に及ぼす影響を解明する。
- 大規模言語モデルの出力する信頼度スコアは,丸い数値に集中する傾向が強いことが示された。
- 0~20のスケールが,従来の0~100のスケールよりもメタ認知効率を向上させることが明らかになった。
- 信頼度スケールの設計は,大規模言語モデルの不確実性評価の質に直接影響するため,実験変数として重要である。
機械学習における学習ダイナミクスに対するガウス比較定理 [cs.LG, math.PR, stat.ML]目的:機械学習の学習ダイナミクス解析
- 機械学習の性能向上には,学習過程の理論的理解が不可欠である。
- 複雑な学習アルゴリズムの解析は困難であり,近似的な手法に頼ることが多い。
- ガウス混合モデルを用いた学習における,より厳密な解析手法を確立すること。
- 本研究では,学習の進化を解析しやすい代替的な動力学系と結びつける非漸近的な結果を提示した。
- Gordon比較定理に基づき,漸近的なシナリオにおいて動的平均場(DMF)表現の有効性を厳密に証明した。
- また,非漸近的なシナリオにおいて,より正確な表現を得るための反復改良スキームを提案した。
カーブボール操舵:正しい操舵方向は必ずしも線形ではない [cs.AI]目的:大規模言語モデルの挙動制御手法の改善
- LLMの挙動制御は,その応用範囲の広さから重要性が増している
- 線形表現仮説に基づく既存手法は,一貫性のない挙動を示す場合がある
- LLMの活性化空間の非線形性を考慮した操舵手法を提案し,その有効性を示す
- LLMの活性化空間には概念に依存した歪みが存在し,線形近似が不適切であることが示された
- 提案手法「カーブボール操舵」は,非線形な空間で介入を行うことで,既存の線形PCAに基づく手法を上回る性能を発揮した
- 特に歪みが強い領域において,幾何学に基づいた非線形操舵の有効性が確認された
CLoE:欠損モダリティセグメンテーションのための専門家一貫性学習 [cs.CV, cs.AI, cs.LG]目的:欠損モダリティ下におけるセグメンテーション性能の維持
- 医療画像セグメンテーションは,病変の正確な検出・診断に不可欠であり,臨床応用が期待されている。
- 推論時にモダリティが欠損すると,専門家間の不一致が生じ,特に小さい病変領域での融合が不安定になる。
- モダリティ欠損下でも安定したセグメンテーションを実現するため,専門家の一貫性を高めることを目指す。
- CLoEは,専門家レベルの一貫性制御により,欠損モダリティ下でも高いセグメンテーション性能を維持する。
- モダリティ専門家一貫性は,部分入力下での予測のずれを抑制し,領域専門家一貫性は,臨床的に重要な領域への適合性を高める。
- 一貫性スコアをモダリティ信頼性重みに変換し,融合前の特徴再調整を行うことで,ロバスト性を向上させている。
SpaceSense-Bench:宇宙船の知覚と姿勢推定のための大規模マルチモーダルベンチマーク [cs.CV, cs.AI]目的:宇宙船の知覚と姿勢推定に関する大規模ベンチマークデータセット
- 軌道上での活動は増加傾向にあり,宇宙船の自律的な操作が不可欠となっている。
- 現実の軌道データ収集のコストが高く,既存の合成データセットは多様性やアノテーションに課題がある。
- 大規模かつ多様なデータセットを通じて,宇宙船知覚の性能向上を目指す。
- SpaceSense-Benchは,136種類の宇宙船モデルと約70GBのデータを含む大規模なマルチモーダルベンチマークである。
- 実験により,小型コンポーネントの認識や未知の宇宙船への汎化能力が現在の方法論におけるボトルネックとなっていることが示された。
- 学習に使用する宇宙船の数を増やすことで,新しいターゲットに対する性能が向上することが確認された。
言葉の背後にある感情を読み解く:VRエージェントへの感情由来の文脈統合 [cs.HC, cs.AI]目的:VRにおける感情に基づいた応答の質の向上
- 人間は言葉だけでなく,話し方でも感情を読み取るため,VRエージェントにも同様の能力が求められる。
- 既存のVRエージェントはテキスト処理に偏り,声の抑揚などの感情表現を無視している場合が多い。
- 声の抑揚から感情を認識し,VRエージェントの応答に反映させることで,より自然な対話を目指す。
- 感情認識モデルを組み込んだVRエージェントは,対話の質,自然さ,没入感,共感性,人間らしさにおいて有意な改善が見られた。
- 参加者の93.3%が,感情を考慮したエージェントを好ましいと評価した。
- 本研究は,VRエージェントにおける感情表現の重要性を示唆し,より人間らしいインタラクションの可能性を広げた。
報酬ゼロ:言語埋め込み駆動による強化学習のための暗黙的報酬メカニズム [cs.LG]目的:言語埋め込みに基づく暗黙的報酬メカニズム
- 強化学習は,ロボット工学やゲームなど幅広い分野で応用が期待される重要な技術である。
- 従来の強化学習では,報酬関数の設計が難しく,性能向上を阻害する要因となる場合がある。
- 自然言語によるタスク記述から自動的に報酬を生成し,報酬設計の負担を軽減することを目指す。
- Reward-Zeroは,自然言語タスク記述を密な意味的進捗信号に変換する汎用的な暗黙的報酬メカニズムである。
- Reward-Zeroを組み込むことで,探索が加速し,学習が安定化し,多様なタスクに対する汎化性能が向上することが示された。
- 複雑なタスクにおいて,手動で設計した報酬では解決できなかったタスクをReward-Zeroによって解決することができた。
文法誘導検索による実行可能な音楽エフェクト制御:TimberAgent [cs.SD, cs.AI]目的:実行可能な音楽エフェクト制御のための文法誘導検索手法
- 音楽制作において,エフェクトチェーンは重要な役割を果たすが,直感的な操作が課題となっている。
- ユーザーの意図と低レベル信号処理パラメータとの間には意味的な隔たりが存在する。
- 質感に着目した検索により,編集可能なオーディオエフェクト制御を実現すること。
- 提案手法 TimberAgent は,既存手法と比較して,正規化されたパラメータエラーが最も低いことを示した。
- 質感に着目した検索が,編集可能なオーディオエフェクト制御に有用であるというベンチマーク結果が得られた。
- 聴覚評価実験からも,提案手法の有効性が裏付けられた。
大規模言語モデルにおける戦略的思考と迅速な意思決定能力の評価:ゼロサム環境における検討 [cs.CV, cs.AI]目的:大規模言語モデルの戦略的思考と迅速な意思決定能力の評価
- 対戦環境におけるAIエージェントの性能向上は,ゲームやロボティクスなど幅広い分野で重要である。
- 既存の評価方法は,対戦相手への適応や時間的制約といった,実環境での課題を考慮していない。
- 本研究は,対戦環境下での戦略性と実行速度のトレードオフを評価する新たなベンチマークを提案する。
- 大規模言語モデルの戦略的思考能力はターン制環境では高いが,リアルタイム環境では推論遅延により性能が低下する傾向にある。
- 戦略的思考と実行速度のバランスが,対戦環境におけるAIエージェントの性能を左右する重要な要素となることが示された。
- STARベンチマークは,戦略性と実行速度のトレードオフを研究するための,再現性と柔軟性を備えた環境を提供する。
TaSR-RAG:タキソノミー誘導型構造化推論による検索拡張生成 [cs.CL, cs.AI]目的:検索拡張生成におけるエビデンス選択の構造化
- 知識集約型かつ時間依存性の高い質問応答において,大規模言語モデルの性能向上は重要である。
- 既存のRAGシステムは,非構造化チャンクの取得やワンショット生成に頼り,冗長性や推論の脆弱性が課題である。
- 複雑な質問に対する段階的なエビデンス選択と,変数解決によるエンティティの混同軽減を目指す。
- 提案手法TaSR-RAGは,タキソノミーを用いてクエリとドキュメントを関係性三つ組で表現し,エビデンス選択を構造化する。
- 実験の結果,既存のRAGシステムや構造化RAGシステムを最大14%上回る性能を示し,より明確な根拠と信頼性の高い推論経路を提供する。
- 明示的なエンティティバインディングテーブルを用いることで,グラフ構築や網羅的な探索をせずに中間変数を解決し,エンティティの混同を低減する。
