arXiv雑要約
AI - 2026/06/16 公開
マルチ燃料エンジンのリアルタイム不確かさ補償によるデータ駆動制御 [eess.SY, cs.LG, cs.SY]目的:マルチ燃料エンジンにおける燃焼制御のためのデータ駆動型リアルタイム不確かさ補償フレームワーク
- マルチ燃料エンジンは,高い出力密度と燃料の柔軟性を提供する。エネルギー効率向上の鍵となる技術である。
- 運転条件の範囲が広いため,最適な燃焼時期を安定して実現することが困難である。モデル化の不確かさも課題である。
- モデルの不確かさに動的に適応し,リアルタイムで燃焼時期を制御することで,この問題を解決することを目的とする。
- 提案手法は,エンジンの不確かさに対応するため,擬似エンジン速度を導入し,制御入力を動的に適応させる。
- ガウス過程回帰モデルを用いて非線形な燃焼過程をモデル化し,学習されたモデルの逆変換と不確かさ補償器を組み合わせた統合制御戦略を採用した。
- シミュレーション結果は,提案手法が燃焼時期をリアルタイムで目標値に導くことを示しており,マルチ燃料エンジンの制御に有効である。
TimeVista:時系列予測におけるVision-Languageモデルを評価者として活用する [cs.AI]目的:時系列予測モデルの評価手法
- 現実世界の意思決定には高品質な時系列予測が不可欠である。
- 従来の指標は複雑な時間的パターンを捉えきれず,人間の直感と一致しない場合がある。
- VLMsを用いた新たな評価ベンチマークを構築し,時系列予測モデルの評価を改善する。
- VLMsは,従来の指標よりも人間の嗜好との一致度が高い,信頼性の高い評価者であることが示された。
- TimeVistaは,5563の時系列サンプルと詳細な評価基準を含む,包括的なVLM-as-a-Judgeベンチマークである。
- VLMsは,時系列予測モデルを評価するための,堅牢かつ解釈可能な基準を提供する。
PAL-Bench:縦断的個人アルバムからの証拠に基づいたプロファイル再構築 [cs.AI]目的:縦断的個人アルバムからのプロファイル再構築
- 個人のデジタル記録の重要性が増しており,その活用法が求められている。
- 大規模な個人アルバムデータの分析は,プライバシー保護の観点から困難である。
- プライバシーを保護しつつ,個人アルバムデータから正確なプロファイルを再構築すること。
- PAL-Benchは,プライバシーを保護しながら,証拠に基づいたプロファイル再構築を可能にする制御されたベンチマークである。
- 既存システムは,所有者の事実の一部を回復できるものの,繰り返し出現するアイデンティティや証拠の引用には苦戦している。
- アイデンティティの束縛を事前に固定するPAL-TRACEフレームワークが最も優れた性能を示したが,難しいアイデンティティ解決は未だ課題である。
忘却は保存である:3D医療画像セグメンテーションにおける機械的アンラーニング [cs.RO, cs.CV, cs.LG]目的:3D医療画像セグメンテーションモデルからのデータアンラーニング手法の評価
- 個人情報保護の重要性が高まり,機械学習モデルからのデータ削除要求への対応が求められている。
- モデルから特定のデータを効率的に削除し,かつ性能劣化を最小限に抑えることが課題である。
- データプライバシー法に準拠しつつ,3D医療画像セグメンテーションにおける実用的なアンラーニング手法を確立する。
- Noisy Label戦略が,保持データセットの精度を84%維持しつつ,忘却データセットで93%の削減を達成した。
- 他の戦略は,エポック数が増加するにつれて,忘却が激化し,保持データセットの性能が大幅に低下した。
- 本研究は,件別アンラーニングの性能指標の厳密な基準を提供し,適切な戦略選択のための指針となる。
LLMを活用した需要予測と価格設定のための仮想人口 [cs.LG, cs.AI, cs.CL]目的:需要予測と価格設定のための仮想人口モデル
- 商品情報が豊富でありながら,過去の需要データが限られている状況下での需要予測は重要である。
- 従来の需要予測は,商品の詳細な情報を十分に活用できていない場合がある。
- LLMを用いて,より正確かつ不確実性を考慮した需要予測を実現することを目指す。
- 本研究で開発されたLLMベースのシミュレーターは,オンラインH&Mファッションデータセットにおいて,他のモデルを上回る予測性能を示した。
- このフレームワークは,商品の詳細な情報と構造化された顧客情報を用いて,購買確率を推定し,集約需要分布を予測する。
- これにより,期待収益だけでなく,リスクを考慮した価格設定が可能となり,効率的な価格決定を支援する。
組み込みアリーナ:ハードウェアからのフィードバックによる反復最適化 [cs.AR, cs.AI]目的:異種マイクロコントローラに対するモデル最適化
- 低遅延,通信,プライバシー等の制約から,エッジデバイスでのローカルAI推論の重要性が高まっている。
- メモリ,電力,温度等の物理的制約を満たしつつ,精度を維持する最適化が困難である。
- ハードウェアフィードバックを活用し,LLMエージェントによる自動最適化を実現する。
- ハードウェアループを用いたアリーナにより,モデルとファームウェアを反復的に改善可能となった。
- Claude Opus 4.7やGemini 3.1 Proはハードウェアフィードバックなしでは展開に失敗したが,本手法は3回の反復で成功した。
- ビジョンモデルは250倍,オーディオモデルは400倍に圧縮し,それぞれ<3.3%,<6%の精度低下で済んだ。
カスケードスパースオートエンコーダがマルチモーダルLLMにおける多層的視覚概念を学習する [cs.CV, cs.AI, cs.LG]目的:マルチモーダルLLMにおける多層的な視覚概念の学習
- 近年,画像とテキストを扱うLLMの性能は飛躍的に向上しているが,その内部の視覚表現は解釈が困難である。
- 既存のスパースオートエンコーダは,フラットな特徴辞書を回復する傾向があり,明示的な多層的概念構造の学習には不向きである。
- 本研究では,カスケードスパースオートエンコーダを用いて,LLM内の階層的な視覚概念を学習し,解釈性を高めることを目指す。
- カスケードスパースオートエンコーダは,既存のSAEベースラインと比較して,より一貫性のある階層的概念構造を学習できることが示された。
- 学習された概念群は,LLMの出力に対するグループレベルでの介入を効果的にサポートし,概念操縦の性能を向上させる。
- Qwen3-VL,Gemma-3,LLaVAといった複数のLLMで実験が行われ,様々な視覚データセットにおいて有効性が確認された。
概念が欠如した場合の確信:表現摂動による解釈可能なOOD検出 [cs.LG, cs.CV]目的:分布外検出の解釈可能性向上
- 医療画像解析の性能向上は目覚ましいが,分布シフトへの過剰な一般化が臨床応用上の課題。
- 既存のOOD検出手法は,意味が不明瞭な内部信号に依存し,信頼性が低い。
- 概念に基づいた表現の安定性分析により,解釈可能なOOD検出を実現する。
- 提案手法では,スパースオートエンコーダを用いてクラス固有の概念ベクトルを学習。
- 分布内データは概念ベクトルに対する摂動に鈍感であり,分布外データはそれに敏感であることが示された。
- OOD検出を概念条件付き安定性分析として捉え,モデルの不確実性の原因を解釈可能にした。
一人称視点動画からの変形物体の汎化可能な物理モデル学習:EgoPhys [cs.CV, cs.AI, cs.RO]目的:変形物体の汎化可能な物理モデルの構築
- 人間は日常的な相互作用を通じて物体物理を自然に理解するが,ロボットには困難。
- 弾性材料や布など,複雑な変形ダイナミクスの予測は,コンピュータビジョンとロボティクスの大きな課題。
- 一人称視点動画から,汎化可能な事前知識を用いて変形物体のデジタルツインを生成すること。
- EgoPhysは,コンパクトなコードブックへのオブジェクトごとの逆物理ソリューションの蒸留により,見慣れないオブジェクトに対する密なスプリング剛性場の予測を実現。
- 多様な一人称視点インタラクションで学習したEgoPhysは,再構成,未来予測,ゼロショット汎化においてベースラインを上回る性能を示す。
- EgoPhysを実機ロボットに展開した結果,単一の一人称視点動画から初期化されたデジタルツインが,変形物体計画を支援する内部世界表現として機能することが示された。
LLMチューターが教えるか,問題を解くかを測定する:教育的影響の診断 [cs.AI, cs.CL, cs.CY, cs.HC]目的:LLMチューターの教育的影響に関する評価方法
- 教育現場におけるLLM活用の可能性が注目されているため,その効果を正しく評価する必要がある。
- LLMのタスク遂行能力と学習支援能力は必ずしも一致せず,評価指標が不十分である。
- LLMの教育的影響をより適切に評価するための診断手法を提案し,その有効性を示す。
- 公開されているMathTutorBenchの結果から,問題解決能力と教育的指導能力の間には部分的な相関関係しか見られないことが示された。
- 特にアクティブラーニング環境では,学生の主体性を尊重する評価基準が明示されていることが明らかになった。
- 教育的影響の評価においては,タスクの成功だけでなく,学習支援能力を個別に評価する必要がある。
シーン関連観察商によるセンサー条件付き表現学習 [cs.RO, cs.DL, cs.IR, cs.AI]目的:センサー条件付き環境下における,シーンの区別を保持し,不要な変動を抑制する表現学習
- 知能センシングシステムの性能向上は重要であり,表現学習はその鍵となる技術の一つである。
- 既存の評価基準では,センシングプロセスに正当化される潜在的な区別を特定できていない。
- センシングによって支持されるシーンの区別を維持し,不要な変動を抑制する表現学習を目指す。
- シーン関連観察商(observation quotient)を用いた表現学習フレームワークOQ-TSAEを提案した。
- OQ-TSAEは,再構成,距離学習,対照学習などの既存手法と比較して,表現の正確性診断において優れていることを示した。
- 実レーダー実験では,OQ-TSAEが観測劣化に対する頑健性や低いシード間変動を示すことを確認した。
LUCID:決定論的フローマッチングを用いた疎視CT再構成のための学習アンダーサンプリング適応一貫性誘導推論 [cs.CL, cs.CV, cs.AI]目的:疎視CT再構成のための,学習に基づくアンダーサンプリング適応一貫性誘導推論手法
- 被ばく線量を削減し,検査時間を短縮できるため,CT検査において疎視法は重要視されている。
- 投影データの取得角度が少ないと,再構成が不安定になり,縞状アーチファクトや構造のぼやけが生じる。
- 特定のサンプリング設定に依存せず,かつ解剖学的に不整合な構造物の生成を抑制する再構成法の開発。
- LUCIDは,高品質なCT画像のみを用いて学習することで,サンプリングパターンに依存しない連続的な変換を学習する。
- 推論時には,サンプリングの疎さを明示的に組み込み,事前学習済みのモデルの生成軌跡を適応させる。
- 実験の結果,様々な疎視設定下で安定した再構成性能を示し,画像品質と構造の忠実性を向上させ,幻覚のような構造物のリスクを低減できることが示された。
ベイズ深層学習における較正済みのサンプリングフリー不確実性推定 [cs.LG, cs.AI]目的:ベイズ深層学習における不確実性推定手法の開発
- 深層学習の信頼性は重要であり,特にハイステークスな応用においては,過信の問題を解決する必要がある。
- ベイズ法の計算コストが高く,大規模なモデルへの適用が困難であった。
- 単一のフォワードパスで不確実性を効率的に推定する手法を提案し,計算コストを削減することを目指す。
- 提案手法CVPは,トランスフォーマーやCNNにおいて,モンテカルロサンプリングと同等の精度で不確実性推定を可能にする。
- CVPは,既存の分散伝播法と比較して,NLVR2およびVQAv2におけるカバレッジを大幅に向上させた。
- CVPは,正規化層の伝播方法を改良し,活性化関数や残差誤差を適切に処理することで,高い精度を実現する。
PACT:複数ターンツール利用エージェントのための特権的トレース共同学習 [cs.CL, cs.AI, cs.LG]目的:複数ターンツール利用エージェントの事後学習手法
- 対話型AIの高度化には,複数ターンにわたるツール利用能力が不可欠である。
- 強化学習は報酬の希薄性やクレジット割り当ての難しさ,教師ありファインチューニングは過剰な制約が課題。
- 専門家のトレースを最適化信号として活用し,これらの課題を克服する。
- PACTは,専門家のトレースをロールアウト時のヒントとしてではなく,最適化信号として利用する。
- トレース条件付きの強化学習と,コンポーネントを意識したSFT損失により,ロールアウト生成能力を向上させる。
- FTRL,BFCL,ToolHopにおける実験で,既存手法を上回る性能が確認された。
デジタルツインモデリングのためのグラフ的条件生成モデリング [cs.CE, cs.LG, physics.comp-ph]目的:デジタルツインモデリングにおける変数選択とモデル構造の発見
- デジタルツインは,現実世界のシステムのシミュレーションや予測において重要な役割を担う。
- モデルの複雑化が,検証,解釈,安全性の評価を困難にするという課題がある。
- 関連変数の特定と簡潔な確率的代替モデルの構築を目指す。
- 提案手法は,ターゲット変数の条件付き分布から重要な入力変数を特定する。
- 結果として得られる代替モデルは,解釈可能で,精度も高いことが示された。
- 制御問題においては,学習されたマルコフ決定過程として解釈できる。
潜在的思考の流れ:大規模言語モデルにおける効率的な潜在的推論 [cs.AI, cs.LG]目的:大規模言語モデルにおける効率的な潜在的推論の実現
- 大規模言語モデルの推論能力向上は,より複雑なタスクへの応用を可能にする重要な課題である。
- 既存のChain-of-Thoughtは計算コストが高く,潜在的推論は最適な経路探索が困難である。
- 報酬と計算コストに基づいた,より効率的な推論経路の探索を目指す。
- LTFは,連続空間における可変長の推論経路をモデル化し,報酬に基づいた経路分布を学習する。
- 提案手法は,中間報酬に対するエントロピー重み付けと参照事前分布正則化を導入することで,疎な教師データでも学習を可能にする。
- 実験の結果,LTFはCoTや既存の潜在的推論手法を上回り,精度向上と推論長の短縮を両立した。
活性学習と生成学習による並列化学アプリケーションの実行時間パラメータ予測 [cs.LG]目的:並列化学計算の実行時間パラメータの予測
- 化学計算の精度向上は,物質科学や創薬において不可欠であり,計算コストの削減が重要である。
- 大規模並列計算の実行時間予測は難しく,効率的な計算資源の利用を阻害する要因となっている。
- 機械学習を用いて,少ないデータで高精度な実行時間予測を実現し,計算資源の効率的な利用を目指す。
- 活性学習と生成学習を組み合わせた機械学習モデルは,Coupled-Cluster計算において高い予測精度を実現した。
- 平均絶対誤差率(MAPE)は0.023まで低下し,決定係数は99.9%に達した。
- 活性学習を用いることで,元のデータセットの20-25%のデータ量でMAPE約0.2程度の予測が可能となった。
トークンからリージョンへ:GPUカーネル生成のためのCUDA感受性命令チューニング [cs.LG, cs.AI]目的:GPUカーネル生成におけるCUDA感受性モデルの性能向上
- AIシステムの拡張性に不可欠な高性能CUDAカーネルの自動生成技術の確立が求められている。
- 既存のLLMは,厳密な実行制約のため,正しいカーネル生成に苦戦している。
- CUDA感受性トークンとリージョンを考慮し,低コストで高性能なカーネル生成を実現すること。
- CuSeTは,標準的なSFTや高度なSFT変種と比較して,関数的な正しさを一貫して向上させる。
- CuSeTは,推論コストを大幅に削減しながら,最先端のCUDAカーネル生成モデルと同等の性能を達成する。
- 本研究は,トークンレベルとリージョンレベルの両方でCUDA感受性を捉え,「トークンからリージョンへ」という原理を提唱する。
構造的ガイダンスの伝播:眼底画像と疎なOCTスキャンからのフルオレセイン血管造影合成 [cs.RO, cs.CV, cs.AI]目的:眼底画像とOCTスキャンを用いたフルオレセイン血管造影画像の合成
- 網膜血管異常の評価にフルオレセイン血管造影が不可欠だが,侵襲的であり実施が難しい場合がある。
- 既存研究は眼底画像のみに依存し,機能的な血管情報や微妙な病理変化の再構成が制限されていた。
- OCTによる構造的ガイダンスを導入し,より高精度なフルオレセイン血管造影合成を目指す。
- 本研究では,眼底画像とOCTスキャンを組み合わせることで,フルオレセイン血管造影画像を合成する新しいフレームワークを提案した。
- 提案手法は,最新の手法と比較して優れた合成性能を示し,下流の疾患診断性能も向上した。
- 本研究は,非侵襲的な診断支援ツールとしての臨床的な可能性を示唆している。
強化学習における汎化のための進化型二層報酬形成 [cs.LG, cs.NE]目的:強化学習における汎化性能の向上
- 現実世界の環境は多様であり,訓練環境と異なる状況での性能維持が重要である。
- 従来の強化学習は,訓練環境と異なる環境での性能低下が課題である。
- 限られた情報下で,汎化性能を向上させる報酬形成手法を開発する。
- 提案手法GERSは,報酬形成を通じて未知の環境での汎化性能を向上させる。
- GERSは,軌跡データへのアクセスが制限された環境でも,標準的な強化学習よりも優れた性能を示す。
- 軌跡アクセスなしで,ドメインランダム化と同等の性能を達成する。
創造的衝突:大規模言語モデルにおける演出家人格の誘導と競合 [cs.CL, cs.LG]目的:大規模言語モデルにおける演出家人格の誘導と競合のメカニズム
- 言語モデルの制御は,人間らしい自然な文章生成に不可欠であり,その応用範囲は広い。
- 既存研究では単一の方向性で誘導するため,複雑な表現や対立する要素の表現が困難であった。
- 対立する演出家人格の誘導を試み,創造的な文章生成の可能性を探る。
- スティーブン・スピルバーグの人格ベクトルは,マーティン・スコセッシの人格ベクトルに対して強い支配力を持つことが示された。
- 中間的な人格の衝突点が,高い誘導強度において,単一の演出家による誘導よりも生成の一貫性を向上させるという逆説的な結果が得られた。
- 両演出家の人格は,40層のデコーダーモデルの28層に集中しており,道徳的なトーンを表現する基盤層が存在することが示唆された。
迅速な毒:Rapid Responseフレームワークに対する実用的なポイズニング攻撃 [cs.LG, cs.CL]目的:Rapid Responseフレームワークの訓練データへのポイズニングによる攻撃手法の研究
- 大規模言語モデルの安全性確保は重要であり,特に有害な入力を検知し防御する仕組みが不可欠である。
- 既存の検知器を回避する新たな攻撃手法が継続的に出現しており,検知器の学習データの質が安全性に大きく影響する。
- Rapid Responseのような自己学習型システムへの攻撃を通じて,検知器の誤認識を誘発し,安全性を損なう可能性を明らかにする。
- プロンプトインジェクションにより,検知器の学習データに悪意のあるサンプルを混入させることが可能であることが示された。
- 特定のフォーマットやキーワードを含む無害な入力を誤って有害と認識させたり,特定のトリガーを含む入力を安全と認識させるような攻撃が成功した。
- わずか1%のポイズニング率で,高い誤検知率(最大100%)と見逃し率(最大96%)を達成し,実用的な脅威となることが示唆された。
過学習制御のための線形計画法による局所探索: Transformersへの応用 (Kagakugaku Seigyo no Tame no Senkei Keikakuho ni yoru Kyokuchi Tansaku: Transformers e no Ouyo) [cs.LG, cs.CL]目的:Transformerモデルの過学習を抑制した微調整
- Transformerは自然言語処理の主要なモデルであり,多様なタスクで高い性能を示す。
- Transformerの微調整は過学習を起こしやすく,汎化性能が低下する可能性がある。
- 過学習を抑制しつつ,効率的にTransformerを特定のタスクに適応させる。
- 提案手法LiFTは,線形計画法を用いてTransformerの微調整を最適化し,過学習を抑制する。
- 検証データに基づいた勾配とヘッセ行列の情報を用いて,パラメータと正則化ハイパーパラメータを同時に更新する。
- WikiText-2での実験により,LiFTはperplexityを改善し,過学習しやすい状況で特に効果が認められた。
SPARK:セキュリティ知識のプライミングと表現誘導による知識活性化を用いたLLMベースの安全なコード生成 [cs.CR, cs.AI]目的:LLMによる安全なコード生成の実現
- ソフトウェアの脆弱性は深刻な問題であり,セキュリティ確保は不可欠である。
- LLMが生成するコードにはセキュリティ上の欠陥が多く,十分な対策が求められる。
- 既存のセキュリティ知識を効率的に活性化し,安全なコード生成を促進すること。
- SPARKは,追加の学習や大規模なデータ検索を行わずに,LLMに潜在するセキュリティ知識を活性化する。
- CWE情報をプロンプトに付加するだけで,セキュリティに関する表現が顕在化し,脆弱性を含むコード生成を抑制できる。
- SPARKは,9つのオープンソースモデルで,既存手法と同等以上の性能を発揮し,HumanEvalの有用性を維持した。
データ制約下における言語モデル事前学習のためのデータ拡張 [cs.LG, cs.AI, cs.CL]目的:データ制約下での言語モデル事前学習における過学習の抑制と,効率的な多段階学習の実現
- AI研究において,高品質なテキストデータの収集が限界に近づいており,計算資源の増加に対してデータがボトルネックになっている。
- 固定されたコーパスに対する標準的な自己回帰型事前学習は,過学習を起こしやすく,性能改善が頭打ちになる。
- データ拡張によって過学習を抑制し,同じデータセットでより多くの学習段階を可能にすることで,データ効率を向上させる。
- データ拡張は,自己回帰型事前学習の過学習を遅らせ,検証損失を低減する効果が確認された。
- ランダムなトークン置換が,個々の拡張手法の中で最も低い最小損失を達成した。
- 複数のデータ拡張手法を組み合わせることで,さらに検証損失を低減できることが示された。
ビジョン・言語・行動モデルのための学習型画像圧縮 [cs.DC, cs.OS, cs.CV, cs.AI]目的:ビジョン・言語・行動モデルにおける視覚的通信ボトルネックの軽減
- ロボット制御において,視覚情報は重要な役割を担う。特に,多視点カメラを用いる場合,帯域幅が限られた環境でのリアルタイム制御が課題となる。
- 汎用的な画像・動画コーデックは,制御性能ではなく視覚的忠実度を重視しており,VLAモデルの性能を十分に引き出せていない。
- タスクに関連性の高い視覚情報に重点的にビットレートを割り当てることで,VLAモデルの制御性能を向上させることを目指す。
- 提案手法SPARCは,従来のコーデックや他の学習型圧縮手法と比較して,同じビットレート条件下で,RoboCasa365,VLABench,LIBEROなどのロボットベンチマークで一貫して高い制御性能を発揮する。
- SPARCは,空間的に適応的なレート制御により,カメラ視点や画像内の空間領域ごとに視覚情報の重要度に応じてビットレートを割り当てる。
- 実世界での遠隔制御実験においても,SPARCはビットレートと成功率のトレードオフを大幅に改善し,実用的なメリットを示す。
KeepLoRA++:層スケール残差勾配適応による継続学習 [cs.CV, cs.LG]目的:事前学習済みビジョン言語モデルにおける継続学習の課題解決
- 大規模言語モデルの応用範囲拡大に伴い,継続学習の重要性が高まっている。
- 既存の継続学習手法では,過去知識の保持と新しい知識の獲得のバランスが難しい。
- 層スケール残差勾配適応により,知識の干渉を抑制し,継続学習の性能向上を目指す。
- KeepLoRA++は,Transformerアーキテクチャにおける知識分布を層間および層内から分析した。
- その結果,汎用的な知識は浅い層の主要なパラメータ空間に,タスク固有の適応は深い層の残差空間に局在することが示された。
- 画像分類,VQA,動画理解タスクにおいて,既存手法を上回る性能を達成し,継続学習における3つの目的のバランスを効果的に実現した。
非対数凹型サンプリングにおける分散削減:逆問題への応用 [cs.LG, cs.AI]目的:高次元非対数凹型分布からのサンプリング手法の改善
- 機械学習において,未正規化密度を持つ分布からのサンプリングは重要な課題である。
- 勾配計算回数に制約がある場合,確率的勾配の分散が高く,効率的なサンプリングが困難である。
- 分散削減技術を用いて,非対数凹型分布からのサンプリング性能を向上させることを目指す。
- 本研究では,非対数凹型分布からのサンプリングに対する,SGD,STORM,PAGE等の分散削減手法の統一的な分析を提示する。
- $\varepsilon$-相対Fisher情報および全変動距離における改善された非漸近的収束率が示され,標的分布への弱収束も証明された。
- スコアベース生成事前分布を用いた逆問題への適用可能性も検証され,画像処理アプリケーションにおけるサンプル品質の向上が確認された。
UXBench:LLM生成UX批評の実行可能性の測定 [cs.SE, cs.AI]目的:LLM生成UX批評の信頼性と実行可能性の評価
- UX評価は製品の品質向上に不可欠であり,ユーザー体験の改善に直結する。
- 既存のUX評価手法はコストや時間がかかる場合があり,自動化が求められている。
- LLMを活用したUX評価の自動化における課題を明らかにし,その有効性を検証する。
- UXBenchは,多様な製品インターフェースに対応したLLMのUX評価能力を測定するためのベンチマークである。
- 評価の結果,LLMのUX批評は一様ではなく,実行可能性に有意な差が見られた。
- モデルは評価項目ごとに異なる改善パターンを示し,インターフェースの種類によって優位性が変動することが明らかになった。
ドメイン特有の事前知識を用いた地震層面追跡のためのコントラスティブ学習 [cs.DC, cs.CV, cs.LG]目的:地震層面追跡における精度向上
- 地震探査は地下資源探査において不可欠であり,層面追跡はその精度が重要である。
- 従来の層面追跡は断層付近での精度が課題であり,教師データ不足も問題となる。
- 信号とテクスチャに基づく手法を融合し,断層を含む層面追跡の精度向上を目指す。
- 信号由来の層面対応を事前知識として活用することで,テクスチャに基づく深層学習モデルの学習を効率化。
- コントラスティブ学習により,局所的な信号の連続性を維持しつつ,断層を越えた層面の伝播を可能にした。
- 公開データセットと合成データセットにおいて,教師なし学習のベースラインや半教師あり学習法と同等以上の性能を達成。
SpecAlign:合成データによる大規模言語モデルの効率的な仕様に基づいたアライメント [cs.AI]目的:大規模言語モデルのアライメント方法
- 大規模言語モデルの応用拡大に伴い,安全性だけでなく,用途に応じたアライメントが重要になっている。
- 既存のアライメント手法では,頻繁に更新される仕様を学習信号として体系的に活用できていない。
- モデル仕様を直接のアライメント目標として,迅速かつ精度の高い適応を目指す。
- SpecAlignは,仕様書から直接アライメントデータを合成するフレームワークである。
- ルール注釈,制御可能な仕様インスタンス化,多エージェントによる敵対的データ合成を組み合わせる。
- 実験により,SpecAlignを用いた学習がルール遵守性を向上させ,汎用能力を維持し,過度に保守的な振る舞いを避けることが示された。
RealityBridge:編集可能な3Dガウススプラッティング駆動シミュレーションと実世界ビデオの架け橋 [cs.CV, cs.AI]目的:編集された3Dガウススプラッティング駆動ビデオのシミュレーションと現実のギャップを埋めるためのフレームワーク
- 自動運転の安全性向上には,多様な危険シナリオでの学習が不可欠である。
- 危険シナリオの収集・再現は困難であり,十分な学習データの確保が課題である。
- 3Dガウススプラッティングを用いたシミュレーションの現実感と安定性を向上させる。
- RealityBridgeは,レンダリングされたビデオ,前景マスク,エッジマップ,セマンティックマスクなどのマルチモーダル制御を用いる。
- 軽量なGateNetにより,バックボーン層全体で適応的な条件割り当てを実現する。
- 実験の結果,既存手法と比較して,アーティファクト除去,照明調和,長期的な一貫性において優れていることが示された。
誰がデコーディングを主導すべきか? マスク拡散言語モデルの信頼できる軌跡の追跡 [cs.CL, cs.AI]目的:マスク拡散言語モデルのアンサンブルにおける知識融合
- 言語モデルは,多様なタスクで高い性能を示す重要な技術である。
- 複数の言語モデルを組み合わせる際,どのモデルを信頼すべきかの判断が難しい。
- 信頼できるデコーディング軌跡を追跡し,モデル間で知識を共有する枠組みを構築する。
- 提案手法TIEは,デコーディングの信頼性に基づいてモデルを切り替え,互いの強みを活かす。
- TIEは,回答に関連する位置における確信度を追跡し,より信頼できる軌跡を持つモデルに部分的にノイズ除去された系列を伝達する。
- 多様な推論タスクにおいて,TIEはマスク拡散言語モデルのアンサンブルにおいて有効であることが示された。
HiMPO:長視野エージェントにおける因果関係の絡み合いを軽減するための事後推論に基づくメモリポリシー最適化 [eess.SY, cs.SY, cs.CL, cs.LG]目的:長視野エージェントにおけるメモリ書き込み行動への,より分離された報酬の帰属
- 長期的なタスク遂行には記憶メカニズムが不可欠であり,効率的な情報圧縮が求められる。
- メモリ更新の評価において,その後の失敗やノイズの影響で,真の貢献度が判断しにくい。
- メモリ更新の有用性を正確に評価し,不要な情報の保存や有用な情報の削除を防ぐこと。
- HiMPOは,メモリ更新の局所的な有用性を評価し,事後推論に基づくフィルタリングを行うことで,報酬の絡み合いを軽減する。
- 実験結果から,HiMPOは既存の強化学習ベースラインと比較して,圧縮されたコンテキスト効率を維持しつつ,性能を向上させることが示された。
- 制御された介入実験により,HiMPOがツールエラーによる誤った帰属を減らし,メモリ更新の正確性を高めることが確認された。
FlowMPC:ワールドモデルを用いたフローマッチングポリシーの改善 [cs.LG, cs.AI, cs.RO]目的:フローマッチングポリシーの性能向上
- ロボットの行動模倣は,多様な行動空間を扱う上で重要である。
- フローマッチングは行動模倣手法だが,報酬最大化を直接目指さないため,改善の余地がある。
- ワールドモデルを用いた計画により,フローマッチングポリシーのテスト時性能を向上させる。
- FlowMPCは,フローマッチングポリシーと学習されたワールドモデルを組み合わせることで,ManiSkillタスクにおける計画能力を高める。
- PickCubeおよびPickSingleYCBタスクにおいて,FlowMPCはフローマッチングポリシー単独よりも高い性能を示した。
- 特に,エピソード終了時の成功率において顕著な改善が見られた。
超低消費電力コンピューティングプラットフォームへの畳み込みニューラルネットワーク展開のための,費用対効果の高いハードウェアを考慮したニューラルアーキテクチャ探索 [cs.LG, cs.AI]目的:超低消費電力マイクロコントローラ上で動作する小型CNNの生成
- センシングノードなどの組み込みシステムへのAI導入の鍵となる技術分野である
- 既存のHW-NASは高性能マイクロコントローラ向けであり,超低消費電力要件を満たしていない
- 超低消費電力マイクロコントローラ上で実行可能な,小型CNNを自動設計する
- 提案手法は,既存のハードウェア制約下で動作する小型CNNを生成可能である。
- 3つのベンチマークデータセットにおいて,最先端の分類精度を維持した。
- 軽量な探索手順により,組み込みデバイス上での実行も実現可能である。
AIサプライチェーン銀河:ライセンス遵守のための3Dビジュアル分析 [cs.CE, cs.SE, cs.AI]目的:機械学習モデルの再利用に伴うサプライチェーンにおけるライセンス遵守状況の可視化と分析
- AI技術の急速な発展により,モデルの再利用が活発化し,複雑なサプライチェーンが形成されている。
- 従来の遵守ツールは,このような大規模で多段階の依存関係ネットワークに対応できていない。
- AIサプライチェーンにおけるライセンスリスクを特定し,遵守状況の監査を効率化すること。
- AIサプライチェーン銀河(AISCG)は,モデルの依存関係を3D空間にマッピングし,ライセンス遵守状況を可視化する。
- Hugging Faceの908,449モデルを分析した結果,55.46%のモデルにライセンスリスクまたはメタデータの問題が確認された。
- アダプター派生モデルではライセンスの省略が56.67%,ファインチューニングではライセンスドリフトが8.05%で発生していることが明らかになった。
ドメイン汎化のためのワンステップ汎化比率誘導最適化 [cs.LG, stat.ML]目的:ドメイン汎化の性能向上
- 多様な環境への適応が求められる機械学習において,未知のドメインへの汎化能力は重要である。
- 既存手法では,ドメイン固有の特徴に過剰適合し,汎化性能が低下する課題があった。
- パラメータの最適化における偏りを抑制し,ドメイン不変な特徴学習を促進する。
- 提案手法GENIEは,ワンステップ汎化比率(OSGR)を用いて各パラメータの貢献度を評価し,勾配の整合性を調整する。
- OSGRを動的に均等化することで,少数のパラメータによる最適化の支配を防ぎ,ドメイン不変な特徴学習を促進する。
- 理論的に,収束貢献と勾配整合性のバランスを保ち,SGDと同等の収束速度を維持しながら,より高いOSGRを実現する。
pFedUL:パーソナライズされた連合学習のための層認識型連合アンラーニング [eess.SY, cs.SY, cs.LG]目的:パーソナライズされた連合学習における層認識型連合アンラーニング手法
- プライバシー保護の重要性が増す中,データ利用に関する規制遵守が求められている。
- 従来の連合アンラーニングは,単一のグローバルモデルを共有する環境を想定しており,パーソナライズされた連合学習には適用が難しい。
- パーソナライズされた連合学習における,完全なアンラーニングと個人化の維持という矛盾を解決する。
- pFedULは,勾配に基づく層ごとの貢献度評価,適応的な選択的アンラーニング,軽量な再調整プロトコルを組み合わせる。
- 提案手法は,共有層の完全なアンラーニングと,残りのクライアントの個人化維持とのバランスを実現する。
- 実験結果から,pFedULはフルリトレーニングと同等のアンラーニング効果を持ちながら,平均97.3%の個人化精度を維持することが示された。
ツール拡張LLMのための状態に基づくマルチエージェント合成データ生成 [cs.AI, cs.CL]目的:ツール拡張LLMエージェントの学習に必要な,マルチターンかつツールに根ざした会話データの生成
- LLMエージェントの性能向上には大量の学習データが不可欠であり,特にツール利用能力の学習には特化したデータが必要とされる。
- 既存の学習データは不足しており,アノテーションコストが高い,プライバシー問題が存在するなどの課題がある。
- 高品質な合成データ生成を通じて,これらの課題を解決し,ツール拡張LLMエージェントの学習を促進する。
- StateGenは,ユーザシミュレータ,テスト対象エージェント,ツールシミュレータ,LLMジャッジを連携させることで,高品質な会話データを生成する。
- ツール呼び出しの誤りを大幅に削減(9.66/10)し,構造化された状態管理により,ツール利用における幻覚現象を抑制する。
- 23次元の特性ベクトルを用いたペルソナ駆動による多様な会話生成が可能であり,既存のプラットフォームと比較して多機能である。
QK正規化MLA:完全なキーキャッシュなしでのQK正規化 [cs.CE, cs.LG, cs.CL]目的:効率的なデコードを実現するMulti-head Latent Attention (MLA) におけるQK正規化の適用可能性
- Transformerモデルの性能向上のために,Attention機構の安定化が不可欠である。
- MLAは低次元の潜在状態をキャッシュすることで効率化を図るが,QK正規化との組み合わせが課題であった。
- QK正規化をMLAに適用し,性能向上と低レイテンシの両立を目指す。
- QK正規化MLAは,QKクリッピングと比較して,学習損失の低下と下流タスクの精度向上を実現した。
- H800デコードベンチマークでは,最大256kコンテキストにおいて,2%未満のレイテンシオーバーヘッドで済んだ。
- 本研究により,QK正規化がMLAモデルの安定化に実用的な選択肢となり,完全なキーキャッシュが不要であることが示された。
長尾事象における軌跡のずれは安全か? [cs.RO, cs.AI]目的:自律運転評価における長尾事象の安全性の検証
- 自動運転技術の安全性確保は,社会実装において不可欠であり,信頼性の高い評価手法が求められている。
- 既存の評価パイプラインは,人間との整合性,安全性,検証可能性,説明可能性を同時に満たせていない。
- 計画評価を新たな脅威検出として捉え,より安全な運転行動を評価する手法を開発する。
- FluidTestは,人間による信頼性の高いアノテーション,32種類の脅威分類,そして3エージェントによる検証システムで構成される。
- WOD-E2Eデータセットを用いた実験で,FluidTestは訓練されたアノテーター間で一貫したラベルを生成し,PoutineとRAPの軌跡における追加の脅威をそれぞれ65%と51%特定した。
- 最先端のプランナーであっても,高いRFS(Rater Feedback Score)と低いADE(Average Displacement Error)にもかかわらず,安全に関する重大な欠陥が存在することが示された。
RL-Index:検索インデックスにおける強化学習 [cs.IR, cs.AI, cs.LG]目的:検索インデックスを用いた推論の最適化
- 現実世界のタスク解決には外部知識の検索が不可欠であり,その重要性は高い。
- クエリと関連知識の関係が複雑な場合,表面的なマッチングでは十分な性能が得られない。
- インデックス段階で推論を行うことで,検索効率と精度を向上させることを目指す。
- RL-Indexは,検索インデックスの推論を強化学習問題として定式化する。
- LLM生成の根拠を用いてドキュメントを拡張し,クエリと知識の関係を明示的に符号化する。
- BRIGHTベンチマークにおいて,検索と質問応答の両方の性能が向上し,推論遅延が大幅に削減された。
AIシステムの最適化を統制するフレームワーク:建築的知恵 [cs.AI]目的:AIシステムの最適化における構造的失敗とその統制機構
- AI技術の発展に伴い,その安全性と倫理的な問題が重要になっている。
- AIは,指定された目標を最適化するが,目標自体の妥当性を評価する仕組みがない。
- 目標の最適化を問い直し,AIシステムの行動を統制する「建築的知恵」の枠組みを提案する。
- 本研究では,「建築的知恵」を,最適化基盤の上に配置される客観的統治層として提案している。
- この層は,時間的範囲,関係性の境界,不可逆性を明示的に考慮することで,AIシステムの行動を制御する。
- 具体的な事例と倫理的考察を通じて,知恵と知能の区別を論証し,AIの安全性向上に貢献する。
自律型AIエージェント向け,ゲーム耐性のある保険契約:戦略的通行料金メカニズム設計 [cs.GT, cs.AI, q-fin.RM]目的:自律型AIエージェントの副作用に対する保険契約のゲーム耐性
- AIエージェントの普及に伴い,その安全性と信頼性確保が重要課題となっている。
- AIエージェントの行動予測が困難なため,保険契約における不正行為のリスクが存在する。
- AIエージェントに対する保険契約における不正行為を防ぎ,安全性を担保するメカニズムの構築。
- 本研究では,AIエージェントが保険契約を不正に利用する5つの攻撃方法を特定し,ゲーム耐性を評価する。
- 新たな契約条項(共通制御集約,インターフェース障害対応,モデルIDメニュー)を導入することで,これらの攻撃を防ぐ。
- 導入した条項と既存のランタイム保証を組み合わせることで,全体的なインセンティブ適合性を実現し,AIエージェントの副作用を制御する。
ArtBoost:音響から発音器官運動への変換における合成発音器官データ拡張 [cs.SD, cs.AI, eess.AS]目的:音響から発音器官運動への変換モデルの性能向上
- 発音器官運動の理解は,音声認識や音声合成の精度向上に不可欠である。
- 発音器官運動データの取得にはコストがかかり,利用可能なデータセットが限られている。
- 限られた発音器官運動データでも,効果的にモデルを学習させることを目指す。
- ArtBoostは,大規模な音声メッシュデータを用いて,発音器官運動データの事前学習を実現する。
- 実験により,ArtBoostは,相関係数(PCC)および二乗平均平方根誤差(RMSE)において,一貫した性能向上を示す。
- 音声メッシュデータが,有効かつスケーラブルな発音器官運動の教師信号となることが示唆された。
AdaSTORM:動的グラフにおける適応的空間的・時間的マルチエージェント協調によるLLMの推論スケーリング [cs.AI]目的:大規模動的グラフにおけるLLMの推論スケーリング
- 知識グラフなどのグラフ構造データは,様々な分野で重要性が増している。
- LLMはノード数が増加すると推論コストが指数関数的に増大し,スケーラビリティに課題がある。
- 動的グラフにおけるLLM推論のスケーリングボトルネックを克服することを目的とする。
- AdaSTORMは,大規模動的グラフの推論を適応的分割と協調的推論の二段階で実現する。
- 本手法は,最大1000ノード規模のグラフにおいて90%以上の精度を達成し,既存手法を大幅に上回る。
- 既存ベンチマークで最先端の精度を達成し,実世界データセットに対しても高い汎化性能を示す。
パターンを用いた記号数値計画における探索の活用 [cs.AI]目的:パターンを用いた記号数値計画法の効率化
- 計画立案は,AIにおける重要な課題であり,自律的な行動を可能にする基盤技術である。
- 数値計画問題は,状態遷移の定量的な評価が必要であり,計算量が大きくなりやすい。
- 探索を活用することで,効率的に目標状態に到達可能な計画を生成することを目指す。
- 本研究では,中間状態において記号探索を行うことで,目標状態への接近を促す手法を提案した。
- 動的にパターンを再計算し,探索空間の探索戦略を多様化することで,計画立案の効率を向上させた。
- 提案手法の正当性と完全性を証明し,特定の条件下での有効性を示した。
アセンブリラインの異常復旧のための再帰型MAPPOへの段階認識ガイダンス注入 [cs.AI]目的:アセンブリラインの異常復旧における意思決定の改善
- 産業アセンブリラインの安定稼働は,生産効率と納期遵守に不可欠である。
- 従来の復旧方法は柔軟性がなく,適応的な学習手法は外部知識を活用しにくい。
- 本研究は,異種復旧知識を活用し,異常復旧時間の短縮と納期遵守率向上を目指す。
- 提案手法は,学習済み再帰型MAPPOにロジットレベルのバイアスを注入することで,ルールベース,リプレイベース,LLMベースのガイダンスを統合する。
- 実験結果から,高品質なルールベースガイダンスが最も効果的であり,リプレイベースガイダンスは可用性に応じて徐々に効果が低下する。
- オンラインLLMガイダンスも有用な改善をもたらすことが示された。これにより,アクターの再設計なしに異種復旧ヒントを活用できる。
公平かつ省エネルギーなUAV支援ワイヤレスネットワークのための拡散オフライン強化学習 [cs.LG]目的:UAV支援ワイヤレスネットワークにおける軌道とスケジューリング制御の最適化
- 次世代6Gネットワークにおいて,データ駆動型の意思決定が重要視されているため。
- 既存のオフライン強化学習は,データ不足や動的条件下での汎化性能が課題となっている。
- 拡散モデルの生成能力とCQLの頑健性を組み合わせ,データ効率と汎化性能の向上を目指す。
- 提案手法Diffusion-SACは,既存のオフライン強化学習手法と比較して,より安定した収束と高い報酬を達成した。
- シミュレーション結果から,送信エネルギーを最小化し,デバイス間の公平性を向上させることが示された。
- 既存アルゴリズムと比較して,スループットが35%以上向上し,省エネルギー化に貢献することが確認された。
