arXiv雑要約
AI - 2026/05/14 公開
n日先を見据えたプレーオフ進出条件の制約プログラミング的アプローチ [cs.AI, math.OC]目的:n日後の試合結果に基づいたプレーオフ進出条件の決定
- プロスポーツにおいて,プレーオフ進出はファンや関係者にとって重要な関心事である。
- 複雑なタイブレーク規則により,プレーオフ進出条件の計算は困難を伴う。
- 本研究は,将来の試合結果を考慮したプレーオフ進出の可能性を効率的に判定する。
- 提案アルゴリズムは,制約プログラミングを利用し,チームのプレーオフ進出を迅速に判定する。
- n日先までの試合結果の組み合わせを探索し,プレーオフ進出を保証する条件を特定する。
- 実データを用いた検証により,アルゴリズムの有効性が確認された。
知識蒸留の一般化に関する考察:情報理論的視点 [cs.IT, cs.LG, math.IT]目的:知識蒸留における一般化性能の理論的理解
- 機械学習モデルの汎化性能向上は,実用的な応用において不可欠である。
- 知識蒸留は広く用いられるが,その理論的基盤は未解明な部分が多い。
- 知識蒸留が一般化性能を向上させるメカニズムを情報理論的に解明する。
- 教師モデルと生徒モデルの学習を確率過程としてモデル化し,蒸留ダイバージェンスを導入した。
- 生徒モデルの一般化誤差に対して,サブガウス仮定と中心条件の下でそれぞれ上限と下限を導出した。
- 損失の鋭さ(sharpness)を考慮した一般化境界を開発し,教師の局所的な平坦性が境界を厳しくすることを示した。
戦略的エージェントによる多腕バンディット問題における協調 [cs.LG]目的:多腕バンディット問題における戦略的エージェント間の協調学習
- 複数のエージェントが協調することで,学習の加速が期待される分野である。
- 戦略的なエージェントは,探索を避け,便乗する傾向があり,協調を妨げる可能性がある。
- 情報共有のみを通じて,持続的な協調を促し,高い性能を達成することを目指す。
- 提案手法CAOSは,ナッシュ均衡として協調を維持しつつ,強い後悔保証を達成する。
- 情報共有のみによって協調探索が維持可能であり,完全に協調的なシステムに近い性能を示す。
決定パターンのシフトを通じた汎化性能の理解 [cs.LG, cs.CV]目的:深層ニューラルネットワークの汎化性能低下の原因解明
- 深層学習は高い性能を示すが,未知のデータへの対応が課題である。
- モデルの意思決定メカニズムの変化が,汎化性能にどのように影響するか不明である。
- 内部決定パターンの安定性を汎化性能の指標として捉え,その乖離を定量化する。
- 決定パターンは,クラス間で一貫性があり,明確な構造を持つ空間を形成することが示された。
- 決定パターンのシフトの大きさは,汎化性能のギャップと線形相関があることが確認された。
- 様々な汎化性能の低下パターンを,連続的な軌跡として捉え,その原因を統一的に説明することが可能となった。
獲得合成:獲得関数を用いた標的データ生成 [cs.CL, cs.AI, cs.LG]目的:高品質な合成データ生成手法
- モデル性能向上にはデータ品質が不可欠であり,高品質データの確保が課題。
- 既存手法では,生成データの学習者への影響を定量的に評価できない。
- 獲得関数を活用し,モデルに配慮した自己改善を可能にする。
- 獲得合成によって生成されたデータで学習したモデルは,既存手法よりも高い性能を示す(2-7%の改善)。
- 獲得合成は,破滅的忘却に対するロバスト性を向上させる。
- 獲得合成は,他のモデルや低リソース環境での学習にも応用可能である。
シーン監視なし3Dインスタンスセグメンテーションのための進化するオブジェクト中心表現の学習 [cs.CV, cs.AI, cs.LG, cs.RO]目的:3Dインスタンスセグメンテーションのためのオブジェクト中心表現の学習
- ロボット工学や自動運転など,現実世界の3Dシーン理解は重要性が高い。
- 合成データで学習したモデルを実データに適用する際,形状の差異やオクルージョンが課題となる。
- 実データへの適応能力を高め,ロバストな3Dインスタンスセグメンテーションを実現すること。
- 提案手法EvObjは,合成データと実データの間の幾何学的ギャップを埋めることで,優れたセグメンテーション性能を示す。
- オブジェクト識別モジュールとオブジェクト補完モジュールを統合することで,ドメイン適応を動的に行い,部分的な形状を再構築する。
- 実データおよび合成データセットの両方において,既存手法を上回る最先端の結果を達成した。
顕著性に基づいた時間的知識グラフ推論の評価 [cs.AI]目的:時間的知識グラフ推論における評価の改善
- 知識グラフは,事実関係を構造的に表現し,推論を可能にする重要な技術である。
- 既存の評価指標は,すべてのイベントを均等に扱い,重要なイベントを見落とす可能性がある。
- 本研究は,イベントの顕著性を考慮した評価指標を提案し,より正確な評価を目指す。
- 提案手法により,イベントの顕著性が高いほどモデルの性能が低下することが示された。
- パスベースの手法は顕著性の低いイベント,表現学習ベースの手法は高いイベントで優位性を示した。
- アンサンブル手法は,推論能力の向上よりも,単純なイベントの予測精度向上に寄与することがわかった。
A$_3$B$_2$: 少数の学習データを用いた視覚言語画像分類におけるブランチバイアスを軽減するための適応的非対称アダプター [cs.CV, cs.LG]目的:視覚言語画像分類におけるブランチバイアス軽減
- 大規模視覚言語モデルの効率的な転移学習は,少ない学習データでの高い性能を可能にする。
- 既存のアダプテーション手法は,画像とテキストブランチの重要性を均一に仮定しており,その妥当性が検証されていない。
- 分布外設定下での画像エンコーダの適応が必ずしも性能向上につながらないというブランチバイアス問題を解決する。
- 提案手法A$_3$B$_2$は,不確実性に基づき画像ブランチの適応を抑制するUncertainty-Aware Adapter Dampening (UAAD)を導入している。
- A$_3$B$_2$は,軽量な非対称な構造を採用しており,実験により11のベースライン手法を上回る性能が確認された。
- 11のデータセットを用いた実験の結果,A$_3$B$_2$は一貫して高い性能を示すことが示された。
プログラムメモリによる大規模言語モデルの継続的なファインチューニング [cs.LG]目的:大規模言語モデルの継続学習における知識の保持と迅速な適応のバランス
- 近年,大規模言語モデルの応用が拡大しており,効率的な適応手法が求められている。
- 従来の継続学習手法では,新しいタスクへの適応と過去の知識の保持のトレードオフが課題である。
- プログラムメモリを用いて,短期的な更新を制御し,知識の蓄積と忘却の軽減を目指す。
- 提案手法ProCLは,LoRAアダプタを構造化されたプログラムメモリに配置し,入力に応じた動的な検索を行う。
- これにより,類似入力でのアダプタ領域の再利用と,将来のデータのための容量確保を両立している。
- 実験の結果,既存の継続LoRA戦略と比較して,知識の保持率が向上し,破滅的忘却が軽減されることが示された。
LoREnc:基盤モデルとLoRAアダプターを保護する低ランク暗号化 [cs.CR, cs.CV, cs.LG]目的:基盤モデルとLoRAアダプターのセキュリティ確保
- 近年,生成AIの重要性が増す中,その基盤となるモデル保護が不可欠となっている。
- モデルの知的財産漏洩や,モデル復元攻撃といったセキュリティ上の課題が存在する。
- 再学習やオリジナルデータセットへのアクセスなしで,モデルとアダプターを保護すること。
- LoREncは,スペクトル切り捨てと補償により,基盤モデルとアダプターを保護する学習不要のフレームワークである。
- LoREncは,モデルの主要な低ランク成分を抑制し,承認されたアダプターの情報欠損を補い,構造的な指紋を隠蔽する。
- 実験により,LoREncがモデル復元に対して強い保護を提供し,計算オーバーヘッドが1%未満であることが示された。
PanoWorld: 360度パノラマ世界における空間超感覚への試み [cs.CL, cs.CL, cs.CV, cs.AI]目的:360度パノラマ画像における空間的理解能力の向上
- ロボットナビゲーションや3Dシーン理解において,周囲環境全体を把握する360度パノラマセンシングが重要視されている。
- 既存のマルチモーダル大規模言語モデルは,人間の視覚と同様の狭い視野角に依存しており,空間的理解に課題がある。
- 本研究では,パノラマ画像の球状構造を考慮した,より高度な空間認識能力を獲得することを目指す。
- PanoWorldは,Spherical Spatial Cross-Attention機構によって,球状幾何学を視覚ストリームに組み込むことで,パノラマ画像の理解能力を向上させている。
- PanoSpace-Benchという評価ベンチマークを構築し,ERPネイティブな空間推論能力を診断的に評価している。
- 実験結果から,PanoWorldは既存のモデルと比較して,PanoSpace-Bench,H* Bench,R2R-CE Val-Unseenなどのベンチマークで顕著な性能向上を示した。
多エージェント通信に対する弱点発見:敵対的攻撃 [cs.LG, cs.MA]目的:多エージェントシステムにおける敵対的攻撃の影響評価と攻撃手法の開発
- 多エージェントシステムは,情報共有と協調行動に通信が不可欠であり,その脆弱性への対策が重要である。
- 通信への攻撃はシステム全体の性能を低下させる可能性があるが,どのメッセージやエージェントが最も脆弱か不明である。
- システムの脆弱性を特定し,効果的な攻撃手法を開発することで,ロバスト性を向上させることを目指す。
- 提案手法では,ヤコビアン行列の勾配情報を用いて攻撃を受けやすいメッセージ,エージェント,時間ステップを特定する。
- 攻撃成功率と影響をトレードオフする新たな損失関数を提案し,より効果的な摂動を生成することに成功した。
- ナビゲーション,捕食者・被食者,交通交差点環境において,提案手法がランダムなメッセージ選択よりも同等または高い影響を示すことが確認された。
形式的な予想:数学における検証可能な発見のためのオープンかつ進化するベンチマーク [cs.AI]目的:数学的発見の検証のためのオープンかつ進化するベンチマーク
- 自動推論システムの進歩に伴い,その能力を正確に評価するための研究レベルの数学問題が必要不可欠である。
- 既存のベンチマークは,研究レベルの問題を十分に網羅しておらず,自動推論の限界を正確に評価できない。
- 未解決の予想に対する証明発見と,解決済みの問題に対する証明の自動化の評価基準を提供する。
- Formal Conjecturesは,Lean 4で形式化された2615の数学問題文から構成される。
- このベンチマークを用いることで,未解決予想の解決を含む新たな数学的発見が既にいくつか得られている。
- AI生成された証明と反証は,ベンチマークの正確性を反復的に向上させるための貴重な監査メカニズムとして機能する。
階層構造はいつ役立つか?イベント駆動型産業スケジューリングにおけるエージェント連携のベンチマーク [cs.MA, cs.AI]目的:イベント駆動型産業スケジューリングにおけるエージェント連携の評価
- エージェント技術は,複雑なタスク遂行において高い性能を示すが,実用的な環境での評価が課題であった。
- 既存のベンチマークは,連携の評価に不向きであり,階層構造や動的な制約を持つ環境での研究が不足していた。
- 複雑な環境におけるエージェント連携の構造的トレードオフを明らかにすること。
- 集中型連携は堅牢かつ効率的だが,問題の複雑さが増すとスケールしないことが示された。
- 階層型連携は分解により効率化されるが,異なるレベル間でのずれが生じやすいことが明らかになった。
- ヘテラキカル連携は柔軟だが通信負荷が高く,ホロニック連携は制約を満たすが全体的な堅牢性を失う傾向にある。
重い裾は拡散を助けるか?初期化と学習の間の微妙なトレードオフ [cs.DB, cs.LG]目的:拡散モデルにおける重い裾ノイズと軽い裾ノイズの誤差特性の比較
- 生成モデルの性能向上には,データの分布を正確に捉えることが重要である。
- 従来のガウスノイズでは,裾の重い分布の生成が困難であった。
- 重い裾ノイズの有効性に関する理論的・実験的検証を通じて,生成性能のトレードオフを解明する。
- 理論的解析により,重い裾ノイズは統計的推定問題を難化させ,サンプリング誤差の限界を悪化させることが示された。
- 合成データおよび実データを用いた実験により,予測される誤差のトレードオフが実証された。
- 生成モデル設計における重い裾ノイズの使用に関するトレンドに疑問を呈し,希少領域探索の改善策としての有効性に異議を唱えている。
CLIPの裏技:大規模Vision-Languageモデルにおける効率的なピクセルグラウンディングのための訓練不要トークン剪定 [cs.CV, cs.AI]目的:大規模Vision-Languageモデルにおける効率的なピクセルグラウンディング手法
- 画像とテキストを統合するVision-Languageモデルは,多様な応用可能性を持つ重要な研究分野である。
- 大規模モデルでは計算コストが課題であり,冗長な情報削減が求められている。
- ピクセルグラウンディングにおいて,テキストに依存するトークンの重要度を考慮した効率的な剪定を実現する。
- LiteLVLMは,CLIPの視覚-テキスト類似度ランキングを逆転させることで,参照領域を覆う視覚トークンを効果的に保持する。
- 訓練やファインチューニングなしに,既存手法を5%以上上回り,元の性能の90%を維持しつつ,22%の高速化と2.3倍のメモリ削減を実現した。
- LiteLVLMは,文脈トークンを回復させることで,前景と背景の分離を明確化する。
信頼性の高い降水予測のための安定した注意応答 [cs.LG, cs.AI]目的:降水予測における注意応答の安定性向上
- 気象現象は局所的かつ急激に変化するため,正確な予測が困難である。降水予測は防災に不可欠な情報である。
- 既存の手法では,注意機構の応答がサンプル間で不安定であり,予測の信頼性を損ねている。
- 注意応答のエネルギーを安定化させ,降水予測の精度と信頼性を向上させる。
- 提案手法HARECastは,ヘッドごとの注意応答エネルギーを明示的にモデル化し,グループワイズ正則化によりサンプル間の変動を抑制する。
- HARECastは,単一モダリティおよびマルチモダリティの降水予測アーキテクチャに適用可能である。
- SEVIRおよびMeteoNetのベンチマークにおいて,最先端の性能を達成した。
N-vium:高速な正確な生成のための出口混合トランスフォーマー [cs.FL, cs.MA, cs.LG, cs.AI]目的:自己回帰型トランスフォーマーの推論効率向上
- 大規模言語モデルの推論コストは,実用上の大きな課題となっている。
- 既存手法は,精度低下を伴う近似計算に頼りがちである。
- ハードウェア上で計算を並列化し,推論速度を向上させる。
- N-viumは,複数の層に予測ヘッドを設け,それらの出力を混合することで計算を並列化する。
- 従来のトランスフォーマーを一般化しており,精度劣化を伴わない高速化を実現する。
- 最大1.5Bパラメータのモデルで,パラメータとデータが同等の標準トランスフォーマーに対し,57.9%のウォールクロック速度向上を達成した。
ECG-NAT:多心電図信号分類のための自己教師あり近傍注意トランスフォーマー [cs.LG, cs.AI]目的:多心電図信号の分類
- 心電図は,不整脈の診断において不可欠な検査であり,医療現場での重要性は高い。
- 心電図信号は変動が大きく,ノイズも含まれやすく,ラベル付きデータの不足が課題である。
- 限られたデータでも高精度かつ効率的な分類を可能にするモデルを開発すること。
- ECG-NATは,自己教師あり学習により,ラベル付きデータが少ない環境でも高い精度を実現した。
- マスクされた自己符号化器を用いた生成事前学習により,ロバストでドメイン不変な表現を学習する。
- 階層的な注意メカニズムにより,局所的な拍動形態から広範なリズムパターンまで,効率的に多スケールな時間的特徴を捉える。
長期降水予測のためのメモリ誘導潜在ドリフト補正 [cs.LG, cs.AI]目的:長期的な降水予測における潜在ドリフトの補正
- 気象予測は社会インフラや防災に不可欠であり,より高精度な予測が求められている。
- 既存の予測手法は,時間発展に伴い誤差が累積し,現実的な軌道から乖離するドリフトが発生しやすい。
- 時間的な一貫性を保ちながら,長期予測におけるドリフトを積極的に補正することを目指す。
- McCastは,時間的に整理されたメモリを活用し,自己回帰的な潜在的な変化を積極的に補正する。
- ドリフト補正メモリバンク(DCBank)は,予測軌道のずれを補正し,時間的に整合性の高い予測を実現する。
- SEVIRとMeteoNetという2つのベンチマークにおいて,特に長期予測において最先端の性能を達成した。
電気自動車におけるSOC予測のためのハイブリッドTucker-LSTMテンソルネットワークモデル [cs.LG, cs.ET]目的:電気自動車のSOC予測
- 電気自動車の普及には,バッテリー管理技術の向上が不可欠である。
- 従来のSOC推定手法は,累積誤差や簡略化されたバッテリーモデルに起因する課題がある。
- 本研究は,実走行データを用いて高精度なSOC予測を実現する。
- Tucker-LSTMモデルは,MSEを70.5%削減し,MAEを48.7%改善した。
- RMSEは4.59%から2.49%へ低下し,$R^2$は0.918から0.976へ向上した。
- テンソル分解がバッテリーデータの高次元化を抑制し,予測精度を維持することを示した。
少数ショット行動認識のためのセマンティック・時間適応表現学習 (STAR) [cs.CV, cs.AI]目的:少数ショット行動認識における汎化性能の向上
- 行動認識は,ロボット工学やビデオ監視など,様々な分野で重要な役割を担う。
- 少数サンプルからの学習が難しいという課題があり,既存手法ではセマンティックと時間のずれが生じやすい。
- テキストと視覚的な特徴の整合性を高め,時間的な依存関係を正確にモデル化することを目指す。
- 提案手法STARは,セマンティックアライメントと時間認識のモジュールを統合し,セマンティック・時間的なギャップを埋める。
- TSAメカニズムにより,フレームレベルでのクロスモーダルアライメントを実現し,セマンティック・時間的な一貫性を向上させる。
- 実験結果から,STARは既存手法を上回り,SSv2やHMDB51などのベンチマークにおいて高い性能を示すことが確認された。
階層型ゼロショット強化学習における後続測度の切り替え [cs.LG]目的:階層型ゼロショット強化学習における新たな手法の提案
- 強化学習は複雑なタスク解決に有効だが,長期的な意思決定が課題となる。
- 従来の階層型強化学習は,タスクや報酬関数に制約が多い。
- 報酬関数の制約を受けない汎用的な階層型ゼロショット強化学習を目指す。
- 後続測度の切り替えは,古典的な後続測度から自然に導き出せる。
- 提案手法FB $\pi$-Switchは,forward-backward表現から直接的に階層構造を学習する。
- 様々なタスクにおいて,従来の強化学習手法や既存の階層型手法と同等以上の性能を示す。
マルチモーダルマルチエージェント推論に対する階層的攻撃 [cs.AI]目的:マルチモーダルマルチエージェントシステムにおける脆弱性の検証
- 複雑な推論と協調を可能にするため,マルチモーダルマルチエージェントシステムへの関心が高まっている。
- 既存研究は単一エージェントや単一モダリティに焦点を当てており,MM-MASの脆弱性は十分に調査されていない。
- MM-MASの階層的な攻撃フレームワークを構築し,潜在的な脆弱性を明らかにすることを目的とする。
- 提案手法HAM³は,視覚,テキスト入力,およびそれらの融合表現に対する攻撃を含む知覚層攻撃を行う。
- さらに,メッセージ内容や通信リンクの操作を含む通信層攻撃,および推論経路を歪める推論層攻撃を実施する。
- GQAベンチマークにおいて最大78.3%の攻撃成功率を示し,推論層攻撃が最も効果的であり,複数のエージェントが整合的な誤りを生むことが示された。
潜在空間に隠されたバックドアチャネル:最新のニューラルネットワークにおける暗号学的検出不能性 [cs.CR, cs.LG]目的:最新のニューラルネットワークにおける暗号学的検出不能性の実現メカニズム
- ニューラルネットワークのセキュリティ確保は重要であり,悪意のある攻撃からの保護が不可欠である。
- 既存研究では,検出不能なバックドア攻撃は限定的なアーキテクチャに限られていた。
- 学習済み表現の潜在空間内に存在するバックドアチャネルを特定し,検出を困難にする。
- ResNetやVision Transformerといった最先端アーキテクチャに対して,高い成功率でバックドア攻撃を実現した。
- この攻撃は,クリーンなモデルの精度劣化を最小限に抑え,様々な防御策に対しても耐性を示した。
- バックドアは人工的な構造ではなく,学習された表現の潜在空間に内在する性質として捉えられる。
GAGPO:汎化されたアドバンテージグループ化された方策最適化 [cs.CL, cs.LG]目的:多段階環境における強化学習の課題解決
- 大規模言語モデルエージェントの性能向上に,強化学習が不可欠となっている。
- 多段階環境では,報酬が希薄であり,どの行動が成功に貢献したかを特定するのが困難である。
- 中間行動への正確な信用割り当てを,補助的な価値モデルなしに実現することを目指す。
- GAGPOは,ロールアウトから非パラメトリックなグループ化された価値プロキシを構築する。
- TD/GAEスタイルの時間的アドバンテージを計算し,結果の監督を時間的に遡って伝播させる。
- ALFWorldとWebShopの実験で,既存の強化学習ベースラインを上回る性能を示した。
機械学習駆動型マルチモーダル分光液体生検による早期多癌検出 [cs.LG]目的:早期多癌検出のためのマルチモーダル分光液体生検フレームワーク
- 癌は世界的な死因の主要な一つであり,迅速かつ低侵襲な診断法の開発が求められている。
- 既存の診断法は,時間やコストがかかる場合が多く,早期発見が困難なことがある。
- 本研究は,複数の分光法と機械学習を組み合わせ,高精度な早期癌検出を目指す。
- 乳癌検出において,ROC-AUCは0.997,大腸癌検出においては0.994を達成した。
- 単一の分光法でも高い識別性能が得られたが,マルチモーダル融合が最もバランスの取れた結果を示した。
- 感度と特異度の両方が高く,臨床応用への期待が持てる。
大規模言語モデルと思考の連鎖を用いたUAV支援ロジスティクススケジューリングのためのエージェントAIフレームワーク [eess.SY, cs.SY, cs.AI, cs.LG]目的:UAV支援ロジスティクスにおけるハイブリッドスケジューリング問題の最適化
- クラウド製造における効率化が求められており,UAVとモバイルエッジコンピューティングの連携が重要である。
- 物理的な物流と計算タスクのスケジューリングが複雑に絡み合い,最適化が困難である。
- UAVの経路決定と計算タスクの割り当てを同時に最適化することで,資源の有効活用を目指す。
- 提案フレームワークは,ユーザー入力を解釈可能な数理モデルに変換し,一貫性のある定式化を実現した。
- 階層型深層強化学習により,全製品回収率99.6%を達成し,タスクの締め切り遵守率も100%を維持した。
- 既存手法と比較して,安定した性能を示すことが確認された。
混合せよ,調整するな:データ制約下での二言語事前学習がハイパーパラメータ探索を凌駕する [cs.LG]目的:データ制約下における言語モデル事前学習の性能向上
- 世界の多くの言語では,十分な学習データが存在せず,言語モデルの性能向上が課題である。
- データ制約下では,モデルが同じデータを繰り返し学習し,汎化性能が低下する傾向がある。
- ハイパーパラメータ調整と補助言語データの混合という二つの手法の有効性を比較し,より効果的な手法を特定する。
- 二言語混合は,検証損失と下流タスクの精度において,ハイパーパラメータ調整よりも大きな改善をもたらし,その差はモデルサイズが大きくなるにつれて顕著になる。
- 二言語混合は,検証損失においては約2〜3倍,下流タスクの精度においては約2〜13倍の独自のターゲットデータと同等の性能向上をもたらす。
- ターゲット言語の検証損失は,二言語混合の価値を過小評価する傾向があり,混合は学習信号の多様化によって正則化し,ターゲットデータだけでは供給できない知識を提供する。
ReTool-Video:メタ拡張ツールによるツール接地を伴う再帰的ツール利用ビデオエージェント [cs.CV, cs.AI]目的:ビデオ理解のための再帰的ツール利用手法と拡張ツールライブラリ
- ビデオ理解は,時間的推論や多Modal理解など,AIの応用において重要性が増している。
- 既存手法では,複雑な推論に必要な粒度の細かいツールや,抽象的な意図を具体的な操作に変換する仕組みが不足している。
- 本研究は,多様なビデオ推論に対応できるツールライブラリと再帰的なツール利用手法を開発し,ビデオ理解の性能向上を目指す。
- 提案手法ReTool-Videoは,MVBench,MLVU,Video-MMEといったベンチマークにおいて,既存の強化学習ベースラインを上回る性能を示した。
- MetaAug-Video Tool Library(MVTL)は,ビデオ情報と生のModalエビデンスの両方にアクセス可能で,多様なビデオ推論シナリオをサポートする。
- 再帰的ツール接地と粒度の細かいメタツールにより,複雑なビデオ理解における安定性と有効性が向上することが示された。
構文誘導と意味理解に基づいた選好最適化によるコード翻訳の改善 [cs.AI, cs.SE]目的:コード翻訳の改善
- ソフトウェア開発における生産性向上に不可欠であり,言語間の相互運用性を高める。
- 既存のLLMは,構文の正しさと意味の一貫性を両立させるのが難しい。
- ソースコードから直接導出される,より信頼性の高い意味的報酬を確立する。
- CTOは,クロスリンガルな意味モデルを用いてソースコードと翻訳コードの機能的同等性を直接評価する。
- コード翻訳を多目的最適化問題として定式化し,構文フィードバックと意味的シグナルを統合する。
- C++,Java,Pythonの翻訳実験において,既存手法を大幅に上回る性能を示す。
LLM蒸留のための教師あり方策最適化 [cs.LG, cs.AI]目的:LLM蒸留における方策最適化手法
- 大規模言語モデルの効率的な学習は,その応用範囲拡大に不可欠である。
- 教師モデルと生徒モデルの分布が大きく乖離すると,既存手法では学習が進まない場合がある。
- 生徒モデルのロールアウトに基づいた教師予測を活用し,学習効率の向上を目指す。
- 提案手法TGPOは,教師の予測を活かした密な方向性ガイダンスにより,効率的な学習を実現する。
- TGPOは既存のRLVRフレームワークに容易に統合でき,追加のアノテーションは不要である。
- 複雑な推論ベンチマークにおいて,TGPOは既存手法を大幅に上回り,様々な教師に対して頑健性を示す。
楽観的乗算重み更新法が遅くなる時と理由:エネルギー消散の幾何学 [cs.HC, cs.NI, cs.CL, cs.GT, cs.LG]目的:二人零和ゲームにおける楽観的乗算重み更新法(OMWU)の収束性
- ゲーム理論は,経済学,コンピュータ科学など多岐にわたる分野で重要な意思決定の分析に用いられる。
- OMWUは強力なアルゴリズムだが,特定の状況下で収束が極端に遅くなる場合があることが課題であった。
- OMWUの遅延収束が起こる条件と理由を定量的に明らかにし,収束速度の限界を明らかにすること。
- アルゴリズムの双対反復をエネルギー関数に対する楽観的な偏微分降下法と捉え,エネルギー消散の幾何学的ボトルネックを特定した。
- 一意で内部Nash均衡を持つゲームにおいて,KLダイバージェンスに基づく新しい線形終端反復収束率を導出した。
- 一様収束率の限界を示し,距離の尺度によって保証が異なることを証明した。
言語モデルではなくツール:科学ワークフローのための決定論的仲介 [cs.AI]目的:科学ワークフローにおける再現性の確保
- 科学研究の信頼性は,再現性によって支えられている。実験結果の検証に不可欠である。
- 言語モデルは確率的であるため,同じ入力でも出力が異なり,再現性を損なう場合がある。
- 決定論的なツールを介して言語モデルを活用し,再現性のある科学分析を実現する。
- 決定論的なツールを用いることで,再現性の高い光発光分析が可能となった。
- 商用基盤モデルでは,実行ごとに数値出力や分析手法が変動するか,有効な結果が得られない場合があった。
- 約6ヶ月間の運用において,このパターンは非常に高いユーザー評価を得ている。分析時間を大幅に短縮し,再現性を保証する。
EMO:拡張可能なMoEの容易な漸進的訓練 [cs.LG]目的:拡張可能なMoEの漸進的訓練手法
- モデルの規模拡大は性能向上に不可欠だが,計算資源の制約がある。
- MoEモデルでは,専門家数増加に伴いメモリと通信コストが増大する。
- 初期段階から過剰な専門家数を割り当てることによる効率低下を改善する。
- EMOは,MoEの容量を拡張可能なメモリとして扱い,訓練中に専門家プールを段階的に拡大する。
- EMOは,スケーリング則に基づいて,各段階での計算に最適なトークン予算を導出する。
- 大規模実験において,固定専門家設定と同等の性能を達成しつつ,壁時計効率を向上させる。
効率的なLLM推論のためのオンポリシー自己蒸留における自己不確実性の尊重 [cs.CY, cs.AI]目的:LLM推論の効率化のための自己蒸留手法の改善
- 大規模言語モデル(LLM)の推論能力向上は,様々な応用において不可欠である。
- 自己蒸留では教師モデルの予測分布のエントロピーが大きく変動するにも関わらず,一律的な重み付けがなされている。
- 教師モデルのエントロピーを考慮した重み付けにより,より効果的な自己蒸留を実現する。
- 提案手法EGRSDおよびCL-EGRSDは,Qwen3-4BおよびQwen3-8Bを用いた実験で,既存の学習可能な手法と比較して,精度と系列長の間のトレードオフを改善した。
- EGRSDは,報酬に基づく方向,教師と生徒の尤度比の大きさ,そして提案する教師エントロピー確信度ゲートの3つの信号を統合することで,トークンレベルの更新を統一している。
- CL-EGRSDは,持続的な高エントロピー区間と,その後のコンテキストが急速に低エントロピーになる一時的な高エントロピー区間を区別する。
X-Restormer++: UG2+ CVPR 2026 全天候画像復元チャレンジ 1位の解法 [cs.CV, cs.AI]目的:全天候下における画像復元性能の向上
- 悪天候下での画像は視認性が低下し,自動運転や監視システム等に悪影響を及ぼすため,復元技術の重要性が高い。
- 既存の画像復元手法は,複雑な天候条件下における画像の構造やエッジ情報を十分に復元できていない。
- X-Restormerを基盤に改良を加え,より高度な画像復元技術を開発し,全天候画像復元チャレンジでの性能向上を目指す。
- 提案手法は,入力画像の空間的な適応性を高めるため,Restormer-Plusの空間適応入力スケーリング機構を組み込んだ。
- 構造の詳細とエッジ情報をより良く保存するため,Gradient-Guided Edge-Aware (GGEA)損失を新たに導入した。
- WeatherStreamデータセットに加え,FoundIRとWeatherBenchから追加の24,500組の劣化画像ペアを取り込み,学習データを大幅に拡張した。
物理情報ニューラルネットワークに対する統一的な一般化解析 [cs.LG, math.AP, math.FA, stat.ML]目的:物理情報ニューラルネットワークの一般化性能の評価
- 物理法則を組み込むことで,科学技術分野の問題解決に貢献する手法である。
- 既存の研究では,安定性条件などの制約があり,一般化性能の解析が限定的である。
- 非線形微分演算子を線形化し,より一般的な状況下での一般化性能を評価する。
- テイラー展開を用いることで,高次元空間での線形演算子として非線形微分演算子を表現することに成功した。
- これにより,高ランクなネットワークが高性能を発揮する条件を明らかにした。
- 非線形性によって一般化境界が指数関数的に拡大することが示され,その影響の大きさが確認された。
「自己成就予言となった」:月経周期トラッキングアプリにおけるAI予測と経験の相互関係 [cs.HC, cs.AI]目的:月経周期トラッキングアプリにおけるAI予測とユーザー経験との相互関係
- 女性の健康管理において,アプリの利用が一般的となり,個人の健康状態の把握が重要視されている。
- AI予測の精度や透明性が不十分な場合,ユーザーの自己認識や健康行動に悪影響を及ぼす可能性がある。
- AI予測とユーザー経験の相互作用を理解し,より良いアプリ設計に繋げる。
- ユーザーはAI予測に基づいて自身の経験を解釈する傾向があり,予測の誤りにも関わらずその影響を受ける。
- アプリのUI/UXデザインは,この相互作用への意識や批判的検討を促すものではない。
- 標準的でないユーザーは,この相互作用において孤立感を報告している。
Chem-GMNet:分子特性予測のための球面ネイティブ幾何学的Transformer [cs.LG, q-bio.QM]目的:分子特性予測のための,球面ネイティブ幾何学的Transformerモデルの開発
- 化学分野では,分子構造に関する豊富な事前知識が重要であり,その活用が求められている。
- 従来の化学言語モデルは,SMILES文字列を汎用的なテキストとして扱うため,大規模なデータセットでの事前学習に依存している。
- 本研究では,化学特有の構造的特徴を活かしたドメインネイティブなTransformerモデルを構築し,事前学習への依存度を低減することを目指す。
- Chem-GMNetは,DeepChemの標準的なスキャフォールド分割において,同じ形状のChemBERTa-2を上回り,パラメータ数を約35%削減した。
- 1000万SMILESのZINCコーパスでChemBERTa-2と同様に事前学習した場合,8つの共有エンドポイントのうち6つで性能が向上した。
- 球面次元数を8から10に増加させることで,ESOL RMSEを0.938まで低減し,事前学習なしでChemBERTa-2 MLM-10Mを上回った。
LightSplit:直交射影による実用的なプライバシー保護スプリットラーニング [cs.LG]目的:スプリットラーニングにおけるプライバシー保護と通信オーバーヘッド削減
- 機械学習モデルの分散学習は,データプライバシー保護の観点から重要性が増している。
- スプリットラーニングでは,カットレイヤーにおける高次元活性化の通信コストと,表現の再構成攻撃への脆弱性が課題。
- 直交射影による情報ボトルネックを導入し,情報漏洩を抑制し通信量を削減することを試みる。
- LightSplitは,既存のスプリットラーニングアーキテクチャに変更を加えることなく,リフテッド表現を扱える。
- 送信次元数を最大32分の1に削減しても,ベースラインの精度を95%以上維持できることが示された。
- クライアント側での追加学習コンポーネントを回避することで,エッジデバイスへの実装が容易である。
D-VLA:ビジョン・言語・行動モデルのための高並行分散非同期強化学習フレームワーク [cs.AI, cs.RO]目的:大規模なビジョン・言語・行動モデルに対する高並行分散非同期強化学習フレームワーク
- 具現化されたAIの進化により,マルチモーダルな知覚とタスク実行においてVLAモデルが優れた性能を発揮するようになった。
- 大規模な分散環境でVLAモデルに強化学習を適用する際,物理シミュレーションと深層学習のVRAM/帯域幅要求の競合がボトルネックとなっている。
- シミュレーションと最適化間の干渉を解消し,スループットとサンプリング効率を向上させるフレームワークを開発すること。
- D-VLAは,「Plane Decoupling」により,高頻度トレーニングデータと低頻度重み制御を物理的に分離し,干渉を解消している。
- 四スレッド非同期「Swimlane」パイプライン設計により,サンプリング,推論,勾配計算,パラメータ分布を完全に並行して実行可能である。
- デュアルプールVRAM管理モデルとトポロジー認識レプリケーションにより,メモリ断片化を解消し,通信効率を最適化している。
マルチモーダル検索拡張生成のためのユーティリティ指向視覚的証拠選択 [cs.CL, cs.AI, cs.CV, cs.IR, cs.LG]目的:マルチモーダル検索拡張生成における視覚的証拠選択の最適化
- 近年,画像とテキストを組み合わせた生成AI研究が盛んであり,その性能向上に不可欠な要素である。
- 従来の視覚的証拠選択は意味的関連性や表面的な類似性に頼ることが多く,推論における有用性とのずれが生じやすい。
- モデルの出力分布に対する情報ゲインを「証拠の有用性」と定義し,効率的な証拠選択手法を提案すること。
- 提案手法は,MRAG-BenchおよびVisual-RAGの実験で,最先端のRAGベースラインを安定的に上回り,計算コストを大幅に削減した。
- 証拠の有用性を潜在変数の情報ゲインで近似し,回答空間における最適化問題を回避する理論的枠組みを確立した。
- 軽量なマルチモーダルモデルを用いた訓練不要な枠組みにより,証拠の有用性を効率的に推定することを可能にした。
読みやすさのスペクトル:LLM生成コードにおけるパターン,課題,およびプロンプトの影響 [cs.SE, cs.AI]目的:LLM生成コードの読みやすさに関する体系的な調査
- ソフトウェア開発において,LLMの利用が拡大する中で,コードの品質が重要視されている。
- LLM生成コードの機能品質は注目される一方,読みやすさという重要な非機能的属性は未解明な点が多い。
- LLM生成コードの読みやすさの現状を把握し,プロンプト設計が読みやすさに及ぼす影響を明らかにする。
- 現在のLLMは,全体的な読みやすさにおいて,人間が書いたコードと同等の水準にあることが示された。
- LLM生成コードには,人間が書いたコードとは異なる,特有の読みやすさに関する課題パターンが存在することが明らかになった。
- 関数シグネチャ,制約,スタイル記述がプロンプト設計の中で最も影響力のある要素であり,長期的な保守性の向上が課題である。
リフテッドアクションスキーマの微分可能学習による古典的プランニング [cs.AI, cs.LG]目的:古典的プランニングのためのリフテッドアクションスキーマの学習
- 大規模な決定性MDPを効率的に解く必要があり,リフテッドアクションスキーマは構造的一般化に有効である。
- データからリフテッドな関係とアクションスキーマを学習することは依然として困難な課題である。
- 観測された状態変化からアクションスキーマとアクション引数を同時に識別し,ほぼ完璧な学習を目指す。
- 提案手法は,アクションスキーマを学習するためのロバストな微分可能なコンポーネントを提供する。
- 様々なプランニングドメインにおいて,学習されたリフテッドアクションスキーマが真の関係構造を復元できることを示した。
- 観測ノイズに対するロバスト性やスロットベースのダイナミクスモデルに関する実験も報告されている。
ビザンチン耐性分散スパース学習の再検討 [cs.LG, math.ST, stat.TH]目的:高次元スパース線形モデルにおけるビザンチン耐性分散推定
- 機械学習の分散化は,大規模データ処理と計算資源の有効活用に不可欠である。
- 分散学習環境では,悪意あるノードによるデータの改ざん(ビザンチン攻撃)が脅威となる。
- ビザンチン攻撃に対するロバスト性を保ちつつ,統計的精度を向上させること。
- 提案手法は,局所的な$\ell_1$正則化とサーバでのロバスト集約を組み合わせることで,様々なビザンチン攻撃に対し高い耐性を示す。
- 理論的な保証と,ほぼ最適な統計的レートが確認された。また,通信効率にも優れている。
- シミュレーションにより,推定,サポート回復,分類精度において,提案手法の有効性が確認された。
快活な探索 [cs.LG, cs.AI, math.OC, stat.ML]目的:探索アルゴリズムにおける効率的な行動選択
- 不確実性の高い環境下での最適な行動選択は,強化学習の根幹をなす重要な課題である。
- 行動空間が広大な場合,既存の探索手法は計算資源を浪費し,十分な探索が困難となる。
- 期待される改善と驚き(surprisal)の積に基づいて探索を制御し,効率的な資源配分を目指す。
- 提案手法(DE)は,既存の探索手法(Thompson Sampling,ε-greedy)と比較して,未解決の状況下でより低い後悔を示す。
- DEは,ベルヌーイ・バンディット,線形バンディット,表形式MDPにおいて,ハイパーパラメータの調整なしに高い性能を発揮する。
- 「快活さ」の概念は,行動の価値を期待される改善と驚きで評価することで,限られた資源の効率的な利用を可能にする。
推論監督の特性と,その後のモデル品質向上との関連性 [cs.AI]目的:推論モデルの品質向上に寄与する推論監督の特性
- 推論モデルの性能は,学習データの質に大きく依存するため,データセットの評価が重要である。
- 推論モデルの学習データ検証には,高コストな試行錯誤が必要であり,効率的な評価方法が課題である。
- 学習前のデータセットの特性を用いて,モデル性能を予測する手法を確立し,検証コストを削減すること。
- 提案するデータセットの指標と,その後のモデル性能の間には,強い相関関係が認められた。
- 小規模モデルは精度を重視した指標を必要とする一方,大規模モデルは冗長性を活かして複雑なタスクを解決する。
- この結果は,モデル規模に応じたデータセット検証フレームワークの構築を可能にする。
インド言語版多岐にわたる医療対話データセット:アクセス可能なヘルスケアのために [cs.CL, cs.AI, cs.IR, cs.LG]目的:インド言語版の医療対話データセットの構築と,それを用いた多岐にわたる対話システムの開発
- 医療分野におけるコミュニケーションの重要性は高く,質の高い医療アクセスを向上させるために不可欠である。
- 既存の医療対話システムは単一ターンでの質疑応答に限定されるか,テンプレート依存であり,現実的な会話や多言語対応が課題である。
- インド言語に対応した多岐にわたる医療対話データセットを構築し,より自然で実用的な対話システムの開発を目指す。
- インド言語(9言語)と英語に対応した多岐にわたる医療対話データセット「IndicMedDialog」を構築した。
- LLMを用いて生成された対話データに加え,TranslateGemmaによる翻訳,ネイティブスピーカーによる検証,スクリプトに基づいた後処理を実施した。
- 構築したデータセットを用いて,少量言語モデルをファインチューニングし,多言語対応の症状質問機能を実装した。
CANTANTE:対照的なクレジット帰属によるエージェントシステムの最適化 [cs.CL, cs.AI, cs.MA]目的:エージェントシステムの最適化手法
- 複雑なタスク実行において,LLMベースのエージェントシステムが有効性が示されている。
- システムレベルでの評価しか得られず,エージェントの局所的なパラメータ調整が困難である。
- システム全体の報酬を各エージェントに適切に分配し,最適化を効率化する。
- CANTANTEは,MBPPで最も強いベースラインより18.9%向上,GSM8Kで12.5%向上した。
- HotpotQAでは,最も強いベースラインと1標準偏差以内に収まった。
- クレジット相関分析により,エージェントごとの意味のあるシグナルが生成されることが確認された。
