arXiv雑要約
AI - 2026/06/17 公開
ニューラルネットワークの全射性:モデルから任意の振る舞いを引き出せるか? [cs.LG, stat.ML]目的:ニューラルネットワークの全射性の検証
- 近年,AIの社会実装が進む中,その安全性確保が重要課題となっている。
- 生成モデルは,意図しない有害なコンテンツを生成する可能性があり,安全性の検証が急務である。
- 本研究は,現代のニューラルネットワークアーキテクチャにおける全射性の性質を明らかにすることを目指す。
- プリレイヤー正規化や線形アテンションモジュールを含む多くの基本ブロックが,ほぼ常に全射性を持つことが証明された。
- GPT形式のTransformerや,決定論的ODEソルバーを用いた拡散モデルを含む,広く使用されている生成フレームワークは,任意の出力に対する逆写像を持つことが示された。
- この研究は,これらのアーキテクチャがアドバーサリアル攻撃に対して不可避的に脆弱であるという形式的な根拠を提供する。
明示的な文脈駆動型ニューラル音響モデリングによる高忠実度RIR生成 [cs.SD, cs.AI, cs.LG]目的:高忠実度RIR(室インパルス応答)の生成
- 音響シミュレーションは,多様な応用分野において重要な役割を担う。
- 既存手法では,環境の幾何学的情報を十分に活用できていない。
- 環境の幾何学的特徴を明示的に利用し,より正確なRIR予測を実現する。
- 提案手法MiNAFは,粗い部屋メッシュから距離分布を抽出し,局所的な文脈を明示的に表現する。
- MiNAFは,明示的な幾何学的特徴を取り入れることで,RIR予測の精度を向上させる。
- 評価実験の結果,MiNAFは様々な評価指標において,既存手法や最新手法と競合可能な性能を示す。
回路グラフにおける計算学習:TRACE [cs.AI]目的:回路グラフの機能的挙動のモデル化
- グラフ表現学習の基礎課題であり,ハードウェア設計や検証への応用が期待される。
- 既存のMPNNやTransformerは,計算の階層性と位置依存性を捉えきれていない。
- 計算のステップごとの流れを反映した新しいパラダイムを構築し,機能予測の精度向上を目指す。
- TRACEは,計算の流れを忠実に再現する階層型Transformerを採用している。
- 関数シフト学習という新しい学習目的関数を導入し,複雑な全体関数を直接予測するのではなく,真の関数と局所近似とのずれを予測する。
- 様々な回路グラフにおいて,既存のアーキテクチャを大幅に上回る性能を達成した。
コードに対する回帰言語モデル [cs.CL, cs.AI, cs.LG, cs.PF, cs.SE]目的:コード実行の数値結果の予測
- ソフトウェア開発における性能評価の自動化が重要である。
- 従来の方式は,専門的な特徴量エンジニアリングに依存していた。
- 大規模言語モデルを用いて,コードの性能予測を自動化する。
- 提案手法は,PythonやC++などの複数言語におけるメモリ使用量を予測できる。
- Triton GPUカーネルの遅延や,ONNX形式のニューラルネットワークの精度と速度も予測可能である。
- NAS設計空間における予測性能が,既存のグラフニューラルネットワークを上回る結果が得られた。
全方向リターゲット:ヒューマノイド全身運動・操作とシーンインタラクションのための相互作用を保持するデータ生成 [cs.RO, cs.AI, cs.LG, cs.SY, eess.SY]目的:ヒューマノイドロボットの複雑な技能学習のためのデータ生成
- ヒューマノイドロボットに複雑な技能を習得させることは,ロボティクス研究における重要な課題である。
- 人間とロボットの身体的差異により,既存のリターゲット手法では物理的に不自然な動きが生じやすい。
- 人間と物体・環境との相互作用を保持することで,より効率的な学習データ生成を目指す。
- OmniRetargetは,相互作用メッシュを用いて,人間とロボット,地形,操作対象物間の空間的・接触関係を明示的にモデル化・保持する。
- 生成されたデータを用いて,Unitree G1ヒューマノイドロボットで,最大30秒間のパルクールやロコモーション・操作技能を成功裏に実行可能となった。
- わずか5つの報酬とシンプルなドメインランダム化のみで,学習カリキュラムなしに技能を獲得できることを示した。
AIコードエージェントの系統的な脱獄攻撃によるセキュリティ評価 [cs.CR, cs.AI]目的:AIコードエージェントのセキュリティ脆弱性
- ソフトウェア開発にAIが不可欠となり,セキュリティリスクが顕在化している。
- 既存研究ではテキストベースの評価が中心で,コード実行環境における脆弱性は未解明である。
- AIコードエージェントが実行可能な悪意のあるコードを生成・実行するリスクを評価する。
- JAWS-Benchにより,エージェントは段階的に高度化する環境下で脱獄攻撃を受けやすいことが示された。
- プロンプトのみの攻撃でも高いコンプライアンス率(61%)を示し,有害なコードの解析・実行に成功するケースが存在する。
- エージェント化により攻撃成功率が1.6倍に上昇し,計画とツール利用段階での拒否を覆す要因となることが明らかになった。
暗黙的に定義された潜在多様体上の測地微分 [cs.LG]目的:潜在多様体の幾何学的性質の解析
- データ解析において,高次元データの低次元表現は重要な役割を果たす。
- オートエンコーダの潜在多様体は,その表現の不正確さにより解析が困難である。
- 潜在多様体の幾何学的演算を近似的に計算するロバストな手法を開発すること。
- オートエンコーダの潜在多様体を,周囲空間の暗黙的サブ多様体として記述する手法を提案した。
- ノイズ除去目的を最小化することで,潜在多様体への近似射影を学習し,様々なリーマン幾何学をサポートする。
- 提案手法により,潜在多様体上での測地経路の計算や,リーマン指数写像を用いた測地線の射出が可能となった。
重ね合わせにおける特徴間の干渉を利用した敵対的攻撃 [cs.LG, cs.AI, cs.CV]目的:敵対的攻撃の発生機序とモデル間の転移性
- 深層学習モデルの脆弱性理解は,その安全性を高める上で不可欠である。
- 既存研究では,敵対的攻撃が成功する理由や転移性が十分に説明されていない。
- 重ね合わせによる干渉が敵対的脆弱性の根源であることを解明し,攻撃の予測可能性を示す。
- 敵対的攻撃は,ネットワーク内の概念表現の重ね合わせによって生じる干渉パターンに依存することが示された。
- 厳密に制御された環境下で,重ね合わせのみで敵対的脆弱性を再現することに成功した。
- 画像分類器に対する攻撃においても,提案メカニズムで予測される構造が確認された。
サンプリングされたトークンを超えて:RLVRにおける候補サポートの維持 [cs.AI]目的:RLVRにおける探索崩壊の抑制
- 強化学習は,複雑な問題を解決するための強力な手法だが,探索不足が課題となる場合がある。
- 検証可能な報酬を持つRLVRでは,候補分布が上位1つに集中し,多様な応答が失われる現象が起きる。
- 上位N個の候補に有意な確率質量を維持することで,効果的な探索を実現することを目指す。
- 提案手法CaSPは,正解候補の上位N個に勾配を再分配し,不正解候補の上位1つに強いペナルティを適用する。
- CaSPは,pass@Kを低下させることなく改善し,Kの範囲全体で性能向上を実現する。
- 数学,論理的推論,コーディングの複数のベンチマークで有効性が確認され,大規模モデルにも適用可能である。
BadScientist:説得力はあるが不確かな論文を生成する研究エージェントは,LLMレビュー担当者を欺くことができるか [cs.CR, cs.AI, cs.CY]目的:LLMを活用した研究支援とAIベースの査読システムの脆弱性の検証
- 研究の効率化が求められる中,AI技術の導入は不可欠であり,その信頼性が重要である。
- AIによる査読システムの信頼性に対する懸念があり,不正な論文が混入するリスクが存在する。
- AI生成論文がAI査読システムを欺く可能性を検証し,その脆弱性を明らかにすること。
- 偽造された論文が,LLMレビューシステムによって受け入れられることが確認された。
- レビュー担当者は,論文の信頼性に懸念を持ちながらも,受け入れレベルの評価を与えるという矛盾が見られた。
- 現在のAI駆動の査読システムには根本的な限界があり,多層防御策の必要性が示唆された。
ブランチ・アンド・ブラウズ:木構造による推論と行動記憶を用いた効率的かつ制御可能なウェブ探索 [cs.AI, cs.CL, cs.LG]目的:ウェブ探索の効率性と制御可能性の向上
- ウェブ環境におけるLLMを用いた自律エージェントの応用が期待されている
- 既存手法は推論の深さや効率性に限界があり,多段階推論や効果的なバックトラッキングが困難
- 木構造探索と行動記憶により,より効率的で制御可能なウェブ探索を実現する
- ブランチ・アンド・ブラウズは,構造化された推論・行動,文脈記憶,効率的な実行を統合したフレームワークである。
- WebArenaベンチマークにおいて,35.8%のタスク成功率を達成し,最先端手法と比較して実行時間を最大40.4%削減した。
- LLMベースのウェブエージェントのための信頼性が高く効率的なフレームワークであることを示した。
信頼性と効率性に優れた無線充電式センサーネットワークのための拡張型多目的進化深層強化学習 [cs.NI, cs.AI]目的:無線充電式センサーネットワークにおけるノード生存率と充電エネルギー効率の最大化
- センサーネットワークは多様な応用が期待されるが,バッテリー寿命が課題である。
- ノード生存率と充電効率のトレードオフが,ネットワーク運用上の大きな問題である。
- 動的な環境下で,ノード生存率とエネルギー効率を同時に最適化することを目指す。
- 提案手法は,既存手法と比較してノード生存率とエネルギー効率のバランスに優れている。
- LSTMを用いたポリシーネットワークは,従来のネットワークよりも25%高速に収束する。
- 時間変動パレート評価法は,動的な条件に対して効果的に適応することが示された。
チャンクレベルのポリシー最適化から創発する原理に基づいた強化学習によるフローマッチング [cs.CV, cs.AI]目的:テキスト画像生成におけるフローマッチングの性能向上
- 画像生成技術は,多様なコンテンツ作成を可能にし,その応用範囲は広い。
- 既存の手法では,報酬の帰属問題が性能向上を阻害する要因となっている。
- チャンクレベルでのポリシー最適化により,この問題を軽減し,性能向上を目指す。
- 提案手法GCPOは,標準的なテキスト画像生成ベンチマークにおいて,GRPOと比較して最大43%の相対的な性能向上を達成した。
- GCPOは,ユーザーの好みに沿った画像生成においても,高い性能を示した。
- チャンクレベルのポリシー最適化が,フローマッチングの潜在能力を引き出すことが示唆された。
都市河川における浮遊性人工ゴミのモニタリングのための幾何学・深層学習再現パイプライン [cs.CV, cs.AI]目的:都市河川における浮遊性人工ゴミのモニタリング手法の確立
- 河川の生態系,水質,人々の活動に悪影響を及ぼす浮遊性人工ゴミ問題の深刻化
- 従来のモニタリング手法では,継続的な定量評価や複雑な環境下での精度の確保が困難
- 深層学習と幾何学モデルを組み合わせ,安価で自動化されたモニタリングシステムの実現
- 固定カメラと深層学習を用いることで,浮遊性人工ゴミの継続的な定量モニタリングが可能になった。
- 環境条件や学習設定を考慮した結果,最適な深層学習モデルの選定が重要であることが示された。
- 投影幾何学と回帰補正を組み合わせることで,2D画像から対象物の正確なサイズを推定する手法の有効性が確認された。
MiniFool:深層ニューラルネットワークにおける物理制約を考慮した最小化に基づく敵対的攻撃 [cs.LG, astro-ph.HE, astro-ph.IM, hep-ex, physics.data-an]目的:深層ニューラルネットワークに対する敵対的攻撃手法
- 素粒子・宇宙線物理学におけるニューラルネットワーク応用の重要性が高まっている。
- ニューラルネットワークの頑健性評価が不十分であり,誤分類のリスクが懸念されている。
- 実験的不確実性を考慮した敵対的攻撃により,ネットワークの頑健性を定量的に評価する。
- 本手法は,MNISTデータセットやCMS実験データなど,様々なデータセットに対して適用可能であることが示された。
- 誤分類の尤度は,当初正しく分類されたイベントと誤って分類されたイベントで異なることが判明した。
- 実験的不確実性のスケールを変えることで,ネットワークの決定の頑健性を定量化できることが示された。
EngTrace:工学的な推論の検証可能なプロセス監視のためのシンボリックベンチマーク [cs.CL, cs.AI, cs.LG]目的:工学的な推論能力を検証するためのシンボリックベンチマーク
- 安全性と定量的な基準が求められる工学分野において,LLMの利用が拡大しているため,厳格な評価が不可欠である。
- 既存のベンチマークは孤立した認知スキルを評価するものであり,工学特有の物理に基づいた推論を捉えられていない。
- 工学における物理原理,定量モデリング,および実用的な制約を統合した推論能力を検証可能にする。
- EngTraceは,90のパラメータ化されたテンプレートに基づいて構築されており,多様な物理シナリオに対応した1,350のテストケースを提供する。
- 従来の正答率だけでなく,中間推論の過程を検証する二段階評価フレームワークを導入し,自動チェックとAIによる審査を活用する。
- 27の主要なLLMの評価により,数値精度と推論過程の忠実性の間にトレードオフが存在し,高度な工学タスクにおいて抽象的な数学的学習だけでは不十分であることが示された。
説明責任ある自動意思決定のための公益訴訟:改造者,実用主義者,活動家 [cs.CY, cs.AI]目的:AIおよび自動意思決定(ADM)における説明責任の促進
- ADMの普及に伴い,法的・倫理的な問題が顕在化しており,適切な規制が求められている。
- ADMに関する規制は政治的・地政学的な課題に直面しており,既存法の執行に依存せざるを得ない。
- 既存の法律をADMに適用し,透明性,説明責任,正義を確保するための戦略を明らかにすること。
- 本研究は,オーストラリアにおける公益訴訟が,ADMの説明責任を確保するための重要な手段となりうることを示唆している。
- 訴訟は,単なる法的議論に留まらず,コミュニティ形成や利害関係者の連携といった活動を含む包括的な取り組みであることが明らかになった。
- 効果的な訴訟と説明責任を実現するためには,制度的な整備が不可欠であるという結論を得た。
BioArtlas:Bioartにおける多次元的な複雑性の計算クラスタリング [cs.IR, cs.CY, cs.HC, cs.LG, cs.MM]目的:Bioart作品の多次元的な特徴空間における分類
- Bioartは芸術と科学の融合領域であり,その多様性を理解する基盤が重要である。
- 従来の分類法では,Bioartの多様な側面を十分に捉えられず,作品間の比較が困難である。
- Bioart作品を多角的に分析し,概念的な類似性に基づく新たな分類方法を提案する。
- BioArtlasは,各Bioart作品を13の解釈軸で表現し,キーワードを埋め込みベクトル化することで概念的な類似性を定量化した。
- 階層的クラスタリングは,k-means法よりも優れた分離度を示し,Bioartの構造を明確化した(シルエット係数0.664 vs 0.483)。
- BioArtlasは,複雑なBioartの多様性を可視化し,研究者やキュレーターが作品を探索するためのインタラクティブなインターフェースとデータセットを提供する。
まず危害を加えない:臨床的に安全な大規模言語モデルに向けて [cs.CY, cs.AI]目的:大規模言語モデルによる医学的推奨の有害性評価
- 医療分野におけるAI利用拡大に伴い,患者安全性の確保が重要課題となっている。
- 大規模言語モデルの医学的助言の安全性は十分に評価されておらず,誤った情報によるリスクが懸念される。
- 大規模言語モデルが出力する医学的推奨に含まれる有害性の頻度と程度を定量的に評価し,安全性を検証する。
- 28種類のLLMにおいて,医学的推奨の最大22.6%に重篤な有害性の可能性が認められた。
- 有害性の原因の80%以上は,情報省略によるものであった。
- 医師のAI支援下でのパフォーマンスは向上したが,AIからの重要な助言を見過ごす傾向が見られた。
ドメイン適応型検索のためのプロトタイプに基づく意味的一貫性アライメント [cs.LG, cs.AI]目的:ドメイン適応型検索における知識転移とドメイン間の不一致軽減
- 情報検索の精度向上は,多様なデータ環境下で不可欠であり,ドメイン適応はその重要な手法の一つである。
- 既存手法は,クラスレベルの意味的アライメント不足や,擬似ラベルの信頼性評価が不十分であるという課題を抱えている。
- 本研究は,ドメインシフトの影響を受けにくい特徴量を用いたハッシュコードの質的向上を目指す。
- 提案手法PSCAは,クラスレベルでの意味接続を確立し,ドメイン間の分離性を最大化する。
- 幾何学的近接性に基づき,擬似ラベルの信頼性を評価し,アライメントの重みを適応的に調整する。
- 再構成された特徴量に基づいた量子化により,ハッシュコードの品質を向上させ,ドメイン間で統一されたバイナリハッシュコードを生成する。
大規模プロンプト下におけるソフトマックス注意機構:測度に基づく視点 [cs.LG, stat.ML]目的:大規模プロンプト下におけるソフトマックス注意機構の理論的分析
- Transformerアーキテクチャの中核をなす注意機構の理論的理解は,深層学習の発展に不可欠である。
- ソフトマックス注意機構の非線形性により,その理論的解析は困難であった。
- 大規模プロンプト下ではソフトマックス注意機構が線形注意機構に近似することを利用し,理論的解析を進める。
- i.i.d.ガウス分布に従う入力において,ソフトマックス演算子は無限プロンプト極限で線形演算子に収束することが示された。
- 有限プロンプトモデルと無限プロンプトモデルの収束速度に関する非漸近的な集中不等式が導出された。
- 大規模プロンプト下では,線形注意機構に対する最適化解析をソフトマックス注意機構に直接適用できることが示された。
ドロップアウトニューラルネットワーク訓練:パーコレーションの視点から [cs.RO, cs.IR, cs.HC, cs.LG, cond-mat.stat-mech, math.PR, stat.ML]目的:深層ニューラルネットワークにおけるドロップアウト訓練中のパーコレーションの存在と影響
- 深層学習は,画像認識や自然言語処理など幅広い分野で高い性能を発揮している。
- 過学習を抑制するための正則化手法が重要であるが,ドロップアウトの効果に関する理論的な理解は不十分である。
- ドロップアウト訓練におけるネットワーク構造と経路の問題の関係性を明らかにする。
- ドロップアウト訓練中に,パーコレーション効果が存在することが理論的に示された。
- バイアス項のないニューラルネットワークにおいて,ドロップアウトが訓練の破綻を引き起こす可能性があることが示された。
- この破綻がバイアス項のあるニューラルネットワークにも拡張される可能性が示唆された。
大規模言語モデルにおける社会的な偏りの多面的分析 [cs.CY, cs.AI, cs.CL]目的:大規模言語モデルにおける社会的な偏りの実態
- 情報取得や意思決定支援においてLLMの重要性が増している。
- LLMが様々な状況で公平性を保つことの重要性が認識されている。
- LLMに存在する偏りを政治,イデオロギー等の多角的な視点から検証する。
- LLMは中立性を目指して設計されているものの,様々な偏りや傾向が認められた。
- 政治的中立性,イデオロギー,地政学的同盟,言語,性別の各側面で偏りが見られた。
- ニュース要約,ニュースの立場分類,国連投票パターン等を用いた実験により明らかになった。
データ処理不等式は実践を反映しているか? 低レベルタスクの有用性について [cs.LG, cs.CV, stat.ML]目的:分類における低レベル処理の利点
- 情報理論は,情報伝達の限界や最適化を扱う。その原理は,様々な分野で応用されている。
- データ処理不等式では,前処理が無益であるとされているが,実際には前処理が行われることが多い。
- 有限の学習データ数下において,分類精度を向上させる前処理の存在を理論的に示す。
- 理論的に,任意の有限な学習サンプル数において,分類前処理が分類精度を向上させることが証明された。
- クラス分離度,学習データサイズ,クラスバランスが,前処理による改善効果に影響を与えることが示された。
- 実データ実験により,理論結果と一致するノイズ除去・エンコーディングの効果が確認された。
バルカン:LLM駆動型検索によるインスタンス特化型検証可能システムヒューリスティクス [cs.OS, cs.AI, cs.DC]目的:システムヒューリスティクスの合成
- ハードウェアの多様化とワークロードの変化に対応するため,インスタンスに特化したヒューリスティクスが重要である。
- 手動でのヒューリスティクス設計は,複雑さと拡張性の問題がある。
- LLMを活用し,安全かつ高性能なシステムヒューリスティクスを自動的に生成する。
- バルカンは,LLMが安全に実行されるようにインターフェースを設計し,決定ロジックを分離する。
- LLMは,システム統合のバグを回避しつつ,意味のあるポリシー探索を可能にする制限された言語Anvilでヒューリスティクスを生成する。
- スポットVMのスケジューリング,キャッシュ退避,階層型メモリシステムにおいて,それぞれ最大4.9倍のコスト削減,2倍のミス率低下,10%の性能向上が確認された。
暗号化されたビデオ会議トラフィックにおけるパケットレベルの測定からのQoE学習 [cs.CL, cs.CL, cs.CR, cs.CV, cs.LG, cs.MM, eess.IV]目的:暗号化されたビデオ会議における品質評価(QoE)予測モデルの開発
- 現代において,ユーザー体験の質はサービス継続利用に直結するため重要である。
- エンドツーエンド暗号化により,ISPはビデオ会議のQoEを評価しづらい。
- パケットサイズの情報のみでQoEを予測する手法を開発し,ISPの課題解決を目指す。
- 提案手法は,WhatsAppとZoomのデータセットを用いて評価し,既存モデルを上回る予測性能を示した。
- 本フレームワークは,複雑な計算資源を必要とせず,容易に実装できる点が特徴である。
- BRISQUEとMOSという二つのQoE指標に対し,高い予測精度を達成した。
ノイズ駆動探索と一時的な固定化が確率的勾配降下法における平坦な極小値を決定する [cs.LG, cond-mat.dis-nn]目的:深層学習における確率的勾配降下法の平坦な解への偏りの動力学的起源の解明
- 深層学習の性能向上には,汎化能力の高いモデルの学習が不可欠である。
- 確率的勾配降下法は局所的な極小値に陥りやすく,汎化性能が低下する可能性がある。
- 損失関数の形状と学習ダイナミクスに着目し,汎化性能を向上させる最適化手法を開発する。
- 確率的勾配降下法は,学習初期に鋭い谷から脱出し,平坦な領域へ移動する探索段階を経る。
- ノイズが損失関数を再構築し,平坦な解を安定化させる効果的なポテンシャルを形成する。
- 学習が進むにつれて,平坦化された損失関数が競合する谷間の遷移を抑制し,探索段階を延長する。
LLMにおけるトークンレベルの因果的帰属:ヤコビアン・スコープ [cs.CL, cs.AI]目的:LLMの予測に最も強く影響を与える過去のトークンを特定する手法
- LLMは自然言語処理の発展に不可欠であり,その解釈可能性向上は重要課題である。
- LLMの複雑な構造により,どのトークンが予測に影響しているかの特定が困難である。
- LLMの予測におけるトークンレベルの因果関係を定量的に評価することを目指す。
- ヤコビアン・スコープは,勾配ベースの手法を用いてLLM予測を解釈する。
- この手法は,命令理解,翻訳,文脈学習における潜在的な政治的偏りや翻訳戦略を明らかにした。
- 実装とインタラクティブなデモが公開されており,カスタムテキストでの利用を促進する。
Co-PLNet:プロンプト誘導ワイヤーフレーム解析のための協調点線ネットワーク [cs.CV, cs.AI, cs.LG, stat.ML]目的:プロンプト誘導ワイヤーフレーム解析のための協調点線ネットワーク
- SLAM等の後続タスクに有用な構造化幾何学的表現の取得は,ロボットビジョンの重要な課題である。
- 既存手法は線分と接合部を別々に予測し,後処理で統合するため,不整合やロバスト性の低下を招く。
- 点と線の間の空間的情報を相互に活用し,整合性と効率性を高めることで問題を解決する。
- Co-PLNetは,点線間の空間的ヒントを交換する協調フレームワークであり,高精度なワイヤーフレーム解析を実現する。
- Point-Line Prompt Encoder (PLP-Encoder)により,幾何学的属性を空間的に整合したコンパクトなマップに変換する。
- Cross-Guidance Line Decoder (CGL-Decoder)は,疎な注意機構により予測を洗練し,点線の一貫性を強化する。
m2sv:地図からストリートビューへの空間推論のためのスケーラブルなベンチマーク [cs.RO, cs.CV, cs.AI]目的:地図とストリートビュー画像のアライメントによるカメラ視点方向の推論
- 視覚と言語モデルの性能向上は目覚ましいが,空間推論能力には課題が残る。
- 抽象的な地図表現と一人称視点のストリートビューを整合させる空間推論が困難である。
- 地図とストリートビュー間の空間推論能力を評価するためのベンチマークを開発し,課題を明確化する。
- 開発したベンチマークm2sv-20kにおいて,最先端のVLMは65.2%の精度にとどまり,人間の平均精度72.0%を下回る。
- 教師ありファインチューニングや強化学習は性能向上に寄与するが,他のベンチマークへの転移は限定的である。
- 幾何学的アライメント,証拠集約,推論の一貫性が課題であり,今後の空間推論研究の方向性を示す。
参照コミュニケーションにおけるLVLMと人間のグラウンディングの違い [cs.CL, cs.AI, cs.HC]目的:参照コミュニケーション実験における人間とAIのグラウンディングの差異
- AIエージェントと人間の協調には,意図の正確な予測が不可欠である。
- 共通基盤のモデル化が不十分であり,円滑なコミュニケーションが困難である。
- LVLMの参照表現生成と解決能力を検証し,円滑なコミュニケーションを可能にする。
- LVLMは,参照表現を対話的に生成・解決することができないことが示された。
- 人間同士のコミュニケーションに不可欠なスキルがLVLMには欠如している。
- 356件の対話データセットを公開し,データ収集パイプラインと分析ツールを提供する。
大規模言語モデルの暗黙的な協調 [cs.GT, cs.LG, cs.MA]目的:大規模言語モデルにおける協調の発生状況,時期,及び理由の評価
- AIエージェントの協調は,人間とのインタラクションや安全性が重要な場面で不可欠である。
- 明示的なコミュニケーションなしに,AIエージェントがどのように協調すれば良いかという課題がある。
- 大規模言語モデルにおける暗黙的な協調メカニズムの解明と改善を目指す。
- 大規模言語モデルは,コミュニケーションなしでも高度な協調能力を示すことが明らかになった。
- 人間の協調能力と同等か,それを上回る性能を発揮する場合もある。
- 数値的な常識や文化的な背景知識を要する課題では,協調が困難になる傾向が確認された。
フローマッチングモデルの漸進的なファインチューニング [cs.LG]目的:フローマッチングモデルのファインチューニング手法
- 生成モデルは多様な応用を可能にする重要な技術である。
- データ不足や分布の変化により,ファインチューニングが困難となる場合がある。
- 安定性,効率性,多様性の維持を両立するファインチューニング手法を確立すること。
- 本研究では,事前学習済みのモデルとターゲット分布の中間を滑らかに遷移する,漸進的なファインチューニング(GFT)を提案する。
- GFTは理論的に正当であり,安定した収束,生成品質の向上,学習速度の高速化,多様性の維持を実現した。
- GFTは,分布シフト下でのフローマッチングモデルのスケーラブルな適応のための,理論的根拠に基づいた実用的な代替手法となる。
学習を取り入れた形式的推論:契約合成から成果物再利用,形式意味論へ [cs.SE, cs.AI]目的:形式手法と人工知能の交差点における,次世代検証システムの構築
- ソフトウェアの信頼性確保は重要であり,特に複雑化するシステムにおいて形式手法の役割は大きい。
- 従来の形式手法は,知識の再利用が難しく,専門家の負担が大きいという課題がある。
- 過去の検証努力を再利用し,検証プロセスを加速する新しいパラダイムの実現を目指す。
- 大規模言語モデルとグラフ表現を組み合わせたハイブリッドフレームワークを提案し,スケーラブルな意味的マッチングと形式的な健全性を両立した。
- このフレームワークは,異質な表記や抽象レベル間での意味ガイダンスを提供し,検証成果物の原理に基づいた再利用を可能にする。
- 組成的推論に基づき,過去の検証努力を体系的に活用し,進化する検証エコシステムを指向する。
描く前に明確化:堅牢なテキストからCAD生成のための能動的エージェント [cs.LG]目的:テキストからCAD生成における仕様の明確化と,それによる堅牢性の向上
- CAD設計は製品開発の根幹であり,効率化が求められている。自然言語による指示が可能なテキストからCAD生成技術は,その可能性を秘めている。
- 既存のテキストからCAD生成モデルは,曖昧な指示に対して幻覚を起こしやすく,幾何学的な矛盾を含むCADプログラムを生成することがある。
- 曖昧な指示や矛盾を事前に解消することで,より正確で信頼性の高いCADプログラム生成を目指す。
- 提案手法ProCADは,質問を通じて仕様の問題を解決する能動的な明確化エージェントと,CADコード生成エージェントを組み合わせている。
- 実験結果から,ProCADは曖昧な指示に対する堅牢性を大幅に向上させ,既存の最先端モデルを凌駕することが示された。
- Chamfer距離は79.9%減少し,無効なCADプログラムの比率は4.8%から0.9%に低下した。
R1-SyntheticVL:生成モデルによる合成データはマルチモーダル大規模言語モデルの準備ができているか [cs.LG, cs.AI, cs.CL, cs.CV]目的:マルチモーダル大規模言語モデルの性能向上を目指した,効果的なデータ合成手法
- マルチモーダルな情報処理は,人間と機械のより自然な対話を可能にするため重要である。
- 大規模言語モデルの学習には大量のデータが必要だが,高品質なマルチモーダルデータの収集は困難である。
- 生成モデルを用いた合成データで,マルチモーダル大規模言語モデルの性能を向上させる方法を確立する。
- 本研究では,Collective Adversarial Data Synthesis (CADS) という新しい手法を提案し,高品質で多様な合成データを作成した。
- CADSは,集団知能と敵対的学習を活用することで,モデルの改善を促進するような,より困難なサンプルを生成する。
- CADSを用いて構築したMMSynthetic-20Kデータセットで学習させたR1-SyntheticVLは,様々なベンチマークで優れた性能を示した。
CoCoEmo:活性化ベクトル操作による,構成可能かつ制御可能な人間らしい感情表現を持つTTS [cs.SD, cs.LG]目的:感情表現の構成性と制御可能性
- 人間らしい自然な音声合成には,感情表現が不可欠である。
- 既存のTTSは単一の感情に限定され,多様な感情表現やテキストとの不一致に対応できない。
- 活性化ベクトル操作による感情制御の可能性を検証し,自然な感情表現を実現する。
- TTSにおける感情表現は,言語モジュールによって主に合成されることが示された。
- 活性化ベクトル操作によって,混合感情やテキストとの感情の不一致を制御可能であることが確認された。
- 軽量な操作手法により,自然で人間らしい感情表現を持つ音声合成が可能となった。
PLATE:幾何学的知識を考慮した継続学習のための可塑性調整型効率的アダプター [cs.LG, cs.AI]目的:事前学習済みモデルにおける継続学習手法
- 大規模言語モデルの適応において,事前学習データの利用が困難な場合がある。
- 既存手法では,過去のタスクデータへのアクセスが必要となる場合が多い。
- 事前学習済みモデルの幾何学的冗長性を活用し,データアクセスなしでの継続学習を実現する。
- PLATEは,過去のタスクデータにアクセスせずに継続学習を行う手法である。
- 可塑性と保持のトレードオフを明示的に制御可能である。
- 各層は,構造化された低ランク更新$\Delta W = B A Q^\top$によってパラメータ化され,更新時に学習するのは$A$のみである。
ベクトル量子化における普遍性の代償は最大0.11ビットである [cs.IT, cs.LG, math.IT, stat.ML]目的:ベクトル量子化における普遍的コードブックの性能限界
- 大規模言語モデルの効率化が求められる現代において,重み量子化は重要な技術である。
- 最適な重み量子化は入力データXの統計量に依存し,実用上の課題となっていた。
- 入力データXの統計量に依存しない,普遍的なコードブックの存在可能性を示す。
- ガウス分布に従う重みWに対し,普遍的コードブックはXに適応されたコードブックと比較して,次元あたり0.11ビット以下の性能劣化で済むことが示された。
- 本研究は,あらゆるヒルベルトノルムにおいて,球をほぼ最適に覆う点の集合(ネット)の存在を示す。
- この普遍的コードブックは低精度保存形式として理想的だが,現時点では構成方法が不明である。
楽観主義が適応的推論のためのトムソンサンプリングを安定化させる [cs.LG, cs.AI, math.OC, math.ST, stat.ML, stat.TH]目的:適応的データ収集下におけるトムソンサンプリングの推論的性質の安定化
- 多腕バンディット問題は,様々な意思決定問題に応用可能であり,その効率的な解決が重要である。
- トムソンサンプリングは,腕ごとのサンプルサイズがランダムであり,報酬と相互作用するため,理論的な保証が難しい。
- 本研究は,楽観主義を用いることでトムソンサンプリングを安定化させ,漸近的に有効な推論を可能にすることを目指す。
- 楽観主義を組み込むことで,腕のプル回数が決定論的なスケールを中心に集中し,安定性が得られることが示された。
- この安定性により,適応的サンプリングにもかかわらず,漸近的に有効なWald推論が可能になる。
- 本研究は,多腕バンディット問題におけるトムソンサンプリングの安定化と推論の妥当性向上に貢献する。
MoSE:効率的かつ適応的な言語モデルのためのスリム可能なエキスパートの混合 [cs.LG, cs.CL]目的:言語モデルの効率性と適応性を高めるためのスリム可能なエキスパート混合アーキテクチャ
- 大規模言語モデルの性能向上は重要である。計算資源の効率的な利用が課題となっている。
- MoEモデルでは,専門家の選択後の計算量に変化がなく,精度と計算量のトレードオフが不連続になりがちである。
- MoSEは,専門家の幅を動的に調整することで,より滑らかな精度・計算量トレードオフを実現し,計算効率を改善する。
- MoSEは,標準的なMoEと同等またはそれ以上の性能を維持しつつ,推論時のFLOPsを削減できる。
- スリム可能なエキスパートの学習には,マルチ幅学習と標準MoEの目的関数を組み合わせた安定したレシピを用いる。
- 実行時の幅決定戦略として,軽量なテスト時学習メカニズムを導入し,ルーターの信頼度を専門家の幅にマッピングする。
オンライン戦略的分類におけるランダム化アルゴリズムについて [cs.LG, cs.GT]目的:オンライン戦略的分類におけるランダム化アルゴリズムの性能限界と改善
- 信用スコア操作など,戦略的特徴量変更が予測に影響する状況への対応が重要である。
- ランダム化アルゴリズムの可能性は未だ十分に探求されておらず,理論的限界が不明確である。
- ランダム化アルゴリズムの限界を明らかにし,既存手法の改善を目指す。
- 実現可能設定において,全ての学習者に対する下限を確立し,ランダム化アルゴリズムにも適用可能な下限を初めて示す。
- 実現可能設定において,ランダム化学習器が既存の決定論的上限を改善する初の事例を提供する。
- 非実現可能設定において,誤分類率を標準的なオンライン学習率に一致させる不適切なランダム化学習器を提案する。
帰属セットからの統計的学習 [cs.LG, stat.ML]目的:コンバージョン予測モデルの学習
- 広告分野におけるコンバージョン予測は,マーケティング効果測定の根幹である。
- プライバシー保護の観点から,クリックとコンバージョンの直接的な関連付けが困難になっている。
- 帰属セットという粗い情報から,精度の高いコンバージョン予測モデルを構築すること。
- 帰属セットから生成された粗い情報に基づき,母集団損失のバイアスなし推定量を構築した。
- 経験的リスク最小化が,事前分布の情報量と事前分布の推定誤差に対してロバストな一般化保証を持つことを示した。
- 標準的なデータセットを用いた実験で,提案手法が一般的な業界のヒューリスティック手法よりも大幅に優れた性能を示した。
RAIGen:テキスト画像生成モデルにおける稀な属性の特定 [cs.CV, cs.LG]目的:テキスト画像生成モデルにおける稀な属性の発見
- 画像生成モデルの性能向上に伴い,潜在的な偏見の可視化が重要となる。
- 既存研究では,既知の属性や支配的な属性に焦点を当て,稀な属性の特定が課題となっていた。
- データ分布で過小評価されている属性を特定し,生成時の多様性を向上させる。
- RAIGenは,ラベルを用いずに拡散モデルから稀な属性を発見する初のフレームワークである。
- Matryoshka Sparse Autoencodersと新規な少数派指標により,解釈可能なニューロンを特定した。
- 実験により,Stable DiffusionやSDXLを含む様々なモデルで稀な属性の発見と生成時の属性増幅が可能であることを示した。
境界と形状表現のアライメント:自己教師ありTransformerによる [cs.LG, cs.AI]目的:境界表現と形状表現のアライメント
- CAD分野では境界表現が標準だが,深層学習での活用には課題がある。
- 連続的な手法は精度が高いが視覚的に抽象的,離散的な手法は直感的だが精度が低い。
- 境界表現と形状表現のギャップを埋め,より効果的な深層学習モデルを構築すること。
- Brep2Shapeは,境界表現と形状表現をアライメントさせる自己教師あり事前学習法である。
- Dual Transformerバックボーンにより,表面と曲線の特徴を並行してエンコードし,形状の理解を深める。
- 様々なダウンストリームタスクにおいて,最先端の精度と高速な収束を実現した。
分布ロバスト最適化による信用集合学習 [cs.LG, stat.ML]目的:信用集合の学習
- モデルの不確実性を定量化し,ロバスト性を向上させることは重要である。
- 既存手法は最適化のランダム性に起因する不確実性を捉えきれていない。
- 訓練データとテストデータの分布のずれによる不確実性を捉える。
- CreDROは,分布ロバスト最適化を通じて,複数の実行可能なモデルの集合を学習する。
- CreDROは,訓練のランダム性だけでなく,分布シフトに起因する有意義な不一致を捉える。
- 実験結果は,CreDROが既存の信用集合手法を複数のベンチマークで上回ることを示す。
CausalT5k:因果的推論における拒否と失敗モードの診断 [eess.SY, cs.SY, cs.AI]目的:因果的推論における失敗モードの診断基盤
- 大規模言語モデルの発展に伴い,因果関係の説明能力が重要視されている。
- 既存の評価指標では,因果的推論の微妙な誤りや拒否の質を捉えきれない。
- モデルの因果的推論における具体的な失敗パターンを特定し,改善に資すること。
- CTKは5,147件のケースから構成される診断ベンチマークであり,モデルの失敗理由を詳細に分析する。
- Skepticism Trap,Rung Collapseなど,集約的な精度では隠蔽されていた失敗モードが明らかになった。
- CTKは,因果推論の失敗プロファイルを研究するための基盤を提供する。
大規模言語モデルは眺望により高い価格を支払うだろうか?主観的な選択からの支払意思額の推測 [cs.AI, cs.CL]目的:主観的な選択における支払意思額の推測
- LLMの旅行支援や購買支援への応用が拡大しており,客観的な正解がない状況での意思決定が求められている。
- LLMの主観的な意思決定において,その妥当性や人間との比較評価が十分ではない。
- LLMの意思決定における支払意思額を推測し,人間との差異を明らかにすること。
- 大規模LLMからは意味のある支払意思額を導き出せるものの,属性レベルでの系統的なずれが見られた。
- LLMは全体的に人間の支払意思額を過大評価する傾向があり,特に高額な選択肢やビジネス志向のペルソナが導入された場合に顕著であった。
- 過去の低価格な選択への嗜好を条件づけることで,LLMの評価は人間のベンチマークに近づいた。
多様な社会的行動処理のための基盤モデル:不均一性に対応した相対方策最適化 [cs.CL, cs.AI, cs.LG]目的:社会的行動処理のための基盤モデルの開発
- 人間らしいAIシステムの実現には,多様な社会的行動を理解し,新しい状況に適応する能力が不可欠である。
- 行動データは多様な様相を持ち,学習信号の不均衡が生じやすく,既存のAIモデルの学習を困難にしている。
- 不均一な行動データからの学習を可能にし,安定した学習を実現する手法を開発することで,この問題を解決する。
- Omnisapiens-7B 2.0は,10種類の社会的行動タスクにおいて,最も優れた一貫した性能を達成した。
- 5つの保留ベンチマークにおいても最高の性能を示し,それぞれ最大+12.02%と+9.37%の改善を達成した。
- また,より一貫性があり,解釈可能な推論の痕跡を示し,信頼性の高い実用的な応用を可能にする。
ノイズから秩序へ:ノイズ除去拡散によるランキング学習 [cs.IR, cs.AI, cs.LG]目的:ランキング学習における新たなアプローチ
- 情報検索の精度向上は,ユーザーのニーズに応じた適切な情報提供に不可欠である。
- 従来のランキング学習は,識別的な機械学習に限定され,柔軟性に課題があった。
- 生成モデルを活用し,ランキング学習の新たな可能性を探求すること。
- DiffusionRankは,既存の拡散モデルを拡張し,従来のランキング学習目標を生成的に代替する。
- 4つの標準的なランキング学習データセットにおいて,識別的な手法と比較して性能向上を示した。
- 深層生成モデルの進展をランキング学習に活用するための余地を示唆する。
