arXiv雑要約

AI - 2026/02/05 公開

  • 名前だけの強化学習?LLMのポストトレーニングにおける構造的仮定の分析 [cs.LG, cs.AI]目的:LLMのポストトレーニングにおける強化学習法の構造的仮定の分析
    • LLMの性能向上は重要であり,より効率的な学習方法の探求が求められている。
    • 強化学習によるポストトレーニングは,その理論的根拠と実際の効果について不明な点が多い。
    • LLMの強化学習における構造的仮定が,学習プロセスに及ぼす影響を解明する。
    • 本研究では,LLMの強化学習が,実質的には教師あり学習の一種である可能性を示した。
    • 強化学習の目的関数が,フィルタリングを用いた反復的な教師あり学習と等価になることを実証した。
    • 強化学習が長い系列を生成する傾向は,思考過程の模倣によるものであり,真の推論能力の向上とは異なる可能性がある。

    Link: https://arxiv.org/abs/2505.13697

  • PaTHアテンション:ハウスホルダー変換の累積による位置エンコーディング [cs.CL, cs.CL, cs.LG]目的:データ依存の位置エンコーディング手法PaTHの開発
    • 大規模言語モデルにおいて,位置情報を考慮することが重要であるため。
    • 既存の位置エンコーディング手法では表現力に限界がある。
    • 入力に依存する位置エンコーディングによって表現力を向上させる。
    • PaTHは,ハウスホルダー変換の累積に基づく柔軟なデータ依存位置エンコーディングスキームである。
    • PaTHは,RoPEや他の最新のベースラインよりも性能が向上することを示した。
    • 事前学習済みのRoPEトランスフォーマーをPaTHに変換可能であることを示した。

    Link: https://arxiv.org/abs/2505.16381

  • 早期終了グラフニューラルネットワーク [cs.CL, cs.LG]目的:グラフニューラルネットワークにおける早期終了メカニズムの探求
    • グラフ構造データは現実世界に広く存在し,その分析は様々な分野で重要である。
    • 深層グラフニューラルネットワークでは,過剰平滑化や勾配消失が学習を妨げる課題がある。
    • 本研究は,深層グラフニューラルネットワークにおける早期終了メカニズムの有効性を検証し,効率的な推論を実現する。
    • 提案手法であるEEGNNは,タスクに応じた終了戦略を学習し,高い精度と効率性を両立する。
    • 特に,異種グラフや長距離依存関係を持つタスクにおいて,競合するベースラインモデルと同等以上の性能を示す。
    • パラメータ効率の良い設計により,常に有利な精度と効率性のトレードオフを実現する。

    Link: https://arxiv.org/abs/2505.18088

  • 持続可能なデータセンター運用に向けたマルチフィジックス情報機械学習:計算インフラの知能進化と実用的なソリューション [cs.AI, cs.LG]目的:データセンター運用における持続可能性向上
    • AI技術の発展に伴い,データセンターの電力消費とそれに伴う環境負荷が増大している。
    • 機械学習の導入は安全性の懸念や信頼性の問題により進んでいない。
    • 物理モデルとデータ駆動型モデルを統合し,安全性を確保した高精度なデータセンター運用を実現する。
    • 提案するマルチフィジックス情報機械学習(MPIML)フレームワークは,従来の運用方法と比較して年間20万キロトンもの炭素排出量を削減できる。
    • DCLib,DCTwin,DCBrainという3つの主要エンジンを組み合わせることで,施設モデリング,高精度シミュレーション,意思決定最適化を統合的に行う。
    • 炭素排出量に配慮したITリソースのプロビジョニング,安全性を考慮した冷却制御,バッテリーヘルス予測など,実用的な応用が可能となる。

    Link: https://arxiv.org/abs/2505.19414

  • グラフ注意ネットワークは構造情報をモデル化できるか [cs.CL, cs.LG, cs.AI]目的:グラフ学習における表現力向上
    • 現実世界の複雑なデータ分析において,グラフ構造の理解は不可欠である。
    • 既存のグラフ注意ネットワークは,高次のトポロジー情報という重要な構造的パターンを捉えきれていない。
    • グラフの構造的文脈を組み込むことで,表現学習の性能を向上させる。
    • 提案手法GSATは,属性ベースと構造ベースの表現を統合し,グラフ学習の有効性を高める。
    • GSATは,匿名ランダムウォークやグラフカーネルを用いて局所的なトポロジー情報をエンコードする。
    • 標準的なグラフ分類・回帰ベンチマークにおいて,最新のグラフ学習手法と比較して一貫した性能向上を示した。

    Link: https://arxiv.org/abs/2505.21288

  • CodeSense:コード意味推論のための実世界ベンチマークおよびデータセット [cs.SE, cs.AI]目的:コード意味推論に関する実世界ソフトウェアエンジニアリングタスクの評価
    • コードLLMの能力向上には,コードのセマンティクス理解と推論が不可欠である。
    • 既存のベンチマークは合成データや教育用問題に依存し,実用的な評価が困難である。
    • 実世界のコードに対する,きめ細かいコード意味推論タスクの評価を可能にすること。
    • 既存の最先端LLMは,きめ細かい推論タスクにおいて明確な性能差を示すことが判明した。
    • Chain-of-thoughtやIn-context learningなどのプロンプト技法は有効だが,LLMのコードセマンティクス不足が根本的な限界となる。
    • 本研究は,きめ細かいSE推論タスクのグランドトゥルース収集を容易にする実行トレースフレームワークを提供し,今後のベンチマーク構築の基盤となる。

    Link: https://arxiv.org/abs/2506.00750

  • 現実世界アプリケーションのための空間汎用オーディオ表現モデル [cs.CL, cs.SD, cs.AI, eess.AS]目的:現実世界の音響環境における空間オーディオ表現の学習
    • 音響信号処理は,様々な応用分野において重要な役割を担う。
    • 既存のオーディオ表現モデルは,現実環境の残響やノイズへの対応が不十分である。
    • 空間情報を考慮したロバストなオーディオ表現モデルの開発が求められている。
    • 提案手法GRAMは,多チャンネルマスクトオートエンコーダを用いて空間オーディオ表現を効率的に学習する。
    • ベンチマークタスクにおいて,GRAMは最先端の自己教師あり学習モデルを上回る性能を示した。
    • シミュレーション環境と現実環境の両方において,音源定位性能においても優れた結果が得られた。

    Link: https://arxiv.org/abs/2506.00934

  • 推論コンパイラ:効率的なモデルサービングのためのLLMによる最適化 [cs.LG, cs.AI, cs.PL]目的:モデルサービングの効率化のためのLLM誘導最適化手法
    • 大規模モデルの利用拡大には,高いサービングコストが課題であり,最適化技術が重要である。
    • 既存のコンパイラは,ニューラルワークロードの複雑な最適化空間に対応できず,性能向上が困難である。
    • LLMの推論能力を活用し,コンパイラ最適化の探索効率を高めることを目指す。
    • LLMとモンテカルロ木探索を組み合わせた「REASONING COMPILER」を提案し,コンパイラ最適化の意思決定プロセスを効率化。
    • LLMがハードウェアを考慮した変換を提案し,MCTSが探索と活用のバランスを取ることで,最適化空間を構造的に探索。
    • 従来のニューラルコンパイラと比較して,少ないサンプル数で大幅な高速化を実現し,LLM誘導推論の有効性を示した。

    Link: https://arxiv.org/abs/2506.01374

  • 一般化された勾配ノルムクリッピングと非ユークリッド$(L_0,L_1)$-滑らかさ [cs.LG, stat.ML]目的:非ユークリッド最適化手法
    • 深層学習の性能向上には,効率的な最適化アルゴリズムが不可欠である。
    • 従来の最適化手法では,非凸な損失関数において局所最適解に陥りやすい。
    • 勾配ノルムクリッピングと条件付き勾配法の利点を組み合わせた手法を提案する。
    • 提案手法は,一般化された($L_0$,$L_1$)-滑らかさの概念の下で下降特性を確立する。
    • 確率的最適化問題において,$O(n^{-1/4})$という最適な収束レートを達成する。
    • 画像分類や言語モデリングといった深層学習タスクへの適用可能性を示す。

    Link: https://arxiv.org/abs/2506.01913

  • RETENTION:コンテンツアドレス可能メモリを用いたリソース効率の高い木構造アンサンブルモデルの高速化 [cs.LG, cs.AR, cs.ET]目的:木構造アンサンブルモデルの推論におけるコンテンツアドレス可能メモリ(CAM)容量要件の削減
    • 構造化データからの学習において,深層学習よりも優れた性能を示す木構造アンサンブルモデルの重要性
    • 従来のアクセラレータでは,木構造モデルの特性上,高速化が困難であるという課題
    • CAMを活用する手法における,過剰なメモリ消費と低い利用率の問題解決
    • 提案手法RETENTIONは,斬新なプルーニング基準と木構造マッピングスキームにより,CAM容量要件を大幅に削減する。
    • 木構造マッピングスキーム単体でCAM容量を1.46倍~21.30倍,RETENTION全体で4.35倍~207.12倍削減可能。
    • 精度損失は3%未満であり,木構造モデルの高速化に向けたリソース効率の良い方向性を示す。

    Link: https://arxiv.org/abs/2506.05994

  • グラフ持続性はスペクトル的になる [cs.LG, cs.AI, stat.ML]目的:グラフのトポロジー記述子の開発
    • グラフニューラルネットワークの表現力向上に,トポロジー情報が重要であることが示されている。
    • 既存の持続ホモロジー法では,基本的なグラフ構造情報を捉えきれないという課題がある。
    • スペクトル情報を組み込むことで,グラフのトポロジー記述子の表現力を高めることを目指す。
    • 提案手法SpectReは,既存の持続ホモロジーやスペクトル情報よりも表現力が高いことが示された。
    • SpectReは局所的に安定であることが理論的に証明された。
    • 合成データと実データを用いた実験により,SpectReの有効性とグラフモデルの性能向上への貢献が確認された。

    Link: https://arxiv.org/abs/2506.06571

  • DeepVideo-R1:難易度を考慮した回帰型GRPOによる動画強化学習のファインチューニング [cs.CV, cs.AI]目的:動画大規模言語モデルにおける推論能力の向上
    • 大規模言語モデルの進化により,複雑な推論タスクへの応用が期待されている。
    • 動画大規模言語モデルでは,十分な学習信号が得られず,性能向上が課題となっている。
    • 難易度に応じたデータ拡張と,効率的な強化学習アルゴリズムの開発を目指す。
    • 提案手法DeepVideo-R1は,回帰型GRPOと難易度を考慮したデータ拡張を組み合わせることで,動画推論性能を大幅に向上させた。
    • GRPOの損失関数を回帰タスクとして再構成することで,セーフガード機構を排除し,より直接的にモデルを優位な出力へと導く。
    • 適切な難易度のプロンプトと動画を生成し,多様な報酬信号を学習することで,モデルの汎化性能を高めた。

    Link: https://arxiv.org/abs/2506.07464

  • オフラインドメインランダム化の統計的保証 [cs.HC, cs.LG, cs.RO]目的:オフラインデータに基づいたシミュレータパラメータ分布の推定と,その統計的保証
    • 強化学習におけるシミュレーションから現実世界への転移は困難であり,ドメインランダム化はそのギャップを埋める有効な手法である。
    • 従来のドメインランダム化はオフラインデータを活用しておらず,利用可能な情報を十分に活用できていない。
    • オフラインドメインランダム化の理論的根拠を確立し,より広範な設定での適用可能性を示す。
    • 本研究では,ODRをパラメータ的シミュレータ族に対する最尤推定として捉え,穏やかな条件下で推定量の弱一致性を示す。
    • さらに,一様リプシッツ連続性の仮定が加わることで,推定量の強一致性が成り立つことを証明した。
    • これらの仮定の現実的な適用可能性を検証し,より幅広い設定下でのODRの妥当性を明らかにした。

    Link: https://arxiv.org/abs/2506.10133

  • TRACE:文脈的説明によるウェブ信頼性評価の透明化 [cs.HC, cs.IR, cs.AI]目的:ウェブコンテンツの信頼性評価と,その根拠となる文脈的説明の生成
    • AI生成による偽情報が蔓延する中,情報の信頼性評価の重要性が増している。
    • 既存のツールは二値分類に留まり,信頼性の根拠が不明確であるという課題がある。
    • ウェブコンテンツの信頼性を詳細に評価し,その理由を明確に示すことを目指す。
    • 本研究で開発したTRACEは,ウェブコンテンツに0.1~1.0の連続的な信頼性スコアを付与する。
    • TRACEは,大規模なデータセットでファインチューニングされたTrueGL-1Bモデルを基盤とする。
    • 評価の結果,TrueGL-1Bは他のモデルよりも高い精度と解釈可能性を示した。

    Link: https://arxiv.org/abs/2506.12072

  • ループからのGP除去 [cs.LG, cs.AI, stat.ML]目的:多数の観測点におけるベイズ最適化のスケーラビリティ向上
    • ベイズ最適化は,評価コストが高い関数の最適化に有効であり,データ効率の良い手法として重要である。
    • 近年の計算機性能向上により,観測点数が多くなるケースが増加しており,従来のGPによる計算コストがボトルネックとなっている。
    • 本研究では,GPの代替手法として軽量な最近傍法を用いることで,計算コストを削減し,大規模なデータセットへの適用を目指す。
    • 提案手法Epistemic Nearest Neighbors (ENN) は,GPと比較して,モデルのフィッティングおよび獲得関数の計算において線形時間でスケールする。
    • TuRBO-ENN は,従来のTuRBOよりも提案時間(フィッティング時間+獲得時間)を1~2桁削減できることが実験的に示された。
    • ノイズのない問題の場合,UCBの代わりに非支配ソートを用いることで,モデルのフィッティングを省略できる。

    Link: https://arxiv.org/abs/2506.12818

  • LIT-LVM:潜在変数モデルを用いた線形予測子における交互作用項の構造化正則化 [cs.CL, cs.LG, stat.ML]目的:線形予測子における交互作用項の係数推定の精度向上
    • 統計や機械学習において,特徴量の線形結合は基本的な予測手法であり,その重要性は高い。
    • 高次元データにおいて,交互作用項を適切に推定し,過学習を抑制することが課題である。
    • 交互作用項の係数に低次元構造が存在するという仮説に基づき,過学習を軽減する。
    • 提案手法LIT-LVMは,シミュレーションデータや実データにおいて,Elastic Netや階層的Lasso,Factorization Machinesよりも高い予測精度を示した。
    • 特に,サンプル数と比較して交互作用項が多い場合に,その効果が顕著に現れた。
    • LIT-LVMは,特徴量間の関係性を可視化・分析するための低次元潜在表現を提供する。

    Link: https://arxiv.org/abs/2506.15492

  • LLMは反事実的推論における知識の矛盾を解決できるか [cs.AI, cs.LG]目的:反事実的推論における知識の矛盾解決能力の評価
    • LLMは大規模な知識を内包し,知識集約型タスクで優れた性能を発揮する。
    • LLMは新たな状況下で,既存知識と新しい情報の統合に苦労する。
    • LLMが反事実的推論を通して,文脈情報と既存知識を組み合わせるかを検証する。
    • LLMは一般的に反事実的推論に苦戦し,既存知識のみに頼る傾向がある。
    • 単純な後処理によるファインチューニングは,反事実的推論能力の向上に繋がりにくく,既存知識の劣化を招く場合がある。
    • 本研究は,LLMが新たな状況下で既存知識を再利用する上での限界を明らかにする。

    Link: https://arxiv.org/abs/2506.15732

  • Norm×Direction:ビジョン線形注意における欠損クエリノルムの回復 [cs.LG]目的:ビジョン線形注意におけるクエリノルムの損失とその情報損失問題の解決
    • 画像処理における注意機構は,重要な特徴の抽出と関係性の把握に不可欠である。
    • 線形注意は計算効率が良いが,ソフトマックス注意と比較して表現力に劣るという課題がある。
    • クエリノルムと方向ベクトルの分解により,線形注意の表現力を向上させ,性能を改善することを目指す。
    • 提案手法NaLaFormerは,ImageNet-1Kで最大7.5%の精度向上,ADE20Kで4.7%のmIoU改善を達成し,線形注意の最先端性能を更新した。
    • 特に,トークン数の多い超解像タスクにおいて,ピークメモリ使用量を92.3%削減するなど,高い効率性を実証した。
    • 常識推論やLong Range Arena (LRA) ベンチマークにおいても,Mambaなどの強力なベースラインを上回る成果を示した。

    Link: https://arxiv.org/abs/2506.21137

  • UAVサイバー攻撃に対する敵対的攪乱と分布外検出 [cs.LG, cs.AI]目的:UAVのサイバー攻撃に対する敵対的攪乱生成と,それらに対する分布外検出手法の開発
    • 民間空域へのUAV利用拡大に伴い,新たな脅威への対応可能な強靭な侵入検知システムが求められている。
    • 従来の異常検知は未知の攻撃に対応できず,分布外検知も巧妙な敵対的攻撃との識別が困難である。
    • 敵対的攻撃を生成し,分布外検出の性能向上を図り,UAVのサイバーセキュリティを強化する。
    • 敵対的攻撃生成のために,条件付き生成敵対ネットワーク(cGAN)を用いたフレームワークを提案した。
    • cGANは,既存の攻撃を改変し,IDSを欺瞞しつつ,分布外データと類似したサンプルを生成する。
    • 条件付き変分オートエンコーダ(CVAE)を用いることで,従来のMahalanobis距離ベースの検出器よりも,敵対的脅威の識別性能が向上した。

    Link: https://arxiv.org/abs/2506.21142

  • 効率的かつ機敏なランダム化Q学習 [cs.LG]目的:モデルフリー強化学習における効率的な探索と学習
    • 強化学習は,自律的な意思決定を行うエージェントの構築に不可欠である。
    • 既存の理論的なアルゴリズムは,計算コストが高いか,学習速度が遅い。
    • 効率的かつ迅速な学習を可能にする新たなQ学習アルゴリズムの開発。
    • 提案手法RandomizedQは,サンプリングに基づく探索と段階的な方策更新を組み合わせる。
    • エピソード型テーブルRLにおいて,$\widetilde{O}(\sqrt{H^5SAT})$ のリグレット上限を確立した。
    • 最適なQ関数の条件の下で,対数的なリグレット上限も示す。標準的なベンチマークで優れた性能を発揮する。

    Link: https://arxiv.org/abs/2506.24005

  • 知覚的直線化によるAI生成動画の検出 [cs.CV, cs.AI, cs.LG]目的:AI生成動画と自然動画の識別
    • 生成AIの急速な発展は,コンテンツ認証の課題と悪用の懸念を高めている。
    • 既存の検出手法は,汎化性能や時間的な不整合の検出に課題がある。
    • ニューラル表現空間における幾何学的特性の差異を利用し,AI生成動画の検出を目指す。
    • 提案手法ReStraVは,DINOv2を用いて動画表現の曲率とステップ距離を定量化する。
    • AI生成動画は,自然動画と比較して有意に異なる曲率と距離パターンを示すことが判明した。
    • 軽量な分類器でVidProMベンチマークにおいて,最先端の検出性能(97.17%の精度,98.63%のAUROC)を達成した。

    Link: https://arxiv.org/abs/2507.00583

  • 幾何構造を考慮した4Dビデオ生成によるロボットマニピュレーション [cs.CV, cs.AI, cs.LG, cs.RO]目的:ロボットマニピュレーションのための4Dビデオ生成
    • ロボットが複雑な環境で効果的に計画・動作するために,物理世界のダイナミクス理解が不可欠である。
    • 既存のビデオ生成モデルでは,時間的な一貫性と視点間幾何学的整合性の両立が課題となっている。
    • 複数視点からの幾何学的整合性を確保し,ロボットマニピュレーションに活用できるビデオ生成を目指す。
    • 提案手法は,クロスビューポイントマップアラインメントによる幾何学的制約を導入し,3Dシーン表現を獲得する。
    • これにより,単一のRGB-D画像から,新規視点における時間的・空間的に整合した未来のビデオシーケンスを生成できる。
    • シミュレーションと実世界のロボットデータセットにおいて,既存手法よりも安定かつ整合性の高い予測結果が得られた。

    Link: https://arxiv.org/abs/2507.01099

  • マルチエンコーダを持つマルチモーダル大規模言語モデルにおける冗長性の調査 [cs.CV, cs.AI]目的:マルチモーダル大規模言語モデルにおけるエンコーダの冗長性
    • マルチモーダルAIは,画像とテキストを統合することで,より高度な推論と理解を可能にするため重要である。
    • マルチエンコーダの導入は性能向上に寄与するとされるが,実際には冗長性が問題となっている。
    • 本研究は,マルチエンコーダの冗長性を定量化し,効率的なモデル構築に貢献することを目指す。
    • エンコーダマスキング実験の結果,特定のエンコーダをマスクしても性能が低下せず,場合によっては改善されることが示された。
    • Conditional Utilization Rate(CUR)やInformation Gap(IG)といった指標を用いて,エンコーダの役割を定量化し,タスクごとの特化性や冗長性を明らかにした。
    • 特定のエンコーダをマスクすることで,精度が最大16%向上し,全体的な性能も3.6%向上することが確認された。

    Link: https://arxiv.org/abs/2507.03262

  • 差分プライバシーにおける再識別,属性推論,データ再構成リスクの統合 [cs.LG, cs.AI, cs.CR, cs.CY, stat.ML]目的:差分プライバシーにおける各種リスク評価の統一的枠組み
    • プライバシー保護技術は重要であり,データ利用と個人情報保護のバランスが課題。
    • 既存手法ではプライバシーパラメータと具体的なリスクの関連性が不明確で,過剰な保護や不整合が生じている。
    • 本研究は,各種リスクを統一的に評価し,適切なプライバシー保護レベルを定めることを目指す。
    • 仮説検定の解釈に基づき,再識別,属性推論,データ再構成リスクに対する攻撃成功率の上限を統一的に表現。
    • 提案手法は,既存のε-DP,Rényi DP,Concentrated DPと比較して,より厳密なリスク評価が可能。
    • 本手法を用いたノイズ調整により,テキスト分類タスクにおいて精度が52%から70%に向上。

    Link: https://arxiv.org/abs/2507.06969

  • ニューラル概念検証者:概念符号化による検証者・証明者ゲームの拡張 [cs.LG, cs.AI]目的:非線形分類モデルの検証可能性向上
    • AIの信頼性確保が重要視される中,モデルの予測根拠の説明が求められている。
    • 高次元データに対する検証は困難であり,解釈可能性と検証可能性の両立が課題である。
    • 概念符号化と検証者・証明者ゲームを組み合わせ,高次元データの検証可能性を実現する。
    • ニューラル概念検証者(NCV)は,概念符号化と検証者・証明者ゲームを統合した新しいフレームワークである。
    • NCVは,高次元かつ論理的に複雑なデータセットにおいて,従来の概念ベースモデルやピクセルベースのPVG分類器を上回る性能を示す。
    • NCVは,ショートカット行動を軽減し,概念レベルでの検証可能なAIへの道を拓く。

    Link: https://arxiv.org/abs/2507.07532

  • DPOアンチェーン:人間の選択理論におけるあなたの学習アルゴリズムの潜在的な分離 [cs.LG, cs.AI, cs.CL]目的:機械学習アルゴリズムの主要部分を原理に基づいて抽出すること
    • 機械学習の透明性と解釈可能性が重視される現代において,理論的根拠に基づいた分析が不可欠である。
    • 報酬モデリングの複雑さと,それによる学習の不安定性やバイアスの導入が課題となっている。
    • DPOの規範的枠組みを一般化し,様々な拡張手法を理論的に保証することを目的とする。
    • 直接的嗜好最適化(DPO)は人間の選択理論と密接に関連しており,その関係性をより一般化した。
    • DPOは非凸損失関数を扱える可能性を示し,多様な人間の選択モデルとの組み合わせを可能にする。
    • DPOの拡張(マージン,長さ補正など)を理論的に正当化する規範的枠組みを提供する。

    Link: https://arxiv.org/abs/2507.07855

  • SemEval-2025タスク11におけるPromotionGo:短文における多言語多感情検出のための特徴中心フレームワーク [cs.RO, cs.CL, cs.AI]目的:短文における多言語多感情検出のための特徴中心フレームワーク
    • 自然言語処理において,感情分析は人間とコンピュータ間のコミュニケーションを円滑にする上で不可欠である。
    • 言語資源の少ない言語における感情検出は,データの不足や言語特性の違いにより困難である。
    • 本研究は,言語固有のパフォーマンスを最適化するための動的な表現と学習アルゴリズムを提供することを目指す。
    • TF-IDFは低リソース言語において依然として高い有効性を示すことが示された。
    • FastTextやSentence-BERTのようなコンテキスト埋め込みは,言語固有の強みを発揮することが明らかになった。
    • PCAは学習時間を短縮し,特にFastTextとMLPのようなニューラルモデルの性能を維持するのに役立つ。

    Link: https://arxiv.org/abs/2507.08499

  • 言語モデリングのための低ランクアダプターの多肢選択学習 [cs.LG, cs.AI, cs.CL, stat.ML]目的:言語モデルにおける多様かつ妥当な文の続きの生成
    • 自然言語処理の発展において,高品質なテキスト生成は重要な課題である。
    • 従来の言語モデルは,文脈から複数の妥当な続きが考えられる場合,曖昧性を適切に扱えない。
    • 低ランクアダプターと多肢選択学習を用いて,言語モデルの曖昧性を効率的に解決すること。
    • 提案手法LoRA-MCLは,多様な文の生成において高い性能を示すことが実験で確認された。
    • マルコフ連鎖の混合を用いて,多肢選択学習を言語モデリングに適用する理論的解釈が提供された。
    • LoRA-MCLを様々な言語モデルに適用するための汎用パッケージが公開されている。

    Link: https://arxiv.org/abs/2507.10419

  • 行間を読む:一時停止のダイナミクスと意味的整合性を組み合わせた思考障害の自動評価 [cs.CL, cs.AI]目的:思考障害の自動評価のためのマルチモーダルフレームワークの評価
    • 統合失調症スペクトラム障害の特徴である思考障害の客観的評価は重要である。
    • 従来の臨床評価はリソースを必要とし,大規模な評価には不向きである。
    • 一時停止のダイナミクスと意味的整合性を統合し,より正確な評価を目指す。
    • 一時停止に関する特徴量のみでも,思考障害の重症度を安定して予測できることが示された。
    • 意味的整合性指標と一時停止の特徴量を統合することで,予測性能が向上した。
    • 統合による効果は,データセットに依存せず,一貫して認められた。

    Link: https://arxiv.org/abs/2507.13551

  • 見えないリード:RLVRがその起源から脱却できるか否か [cs.LG, cs.AI, cs.CL]目的:RLVRの限界に関する実証的調査
    • 大規模言語モデルの能力向上は重要であり,RLVRはその有望な手法として注目されている。
    • RLVRがモデルの推論範囲を本当に拡張しているのか,あるいは既存の知識を増幅しているだけなのか不明である。
    • RLVRが推論の地平線を拡張する限界を明らかにし,改善の方向性を示す。
    • RLVRは一貫して精度(pass@1)を向上させる一方で,探索範囲の縮小が拡大を上回る傾向があることが示された。
    • RLVRはトークンレベルのエントロピーを増加させる場合があるが,回答レベルのエントロピーは低下し,不確実性が増す。
    • RLVRは,基盤モデルが以前にアクセス可能だった正解を再現できない可能性があるという,見えないリードのような制約があることが明らかになった。

    Link: https://arxiv.org/abs/2507.14843

  • MixGRPO:混合ODE-SDEによるFlowベースGRPO効率の解禁 [eess.SY, cs.SY, cs.AI, cs.CV]目的:画像生成における人間の選好との整合性向上のためのFlowベースGRPOの効率改善
    • 画像生成における人間の選好を反映させることは,より自然で魅力的な画像を生成する上で重要である。
    • 既存のGRPO手法は,Markov Decision Process (MDP) のすべてのノイズ除去ステップに対するサンプリングと最適化が必要であり,効率が低い。
    • 本研究は,混合サンプリング戦略によりMDP内の最適化を効率化し,GRPOの性能向上を目指す。
    • MixGRPOは,SDEとODEを統合することで,最適化プロセスを効率化し,人間の選好との整合性を向上させる。
    • スライディングウィンドウ機構を導入することで,最適化のオーバーヘッドを削減し,収束を加速させる。
    • MixGRPO-Flashは,さらに高速なサンプリングとトレーニング効率を実現し,DanceGRPOと比較してトレーニング時間を大幅に削減する。

    Link: https://arxiv.org/abs/2507.21802

  • フーリエニューラル演算子の有効場理論による解析 [cs.LG, cs.AI]目的:フーリエニューラル演算子の安定性,汎化性能,周波数特性の原理的解明
    • 偏微分方程式等の関数問題解決において,効率的な代替手法であるニューラル演算子の重要性が高まっている。
    • ニューラル演算子の安定性や汎化性能,周波数特性に関する理論的な説明が不足している。
    • 有効場理論を用いてニューラル演算子の挙動を解析し,その理論的基盤を確立することを試みる。
    • 非線形活性化関数が,スペクトル切断によって除去されるはずの高周波モードへの周波数入力の結合を引き起こすことが示された。
    • 重み初期化アンサンブルに対する臨界条件を導出し,入力摂動がネットワークの深さを通じて一様なスケールを維持することを確認した。
    • 臨界理論に基づいた実用的な初期値調整法を提案し,PDEBench Burgersベンチマークで安定性向上,収束加速,テスト誤差の改善が確認された。

    Link: https://arxiv.org/abs/2507.21833

  • 均質化問題に対するユニタリーニューラルオペレーターを用いた共役勾配法の高速化 [math.NA, cs.LG, cs.NA]目的:均質化問題における共役勾配法の高速化
    • 複合材料や構造材料の需要増加に伴い,多様な材料パラメータと微細構造に対する解析が重要である。
    • 従来の数値解析手法は計算コストが高く,収束が遅い点が課題となっている。
    • データ駆動型手法と古典的なソルバーの利点を組み合わせたハイブリッド手法による解決を目指す。
    • 提案手法UNO-CGは,機械学習を用いた事前条件付けにより共役勾配法を高速化し,収束性を保証する。
    • 均質化問題において,反復回数を大幅に削減し,専門知識に基づく事前条件付け手法と競争力のある性能を示す。
    • 多様な境界条件に対し高い性能を維持し,汎用性と堅牢性を実証する。

    Link: https://arxiv.org/abs/2508.02681

  • 良質な音声が敵対的に:無害な入力による音声言語モデルの脱獄 [cs.CL, cs.CY, cs.HC, cs.SD, cs.AI, cs.CR, eess.AS]目的:音声言語モデルに対する敵対的攻撃手法の開発
    • 日常生活へのLLM統合が進む中,音声インターフェースのセキュリティ確保が重要である。
    • 音声入力の脆弱性を悪用し,悪意のあるコンテンツを生成されるリスクが存在する。
    • 人間には知覚できない程度の微小な摂動で,音声言語モデルを操作する手法を確立する。
    • 提案手法WhisperInjectは,最先端の音声言語モデルに対し,60-78%の攻撃成功率を達成した。
    • この手法は,人間の聴覚には影響を与えない微小な摂動を,無害な音声に埋め込むことで攻撃を実現する。
    • 実用的な音声ネイティブな脅威となりうることを示し,マルチモーダルAIシステムの操作可能性を明らかにした。

    Link: https://arxiv.org/abs/2508.03365

  • LLMによる模擬初心者との対話データ構築 [cs.AI]目的:LLMシミュレーションによる初心者との教育的対話データ
    • 教育,学習,意思決定支援AI開発には,質の高い対話データが不可欠である。
    • プライバシー保護や弱者の支援における脆弱性から,質の高い対話データ収集が困難である。
    • LLMを活用し,プライバシー問題を回避しつつ,教育的対話データを効率的に収集すること。
    • SimInstructにより,現実的で教育効果の高い対話データを専門家主導で作成可能となった。
    • LLMの性格特性が,専門家の関わり方に影響を与えることが示された。
    • SimInstructで作成された対話データを用いたモデルは,GPT-4oよりも高い教育品質を発揮した。

    Link: https://arxiv.org/abs/2508.04428

  • 検閲された準強盗フィードバックによるオンライン予算配分 [cs.GT, cs.LG, stat.ML]目的:オンライン予算配分問題における,後悔の最小化
    • クラウドソーシングやオークションなど,資源配分の最適化は,経済学や機械学習において重要な課題である。
    • 報酬が成功時のみ観測される検閲された準強盗フィードバック環境下では,効率的な予算配分が困難である。
    • 検閲された準強盗フィードバック環境における,漸近的な最適性の保証されたアルゴリズムを開発すること。
    • 逓減収益の状況下では,提案アルゴリズムの後悔が時間発展 $T$ に対して対数オーダーで増加することが示された。
    • 一般的な非減少曲線についても,提案アルゴリズムが $\tilde O(K\sqrt{T})$ の最悪の場合における後悔の上界を達成することが証明された。
    • 最悪の場合の後悔の下限が $\Omega(K\sqrt{T})$ であることが示され,完全フィードバックアルゴリズムでも問題の難しさが明らかになった。

    Link: https://arxiv.org/abs/2508.05844

  • ノード特徴を持つ異種GNNのモデルレベル説明のための離散拡散に基づくモデル [eess.SY, cs.SY, math.OC, cs.LG]目的:異種GNNの予測根拠のモデルレベルでの説明
    • 引用ネットワーク等の現実世界のデータは異種グラフとして自然に表現され,その応用範囲は広い。
    • 既存の説明手法はノード型の一点集約エンコーディングに依存し,現実的な説明を生成できない場合がある。
    • 離散拡散によって現実的なノード特徴を持つ異種グラフを生成し,より忠実な説明を可能にする。
    • 提案手法DiGNNExplainerは,離散空間での拡散モデルを用いて現実的な離散特徴を生成する。
    • 複数のデータセットにおける評価により,DiGNNExplainerがモデルの意思決定に忠実な現実的な説明を生成することが示された。
    • DiGNNExplainerは,最先端の手法と比較して,説明の質において優れている。

    Link: https://arxiv.org/abs/2508.08458

  • STELAR-VISION: 視覚的アラインメントのための自己トポロジー認識効率学習 [cs.AI, cs.CV]目的:視覚的推論におけるアラインメントのための自己トポロジー認識効率学習に関する研究
    • 画像と言語を結びつけるVLモデルは,多様な応用で重要な役割を担う技術である。
    • 既存のVLモデルは複雑なタスクにおいて推論が苦手で,冗長な出力を生成しやすいという課題がある。
    • 本研究は,多様なトポロジー構造を活用し,VLモデルの推論精度と効率を向上させることを目指す。
    • STELAR-Visionは,MATH-VおよびVLM-S2Hデータセットにおいて,ベースモデルと比較して9.7%の精度向上を達成した。
    • 5つの分布外ベンチマークにおいて,Phi-4-Multimodal-InstructやLLaMA-3.2-11B-Vision-Instructを最大28.4%および13.2%上回る性能を示した。
    • Chain-Only学習と比較して,分布内データセットで4.3%高い全体精度を達成し,分布外ベンチマークにおいても一貫して優れた性能を発揮した。

    Link: https://arxiv.org/abs/2508.08688

  • 普遍的なニューラル尤度推論に向けて [cs.LG, cs.AI]目的:多様なドメインとタスクにおける,任意の観測特徴量から任意のターゲットに対する,データに基づいた条件付き尤度予測
    • データ分析における応用範囲が広く,様々な分野での意思決定を支援する上で重要である。
    • 既存モデルは特定のデータ構造に依存し,汎用性に欠ける場合がある。
    • 多様なデータ形式に対応し,ゼロショット学習能力を持つモデルを開発すること。
    • 提案手法ASPIREは,既存の表形式データ基盤モデルと比較して,ゼロショットおよびFew-shot設定でF1スコアが15%向上し,RMSEは85%低減した。
    • ASPIREは,セマンティック理解能力と汎化された数値特徴量推論を,ゼロショット対応フレームワーク内で統合する。
    • UNLIの能力を活用し,推論時間の予測精度向上のための,次に行うべき特徴量の値を取得するオープンワールド型アクティブ特徴量獲得を提案する。

    Link: https://arxiv.org/abs/2508.09100

  • 相互確証的規制緩和 [cs.CY, cs.AI]目的:AIの安全確保のための規制緩和の誤り
    • AI技術は国家安全保障に影響を及ぼすため,国際的な競争力と安全性の両立が重要である。
    • AI開発競争において,安全性を軽視した規制緩和が進み,長期的なリスクが高まっている。
    • AI開発における規制緩和の誤りを明らかにし,安全性を重視した新たな枠組みを提唱すること。
    • AIの性能差は急速に縮小しており,一時的な優位性を得るために安全性を犠牲にすることは合理的ではない。
    • 適切なガバナンスは開発を促進し,規制された市場への投資を呼び込む。明確なルールは不確実性を低減し,イノベーションを加速させる。
    • 規制緩和は,情報戦の道具を敵に提供し,生物兵器の開発を容易にし,制御不能なAGIの出現を招く可能性がある。

    Link: https://arxiv.org/abs/2508.12300

  • ウォーターマークされた言語モデルの検出改善 [cs.CL, cs.LG, stat.ML]目的:大規模言語モデル生成物の検出手法の向上
    • LLMの急速な発展に伴い,生成された文章の出所特定が重要となっている。
    • ウォーターマークの検出精度は,モデルのエントロピーに依存し,特にファインチューニングで低下しやすい。
    • ウォーターマーク検出器と非ウォーターマーク検出器の組み合わせによる精度向上を目指す。
    • ウォーターマーク検出器と非ウォーターマーク検出器を組み合わせることで,単独で使用するよりも高い検出性能が得られた。
    • 様々な実験条件下で,ハイブリッド方式が性能向上を示すことが確認された。
    • 特に,エントロピーが低いモデルにおいて,この組み合わせが有効であることが示された。

    Link: https://arxiv.org/abs/2508.13131

  • 入力時間スケーリング:ノイズと無関係性の追加が,少ないデータでの推論性能と効率を劇的に向上させる [cs.LG, cs.AI, cs.CL]目的:大規模言語モデルの推論性能と効率の向上
    • 近年,大規模言語モデルの推論能力が注目されている。高品質なデータと大規模な学習が重要視されている。
    • 高品質なデータを準備するにはコストがかかり,資源集約的なアプローチが課題となっている。
    • ノイズや無関係な情報を含むデータセットを用いても高い性能を維持し,データ準備の負担を軽減すること。
    • 学習と推論の段階で関連性と無関係な文脈を混在させる「学習・テスト共同設計」が最適な結果をもたらすことがわかった。
    • 高品質データは易しい問題で弱モデルに有効だが,難しい問題では低品質データが高いスコアを達成する。
    • 入力時間スケーリングにより,高品質なデータ準備の労力を削減しつつ,推論性能と効率を向上させることが可能になった。

    Link: https://arxiv.org/abs/2508.13654

  • 構造化データワークフローには変換だけで十分 [cs.AI, cs.LG]目的:構造化データワークフローパイプライン構築のための機能的エージェントAIフレームワーク
    • データ活用において,構造化データの効率的な処理は不可欠である。
    • 既存の手法では,複雑なワークフローの柔軟な記述やデータ型の直接利用が困難である。
    • データ型にエージェントを埋め込み,データ間の論理的変換を行うことで,この問題を解決する。
    • Agenticsフレームワークは,データモデリングを重視した宣言的なアプローチを提供する。
    • データ型を大規模言語モデルに直接公開し,入出力型間の変換を通してデータ値を構成する。
    • データ処理,テキストtoSQL,複数選択問題,科学的発見など,多様なタスクで有効性が実証された。

    Link: https://arxiv.org/abs/2508.15610

  • 実質的な交差的アルゴリズム公平性:フェミニスト的アプローチのための要件 [cs.CY, cs.AI]目的:交差的アルゴリズム公平性のための実質的なアプローチの提言
    • 差別は多岐にわたる要因で生じるため,アルゴリズムの公平性研究は複雑性を考慮する必要がある。
    • 既存の研究は,特定の人口統計学的サブグループに焦点を当て,社会の現実を単純化するリスクがある。
    • アルゴリズムシステム設計,評価,導入を導くための10個の要件を提示し,構造的不平等を解消することを目指す。
    • 本研究は,アルゴリズムの公平性が社会的文脈から切り離せないことを強調し,公平性の実現には社会科学との連携が不可欠である。
    • 中立性の前提,保護属性の使用,複数に疎外されたグループの包含に関して,AIの実践者と専門家による考察を促す。
    • 場合によっては,原則に基づいたアルゴリズムシステムの非導入も必要となる可能性を示唆する。

    Link: https://arxiv.org/abs/2508.17944

  • 情報テンプレート:知的な能動的特徴獲得の新たなパラダイム [cs.AI]目的:能動的特徴獲得におけるテンプレートの学習と活用
    • 機械学習において,データから効率的に情報を抽出することは重要である。
    • 既存手法では,複雑な意思決定やデータ分布の推定が課題となっていた。
    • 特徴テンプレートを用いて,効率的な特徴獲得と計算コストの削減を目指す。
    • 提案手法TAFAは,既存の最先端手法を上回る性能を示すことが確認された。
    • TAFAは,全体的な特徴獲得コストと計算量を低減することに成功した。
    • 特徴テンプレートの学習により,方策が考慮すべき行動空間を大幅に削減できる。

    Link: https://arxiv.org/abs/2508.18380

  • 不確実性駆動適応探索のための新しいフレームワーク [cs.AI, cs.LG]目的:不確実性に基づいた適応探索戦略
    • 複雑なタスク遂行には,探索と活用を適切に切り替える必要があり,その最適化は重要である。
    • 探索と活用の切り替え時期の決定は難しく,特に長くて複雑な行動系列を学習する場合に課題となる。
    • 不確実性に着目し,探索と活用のバランスを最適化することで,学習効率の向上を目指す。
    • 提案フレームワークは,既存の適応探索手法を包含し,様々な不確実性評価メカニズムを組み込める汎用性を持つ。
    • 実験結果から,本フレームワークが標準的な探索戦略よりも優れた性能を示すことが確認された。
    • 複雑な環境下での学習において,適応的な探索戦略が有効であることが示された。

    Link: https://arxiv.org/abs/2509.03219

  • オブジェクト中心表現学習による統一的な動画シーングラフ生成手法UNO [cs.CV, cs.AI]目的:動画シーングラフ生成における,オブジェクト検出と時間的相互作用のモデリング
    • 動画理解において,シーングラフは構造化された表現を提供し,動的な視覚コンテンツの解析に不可欠である。
    • 既存手法は,粗粒度または微粒度のいずれかに焦点を当て,タスク特化型アーキテクチャと多段階学習を必要とする。
    • 異なる視覚粒度レベル間で汎化可能な,単一段階で統合されたフレームワークを開発し,効率性を向上させる。
    • UNOは,ボックスレベルとピクセルレベルの両タスクにおいて,競争力のある性能を達成した。
    • オブジェクトと関係のスロットへの分解を可能にする拡張スロットアテンション機構を導入した。
    • オブジェクト時間的一貫性学習により,明示的なトラッキングモジュールなしに一貫したオブジェクト表現を強化した。

    Link: https://arxiv.org/abs/2509.06165

  • エントロピー増強による多段階嗜好最適化を通じたコーディングエージェントの構築 [cs.AI]目的:多段階嗜好最適化によるコーディングエージェントの性能向上
    • ソフトウェア開発はLLMにとって複雑な課題であり,大規模なコードベースとツール連携が求められる。
    • 既存の嗜好最適化アルゴリズムは単一ターンタスク向けであり,多段階推論やツール統合に対応できていない。
    • エントロピーを維持し,多段階インタラクションを最適化することで,コーディングエージェントの性能向上を目指す。
    • 提案手法EntroPOは,既存の嗜好最適化アルゴリズムを多段階・ツール支援環境へ適応させる。
    • SWEBENCHリーダーボードにおいて,オープンウェイトモデルの中で最先端の結果を達成した。
    • 30Bパラメータのモデルが,SWEBENCH-LITEで1位,SWEBENCH-VERIFIEDで4位を獲得し,350B以上のモデルに匹敵する性能を示した。

    Link: https://arxiv.org/abs/2509.12434

  • モーションフローと注意機構強化畳み込み再帰型アーキテクチャを用いたサーマル画像ベースのリアルタイム転倒検知 [cs.HC, cs.HC, cs.CL, cs.CV, cs.AI]目的:高齢者の転倒をリアルタイムで検知するための手法
    • 高齢化社会において,転倒は重大な健康問題であり,早期発見と迅速な対応が求められる。
    • 既存の転倒検知システムは,装着型デバイスやRGBカメラに依存し,プライバシーや利便性の問題がある。
    • 非装着型で,プライバシーを保護し,リアルタイムな転倒検知システムの実現を目指す。
    • 提案手法は,サーマル画像とBiConvLSTMモデル,および様々な注意機構を組み合わせることで,高精度な転倒検知を実現した。
    • TSFデータセットにおいて,ROC-AUC99.7%という最先端の性能を達成し,TF-66データセットでも堅牢な結果を示した。
    • 本研究は,サーマル画像を用いた転倒検知の新たな標準を確立し,実用的なシステムの開発に貢献する。

    Link: https://arxiv.org/abs/2509.16479

  • MapCoder-Lite:複数エージェントのコーディングを単一の小規模LLMへ蒸留 [cs.CL, cs.AI]目的:複数エージェントのコーディング能力の蒸留
    • LLMによるコード生成は進化しているが,複数エージェントでの複雑な問題解決が課題となっている。
    • 既存の複数エージェント手法は,大規模モデルに依存するか,小規模モデルでは性能が低下する。
    • 大規模モデルの知識を小規模モデルに効率的に転移し,複数エージェントの性能を維持すること。
    • MapCoder-Liteは,7Bモデルに複数エージェントの推論能力を蒸留するフレームワークである。
    • xCodeEvalの精度を2倍以上に向上させ(13.2%→28.3%),フォーマットエラーを解消した。
    • GPUメモリとトークン生成時間を32Bモデルの4分の1に削減し,効率的なコーディングを実現した。

    Link: https://arxiv.org/abs/2509.17489