arXiv雑要約

AI - 2026/02/04 公開

  • 規制市場:AIガバナンスの未来 [cs.AI, econ.GN, q-fin.EC]目的:AIガバナンスの将来像
    • AI技術の発展は社会に大きな影響を与えるため,適切なガバナンスが不可欠である。
    • 法規制の技術的翻訳の遅れと,業界への過度な委任が課題となっている。
    • 規制市場の導入により,これらの課題を克服し,民主的なAIガバナンスを実現すること。
    • 本研究では,政府が認可した民間規制機関から規制サービスを購入する「規制市場」を提案する。
    • これにより,政府はAI規制の優先順位を設定しつつ,市場の力を活用した技術開発を促進できる。
    • 従来の法規制や業界への過度な委任の限界を克服し,AIガバナンスの新たな枠組みを提示する。

    Link: https://arxiv.org/abs/2304.04914

  • 注意機構に基づく音声翻訳のアライメントを活用した同時音声翻訳の誘導 [cs.CL, cs.LG, cs.SD, eess.AS]目的:同時音声翻訳のための注意機構に基づくアライメント生成と,その誘導ポリシー
    • 自然言語処理の発展に伴い,音声翻訳の需要が高まっており,リアルタイム翻訳が求められている。
    • 既存の同時音声翻訳は,遅延や翻訳精度の低下が課題であり,改善の余地がある。
    • 注意機構から得られるアライメント情報を活用し,翻訳の精度と速度を向上させることを目指す。
    • AlignAttは,MuST-C v1.0の8言語ペアにおいて,従来の同時音声翻訳ポリシーを上回る性能を示した。
    • BLEUスコアで平均2ポイントの改善,遅延時間で0.5秒から0.8秒の短縮を達成した。
    • 注意機構に基づくアライメントが,同時音声翻訳の誘導に有効であることが示された。

    Link: https://arxiv.org/abs/2305.11408

  • 見えざるものをマッピング:基盤モデルを用いた動的ラベリングによる統合的なプロンプタブル全景マッピング [cs.DC, cs.DM, cs.MA, cs.CV, cs.AI, cs.RO]目的:全景マッピングの精度向上
    • ロボットが環境を理解し,自律的に行動するためには,幾何学的情報と意味的情報の両方が不可欠である。
    • 既存のオープンボキャブラリモデルでは,関連性の高いラベルが繰り返し生成され,全景エンティティが分割され,体積の一貫性が損なわれる。
    • 基盤モデルを活用し,動的な記述子を導入することで,オープンボキャブラリのラベルを統一的なカテゴリ構造と幾何学的サイズに関する事前知識と調和させる。
    • 提案手法UPPMは,言語誘導によるオープンボキャブラリ全景セグメンテーションとセマンティック検索を活用し,追加のモデル学習なしに持続的でプロンプタブルな全景マップを実現する。
    • 評価実験の結果,UPPMはマップ再構成の精度と全景セグメンテーションの品質において,最高の全体的な性能を示す。
    • 消去実験により,UPPMの各コンポーネント(カスタムNMS,ぼやけフレームフィルタリング,統一的なセマンティクス)がシステム全体の性能に貢献することが明らかになった。

    Link: https://arxiv.org/abs/2405.02162

  • HAAP:適応的置換を用いた階層的注意自己回帰モデルによるシーンテキスト認識 [cs.CV, cs.AI]目的:シーンテキスト認識における性能向上
    • シーンテキスト認識は,様々な環境下でテキストを読み取る上で不可欠な技術である。
    • 従来の置換言語モデリングは,ランダムな置換による学習の不安定性や計算コストが課題であった。
    • 本研究は,動的な注意機構と階層的注意機構により,これらの課題を克服し,認識精度を向上させる。
    • 提案手法HAAPは,暗黙的置換ニューロン(IPN)により,視覚情報と文脈の相関性を高め,学習の安定化を実現した。
    • また,クロスモーダル階層的注意機構(CHA)を導入することで,位置情報,文脈,視覚情報の依存関係を捉え,反復的な改良処理を不要とした。
    • 実験結果から,HAAPは複数のデータセットにおいて,最先端の性能(SOTA)を達成することが示された。

    Link: https://arxiv.org/abs/2405.09125

  • 有限時間における勾配法によるMILPのデータ駆動型逆最適化の厳密解 [cs.LG, cs.AI, math.OC]目的:MILPにおけるデータ駆動型逆最適化問題の厳密解
    • 意思決定において重要なMILPの目的関数をデータから推定する分野。
    • 特徴量に対する予測損失が重みに関して不連続となり,勾配法が適用困難。
    • リプシッツ連続で凸な劣最適性損失に着目し,厳密解を求める。
    • 劣最適性損失値を有限回反復で達成し,MILPのデータ駆動型逆最適化問題を厳密に解く。
    • その結果として,投影劣傾下法(PSGD)が最小の予測損失特徴量を有限回反復で達成する。
    • PSGDが有限ステップで収束する反復回数の上限を導出し,数値実験で確認した。

    Link: https://arxiv.org/abs/2405.14273

  • 疎な最大更新パラメータ化:疎な学習ダイナミクスへの包括的アプローチ [cs.LG]目的:疎なニューラルネットワークの学習に関する包括的なアプローチ
    • ニューラルネットワークは様々な分野で活用され,その性能向上が重要視されている。
    • 疎なネットワークは計算効率が良い一方,性能が密なネットワークに劣ることが課題。
    • 疎なネットワークの学習コストを削減し,性能を向上させることを目指す。
    • 提案手法S$\mu$Parは,活性化,勾配,重み更新を疎度レベルから独立させることで,安定した学習を実現。
    • ハイパーパラメータの再パラメータ化により,疎度やモデル幅の変化に最適な値を維持し,密なネットワークで調整した値を転用可能。
    • 大規模言語モデル実験では,疎度が99.2%でも最大11.9%の損失改善が確認された。

    Link: https://arxiv.org/abs/2405.15743

  • ME-IGM:最大エントロピー多エージェント強化学習における個別・全体・最大化 [cs.CL, cs.IR, q-bio.MN, cs.LG]目的:多エージェント強化学習における信用割り当ての課題解決
    • 協調的な多エージェント学習には,共通の報酬から学習する必要があり,その信用割り当てが重要である。
    • 既存の最大エントロピー法では,局所的な方策と全体の方策の間にずれが生じ,IGM条件に違反する。
    • このずれを解消し,IGM条件を満たしつつ,最大エントロピー探索の利点を享受することを目指す。
    • 提案手法ME-IGMは,IGM条件を満たす信用割り当てメカニズムと互換性があり,優れた性能を示す。
    • 非単調なマトリックスゲームやSMAC-v2,Overcookedといった環境で,最先端の結果を達成した。
    • ME-QMIXとME-QPLEXの2つのバリアントが,17のシナリオにおいて高い性能を発揮した。

    Link: https://arxiv.org/abs/2406.13930

  • 連続処置における因果効果に対する適合予測 [cs.CL, cs.LG, cs.AI, stat.ME]目的:連続処置に対する因果効果の不確実性定量
    • 個別化医療等の安全性が重要な応用において,因果効果の不確実性評価は不可欠である。
    • 既存手法は,二値/離散的な処置に限定され,Propensity Scoreが既知であるという強い仮定を必要とする。
    • 未知のPropensity Scoreを推定する必要がある場合の,連続処置に対する適合予測手法を確立すること。
    • 提案手法は,連続処置における潜在的な結果に対する有限標本予測区間を導出した。
    • Propensity Score推定に起因する不確実性を考慮し,未知のPropensity Score下でも有効な予測区間を保証する。
    • 合成データおよび実世界のデータセットを用いた実験により,提案手法の有効性を実証した。

    Link: https://arxiv.org/abs/2407.03094

  • ハイパー圧縮:ハイパー関数によるモデル圧縮 [cs.LG, cs.AI, cs.ET]目的:モデル圧縮におけるパラメータ表現の新しい手法
    • 近年,モデル規模の拡大が計算資源の増加を上回っており,効率的なモデル圧縮が不可欠である。
    • 既存のプルーニング,量子化,蒸留などの手法では,圧縮率と性能維持のバランスが課題となっていた。
    • 動的システムを用いたハイパー関数により,パラメータを表現することで,効率的な圧縮を実現する。
    • 提案手法Hyper-Compressionは,LLaMA2-7Bを1時間で圧縮可能であり,量子化と同等の性能を達成した。
    • 再学習を必要とせず,わずか1%以下の性能低下で高い圧縮率を実現している。
    • 推論時間や圧縮時間も短く,実用的なモデル圧縮手法となり得る。

    Link: https://arxiv.org/abs/2409.00592

  • 正弦ニューラルフィールドの高速学習:スケーリング初期化によるアプローチ [cs.RO, cs.LG, cs.AI]目的:正弦ニューラルフィールドの学習速度最大化のための初期化手法
    • 近年,ニューラルネットワークでパラメータ化された連続関数としてデータを表現するニューラルフィールドが注目を集めている。
    • ニューラルフィールドは多くの利点がある一方で,学習コストが高いことが普及の妨げとなっている。
    • 本研究は,正弦ニューラルフィールドの学習速度を向上させるための効率的な初期化手法を提案する。
    • 提案手法である「重みスケーリング」により,正弦ニューラルフィールドの学習速度が10倍に向上することが確認された。
    • 重みスケーリングは,様々なデータセットにおいて,既存のアーキテクチャよりも高速な学習を実現する。
    • 理論的・実験的な分析により,重みスケーリングがスペクトルバイアスを解消し,最適化経路を改善することが示された。

    Link: https://arxiv.org/abs/2410.04779

  • Transformerにおけるデータ駆動型チャネルマスク [cs.LG, cs.AI, stat.ML]目的:多変量時系列データに対するチャネル依存性のモデリングの強化
    • 近年,大規模時系列データセットの出現により,Transformerなどの基盤モデルが時系列分析に応用されている。
    • 既存手法はアーキテクチャの修正に偏りがちで,データセット固有の特徴を考慮しきれていない。
    • データセット固有の情報を用いてチャネル依存性を洗練し,Transformerモデルの性能向上を目指す。
    • 提案手法では,チャネル間の関係性を捉える類似度行列と,データセット固有の学習可能なパラメータを組み合わせたチャネルマスクを導入する。
    • チャネルマスクをTransformerの注意行列に組み込むことで,部分的なチャネル依存性を強化し,多様なタスクとデータセットで有効性が確認された。
    • 実験結果から,提案手法は既存手法と比較して,多変量時系列分析において優れた性能を示すことが示された。

    Link: https://arxiv.org/abs/2410.23222

  • 協調的確率的多腕バンディット問題における個々の後悔 [cs.DB, cs.LG, stat.ML]目的:確率的多腕バンディット問題における協調戦略における個々の後悔の評価
    • 複数エージェントが協調して行動する場合の意思決定の効率性が重要である。
    • 通信グラフの構造に依存した個々の後悔の上界が課題となっていた。
    • 通信グラフの直径に依存しない個々の後悔の上界を導出することを目的とする。
    • 提案手法COOP-SEにおいて,個々の後悔の上界が$O(R/ m + A^2 + A \sqrt{\log T})$であることが示された。
    • この上界は,単一エージェントの後悔と同程度のオーダーであることが確認された。
    • 対数サイズのメッセージ制限下や,対数的な通信ラウンド数においても同様の後悔上界が成立することが示された。

    Link: https://arxiv.org/abs/2411.06501

  • ガウス周辺における任意のReLU活性化の無制約学習 [cs.CL, cs.LG, cs.DS, stat.ML]目的:任意のReLU活性化の学習
    • 現代のニューラルネットワークの基礎であり,その学習可能性は重要である。
    • バイアスが任意の場合,多項式時間で学習可能か不明であった。
    • 任意のバイアスに対する定数近似アルゴリズムを開発する。
    • 本研究では,任意のバイアスに対して初めて定数近似を実現する多項式時間統計的クエリ(SQ)アルゴリズムを提案する。
    • 提案アルゴリズムは,最適なReLU活性化による損失にO(OPT) + εの損失を達成し,従来の勾配降下法に基づくアルゴリズムとは異なる。
    • また,多項式時間相関統計的クエリ(CSQ)アルゴリズムでは定数近似が不可能であることを示す。

    Link: https://arxiv.org/abs/2411.14349

  • チーム接続通信制約下における適応的経路拡張と動的先導によるマルチエージェント経路探索 [cs.DC, cs.DB, cs.AI, cs.MA, cs.RO]目的:チーム接続通信制約下におけるマルチエージェント経路探索問題の解決
    • 複数エージェントが協調して動作する場面で,経路探索は不可欠な技術である。
    • 通信制約下での経路探索は,既存手法では初期設定に依存しやすく,複雑な環境で問題となる。
    • 適応的な経路拡張と動的先導により,通信制約下での経路探索の信頼性と効率性を向上させる。
    • 本研究で提案するフレームワークは,最大25エージェントに対して,通信範囲制限下で90%以上の成功率を達成した。
    • 視線通信制約下でも,最大11~12エージェントに対して高い成功率を示し,既存手法を上回る性能を発揮した。
    • 適応的経路拡張と動的先導の組み合わせにより,複雑な環境における経路探索の実現可能性を高めた。

    Link: https://arxiv.org/abs/2501.02770

  • 良いなら繰り返せ:反復的なコーパスキュレーションを試すべきである [cs.AI, cs.CY, cs.GT]目的:事前学習データの有害コンテンツフィルタリングによるモデル安全性の向上
    • 大規模言語モデルの安全性確保は,社会実装において不可欠である。
    • 既存のフィルタリング手法では,有害コンテンツの完全な除去が困難である。
    • 反復的なフィルタリングによって,より安全なコーパスとモデルの実現を目指す。
    • モデルをフィルタリングされたデータで訓練し,さらにそのモデルでコーパスをフィルタリングすることで,よりクリーンなモデルが得られる。
    • このプロセスは,モデル自身が自身の訓練データを承認する自己整合的なコーパスへと収束する理論的根拠がある。
    • 反復は有害コンテンツの減少をもたらし,スケーラブルな監視の形を提供する。また,解釈可能性研究に有用なドキュメントに対する大規模な選好アノテーションを生成する。

    Link: https://arxiv.org/abs/2501.15280

  • 深層グラフ学習はネットワーク科学なしでは停滞する [cs.LG]目的:深層グラフ学習とネットワーク科学の融合による発展
    • 複雑なシステム理解に不可欠であり,社会や生物学など幅広い分野に応用されている
    • 深層グラフ学習は経験的な性能に偏重し,ネットワーク科学の基礎的知見を無視する傾向がある
    • 深層グラフ学習の停滞を回避し,更なる発展を促すための行動喚起
    • 深層グラフ学習は,ネットワーク科学の知見を取り入れることで,より堅牢で解釈可能なモデル構築が可能となる。
    • 本論文では,深層グラフ学習におけるネットワーク科学の活用を促進するための6つの提言を提示する。
    • これらの提言は,深層グラフ学習の将来的な進歩に貢献し,複雑なシステム理解を深めることが期待される。

    Link: https://arxiv.org/abs/2502.01177

  • OverThink:推論LLMに対するスローダウン攻撃 [cs.LG, cs.CR]目的:推論型言語モデルの計算量増加
    • 大規模言語モデルの活用が拡大しており,推論能力の重要性が高まっている。
    • 推論過程の実行には計算資源が必要であり,コストと遅延の問題がある。
    • 推論時に不要な計算を発生させ,サービスを妨害する攻撃の対策。
    • OverThink攻撃は,公開コンテンツに無害な推論問題(マルコフ決定過程,数独等)を挿入することで,言語モデルに過剰な推論を強いる。
    • この攻撃は,クローズドソースおよびオープンソースの推論モデルに対し,FreshQA,SQuAD,MuSRデータセットで有効性が確認された。
    • 画像を用いてマルチモーダル環境での攻撃も可能であり,モデル間で遅延の影響が共通して現れることが示された。

    Link: https://arxiv.org/abs/2502.02542

  • 拡散モデルの表現力ダイナミクスの低次元モデリングによる理解 [cs.LG, cs.CV]目的:拡散モデルにおける表現力ダイナミクス
    • 画像認識等の分野において,自己教師あり学習による汎化性能の向上が重要視されている。
    • 拡散モデルの表現力はノイズレベルに依存し,そのメカニズムは十分に解明されていない。
    • 拡散モデルの表現力ダイナミクスを理論・実験的に解析し,そのメカニズムを解明すること。
    • 拡散モデルがデータ分布を捉える際に,表現力ダイナミクスにおける単峰性が生じることを理論的に示した。
    • この単峰性は,ノイズレベルごとのノイズ除去能力とクラス確信度の相互作用によって生じる。
    • 分類タスクにおいて,単峰性の存在は拡散モデルの汎化性能と相関があり,生成能力が高い場合に顕著に現れる。

    Link: https://arxiv.org/abs/2502.05743

  • 沿岸および河川における浅水ダイナミクスのためのニューラルオペレーターエミュレーター [cs.CL, cs.CY, cs.HC, cs.SI, cs.CY, cs.CE, cs.LG, physics.comp-ph, physics.geo-ph]目的:沿岸部や河川の浅水ダイナミクスを効率的に近似するニューラルエミュレーターの開発
    • 極端な気象現象に対する脆弱性が高く,インフラ計画や気候変動への適応に不可欠なリアルタイム予測が求められる。
    • 高精度な数値モデルは計算コストが高く,既存の低コスト手法は分布外の条件への一般化が困難である。
    • 複雑な非線形問題の高速かつ高精度な予測を可能にし,リアルタイム予測の課題を解決することを目指す。
    • MITONetは,ニューヨークのシネコック湾口とルイジアナ州レッド川における潮汐と河川の流れを高い精度で予測した。
    • 異常相関は0.9以上,正規化二乗平均平方根誤差は0.011以下,計算速度は100倍~1250倍の高速化を実現した。
    • 異なる流れの状態,複雑な形状,多様な底面摩擦係数に対しても,一貫して高い予測性能を示した。

    Link: https://arxiv.org/abs/2502.14782

  • MetaSym:物理知能のためのシンプレクティックメタ学習フレームワーク [cs.LG, cs.RO, physics.comp-ph, quant-ph]目的:物理知能を実現するためのシンプレクティックメタ学習フレームワーク
    • ロボティクスや分子動力学など,多様な分野で物理を考慮した深層学習の応用が期待されている。
    • 従来の深層学習では,エネルギーや運動量のような物理的な不変量を維持することが困難であった。
    • シンプレクティックな構造を組み込むことで,物理的な不変量を保ちつつ,効率的な適応を可能にすることを目指す。
    • MetaSymは,シンプレクティックエンコーダとメタアテンションを用いた自己回帰的デコーダを組み合わせた新しいフレームワークである。
    • 様々な現実的なデータセットにおいて,既存の最先端モデルと比較して,少ないデータでの適応性能が優れていることが示された。
    • 実際のクアッドローターデータを用いた実験では,センサーノイズや現実世界の不確実性に対する頑健性が確認された。

    Link: https://arxiv.org/abs/2502.16667

  • レイアウトリッチな文書からの情報抽出におけるLLMの設計空間 [cs.CL, cs.AI]目的:レイアウトリッチな文書からの情報抽出のための設計空間
    • 文書内の情報抽出は,ビジネスや学術研究におけるデータ活用に不可欠である。
    • 従来のモデルでは,レイアウト情報が十分に活用できず,精度が課題となっていた。
    • LLMを活用し,レイアウト情報を考慮した情報抽出の最適な設計を探求する。
    • LLMによる情報抽出の性能は,パイプラインの調整によって大きく向上することが示された。
    • LayIE-LLMを用いた最適化により,ベースライン設定と比較してF1スコアが13.3~37.5ポイント向上した。
    • OFAT法は,計算コストを大幅に削減しつつ,ほぼ最適な結果を得ることを可能にした。

    Link: https://arxiv.org/abs/2502.18179

  • 電力市場曲線における潜在空間表現:構造的整合性の維持 [cs.LG]目的:電力市場曲線の潜在空間表現に関する性能評価
    • エネルギー市場分析において,需給曲線の効率的な表現は不可欠である。
    • 次元削減によって,経済学の基本原則である単調性が損なわれる場合がある。
    • 単調性の制約を保証し,物理的な妥当性を回復することを目指す。
    • UMAPは他の手法と比較して,複数の誤差指標で一貫して最高の性能を示した。
    • アイソトニック回帰は,誤差を大幅に低減し,物理的な妥当性を回復するための重要な修正層として機能した。
    • UMAPの局所構造保存とインテリジェントな後処理の組み合わせが,ダウンストリームタスクの堅牢な基盤を提供する。

    Link: https://arxiv.org/abs/2503.11294

  • V2P-Bench:視覚的プロンプトを用いたビデオと言語の理解評価による,より良い人間とモデルのインタラクション [cs.CV, cs.AI, cs.CL]目的:視覚的プロンプトによるビデオと言語の理解能力の評価
    • ビデオ理解は,多様な応用分野において不可欠であり,その重要性は増している。
    • 既存の評価基準はテキストプロンプトに依存しており,複雑な表現や非効率なインタラクションが課題である。
    • 人間とモデルのインタラクションを改善し,ビデオ理解の評価方法を高度化することを目指す。
    • V2P-Benchは,視覚的プロンプトを用いたLVLMの理解度を評価するための堅牢かつ包括的な基準である。
    • 視覚的プロンプトは,テキストプロンプトと比較して,モデルとユーザーの両方にとって理解しやすく,パフォーマンスとユーザーエクスペリエンスが向上する。
    • LVLMは視覚的プロンプトをある程度理解できるものの,時空間的な理解には課題が残る。また,ビデオの長さやフレームサンプリング密度によって性能が過大評価される傾向がある。

    Link: https://arxiv.org/abs/2503.17736

  • 大規模モデルの学習と適応における低ランク構造の概要 [cs.LG, eess.SP, math.OC, stat.CO, stat.ML]目的:大規模モデルの学習と適応における低ランク構造の理解と活用
    • 深層学習の規模拡大に伴い,計算資源の制約が重要課題となっている。
    • モデルのパラメータ数が膨大になり,学習・推論コストが増大している。
    • 低ランク構造を利用することで,計算効率を向上させることを目指す。
    • 深層ネットワークの重みや表現は,学習過程で内在的に低ランク構造を獲得することが示されている。
    • 最適化ダイナミクスと暗黙の正則化効果という2つの視点から,低ランク性の発生メカニズムが説明されている。
    • LoRAなどのパラメータ効率の良い微調整手法や,ドロップアウト等の有効性の理論的根拠を与える。

    Link: https://arxiv.org/abs/2503.19859

  • プロトタイプを用いた解釈可能な拡散モデル:Patronus [cs.CV, cs.AI, cs.LG]目的:拡散モデルにおける生成過程の解釈
    • 拡散モデルの応用範囲拡大に伴い,その内部メカニズムの理解が不可欠である。
    • 拡散モデルはブラックボックスとなりがちで,生成過程の解釈が困難である。
    • 視覚的パターンがモデル化され,ノイズ除去過程でどのように出現するかを明らかにすること。
    • 提案手法Patronusは,プロトタイプネットワークを用いることで,拡散モデルの生成過程を解釈可能にした。
    • Patronusは,望ましくない相関による捷径学習の検出や,意味的特徴の経時的追跡を可能にする。
    • 自然画像および医療画像データセットで,高い生成性能と解釈の忠実性が確認された。

    Link: https://arxiv.org/abs/2503.22782

  • GPG:モデル推論のためのシンプルかつ強力な強化学習ベースライン [cs.LG, cs.AI]目的:大規模言語モデルの推論能力の向上
    • 言語モデルの性能向上には,推論能力の強化が不可欠である。高度な推論は複雑な問題解決に繋がる。
    • 従来の強化学習手法は,計算コストが高く,実装が複雑であるという課題があった。
    • 既存手法の複雑さを軽減し,より効率的かつ高性能な推論能力の学習を目指す。
    • GPGは,従来の強化学習手法と比較して,計算コストを大幅に削減できる。
    • GPGは,様々な単峰および多峰タスクにおいて,GRPOよりも一貫して優れた性能を示す。
    • GPGは,補助的な技術や調整に頼ることなく,直接RLの目的関数を最適化する。

    Link: https://arxiv.org/abs/2504.02546

  • 構造への適合:構造的情報を用いた大規模言語モデルの調整 [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルにおける長文生成の改善
    • 自然言語処理の発展において,人間らしい文章生成能力は重要な課題である。
    • 大規模言語モデルは,長文生成時に階層的な計画や構造的組織が不足しがちである。
    • 言語学的知見に基づき,構造的な情報を組み込むことで,より一貫性のある文章生成を目指す。
    • 本研究では,強化学習を用いて大規模言語モデルを人間の文章構造に適合させる「構造的適合」を提案する。
    • トークンレベルの報酬関数と,階層的な談話モチーフ分析に基づいた報酬モデルを組み合わせた結果,エッセイ生成や長文要約において,従来のモデルを上回る性能が確認された。
    • 本研究で用いた学習データとコードは公開されており,さらなる研究の促進に貢献する。

    Link: https://arxiv.org/abs/2504.03622

  • Crypto-ncRNA:RNAフォールディングの複雑性を活用したポスト量子暗号の原始 [cs.CR, cs.AI]目的:ポスト量子暗号の原始としてのCrypto-ncRNA
    • 量子コンピュータの登場により,現在の暗号システムが脆弱になる危機が迫っているため,新たな暗号技術が求められている。
    • 既存のポスト量子暗号は,数学的な構造に依存しており,将来的に解読される可能性が残されている。
    • RNAフォールディングの複雑性を利用することで,従来の数学的構造に依存しない,新しい暗号技術を確立すること。
    • Crypto-ncRNAは,ノンコーディングRNAのフォールディングの熱力学的複雑性を活用することで,従来の暗号とは異なるセキュリティ基盤を構築する。
    • この手法は,量子近似最適化アルゴリズムを含む量子最適化攻撃に対して理論的な耐性を示す。
    • 共有鍵暗号化と鍵導出の原始として機能し,AESと同等のスループットを達成,NIST SP 800-22の統計的基準を満たす暗号文エントロピーを示す。

    Link: https://arxiv.org/abs/2504.17878

  • 嗜好ベクトルによる適応的な有益性と無害性の調整 [cs.LG, cs.AI]目的:大規模言語モデルにおける有益性と無害性のバランス調整
    • 言語モデルの安全性が重要視される中,有益性と無害性の両立が課題となっている。
    • 従来の学習手法では,性能の衝突や制御性の低さ,拡張性の問題が存在する。
    • 本研究は,複数の嗜好を柔軟に調整し,新たな嗜好を容易に統合することを目指す。
    • 提案手法である嗜好ベクトルは,有益性を損なうことなく,過度な保守性を抑制することに貢献する。
    • 嗜好のトレードオフを滑らかに制御し,ユーザーによるきめ細かい調整を可能にする。
    • 複数の嗜好を拡張性良く調整できることが実験により示された。

    Link: https://arxiv.org/abs/2504.20106

  • 専門家協働学習によるAI研究アシスタントの発展 [cs.AI, cs.CL, cs.IR]目的:バイオメディカル研究におけるAI研究アシスタントの能力評価と最適化
    • 生物医学研究の加速化にAI活用が期待される中で,その信頼性向上が重要である。
    • 大規模言語モデルやマルチモーダルモデルの性能は向上するも,信頼性には課題が残る。
    • 専門家との協働を通して,AIモデルの弱点を克服し,信頼性を高めることを目指す。
    • 最新モデルは流暢だが不完全な要約を生成し,詳細な図の解釈に苦戦することが示された。
    • プロンプトエンジニアリングや軽量なファインチューニングがテキストの網羅性を向上させることが確認された。
    • テキストと視覚情報を統合したARIELエージェントは,検証可能なメカニズム仮説を提案可能であることが示された。

    Link: https://arxiv.org/abs/2505.04638

  • ニューラル熱力学:深層学習と汎用表現学習におけるエントロピー力 [cs.RO, cs.LG, cond-mat.dis-nn, cond-mat.stat-mech, math-ph, math.MP, q-bio.NC, stat.ML]目的:深層学習と汎用表現学習の学習力学の理解
    • 深層学習の急速な発展に伴い,その背後にある原理の解明が急務となっている。
    • 深層学習の最適化における鋭さ・平坦さのトレードオフなど,現象の矛盾が未解決である。
    • エントロピー力と対称性の破れが,深層学習における創発現象の鍵となることを示す。
    • 本研究では,確率的勾配降下法におけるパラメータ対称性とエントロピー損失地形に基づき,厳密なエントロピー力理論を提案した。
    • エントロピー力はパラメータの連続的な対称性を破り,離散的な対称性を保存することで,勾配の釣り合い現象を引き起こすことが示された。
    • この理論と実験により,AIモデル間の表現の普遍的な整合性,プラトンの表現仮説の証明,最適化行動の矛盾の解消が説明された。

    Link: https://arxiv.org/abs/2505.12387

  • ニューラル演算子のマルチレベルモンテカルロ学習 [cs.LG, cs.NA, math.NA]目的:ニューラル演算子学習における計算コストの削減
    • 偏微分方程式の近似は科学技術計算の根幹であり,高精度な近似手法が求められている。
    • 従来のニューラル演算子学習は,高解像度での計算コストが高く,大規模問題への適用が困難である。
    • マルチレベルモンテカルロ法を用いて,計算コストを抑えつつ高精度な学習を実現すること。
    • マルチレベルモンテカルロ学習は,従来の単一解像度学習よりも計算効率が向上することが示された。
    • 精度と計算時間の間にパレート曲線が存在し,解像度ごとのサンプル数によってトレードオフが変化することが確認された。
    • 本手法は,様々なニューラル演算子アーキテクチャに適用可能である。

    Link: https://arxiv.org/abs/2505.12940

  • 交通予測のための混合グラフアルゴリズム展開による軽量かつ解釈可能なTransformer [cs.LG, cs.AI, eess.SP]目的:交通予測のための軽量かつ解釈可能なTransformerモデルの構築
    • 交通状況の予測は,都市計画,交通管理,自動運転など,様々な分野において不可欠である。
    • 従来のTransformerモデルは計算コストが高く,モデルの解釈が困難であるという課題がある。
    • 混合グラフに基づく最適化アルゴリズムを展開することで,計算効率と解釈可能性を向上させる。
    • 提案手法は,最先端の予測手法と同等の交通予測性能を達成しつつ,パラメータ数を大幅に削減した。
    • 空間相関と時間的関係を捉えるための2つのグラフ(無向グラフと有向グラフ)を導入した。
    • グラフ学習モジュールを定期的に挿入することで,自己注意機構の役割を果たし,パラメータ学習をデータ駆動的に行った。

    Link: https://arxiv.org/abs/2505.13102

  • 断片的なデータからの確率的動力学と成長の推測 [cs.LG, physics.bio-ph, q-bio.QM]目的:確率的動力学と成長を伴う生物学的プロセスの推測
    • 単一細胞オミクスデータは細胞運命を解明する上で重要である。しかし,測定は断片的になりやすい。
    • 細胞分裂や死などの影響により,現実的な生物物理モデルの推測が困難である。
    • 内在するノイズや成長を考慮した,より正確なモデル推測手法の開発。
    • 提案手法「unbalanced probability flow inference」は, Fokker-Planck方程式のLagrangian形式を活用し,ドリフトとノイズ,成長を正確に分離する。
    • シミュレーションデータおよび実際のシングルセルRNA-seqデータを用いて検証した結果,既存手法よりも高い精度を達成した。
    • 本手法は,シンプルな二段階の学習スキームで高い精度を実現する。

    Link: https://arxiv.org/abs/2505.13197

  • 希薄な移行型エピソード記憶からの空間世界モデルの構築 [cs.AI]目的:空間世界モデルの構築
    • 動物は環境の柔軟な認知地図を迅速に構築する能力を持つ。ナビゲーション等の行動に不可欠。
    • 従来のモデルは正確な地図構築に長い軌跡が必要。断片的な経験からの地図形成が課題。
    • 本研究は,希薄なエピソード記憶から空間地図を構築する新しい枠組みを提案し,その可能性を探る。
    • ESWMは,最小限の経験から未観測の遷移を予測し,潜在空間の幾何学構造が環境と一致することを示した。
    • エピソード記憶の独立した保存・更新により,ESWMは環境変化に迅速に適応できる適応性を持つ。
    • ESWMは追加の訓練なしに,新規環境の探索や任意地点間のナビゲーションにおいてほぼ最適な戦略を可能にする。

    Link: https://arxiv.org/abs/2505.13696

  • AudioJailbreak:エンドツーエンド大規模音声言語モデルに対する脱獄攻撃 [cs.CR, cs.AI, cs.LG, cs.SD, eess.AS]目的:大規模音声言語モデルに対する脱獄攻撃の有効性と実現可能性の検証
    • 音声言語モデルの利用拡大に伴い,そのセキュリティ確保が重要課題となっている。
    • 既存の脱獄攻撃は強力な攻撃者を想定しており,現実的な弱者攻撃に対する脆弱性が不明である。
    • 現実的な弱者攻撃シナリオにおける音声言語モデルの脆弱性を明らかにし,ロバスト性を向上させる。
    • 提案手法AUDIOJAILBREAKは,従来の音声脱獄攻撃にはない非同期性,普遍性,隠蔽性,耐環境性を実現した。
    • GPT-4o-AudioやLlama-Guard-3といった最先端の音声言語モデルに対し,弱者攻撃シナリオにおいても高い脱獄成功率を示した。
    • 本研究は,音声言語モデルのセキュリティリスクを浮き彫りにし,ロバスト性改善への貢献を目指す。

    Link: https://arxiv.org/abs/2505.14103

  • 意味演算システムのためのコストベース最適化器 Abacus [cs.DB, cs.AI]目的:意味演算システムの最適化手法
    • 大規模ドキュメント処理におけるLLM活用が進み,データ処理の新たな可能性が広がっている。
    • 既存の最適化器は適用できる最適化が限られ,品質・コスト・遅延の同時最適化が困難である。
    • 品質,コスト,遅延を制約下で最適化する手法を開発し,システム全体の効率を向上させる。
    • Abacusは,少数の検証例,事前知識,LLMによる評価を活用して演算子の性能を予測する。
    • バイオメディカル,法律,マルチモーダル質疑応答のワークロードにおいて,Abacusによる最適化システムは品質が6.7%-39.4%向上した。
    • また,最適化されたシステムは,コストが10.8倍安く,速度が3.4倍向上した。

    Link: https://arxiv.org/abs/2505.14661

  • 分散センシングのための自己教師あり配置認識表現学習:SPAR [cs.LG]目的:分散センシングにおける配置を考慮した表現学習
    • 多様なセンサから環境を観測する分散センシングは,車両監視や行動認識など幅広い応用分野で重要である。
    • 既存手法はセンサ配置の影響を無視しており,配置変化に対する頑健性に課題がある。
    • センサの配置と観測信号の相互関係をモデル化することで,配置に依存しない汎化性能を実現する。
    • SPARは,信号と位置の二重性に基づき,空間的・構造的な位置埋め込みと二重再構成目的を導入することで,配置を表現学習に統合する。
    • 理論的な分析と実世界のデータセットを用いた実験により,SPARが様々な条件下で優れた頑健性と汎化性能を示すことが確認された。
    • SPARは,異なるモダリティ,配置,および下流タスクにおいて既存手法を上回る性能を達成した。

    Link: https://arxiv.org/abs/2505.16936

  • 記憶の消去のためのリダイレクト (REM): 破損データに対する汎用的なアンラーニング手法へ [cs.LG]目的:破損データに対するアンラーニングタスクの特性空間
    • 機械学習モデルの安全性と信頼性確保のため,データ削除の仕組みが不可欠である。
    • 既存のアンラーニング手法は特定のタスクに特化し,比較検討が困難であった。
    • 破損データの発見率と統計的規則性に着目し,汎用的なアンラーニング手法を確立する。
    • 提示されたREMは,破損データを専用ニューロンにリダイレクトし,影響を抑制することで,多様なタスクにおいて高い性能を発揮する。
    • 既存の最先端手法が設計された領域外で失敗するのに対し,REMは特性空間全体で安定した性能を示す。
    • 本研究は,アンラーニングタスクを分類する概念空間を提示し,それに基づいた新しい手法REMを提案する。

    Link: https://arxiv.org/abs/2505.17730

  • LLMの推論における思考連鎖の短縮化:より良い推論のための短い思考連鎖の優先 [cs.CL, cs.AI]目的:LLMの推論性能向上
    • LLMの複雑な推論能力は,計算資源を大規模に投入することで実現されてきた。
    • 長大な思考連鎖は計算コストや推論時間を増大させるという課題がある。
    • 推論における思考連鎖の長さを最適化し,効率的な推論を可能にすること。
    • 短い思考連鎖の方が,長い思考連鎖と比較して正答率が高いことが示された(最大34.5%向上)。
    • short-m@kという新しい推論手法を提案し,限られた計算資源下でも高い性能を発揮することが確認された。
    • 短い思考連鎖でLLMをファインチューニングすることで,推論性能が向上することが示唆された。

    Link: https://arxiv.org/abs/2505.17813

  • 認識的不確実性推定法は本質的に不完全である [cs.LG, stat.ML]目的:予測的不確実性の源泉の特定と分離
    • 信頼性の高い教師あり学習には,予測における不確実性の理解が不可欠である
    • 既存の方法では,偶然的不確実性と認識的不確実性の区別が曖昧である
    • 不確実性の推定におけるバイアスの問題を明らかにし,より正確な評価を目指す
    • 広く用いられる手法が,偶然的不確実性を過大評価し,認識的不確実性を過小評価することで,不確実性の定量化に誤りをもたらすことを示した
    • 既存の方法は認識的不確実性の分散への寄与の一部しか捉えられず,推定値が不完全で解釈が難しい
    • 現在の認識的不確実性の推定は,限界を理解した上での利用が必要である

    Link: https://arxiv.org/abs/2505.23506

  • 同変ネットワークの普遍性クラスについて [cs.LG]目的:同変ネットワークの近似能力に関する研究
    • 機械学習において,対称性を組み込むことは,効率的な学習に不可欠である。同変ネットワークは,そのための強力な手段となる。
    • 同変ネットワークの表現力は,分離力だけで完全に特徴づけられないという問題があった。分離力が同じモデルでも,近似能力は異なる。
    • 浅い同変ネットワークの普遍性クラスを明らかにし,近似可能な関数を理解することを目指す。
    • 浅い不変ネットワークの普遍性クラスを特徴付け,同変ネットワークの近似能力に関する一般的な枠組みを提示した。
    • 同変ネットワークは,不変ネットワークに投影されるため,浅い同変ネットワークが普遍的でないための十分条件が明らかになった。
    • 対称群の構造的性質(正規部分群の存在など)によっては,浅いモデルが分離制約付きの普遍性を達成する場合があることも示した。

    Link: https://arxiv.org/abs/2506.02293

  • Transformerと大規模言語モデルにおける関係推論と帰納的バイアス [cs.LG, q-bio.NC]目的:Transformerと大規模言語モデルにおける関係推論のメカニズム解明
    • Transformerは高度な推論能力を持つが,そのメカニズムは未だ不明な点が多い。
    • 関係推論において,モデルがどのように知識を一般化するかという課題が存在する。
    • Transformerが推移的推論をどのように行うか,そのメカニズムを明らかにすること。
    • 学習による重みの更新(IWL)は,隣接する要素のみの学習でも推移的推論へのバイアスを自然に誘導する。
    • 一方,文脈学習(ICL)モデルは,マッチ・アンド・コピー戦略を学習し,階層的な関係を符号化できない。
    • 線形回帰タスクで事前学習されたTransformerは,文脈学習で推移的推論を一般化し,人間や動物のパフォーマンスと同様の特性を示す。

    Link: https://arxiv.org/abs/2506.04289

  • 生物学的情報に基づいた潜在的埋め込みを用いたニューラル演算子:生物学的ニューロンモデルにおける実験的変動の把握 [cs.LG, cs.AI, q-bio.NC]目的:生物学的ニューロンモデルにおける実験的変動の把握
    • 脳機能理解にはニューロンの細胞特性評価が不可欠であり,そのモデル化が多角的データ統合と因果関係解明に繋がる。
    • 実験的ニューロンデータの入手可能性が限られており,モデルの決定論的性質が自然な変動を捉えきれていない点が課題である。
    • ニューロンの特徴と体性電圧応答の間のマッピング学習により,実験的変動を考慮したモデルの予測を目指す。
    • NOBLEは,解釈可能なニューロン特徴の周波数変調埋め込みから体性電圧応答へのマッピングを学習するニューラル演算子フレームワークである。
    • NOBLEは,実験的に観察される応答と一貫性のあるダイナミクスを持つモデルを生成し,数値ソルバーと比較して4200倍の高速化を実現した。
    • 本研究は,大規模データを用いた検証により,NOBLEが生物学的特性を捉え,神経回路やNeuroAI応用への新たな道を開くことを示した。

    Link: https://arxiv.org/abs/2506.04536

  • 報酬モデル解釈可能性:最適トークンと最悪トークンによる分析 [cs.CL, cs.AI, cs.CY, cs.LG]目的:報酬モデルの解釈可能性に関する研究
    • 大規模言語モデルの人間価値との整合性が重要視される中で,報酬モデルは不可欠な構成要素となっている。
    • 報酬モデル自体は,人間の価値判断を符号化しているが,その内部構造やバイアスは十分に理解されていない。
    • 報酬モデルが抱えるバイアスや価値観の歪みを明らかにし,より安全で公平な言語モデルの開発に貢献する。
    • 異なる目的で訓練された報酬モデル間には,顕著な不均一性が存在することが明らかになった。
    • 報酬モデルは,高評価トークンと低評価トークンを非対称的に符号化する傾向があることが示された。
    • プロンプトの表現方法に対する報酬モデルの感受性が,人間の認知バイアスを反映している可能性が示唆された。

    Link: https://arxiv.org/abs/2506.07326

  • エンティティレベルのプライバシー保証を持つ差分プライバシーを用いた関係型学習 [cs.LG, cs.CR]目的:関係型データに対する差分プライバシーの適用可能性
    • 個人情報保護が重要な分野で,関係性やネットワーク構造を持つデータの学習が不可欠となっている。
    • エンティティが複数の関係に参加することで感度が大きくなり,プライバシー制御が困難である。
    • エンティティレベルのプライバシー保証を備えた関係型学習のためのフレームワークを提案し,問題解決を目指す。
    • 提案手法は,エンティティの出現頻度に基づいた適応的な勾配クリッピングスキームを導入することで,感度分析を厳密に行っている。
    • 特定の結合サンプリングクラスに対してプライバシー増幅の結果を拡張し,実用的なプライバシー保証を提供する。
    • テキストアトリビュートを持つネットワーク構造データに対する実験により,提案手法の有用性とプライバシー・ユーティリティのトレードオフが示された。

    Link: https://arxiv.org/abs/2506.08347

  • シャープネス認識機械的アンラーニング [cs.CL, cs.LG]目的:機械的アンラーニングにおけるシャープネス認識最小化(SAM)の効果
    • 機械学習モデルのプライバシー保護やデータ修正の必要性が高まり,アンラーニング技術の重要性が増している。
    • 従来のアンラーニング手法では,忘却信号と保持信号の干渉により,モデルの汎化性能が低下する可能性がある。
    • SAMの特性を分析し,忘却信号と保持信号のバランスを最適化することで,より効果的なアンラーニングを実現する。
    • SAMは,忘却セットへの適合において,ノイズ除去特性を損なうことが示され,汎化性能が信号強度に依存して変化する。
    • 提案手法Sharp MinMaxは,SAMとシャープネス最大化を組み合わせることで,最適なアンラーニング性能を実現する。
    • 実験により,SAMは様々なアンラーニング手法を改善し,プライバシー保護とモデル性能の両立に貢献することが示された。

    Link: https://arxiv.org/abs/2506.13715

  • SurgVidLM:大規模言語モデルを用いた多粒度手術ビデオ理解に向けて [eess.SY, cs.SY, cs.CV, cs.AI]目的:手術ビデオの多粒度理解
    • 手術トレーニングやロボット支援手術におけるロボットの意思決定に不可欠な分野である。
    • 既存手法は画像解析や大域的なビデオ理解に偏っており,手術中の詳細なタスク実行を捉える微細なビデオ推論が欠けている。
    • この研究は,手術ビデオ全体と微細な側面の両方を理解できるモデルを構築し,その課題を解決することを目指す。
    • SurgVidLMは,大規模なビデオ・インストラクションペアデータセットSVU-31Kを用いて訓練された。
    • SurgVidLMは,グローバルな手続き的コンテキストを抽出する第1段階と,時間的手がかりに基づいて局所的な高頻度分析を行う第2段階のStageFocusメカニズムを備えている。
    • 実験結果から,SurgVidLMは既存のVid-LLMを凌駕し,複雑なロボット支援手術のコンテキスト把握能力に優れていることが示された。

    Link: https://arxiv.org/abs/2506.17873

  • 一般化された多項式カルカオスの利用による画像分類モデルの感度分析 [cs.LG, cs.AI]目的:画像分類モデルの感度分析
    • 製造業におけるデータ駆動型品質予測の重要性が増しており,機械学習モデルの活用が進んでいる。
    • 画像分類モデルは,モデル,データ,ドメインのシフトによる不確実性に直面し,過信につながる可能性がある。
    • 入力パラメータの相対的な影響度を分析し,モデルの不確実性を理解することを目的とする。
    • 本研究では,入力の分布ドメインシフトを確率変数でモデル化し,Sobol指標を用いて出力への影響を定量化する。
    • 一般化された多項式カルカオスの利用により,感度分析を実現し,モデルの挙動を詳細に把握することが可能となった。
    • 溶接欠陥分類とBMW Groupの生産施設で使用されるエンブレム分類の事例研究を通して,有効性が検証された。

    Link: https://arxiv.org/abs/2506.18751

  • LLM事前学習における「グロッキング」?テストなしで暗記から汎化への移行を監視 [cs.LG]目的:LLM事前学習におけるグロッキング現象の観察と,暗記から汎化への移行の監視
    • 大規模言語モデルの性能向上には,学習データの効率的な利用と汎化能力の向上が不可欠である。
    • 事前学習後の汎化性能を評価するには,通常,高コストな微調整やベンチマーク評価が必要となる。
    • 学習データの特性に着目し,低コストで汎化過程を監視する指標の開発が求められている。
    • LLMの事前学習においてもグロッキング現象が発生することを確認。特にMoEモデルでは,データグループごとにタイミングが異なる非同期的な移行が観察された。
    • 学習データの経路(MoEにおける専門家選択)のダイナミクスを分析した結果,層間およびサンプル間の経路が構造化され,転移性が高まることが示された。
    • サンプル間の経路類似度と層間専門家の一貫性を測定する2つの指標を開発。これらの指標は,低コストでLLMの汎化を追跡可能である。

    Link: https://arxiv.org/abs/2506.21551