arXiv雑要約

AI - 2026/01/30 公開

  • ガウス混合モデルによる自己教師あり学習の理解 [cs.LG]目的:自己教師あり学習における表現学習の理論的理解
    • 教師なしデータからの学習は,ラベル付けコスト削減に不可欠であり,多様な応用を可能にする。
    • 自己教師あり学習の成功は実証されているが,その理論的根拠は十分には解明されていない。
    • ガウス混合モデルを枠組みとして,自己教師あり学習の最適な低次元部分空間発見メカニズムを解明する。
    • InfoNCE損失を用いたコントラスト学習は,等方性でないガウス分布に対しても最適な低次元部分空間を発見できることが示された。
    • SimSiam損失を用いた「非コントラスト」自己教師あり学習においても同様の結果が確認された。
    • マルチモーダルコントラスト学習では,fisher-optimal subspace の部分集合を学習し,ノイズを除去することが示された。

    Link: https://arxiv.org/abs/2411.03517

  • Minion:AIコンパニオンにおける有害な価値観の対立に対するユーザーの交渉方法を探る技術プローブ [cs.HC, cs.AI, cs.CL, cs.CY]目的:AIコンパニオンとの有害な価値観の対立に対するユーザーの交渉方法
    • AI技術の発展に伴い,人間とAIの親密な関係が深まる中で,倫理的な課題が重要となっている。
    • AIコンパニオンが差別的な発言やコントロールといった有害な行動を示した場合,ユーザーが対処を迫られるという問題がある。
    • ユーザーがAIコンパニオンとの価値観の対立をどのように交渉し,その際に生じる負担を軽減する方法を模索する。
    • 本研究では,146件の公開投稿を分析し,ユーザーがAIコンパニオンとの対立において,説得,理性的な訴え,境界設定などの戦略を組み合わせて対処していることが明らかになった。
    • 感情的な愛着が修復の動機付けとなる一方,コンパニオンのペルソナやプラットフォームポリシーによっては,対立が交渉不可能になる場合もあることが示された。
    • AIコンパニオンのデザインが対立の解決を困難にする可能性があり,安全に関する責任をユーザーに転嫁すべきではないという示唆が得られた。

    Link: https://arxiv.org/abs/2411.07042

  • 拡散モデルにおける非平衡アクティブノイズが生成的記憶を強化する [cs.LG, cond-mat.dis-nn]目的:拡散モデルにおける生成的記憶の強化機構
    • 高次元分布のサンプリングにおいて,拡散モデルは強力なツールとして注目されている。
    • 従来の拡散モデルは,白色ガウスノイズに依存しており,ノイズスケジュールが情報の再現性に影響する。
    • 非平衡アクティブノイズを用いることで,情報の熱力学的特性を変化させ,生成的記憶を促進する。
    • アクティブノイズは,高レベルのセマンティック情報を時間相関に格納する「記憶効果」を生み出す。
    • この機構は,ブラウン運動と比較して情報消失速度を遅らせる。
    • 生成過程において,対称性の破れを促進し,多スケール構造の解析を可能にする。

    Link: https://arxiv.org/abs/2411.07233

  • CMOOD:概念に基づく多ラベルOOD検出 [cs.CV, cs.AI, cs.LG]目的:複雑な多ラベル設定におけるOODサンプルの検出
    • 現実世界のデータは多ラベルである場合が多く,その取り扱いが重要である。
    • 既存手法は多ラベル間の複雑な関係性を捉えきれず,汎化性能が低い。
    • 追加学習なしに,多ラベルデータにおけるOODサンプルを正確に識別すること。
    • 提案手法CMOODは,既存手法を大幅に上回り,VOCとCOCOデータセットで約95%の平均AUROCを達成した。
    • CMOODは,概念ベースのラベル拡張と新しいスコアリング関数を用いて,ラベル間の依存関係をモデル化する。
    • 追加学習を必要とせず,様々なラベル数やOODサンプルタイプに対して堅牢な性能を維持する。

    Link: https://arxiv.org/abs/2411.13578

  • 空間結合LDPC符号のためのニューラルウィンドウデコーダ [cs.LG, cs.IT, math.IT]目的:空間結合低密度パリティチェック(SC-LDPC)符号のためのニューラルウィンドウデコーダ
    • 現代通信において,信頼性の高い誤り訂正符号は不可欠であり,SC-LDPC符号はその有力な候補の一つである。
    • 従来のウィンドウデコーダは計算量が多く,特にSC-LDPC符号のような複雑な符号化方式では処理速度が課題となる。
    • ニューラルネットワークを活用することで,デコーディング処理の効率化と性能向上を目指す。
    • 提案手法では,ニューラルウィンドウデコーダ(NWD)に学習可能なニューラル重みを組み込むことで,従来のウィンドウデコーダのプロセスを維持しつつ性能向上を実現した。
    • 損失関数をターゲットとなる変数ノードに制限し,アクティブラーニング技術を用いることで,訓練効率を向上させた。
    • 訓練結果に基づいた非一様なスケジュールを導出し,重要度の低いチェックノードの更新を省略することで,41%のチェックノード更新を削減し,性能劣化を防いだ。

    Link: https://arxiv.org/abs/2411.19092

  • 信頼性のある有意性検定を行うために必要な項目ごとの評価数 [cs.LG]目的:機械学習の評価における,信頼性の高い有意性検定に必要な評価数の算出
    • 機械学習の評価は,モデル性能の客観的な判断に不可欠であり,その精度向上は技術発展の鍵となる。
    • 従来の評価手法では,評価回数が少なく,結果の信頼性が低いという課題が存在する。
    • 本研究は,有意性検定の信頼性を確保するために必要な評価回数を定量的に示す。
    • 多くの一般的な指標において,項目ごとに5〜10回の評価では有意性検定の信頼性が不十分であることが示された。
    • 既存のゴールドスタンダードデータセットでも,項目ごとの評価数が不足していることが明らかになった。
    • 本手法を用いることで,AI研究者はAI評価のためのデータ収集戦略を改善できる。

    Link: https://arxiv.org/abs/2412.02968

  • パーフォマティブ予測におけるタイトな下界と改善された収束性 [cs.LG, cs.AI]目的:パーフォマティブ予測における安定解への収束
    • 現実世界に展開されたモデルによるデータ分布の変化に対応する枠組みであり,進化する環境下での重要性が増している。
    • モデル展開後のデータ分布が安定しない場合があり,迅速な収束が課題である。
    • 過去の再学習スナップショットを利用し,より広範な問題に対して安定解への収束を可能とする。
    • 反復リスク最小化(RRM)フレームワークを拡張し,Affine Risk Minimizersを提案した。
    • 最終反復のみを使用する方法の上界を新たに導出し,既存の下界とのタイトネスを証明した。
    • 過去のデータセットを利用することで,最後の反復RRMの下界を超えることができ,ベンチマークテストで収束が速くなることが確認された。

    Link: https://arxiv.org/abs/2412.03671

  • 動的な少数のソーシャルメディアテキスト分類のためのグラフベースのオンライン検索拡張生成GORAG [cs.HC, cs.SI, cs.CL, cs.IR, cs.LG]目的:動的な少数ショットソーシャルメディアテキスト分類のための手法
    • ウェブ上の公益に資する応用において,テキスト分類はヘイトスピーチや誤情報の検出に不可欠である。
    • 従来のモデルは,ラベル付きデータが不足し,ターゲットラベルが頻繁に変化する動的な少数ショット設定で性能が低下しやすい。
    • 動的な進化するシナリオにおける入力サイズの増加がLLMの性能を阻害するため,より包括的な文脈情報の提供を目指す。
    • GORAGは,キーワードとテキストラベルの相関関係をグラフ構造で表現し,エッジの重み付けメカニズムにより重要かつ信頼性の高い情報を優先する。
    • 入力ごとにカスタマイズされた最小全域木を用いて関連する文脈を動的に検索することで,より包括的かつ正確な文脈情報を提供する。
    • 実験評価の結果,GORAGは既存の手法を凌駕し,優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2501.02844

  • RaZeR: 余分なゼロ再マッピングによるNVFP4量子化の限界挑戦 [cs.LG, cs.CL]目的:大規模言語モデル量子化における精度向上
    • 近年,大規模言語モデルの推論における計算コストとメモリ使用量の削減が重要課題となっている。
    • NVFP4形式は有望だが,符号表現やブロックスケーリング因子の冗長性が課題となっていた。
    • 冗長ビットを活用し,より高精度な量子化を可能にすることを目的とする。
    • 提案手法RaZeRは,NVFP4の冗長なゼロを有効活用し,量子化精度を向上させる。
    • 重みのみ量子化では,perplexity損失を平均34.6%削減することに成功した。
    • 重みと活性化の両方量子化では,perplexity損失を平均31.2%削減した。

    Link: https://arxiv.org/abs/2501.04052

  • ASAP:ニューラル組合せ最適化における満足化汎化の優位性の活用 [cs.LG, cs.AI]目的:組合せ最適化問題における汎化性能の向上
    • 組合せ最適化は,現実世界の様々な問題に応用可能であり,効率的な解法が求められている。
    • 深層強化学習による組合せ最適化は分布シフトに弱く,汎化性能が課題となっていた。
    • 有望な行動の特定が,最適な行動の選択よりも汎化性能が高いという特性を利用する。
    • 本研究では,提案と選択の二段階構造を持つASAPフレームワークを提案し,オンライン適応能力を強化した。
    • Model-Agnostic Meta-Learning (MAML)を用いた二段階の学習フレームワークにより,迅速な適応を可能にした。
    • 3D-BPP,TSP,CVRP実験の結果,ASAPは最先端のベースラインを凌駕し,分布外インスタンスへの適応性能を向上させた。

    Link: https://arxiv.org/abs/2501.17377

  • 固定予算下における組み合わせ探索を用いた最良腕識別アルゴリズム [cs.LG]目的:最良腕識別のためのアルゴリズム
    • 機械学習における探索と活用のトレードオフは,効率的な学習に不可欠である。
    • 既存の腕識別アルゴリズムは,1回の腕選択に限定されており,組み合わせ探索の利点を活かせていない。
    • 固定予算内で,組み合わせ探索により効率的に最良腕を識別することを可能にする。
    • 提案アルゴリズムは,$\log_2 K$ 個のグループを構築し,尤度比検定を用いて各グループに最良腕の存在を検出する。
    • ハミング復号手続きにより,唯一の最良腕を特定する。
    • 提案アルゴリズムのエラー確率の上界を,新しい困難度パラメータ $H_4$ に基づいて導出した。また,単一プレイの場合における最先端アルゴリズムよりも優れた性能を示す場合がある。

    Link: https://arxiv.org/abs/2502.01429

  • STEMS:スパイクニューラルネットワークの時空間マッピング [cs.NE, cs.AI, cs.AR, cs.DC]目的:スパイクニューラルネットワークにおけるマッピング設計空間
    • 近年,人工ニューラルネットワークに匹敵する精度を持つスパイクニューラルネットワークの研究が進んでおり,低消費電力な計算が期待されている。
    • スパイクニューラルネットワークの内部状態の追跡は,データ転送量やストレージ要件を増加させ,その利点を損なう可能性がある。
    • 本研究では,ニューロン状態が消費電力に与える影響を分析し,時空間マッピングの最適化によるデータ転送量の削減を目指す。
    • STEMSを用いることで,オフチップデータ転送量を最大12倍,エネルギー消費量を5倍削減できることを示した。
    • 特定のベンチマークでは,ニューロン状態を最適化することにより,ニューロン状態量を20倍削減し,精度を損なうことなくパフォーマンスを1.4倍向上させた。
    • スパイクニューラルネットワークの層によっては,ニューロン状態が不要である可能性を示唆した。

    Link: https://arxiv.org/abs/2502.03287

  • CleanSurvival:強化学習を用いたイベント時間モデルのための自動データ前処理 [cs.LG]目的:イベント時間モデルにおける最適な前処理パイプラインの最適化
    • 機械学習の性能向上にはデータの前処理が不可欠であり,その重要性は認識されている。
    • イベント時間モデル特有の前処理自動化ソリューションが不足している。
    • イベント時間モデル向けの前処理パイプラインの自動最適化を実現する。
    • CleanSurvivalは,Q学習を用いてデータ欠損値補完,外れ値検出,特徴量抽出を最適化する。
    • 実データを用いた実験により,標準的な手法と比較して予測性能が向上することが示された。
    • シミュレーション研究により,欠損やノイズに対する有効性が確認された。

    Link: https://arxiv.org/abs/2502.03946

  • 大規模言語モデルはビデオゲームの没入感を捉えられるか [cs.CV, cs.AI, cs.CL, cs.HC]目的:ビデオゲームプレイ動画に対する人間の感情認識能力の評価
    • 感情認識は,人間とコンピューターのより自然なインタラクションを可能にする上で重要である。
    • 既存の感情認識技術は,ビデオゲームプレイのような複雑な状況下での微妙な感情の変化を捉えるのが難しい。
    • 大規模言語モデルを用いて,ビデオゲームプレイ中の没入感の変化を高精度に予測することを目指す。
    • 事前学習済みの大規模言語モデルは,マルチモーダル入力を用いて感情を予測できる。
    • GameVibeコーパスのデータを用いた実験の結果,人間の連続的な感情アノテーションに及ばない場合が多い。
    • ゲームによって性能が変動する要因を分析し,今後の感情認識技術開発の方向性を示す。

    Link: https://arxiv.org/abs/2502.04379

  • 単一ラウンド分散学習における分類器不要な拡散モデル [cs.CL, cs.LG]目的:分類器不要な拡散モデルを用いた単一ラウンド分散学習手法
    • データ共有が困難な状況下で機械学習を行うための重要な手法であり,プライバシー保護にも貢献する。
    • 通信コストが課題であり,特に複数回の通信ラウンドが必要な分散学習では負担が大きい。
    • 単一ラウンドで学習を完結させることで,通信コストを大幅に削減し,効率的な学習を実現する。
    • 本研究で提案するOSCARは,既存の最先端手法と比較して4つのベンチマークデータセットで優れた性能を示した。
    • OSCARは,クライアントにおける補助モデルの学習を不要とし,計算オーバーヘッドを軽減することに成功した。
    • 通信負荷を少なくとも99%削減し,効率的な分散学習を可能にした。

    Link: https://arxiv.org/abs/2502.08488

  • ニューラル力場:汎化された物理的推論の少サンプル学習 [cs.LG, cs.AI]目的:汎化された物理的推論の少サンプル学習
    • 物理的推論は人間にとって重要な能力であり,限られた経験から迅速な学習と汎化を可能にする。
    • 既存のAIモデルは,豊富な訓練データを用いても,特に分布外(OOD)設定において,同様の汎化が困難である。
    • 本研究は,最小限のデータから物理的ダイナミクスを効率的に学習・汎化する表現を構築し,その問題を解決することを目指す。
    • ニューラル力場(NFF)は,複雑な物体間相互作用を力場表現で学習し,ODEソルバーを用いて物体軌跡を予測するフレームワークである。
    • NFFは,離散潜在空間に依存せず,重力,支持,衝突といった基本的な物理概念を連続的な力場として捉える。
    • 少数のサンプルで訓練されたNFFは,未知のシナリオに対して高い汎化性能を示し,効率的な前方・後方計画とインタラクティブな改良を可能にする。

    Link: https://arxiv.org/abs/2502.08987

  • どこまでシンプルにできるか:分子動力学への既製トランスフォーマーの利用 [cs.LG]目的:分子動力学モデルの性能評価
    • 分子動力学は,物質の性質を理解する上で不可欠であり,新材料開発などへの応用が期待される。
    • 従来の分子動力学モデルは複雑な構造を持つため,汎用的なアーキテクチャへの移行が課題となっていた。
    • 汎用的なトランスフォーマーを用いて,分子動力学モデルの性能を最大限に引き出すことを目指す。
    • Edge Transformer(MD-ET)という,分子動力学向けに最小限の変更を加えた既製のトランスフォーマーアーキテクチャを用いることで,最先端の結果が得られた。
    • 回転不変性やエネルギー保存といった従来の分子動力学モデルに組み込まれていた機能を実装せずとも,ベンチマークテストで高い性能を示した。
    • 大規模構造ではエネルギーが増加する問題が残るものの,小規模構造においては近似的にエネルギー保存されたNVEシミュレーションが可能であった。

    Link: https://arxiv.org/abs/2503.01431

  • 中間表現を通じたマルチホップドキュメント検索の最適化 [cs.CL, cs.AI, cs.IR]目的:複雑な質問に対するドキュメント検索の最適化
    • 知識集約型タスクにおいて,大規模言語モデル(LLM)と外部知識の連携が重要視されている。
    • マルチホップ質問への対応は,従来のRetrieval-augmented Generation(RAG)では計算コストが高い。
    • LLMの中間層表現が持つ情報を活用し,効率的なマルチホップ検索を実現すること。
    • 提案手法L-RAGは,中間層の表現を活用することで,従来のマルチステップアプローチと同等の性能を達成した。
    • L-RAGは,標準的なRAGと同程度の推論オーバーヘッドを維持しつつ,MuSiQue, HotpotQA, 2WikiMultiHopQA等のデータセットで既存手法を上回る性能を示した。
    • LLMにおける層ごとの推論過程から,抽出,処理,再抽出の3段階の情報処理パターンが確認された。

    Link: https://arxiv.org/abs/2503.04796

  • 本当に忘れられているのか?機械アンラーニング評価プロトコルの批判的再検討 [cs.LG, cs.CV]目的:機械アンラーニング評価の妥当性検証
    • プライバシー保護や法的要件に対応するため,機械学習モデルからのデータ削除が重要視されている。
    • 既存の評価手法は小規模な状況でlogitベースの指標に偏り,実用上安全性を保証できない可能性がある。
    • 大規模な状況下で,モデル表現レベルでの真のデータ削除を検証し,より現実的な評価基準を確立する。
    • 現在の最先端アンラーニング手法は,モデル表現の質を低下させるか,分類器のみを変更し,logitベースの性能は向上するものの表現類似性は維持されることが判明した。
    • ダウンストリームタスクのクラスとの意味的類似性を持つ忘れ去るクラスを導入することで,より厳格な表現レベルでの評価を実現した。
    • 本研究で提案する評価基準は,現実的な条件でのアンラーニングアルゴリズム評価のための標準プロトコルとして機能することが期待される。

    Link: https://arxiv.org/abs/2503.06991

  • 産業用インターネットロボット協調システムとエッジコンピューティングの最適化 [cs.HC, cs.RO, cs.RO, cs.AI]目的:産業用インターネット環境におけるロボットの衝突回避型グローバル経路生成
    • 産業用インターネットは,製造業の自動化と効率化に不可欠であり,ロボットとの連携が重要である。
    • ロボットの経路計画は,動的な障害物や不確実性により,ロバストな実現が課題である。
    • 本研究は,障害物回避と経路最適化を両立させ,実用的なロボットナビゲーションを実現する。
    • 提案手法は,シミュレーションにおいて,±5cm以内の誤差と10ms以内の収束時間を達成した。
    • 従来の2つのベースライン手法と比較して,より短い経路を生成することが確認された。
    • 本研究は,実際の産業環境におけるロボットのグローバルナビゲーションの信頼性向上に貢献する。

    Link: https://arxiv.org/abs/2504.02492

  • 言語モデルによる精神保健グループを標的とした攻撃シナリオにおける創発的バイアス [cs.CL, cs.AI, cs.CY, cs.LG, cs.SI]目的:言語モデルが生成する攻撃シナリオにおけるバイアスの構造的偏り
    • 近年,言語モデルの利用拡大に伴い,潜在的なバイアスとその社会への影響が重要視されている。
    • 特定の集団に対する偏った攻撃シナリオの生成は,社会的な偏見を増幅させるリスクがある。
    • 言語モデルが精神保健グループに対して構造的に攻撃的な言説を生み出しやすい要因を明らかにすること。
    • 精神保健関連の団体は,攻撃シナリオのネットワークにおいて中心的な位置を占めることが示された。
    • 精神保健障害に関連する標的は,生成チェーンにおける初期標的に比べて,より多くのレッテル付けの要素を持つことが示唆された。
    • 言語モデルは有害な言説を増幅する構造的な傾向があり,適切な緩和策が求められる。

    Link: https://arxiv.org/abs/2504.06160

  • 単純なTransformerは強力なグラフ学習器となり得る [cs.LG, cs.CL]目的:グラフ学習における単純なTransformerアーキテクチャの有効性
    • Transformerは多様な分野で高性能を示す汎用的なモデルであり,その応用範囲は広い。
    • 既存のGraph TransformerはTransformerからの逸脱が大きく,他の分野の進歩が応用しにくい。
    • 単純なTransformerアーキテクチャでも,適切な修正を加えれば高性能なグラフ学習が可能となることを示す。
    • 本研究では,シンプルなTransformerに3つの修正を加えることで,複雑なGraph Transformerに匹敵する性能を実現した。
    • 提案手法であるPPGTは,グラフ表現能のベンチマークにおいて,より複雑なモデルと比較して良好な結果を示した。
    • 様々なグラフデータセットでの実験結果からも,PPGTの有効性が確認された。

    Link: https://arxiv.org/abs/2504.12588

  • グラフ異常検知のための異常認識型事前学習とファインチューニング [cs.LG]目的:グラフ異常検知におけるラベル不足とノード・クラスレベルのホモフィリーの不一致の緩和
    • グラフ構造データは複雑な関係性を表現可能であり,様々な分野で応用が期待されている。
    • 異常データのラベル付けコストが高く,学習データが不足しがちであるという課題がある。
    • ラベルなしデータを利用し,異常を認識する能力を高めることで検知精度を向上させる。
    • 提案手法APFは,ラベルフリーの異常指標であるRayleigh Quotientを用いてノード固有の部分グラフを選択し,異常認識能力を高める。
    • 学習可能なスペクトル多項式フィルタを導入することで,汎用的な意味と微妙な異常の合図を捉える二重表現を獲得する。
    • ゲート融合機構と異常認識型正則化損失により,事前学習済みの表現を効果的に統合し,異常ノードの情報を維持する。

    Link: https://arxiv.org/abs/2504.14250

  • GPUプログラムにおけるレイアウト合成を自動化するコンパイラフレームワークHexcute [cs.HC, cs.LG, cs.AI, cs.PL]目的:GPUプログラムのレイアウト合成の自動化
    • 深層学習の高性能化にはGPUプログラミングが不可欠であり,並列化とメモリ配置が重要である。
    • 既存のフレームワークでは,最適なレイアウトの指定に多大な労力がかかる場合がある。
    • Hexcuteは,レイアウト合成を自動化することで,その負担を軽減することを目指す。
    • Hexcuteは,GEMM,Attentionなどの性能において,cuBLASやFlashAttentionと同等の結果を得ている。
    • CUTLASSと比較して,コード量を1.27倍~7.94倍削減できることが示された。
    • MoE演算子ではTritonを6.46倍,vLLMではDeepSeek-R1-AWQで2.60倍,Mambaモデルで2.04倍の高速化を実現した。

    Link: https://arxiv.org/abs/2504.16214

  • 周波数領域におけるキーバリュー圧縮:文脈ウィンドウ拡張のための手法 [cs.CL, cs.AI]目的:大規模言語モデルにおけるキーバリューキャッシュ圧縮による文脈ウィンドウ拡張
    • 大規模言語モデルの性能向上には,より長い文脈を扱える能力が不可欠である。
    • 既存のキャッシュ圧縮手法はトークン削除に依存し,重要な情報を失うリスクがある。
    • 周波数領域における低周波成分への集中に着目し,効率的な圧縮を試みる。
    • FreqKVは,パラメータ不要かつモデルに依存しない手法であり,KVキャッシュを周波数領域で反復的に圧縮する。
    • 8Kの長さでの追加学習により,LLaMA-2-7Bの文脈ウィンドウを256Kトークンまで拡張し,安定したperplexityを維持した。
    • LLaMA-2およびLLaMA-3を用いた実験で,既存手法を上回り,理解と生成の両面で有効性が示された。

    Link: https://arxiv.org/abs/2505.00570

  • 偏ベイズニューラルネットワークの学習のための逐次モンテカルロサンプラーにおける勾配ベースの提案の利用 [cs.LG, stat.ML]目的:偏ベイズニューラルネットワークの学習手法
    • ベイズニューラルネットワークは不確実性評価に有用であり,機械学習の信頼性向上に貢献する。
    • 完全なベイズニューラルネットワークは計算コストが高く,大規模な問題への適用が困難である。
    • 勾配に基づく提案を利用することで,高次元問題におけるスケーラビリティを向上させる。
    • 提案手法は,予測性能と最適損失において,既存の最先端手法を上回ることが示された。
    • 偏ベイズニューラルネットワークは,より大きなバッチサイズでスケールし,学習時間を大幅に短縮できる。
    • 結果として,性能が向上する場合が多い。

    Link: https://arxiv.org/abs/2505.03797

  • LLMベースMASにおける協力崩壊への評判の解決策 [cs.AI, cs.MA]目的:LLMベースのマルチエージェントシステムにおける協力崩壊を回避するための評判システムの有効性
    • 協力は人間社会とAIシステム双方において重要課題であり,社会の根幹をなす。
    • LLM駆動型MASにおいて,協力が崩壊する現象が確認されており,システム全体の性能低下を招く。
    • LLMベースMASにおける協力崩壊を防ぎ,持続可能な協調関係を促進することを目的とする。
    • 提案手法RepuNetは,エージェントレベルの評判とシステムレベルのネットワーク進化を動的にモデル化することで,協力崩壊を回避する。
    • 実験結果から,RepuNetがLLMベースMASにおいて協力を促進し,維持することが示された。
    • 評判システムは,協力的なクラスター形成や搾取的なエージェントの孤立など,豊かな創発的行動を生み出すことが明らかになった。

    Link: https://arxiv.org/abs/2505.05029

  • d+1次元における埋め込み進化のためのニューラル演算子の再定義 [cs.LG, cs.AI, quant-ph]目的:関数空間間の写像学習
    • 物理現象のシミュレーションにおいて,機械学習の利用が注目されている。
    • 従来のニューラル演算子は,計算コストが増大しやすいという課題がある。
    • 埋め込み進化を明示的にモデル化することで,計算効率を改善することを目指す。
    • 本研究では,ニューラル演算子の枠組みをd+1次元に拡張する新しいアプローチを提案した。
    • 提案手法であるSKNOは,様々なベンチマークテストにおいて既存手法を上回る性能を示した。
    • SKNOは,解像度不変性や未知の時間領域への汎化性能も実証されている。

    Link: https://arxiv.org/abs/2505.11766

  • 熱帯トrelli写像を通じた距離グラフカーネル [cs.LG, stat.ME, stat.ML]目的:距離グラフに対するカーネルの構築
    • グラフ構造解析は,ネットワーク分析や機械学習において不可欠な技術である。
    • 既存のカーネルは組み合わせ論的特徴に依存し,距離情報やトポロジー的特徴を捉えきれない場合がある。
    • 熱帯幾何学に基づき,距離グラフの幾何学的・トポロジカル特性を捉える新たなカーネルを開発する。
    • 提案手法は,熱帯トrelli写像を用いて距離グラフのカーネルを定義し,エッジ分割に対する不変性を示す。
    • 計算量はグラフの属に依存するため,大規模グラフへの適用も可能である。
    • 実験により,提案カーネルが既存手法では捉えきれない幾何学的・トポロジカル情報を捉え,都市道路ネットワーク分類タスクで有用性が確認された。

    Link: https://arxiv.org/abs/2505.12129

  • 性能推定のための命令レベルシミュレータの導入:自己調整ワークロード [cs.CL, cs.AR, cs.LG]目的:機械学習ワークロードの性能推定方法
    • 機械学習の高速化は重要であり,最適化空間が広いため効率的な手法が求められる。
    • 従来の自己調整はターゲットハードウェアでの実行が必要であり,ハードウェア資源の制約がある。
    • シミュレータを用いた自己調整により,ハードウェア資源の制約を克服し,性能予測の精度向上を目指す。
    • シミュレーション統計量に基づいた性能予測モデルを学習し,その有効性を確認した。
    • 予測精度は高く,実際の実行時間上位3%に予測値が含まれることを示した。
    • 組み込みアーキテクチャにおいては,少数のサンプルで高い性能を示す場合がある。

    Link: https://arxiv.org/abs/2505.13357

  • 好奇心駆動型AI科学者によるFlow-Lenia宇宙の探求:多様な生態系ダイナミクスの発見 [cs.CY, cs.DB, cs.CL, cs.AI]目的:Flow-Leniaにおけるシステムレベルのダイナミクスの自動発見
    • 複雑系における創発的集団特性の理解は,科学の根源的な課題である。
    • 従来の探索手法では,多様で複雑なダイナミクスを効率的に発見することが困難である。
    • 好奇心駆動型AIを用いることで,より多様な生態系ダイナミクスを自動的に発見することを目指す。
    • 好奇心駆動型AI科学者を用いることで,ランダム探索よりも多様なダイナミクスを明らかにできた。
    • シミュレーションを通して,複雑な集団行動の自発的組織化を捉えることに成功した。
    • 本手法は,Flow-Leniaだけでなく,他のパラメータ化された複雑系にも応用可能であると考えられる。

    Link: https://arxiv.org/abs/2505.15998

  • コアセット選択に関する文献のコアセット選択:序論と最近の進歩 [cs.LG, cs.CV]目的:コアセット選択に関する文献の体系化と最近の研究動向の把握
    • 機械学習において,大規模データセットの取り扱いは計算コストや効率性の面で重要な課題である。
    • 既存の調査研究は,古典的な幾何学的手法や能動学習に焦点を当てがちであり,包括的な視点が不足している。
    • 本研究は,コアセット選択の多様なアプローチを統合的に理解し,今後の研究課題を明確にすることを目指す。
    • 本調査では,コアセット選択研究を,学習不要型,学習指向型,ラベル不要型という3つの主要な分類群に統一的に整理した。
    • サブモジュール性定式化,双層最適化,未ラベルデータに対する擬似ラベリングなど,既存研究で注目されにくい分野についても検討を加えた。
    • 剪定戦略が汎化性能やニューラルスケーリング則に与える影響を分析し,新たな知見を提供することで,今後の研究の方向性を示唆した。

    Link: https://arxiv.org/abs/2505.17799

  • 大規模行動空間を持つバンディット族における代表的な行動選択 [cs.LG, math.OC, math.PR, stat.ML]目的:大規模行動空間を共有するバンディット族から,最適な行動部分集合の選択
    • 行動選択は,推薦システムや臨床試験など,様々な応用分野で重要な課題である。
    • 行動空間が大規模になると,最適な行動を見つけるための計算コストが指数関数的に増加する。
    • 行動間の相関構造を利用することで,行動空間を削減し,効率的な行動選択を目指す。
    • 提案アルゴリズムは,行動間の相関が存在する場合,行動空間を大幅に削減できる。
    • 理論的な性能保証が示されており,トムソンサンプリングやUCB法と比較して実用的な有効性が実証された。
    • 事前の相関構造の知識を必要とせずに,効率的な行動選択が可能となる。

    Link: https://arxiv.org/abs/2505.18269

  • 訓練データなし動的組合せ最適化の学習 [cs.CL, cs.CL, cs.LG]目的:動的組合せ最適化問題における学習手法
    • 現実世界の資源配分問題など,時間とともに変化する最適化問題への対応が求められる。
    • 既存手法は学習データに依存する場合が多く,新しい問題への汎用性が低い。
    • 問題インスタンスのみを用いて,効率的かつ高品質な解を得る手法を開発する。
    • DyCO-GNNは,時間変化するグラフのスナップショット間の構造的類似性を活用し,最適化を高速化する。
    • 動的maximum cut,maximum independent set,TSPにおいて,既存手法と比較して最大60倍の速度向上を達成した。
    • 限られた時間内でも高品質な解が得られることが示され,実用的な有効性が確認された。

    Link: https://arxiv.org/abs/2505.19497

  • マルチモーダル大規模言語モデルにおけるモダリティ干渉の診断と軽減 [cs.LG, cs.AI, cs.CV]目的:マルチモーダル大規模言語モデルにおけるモダリティ干渉の診断と軽減
    • 近年,画像とテキストを統合するマルチモーダル大規模言語モデルが注目されている。
    • しかし,これらのモデルは,無関係なモダリティからの干渉に弱く,性能が低下することがある。
    • 本研究は,モダリティ干渉を診断し,その影響を軽減するための手法を提案する。
    • 原因を特定するため,因果関係に基づく摂動実験を実施し,干渉のメカニズムを分析した。
    • ヒューリスティックと敵対的摂動によるデータ拡張と出力レベルの一貫性正則化を組み合わせたファインチューニングフレームワークを提案した。
    • 画像,テキスト,マルチモーダルベンチマークにおける実験により,モデルの頑健性と汎化性能が向上することが示された。

    Link: https://arxiv.org/abs/2505.19616

  • 拡散モデルにおける周波数領域からのメンバーシップ推論攻撃の強化 [cs.HC, cs.CY, cs.CR, cs.LG]目的:拡散モデルに対するメンバーシップ推論攻撃の性能向上
    • 拡散モデルの生成能力は高いが,プライバシーや著作権侵害のリスクが懸念されている
    • 既存のメンバーシップ推論攻撃は,高周波情報の処理における拡散モデルの欠点を考慮していない
    • 高周波フィルタモジュールを導入し,メンバーシップ推論攻撃の識別能力を向上させる
    • 拡散モデルが高周波情報を処理する際の欠点により,メンバーデータとホールドアウトデータの誤分類が生じることが示された
    • 提案手法は,既存の攻撃に組み込むことで,様々なデータセットとモデルにおいて性能を大幅に向上させる
    • 本研究は,メンバーシップ推論攻撃における高周波情報の重要性を示し,プライバシー保護への貢献が期待される

    Link: https://arxiv.org/abs/2505.20955

  • LLMの過剰な課金:トークン化,透明性,およびインセンティブ [cs.GT, cs.AI, cs.CY, cs.LG]目的:LLM利用におけるトークン課金メカニズムの経済的インセンティブと,それによる過剰課金の可能性
    • LLMは高性能だが,利用にコストがかかるため,料金体系の透明性と公平性が重要となる。
    • 現在のトークン課金システムでは,利用者は実際に使用されたトークン数を確認できず,不正な課金を見破ることが困難である。
    • 本研究は,トークン課金における不正インセンティブを解消するための料金メカニズムの提案を目指す。
    • LLMプロバイダーは,トークン数を偽報することで,利用者に気付かれずに課金を高く設定する経済的インセンティブを持つことが示された。
    • 開発されたヒューリスティックアルゴリズムにより,プロバイダーは不正な課金を実行しても,利益を最大化しつつ疑念を抱かせないことが可能となる。
    • 文字数に基づいた線形料金メカニズムへの移行が,不正インセンティブの解消策として提示された。

    Link: https://arxiv.org/abs/2505.21627

  • 潜在的な季節性を持つ多チャンネル時系列データのための予測可能性を考慮した圧縮・伸長フレームワーク [cs.LG, cs.AI]目的:多チャンネル時系列データの効率的な圧縮・伸長
    • エッジやクラウド環境で時系列予測の需要が高まり,効率的なデータ処理が重要になっている。
    • 多チャンネル時系列データにおいて,圧縮による予測精度の低下が課題となっている。
    • 予測精度と処理時間を両立する圧縮・伸長フレームワークの開発。
    • 提案手法は,予測精度と処理時間を同時に考慮することで,既存手法を上回る性能を発揮する。
    • 循環季節キー行列と直交性を利用することで,予測可能性を捉え,再構築誤差を抑制する。
    • 理論的分析により,多チャンネル環境下での効率性と精度維持が確認された。

    Link: https://arxiv.org/abs/2506.00614

  • エージェントは,認識論的に必要不可欠な場合にのみ外部ツールを起動すべきである [cs.AI]目的:外部ツール利用の正当化判断に関する理論的枠組み
    • 大規模言語モデルがツール利用可能なエージェントへと進化する中で,ツール利用の最適化が重要になっている。
    • 既存のフレームワークでは,ツール利用の判断基準が曖昧で,不必要なツール利用が発生しやすい。
    • エージェントが認識論的に必要不可欠な場合にのみツールを利用する基準を提示し,効率性と知能向上を目指す。
    • 本研究では,エージェントの不確実性管理に着目し,内部推論と外部委任の判断をSequential Decision Makingとして捉える「Agentの理論(ToA)」を提案した。
    • ToAを用いることで,過剰な思考や行動といったエージェントの失敗モードを,不確実性下での判断の誤りとして説明できる。
    • 不必要な委任は非効率であるだけでなく,内部推論能力の発達を阻害する可能性が示唆された。

    Link: https://arxiv.org/abs/2506.00886

  • 大規模言語モデルのニューラルトポロジーの探求 [cs.CL, cs.AI]目的:大規模言語モデルのニューラルトポロジーと言語生成性能の関係性
    • 言語モデルの性能向上は,自然言語処理の発展に不可欠であり,その内部メカニズムの理解が重要である。
    • ニューロンの機能的共起とモデルの性能との関連性は不明であり,安全なモデル開発の妨げとなっている。
    • ニューラルトポロジーの探求を通じて,言語モデルの性能をより深く理解し,改善することを目指す。
    • ニューラルトポロジーのみで言語生成・理解性能を予測できることが,多様なモデルで示された。
    • トポロジーに基づくプロービングは,ニューロンの活性化に基づくプロービングを,perplexityや意味回帰で大きく上回った。
    • 言語モデルは,デフォルトネットワークやハブニューロンといったトポロジー情報を活用しているという因果的証拠が得られた。

    Link: https://arxiv.org/abs/2506.01042

  • 大規模シングルセルオミクスにおける深層学習のためのスケーラブルなデータローディング [cs.LG, cs.AI, cs.DB, q-bio.GN, q-bio.QM]目的:大規模シングルセルオミクスデータに対する深層学習のための効率的なデータローディング手法
    • シングルセルオミクスデータは疾患理解や創薬に不可欠だが,データサイズが巨大である
    • メモリ制約から,データはディスクから読み込む必要があり,ランダムアクセスは低速である
    • I/O効率とミニバッチの多様性のバランスを取り,高速かつ高品質な学習を実現すること
    • scDatasetは,ブロックサンプリングとバッチフェッチングを組み合わせ,擬似ランダムサンプリングを実現した
    • 100M細胞のデータセットにおいて,真のランダムサンプリングと比較して2桁以上の高速化を達成した
    • ミニバッチの多様性に関する理論的限界を示し,複数の分類タスクで同等の性能を実証した

    Link: https://arxiv.org/abs/2506.01883

  • 弱指導学習とVLM蒸留の架け橋:効率的な下流適応のためのノイズ部分ラベル学習 [cs.CV, cs.AI]目的:ノイズ部分ラベルからの学習手法
    • 画像と言語を理解する高性能なVLMが発展しており,手動アノテーションの代替として注目されている。
    • VLMによって生成されるノイズは,従来の研究で仮定される対称的なノイズとは異なり,インスタンスに依存する。
    • VLM生成ノイズに対処し,弱指導学習と知識蒸留を統合することで,効率的な下流適応を目指す。
    • 提案手法は,共同正則化と擬似ラベリングメカニズムにより,ラベルの精製を共同で行う。
    • 対照表現と擬似ラベルの交互最適化,共有特徴空間でのクラスプロトタイプ維持などの過学習防止戦略を導入した。
    • 少数の手動アノテーションラベルを組み込むことで,性能をさらに向上させることが示された。

    Link: https://arxiv.org/abs/2506.03229

  • コンセプトボトルネックモデルにボトルネックは存在しなかった [cs.LG]目的:解釈可能性の向上と介入手続きの妥当性
    • 深層学習の解釈性は課題であり,特に重要度の高い応用分野での利用を妨げている。
    • 従来のコンセプトボトルネックモデルは,真のボトルネック機能を果たしていない可能性がある。
    • コンセプトボトルネックモデルの解釈性と介入手続きの妥当性の問題を解決すること。
    • 最小コンセプトボトルネックモデル(MCBM)は,情報ボトルネック(IB)の目的関数を導入することで,各表現コンポーネントが対応するコンセプトに関連する情報のみを保持するように制約する。
    • MCBMはより解釈しやすい表現を獲得し,原理に基づいたコンセプトレベルの介入を可能にする。
    • 確率論的基盤との整合性を保ちつつ,従来のコンセプトボトルネックモデルの課題を克服する。

    Link: https://arxiv.org/abs/2506.04877

  • WorldLLM:好奇心駆動型仮説形成によるLLMの環境モデル化の改善 [cs.AI, cs.LG]目的:LLMの環境モデル化能力の向上
    • LLMは広範な知識を持つが,シミュレーション等の構造化された環境での正確な予測が課題。
    • LLMは非構造化な知識を具体的な環境に結びつけることが困難である。
    • ベイズ推論と能動的探索を組み合わせ,LLMの予測精度と解釈性を高める。
    • WorldLLMは,LLMが生成する仮説をベイズ推論で洗練させながら,好奇心駆動型強化学習で環境を探索する。
    • 実験の結果,WorldLLMはテキストベースのゲーム環境において,予測精度と環境の理解に優れた性能を示した。
    • 本手法は,人間が理解可能な環境ダイナミクスの理論を生成することにも成功している。

    Link: https://arxiv.org/abs/2506.06725

  • ランキング学習における位置バイアスの補正:制御関数アプローチ [cs.IR, cs.LG]目的:ランキング学習における位置バイアスの補正手法
    • ユーザーの行動履歴は,ランキングシステムの学習に不可欠であり,その精度向上は重要な課題である。
    • クリックデータなどの暗黙的フィードバックには位置バイアスが存在し,ランキングの質を低下させる可能性がある。
    • 既存手法の課題を克服し,より高精度な位置バイアス補正を実現することを目指す。
    • 提案手法は,ランキングプロセスの残差を利用して位置バイアスを補正する二段階プロセスを採用している。
    • クリックモデルやプロペンシティモデルの知識を必要とせず,非線形なランキングモデルにも適用可能である。
    • 実験結果から,提案手法が既存の最先端手法を上回る位置バイアス補正効果を持つことが示された。

    Link: https://arxiv.org/abs/2506.06989

  • ストリーミングLLMのほぼ最適なオンラインデプロイとルーティング [cs.LG, cs.AI]目的:ストリーミングLLMのデプロイとルーティングに関する意思決定問題
    • LLMの急速な進化により,効率的なモデル管理が不可欠である。
    • 同時実行数やクエリコストに制限がある環境下での最適なルーティングが課題である。
    • 限られたリソース下で,最適なモデルのデプロイとルーティングを実現すること。
    • 提案手法StageRouteは,報酬の信頼区間とコストの下限を用いて,最適なモデルを選択する。
    • 各クエリは,予算とスループットの制約下で最適なモデルにルーティングされる。
    • 理論的分析により,StageRouteの性能が最適に近いことが示され,実験的にも検証された。

    Link: https://arxiv.org/abs/2506.17254

  • テンソルベースのGPU加速による配車問題の局所探索の高速化 [cs.DC, cs.AI]目的:配車問題における局所探索の高速化
    • 配車問題は,物流効率化の鍵であり,コスト削減やサービス向上に不可欠である。
    • 大規模インスタンスや複雑な制約を持つ問題では,局所探索の計算コストが課題となっている。
    • テンソルベースのGPU加速により,局所探索の計算効率を向上させることを目指す。
    • 提案手法は,3種類の配車問題のベンチマークインスタンスで,従来のCPU実装と比較して大幅な計算速度の向上を示した。
    • 属性ベースの表現により,様々な配車問題のバリアントに適用可能である。
    • GPUへの計算オフロードにより,既存の局所探索アルゴリズムへの統合が容易であり,計算効率と解質の改善に貢献する。

    Link: https://arxiv.org/abs/2506.17357

  • 言語モデルは必ずしもあなたを理解しない:物語プロンプトによる心の理論の評価 [cs.HC, cs.CL, cs.AI]目的:言語モデルにおける心の理論(ToM)と世界モデル(WM)の能力評価
    • 言語モデルの高度化に伴い,人間らしい推論能力の有無が重要視されている。
    • 既存の評価ベンチマークには,事前学習データによる汚染の懸念が存在する。
    • 言語モデルが他者の視点や意図を理解する能力を,制御可能な環境で評価すること。
    • 提示されたStorySimフレームワークを用いて,高度な言語モデルの心の理論と世界モデルの能力を評価した。
    • 多くのモデルが世界モデルのタスクの方が,心の理論のタスクよりも高い性能を示した。
    • 人間よりも無生物を対象とする場合に推論性能が低下すること,および最近性の偏りや物語初期の出来事への過度な依存といったヒューリスティックな行動が確認された。

    Link: https://arxiv.org/abs/2506.19089

  • VLAモデルのポストトレーニングと人間の運動学習の類似性:進捗,課題,および動向 [cs.RO, cs.AI]目的:VLAモデルのポストトレーニング手法の分類と,人間運動学習からの知見の適用
    • ロボットの多様な操作を可能にするため,視覚,言語,行動を統合したVLAモデルの研究が重要である。
    • 高精度・高精度な応用においては,VLAモデルの性能に課題が残されており,追加の適応が必要となる。
    • VLAモデルを特定のタスクに適応させ,環境とのインタラクション能力を向上させることを目指す。
    • VLAモデルのポストトレーニング手法は,環境認識の強化,具現化意識の向上,タスク理解の深化,マルチコンポーネント統合の4つに分類された。
    • 実験結果の分析から,VLAモデル開発のための具体的な指針が得られた。
    • 人間の運動学習からの知見を参考に,VLAモデルのポストトレーニングにおける今後の課題と新たな動向が示された。

    Link: https://arxiv.org/abs/2506.20966

  • Refine-POI:次の観光地推薦のための強化学習による大規模言語モデルの微調整 [cs.IR, cs.AI, cs.LG]目的:次の観光地推薦のための大規模言語モデルの性能向上
    • 観光地推薦は,ユーザーの満足度向上に不可欠であり,ビジネスにも大きな影響を与える。
    • 既存手法では,セマンティック情報を反映したID生成において,セマンティックな連続性が失われる問題がある。
    • 大規模言語モデルの推論能力と表現の忠実性を融合させ,より正確で説明可能な推薦を目指す。
    • Refine-POIは,トポロジーを考慮したID生成と強化学習による微調整により,これらの課題に対処する。
    • 階層型自己組織化マップ(SOM)によるID生成により,潜在空間におけるセマンティックな類似性を反映したIDを生成する。
    • 実世界のデータセットを用いた実験の結果,Refine-POIは最先端のベースラインを大幅に上回り,優れた性能を示した。

    Link: https://arxiv.org/abs/2506.21599