arXiv雑要約

AI - 2026/05/12 公開

Attention-Mamba：Mamba強化マルチスケール並列推論ネットワークによる医用画像セグメンテーション [cs.CV, cs.AI, cs.LG]目的：医用画像セグメンテーションのためのマルチスケール並列推論ネットワーク
- 医用画像セグメンテーションは，病変の正確な特定と診断に不可欠であり，医療の質向上に貢献する。
- 従来のU字型アーキテクチャは暗黙的なスケール処理に依存し，Transformerは計算コストが高いという課題があった。
- 本研究は，効率的かつ高精度な医用画像セグメンテーションを実現するため，Mambaを活用した新しいネットワークを提案する。
- 提案手法は，MRI，CT，皮膚鏡画像など，複数の画像モダリティにおいて優れた汎化性能を示すことが確認された。
- Synapse，ACDC，ISIC-2018，PH2データセットにおいて，最先端のCNN，Transformer，Mambaベースネットワークと比較して，最高のセグメンテーション性能を達成した。
- パラメータ数は1405万，計算量は8.94GFLOPsと効率的であり，高性能と低計算コストを両立している。
Link: https://arxiv.org/abs/2402.02286
グラフニューラルネットワーク訓練におけるバックドアグラフの特定：説明に基づくアプローチと新しい指標 [cs.LG, cs.AI]目的：グラフニューラルネットワークに対するバックドア攻撃の検出
- グラフニューラルネットワークは多様な分野で活用されているが，その信頼性と安全性の確保が重要である。
- 既存のバックドア攻撃検出方法は柔軟性に欠け，バックドアの多様な振る舞いを捉えきれない問題がある。
- グラフレベルの説明を活用し，より効果的なバックドア攻撃検出方法を開発し，GNNの安全性を高める。
- 本研究では，GNNの説明メカニズムから二次出力を抽出し，7つの新しい指標を開発することで，高い検出性能を実現した。
- 開発した適応型攻撃を用いて厳密な評価を行い，様々な攻撃モデルに対する有効性を検証した結果，GNNのバックドア攻撃に対する保護における重要な進歩を示した。
- 本手法は，単一の指標に頼る既存手法よりも柔軟で，より包括的なバックドア行動の検出を可能にする。
Link: https://arxiv.org/abs/2403.18136
EchoAlign：ノイズの多いラベル下における生成学習と識別学習の架け橋 [cs.LG]目的：ノイズの多いラベル下での機械学習モデルの精度向上
- 機械学習の性能はデータ品質に依存し，ラベルノイズは深刻な問題となる。
- 既存手法は，インスタンスとノイズラベルの複雑な関係性を捉えきれない場合がある。
- ノイズラベルを修正せず，インスタンス自体をラベルに合わせることで学習を安定化させる。
- EchoAlignは，生成モデルと識別学習を組み合わせ，ノイズに強い学習を実現する。
- EchoModは，インスタンスの特徴を制御的に調整し，構造的特徴を維持する。
- EchoSelectは，特徴量の類似性に基づき，信頼性の高いインスタンスを保持することで分布シフトを軽減する。
Link: https://arxiv.org/abs/2405.12969
統一的な視点：グローバル，グループ，ローカルレベルにおける妥当な反実仮想説明 [cs.LG, cs.AI, stat.ME]目的：AIシステムの透明性向上を目的とした反実仮想説明手法の統合
- AIシステムの複雑化に伴い，説明可能なAI(XAI)の重要性が高まっている。
- ローカル，グローバル，グループレベルの反実仮想説明は存在するものの，統合的な手法が存在しない。
- 異なるレベルの反実仮想説明を統合し，より包括的な説明手法を確立することを目指す。
- 提案手法は，微分可能なモデルに対し，ローカル，グローバル，グループレベルの反実仮想説明を統一的に生成する。
- 特に，グループレベルの反実仮想説明生成において，インスタンスのグルーピングと反実仮想説明生成を効率的に行う手法を導入した。
- 説明の信頼性を高めるため，グループレベルの反実仮想説明に妥当性の基準を組み込み，有効性と現実性を両立させた。
Link: https://arxiv.org/abs/2405.17642
動的収縮中の運動単位分解のための準線形独立成分分析 [eess.SY, cs.SY, cs.CL, cs.HC, cs.LG]目的：運動単位の分解
- 神経制御機構の解明や，義肢・外骨格等の神経インターフェース開発において重要である。
- 体積伝導体の変形により混合が時間変化するため，従来のICAは動的な運動に適用が困難であった。
- 時間変化する混合を考慮した，より高精度な運動単位分解手法を確立すること。
- 提案手法は，公開されたベンチマークデータにおいて，既存の適応型ICA手法を全ての再現率閾値で上回る性能を示した。
- より多くの運動単位を高い精度で分解することが可能となった。
- 時間変化する歪みを吸収する変換により，古典的な線形ICAの識別可能性を維持している。
Link: https://arxiv.org/abs/2406.19581
言語モデルのための人物背景アンソロジーによる仮想ペルソナ [cs.CL, cs.AI]目的：言語モデルを特定の仮想ペルソナに適合させる手法
- 大規模言語モデルは多様な人間特性を反映し，行動研究の対象として期待される。
- 従来のモデルでは，個々の人間ユーザーの応答を再現することが困難であった。
- 本研究は，オープンな人生記述を用いて応答の一貫性と信頼性を高めることを目指す。
- Anthologyを用いることで，人間回答者の応答分布との一致度が最大18%向上した。
- 一貫性指標においても最大27%の改善が確認された。
- 多様なサブグループの表現向上にも貢献する。
Link: https://arxiv.org/abs/2407.06576
グラフ上のノード類似度に対するグラフニューラルネットワークの説明 [cs.LG, cs.AI]目的：グラフデータにおけるノード類似度算出の説明可能性
- 引用ネットワークや知識グラフなど，グラフ構造を持つデータからの情報活用において，類似度検索は不可欠である。
- 類似度検索は様々な手法が存在するが，類似度の根拠を説明する機能は十分に研究されていない。
- グラフニューラルネットワークを用いた類似度算出に説明可能性を付与し，その性質を検証することで，より信頼性の高い類似度検索を実現する。
- 相互情報量に基づく説明と，勾配に基づく説明の性能を比較した結果，勾配に基づく説明が優れた特性を持つことが示された。
- 勾配に基づく説明は，類似度スコアの変化を予測可能にする「実行可能性」，入力選択の影響が重複しにくい「一貫性」を備えている。
- また，説明を疎にしても類似度スコアへの影響を維持できる「刈り込み可能性」も確認された。
Link: https://arxiv.org/abs/2407.07639
ベータサンプリングですべてが足りる：ステップワイズスペクトル分析を用いた拡散モデルの効率的な画像生成戦略 [cs.CV, cs.AI]目的：拡散モデルにおける効率的な画像生成手法
- 高品質な画像合成において，拡散モデルは強力なツールとして注目されている。
- 拡散モデルの反復的な処理は，膨大な計算資源を必要とするという課題がある。
- 重要なステップに焦点を当てることで，計算資源の効率的な活用を目指す。
- 本研究では，拡散過程の画像スペクトル分析に基づいたベータ分布のようなサンプリング手法を提案した。
- 実験の結果，ベータサンプリングは従来の均一サンプリングよりも優れたFIDおよびISスコアを達成した。
- また，AutoDiffusionなどの最先端手法と比較しても，競争力のある効率性を示した。
Link: https://arxiv.org/abs/2407.12173
拡散モデルは進化アルゴリズムである [cs.RO, cs.SY, eess.SY, cs.RO, cs.NE, cs.LG]目的：拡散モデルと進化アルゴリズムの等価性
- 機械学習は，様々な問題を解決するための強力なツールであり，その応用範囲は広い。
- 従来の進化アルゴリズムは，高次元空間での探索や複数最適解の発見が難しい場合がある。
- 拡散モデルの原理を応用し，効率的な探索と複数最適解の発見を目指す。
- 拡散モデルは，ノイズ除去過程を通じて進化アルゴリズムとしての性質を持つことが数学的に示された。
- 提案手法であるDiffusion Evolutionは，従来の進化アルゴリズムと比較して，複数の最適解を効率的に発見する性能を示す。
- 潜在空間拡散を用いたLatent Space Diffusion Evolutionは，高次元空間における計算コストを大幅に削減する。
Link: https://arxiv.org/abs/2410.02543
LPT：視覚言語モデルのための過学習抑制プロンプトチューニング [cs.CV, cs.AI]目的：視覚言語モデルの過学習抑制と汎化性能向上
- 視覚言語モデルは多様なタスクで高い性能を示すが，その汎用性が重要視されている。
- プロンプトチューニングは効率的だが，過学習を起こしやすく，汎化性能が低下しやすい。
- 本研究は，過学習を抑制し，視覚言語モデルの汎化性能を効果的に向上させることを目指す。
- 提案手法LPTは，CLIPを用いて過学習を引き起こす可能性のある微細な情報をフィルタリングする。
- 特徴量レベルで構造保存制約(SP)を導入し，モデル全体の特徴空間構造をCLIPと整合させる。
- 出力層に階層的ロジット制約(HL)を適用し，出力におけるクラス情報を制御することで過学習を抑制する。
Link: https://arxiv.org/abs/2410.10247
物理的柔軟性とコントローラ切り替えによる多指器用操作の言語制御 [cs.CL, cs.RO, cs.AI]目的：言語による指示に基づく多指器用操作の実現
- 人間の器用さは，高次のタスク推論と指先の制御，そして身体の柔軟性から生まれる。
- ロボット工学では，高次の推論と堅牢な低次の制御を組み合わせることが課題である。
- 柔軟性とAIモデルの利点を活かした，効率的で拡張性の高い器用操作手法の確立。
- 本研究では，人間の運動制御の二チャンネル仮説に基づき，大規模言語モデルと小規模制御モデルを統合する切り替えコントローラを提案した。
- 実験により，ロボット指のハードウェアレベルの柔軟性が，外乱への受動的な適応と接触安定性を向上させることが示された。
- 提案手法は，さまざまな言語による指示に基づく器用操作タスクにおいて有効であり，異なる柔軟性を持つロボットハンドへの適応も容易であることが確認された。
Link: https://arxiv.org/abs/2410.14022
PolyMATH：多岐にわたる多Modal数学的推論ベンチマーク [cs.AI, cs.CL]目的：多Modal大規模言語モデルの認知的な推論能力の評価
- 近年，多Modal LLMの発展は目覚ましいが，視覚的理解と抽象的推論能力の評価は不十分である。
- 既存のベンチマークでは，LLMの複雑な視覚的・論理的推論能力を十分に測ることが困難である。
- 多Modal LLMの弱点を明らかにし，今後の発展に資するための新たな評価基準を確立する。
- PolyMATHは，パターン認識，空間推論など10のカテゴリからなる5,000枚の画像で構成された難易度の高いベンチマークである。
- 15の多Modal LLMの評価の結果，Claude-3.5 Sonnetが約41%，GPT-4oが約36%，Gemini-1.5 Proが約27%のスコアを達成した。
- モデルは空間関係の理解や高度な推論に苦戦しており，テキストによる説明よりも図の利用で約4%の性能向上が見られたことから，図そのものの理解が不十分であることが示唆された。
Link: https://arxiv.org/abs/2410.14702
事前学習済みモデルにおけるLoRAを用いた残差特徴量アラインメントによる機械的アンラーニング [cs.RO, cs.LG, cs.CV]目的：事前学習済みモデルからの特定データ削除手法
- プライバシー保護の重要性が増し，学習データからのデータ削除技術が求められている。
- モデル全体の再学習はコストが高く，特徴量のシフトによる性能低下も課題となる。
- LoRAを活用し，効率的に特徴量を調整してデータ削除と性能維持を両立すること。
- 本手法は，モデルの中間層特徴量を事前学習済みモデルにアラインメントすることで，効率的なアンラーニングを実現する。
- LoRAによって残差特徴量を調整し，削除データと保持データの特性を分離することで，アンラーニングと性能維持を両立する。
- 多様なデータセットでの実験により，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2411.08443
効率的な多変量時系列予測のための線形Transformer：Ister [cs.LG, cs.AI]目的：多変量時系列予測における予測精度と計算効率の向上
- 時系列データ分析は，経済，気象，金融など広範な分野で不可欠である
- Transformerモデルの計算量は系列長に対して二乗で増加し，高次元データへの適用が困難
- 計算効率を維持しつつ，長距離依存性を捉え，予測精度を向上させること
- Isterは，従来の多頭自己注意機構を線形計算量のDot-attentionで代替することで，計算効率を大幅に改善した
- 季節・トレンド分解戦略により，周期成分を分離し，チャネルアライメントを強化し，予測性能を向上させた
- 複数の実世界ベンチマークにおいて，Isterは最先端の性能を達成した
Link: https://arxiv.org/abs/2412.18798
PromptGuard：ソフトプロンプトによるテキスト-画像モデルの不適切なコンテンツ抑制 [cs.CV, cs.AI, cs.CR]目的：テキスト-画像モデルにおける不適切なコンテンツ生成の抑制
- 近年のテキスト-画像モデルの発展は目覚ましいが，倫理的な問題も生じている。
- テキスト-画像モデルは，性的，暴力的なコンテンツなど，不適切な画像を生成するリスクがある。
- ソフトプロンプトを用いて，効率的に不適切なコンテンツ生成を抑制することを目指す。
- PromptGuardは，テキスト-画像モデルの埋め込み空間内で機能するソフトプロンプトを最適化することで，不適切なコンテンツの生成を抑制する。
- 本手法は，既存のコンテンツ抑制手法と比較して3.8倍高速であり，高い性能を示す。
- 多頭安全分類器とVLMによる評価からも，その堅牢性が確認された（不適切なコンテンツの割合はそれぞれ5.84%と6.18%）。
Link: https://arxiv.org/abs/2501.03544
グラフニューラルネットワークへの説明を通じたウォーターマーキング：所有権保護のために [cs.CR, cs.AI]目的：グラフニューラルネットワークの所有権保護
- 近年，グラフニューラルネットワークの産業利用が拡大しており，その知的財産保護が重要となっている。
- 既存のウォーターマーキング手法は，グラフデータやGNNに特化したものが少なく，データ改ざんによる所有権の曖昧さや攻撃への脆弱性が課題である。
- 本研究は，データ改ざんを伴わず，説明に着目することで，これらの課題を解決し，GNNの知的財産保護を強化することを目指す。
- 本手法は，GNNの説明を統計的に識別可能にするウォーターマークを埋め込むことで，所有権の主張を統計的有意性によって検証可能にする。
- 理論的に，本手法の知識があってもウォーターマークの特定はNP困難であることが証明された。
- 実験的に，ファインチューニングやプルーニング攻撃に対する堅牢性が確認された。
Link: https://arxiv.org/abs/2501.05614
サンダイヤル：高性能時系列基盤モデル群 [cs.LG]目的：高性能時系列基盤モデルのファミリー
- 時系列データは，経済，気象，医療など幅広い分野で重要であり，分析・予測に不可欠である。
- 既存モデルは，離散的なトークン化や事前分布の指定が必要で，柔軟性や汎化性能に課題があった。
- 連続値時系列データのネイティブな事前学習を可能にし，高精度かつ高速な予測を実現すること。
- 本研究では，Flow Matchingに基づくTimeFlow Lossを導入し，離散的なトークン化なしにTransformerの事前学習を可能にした。
- 大規模データセットTimeBenchを用いてSundialモデル群を事前学習し，前例のないモデル性能と汎化性能を達成した。
- Sundialは，ポイント予測と確率的予測の両方で最先端の結果を，数ミリ秒という迅速な推論速度で実現する。
Link: https://arxiv.org/abs/2502.00816
直接アラインメントアルゴリズムの違いは曖昧である [cs.LG]目的：大規模言語モデルのアラインメントにおける直接アラインメントアルゴリズムの性能要因の比較と分析
- 大規模言語モデルの安全性と有用性を確保するため，アラインメント技術が不可欠である。
- 直接アラインメントアルゴリズムは多様化しているが，性能を決定する主要因が明確ではない。
- ランキング目的がアラインメント品質に与える影響を特定し，より適切な評価基準を提示すること。
- ランキング目的（ペアワイズ vs. ポイントワイズ）がアラインメント品質の主要な決定要因であることが示された。
- スカラースコア（尤度比 vs. オッズ比）は，ランキング目的ほどの影響力はないことが確認された。
- 提案された統一的な訓練フレームワークにより，オッズ比DAAの性能が向上した。
Link: https://arxiv.org/abs/2502.01237
PINS：スパースニュートンとシンコーンを用いた近接反復による最適輸送 [cs.LG, math.OC]目的：最適輸送問題の効率的な解法
- 機械学習において広く利用される最適輸送は，大規模なデータに対する計算コストが課題である。
- シンコーンアルゴリズムはスケーラビリティを向上させるが，正則化パラメータが小さいと収束が遅延する。
- シンコーンアルゴリズムが陥るエントロピーバイアス台地を克服し，より高精度な解を効率的に求める。
- PINSは，近接点法とスパースニュートン法を組み合わせることで，シンコーンアルゴリズムの収束性を改善する。
- 合成データおよび拡張MNISTデータセットにおいて，PINSは従来のシンコーン型手法と比較して，大幅に低い相対コスト誤差を達成した。
- 大規模DOTmarkデータセットでは，PINSはネットワークシンプレックス線形計画法ソルバーと比較して，ピークメモリ使用量を24〜54％削減した。
Link: https://arxiv.org/abs/2502.03749
学習不要なオープンボキャブラリセマンティックセグメンテーションにおけるCLIPのグローバル知識の再考 [cs.CE, cs.LG]目的：学習不要型オープンボキャブラリセマンティックセグメンテーションのためのCLIPのグローバル知識の抽出と利用
- 画像認識技術は，自動運転や医療診断など，様々な分野で重要な役割を担う。
- 既存手法はCLIPのグローバルコンテキスト集約能力を弱め，局所的な特徴に偏りがちである。
- CLIPが持つグローバル知識を効果的に活用し，セグメンテーション性能の向上を目指す。
- 本研究では，CLIPの注意機構とValue埋め込みを再構成することで，グローバルコンテキストを効果的に集約する手法GCLIPを提案した。
- GCLIPは，グローバルトークンからの注意とQuery-Query注意を融合させ，パッチ間の均一な注意パターンを抑制しつつ，画像レベルの特徴を付与する。
- また，チャネル抑制戦略によりValue埋め込みのセマンティックな相関性を高め，複数のベンチマークで最先端の性能を達成した。
Link: https://arxiv.org/abs/2502.06818
Transformerは多項式対数パラメータで疎なXORを確実に学習する [cs.LG]目的：疎なパリティ関数の学習におけるTransformerの能力
- ニューラルネットワークの学習能力評価において，疎なパリティ関数は理論的な検証手段として重要である。
- 既存の研究は主にFeed-Forward Neural Networksに焦点を当てており，Transformerに関する理論的理解は限られていた。
- 本研究は，Transformerが疎なXOR問題をどのように学習するかを分析し，その学習能力を明らかにする。
- 単層2ヘッドTransformerは，O(polylog(d))の学習可能なパラメータのみで，関連する特徴を発見し，損失をほぼ0にまで低減できることを証明した。
- この結果は，Transformerがこの問題に対するFFNNのΩ(d)パラメータのボトルネックを打破することを示している。
- 正確なsoftmax attentionが特徴発見を促進すること，および有限データからの学習におけるTransformerの汎化能力が実証された。
Link: https://arxiv.org/abs/2502.07553
単一性を超えて：ベンチマーク評価における複数世代の価値の解明 [cs.CL, cs.AI, cs.LG]目的：大規模言語モデルのベンチマーク評価の精度向上と，プロンプトの難易度分析
- 大規模言語モデルの性能評価は，その実用性と信頼性を担保する上で不可欠である。
- 従来の評価方法は，言語モデルのランダム性を考慮せず，結果にばらつきが生じやすい。
- 複数世代を用いることで，評価の精度を向上させ，プロンプトごとの難易度を定量化することを目指す。
- 複数世代の利用により，ベンチマークスコアの推定精度が向上し，分散が減少することが示された。
- プロンプトの正答率に基づく難易度指標を定義することで，個々のプロンプトに対する詳細な洞察が得られるようになった。
- プロンプトの難易度と意味を可視化するデータマップを作成し，ベンチマーク構築におけるエラー検出と品質管理を支援する。
Link: https://arxiv.org/abs/2502.08943
ArchRAG：属性を持つコミュニティに基づく階層的検索拡張生成 [cs.IR, cs.AI]目的：質問応答タスクにおける大規模言語モデルへの外部知識統合
- 質問応答の精度向上には，外部知識の活用が不可欠であるため，その効率的な統合手法が求められる。
- 既存のグラフベースRAG手法は，関連情報の特定精度が低く，オンライン検索時のトークン消費量が大きいという課題がある。
- 属性を持つコミュニティと階層的クラスタリングにより，グラフからの関連情報抽出精度と効率を向上させる。
- ArchRAGは，属性を持つコミュニティを活用し，質問を拡張することで，より関連性の高い情報を抽出する。
- 提案手法では，新たなLLMベースの階層的クラスタリング法と，それに対応する階層インデックス構造を導入した。
- 実験結果から，ArchRAGは既存手法と比較して，精度とトークンコストの両面で優れていることが示された。
Link: https://arxiv.org/abs/2502.09891
プロンプトが難しいのはなぜか：二値系列予測器におけるプロンプトの理解 [cs.CL, cs.LG, stat.ML]目的：効果的なプロンプトの発見と理解
- 大規模言語モデルの活用において，プロンプト設計は性能を左右する重要な要素である。
- 最適なプロンプトの探索は困難であり，その挙動の解釈も容易ではないという課題がある。
- 事前分布に基づき，直感的でない最適なプロンプトの構造を解明し，その困難さを明らかにする。
- 最適なプロンプトは，事前分布を考慮することでより理解しやすくなることが示された。
- 網羅的な探索でも，実用的なニューラル予測器に対する最適なプロンプトを安定的に特定することは難しい。
- タスクからのデモンストレーションを用いた一般的なプロンプト手法が必ずしも最適とは限らないことが明らかになった。
Link: https://arxiv.org/abs/2502.10760
Simulus：サンプル効率型ワールドモデルエージェントの改善点の統合 [cs.LG, cs.AI]目的：サンプル効率型ワールドモデルエージェントにおける改善点の組み合わせ
- 強化学習のサンプル効率向上は，実世界での応用を可能にする上で重要である。特に，データ収集コストが高い場合に重要性が増す。
- ワールドモデルは複雑であり，改善点を特定し統合するには専門知識と労力がかかる。その結果，潜在的な改善が活かされない場合がある。
- Simulusは，ワールドモデルエージェントにおける複数の改善点を組み合わせることで，サンプル効率の向上を目指す。
- Simulusは，様々な観測・行動モダリティに対応する柔軟なトークン化フレームワーク，知識的uncertaintyの減少に基づく内在的動機付け，優先度付きワールドモデルリプレイ，および報酬・リターンの予測における回帰-分類法を統合した。
- Simulusは，Visual Atari 100K，DMC Proprioception 500K，Craftax-1Mの3つのベンチマークにおいて，プランニングフリーのワールドモデルのサンプル効率において最先端の結果を達成した。
- 内在的動機付けは，サンプル効率の良い強化学習においても有効であり，限られたインタラクション予算内で，タスクに関連しない経験への費消リスクを伴う場合でも効果が認められた。
Link: https://arxiv.org/abs/2502.11537
構造的アラインメントがグラフにおけるテスト時適応を改善する [cs.RO, cs.LG]目的：グラフにおけるテスト時適応
- 推薦，不正検知，素粒子物理など，多様な分野で相互作用パターンを捉える上で，グラフ学習は有用である。
- ネットワーク接続の変化など，分布シフトが発生すると性能が低下する点が課題である。
- 事前学習済みモデルの再学習コストを回避しつつ，推論時にグラフ構造を適応させることを目指す。
- 提案手法TSAは，テスト時にグラフ構造をアラインメントすることで，分布シフトに対する適応能力を高める。
- 不確実性を考慮した近傍重み付け，自己ノードと集約された近傍表現の適応的バランス調整，決定境界の修正を行う。
- 合成データ及び実データを用いた実験により，TSAが既存手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2502.18334
FinTSB：金融時系列予測のための包括的かつ実践的なベンチマーク [cs.CE, cs.LG]目的：金融時系列予測のための包括的かつ実践的なベンチマークの提案
- 金融市場は人間の意思決定を反映し，過去のデータから投資戦略を導き出す上で重要である。
- 既存研究では，市場の多様性，評価基準の統一性，現実世界の市場構造への対応が不十分である。
- 市場の多様性を考慮し，評価を標準化し，現実的な取引環境をモデル化することで，より実用的なベンチマークを構築する。
- FinTSBは，金融時系列データの動きのパターンを4つのカテゴリに分類し，データ品質の評価基準を設けた。
- 評価指標を3つの次元で標準化し，様々なバックボーンからの手法を取り入れた使いやすいパイプラインを構築した。
- 取引手数料などの規制制約を考慮したモデルを構築し，様々な市場状況下でのモデル選択の指針を示した。
Link: https://arxiv.org/abs/2502.18834
面接および読解課題を用いたうつ病の認識のための専門家混合モデル [cs.LG, cs.CY]目的：面接と読解課題からのうつ病認識
- 精神疾患であるうつ病の早期発見は，公衆衛生上重要である。
- 既存研究では，自然な会話と読み上げ音声の情報を統合的に活用できていない。
- 自然会話と読み上げ音声の情報を統合し，専門家混合モデルを用いてうつ病認識の精度向上を目指す。
- 提案手法はAndroidsコーパスにおいて，正解率とF1スコアでそれぞれ87.00%と86.66%を達成した。
- 本研究は，自然会話と読み上げ音声の両方を活用し，マルチモーダル融合と専門家混合モデルを組み合わせた初の試みである。
- ファクトリゼーションに基づくスパースゲート付きMoEや多線形MoEなど，３種類のMoEモデルが評価された。
Link: https://arxiv.org/abs/2502.20213
容量を考慮した推論：MoEにおける後れ者効果の緩和 [cs.RO, cs.SY, eess.SY, cs.LG, cs.AI, cs.CL]目的：MoEモデルにおける推論効率の改善
- 大規模言語モデルの性能向上には，モデルの規模拡大が不可欠であり，MoEはそのための有効な手法である。
- MoEモデルでは，専門家へのトークン割り当ての不均衡により，計算負荷の偏りが生じ，推論速度が低下する。
- 本研究では，専門家の負荷を均衡化することで，推論効率の向上を目指す。
- 提案手法であるCapacity-Aware Token Dropは，過負荷の専門家へのトークン数を削減し，負荷の不均衡を低減する。
- さらに，Capacity-Aware Expanded Dropにより，低負荷の専門家を有効活用し，全体的な負荷分散を促進する。
- Mixtral-8$\times$7B-Instructへの適用により，平均性能が0.2%向上し，推論速度は1.85倍に改善された。
Link: https://arxiv.org/abs/2503.05066
DSGBench：複雑な意思決定環境におけるLLMベースエージェントを評価するための多様な戦略ゲームベンチマーク [cs.AI, cs.CL]目的：LLMベースエージェントの戦略的決定能力評価のためのプラットフォーム
- 複雑な戦略環境におけるLLM活用が拡大しており，その性能評価が重要である。
- 既存のベンチマークは，単一のスキル評価や環境の多様性不足などの課題があった。
- より厳密な評価を通じて，LLMベースエージェントの開発を促進すること。
- DSGBenchは，6つの複雑な戦略ゲームと詳細な評価システムを導入した。
- 評価システムは，5つの次元で意思決定能力を分析し，エージェントの行動パターンを追跡する。
- 評価実験から，各LLMエージェントの強みと限界が明らかになった。
Link: https://arxiv.org/abs/2503.06047
LLM-FE：LLMを進化型最適化器として用いた表形式データの自動特徴量エンジニアリング [cs.RO, cs.MA, cs.LG, cs.AI, cs.CL, cs.NE]目的：表形式データの予測モデル性能向上のための自動特徴量エンジニアリング
- 表形式データ分析において，特徴量エンジニアリングはモデル性能に大きく影響する重要な要素である。
- 従来手法は，固定された探索空間内で定義済みの変換に依存し，ドメイン知識の活用が不十分であった。
- LLMの知識と推論能力を組み合わせた進化探索により，効果的な特徴量を自動的に発見することを目指す。
- LLM-FEは，既存の最先端手法と比較して一貫して優れた性能を示し，様々な分類および回帰ベンチマークにおいて予測モデルの性能を大幅に向上させる。
- 本手法は，特徴量エンジニアリングをプログラム探索問題として捉え，LLMが反復的に新しい特徴量変換プログラムを提案し，データ駆動型フィードバックが探索を導く。
Link: https://arxiv.org/abs/2503.14434
イスラム恐怖症的言説の解読：LLMを用いた類型と暗号化されたヘイトスピーチの特定 [cs.LG]目的：イスラム恐怖症的言説における類型と暗号化されたヘイトスピーチの特定
- 西欧社会においてイスラム恐怖症が蔓延しており，デジタルコミュニケーションネットワークがその拡散を加速させている。
- 特定の文脈外では中立的または曖昧に見える専門用語や暗号化された表現が，ヘイトスピーチとして識別しにくい。
- LLMを用いた分析により，イスラム恐怖症的言説の理解と検出の改善を目指す。
- LLMは，専門用語や暗号化された侮辱語を理解できることが示された。
- イスラム恐怖症的な投稿は，他のヘイトスピーチと比較して，毒性スコアが高い傾向にある。
- イスラム恐怖症的な言説は，政治，陰謀論，極右運動など，多様な背景で見られる。
Link: https://arxiv.org/abs/2503.18273
汎用性と堅牢性を備えたLLM強化テキスト属性グラフ学習 [eess.SY, cs.SY, cs.LG]目的：LLM強化テキスト属性グラフ学習のための統一的なパイプラインの提案
- 近年のLLMとテキスト属性グラフの普及により，その学習は様々な分野で重要な研究課題となっている。
- LLMとGNNの複雑な相互作用から生じる最適化の多様性に対処するための統一的なフレームワークが不足している。
- 現実世界のテキスト属性グラフに存在するテキストおよびエッジの疎性を克服し，性能を向上させることを目指す。
- 本研究では，既存の手法を体系化し，今後の発展を促進する包括的なフレームワーク「UltraTAG」を提案する。
- UltraTAGの堅牢な実装である「UltraTAG-S」は，LLMに基づいたテキスト伝播と拡張によりテキストの疎性を軽減する。
- 実験結果から，UltraTAG-Sは既存手法を大きく上回り，特に疎な設定において顕著な性能向上を示すことが確認された。
Link: https://arxiv.org/abs/2504.02343
命令と推論データが後学習に与える影響：層別勾配から見たデータ品質 [cs.RO, cs.LG, cs.AI, cs.CL]目的：大規模言語モデルの後学習におけるデータ品質の分析
- 大規模言語モデルの性能向上には，高品質な学習データが不可欠である。
- 命令や推論データの品質評価指標は存在するものの，その勾配への影響は不明確である。
- データ品質と学習の安定性との関係を解明し，データ探索戦略の改善に貢献する。
- 層別勾配のスペクトル分析により，既存のデータ品質指標が勾配の特異値分解によって説明できることが示された。
- 高品質なデータは，低い核ノルムと高い有効ランクを示す傾向があり，推論データは命令データよりも高い有効ランクを持つ。
- モデルのサイズに関わらず勾配パターンは類似する一方，モデルの系列間では差異が認められる。
Link: https://arxiv.org/abs/2504.10766
平均場Transformerモデルにおける量的クラスタリング [cs.LG, math.AP, math.DS, stat.ML]目的：平均場Transformerモデルの長期的クラスタリング
- 深層学習モデルの動作原理解明は，AI技術の発展に不可欠である。
- Transformerモデルの内部状態の変化は複雑であり，その挙動を定量的に把握することが困難である。
- Transformerモデルの初期状態が指数関数的に一点に集中する速さを定量的に評価する。
- 適切な条件の下で，平均場Transformerモデルは初期状態から指数関数的に速く，一点に同期することが示された。
- この同期速度は，モデルのパラメータに依存する明確な収束率を持つことが証明された。
Link: https://arxiv.org/abs/2504.14697
CachePrune：KVキャッシュ編集によるLLMへの不要な追従抑制 [cs.IR, cs.CL, cs.CR, cs.AI]目的：間接的なプロンプトインジェクション攻撃に対する防御
- LLMの利用拡大に伴い，セキュリティリスクの低減が不可欠である。
- LLMはプロンプト内のデータと指示を区別できず，悪意のある指示に脆弱である。
- プロンプトのKVキャッシュにおける指示追従に関連するニューロンを特定・削除し，防御を実現する。
- CachePruneは，プロンプトコンテキストのKVキャッシュエンコーディング時に，指示追従に関連するニューロンを特定し，剪定することで攻撃成功率を大幅に低下させる。
- 本手法は，プロンプトの形式変更やテスト時のオーバーヘッドを伴わず，LLMの指示追従能力を維持する。
- ニューラルアトリビューションメカニズムは，DPOの目的関数との理論的な関連性も示されており，その精度も向上している。
Link: https://arxiv.org/abs/2504.21228
大規模言語モデルを活用した並列科学コードのエネルギー効率を考慮したリファクタリングの自動化 [cs.AI, cs.DC, cs.PL, cs.SE]目的：並列科学コードのエネルギー効率改善
- 大規模計算システムの電力消費は大きく，エネルギー効率が重要な課題となっている。
- 既存の研究では，コードの機能性や実行時間に焦点が当てられ，エネルギー効率は十分に考慮されていない。
- 大規模言語モデルを用いて，実行時のフィードバックに基づきエネルギー効率の高いコードを自動生成すること。
- 提案手法 LASSI-EE は，ランタイム電力プロファイリング，エネルギー効率を考慮したプロンプティングなどを統合し，平均36%（MI100）と34%（A100）のエネルギー削減を達成した。
- LASSI-EE は，反復的なアプローチと LLM-as-a-Judge エージェントによるコードのスクリーニングを通じて，エネルギー効率の高い並列コードを生成する。
- NVIDIA A100 および AMD MI100 GPU 上の 22 の科学的ベンチマークとアプリケーションで評価された。
Link: https://arxiv.org/abs/2505.02184
ノイズを排除して：差分プライバシー下でのアルゴリズムによる集団的行動 [cs.CL, cs.LG, cs.CR]目的：差分プライバシー下におけるアルゴリズム的集団行動の成功率の限界
- AIの社会実装が進む中で，アルゴリズムによる不利益や社会的不平等の固定化が懸念されている。
- AIモデルの信頼性を高めるためのプライバシー保護技術が，集団的行動の妨げとなる可能性がある。
- 差分プライバシーが，集団的行動の成功に与える影響を定量的に評価し，そのトレードオフを明らかにする。
- 差分プライバシーは個人のデータ保護に貢献する一方で，アルゴリズム的集団行動の効果を低下させる。
- 集団的行動の成功率は，集団の規模とプライバシーパラメータに依存することが示された。
- プライバシーコストと参加インセンティブの経済分析により，私的学習環境下での集団形成が検討された。
Link: https://arxiv.org/abs/2505.05707
Deep-ICE：二層ReLUおよびmaxoutネットワークにおける0-1損失最小化のための最初のグローバル最適アルゴリズム [cs.LG]目的：二層maxoutおよびReLUネットワークにおける経験的リスク最小化問題の解決
- 深層学習は画像認識や自然言語処理など，様々な分野で高い性能を発揮している重要な技術である。
- 深層学習モデルの学習は一般的に勾配降下法に頼っており，最適解への到達が保証されない場合がある。
- 本研究は，二層ネットワークにおいて，損失関数の最小化を厳密に行うアルゴリズムを開発する。
- 提案アルゴリズムは，最悪の場合の時間計算量が$O\left(N^{DK+1}\right)$であり，計算可能な損失関数に一般化可能である。
- 小規模データセットに対しては，厳密解を導き出すことが実験的に確認された。
- 大規模データセット向けには，データサイズを削減するコアセット選択法を導入し，性能が20-30%向上した。
Link: https://arxiv.org/abs/2505.05740
ストリーミングスライス最適輸送 [cs.LG, stat.CO, stat.ME, stat.ML]目的：サンプルストリームからのスライス Wasserstein 距離の推定手法
- 大規模データセットの統計的解析において，計算効率とスケーラビリティが重要である。
- 既存のスライス最適輸送は，バッチ処理を前提としており，ストリーミングデータへの適用が困難である。
- ストリーミングデータに対して，低メモリで効率的にスライス Wasserstein 距離を推定することを可能にする。
- 提案手法 Stream-SW は，従来のランダムサブサンプリングよりも高い精度でスライス Wasserstein 距離を近似できる。
- Stream-SW は，少ないメモリ消費量で近似誤差の理論的保証を提供する。
- 点群分類，点群勾配フロー，ストリーミング変化点検出などの実験で，Stream-SW の有効性が確認された。
Link: https://arxiv.org/abs/2505.06835
LLM を活用した化学合成と設計判断プログラム [cs.AI, cs.CL, cs.LG, cs.NE, physics.chem-ph]目的：複雑な多段階逆合成計画問題の解決
- 有機化学や創薬において，分子を構成要素に分解する逆合成は不可欠なプロセスである。
- 既存の機械学習は単一段階の逆合成予測に限定され，膨大な経路空間が課題となっていた。
- LLMの持つ化学的知識を活用し，多段階逆合成計画の効率化を目指す。
- 本研究で提案する LLM 活用アプローチは，逆合成計画において優れた性能を発揮する。
- 従来の段階的な反応物予測を超えた，ルートレベルの探索戦略を導入した。
- この手法は，合成可能な分子設計というより広範な課題にも自然に拡張できる。
Link: https://arxiv.org/abs/2505.07027
REI-Bench：タスク計画において，具現化されたエージェントは曖昧な人間の指示を理解できるか [cs.IR, cs.DC, cs.SC, cs.RO, cs.AI, cs.CL]目的：曖昧な指示表現を含む人間の指示が，LLMベースのロボットタスク計画に与える影響とその改善策
- ロボットのタスク計画は，人間の意図を理解し実行する上で不可欠であり，実用的な応用が期待される。
- 現在のタスクプランナーは明確な指示を前提としているため，日常的な曖昧な指示への対応が課題である。
- 曖昧な指示表現を理解し，ロボットがより自然な形で指示を受け付けられるようにすることを目指す。
- 提案されたベンチマーク（REI-Bench）により，曖昧な指示表現がロボットの計画成功率を最大36.9%低下させることが明らかになった。
- 失敗例の多くは，プランナーがオブジェクトを認識できなかったことに起因することが示された。
- タスク指向の文脈認識アプローチにより，最新の性能を達成し，ロボットを非専門家にも利用しやすいものにすることができた。
Link: https://arxiv.org/abs/2505.10872
プラットフォームAPI制限がAI透明性義務に与える矛盾 [cs.CY, cs.AI]目的：AI透明性義務との乖離の構造的監査
- デジタル社会において，アルゴリズムの透明性は，公正性と責任あるAI利用のために不可欠である。
- プラットフォームはデータへのアクセスを制限し，独立した検証を困難にしている。
- AIリスク管理フレームワークに沿った政策提言により，独立した監視体制を強化する。
- 主要SNSプラットフォームにおけるAPI制限が，EUデジタルサービス法遵守を妨げていることが判明した。
- X/Twitter，Reddit，TikTok，Metaの比較分析により，監査が困難な「盲点」が明らかになった。
- AI利用が増加するほど，独立した監視能力が制限されるという「説明責任のパラドックス」が示唆された。
Link: https://arxiv.org/abs/2505.11577
GRIT：画像を用いて思考するMLLMの学習 [cs.CL, cs.CV, cs.AI, cs.CL]目的：画像とテキストによる根拠のある推論の学習
- 視覚言語タスクにおける推論能力向上は，AIの高度化に不可欠である。
- 既存モデルは，推論過程で視覚情報を十分に活用できていない。
- 視覚情報と自然言語を統合した推論チェーン生成を目指す。
- GRITは，自然言語とバウンディングボックス座標を組み合わせた推論チェーンを生成する。
- GRPO-GRと呼ばれる強化学習アプローチにより，最終的な正答率と推論形式に焦点を当てた報酬を用いる。
- わずか20組の画像-質問-回答データで高いデータ効率を実現し，視覚に基づいた推論能力を効果的に学習する。
Link: https://arxiv.org/abs/2505.15879
最小注意を用いたメタ強化学習 [cs.LG, math.OC, stat.ML]目的：最小注意に基づく強化学習におけるメタ学習と安定化の関連性
- 生物制御のメカニズム解明に貢献する制御理論の応用が重要視されている。
- 従来の強化学習アルゴリズムは，少ない試行回数での適応や外乱へのロバスト性に課題がある。
- 最小注意の原理を導入することで，効率的かつ安定した強化学習を実現することを目指す。
- 最小注意を報酬の一部として組み込んだメタ強化学習モデルは，最先端の強化学習アルゴリズムと比較して優れた性能を示した。
- 特に，少ない試行回数での適応能力と，モデルや環境からの摂動に対する分散減少が確認された。
- さらに，最小注意の導入はエネルギー効率の向上にも貢献することが示された。
Link: https://arxiv.org/abs/2505.16741
データ混合が知識獲得における相転移を引き起こす可能性 [cs.LG, cs.AI, cs.CL]目的：大規模言語モデルにおける知識獲得の相転移現象
- 大規模言語モデルの性能向上には，多様なデータセットの活用が不可欠である。
- 高品質な知識集約型データセットとWebスクレイピングデータの混合比率が，学習に大きな影響を与える。
- モデルサイズや混合比率に応じて知識獲得がどのように変化するかを明らかにすること。
- モデルサイズが一定値を超えると，モデルは急激に多くの伝記を記憶するようになる相転移が観察された。
- 混合比率が低い場合，モデルはほとんど伝記を記憶しないが，ある閾値を超えると急速に記憶するようになる相転移も確認された。
- これらの相転移は，モデルの容量制約と損失最小化のトレードオフに起因すると考えられる。
Link: https://arxiv.org/abs/2505.18091
大規模行動空間を持つバンディット族における代表的な行動選択 [cs.LG, math.OC, math.PR, stat.ML]目的：バンディット族が共有する大規模な行動空間から部分集合の選択
- 現実世界の多くの場面で，行動空間は大きいが，行動間の相関関係は高い。
- 行動空間全体を維持することは無駄であり，効率的な行動選択が必要とされている。
- 相関構造を事前に知らなくても，行動空間を削減しつつ性能を維持する。
- 提案アルゴリズムは，ランダムにバンディットインスタンスをサンプリングし，最適な行動を収集することで，行動空間を大幅に削減できる。
- 理論的な性能保証が得られており，実証的な比較実験においてもCombinatorial BanditやMeta Learning Banditなどのベースラインよりも優れていることが示された。
- 行動間の相関関係が存在する場合，事前に相関構造を知らずとも有効に機能する。
Link: https://arxiv.org/abs/2505.18269
確率的偏微分方程式学習のための包括的ベンチマーク：SPDEBench [cs.LG, math.AP, physics.comp-ph]目的：確率的偏微分方程式の学習に関するベンチマーク
- 乱流，超伝導，量子力学など，物理現象の粗い時空間力学をモデル化する上で重要な役割を果たす。
- 特異SPDEのベンチマークデータセットが不足しており，信頼性の高いシミュレーションには繊細な数値スキームが必要となる。
- 機械学習ベースのSPDE学習のための統一的なベンチマークを提供し，モデル評価の標準化を目指す。
- SPDEBenchは，1～3次元領域における物理的・数学的に重要なSPDEのデータセットを提供。
- SPDE-awareアーキテクチャは，汎用的なオペレーター学習ベースラインよりも優れた性能を示すことが示された。
- 本ベンチマークは，確率的時空間力学の原理に基づいたベンチマークとアーキテクチャ設計への道を開く。
Link: https://arxiv.org/abs/2505.18511
疎なMoEにおけるゲーティング機構の再考：信頼度に基づくゲートによる任意のモダリティ入力の処理 [cs.LG, cs.AI]目的：マルチモーダルデータにおける欠損モダリティの適切な処理
- 現実世界のマルチモーダル学習では，データ不完全性が頻繁に発生し，性能低下を招く。
- 既存の疎なMoEアーキテクチャは，欠損モダリティへの対処能力が不十分であり，汎化性能が低い。
- 専門家の意見を取り入れ，理論的分析に基づき，専門家の崩壊を防ぐことで，欠損モダリティ問題を解決する。
- 提案手法ConfSMoEは，2段階の補完モジュールにより，疎なMoEアーキテクチャにおける欠損モダリティ問題を効果的に処理する。
- 理論的分析から得られた知見に基づき，タスクの信頼度に基づいてゲート機構を修正することで，専門家の崩壊を抑制する。
- 4つの実データセットを用いた実験により，ConfSMoEの欠損モダリティへの耐性と提案するゲーティング機構の影響を総合的に評価した。
Link: https://arxiv.org/abs/2505.19525
中国におけるサイバーいじめ検出：データセット，手法，検証 [cs.CL, cs.AI]目的：中国におけるサイバーいじめインシデント検出のためのデータセット構築と検証
- サイバーいじめは，青少年の精神的健康に深刻な影響を与える重要な社会問題である。
- 既存のデータセットは，攻撃的な言動の極性に基づくため，実際のサイバーいじめの状況を捉えきれていない。
- インシデント単位でのデータセットを構築し，より現実的なサイバーいじめ検出手法を確立することを目指す。
- 新たなアノテーション手法を用いて，91のインシデントから220,676件のコメントを含む中国初のサイバーいじめインシデント検出データセット「CHNCI」を構築した。
- 説明生成に基づいた３つのサイバーいじめ検出手法を組み合わせたアンサンブル手法と，人間によるアノテーションを活用し，疑似ラベルを生成した。
- 構築したデータセットが，サイバーいじめ検出とインシデント予測タスクのベンチマークとして機能することが実験的に示された。
Link: https://arxiv.org/abs/2505.20654