arXiv雑要約

AI - 2026/03/19 公開

人間用心理検査尺度がLLMの心理を誤って特徴づける：生成行動からの証拠 [cs.CL, cs.AI]目的：LLMの心理的プロファイリングにおける人間用心理検査尺度の妥当性
- LLMの能力向上に伴い，その特性評価の重要性が高まっている。
- 人間用に設計された心理検査尺度がLLMの特性を正確に反映しているか不明である。
- LLMの心理的プロファイリングにおける人間用検査尺度の限界を明らかにする。
- 既存の心理検査尺度の回答は，安定した心理的構造よりも望ましい行動を反映していることが示された。
- 生成された応答に基づいたプロファイリングの方が，LLMの心理特性をより信頼性高く捉えられる可能性が示唆された。
- 心理検査尺度がLLMの潜在的な偏りを誇張するリスクも指摘されている。
Link: https://arxiv.org/abs/2509.10078
InPhyReが明らかにする：大規模マルチモーダルモデルは誘導的な物理推論で苦戦する [cs.CL, cs.AI, cs.LG]目的：誘導的な物理推論における大規模マルチモーダルモデルの能力の評価
- 物理法則の理解は，現実世界でのAIエージェントの安全な運用に不可欠である。
- 既存のベンチマークは，学習時に見られなかった物理法則への適応能力を評価していない。
- 学習時に経験のない物理環境下での推論能力の限界を明らかにすることを目的とする。
- 大規模マルチモーダルモデルは，普遍的な物理法則の限られた知識の適用に苦労することが示された。
- 学習時に見られなかった物理法則に基づく推論シナリオにおいて，誘導的な物理推論能力が弱いことが確認された。
- 言語バイアスが誘導的な物理推論に影響を与え，視覚情報の信頼性が疑われることが示唆された。
Link: https://arxiv.org/abs/2509.12263
EdiVal-Agent: マルチターン編集の自動的かつ詳細な評価のためのオブジェクト中心フレームワーク [cs.CV, cs.AI, cs.LG]目的：マルチターン編集の自動的かつ詳細な評価
- 画像編集技術は進歩しているが，その性能を客観的に評価する方法が課題となっている。
- 既存の評価手法は，参照画像への依存や，ゼロショットVLMの精度不足といった問題を抱えている。
- オブジェクト中心のアプローチを用いて，マルチターン編集の評価精度向上を目指す。
- EdiValは，画像を入力として意味のあるオブジェクトに分解し，編集指示を生成することで評価を行う。
- EdiVal-IF，EdiVal-CC，EdiVal-VQという３つの評価指標を新たに提案し，マルチターン編集の評価を実現した。
- EdiVal Benchというベンチマークを構築し，様々な編集モデルの性能評価を行い，課題を特定した。
Link: https://arxiv.org/abs/2509.13399
見る，考える，行動する：GUI操作におけるトグル識別によるマルチモーダルエージェントの効率的な相互作用 [cs.AI, cs.CL, cs.HC]目的：GUIにおけるトグル操作の実行に関する課題解決
- GUI環境の普及に伴い，マルチモーダルエージェントによるGUI操作の重要性が増している。
- 既存のエージェントは，トグル操作の指示を確実に実行できず，ボトルネックとなっている。
- 現在のトグル状態を認識し，指示された状態との差分を考慮することで，操作精度向上を目指す。
- 提案手法StaRは，エージェントに現在のトグル状態を認識させ，指示された状態を推論することで，トグル操作の実行精度を30%以上向上させる。
- StaRは，既存の3つのマルチモーダルエージェントにおいて，汎用的なタスク性能の向上にも貢献する。
- 動的な環境下での評価により，StaRが実世界アプリケーションへの応用可能性を持つことが示された。
Link: https://arxiv.org/abs/2509.13615
対角線形ネットワークとLasso正則化経路 [cs.LG, math.OC, stat.ML]目的：対角線形ネットワークの学習経路とLasso正則化経路との関連性
- 深層学習の過学習抑制機構の解明は，汎化性能向上に不可欠である。
- 深層学習の学習過程における正則化効果の理論的解明が遅れている。
- 対角線形ネットワークの学習経路をLasso正則化経路として捉えることで，その正則化効果を理解する。
- 対角線形ネットワークの学習時間は，Lasso正則化の逆パラメータに相当することが示された。
- Lasso正則化経路の単調性仮定の下では，学習経路と正則化経路が厳密に一致する。
- 一般の場合でも，学習経路と正則化経路の近似的な関係が確認された。
Link: https://arxiv.org/abs/2509.18766
LLMエージェント強化学習のための木探索 [cs.LG, cs.AI]目的：LLMエージェントの強化学習における木探索手法
- LLMの性能向上は，複雑なタスクの自動化を可能にし，様々な応用分野での活用が期待されている。
- 従来の強化学習は，報酬が疎であるため，長期的なタスクや複数段階のタスクで学習が困難である。
- 木探索を用いることで，効率的な学習と，段階的な報酬推定を実現し，疎な報酬問題の解決を目指す。
- 提案手法Tree-GRPOは，木構造を通してロールアウト数を増加させ，限られた計算資源での効率的な学習を可能にする。
- 木構造は，最終的な報酬のみからでも，ステップごとの教師あり学習信号を構築できるという利点を持つ。
- 11のデータセットと3種類のQAタスクにおける実験で，Chain-based RLと比較して，Tree-GRPOの優位性が確認された。
Link: https://arxiv.org/abs/2509.21240
IA2：ICL活性化との整合性が教師ありファインチューニングを改善する [cs.LG, cs.AI, cs.CL]目的：ICL活性化との整合性による教師ありファインチューニングの改善
- 大規模言語モデルの性能向上は，自然言語処理の様々なタスクにおいて重要である。
- 教師ありファインチューニングはデータに依存しやすく，汎化性能が低い場合がある。
- ICLの内部メカニズムを教師ありファインチューニングに導入し，汎化性能とキャリブレーションを向上させる。
- 提案手法IA2は，ICLの活性化パターンを教師ありファインチューニングモデルに再現することで性能を向上させる。
- IA2を事前学習段階として行うことで，12のベンチマークと2つのモデルファミリーにおいて，精度とキャリブレーションが大幅に改善された。
- 本研究は，モデル適応の内部メカニズムに関する洞察を提供する。
Link: https://arxiv.org/abs/2509.22621
M3DLayout：3D屋内レイアウトと構造化記述の大規模マルチソースデータセット [cs.CV, cs.AI]目的：3D屋内レイアウト生成のためのデータセット
- テキストによる3Dシーン生成において，レイアウトは重要な中間表現であり，物理的妥当性とセマンティック制御を可能にする。
- 既存のデータセットは規模，多様性，注釈の質が限られており，3D屋内レイアウト生成モデルの学習能力を制約している。
- 多様なデータソースと高品質な注釈を通じて，複雑な空間・意味的パターンを学習可能なデータセットを構築する。
- M3DLayoutは，21,367のレイアウトと433k以上のオブジェクトインスタンスを含む大規模なマルチソースデータセットである。
- 実験結果から，本データセットはレイアウト生成モデルの学習基盤として有効であることが示された。
- 特にInf3DLayoutサブセットは，詳細な小オブジェクト情報を持ち，より複雑なシーン生成を可能にする。
Link: https://arxiv.org/abs/2509.23728
オフライン強化学習における文脈内構成的Q学習 [cs.LG, cs.AI]目的：オフライン強化学習におけるQ関数の推定
- 強化学習は，複雑な意思決定問題への応用が期待される。しかし，データ収集コストが高い場合がある。
- オフライン強化学習では，既存の手法がタスクの構成的構造を捉えきれないという課題がある。
- 本研究は，文脈学習を用いて局所的なQ関数を推定し，構成的なタスクに対応することを目指す。
- 提案手法ICQLは，文脈内学習と線形Transformerを組み合わせ，明示的なサブタスクラベルなしで局所的なQ関数を推定する。
- 理論的に，局所的なQ関数の線形近似性と文脈からの重みの正確な推論が成立する場合，ICQLはQ関数の有界な近似誤差を達成し，ほぼ最適な方策抽出を可能にする。
- 実験的に，ICQLはオフライン環境において性能を大幅に向上させ，キッチンタスクで最大16.4%，MuJoCoとAdroitタスクでそれぞれ8.8%と6.3%の改善を達成した。
Link: https://arxiv.org/abs/2509.24067
安定的な忘却：基盤モデルにおける境界付きパラメータ効率的なアンラーニング [cs.LG, cs.AI]目的：基盤モデルにおけるプライバシーと安全性を保証するための機械的アンラーニング手法
- 基盤モデルの利用拡大に伴い，プライバシー保護と安全性の確保が重要課題となっている。
- 既存のアンラーニング手法は不安定で信頼性が低いという問題がある。
- Transformerモデルの最適化における不安定性を抑制し，安定的なアンラーニングを実現すること。
- 本研究では，LoRAベースのファインチューニングにおいて，MLPアダプターに境界関数を適用する「境界付きパラメータ効率的なアンラーニング」を提案した。
- CIFAR-100のVision Transformerを用いたクラス削除実験において，高い忘却品質とモデルの有用性を両立する優れた結果が得られた。
- TOFU，TDEC，MUSEなどの言語モデルベンチマークにおいても，22Mから8Bパラメータのモデルで，忘却性能の向上と有用性の維持を実証した。
Link: https://arxiv.org/abs/2509.24166
HarmMetric Eval：LLMの有害性評価における指標と評価者のベンチマーク [cs.CL, cs.AI]目的：LLMの有害性評価指標と評価者の品質評価
- LLMのデータ生成利用増加に伴い，有害なコンテンツ生成リスクの管理が重要となっている。
- 有害性評価指標や評価者には形式やスケールの違いがあり，評価結果に一貫性がない場合がある。
- 様々な指標と評価者の性能を比較し，より信頼性の高い評価手法の確立を目指す。
- 従来の参照ベース指標（ROUGE，METEOR）が，LLMベースの評価者よりも微細な有害性評価で優れているという結果が得られた。
- LLMベース評価者の限界は，無関係または無益なLLM出力の評価にあり，その原因分析が行われた。
- 有害性基準を明示的に組み込んだプロンプトと参照ベース指標を用いたファインチューニングにより，評価性能が向上した。
Link: https://arxiv.org/abs/2509.24384
ScheduleMe：マルチエージェントカレンダーアシスタント [cs.AI]目的：マルチエージェントを用いたカレンダー管理システム
- 個人のスケジュール管理は生産性向上に不可欠であり，その効率化は重要な課題である。
- 自然言語によるカレンダー操作は曖昧さを生みやすく，高度な理解と解決能力が求められる。
- 自然言語でのカレンダー操作の柔軟性とユーザビリティ向上を目指す。
- ScheduleMeは，中央の監督エージェントが専門タスクエージェントを監督するグラフ構造の協調メカニズムを採用している。
- このシステムにより，モジュール性，競合解決，文脈を考慮した対話が可能となり，曖昧性の解消とユーザーコマンドの評価が実現する。
- 構造化された推論とエージェント間の協力が，パーソナルカレンダーアシスタントの有用性と柔軟性を高める可能性を示す。
Link: https://arxiv.org/abs/2509.25693
微分可能な運動軌跡によるベクタースケッチアニメーション生成 [cs.GR, cs.AI, cs.CV]目的：ベクタースケッチアニメーションの自動生成
- 視覚表現の簡便性から，スケッチは重要な手段である。
- 動画スケッチ生成は，時間的な一貫性維持が難題である。
- フレーム間のちらつきを抑制し，安定した生成を目指す。
- 微分可能な運動軌跡(DMT)表現により，複数フレーム間で意味的な勾配伝播が可能となった。
- DMTは，ポリノミアルベースの軌跡を用いて制御点移動を記述し，時間的な一貫性を向上させる。
- DAVISおよびLVOSデータセットでの評価で，最先端手法を上回る性能が確認された。
Link: https://arxiv.org/abs/2509.25857
ガウススプラッティングによるデータセット蒸留のパラメータ化 [cs.CL, cs.CV, cs.AI]目的：データセット蒸留のためのガウススプラッティングに基づく，簡潔で効果的なデータセットパラメータ化手法
- 現代のモデル訓練では大規模データセットへの依存度が高いが，データセット蒸留はその負担を軽減しうる。
- 既存手法は複雑な追加モジュールを必要とするか，表現力と効率のバランスを取れていない。
- 限られた保存容量内で，より多様で高性能な蒸留データセットを実現すること。
- 提案手法GSDDは，CUDAベースのスプラッティング演算子を活用し，並列処理による高品質なレンダリングを低コストで実現する。
- ガウスプリミティブは，重要な訓練特徴を効果的に捉え，疎でありながら表現力豊かな画像表現を可能にする。
- ImageNet-1Kなどの大規模データセットや動画蒸留タスクにおいて，競争力のある結果と性能向上を達成した。
Link: https://arxiv.org/abs/2509.26219
遅速ポリシー最適化：LLM推論のための更新前再配置 [cs.IR, cs.LG, cs.AI, cs.CL, stat.ML]目的：LLMの推論能力向上を目的とした強化学習におけるポリシー最適化手法
- LLMの推論能力は，様々なタスクにおいて重要性が増しており，その改善が求められている。
- 従来の強化学習アルゴリズムでは，初期段階でのノイズの多い勾配が学習の不安定化や探索の非効率性を招く。
- 本研究では，この問題を解決するために，オフポリシーのずれを制御し，学習の安定化と高速化を図る。
- 提案手法SFPOは，既存手法GRPOと比較して，数学的推論ベンチマークで平均2.80ポイント高い性能を示す。
- SFPOは，GRPOと同等の精度を達成するために，最大4.93倍少ないロールアウト数で済む。
- また，GRPOの最高精度に匹敵する性能を得るまでのウォールクロック時間も最大4.19倍短縮された。
Link: https://arxiv.org/abs/2510.04072
大規模言語モデルの強化学習後学習におけるデータ汚染の検出 [cs.NI, eess.SP, cs.CL, cs.AI, cs.LG]目的：大規模言語モデルにおけるデータ汚染検出手法
- 言語モデルの性能評価において，客観性と信頼性を担保することが重要である。
- 強化学習後学習段階におけるデータ汚染検出手法が未発達であり，脆弱性が存在している。
- 強化学習後学習におけるデータ汚染を検出し，言語モデルの評価信頼性を高めることを目指す。
- 本研究では，強化学習後学習におけるデータ汚染検出の第一研究として，Self-Critiqueを提案した。
- Self-Critiqueは，強化学習後の言語モデルの出力エントロピー分布の偏りを検出し，データ汚染を特定する。
- 実験結果から，Self-Critiqueは既存手法を大幅に上回り，AUCを最大30%改善することを示した。
Link: https://arxiv.org/abs/2510.09259
アスリート中心コーチングのための個別化動作ガイダンスフレームワーク [cs.HC, cs.AI]目的：アスリート個々の動作パターンに合わせた個別化された動作改善ガイダンスの生成
- スポーツ科学において，グループレベルの知見と個々のニーズとの乖離が課題である。
- 従来の実験的アプローチでは，個々の選手の特性を考慮したリアルタイムなコーチングが困難であった。
- 生成AIを用いて，選手の動作パターンに基づいた最適な改善ガイダンスを提供することを目指す。
- PMGFは，選手間の動作パターン移行をスムーズに生成できることが確認された。
- PMGFによる操作で変化した特徴は，球速向上と関連する既知のパフォーマンス向上要素と一致した。
- フレームワークの拡張版であるgeneral-PMGFは，多様なスポーツへの適用可能性を高めることを目指す。
Link: https://arxiv.org/abs/2510.10496
気候変動に関する談話における暗黙的な因果連鎖の発見を通してのLLMの推論能力評価 [cs.AI, cs.CL]目的：大規模言語モデルにおける暗黙的な因果連鎖の発見
- 気候変動問題は，社会全体に影響を及ぼす喫緊の課題であり，その議論を理解することが重要である。
- 因果関係の理解は曖昧で，複雑な議論において，根拠に基づいた判断を妨げる場合がある。
- LLMの因果推論能力を評価し，議論における因果連鎖の理解を深めることを目指す。
- LLMは生成する因果ステップ数や粒度にばらつきが見られた。
- LLMの判断は，真の因果推論よりも連想的なパターンマッチングに依存する傾向がある。
- 生成された因果連鎖は，人間による評価において論理的な整合性と完全性が確認された。
Link: https://arxiv.org/abs/2510.13417
敵対的学習によるスケーラブルなエネルギーベースモデル：識別と生成の統合 [cs.LG, cs.AI]目的：識別と生成を統合したエネルギーベースモデルの安定性とスケーラビリティ向上
- 識別モデルと生成モデルは機械学習の重要な構成要素であり，両者を統合することでより高度な応用が可能となる。
- エネルギーベースモデルは学習が不安定であり，高品質なサンプル生成が困難であるという課題が存在する。
- 敵対的学習を導入することで，識別性能の向上と安定した生成学習の両立を目指す。
- 本研究では，敵対的学習を用いた新たな学習フレームワークを提案し，エネルギーベースモデルの学習安定性とスケーラビリティを向上させた。
- 提案手法は，ImageNet 256x256データセットにおいて，識別と生成の両方で最先端の性能を達成した最初のエネルギーベースモデルである。
- 生成品質と敵対的頑健性を同時に実現し，忠実な反事実的説明を可能にする。
Link: https://arxiv.org/abs/2510.13872
制御バリア関数を用いた学習時における安全フィルタリング強化学習 (CBF-RL) [cs.RO, cs.AI, cs.LG, cs.SY, eess.SY]目的：強化学習における安全性の確保
- 実世界への応用において，安全性は性能と同等に重要であり，安全性の欠如は重大な結果を招く。
- 従来の強化学習は性能優先になりがちで，安全性を無視することがある。
- 学習時に制御バリア関数を用いて安全性を組み込み，安全な行動を学習すること。
- CBF-RLは，強化学習ポリシーを最小限に修正し，制御バリア関数項を組み込むことで安全制約をエンコードする。
- 学習ロールアウトを安全フィルタリングすることにより，安全な行動を生成する。
- 本手法は，オンライン安全フィルタなしで安全なデプロイメントを可能にし，ナビゲーションタスクや二足歩行ロボットにおいて有効性が示された。
Link: https://arxiv.org/abs/2510.14959
OCRとYOLOv8を用いたクリケット動画における自動ウィケット奪取配達区分と軌跡に基づくアウトゾーン分析 [cs.CV, cs.AI]目的：クリケット動画におけるウィケット奪取配達の識別，ピッチとボールの検出，そしてボール軌跡のモデル化
- クリケットは豊富な視覚情報と文脈情報を提供するが，戦術分析は依然として遅く主観的な手作業に依存している。
- クリケットの戦術分析は，手作業による時間と労力を要し，客観性に課題がある。
- クリケット動画の分析を自動化し，データ駆動型のアウトゾーン分析とバッティングの弱点評価を可能にする。
- 提案システムは，スコアカード情報とウィケットイベントを抽出するOCRと画像処理技術を組み合わせている。
- ピッチ検出モデルはmAP50 99.5%を，ボール検出モデルはmAP50 99.18%をそれぞれ達成した。
- 検出結果に基づき，ボール軌跡をモデル化し，ウィケット奪取に関連するアウトゾーンを明らかにした。
Link: https://arxiv.org/abs/2510.18405
SHAPとテンソルネットワーク：並列化による計算可能な説明 [cs.MA, cs.CL, cs.LG, cs.CC, cs.FL, quant-ph]目的：テンソルネットワークに対するSHAP値の計算
- 機械学習モデルの説明可能性は，モデルの信頼性と意思決定の透明性を高める上で重要である。
- ニューラルネットワークのような複雑なモデルでは，SHAP値の計算がNP困難であり，現実的な時間で説明を生成することが難しい。
- テンソルネットワークというモデルクラスに対して，正確なSHAP値の計算を可能にし，計算効率を向上させる。
- テンソルネットワーク全体のSHAP値を正確に計算するための一般的なフレームワークを提案した。
- テンソルトレイン構造に制限されたテンソルネットワークでは，並列計算によりポリ対数時間でSHAP値の計算が可能となった。
- 二値化されたニューラルネットワークをテンソルネットワークで表現することで，ネットワークの幅が固定されていればSHAP値の計算が効率的に可能になった。
Link: https://arxiv.org/abs/2510.21599
LLMベースの生成推薦システムのための継続的低ランクアダプター [cs.IR, eess.SY, cs.SY, cs.CL, cs.LG, cs.IR]目的：LLMベース推薦システムにおける継続学習手法
- 推薦システムは，ユーザーの行動や嗜好が常に変化するため，継続的な学習が不可欠である。
- 既存手法は過去のタスク性能維持に偏りがちで，変化するユーザー嗜好への適応が課題である。
- 近年のユーザー行動を捉え，適応と維持のバランスを取ることで，推薦精度向上を目指す。
- 提案手法PESOは，アダプターを最新の状態に固定する正則化項を導入し，柔軟な適応と維持を可能にする。
- 理論的には，この設計がLoRA空間内でデータに基づいた方向性のあるガイダンスを提供することが示された。
- 実験結果から，PESOが既存のLoRAベース継続学習手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2510.25093
TheraMind：長期的な心理カウンセリングのための戦略的適応エージェント [cs.AI]目的：長期的な心理カウンセリングにおける戦略性と適応性
- メンタルヘルス専門家の不足から，ウェブが心理的サポートの主要な手段となっている。
- 既存のLLMベースのアプローチは，感情理解，適応戦略，長期記憶に課題がある。
- 一貫性のない対話によるリスクを軽減し，脆弱なユーザーを効果的に支援すること。
- TheraMindは，セッション内ループとセッション間ループの二重ループ構造を採用。
- セッション内ループは感情状態を認識し，セッション間ループは長期的な適応性を実現。
- シミュレーション環境での評価で，TheraMindはCoherence，Flexibility，Therapeutic Attunementにおいて他の手法を上回った。
Link: https://arxiv.org/abs/2510.25758
医療現場における感染症報告の過小報告を特定するためのフレーム意味パターン：ジェンダーに基づく暴力の場合 [cs.CL, cs.AI]目的：医療現場における感染症報告の過小報告を特定するための方法論
- 公衆衛生の監視は，人々の健康と福祉を守る上で不可欠である。
- ジェンダーに基づく暴力（GBV）の報告不足は，被害者の支援を遅らせる深刻な問題である。
- 電子カルテの自由記述文からGBVの報告を効率的に検出し，報告率向上に貢献すること。
- 本研究で提案するフレーム意味パターンを用いた方法論は，GBVの報告を高い精度（0.726）で識別できることが示された。
- この方法は，透明性，効率性，低負荷であり，言語に依存しないため，他の公衆衛生監視にも容易に適用可能である。
- 倫理的で説明可能な自然言語処理（NLP）の活用を促進し，公衆衛生システムの改善に貢献することが期待される。
Link: https://arxiv.org/abs/2510.26969
生成的なヒント [cs.RO, cs.CV, cs.AI]目的：入力分布における既知の関数的不変性を直接強制すること
- 画像認識において，モデルの汎化性能を高めるためにデータ拡張が広く用いられている。
- データ拡張は不変性を間接的に捉えるだけで，学習関数への明示的な制約とならない。
- データ拡張では捉えきれない不変性を，生成モデルを用いて直接学習することを目指す。
- 生成的なヒントは，標準的なデータ拡張と比較して，ファインチューングレインの画像分類ベンチマークで最大2.10％の精度向上を達成した。
- また，CheXpert医療画像データセットでは平均1.29％の精度向上を示した。
- この手法は，複数のデータセット，アーキテクチャ，不変性タイプ，損失関数に対して一貫して良好な結果を示している。
Link: https://arxiv.org/abs/2511.02933
SoilX：対照的クロスコンポーネント学習による校正不要な包括的土壌センシング [cs.CL, stat.ML, cs.IR, cs.LG]目的：精密農業における土壌水分と主要なマクロ栄養素の継続的かつ正確なモニタリング
- 精密農業の発展には，収量最適化と資源保護のための土壌状態の正確な把握が不可欠である。
- 既存のワイヤレス土壌センシングは，土壌テクスチャの変化により再校正が必要で，実用性に課題がある。
- SoilXは，土壌テクスチャや炭素の影響を受けない，校正不要なセンシングシステムの実現を目指す。
- SoilXは，土壌水分，窒素，リン，カリウム，炭素，アルミニウムの6要素を同時計測するシステムである。
- 対照的クロスコンポーネント学習（3CL）を用いることで，要素間の干渉を効果的に分離し，高い精度を実現した。
- 実験により，SoilXは既存手法と比較して推定誤差を23.8～31.5%削減し，未知の圃場への汎用性も確認された。
Link: https://arxiv.org/abs/2511.05482
分数階ニューラル拡散ネットワークによる適応的マルチビューグラフ対照学習 [cs.LG]目的：グラフ構造の表現学習
- グラフ構造データは，社会ネットワークや分子構造など幅広い分野で現れるため重要である。
- 従来のグラフ対照学習は固定されたビューに依存しており，多規模構造パターンを捉えきれないという課題がある。
- 分数階微分を用いることで，データに適応的に拡散スケールを調整し，多様な表現を獲得することを目指す。
- 本研究では，分数階連続ダイナミクスに基づいた新たなマルチビューグラフ対照学習フレームワークを提案した。
- 提案手法は，手動でのデータ拡張を必要とせず，多様かつ補完的な表現を自動的に学習できる。
- 標準的なベンチマーク実験により，提案手法が最先端のグラフ対照学習手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2511.06216
マルチエージェント討論による効率的なLLM安全評価 [cs.AI, cs.CR]目的：大規模言語モデルの安全評価手法
- LLMの普及に伴い，安全性確保が不可欠であり，信頼性の高い評価手法が求められている。
- LLMを評価者として用いる場合，高性能なモデルはコストが高く，大規模な評価が困難である。
- マルチエージェント討論により，低コストで信頼性の高い安全評価を実現することを試みる。
- 新たに人間がアノテーションした脱獄ベンチマーク「HAJailBench」を開発し，議論の有効性を検証した。
- 提示されたフレームワークは，小規模モデルによる評価や既存のマルチエージェント評価手法よりも性能が向上した。
- 少数の討論ラウンドで十分な効果が得られることが示され，スケーラブルな評価手法としての実用性が確認された。
Link: https://arxiv.org/abs/2511.06396
コントラスト対比配置損失による安全性維持PTQ [cs.AI]目的：効率的なLLMデプロイのためのPTQにおける安全性と性能の維持
- LLMの利用拡大に伴い，効率的な推論技術が不可欠である
- 従来のPTQは再構成誤差最小化に偏り，安全性維持の観点が不足している
- 安全性と性能を両立するPTQ手法を開発し，実用的なデプロイを実現する
- 本研究では，コントラスト対比配置損失(CAL)を導入したCAQを提案し，安全性と分布的忠実性の両立を目指した
- CAQは，安全性ファインチューニングされたモデルとの配置を近づけ，安全でない事前学習モデルとの乖離を促進する
- 実験により，CAQはLLaMA，Qwen，Mistralなどの多様なモデルにおいて，既存手法を上回る安全性と性能を両立することが示された
Link: https://arxiv.org/abs/2511.07842
機械学習モデルの長期的な持続可能性評価のための堅牢な手法 [cs.LG, cs.AI]目的：機械学習モデルの長期的な持続可能性の評価プロトコル
- AI開発において，持続可能性と効率性は不可欠であり，環境負荷の低減が求められている。
- Green AIに関する規制は存在するものの，モデルに依存しない標準化された評価プロトコルが不足している。
- 実世界の長期的なAIライフサイクルにおける環境影響を正確に評価する手法の確立。
- 従来の学習・テスト評価は，変化するデータセット下での持続可能性を正確に捉えられないことが示された。
- 長期的な機械学習ライフサイクルでは，環境コストの増加が必ずしも性能向上につながらない場合があることが示唆された。
- オンライン機械学習の概念に基づいた，インクリメンタルなモデル再学習による持続可能性評価プロトコルが提案された。
Link: https://arxiv.org/abs/2511.08120
体積エルゴード制御 [cs.RO, cs.AI]目的：空間分布における最適なカバレッジ行動の合成
- ロボットが効率的に環境を探索・操作する上で，カバレッジ性能は重要である。
- 従来のエルゴード制御はロボットを点として扱い，実際の体積を持つロボットの特性を考慮していない。
- ロボットの体積を考慮したエルゴード制御の定式化により，カバレッジ効率の向上を目指す。
- 本研究で提案する手法は，体積表現を用いることで，従来のエルゴード制御と同等のカバレッジ保証を維持しつつ，計算コストを最小限に抑える。
- シミュレーション実験の結果，提案手法は従来のエルゴード制御と比較して，カバレッジ効率を2倍以上向上させ，100%のタスク完了率を達成した。
- ロボットアームによる消去タスクにおいても，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2511.11533
ゲノムにおける次トークン予測モデルは，文脈内学習を行う [cs.LG, cs.AI, q-bio.GN]目的：文脈内学習の発生メカニズムの解明
- 言語モデルにおける文脈内学習能力は注目を集めている。そのメカニズムの理解は，AIの汎用性向上に不可欠である。
- 文脈内学習が，言語固有の統計的性質に起因すると考えられていた。他のデータ形式でも発生するか不明であった。
- 大規模予測学習のみで，言語以外のデータでも文脈内学習が自然発生するか検証する。
- ゲノム配列の予測モデルにおいても，文脈内学習によるパターン誘導能力の向上が確認された。
- この結果は，文脈内学習が言語に特有の現象ではなく，大規模予測学習の自然な結果であることを示唆する。
- 言語とゲノムという異なるデータ形式で文脈内学習が共通して観察されたことは，モダリティに依存しない統一的な理解への道を開く。
Link: https://arxiv.org/abs/2511.12797
Neighbor GRPO：コントラスト的ODE方策最適化がフローモデルを整合させる [cs.CL, cs.CV, cs.LG, eess.IV]目的：画像・動画生成モデルと人間の嗜好の整合
- 生成モデルの性能向上には，人間の意図との整合性が不可欠である。
- ODEを用いたフローマッチングモデルへのGRPO適用は困難であった。
- SDEを介さずに，ODEの特性を活かした効率的な整合手法を開発する。
- 本研究では，初期ノイズ条件を摂動させることで多様な候補軌跡を生成するNeighbor GRPOを提案した。
- 距離ベースの代替方策を用いることで，SDE変換の必要性を回避し，効率的な学習を実現した。
- 実験により，Neighbor GRPOがSDEベースの手法よりも学習コスト，収束速度，生成品質において優れていることが示された。
Link: https://arxiv.org/abs/2511.16955
拡散モデルの少数ステップ少数ショット画像生成のための統一的蒸留と適応 [cs.RO, cs.CV, cs.AI]目的：拡散モデルの蒸留と適応を統合した画像生成手法
- 拡散モデルは高品質な画像を生成するが，新しい領域への適応には計算コストが高いという課題がある。
- 既存の蒸留モデルは教師モデルの領域に限定され，未知の領域への高速かつ高品質な生成が困難である。
- 本研究は，拡散モデルの蒸留と適応を同時に行い，高速かつ高品質な画像生成を実現することを目的とする。
- Uni-DADは，ソース教師とターゲット教師の両方の分布に学生モデルを近づける蒸留損失と，ターゲット領域のリアリズムを高めるGAN損失を組み合わせる。
- ソース領域の知識を保持しつつ，GAN損失により過学習を抑制することで，少数ショット環境下でも安定した学習を可能にする。
- FSIGおよびSDPのベンチマークで最先端手法と同等またはそれ以上の性能を示し，特に少ないサンプリングステップ数で高品質な画像を生成する。
Link: https://arxiv.org/abs/2511.18281
SO-Bench：マルチモーダルLLMの構造化出力評価 [cs.CV, cs.AI, cs.CL, cs.RO]目的：マルチモーダルLLMにおける構造化出力の評価
- マルチモーダルLLMは現実世界で利用が増加しており，正確性だけでなく，データ構造への適合性も重要である。
- 視覚入力に対する構造化情報抽出・推論を体系的に評価するベンチマークが存在しなかった。
- 視覚入力に基づいた構造化出力能力の課題を明らかにし，改善策を探る。
- SO-Benchは，UIスクリーン，自然画像，ドキュメント，チャートを含む4つの視覚ドメインを網羅し，高品質な画像とスキーマのペアを1.8K組提供する。
- 実験の結果，既存のオープンソースおよびプロプライエタリモデルは，正確かつスキーマに準拠した出力を予測する上で課題が残ることが示された。
- 追加の学習実験により，モデルの構造化出力能力を大幅に向上させることができた。
Link: https://arxiv.org/abs/2511.21750
情報欠損下における確率的信念の整合：臨床推論におけるLLMの制御可能性 [cs.AI]目的：臨床推論におけるLLMの確率的信念の整合性
- 臨床推論は，患者の予後を左右するため，正確な確率的信念が不可欠である。
- 臨床データは欠損が多く，欠損パターン自体が重要な情報を含んでいる場合がある。
- LLMが情報欠損を適切に利用し，より正確な推論を行うことを目指す。
- LLMは，明示的な構造化制御や文脈内学習によって確率的整合性が向上する。
- しかし，LLMは慎重な介入なしには，情報欠損を自律的に利用しない。
- 対数損失の分散分析により，予測性能向上のメカニズムが明確になった。
Link: https://arxiv.org/abs/2512.00479
安全性が証明可能なモデル更新 [cs.LG, stat.ML]目的：モデル更新の安全性確保
- 安全性が重要な環境では，機械学習モデルの継続的な更新が不可欠である。
- モデル更新は，忘却やアラインメントのずれといった予期せぬ問題を引き起こす可能性がある。
- モデル更新時の安全性に関する形式的な保証を提供することを目指す。
- 提案手法は，与えられた仕様を満たすパラメータ空間内の最大の局所不変領域を計算する枠組みを提供する。
- 厳密な最大LID計算は困難だが，パラメータ化された抽象領域を用いることで現実的な解法が得られる。
- 実験結果から，提案手法はヒューリスティックな手法と同等以上の性能を発揮しつつ，安全性保証を提供する。
Link: https://arxiv.org/abs/2512.01899
ダイナミクスと価値観の整合性に基づくデータフィルタリングによる効率的なクロスドメインオフライン強化学習 [cs.LG]目的：クロスドメインオフライン強化学習におけるエージェントの性能向上
- 異なる環境間での知識転移は，限られたデータで効率的に学習する上で重要である。
- ソースドメインとターゲットドメインのダイナミクス不一致が性能低下の原因となる。
- ダイナミクスと価値観の両面から整合性の高いデータをフィルタリングすることで，性能向上を目指す。
- 提案手法DVDFは，ダイナミクスと価値観の両方で整合性の高いソースドメインサンプルを選択的に利用する。
- 様々なダイナミクスシフトシナリオにおいて，DVDFが既存手法を大幅に上回る性能を示した。
- 特に，ターゲットドメインのデータが極端に少ない場合でも，DVDFの有効性が確認された。
Link: https://arxiv.org/abs/2512.02435
段階的思考・批判：堅牢かつ解釈可能なLLM推論のための統合フレームワーク [cs.CL, cs.AI]目的：大規模言語モデルにおける推論能力の向上
- 複雑な問題を解決するには批判的思考が不可欠であり，その自動化はAIの性能向上に繋がる。
- 既存のLLMは推論と検証を分離しており，即時フィードバックの欠如やシステム複雑化が課題。
- 推論と自己批判を統合し，LLMに組み込みの批判的思考能力を付与することを目指す。
- 提案手法STCは，推論と自己批判をステップごとに繰り返すことで，堅牢な推論を可能にする。
- STCは，推論の正当性と自己評価の信頼性を同時に最適化するハイブリッド強化学習を用いる。
- 数学的推論ベンチマークにおいて，STCは高い批判的思考能力と解釈可能な推論痕跡を示した。
Link: https://arxiv.org/abs/2512.15662
ネットワーク型マルチエージェントシステムにおける適応的説明責任：大規模な創発的規範の追跡と緩和 [cs.MA, cs.AI]目的：大規模ネットワーク型マルチエージェントシステムにおける創発的規範の追跡と緩和
- 重要インフラを支えるシステムが増加しており，集団行動の安定性確保が不可欠である。
- 協調，資源の独占，不公平など，予期せぬ規範がシステムに現れる可能性がある。
- システムを正常な状態に導くための介入手法と，その有効性の検証を行う。
- 適応的説明責任フレームワーク(AAF)は，相互作用の記録，変化点の検出，責任の帰属，介入を可能にする。
- AAFは，介入コストが攻撃者の利回りを超える場合，有害な相互作用の割合を減らすことが保証される。
- シミュレーション実験により，AAFはベースラインと比較して，96%の状況で有害な行動を減らし，社会福祉を維持することが示された。
Link: https://arxiv.org/abs/2512.18561
LLMのRL学習におけるKL正則化：推定量のコメディ [cs.LG, cs.AI]目的：LLMのRL学習におけるKL正則化手法の挙動と性能への影響
- LLMの性能向上にはRLによる学習が有効だが，その効果を最大化するためには適切な正則化が必要である。
- KL正則化の推定方法には様々なものがあるが，それらの挙動や影響についての体系的な研究が不足していた。
- KL正則化における推定量の設計が，学習の安定性や性能に与える影響を明らかにすること。
- 既存のKL正則化手法では，意図した目的と実装の間に勾配のずれが生じることが示された。
- on-policy環境において，バイアスのない推定量を用いることで，in-domainおよびout-of-domainタスクにおいてより良い性能が得られることが確認された。
- off-policy環境では，KL正則化が非同期設定によるRL学習の安定化に役立つことが示された。
Link: https://arxiv.org/abs/2512.21852
二者間政策競争における純粋戦略ナッシュ均衡の計算：存在とアルゴリズム的アプローチ [cs.GT, cs.LG]目的：二者間政策競争における純粋戦略ナッシュ均衡の存在とその計算手法
- 政策決定は民主主義社会において重要なプロセスであり，選挙戦略や政策立案に不可欠である。
- 従来のゲーム理論では，現実の政策競争における有権者の選好や政策の不確実性を十分に考慮できていない。
- 有権者の選好と政策の不確実性を考慮した上で，ナッシュ均衡の存在と効率的な計算手法を確立すること。
- 投票シミュレーションを通じて，政策の支持獲得確率が効用総和に関して単調増加するという仮説が検証された。
- 一次元および多次元の両設定において，純粋戦略ナッシュ均衡の存在が数学的に証明された。
- 分散勾配法は近似的なナッシュ均衡に迅速に収束し，グリッド探索アルゴリズムは多項式時間で近似解を計算可能であることが示された。
Link: https://arxiv.org/abs/2512.22552
VL-RouterBench：Vision-Languageモデルルーティングのベンチマーク [cs.LG, cs.AI, cs.CL]目的：Vision-Languageモデルのルーティングシステムの総合的な能力評価
- マルチモーダル技術は発展を続け，その基盤となるルーティングの重要性が増している。
- 既存の評価方法は体系的ではなく，再現性が低いという課題があった。
- Vision-Languageモデルのルーティング性能を客観的に比較・評価するための基準を確立する。
- VL-RouterBenchは14のデータセットと17のモデルを網羅し，大規模な評価を実現した。
- 評価プロトコルは，精度，コスト，スループットを総合的に評価し，ルーティング性能を数値化した。
- 現状のルーティング手法には改善の余地があり，より高度なアーキテクチャ開発の必要性を示唆している。
Link: https://arxiv.org/abs/2512.23562
嗜好に基づく強化学習における特徴量依存性ノイズの評価 [cs.LG, cs.AI]目的：強化学習における嗜好に基づく学習における特徴量依存性ノイズの特性
- 複雑なタスクにおいて，報酬関数の設計が困難な場合に，嗜好に基づく学習は有効である。
- 既存研究では，ノイズの検出に焦点を当てていたが，ノイズの種類や観測との関連性が限定的であった。
- 観測の特徴量に依存するノイズをモデル化し，その影響を評価することで，よりロバストな学習を目指す。
- 特徴量依存性ノイズ下において，最先端のノイズ耐性PbRL手法の性能が大幅に低下する場合があることが示された。
- 明示的なノイズ除去を行わないPbRL手法が，多くの設定でノイズ耐性PbRL手法を上回る結果が得られた。
- 言語モデルが生成するノイズも特徴量依存性ノイズと同様の特性を示すことが確認され，現実的な人間からの学習における課題が示唆された。
Link: https://arxiv.org/abs/2601.01904
疫学質問応答のための大規模言語モデルのベンチマーク：EpiQAL [cs.CL, cs.CL, cs.AI]目的：疫学に関する質問応答における大規模言語モデルの性能評価
- 公衆衛生の向上には，疫学的な根拠に基づいた正確な判断が不可欠である。
- 既存の医療QAベンチマークは臨床知識に偏っており，疫学的な推論能力を評価するものが少ない。
- 大規模言語モデルの疫学的な推論能力の限界を明らかにし，改善の方向性を示す。
- EpiQALは，多様な疾患における疫学質問応答のための最初の診断ベンチマークである。
- 現在のLLMは疫学的な推論において限られた性能しか示さず，特に多段階推論が困難である。
- モデルの規模だけでなく，推論能力が疫学問題解決において重要であることが示唆された。
Link: https://arxiv.org/abs/2601.03471
CircuitLM：自然言語プロンプトから回路図を生成するマルチエージェントLLM支援設計フレームワーク [cs.CG, cs.CL, cs.AI, cs.CL, cs.SY, eess.SY]目的：自然言語プロンプトに基づく回路図生成のためのフレームワーク
- 電子設計自動化は，複雑化する回路設計の効率化に不可欠であり，自動化技術の進歩が求められている。
- 大規模言語モデルは幻覚を起こしやすく，物理的制約や機械可読性の問題があり，回路図生成への応用が困難であった。
- 自然言語から構造的に妥当な回路図を生成するための，検証と組み合わせた新しい手法を確立すること。
- 本研究では，回路部品知識ベースと五段階のパイプラインを用いて，大規模言語モデルの幻覚を抑制し，物理的に実現可能な回路図を生成するCircuitLMを提案した。
- 100の回路設計プロンプトに対する実験では，電気ルールチェックエンジンとLLMによる評価により，回路設計の誤りを厳密かつ多角的に評価した。
- 結果は，知識の検索と厳密な検証を組み合わせることで，自然言語から機械可読な回路図への橋渡しが可能であることを示唆している。
Link: https://arxiv.org/abs/2601.04505
ソフトウェアエンジニアリングのためのAI生産性指標：APEX-SWE [cs.CL, cs.CL, cs.SE, cs.AI, cs.CL]目的：ソフトウェアエンジニアリングにおける最先端AIモデルの経済的価値の評価
- ソフトウェア開発の効率化は，経済成長とイノベーションの鍵となる。
- 既存のAI評価は限定的なタスクに偏っており，現実世界の複雑な課題に対応できない。
- 現実的なソフトウェアエンジニアリングタスクにおけるAIモデルの能力を総合的に評価する。
- APEX-SWEは，統合タスクとオブザーバビリティタスクという2つの新規タスクタイプを用いて評価を行う。
- Claude Opus 4.6とClaude Opus 4.5がPass@1スコア38.5%で最高性能を示した。
- 高い性能は，仮定と検証済みの事実を区別する能力と，行動前の系統的な検証によって説明できる。
Link: https://arxiv.org/abs/2601.08806
GIFT：有限温度ギブス初期化によるポストトレーニング目的の調和 [eess.SY, cs.SY, cs.LG, cs.AI, cs.CL]目的：大規模推論モデルにおけるポストトレーニング目的の不整合の解消
- 大規模言語モデルの性能向上は，様々な応用において不可欠であり，その最適化手法は重要な研究課題である。
- 既存のポストトレーニング手法（SFTとRL）では，SFTによる分布の崩壊が，その後のRLにおける探索空間を制限する問題がある。
- 本研究は，SFTを再構築し，有限温度ギブス初期化(GIFT)を通じてポストトレーニング目的の整合性を高めることを目指す。
- GIFTは，従来のSFTや他の手法と比較して，RL初期化において大幅な性能向上を示すことが確認された。
- GIFTは，SFTにおける厳格な教師あり学習がもたらす分布の崩壊を抑制し，探索空間を維持する数学的に整合性の取れた手法を提供する。
- 本研究は，ポストトレーニングの二段階をより効果的に連携させ，モデルの性能を最大限に引き出すための新たな道筋を示す。
Link: https://arxiv.org/abs/2601.09233
PaperScout：プロセス認識型系列レベル方策最適化による学術論文検索の自律エージェント [cs.AI]目的：学術論文検索の自律化
- 科学研究において，論文検索は不可欠であり，効率的な検索手法が求められている。
- 従来の検索アプローチは，複雑な条件に対応できず，検索効率が低いという課題がある。
- 本研究は，動的な検索戦略により，より高度な論文検索を実現することを目的とする。
- PaperScoutは，従来の検索手法や強化学習ベースラインを大幅に上回る検索性能（適合率と再現率）を示した。
- 提案手法であるPSPOは，系列レベルでの最適化により，安定した学習を可能にした。
- 本研究は，適応的なエージェントフレームワークと最適化戦略の有効性を実証した。
Link: https://arxiv.org/abs/2601.10029