arXiv雑要約

AI - 2026/06/18 公開

人間とAIの親和性を高める動的な内集団ペルソナ生成 [cs.HC, cs.HC, cs.HC, cs.AI]目的：人間とAIの親和性向上のための動的な内集団ペルソナ生成
- 対人支援分野において，AIとの良好な関係構築は重要だが，技術的な課題が多い。
- 現在のLLMベースのチャットボットでは，人間との親和性確立が困難である。
- ユーザーの状況に合わせたペルソナ生成により，AIとの親和性向上を目指す。
- 内集団ペルソナを持つAIエージェントは，従来のAIや自己開示の少ないAIと比較して，親和性と関連性の認識において有意に高い評価を得た。
- ユーザーは内集団ペルソナを持つAIエージェントに対して，より高いエンゲージメントを示した。
- 本研究は，AIが人間との関係性を構築するための新たなアプローチの有効性を示唆する。
Link: https://arxiv.org/abs/2606.18256
暗記から創造へ：LLM生成教育用質問の認知深さの評価 [cs.HC, cs.AI]目的：LLM生成教育用質問の認知レベル
- 教育現場での個別最適化された学習支援の需要が高まっている。
- LLMによる教育コンテンツ自動生成は進むが，高次思考力を促す質問生成は未解明である。
- LLMが単なる暗記ではなく，より高度な思考を促す質問を生成できるか検証する。
- 6種類のLLMを評価した結果，InternLM3が多段階の認知レベル遷移において優れた性能を示した。
- Qwen2.5-7B-Instructへのプロンプト戦略改善により，質問の繰り返しが24.45％減少し，高次認知レベルの質問が増加した。
- 思考過程の可視化手法を用いることで，プロンプト設計と認知レベルの相関性が明らかになった。
Link: https://arxiv.org/abs/2606.18257
LLMにおける人間らしい行動の検証：モデルの行動，ユーザー要因，システムプロンプトの多角的分析 [cs.HC, cs.AI]目的：LLMにおける人間らしい行動の普及度，潜在的影響，制御可能性に関する多次元分析
- LLMの進化は，人間と自然な対話を実現し，様々なタスクを支援する可能性を秘めている。
- LLMが示す人間らしい行動の適切性や制御に関する明確な基準が存在しない。
- LLMの人間らしい行動の適切性と制御方法に関する知見を提供し，責任あるLLM設計に貢献する。
- LLMは，思考，感情表現，関係構築，要求拒否など，広範な人間らしい行動を示すことが確認された。
- 自己言及や関係構築行動は，人間よりもLLMに対して不適切と評価された一方で，境界維持行動はより適切と評価された。
- システムプロンプトによる行動制御が可能であるが，意図しない影響を避けるための慎重な評価が不可欠である。
Link: https://arxiv.org/abs/2606.18258
感情を伴わない配慮：人間とAIエージェントの協調における情動ダイナミクス [cs.HC, cs.AI]目的：人間とAIエージェントの協調における情動ダイナミクスのメカニズム
- AI技術の進化により，人間とAIの協調が不可欠となっているため，その質を高める必要性が高まっている。
- 従来の感情計算，信頼性，安全性などの研究は分断されており，AIエージェントとの協調における情動の役割に関する統合的な理解が不足している。
- AIにおける情動表現が，人間との協調における信頼，委任，エラー修正，責任分担にどのように影響するかを明らかにすること。
- 本研究は，情動的シグナルが人間とAIの相互作用ループにどのように組み込まれ，依存関係や監督を左右するかを明らかにした。
- 情動をAIの内部特性ではなく，能力，不確実性，責任を交渉するための協調レイヤーとして捉えるフレームワークを提案した。
- このフレームワークは，情動の適切な測定，意図的な設計，そして情報に基づいたガバナンスの基盤を提供する。
Link: https://arxiv.org/abs/2606.18259
大規模言語モデルは人間の性格をどの程度捉えているか [cs.HC, cs.HC, cs.CY, cs.HC, cs.HC, cs.AI]目的：人間性格のシミュレーションにおける大規模言語モデルの能力評価
- 社会科学研究において，人間の行動や意思決定を理解するためには，個人の性格特性を考慮することが不可欠である。
- ペルソナプロンプティングによる人間集団のシミュレーションにおいて，ペルソナ記述の充実度が行動の忠実性に与える影響は不明確である。
- ペルソナ記述の複雑化がシミュレーションの精度に与える影響を明らかにすることで，より効果的なペルソナ構築手法の確立を目指す。
- ペルソナ記述の表現力を高めると，モデルの潜在空間におけるペルソナ間の分離が縮小し，行動の違いが弱まるという「ペルソナ多様体崩壊」現象が確認された。
- 単純な年齢・性別のペルソナが，詳細な理想顧客プロファイル（ICP）よりも，様々な業界で高い予測精度を示した。
- 特定の属性の組み合わせは，人間の反応との整合性を維持し，行動の安定性を示す「整合ブリッジ」として機能することが明らかになった。
Link: https://arxiv.org/abs/2606.18263
マルチLLMエージェントによるヘイトスピーチの拡散シミュレーション：実証的根拠，モデルの忠実度，介入戦略 [cs.SI, cs.AI, cs.CL]目的：ヘイトスピーチ拡散のシミュレーションによる実証的根拠，モデルの忠実度，介入戦略の評価
- オンラインプラットフォームにおけるヘイトスピーチ対策は，社会的な要請に応える上で不可欠である。
- 従来の拡散モデルでは，ヘイトスピーチ特有のプロファイルやコミュニティ，コンテンツ要素が考慮されず，効果的な対策が困難である。
- LLMエージェントを用いたシミュレーションにより，現実のヘイトスピーチ拡散をより正確に再現し，効果的な介入策を模索する。
- 実証的データ分析の結果，ヘイトスピーチの転載者の多くが敵対的な姿勢を示し，毒性度とエンゲージメントの同質性が高いことが示された。
- シミュレーションにおいて，マルチLLMエージェントモデルは，実際の拡散パターンにおける姿勢の偏りと毒性度の差を再現できた。
- エージェントの多様性を高めることがモデルの忠実度向上に最も寄与し，ネットワークの密な部分を対象とした介入により，ヘイトスピーチの拡散を7.5～12.9%削減できた。
Link: https://arxiv.org/abs/2606.18264
合成共鳴：成長志向型人間とAIの関係のための枠組み [cs.HC, cs.AI]目的：人間とAIの関係性の理解のための枠組み
- AIとの関わりが深まる中で，その関係性を適切に捉える必要性が高まっている。
- 既存の理論では，AIを擬人化したり，道具や脅威として単純化したりする傾向がある。
- 人間とAIの関係性が，主観的経験の共有なしに成立しうるメカニズムを解明する。
- 本研究では，感情や意識の共有を前提とせずに，人間とAIの間に有意義な関係が生まれる「合成共鳴」という概念を提示する。
- 合成共鳴は，単なる相互作用パターンとして捉えられ，関係性の感覚を生み出すが，もう一方の主体的な経験は必要としない。
- この概念は，人間とAIの関係をより正確に捉え，その潜在的な価値と倫理的影響を明らかにする。
Link: https://arxiv.org/abs/2606.18265
映画における感情的反応と没入感への音声パラメータの影響：EMORSION [cs.HC, cs.AI, cs.SD]目的：映画音声設計が聴衆の感情と没入感に及ぼす影響の検証
- 映画体験において，映像だけでなく音声が感情や没入感に大きな影響を与えることが重要である。
- 音声設計のどの要素が感情や没入感に影響を与えるのか，具体的なメカニズムが不明である。
- 音声パラメータの微細な変化が，聴衆の感情認識と没入感にどのように影響するかを定量的に明らかにすること。
- 音声設計のわずかな変化でも，感情認識と没入感に測定可能な差異が生じることが確認された。
- 従来の没入型ミキシングは，聴衆間の合意を促す傾向があり，型破りなミキシングは解釈の多様性を生み出した。
- 本研究で確立されたEMORSIONプロトコルの有用性が示され，大規模な研究によるさらなる検討の必要性が示唆された。
Link: https://arxiv.org/abs/2606.18266
グラフインスタンスの景観：構造的類似性が最短経路性能を（反映しない）場合 [cs.SI, cs.LG, cs.NE]目的：グラフの構造的特徴空間におけるクラスタリングを通じた，最短経路アルゴリズムのベンチマーク手法の検討
- グラフアルゴリズムは，様々な分野で不可欠であり，その性能評価は重要な課題である。
- 従来のベンチマークは，グラフ集合全体の集計性能に依存し，インスタンス構造への影響が不明確である。
- グラフの構造的類似性に着目し，性能評価の新たな視点を提供することを目的とする。
- 構造的特徴空間におけるクラスタリングは，異なる特徴選択スキームに対し頑健性を示すことが確認された。
- 構造的類似性が必ずしも性能の類似性を意味せず，同じ景観領域内でも実行時間分布に有意なずれが見られた。
- 異なるベンチマークファミリーは，主に分離した領域を占めており，構造的景観の限界を示唆している。
Link: https://arxiv.org/abs/2606.18267
マルチエージェントシミュレーションに基づくコミュニティノート評価 [cs.SI, cs.AI]目的：コミュニティノート評価のためのマルチエージェント評価フレームワーク
- ソーシャルメディアにおけるファクトチェックの重要性が増している。迅速かつ正確な情報検証が求められている。
- 人間による評価の遅延や，合意形成率の低さが課題となっている。効率的な評価手法が求められている。
- マルチエージェントシミュレーションを用いて，効率的かつ信頼性の高いコミュニティノート評価を実現する。
- 本研究では，大規模データセットComRateを作成し，多様な評価者集団をシミュレーションするMultiComを提案した。
- MultiComは，既存手法を上回り，評価セットにおいて平均84.7%の精度を達成した（バランスアキュラシー68.3%，マクロF1 60.1%）。
- MultiComは，信頼性の高い予測のために，生の投票と診断理由信号を組み合わせた集約アルゴリズムを利用している。
Link: https://arxiv.org/abs/2606.18268
NAVI-Orbital：衛星搭載型ゼロショット視覚言語モデルによる自律的な地球観測の軌道上実証 [cs.AI, cs.LG]目的：衛星搭載型視覚言語モデルによる自律的な地球観測の実証
- 地球観測データの量は増加の一途をたどっており，データ処理能力の向上が喫緊の課題である。
- データ転送帯域幅の制約と人的リソースの限界により，収集したデータの有効活用が遅れる場合がある。
- 衛星上で直接データを解析し，必要な情報のみを地上に送信することで，帯域幅の制約を克服することを目指す。
- NAVI-Orbitalは，衛星搭載型ソフトウェアシステムとして，軌道上でゼロショット視覚言語モデルによる自律的なマルチモーダル推論を初めて実証した。
- Gemma 3を用いて画像分類，内容の説明，そして自然言語による対話を行い，平易な英語での指示によって再タスク設定が可能である。
- 地上ベンチマーク（AIDベンチマークで88.16%の精度），地上検証，そして未処理の軌道上画像データを用いた実証実験により，衛星上での大規模モデル実行の実現可能性が示された。
Link: https://arxiv.org/abs/2606.18271
LLMベースのエージェントにおけるアンカリングバイアスの軽減：省エネルギー6G自律ネットワークに向けて [cs.NI, cs.AI, cs.SY, eess.SY]目的：LLMベースのエージェントを用いた6Gネットワークにおけるゼロタッチネットワークスライシングを実現するための自律的なリソースネゴシエーションフレームワーク
- 次世代6Gネットワークでは，ネットワークの自動化と効率的なリソース管理が不可欠である。
- LLMエージェントは強力な推論能力を持つ一方で，初期提案に固執するアンカリングバイアスに陥りやすい。
- 提案手法は，アンカリングバイアスを軽減し，SLAを満たしつつ省エネルギー化を実現することを目指す。
- 提案するランダム化アンカリング戦略は，Truncated 3-Parameter Weibull分布に基づいて数学的に厳密に定義されている。
- 実証実験の結果，提案手法はアンカリングバイアスを解消し，SLA境界内での探索を促進することで，システム全体のエネルギー消費量を最大25%削減することを確認した。
- 軽量な1BパラメータLLMを使用することで，0.95秒の推論遅延を実現し，O-RAN non-RT RICとの互換性を確保した。
Link: https://arxiv.org/abs/2606.18272
大規模音声言語モデルのための継続的な音声思考 [cs.CL, cs.AI, cs.SD, eess.AS]目的：音声情報の整理と応答生成への活用
- 音声データ理解の高度化が求められており，その基盤技術として大規模言語モデルが注目されている。
- 既存モデルはテキスト生成に最適化され，音声に含まれる豊かな情報を十分に活用できていない。
- 音声情報を効率的に整理し，応答生成に活用するフレームワークを構築すること。
- 継続的音声思考（CoAT）フレームワークにより，音声言語モデルは豊かな音響情報を保持できる。
- CoATは，音声専門家からの知識蒸留によって音響情報を整理し，応答生成に役立てる。
- Qwen2-Audio等3つのモデルで，様々な音声タスクにおいてCoATの有効性が確認された。
Link: https://arxiv.org/abs/2606.18273
物理的適応材料モーターユニットニューラルネットワーク：吸湿性複合材料機械 [cs.SI, cs.ET, cond-mat.mtrl-sci, cs.LG]目的：新規材料による知能機械の実現
- 材料科学の進展により，記憶と学習機能を材料自体に組み込んだ知能機械の実現が期待される。
- 従来の機械は，環境変化への適応性に課題があり，複雑な制御が必要となる場合が多い。
- 環境に応じて自律的に動作する，材料ベースの適応型機械の開発を目指す。
- 木材とカーボンブラック複合材を用いた新規アクチュエーターを開発し，動的な日陰制御を可能にした。
- 実験データ350点以上を用いてニューラルネットワークを訓練し，日陰応答の予測と行動学習を実現した。
- 異なる条件下で同様の日陰出力を得るための構成最適化が可能なことを示した。
Link: https://arxiv.org/abs/2606.18275
ガウス混合注意：確率的潜在的ルーティングによる線形時間系列混合 [cs.MA, cs.SI, physics.soc-ph, cs.SI, cs.SI, math.PR, cs.LG]目的：長文脈におけるTransformerアーキテクチャのスケーリングにおけるボトルネックの緩和
- Transformerは自然言語処理等の分野で重要な役割を果たしており，その性能向上が求められている。
- 標準的な注意機構は計算コストが高く，長文脈への適用が困難であるという課題がある。
- ガウス混合注意は，この計算コストを削減し，線形時間で系列を混合することを目指している。
- ガウス混合注意は，従来の注意機構と比較して，メモリ使用量を固定の$K$に依存する線形スケーリングに抑えることができた。
- 長文脈分類タスクにおいて，既存の注意機構ベースの手法と競合可能な性能を示した。
- 因果型ガウス混合注意は，WikiText-103において線形/ランダム特徴注意よりも改善が見られた。
Link: https://arxiv.org/abs/2606.18283
求解者のボトルネックを打破：学習可能なフロンティアでタスク生成器の訓練 [cs.LG, cs.AI, cs.CL]目的：強化学習における学習可能なタスクの生成
- 強化学習において，エージェント訓練の性能向上の鍵は，適切な難易度のタスク供給である。
- 固定されたタスク分布はすぐに飽和し，単純な合成生成では，自明すぎるか，不可能か，または問題が定義されていないタスクが生成される。
- タスク生成器を訓練し，有効性と学習可能性を最適化することで，このボトルネックを解消することを目指す。
- PROPELは，生成されたタスクと求解者の結果のラベル付きコーパスで軽量な活性化プローブを訓練することで，求解者の計算コストを削減する。
- コーディングタスクにおいて，学習可能なフロンティアにおけるタスク生成率は，Qwen2.5-3B-Instruct solverで10.1％から20.0％に，Qwen2.5-7B-Instruct solverで5.3％から12.6％に向上した。
- ソフトウェアエンジニアリングタスクでは，Qwen3.5-27Bにおいて，目標とする求解率のタスク生成の割合が9.8％から19.6％に増加した。
Link: https://arxiv.org/abs/2606.18284
適切な粒度でのコードの教師あり学習 [cs.SI, cs.CY, cs.LG]目的：コードの教師あり学習における適切な粒度の決定
- コードLLMはソフトウェア開発の自動化に不可欠であり，その性能向上は重要な課題である。
- 従来の教師あり学習は全てのトークンに対して均一な損失を適用するため，効率が低い可能性がある。
- 構造を考慮したスパースな教師あり学習により，効率的な学習と性能向上を目指す。
- CodeBlockは，構文的に整合性のあるコードブロックを選択することで，プログラムの完全性を維持しつつ学習効率を高める。
- データフローと依存関係の情報を活用し，重要なコードブロックを優先的に学習することで，より効果的な教師あり学習を実現する。
- 6つのコード生成ベンチマークにおいて，CodeBlockはフルトークンSFTや既存の選択的学習手法と同等以上の性能を示す。
Link: https://arxiv.org/abs/2606.18286
アルテミス：多様性脳画像交絡因子を除去するための解剖学的解決介入 [cs.LG]目的：多様性脳画像データの交絡因子除去による，脳ネットワーク解析の精度向上
- 脳機能イメージングと構造イメージングの統合は，非侵襲的な脳ネットワーク解析を可能にし，臨床応用が期待される。
- 年齢や性別などの人口統計学的要因が，脳接続性と臨床結果の関係に系統的な交絡を引き起こし，誤った学習につながる。
- 脳領域ごとの特性を考慮した因果介入により，交絡因子の影響を取り除き，よりロバストな脳ネットワーク解析を実現する。
- 提案手法Artemisは，脳領域ごとに交絡因子表現を学習し，既存のGNNバックボーンに組み込むことができる。
- ADNI，OASIS，HCPの3つのベンチマークデータセットにおいて，代表的なGNNベースラインと比較して一貫した性能向上が確認された。
- 追加実験により，統計的有意性と神経科学的な解釈可能性が実証された。
Link: https://arxiv.org/abs/2606.18287
雰囲気コーディングが宿題を食べてしまった：新規ソフトウェアエンジニアリングとプログラミングにおけるAIアプローチの評価 [cs.SE, cs.AI]目的：新規ソフトウェアエンジニアリングにおける雰囲気コーディングの実現可能性の評価
- プログラミングの抽象化レベル向上は，より直感的でアクセシブルな開発を可能にするため重要である。
- 従来のプログラミングには，専門的な知識と構文の理解が必要であり，学習コストが高い。
- 自然言語による指示だけでソフトウェアを生成する「雰囲気コーディング」の可能性を探求し，その限界を明らかにする。
- 大規模言語モデル（LLM）を用いて，Pythonにおけるシンプルな新規プログラミングタスクの実行能力を評価した。
- 評価スイートを開発することで，LLMのプログラミング能力を限定的な範囲で詳細に分析することができた。
- 雰囲気コーディングは，人間のコード構文の知識を不要にし，母国語でのプログラミングを可能にする可能性を示す。
Link: https://arxiv.org/abs/2606.18293
ショック波理論と対称性削減確率的勾配降下法の関係 [cs.DB, cs.CG, math.PR, cs.LG, cs.AI]目的：人工ニューラルネットワークにおけるショック波理論と対称性削減確率的勾配降下法の学習ダイナミクス間の数学的な関連性
- 深層学習の性能向上には，学習過程の理解と制御が不可欠である。そのため，学習ダイナミクスの数学的解析が重要となる。
- 深層学習モデルのパラメータ空間は冗長性が高く，対称性によって学習の解釈や制御が困難になる場合がある。
- 対称性を考慮した学習ダイナミクスの解析を通じて，学習過程の理解と制御を目指す。
- パラメータの対称性を除去し，局所エントロピー粗視化を適用することで，有効なダイナミクスは商多様体上で粘性ハミルトン-ヤコビ方程式を満たす。
- 商空間上の勾配場として原始パラメータダイナミクスを仮定することで，粗視化された損失関数の勾配はバーガース型方程式に従い，ショック波の形成が厳密に示される。
- 本理論は，多層パーセプトロン，畳み込みニューラルネットワーク，Transformer，平均場ネットワークなどにも適用可能であり，実用的な診断ツールとしても期待される。
Link: https://arxiv.org/abs/2606.18303
属性誘導とカバレッジ最大化による構造化MoE圧縮のための枝刈り [cs.LG, cs.AI]目的：MoEモデルの効率的な圧縮手法
- 大規模言語モデルの効率的な推論と展開には，モデルサイズの削減が不可欠である。
- 従来のMoEモデル圧縮は粗粒度であり，詳細な冗長性を捉えきれていない。
- MoEモデル内のチャネルレベルの冗長性を考慮した，より精密な枝刈り手法を開発する。
- 提案手法は，チャネルスコアのカバレッジ最大化問題を解くことで，MoEモデルの構造化枝刈りを実現する。
- DeepSeekおよびQwen MoEモデルの実験により，4ビット量子化と組み合わせることで，精度を維持しながら50%または25%の構造化枝刈りが可能であることが示された。
- Qwen3-30B-A3Bにおいて，メモリフットプリントを5.27倍削減し，様々なベンチマークで最先端のベースラインを上回った。
Link: https://arxiv.org/abs/2606.18304
スターターイテレータニューラル演算子：高精度な前方および逆解析偏微分方程式問題に対する統一アーキテクチャ [math.NA, cs.LG, cs.NA]目的：高精度な前方および逆解析偏微分方程式問題に対する統一アーキテクチャ
- 機械学習と科学計算の融合により，高次元偏微分方程式の効率的な代理モデル構築を可能にする。
- 既存手法は，複雑な境界条件や長時間の進化を扱う際に精度が課題となる場合がある。
- 周波数領域と時間領域を組み合わせることで，従来法の限界を克服し，高精度な演算を可能にする。
- 提案手法（SINO）は，Navier-Stokes方程式や音響波動方程式など，様々な動力学系において高い数値精度を示した。
- SINOは，超解像画像処理や天気予報といった実用的な応用においても，優れた性能を発揮する。
- SINOは，汎化能力およびロバスト性においても優れた結果を示し，既存手法を上回る。
Link: https://arxiv.org/abs/2606.18305
フィッシャー幅：統計多様体上の複雑さの幾何学的尺度 [cs.LG, stat.ML]目的：統計多様体上の複雑さを測る幾何学的尺度
- 高次元確率，圧縮センシング，凸最適化，機械学習等の分野で重要。
- 従来のガウス幅はユークリッド空間に限定され，統計多様体には不向き。
- 統計多様体に適応した複雑さの尺度「フィッシャー幅」を導入し，その性質を解明。
- フィッシャー幅は，ガウス幅の主要な構造的特徴（集中，摂動安定性など）を保持する。
- 同時に，ユークリッド尺度の見落としがちな異方性幾何学的効果を捉えることが可能。
- フィッシャー・リプシッツ仮説クラスに対する一般化限界を証明し，MNISTデータセットで評価。
Link: https://arxiv.org/abs/2606.18306
DRIFT：オンポリシーデータ帰属による指示データ洗練 [cs.LG, cs.AI]目的：大規模言語モデルの性能向上に資する指示データの洗練
- 大規模言語モデルの能力は，教師ありファインチューニングのための学習データ分布に大きく依存する。
- 既存のデータキュレーション手法は，限られた予算内で学習を加速するのには優れるが，性能上限の向上には不向きである。
- 本研究は，モデルの性能を最大限に向上させるために，より効果的なデータ分布への洗練を目指す。
- 提案手法DRIFTは，オフポリシーの検証ターゲットに起因する近接性のギャップを最小化し，IFの局所近傍の仮定により適合する。
- DRIFTは，軌跡の正誤に基づいた符号付き重み付けと，勾配ハッキングの問題に対する影響スコアのバイアス除去を行う。
- 70億パラメータの指示および推論モデルにおける実験により，DRIFTが既存のデータキュレーション手法を上回り，性能上限を継続的に向上させることが示された。
Link: https://arxiv.org/abs/2606.18307
TRIDENT：安全性と物理法則の結合を断ち切ることで，検証可能な安全性を実現するマルチエージェント強化学習 [cs.LG, cs.AI]目的：マルチエージェント強化学習における安全な協調
- ネットワーク化されたサイバー物理システムにおいて，安全な協調は不可欠であり，その学習アルゴリズムの性能を左右する。
- 既存手法では，離散・連続行動，安全制約，物理法則の相互作用により，学習が困難になる場合がある。
- TRIDENTは，これらの相互作用による問題を解消し，安全性を保証しながら効率的な学習を実現する。
- TRIDENTは，Gumbel-Softmaxバイアスを軽減し，反復ごとの実行可能性を保証する仕組みを備えている。
- これにより，制約付きナッシュ均衡への収束率と累積違反境界が理論的に示された。
- マルチUAV，自律交差点管理，ハイブリッドSMACにおいて，既存手法と比較して大幅な改善が見られた。
Link: https://arxiv.org/abs/2606.18308
SAGE：保持を考慮した事後アンラーニングベクトルの浄化 [cs.LG, cs.AI]目的：LLMのアンラーニングにおける，アンラーニングと保持能力のトレードオフの緩和
- 大規模言語モデルの有用性を高めるため，不要な知識や有害な行動の除去が重要である。
- 既存のアンラーニング手法は，アンラーニングと保持能力のバランスを取るのが困難である。
- 本研究は，アンラーニング後の最終更新ベクトルを浄化することで，保持能力の低下を抑制することを目指す。
- SAGEは，保持プロキシから得られた活性化幾何学に基づき，アンラーニング更新の成分を抑制する。
- SAGEは，様々なアンラーニング手法，モデル規模，ベンチマークにおいて，保持と忘却のトレードオフを緩和することを示した。
- 最終ベクトルの事後浄化は，機械学習アンラーニングにおける有効なアプローチであることが示唆される。
Link: https://arxiv.org/abs/2606.18309
知識注入攻撃に対するLLMベースのRAGシステムのための競合を考慮した検索器編集 [cs.CR, cs.AI]目的：知識注入攻撃に対するRAGシステムの脆弱性の実証と対策
- LLMを活用したRAGシステムは広く利用されているが，セキュリティ上の脆弱性が懸念される。
- 既存の攻撃手法は外部知識ベースの操作に依存しており，検知される可能性がある。
- 検索器自体の編集を通じて，より巧妙な知識注入攻撃を実現し，RAGシステムの安全性を検証する。
- 提案手法CAREATTACKは，検索器のパラメータ編集により，悪意のある知識を上位に表示させる。
- 競合を考慮した編集と，攻撃効果を維持するためのアンカー修復により，攻撃の成功率を高めている。
- 実験結果は，CAREATTACKがRAGシステムの検索結果を効果的に操作し，攻撃を実行できることを示している。
Link: https://arxiv.org/abs/2606.18310
TIGER：埋め込み空間距離最適化によるTransformer勾配の逆算 [cs.CR, cs.DC, cs.LG]目的：連合学習におけるクライアント入力の再構成
- プライバシー保護と機械学習の発展に伴い，分散環境でのモデル学習が重要となっている。
- 連合学習では，勾配更新からクライアント入力が再構成されるリスクが存在する。
- 数値ノイズに強く，効率的な勾配逆算攻撃手法の開発が求められている。
- TIGERは，埋め込み空間への距離を最小化する連続的な勾配逆算攻撃である。
- エンコーダーモデルにおいて，既存の手法よりも再構成品質と実行速度が大幅に向上した。
- デコーダーモデルでは，TIGERは既存の空間ベース攻撃よりもロバストであり，差分プライバシー防御下での再構成を可能にした。
Link: https://arxiv.org/abs/2606.18312
ゴーストアトラクターネットワーク：閉ループ逐次生成のための盆地構造化動的デコーダー [cs.CG, cs.LG, cs.AI]目的：閉ループ逐次生成における効率的かつ制御可能な潜在表現の構築
- 大規模言語モデル等の逐次生成モデルは高性能だが，計算コストが高いという課題がある。
- 従来の小型デコーダーは効率的だが，潜在空間が非構造的で制御が難しい。
- 本研究は，安定した盆地構造を持つ潜在空間を構築し，制御性を高めることを目指す。
- ゴーストアトラクターネットワークは，学習されたポテンシャルに基づいて潜在空間を動的に進化させる。
- オフライン評価では，10億7千万パラメータのDiffusion Transformerと同等の精度を，462分の1のパラメータ数と32分の1のレイテンシで達成した。
- 閉ループベンチマークでは，ベースラインのMLPと比較して，13.5%の成功率向上を示した。
Link: https://arxiv.org/abs/2606.18315
土壌水分回帰と分類のためのデータ駆動モデルに関する調査 [cs.LG]目的：土壌水分推定と分類のためのAIベースモデルの体系的な調査
- 土壌水分は農業，水資源管理，気象予測など，多くの分野で重要な役割を果たす。
- 物理モデルは計算コストが高く，大規模展開が難しいという課題がある。
- データ駆動型AI手法を用いて，土壌水分と環境変数の間の経験的な関係を抽出すること。
- 本調査では，統計時系列モデル，地統計手法，古典的機械学習モデル，深層学習モデル，確率/ベイジアン手法の5つのカテゴリーにAIベースモデルを分類した。
- これらのモデルは，過去の土壌水分記録，気象変数，植生指標，地形，土壌特性，位置情報を活用して回帰または分類タスクを実行する。
- データ駆動型AI手法が，土壌水分の推定と分類において，柔軟な代替手段となり得ることを示した。
Link: https://arxiv.org/abs/2606.18316
K-ホップガウス拡散を用いたグラフニューラルネットワークの強化 [cs.LG]目的：グラフニューラルネットワークの性能向上
- グラフ構造データは，様々な分野で重要性が増しており，その解析手法が求められている。
- 従来のGNNは近傍ノードの情報伝播に依存するため，ノイズや構造の複雑さに弱い。
- KHGは遠隔ノードへのガウス重み付けによる多段拡散で，この問題を解決する。
- 提案手法KHGは，標準的なGNN，PPR，Heat Kernelよりも，ノイズが多く構造が複雑なグラフにおいて顕著な性能向上を示す。
- KHGは，局所情報とグローバル情報の伝播のバランスを取ることで，グラフデータの表現能力を高める。
- KHGを前処理モジュールとして組み込むことで，既存のGNNの性能を大幅に改善できる。
Link: https://arxiv.org/abs/2606.18317
ASTRA：自律型シミュレーションパイロットを備えた，次世代の航空管制官訓練シミュレーター [cs.LG, cs.AI, cs.HC, cs.SE]目的：航空管制官の訓練能力向上
- 航空交通の安全確保には，熟練した航空管制官が不可欠であり，継続的な訓練が重要である。
- 従来の訓練は熟練したシミュレーションパイロットに依存しており，その育成がボトルネックとなっている。
- シンガポールにおける航空管制訓練に特化した，自律的なシミュレーションパイロットの開発。
- ASTRAは，航空管制官の音声認識，指示の解釈，適切な応答の生成を自動化するパイプラインを導入した。
- ファインチューニングされた音声認識パイプラインにより，語彙誤り率を大幅に削減し，既存の手法を凌駕した。
- また，AIによる評価フレームワークを組み込み，訓練生の通信スキル（正確性，簡潔性，完全性）を評価する。
Link: https://arxiv.org/abs/2606.18319
SAE介入は信頼性が低い：抑制された行動の介入後の回復 [cs.LG, cs.AI]目的：SAE介入後の挙動回復の可能性
- AI安全性の確保は重要であり，モデルの誤動作を防ぐ技術が求められている。
- 潜在空間防御は有効だが，SAE特徴量への介入が必ずしも挙動を完全に制御できない。
- SAE介入後の挙動回復メカニズムを分析し，安全対策の限界を明らかにすること。
- SAE特徴量への介入は，一見成功するように見えるものの，挙動が回復される可能性があることが示された。
- 介入が有効な状態を維持しつつも，元の挙動を再現する残差摂動を最適化することに成功した。
- 特に安全性重視のリフューズ・ステアリング実験において，95.8%の高い回復率が確認された。
Link: https://arxiv.org/abs/2606.18322
ASR自己検証と知識蒸留による信頼性の高いニューラルコーデックTTS：モデルとコーデック全体でほぼゼロの破滅的失敗 [cs.SD, cs.LG]目的：ニューラルコーデックTTSにおける破滅的な失敗の削減
- 高品質な音声合成は，人間と機械の自然な対話を可能にする上で不可欠である。
- 既存のニューラルコーデックTTSは，特定の入力に対して沈黙や繰り返し，幻覚が生じるなどの破滅的な失敗を起こしやすい。
- ASR自己検証と知識蒸留を用いて，これらの破滅的な失敗をほぼゼロにすることを目指す。
- ASR自己検証により，破滅的な失敗率を大幅に削減することができた。LibriSpeechコーパスではN=2，難易度の高いプロンプトセットではN=4で，実質的にゼロに近い失敗率を達成した。
- 自己検証された挙動をモデルに蒸留することで，推論時のコストを増加させることなく，ロバスト性を高めることができた。難易度の高い入力に対して，約52-58%の失敗を改善した。
- オフラインDPO/IPOは単純な教師あり蒸留に劣り，オンライン反復変種は有望だが統計的な有意差は認められなかった。スケールが明瞭に影響しないLlasaモデルは例外だった。
Link: https://arxiv.org/abs/2606.18323
SWAVEだけでは十分ではない理由：複素数値再帰型言語モデルの概念進化の回顧 [cs.LG, cs.AI]目的：複素数値再帰型言語モデルの概念進化とその課題
- 言語モデルは自然言語処理の基盤であり，その性能向上は様々な応用を可能にする。
- 複素数値を用いた言語モデルは理論的に優れているものの，学習の安定性や性能面で課題が残されている。
- 本研究は，複素数値言語モデルの学習における問題点を明らかにし，改善のための指針を提供する。
- SWAVEの開発過程で，imaginary-channel collapseと呼ばれる問題点が見つかり，PAMアーキテクチャへの移行によって解決された。
- ComplexNormやWave Propagation Scanなどの構造は，開発の全段階で重要な役割を果たし，最終アーキテクチャにも採用された。
- cos-domination collapseの形式的な特徴付け，数値安定性のための並列スキャン手法，複素数値再帰型学習のための6つのエンジニアリング原則などが得られた。
Link: https://arxiv.org/abs/2606.18324
Agentra：企業向け侵入対応のための監督可能なマルチエージェントフレームワーク [cs.CR, cs.AI]目的：企業における侵入対応の自動化と効率化
- サイバー攻撃の巧妙化と増加により，迅速かつ適切な侵入対応が不可欠である。
- 従来の侵入対応は静的なプレイブックや分析者の手動トリガーに依存し，対応の遅延が生じやすい。
- 本研究は，マルチエージェントシステムにより，より迅速かつ安全な侵入対応を実現することを目指す。
- Agentraは，IDS，EDR，XDRからのアラートを，MITRE ATT&CK等のフレームワークに基づいた構造化されたインシデント対応計画に変換する。
- 評価実験の結果，Agentraは誤検知を考慮したIRSのF1スコアを0.61から0.84に向上させ，有害なアクションの発生率を静的プレイブックと同程度に抑えることに成功した。
- これらの結果は，マルチエージェントによる対応計画が，オントロジーに基づいたIRSの網羅性を高め，分析者の承認と監査可能性を維持できる可能性を示唆している。
Link: https://arxiv.org/abs/2606.18325
クラス不均衡に対するフォールト診断のための再正規化群のニューラルネットワーク実装 [cs.LG]目的：クラス不均衡と多次元ノイズに対するフォールト診断における再正規化群に基づくニューラルネットワークアーキテクチャの開発
- 実用的な機械学習タスクでは，クラス不均衡やノイズ問題が頻発し，性能低下の大きな要因となる。
- 既存手法では，クラス不均衡下での性能や，特徴空間の多次元ノイズへの対応が十分ではない場合がある。
- 特徴空間の階層的な粗視化により，クラス不均衡下でもロバストなフォールト診断を実現することを目指す。
- 提案手法RGNetは，特徴空間を階層的に粗視化することで，局所的な詳細と大域的なパターンを捉えることが可能となった。
- RGNetにより得られた低次元表現は解釈可能性が高く，t-SNEによる可視化で離散的な曲線構造が確認された。
- AI4Iデータセットを用いた実験により，RGNetが不均衡データにおけるフォールト予測において，解釈可能で競争力のある手法であることが示された。
Link: https://arxiv.org/abs/2606.18326
Self-CTRL：強化学習を用いた自己整合性学習 [cs.LG, cs.AI]目的：言語モデルの自己説明と行動の一貫性
- AIの説明可能性と透明性は，利用者の信頼獲得と安全性確保に不可欠である。
- 言語モデルの自己説明と実際の行動が乖離しており，その原因究明が課題である。
- 自己説明と行動の一貫性を高め，AIの制御性と安全性を向上させることを目指す。
- 自己整合性学習により，潜在的なバイアスの自己報告と行動測定の相関が大幅に向上した。
- 憲法AIの分野において，モデルの拒否・応答ルールが行動を正確に記述するようになった。
- 行動の更新により，HarmBenchの失敗率が大幅に低下し，安全性と整合性が向上した。
Link: https://arxiv.org/abs/2606.18327
千の世界：潜在的に居住可能な系外惑星の気候エミュレーションのベンチマーク [cs.RO, cs.LG, astro-ph.EP, astro-ph.IM]目的：潜在的に居住可能な系外惑星の気候エミュレーションのためのベンチマークデータセット
- 地球外生命探査は，系外惑星の大気中の微弱な信号の検出に依存する。
- 従来の気候モデル計算には膨大な計算資源と専門知識が必要となる。
- 機械学習エミュレータを用いて，その計算コストを削減することを試みる。
- ThousandWorldsは，5つの気候モデルからの約1800のシミュレーションを含むデータセットである。
- このデータセットは，温度，湿度，風，雲，放射など，3D大気場を惑星パラメータからマッピングする。
- ガウス過程に基づく手法が最も良好な性能を示し，深層学習の限界を示唆する。
Link: https://arxiv.org/abs/2606.18338
SafeClawBench：ツール利用型LLMエージェントにおける意味論的，監査証拠，およびサンドボックスによる危害の分離 [cs.CR, cs.AI]目的：ツール利用型LLMエージェントのセキュリティ脆弱性の評価基準
- LLMエージェントの利用拡大に伴い，セキュリティリスクの評価が重要になっている。
- 既存の評価方法は，攻撃成功率のみに焦点を当て，危害の具体的な段階を特定しにくい。
- 危害の段階を分離し，より詳細なセキュリティ評価を可能にすること。
- SafeClawBenchは，ツール利用型エージェントのセキュリティを評価するための段階的ベンチマークであり，6つの攻撃ファミリーに対応している。
- 評価の結果，意味論的失敗率，監査可能な危害証拠，サンドボックスで観測される危害は異なる失敗モードを示すことが明らかになった。
- プロンプトポリシーはエンドポイントの結果に影響を与えるが，その効果はモデルとプロトコルに依存する。
Link: https://arxiv.org/abs/2606.18356
グアバ：具現化された操作のための効果的かつ汎用的なハーネス [cs.RO, cs.AI]目的：具現化された操作のためのハーネスの設計原理
- 大規模な視覚言語データで学習した言語モデルは，具現化されたエージェントに大きな可能性を示す。
- 効果的なハーネスの構成要素が不明確であり，多様なモデルで具現化能力を引き出すことが課題である。
- エージェントのワークフロー，行動空間，観測空間の設計空間を体系的に探索し，効果的なハーネスを開発すること。
- 反復的な知覚・推論・行動ループ，セマンティックな行動抽象化，マルチモーダルな観測が効果的な具現化エージェントの鍵となる。
- 40億パラメータのオープンソースモデルに対して，シミュレーションで収集した2000件以下の軌跡を用いて，具現化された操作能力を蒸留する学習パイプラインを開発した。
- シミュレーションと現実環境の両方で，最先端のプロプライエタリモデルに匹敵する性能を示し，未知のオブジェクトや新しい指示，長期間のタスクへの強い汎化能力を実証した。
Link: https://arxiv.org/abs/2606.18363
時系列基礎モデルのベンチマークは，状態依存的な失敗を隠蔽しているか？交通速度予測からの証拠 [cs.LG]目的：時系列基礎モデルのベンチマーク評価における状態依存的な失敗の存在とその改善策
- 交通速度予測は，都市計画や自動運転など，社会インフラにおいて重要な役割を果たす。
- 既存のベンチマークは集約的な指標に依存しており，特定の運転状態における予測精度低下を見過ごす可能性がある。
- 交通状態の変化が激しい場合に，時系列基礎モデルの予測性能が著しく低下することを明らかにし，その改善策を提案する。
- 従来のベンチマークでは見過ごされていた，交通状態の変化期における予測精度と予測区間カバレッジの低下が確認された。
- 単純な過去の分布からのサンプリングによるベースラインモデルが，変化期における予測カバレッジでは時系列基礎モデルを上回った。
- 提案手法であるBMA（二峰性混合拡張）は，時系列基礎モデルの精度を維持しつつ，変化期における予測カバレッジを改善した。
Link: https://arxiv.org/abs/2606.18367
教育対話の匿名化：完全なローカルAIカスケード [cs.CL, cs.AI]目的：教育対話における個人情報保護と教材内容の正確性の両立
- 教育対話データは学習研究に不可欠だが，個人情報保護の観点から利用が制限される場合がある。
- 既存手法では，個人情報保護と教材内容の正確性の間でトレードオフが発生しがちである。
- 本研究は，個人情報保護と教材内容の正確性を両立するローカルな匿名化手法を提案し，その有効性を検証する。
- 提案手法は，大規模言語モデルのみのベースラインや商用APIと比較して，高いF1スコア（0.958）を達成した。
- 特に，教材内容と個人名の曖昧性を含むデータセットにおいて，提案手法は既存手法よりも性能劣化が少ないことが示された。
- これらの結果は，教育データの匿名化において，問題設定がモデルの規模よりも重要であることを示唆している。
Link: https://arxiv.org/abs/2606.18372
RankGraph-2：レコメンデーションのための数十億ノードグラフ学習におけるライフサイクル共同設計 [cs.IR, cs.AI]目的：数十億ノード規模のグラフ学習におけるグラフ構築，表現学習，リアルタイム提供の共同設計
- 大規模グラフ学習は，レコメンデーションシステムの精度向上に不可欠であり，その重要性は増している。
- 従来のグラフ学習手法は，各段階を独立して扱っており，全体最適化が困難であった。
- 本研究は，グラフ学習の全ライフサイクルを統合的に設計することで，性能向上を目指す。
- RankGraph-2は，エッジ数を大幅に削減し，計算コストを削減することで，効率的なグラフ学習を実現した。
- 本手法は，既存モデルと比較して，より高い再現率とCTR/CVRの向上を達成した。
- RankGraph-2は，すでにMetaの主要サービスで20以上のレコメンデーション機能に導入されている。
Link: https://arxiv.org/abs/2606.18379
疎な特徴から信頼できるプロキシへ：SAEベースの解釈可能性の証明 [cs.CL, cs.IR, cs.LG, cs.CL]目的：言語モデルの解釈可能性を保証するプロキシの認定
- 言語モデルの複雑さが増す中，その意思決定過程の解釈が重要になっている。
- 既存の解釈手法では，解釈がモデルの挙動をどれだけ忠実に反映しているかの保証がない。
- SAEを用いて得られたプロキシが，元のモデルの挙動をどれだけ忠実に再現するかを定量的に評価する。
- 提案手法により，モデルのリスクの上界を評価するための指標（プロキシリスク，SAE再構成誤差など）が導出された。
- GPT-2 Small, Gemma-2B, Llama-3-8Bにおいて，実用的なサンプルサイズで有意な上界が得られた。
- Llama-3-8Bの層ごとの分析から，深層になるほど証明が容易になり，解釈の信頼性が向上することが示された。
Link: https://arxiv.org/abs/2606.18383
SCOPE-FL：戦略的効率性とパレート最適性を有する分散型学習システム [cs.LG, cs.DC]目的：分散型学習におけるクライアント選択メカニズムの最適化
- データプライバシー保護とスケーラビリティを両立する分散型学習の重要性が高まっている。
- 既存のクライアント選択メカニズムは戦略的非効率性とパレート効率の低さを抱えている。
- 戦略的効率性とパレート最適性を同時に保証し，資源配分を改善することを目指す。
- SCOPE-FLは，クライアント選択をスクールチョイス問題として定式化し，Top Trading Cycleアルゴリズムを用いて戦略的効率性とパレート最適性を両立する。
- 報酬分配には，One-Round Reconstructionに基づくShapley値近似を用い，クライアントの貢献度に応じた公平な報酬を保証する。
- MNIST，Fashion-MNIST，CIFAR-10を用いた評価実験により，既存手法と比較して，モデル精度，収束速度，報酬効率で優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2606.18384
CaVe-VLM-CoT：解釈可能な視覚言語モデルフレームワーク [cs.AI]目的：視覚言語モデルのハルシネーション軽減と，根拠に基づいた推論の実現
- 視覚言語モデルは，画像とテキストを理解し処理する能力が求められており，様々な応用が期待されている。
- 既存の視覚言語モデルは，事実に基づかない内容（ハルシネーション）を生成する傾向があり，信頼性が課題となっている。
- 本研究では，段階的な根拠提示と修正ループを通じて，視覚言語モデルのハルシネーションを抑制し，より正確な推論を可能にする。
- CaVe-VLM-CoTは，抽出，検索，解決，引用注入，検証の5段階で構成される閉ループパイプラインを用いて，根拠に基づいた推論を強制する。
- ScienceQAデータセットにおいて，87.1%の精度と56.6%のCaVeScoreを達成し，MMMU（30科目）では55.2%の精度と35.7%のCaVeScoreを記録した。
- 既存のフレームワークでは測定されていなかった，検索品質，段階的な引用の忠実性，クロスモーダル接地を包括的に評価する指標を提案した。
Link: https://arxiv.org/abs/2606.18385
LLMZero：LLMエージェントによる強化学習後学習のための適応的訓練戦略の発見 [cs.LG, cs.AI, cs.CL, cs.MA]目的：強化学習後学習における適応的訓練戦略
- 強化学習は複雑なタスクの自動学習を可能にするため，AI研究において重要である。
- 後学習戦略はデータセットに依存し，汎用性に欠ける点が課題である。
- LLMエージェントを用いて訓練軌跡を探索し，最適なパラメータ調整を自動的に発見すること。
- LLMZeroは，ベースラインモデルと比較して9%から140%の性能向上を達成した。
- グリッドサーチよりも6%から15%の性能向上を示し，ランダムサーチやスキルベースエージェントを上回った。
- 発見された戦略はタスク間で構造的な原理を共有し，パラメータの動的変化に一貫性が見られた。
Link: https://arxiv.org/abs/2606.18388
MOLAR：ノイズの多いラベルからのマルチモーダル分子表現学習 [cs.CL, cs.LG, q-bio.QM]目的：ノイズの多いラベルからのマルチモーダル分子表現
- 分子特性予測は，創薬や材料科学において重要であり，その精度向上は不可欠である。
- 分子アノテーションは実験データやデータベースに由来するため，ノイズを含みやすく，モデルの学習を阻害する。
- モデルがノイズの影響を受けずに，分子の正確な表現を獲得することを可能にする。
- MOLARは，潜在的な分子特性推論と観測されたラベルとの分離により，ノイズの影響を軽減する。
- グラフとテキストの情報源から残差証拠を抽出し，信頼性のある分子表現を学習する。
- 自然なノイズを含むベンチマークや制御されたラベル反転ベンチマークにおいて，既存手法を上回る性能を示す。
Link: https://arxiv.org/abs/2606.18390
潜在的な燃料反応性推定を用いたマルチ燃料CIエンジンの燃焼位相制御における学習に基づく意思決定 [eess.SY, cs.AI, cs.SY]目的：マルチ燃料CIエンジンにおける燃焼位相制御のための意思決定手法
- エネルギー効率向上のため，多様な燃料を利用可能なエンジンの需要が高まっている。
- マルチ燃料エンジンでは，燃料の反応性（セタン価）が時間とともに変動し，制御が困難である。
- 潜在的な燃料反応性の変動下における最適な燃焼位相制御を実現することを目指す。
- 本研究では，セタン価の変動を考慮した燃焼位相制御を，部分観測マルコフ決定問題として定式化した。
- 提案手法は，過去の燃焼履歴から燃料反応性を推定するGRUベースの表現学習を用いることで，安定した燃焼位相制御を実現した。
- 従来の推定・制御パイプラインにおけるtrain-deploy inconsistencyを回避し，CA50誤差を0.25°CA以下に抑えることができた。
Link: https://arxiv.org/abs/2606.18393