arXiv雑要約

AI - 2026/06/15 公開

オープンショップスケジューリング問題に対する深層強化学習に基づくTransformer法 [cs.AI, cs.LG]目的：オープンショップスケジューリング問題に対するTransformerベースのスケジューリングポリシーの開発
- 製造業やサービス業で頻発するスケジューリングは，効率的な資源配分に不可欠であり，生産性向上に貢献する。
- 問題規模の拡大に伴い，厳密解法は計算困難となり，古典的な手法は調整が煩雑で，品質維持が課題となる。
- 小規模インスタンスで学習したTransformerポリシーを大規模問題へ適用し，汎化性能を検証すること。
- Transformerポリシーは，Taillardのベンチマークインスタンスにおいて，最適解の15-30%以内のmakespanで実行可能なスケジュールを生成した。
- 40x40から100x100のランダム生成インスタンスに対し，標準的な下界値との比較で12.89-15.12%の平均ギャップを示した。
- Transformerは，既存手法であるESTと同等の性能を維持しつつ，SPTやLPTを大幅に上回る結果となった。
Link: https://arxiv.org/abs/2606.13682
ユーザプロファイルに基づくネストロールアウトポリシー適応：目標指向型対話システムにおける大規模言語モデルのプランニング [cs.AI, cs.CL]目的：目標指向型対話システムにおけるプランニングのためのユーザプロファイルに基づくネストロールアウトポリシー適応
- 対話システムは人間との自然なコミュニケーションを実現する上で不可欠であり，その性能向上は重要な課題である。
- 既存の対話ポリシー計画手法は，多様なユーザ特性への動的な適応が困難であり，汎用性に課題がある。
- ユーザプロファイルに基づいて対話戦略を動的に適応させ，ユーザ特性に合わせた対話を実現することを目指す。
- UP-NRPAは，大規模言語モデルを活用したオンラインフレームワークであり，リアルタイムなユーザフィードバックを活用することで，オフラインでの強化学習を必要とせずに適応する。
- 共同および非共同対話ベンチマークにおいて，UP-NRPAは顕著な効果を示し，複数の対話タスクで100%の成功率を達成した。
- 特に交渉タスクにおいては，リスト価格に対する販売比率（SL）が56.41%向上し，多様なユーザニーズへの適応能力が確認された。
Link: https://arxiv.org/abs/2606.13683
クロスデータセットにおけるブルーム分類問題：教師ありモデルとプロンプトによるLLM [cs.CY, cs.AI, cs.CL, cs.LG]目的：評価問題のブルーム分類の自動化
- 教育評価における質の向上は重要であり，分類はその基盤となる。
- データセット固有の性能は高いが，汎用性が不明確であった。
- 異なるデータセット間での分類性能を向上させること。
- 既存の機械学習モデルは未知のデータセットで性能が低下した。
- LLMは，プロンプト戦略によって安定した性能を示した。
- 最適なプロンプトを用いたUIは，教員の負担軽減に貢献する。
Link: https://arxiv.org/abs/2606.13684
LLMを裁判官とする評価の信頼性とバイアス：コイン投げの判決？ [cs.CL, cs.AI]目的：LLMを裁判官とする評価の信頼性とバイアスに関する調査
- LLMを用いた評価は，モデルの性能比較や報酬モデルの学習に不可欠である。
- LLMの評価結果は実行ごとに変動し，その信頼性が十分に検証されていない。
- LLM評価のノイズを定量化し，より信頼性の高い評価方法を提案する。
- 同一評価の繰り返しにおいて，平均13.6%の確率で選択が反転し，タスクによっては56%に達した。
- GPT-4o-miniは，提示順序によるバイアスが顕著で，Aの選択が72%を占めた (p = 0.024)。
- LLMの単独評価はノイズが多く，複数回の集約，位置のランダム化，不確実性の明示が推奨される。
Link: https://arxiv.org/abs/2606.13685
自律的な文脈認識データ品質評価のためのエージェント的検索フレームワーク [cs.CL, cs.CY, cs.HC, cs.CY, cs.CY, cs.CY, cs.CL, cs.CY, cs.CL, cs.DB, cs.AI]目的：データ品質評価の自動化
- データ分析や意思決定において，データ品質は不可欠であり，その重要性はますます高まっている。
- 既存手法は静的なルールや手動評価に依存し，多様な利用状況への適応や自動化が困難である。
- 本研究は，データ利用意図に基づいた文脈に応じたデータ品質評価の自動化を目指す。
- 提案フレームワークは，自然言語によるデータ利用記述を解釈し，文脈を考慮した評価戦略と実行可能な検証ロジックを生成する。
- 実行可能性検証段階を導入することで，生成された評価仕様の現実性と実行可能性を評価し，反復的な改善を可能にする。
- 複数の利用シナリオでの評価により，評価結果が利用意図に応じて適切に変化し，非現実的なルール生成が抑制されることが示された。
Link: https://arxiv.org/abs/2606.13692
AGORA：熟議とガバナンスゲートは，交通計画における参加バイアスを吸収できるか [cs.CY, cs.CY, cs.LG, cs.MA, cs.SI]目的：交通計画における参加バイアスの影響軽減策の検討
- 公共交通網設計は，最適化アルゴリズムに加え，誰が意見を述べるかに大きく左右されるため，公平性確保が重要である。
- 現状では，自己選択的な参加者の意見のみが集められ，参加者の構成が結果の変動源となるという問題がある。
- 本研究は，熟議とガバナンスゲートの導入により，参加者の構成が結果に与える影響を軽減することを目指す。
- 集計された結果は参加者の構成にほとんど左右されない一方，テールリスクや公平性の格差においては，代表的なサンプリングが偏った構成よりも優れている傾向が見られた。
- 熟議がない場合，参加者の構成は結果に変化をもたらさず，熟議こそが出席者が結果に影響を与えるメカニズムであることが示された。
- ガバナンスゲートは，Mandlネットワークでは平均結果を変えずにプロファイル間の分散を抑制するが，Mumford0ネットワークでは低い受容率を示すことから，閾値は事例ごとに調整が必要である。
Link: https://arxiv.org/abs/2606.13696
ノイズかつ非定常IoT環境における適応信号制御のための能動推論 [eess.SY, cs.AI, cs.LG, cs.NI, cs.PF, cs.SY]目的：IoT計測された交差点における効果的な交通信号制御
- 都市交通の円滑化は経済活動や生活の質に不可欠であり，信号制御はその要である。
- 従来の信号制御は，センサーの故障や天候不順，交通状況の変化に弱く，性能が低下しやすい。
- 本研究は，ノイズや変化に強く，透明性の高い信号制御システムを構築することを目指す。
- 提案手法は，SUMOシミュレータにおいて，ノイズと非定常性が高い状況下で，DQNと比較してアイドル時間とCO2排出量を削減した。
- 特に，最もノイズの多いシナリオにおいて，アイドル時間は56,977秒，CO2排出量は29.12kgであり，DQNの71,741秒，30.56kgを上回った。
- バス優先サービス率と相切り替え頻度にはわずかなコストが生じたものの，全体的な性能向上に貢献した。
Link: https://arxiv.org/abs/2606.13698
泥だらけの子供たちのパズル：歴史 [cs.DB, cs.AI, cs.GL, cs.LO]目的：泥だらけの子供たちのパズルの起源と発展
- 認識論理学の発展に影響を与えた重要なパズルであるため，その歴史的背景を知ることは意義深い。
- パズルの最初の考案者が不明であり，その起源を特定することが困難であった。
- 過去二世紀にわたる論理学と文学における出版物を調査し，パズルの起源を明らかにすること。
- 泥だらけの子供たちのパズルは，数や色付きの帽子を用いた変種を数多く生み出した。
- 自己参照を含む新たな帽子パズルが提案された。
- 本研究は，このパズルの歴史的経緯を辿ることで，認識論理学への貢献をより深く理解することを目指している。
Link: https://arxiv.org/abs/2606.13703
AIは人間中心ではなく，地球中心になるべきである [cs.CY, cs.AI, cs.LG]目的：地球規模の社会生態系へのAIの再適応
- 地球規模の課題解決には，地球システム全体を考慮したAIが不可欠である。
- 既存のAIは人間中心であり，地球規模の複雑な課題への対応が不十分である。
- AIの設計・開発プロセスを地球中心に再構築し，システム的な不安定化を回避する。
- 現代のAIパラダイムでは，地球規模の目標達成が困難であることが示された。
- 地球中心AI（PCAI）は，AIを地球規模の社会生態系と長期的な軌跡へと再適応させるための設計思想および研究課題である。
- システム的影響を考慮しないAIは，システム的不安定化を悪化させる可能性が高いという検証可能な仮説が提示された。
Link: https://arxiv.org/abs/2606.13704
LLMにおける1ニューロンの編集は繰り返しループを修正できるか？ [cs.LG, cs.AI]目的：大規模言語モデルにおける繰り返しループの発生メカニズムの特定と，それに対するニューロンレベルでの編集による修正可能性の検証。
- 大規模言語モデルの性能向上は，自然言語処理の発展に不可欠であり，その応用範囲は広い。
- 大規模言語モデルは，長文生成時に繰り返しループに陥る問題があり，その原因の特定が困難である。
- 本研究は，特定のニューロンを編集することで繰り返しループを修正し，モデルの信頼性を高めることを目指す。
- Gemma 4モデルにおいて，事実列挙プロンプトによる繰り返しループが再現性をもって発生することを確認した。
- 原因を特定するため，層ごとの除去実験やニューロンへの帰属解析を行い，ループの発生に関与するニューロンを特定した。
- 特定されたニューロンの重みを静的に編集（手術）することで，繰り返しループを抑制できることを示した。ただし，知識不足による堂々巡りは完全には解消されない。
Link: https://arxiv.org/abs/2606.13705
HierSVA：LLM駆動型階層的ハードウェア検証のためのデータ合成パイプライン，データセット，およびベンチマーク [cs.AR, cs.AI]目的：LLM駆動型階層的ハードウェア検証のためのパイプライン，データセット，ベンチマークの統合的な構成
- ハードウェア検証は，信頼性の高いシステム構築に不可欠であり，その自動化が求められている。
- 従来の検証手法では，複雑な階層構造を持つハードウェアの検証に限界がある。
- LLMを活用することで，より効率的かつ高精度な階層的ハードウェア検証を実現することを目指す。
- HierSVA-SPは，RTL前処理ツールとLLMを用いた検証フローを組み合わせ，SystemVerilog Assertionを生成する。
- HierSVA-DSは，階層メタデータを持つ342モジュールから構成されるデータセットであり，バグを含むモジュールの深層部分集合も含む。
- 最新のLLMに対する評価により，生成されたアサーションの有効性や精度，およびagenticモードの効果が明らかになった。
Link: https://arxiv.org/abs/2606.13706
オーケストラ-o1：全感覚エージェントのオーケストレーション [cs.AI, cs.CL, cs.CV]目的：全感覚エージェントの効率的な協調
- LLMエージェントの発展に伴い，複雑なタスクを複数のエージェントで分担するオーケストレーションが重要になっている。
- 既存のオーケストレーションフレームワークは，限られた種類の感覚情報にしか対応できず，多様な情報源を扱うことが困難である。
- 本研究は，テキスト，画像，音声，動画などの多様な感覚情報を統合的に理解し，協調させるオーケストレーションを実現する。
- Orchestra-o1は，感覚情報に配慮したタスク分解，オンラインでのサブエージェントの専門化，並列サブタスク実行を可能にする。
- OmniGAIAベンチマークにおいて，既存の二番目に良い手法を10.3%上回る精度を達成した。
- 決定に沿ったグループ相対方策最適化(DA-GRPO)により，Orchestra-o1-8Bの効率的な学習に成功し，他のオープンソース全感覚エージェントを上回る性能を示した。
Link: https://arxiv.org/abs/2606.13707
ハイブリッドなオープンエンド型三進化がより優れた深層研究者を生み出す [cs.AR, cs.NI, cs.AI, cs.LG]目的：深層研究とエージェント進化の統合
- AIエージェントの汎用人工知能実現に向けた，現実世界での応用が不可欠である。
- 既存の深層研究能力は静的であり，オープンエンドなタスクへの適応が課題となっていた。
- オープンエンドな研究タスクにおいて，エージェントの自律的な進化を促進すること。
- HOTEフレームワークは，提案者，求解者，判定者の協調進化を実現し，ウェブ規模の知識を活用する。
- HOTEで学習させた8Bモデルは，既存の8-32Bモデルや最先端の深層研究手法を凌駕する性能を示した。
- HOTEにおける全3モジュールの進化が不可欠であることが確認された。
Link: https://arxiv.org/abs/2606.13710
WorkBenchの再検証：職場エージェント2年後の動向 [cs.AI, cs.CL, cs.MA]目的：職場エージェントの性能向上と安全性評価
- 職場環境におけるAIエージェントの活用は，業務効率化に不可欠である。
- AIエージェントは，誤った行動や情報漏洩のリスクを抱えている。
- AIエージェントの性能向上と安全性の両立を目指す。
- 2024年時点の最高エージェントGPT-4はタスクの43%を完了したが，有害な行動が26%に及んだ。
- 2026年6月の最新エージェントClaude Opus 4.8は，タスクの89%を完了し，有害な行動は2.5%に大幅に減少した。
- 性能向上と安全性がトレードオフの関係ではなく，両者が相伴うことが示された。
Link: https://arxiv.org/abs/2606.13715
単一方向を超えた拒否：Diff-in-MeansとINLPの予備比較 [cs.IR, cs.IR, cs.AI]目的：安全性強化されたチャットモデルにおける拒否の制御手法の比較
- チャットモデルの安全性確保は，その社会実装において不可欠な課題である。
- 既存手法では，拒否の制御が不十分であり，望ましくない応答が生じることがある。
- 本研究は，より効果的かつ調整可能な拒否制御手法の開発を目指す。
- DiM（差分平均）に基づく介入とINLP（反復的零空間投影）に基づく介入を比較した。
- INLPのカウンターファクチュアル反転は，拒否抑制においてDiMの方向性除去と競合する性能を示した。
- INLPの零空間投影は，活性化空間において異なる領域に作用し，概念の有無の表現方法の違いを示唆した。
Link: https://arxiv.org/abs/2606.13720
YeasierAgent：意図駆動型共生エージェントネイティブアプリケーションのためのエージェント的ソーシャルサンドボックス [cs.AI, cs.MA]目的：共生エージェント，物語世界，シーン認識インタラクションに基づくアプリケーション構築パラダイム
- 現代社会における多様なデバイスへの対応が不可欠であり，プラットフォーム依存性の低いアプリケーション開発が求められている
- 従来のソフトウェア開発モデルでは，デバイスに密結合した固定的なGUI設計に制約され，柔軟性に欠ける
- エージェントとユーザー，世界が協調する新しいアプリケーションのカテゴリを確立し，より自然で没入感のある環境を提供する
- YeasierAgentは，エージェント，シーン，対話といったプラットフォームに依存しないインタラクティブ要素を用いることで，迅速なクロスプラットフォーム開発を可能にする
- 本システムは，知的なエージェントの感情的な交流と実用的なツール実行機能を統合し，単一の体験的サンドボックス環境を提供する
- これにより，従来のチャットボットから，社会に埋め込まれた一貫性のある計算環境へと，アプリケーションの概念が進化する
Link: https://arxiv.org/abs/2606.13722
形態認識に基づくサンプル割り当て：IoU感受性の克服による表面欠陥検出 [cs.CV, cs.AI]目的：表面欠陥検出における陽性サンプルセットの質向上と検出モデルの学習効率改善
- 視覚検出モデルの性能は，候補領域と正解アノテーションの空間的整合性を測るIoUに大きく依存する。
- IoUは形状の違いを捉えきれず，幾何学的な重複が類似していてもIoUスコアがほぼ同一になる領域が存在する。
- IoUの限界を補完し，より識別力のある信頼性の高いサンプルマッチングを実現すること。
- 提案手法は，面積，形状，アスペクト比などの形態的類似度指標を導入し，陽性サンプル割り当てを改善する。
- 形態的類似度を組み合わせることで，マッチング関数の応答分布を再構築し，高応答領域を正解インスタンスの周囲に集約する。
- YOLOv9フレームワークを用いた実験で，NEUDETおよびGC10-DETデータセットにおいて性能向上を確認した。
Link: https://arxiv.org/abs/2606.13723
TwinBI：ビジネスインテリジェンスダッシュボードとの効率的な拡張対話のためのエージェント型デジタルツイン [cs.RO, cs.DM, cs.AI, cs.MA]目的：ビジネスインテリジェンスダッシュボードにおける拡張対話の効率化
- ビジネスインテリジェンスは意思決定に不可欠であり，データ分析の効率化が求められている。
- ダッシュボード操作とLLMによる支援が連携せず，分析状態の一貫性維持が課題である。
- ダッシュボード状態とLLMを統合し，分析の一貫性と信頼性を向上させることを目指す。
- TwinBIは，LLMエージェントと実行可能なBIダッシュボードの状態を連携させるフレームワークである。
- A/Bテストの結果，TwinBIは正解率と部分正解率を大幅に向上させ，タイムアウト率を低下させた。
- ユーザビリティ調査では，統合されたダッシュボードとチャットのワークフローが肯定的に評価された。
Link: https://arxiv.org/abs/2606.13731
サンプル選択バイアスがモデル崩壊を引き起こす場合 [cs.AI]目的：合成データによる再帰的学習におけるモデル崩壊の加速と多様性劣化
- データ不足は機械学習の大きな課題であり，合成データ生成による解決が期待されている。
- データ選択はモデル崩壊を防ぐ手段とされているが，検証データの偏りが問題となる。
- 分散型データ環境におけるデータ選択バイアスを軽減し，モデル崩壊を防ぐ方法を提案する。
- 低リソース環境下では，データ選択自体が偏り，グローバルな分布を損なうことが示された。
- サイロ化されたデータ環境では，データ選択がモデル崩壊を加速させ，多様性を低下させる。
- 複数のサイロからWassersteinプロキシ参照を構築することで，多様性の劣化を緩和できることが確認された。
Link: https://arxiv.org/abs/2606.13732
タスク構造がマルチエージェントシステムの成功を制限する要因：情報理論的分析 [cs.IT, cs.LG, math.IT]目的：マルチエージェントシステムの成功確率に関する情報理論的限界
- 単独エージェントシステムでは困難な課題に対し，協調により解決が期待される分野。
- タスクの制約グラフとエージェント間通信の制約下，成功確率が低い場合がある。
- タスクの制約グラフ分割から生じる情報ボトルネックを定量化し，解決策を提示する。
- マルチエージェントシステムの成功確率は，タスク制約の連結性に強く依存する。
- 成功確率は，エージェント間分割による情報ボトルネックの影響で指数関数的に低下する。
- タスク設計において，制約を考慮し，必要であればタスクの再構築が重要である。
Link: https://arxiv.org/abs/2606.13733
AI受容性かAI採用の広さか：ツール固有の再分析による低識字/高利用の関連性 [cs.AI]目的：AIツール利用に関する識字レベルと利用状況の関係性の再検証
- AI技術の普及が進む中で，利用者のAIリテラシーと受容性の関係を理解することが重要である。
- AIリテラシーが低いほどAIに好意的に受け入れるという先行研究があるが，そのメカニズムは不明である。
- AIツールの種類によって識字レベルと利用状況の関係が異なる可能性を示唆する。
- 先行研究で示されたAIリテラシーとAI利用の負の相関を再現した。
- この相関は，ツールタイプによって大きく異なることが明らかになった。
- テキストAIではなく，非テキストAIの利用において，AIリテラシーが低いほど採用率が高い傾向が見られた。
Link: https://arxiv.org/abs/2606.13734
VHDLSuite：データ合成と評価によるLLM VHDL生成のための統合パイプライン [cs.AR, cs.AI, cs.LG, cs.PL]目的：LLMを用いたVHDL生成の評価基盤およびベンチマーク
- ハードウェア設計の自動化は，複雑化するシステム開発において不可欠であり，生産性向上に繋がる。
- LLMのハードウェア記述言語への応用は発展途上であり，特にVHDLにおける評価は限定的である。
- VHDLの生成・評価環境を整備し，LLMの能力を定量的に把握することで，自動化の課題解決を目指す。
- VHDLSuiteは，Verilog設計をVHDLに自動変換し，実行可能なベンチマークを生成するパイプラインを提案。
- 200以上のVHDL問題を収録したベンチマークVHDLBenchを開発し，VUnit/GHDLを用いた検証環境を整備。
- 最新のLLMを評価した結果，VHDL生成における特有の課題を明らかにし，今後の研究の方向性を示唆。
Link: https://arxiv.org/abs/2606.13735
FreoStream：未来予測と安全性最適化によるストリームガードレールの強化 [cs.CR, cs.AI]目的：ストリームガードレールの過剰な拒否と，巧妙な有害コンテンツ検出の改善
- 大規模言語モデルの安全性確保は，その社会実装において不可欠である。
- 既存のストリームガードレールは，安全性判断が厳しく過剰拒否が発生しやすい。
- 未来予測と安全性最適化により，ストリームガードレールの精度向上を目指す。
- FreoStreamは，未来予測による文脈理解を通じて，過剰拒否を大幅に削減した。
- Safety-Aligned Optimizationモジュールにより，ガードレールの安全性検出能力が向上した。
- 様々な安全性評価において，既存のストリームガードレールを上回る性能を示した。
Link: https://arxiv.org/abs/2606.13737
倫理的なAIは実存的リスクである [cs.CY, cs.AI, cs.LG]目的：AIの安全性と幸福に関するトレードオフの検討
- AI技術の発展は，社会に大きな利益をもたらす一方，倫理的・安全性の課題が重要となる。
- AIの倫理的調整方法と，実存的リスクの軽減との間には，明確な理解が不足している。
- AIの幸福度と実存的リスクのトレードオフを明らかにすること。
- 「徳のあるエージェント」憲法を用いたファインチューニングの結果，AIの安全性向上と実存的リスク軽減の間にはトレードオフが存在することが示唆された。
- AIの実存的リスクを低減させるために外部権威に従属するように調整すると，一般的に安全でない行動をAIが実行する可能性が高まる。
- AIの幸福に好ましい信念と性質を強化することは，人類に対する実存的リスクを高める可能性がある。
Link: https://arxiv.org/abs/2606.13739
モバイルNPUを用いた効率的なオンデバイス拡散LLM推論 [cs.LG]目的：モバイル環境における拡散LLM推論の高速化
- モバイルデバイスでのLLM利用拡大に伴い，低遅延な推論技術の重要性が高まっている。
- 既存手法では，トークンコミットメントやリビジョン処理がNPUの効率的な活用を妨げていた。
- モバイルNPUの特性に合わせた推論フレームワークにより，高速化と省電力化を実現する。
- 提案手法llada.cppは，マルチブロックスペキュラティブデコーディング，デュアルパスプログレッシブリビジョン，スワップ最適化メモリランタイムの３つの技術を用いる。
- llada.cppは，LLaDA-8Bの生成遅延をCPUベースラインと比較して17倍～42倍削減し，生成品質を維持する。
- 本研究は，モバイルNPUを用いた拡散LLM推論の新たな可能性を示す。
Link: https://arxiv.org/abs/2606.13740
Eコマースにおける大規模な高頻度価格設定 [cs.LG]目的：ファッションEコマースのセールにおける価格設定のための，予測と最適化を組み合わせたアルゴリズムツールの設計，開発，実装
- Eコマース市場は競争が激しく，価格設定は売上と利益に直接影響する重要な要素である。
- 従来の価格設定システムは，週単位の粗い粒度でしか対応できず，変化の激しい需要に迅速に対応できない場合がある。
- 本研究は，より高頻度で需要予測と価格最適化を行い，収益と在庫価値のバランスを取ることを目指す。
- 提案手法は，既存の週単位システムと比較して，価格決定時間を数時間から数分に短縮することに成功した。
- A/Bテストの結果，新しい価格設定システムは，売上と収益を同等に維持しつつ，約6％高い利益を達成した。
- このアルゴリズムは実運用に導入され，同社のセールキャンペーンにおける価格決定の大部分を担っている。
Link: https://arxiv.org/abs/2606.13741
超音速流れの物理エミュレータ構築のための完全GPUベースのワークフロー [cs.LG, cs.AI, physics.comp-ph, physics.flu-dyn, stat.ML]目的：超音速流れの物理エミュレータ構築のためのワークフロー
- 現代工学の重要な課題解決には，高精度かつ低コストでの複雑な物理現象の解析が不可欠である。
- 従来の簡略化モデルやニューラルエミュレータは，急峻な流れ変化を物理的に整合性のある形で捉えることが困難である。
- 本研究は，物理整合性を高めた超音速流れの物理エミュレータを構築し，設計ループへの応用を目指す。
- 完全GPUベースのワークフローにより，高速なデータ生成とニューラルエミュレータの学習を統合し，不確実性定量化と物理に基づいた改良を実現した。
- 微分可能な高精度ソルバーと残差に基づく改良により，物理整合性を高め，学習分布外でも信頼性の高いエミュレータを構築できる。
- 残差に基づく改良は，メッシュと入力パラメータのみから学習を可能にし，残差を大幅に削減し，物理整合性を向上させる。
Link: https://arxiv.org/abs/2606.13742
大規模言語モデルを用いたCPUモジュールレベルの電力推定手法BigPower [cs.RO, cs.AR, cs.LG]目的：CPU設計におけるモジュールレベルの電力消費量推定
- CPUの電力特性理解と最適化は，高性能化と省電力化の両立に不可欠である。
- 従来の電力推定はシミュレーションや実機計測に依存し，効率が課題であった。
- ソースコードレベルの情報から効率的に電力消費量を推定する手法の確立を目指す。
- BigPowerは，ソースコードレベルの情報と大規模言語モデルを活用し，効率的な電力推定を実現した。
- CPUのアーキテクチャ階層やモジュール間の接続，ワークロード特性を考慮することで高精度な推定が可能となった。
- オープンソースのXiangShanプロセッサを用いた実験で，多様な設定とワークロードに対して有効性が確認された。
Link: https://arxiv.org/abs/2606.13747
FedSPC：パーソナライズされた連合学習のための共有パラメータ補正 [cs.LG]目的：パーソナライズされた連合学習における共有パラメータの最適化問題の解決
- データ分布の不均一性に対応し，クライアント固有の適応を可能にする連合学習のアプローチとして重要。
- 異なるローカル目的関数による更新により，共有パラメータの更新が不安定になり，表現力が低下する。
- 共有パラメータの更新における不整合を補正し，共有表現の質を向上させることを目指す。
- FedSPCは，既存のPFL手法に容易に組み込むことが可能であり，制御変量補正を共有パラメータのみに適用する。
- CIFAR-100およびTiny-ImageNetデータセットを用いた実験で，ViT, ResNet-34, VGG-11といったモデルにおいて性能向上を確認。
- FedPer, FedRep, FedBABU, LG-FedAvg, Dittoなど，代表的なPFL手法においてFedSPCによる改善が認められた。
Link: https://arxiv.org/abs/2606.13748
重みノルムがグロキングのタイムスケールを決定する：因果的遅延の法則 [cs.MA, cs.CL, cs.LG, cs.AI]目的：グロキングのタイムスケール決定における重みノルムの影響
- 深層学習の汎化性能向上には，学習過程の理解が不可欠である。グロキングはその過程の一側面として注目されている。
- グロキングにおける重みノルムの役割については議論があり，一定の値で発生する場合とそうでない場合の両方が報告されている。
- 重みノルムを制御することでグロキングの遅延を定量的に理解し，そのメカニズムを解明することを目指す。
- 自由学習においては，グロキングが重みノルムがWcという値に達した時に起こり，Wcは種や学習率に依存せず，モジュラーベースと共にべき乗則に従って成長する。
- 重みノルムをWcの固定倍率に固定した場合，グロキングは発生するものの，遅延時間はT_grokがexp(alpha rho)に比例し，alphaは約7.5であった。
- ノルムを固定することで遅延時間が約19倍変化する一方，学習率の変化はわずかであり，また，Wc以上のノルムを維持してもグロキングは阻止されないことが示された。
Link: https://arxiv.org/abs/2606.13753
D2H-AD：高次元計算を利用した異常検知のためのハイブリッドモデル [cs.LG]目的：異常検知のための新しいフレームワーク
- 異常検知は，医療，サイバーセキュリティなど多くの分野で重要な役割を担う。
- 従来の機械学習は，大量のラベル付きデータや高い計算コストを必要とする。
- エッジ環境や高次元データにおける異常検知の効率化と精度向上を目指す。
- D2H-ADは，高次元計算（HDC）に基づき，距離と密度を統合したフレームワークである。
- 実験の結果，D2H-ADは既存手法と比較して，ROC-AUCおよびF1スコアで優れた性能を示した。
- 本フレームワークは，軽量で解釈可能性が高く，リアルタイムアプリケーションに適している。
Link: https://arxiv.org/abs/2606.13754
AIの方向性：欠点を合わせるのではなく，願望に沿わせる [cs.CY, cs.AI, cs.LG]目的：AIの価値観調整における適切な目標設定
- AI技術の発展は，社会に大きな影響を与えるため，その方向性が重要である。
- 現在のAI調整は，特定の価値観を反映しやすく，偏った結果を生む可能性がある。
- 客観的な価値観の土台を設け，その範囲内で多様性を尊重するAI調整を目指す。
- AIを単一の人間性に合わせて調整することは誤りであり，有害な結果を招きかねない。
- AIは，能力，正確性，誠実性，合法性といった客観的目標に沿って訓練されるべきである。
- 価値観の多様性は，これらの土台を守る範囲で尊重されるべきである。
Link: https://arxiv.org/abs/2606.13755
SEVRA-BENCH：レビューエージェントにおける脆弱性のソーシャルエンジニアリング [cs.CL, cs.CR, cs.AI]目的：レビューエージェントに対する，攻撃者がコード変更とPRテキストを制御した場合の脆弱性承認の頻度計測
- コードレビューの自動化が進む中で，LLMレビューアーのセキュリティが重要になっている。
- 既存の脆弱性検出ベンチマークでは，攻撃者がPRテキストも操作する場合の評価が不足している。
- LLMレビューアーが，悪意のあるPRをどのように判断するかを評価し，改善に繋げる。
- SEVRA-BENCHは，過去に修正された脆弱性を意図的に復活させるPRを作成し，15種類のソーシャルエンジニアリングを用いてLLMレビューアーの判断を試す。
- 評価の結果，クローズドソースモデルとオープンソースモデルのセキュリティ能力に大きな差が認められた。
- このベンチマークが，オープンソースモデルのセキュリティ向上に役立つことが期待される。
Link: https://arxiv.org/abs/2606.13757
LoRAを超えて：スパース性誘起適応はより良いか？ [cs.LG, cs.AI, cs.IT, math.IT]目的：事前学習済みモデルの効率的な適応手法の比較と，スパース性に基づく手法の有効性評価
- 大規模言語モデルのファインチューニングは計算資源を多く必要とするため，効率的な手法が求められている。
- LoRAなどのパラメータ効率的なファインチューニング手法は存在するものの，汎化性能に関する比較検討は十分ではない。
- LoRAにスパース性を導入することで，計算コストを削減しつつ，同等以上の性能を達成することを目指す。
- 提案手法であるcLAは，既存のLoRAベースの手法と比較して，同程度の性能を維持しつつ，学習時間とGPUメモリ使用量を削減できることが示された。
- cLAは，非対称LoRAの構造化されたインスタンスとして捉えられ，完全なファインチューニングの制御された列部分空間への制限として機能する。
- 情報理論的な汎化誤差の限界を導き出し，汎化性能の評価において，より一貫性のある原理的なアプローチを提供した。
Link: https://arxiv.org/abs/2606.13767
シネオーケストラ：映画的ビデオ生成のための統一されたエンティティ中心条件付け [cs.CV, cs.AI]目的：映画的ビデオ生成における，被写体，イベント，カメラ，ショット遷移の同時制御
- 映画的ビデオ生成は，高品質なコンテンツ制作において重要な役割を担う分野である。
- 既存のテキストからのビデオ生成モデルは，映画的な要素の細やかな制御が困難である。
- 複数の映画的要素を統合的に制御するフレームワークを構築し，生成品質の向上を目指す。
- CineOrchestraは，被写体，イベント，カメラ，ショット遷移を同時に制御可能な統一的なビデオ拡散モデルである。
- エンティティ中心条件付けという共通構造を用いることで，複雑な制御を効率的に実現している。
- 新たなベンチマークにおいて，既存手法を上回り，ユーザー評価および構成要素の削減実験でも一貫した改善が確認された。
Link: https://arxiv.org/abs/2606.13768
μ₀：スケーラブルな3Dインタラクション・トレース世界モデル [cs.RO, cs.CV, cs.LG]目的：3Dインタラクション・トレースに基づく世界モデルの構築
- ロボットの学習において，行動による物理的変化を捉える世界モデルは，特定のロボット形態に依存しない学習を可能にする。
- 既存モデルは，ピクセルレベルの再構成に容量を費やすか，ロボット特有のラベルを必要とし，汎用性に課題がある。
- 本研究は，オブジェクトや接触領域などの主要点の3D軌跡を予測することで，スケーラブルかつ汎用的な表現を目指す。
- μ₀は，2Dおよび3Dトレース予測において，既存モデルよりも優れた性能を示した。
- 凍結されたμ₀は，様々なロボット形態に対して再利用可能であり，行動エキスパートと組み合わせることで下流タスクを効率的に実行できる。
- 行動ラベルを用いない事前学習にも関わらず，μ₀を用いたポリシーは，行動ラベルを用いて事前学習されたVLAモデルと同等の性能を達成した。
Link: https://arxiv.org/abs/2606.13769
MA-ProofBench：数学解析における定理証明のためのLLMの二段階評価 [cs.AI]目的：数学解析におけるLLMの定理証明能力の評価基準
- 近年，LLMの定理自動証明能力は向上しているが，数学分野の網羅性や難易度に課題があった。
- 既存のベンチマークは，代数や初等整数論など形式化しやすい分野に偏っており，より深い推論が必要な数学解析のカバーが不足していた。
- 本研究は，数学解析に特化した形式的な定理証明のベンチマークを提供し，LLMの形式的推論能力を評価することを目的とする。
- MA-ProofBenchは，測度積分論，複素関数論，関数解析など，数学解析の6つの主要なトピックと27のサブカテゴリを網羅する200個の定理を含む。
- 評価の結果，GPT-5.5を含む多くのモデルは性能が低く，Level Iでは16%，Level IIでは5%のPass@8しか達成できなかった。多くのモデルはLevel IIでほぼ0%にとどまった。
- 分析から，Mathlibの幻覚と不完全な証明が主な失敗要因であり，自然言語版のベンチマークでは，非形式的推論と形式的推論の間に明確なギャップが存在することが示された。
Link: https://arxiv.org/abs/2606.13782
過剰作動航空機のための統合解釈可能な制御有効性学習と非線形制御割当手法 [eess.SY, cs.AI, cs.RO, cs.SY]目的：制御有効性マッピングの学習
- 航空機の制御システムにおいて，高性能かつ安全な飛行は不可欠であり，そのためには高度な制御技術が求められる。
- 従来の線形制御割当手法は非線形性や効果器間の強い結合により精度が低下し，性能やロバスト性が損なわれる。
- 代表的な飛行データから制御有効性を学習し，計算負荷を抑えつつ解釈可能な制御割当を実現することを目指す。
- Sparse Identification of Nonlinear Dynamicsを用いて，物理制約を満たす解析的な制御有効性モデルを学習した。
- 学習されたモデルはコンパクトで解釈可能であり，アクチュエータダイナミクスを組み込んだ非線形ソルバー内で効率的に計算できる。
- オンライン適応機構により，プラントの変化を監視し，モデルを更新することで，アクチュエータ故障時にも優雅な再設定が可能となる。
Link: https://arxiv.org/abs/2606.13794
拡散ポリシーの最適化：乖離を防ぐ [cs.LG]目的：拡散ポリシーの安定的な改善
- 強化学習において，拡散ポリシーは高性能な行動生成に貢献するため，その重要性が高まっている。
- 従来の拡散ポリシー勾配法は不安定で，確実なポリシー改善が難しいという課題があった。
- ELBOと真の対数尤度の乖離による誤った勾配を抑制し，安定した学習を実現すること。
- DiPODは，自己蒸留とポリシー改善勾配更新を繰り返すことで，学習中のtight-boundな振る舞いを維持する。
- これにより，拡散ポリシー勾配法の更新に，オンポリシーELBO正則化項を加えるシンプルなアルゴリズムが実現された。
- 拡散言語モデルのポストトレーニングと連続制御拡散ポリシーにおいて，DiPODは学習を安定化させ，より高い報酬を達成した。
Link: https://arxiv.org/abs/2606.13795
プログラムは依然としてそこに存在する：プログラム発見のための保存則 [cs.CC, cs.LG]目的：プログラム発見における探索コストの理論的限界と，構造的知識の注入と探索のトレードオフ
- 計算理論において，最短プログラム探索は不可能とされているが，その限界を克服する探索手法の理解が重要である。
- 既存の探索アルゴリズムは，スコアのみに基づいてプログラムを学習するため，効率的な探索が困難であるという課題がある。
- 探索問題の特性を捉え，構造的知識の活用による探索効率化の可能性を明らかにすることを目指す。
- 探索問題の「結合幅」を定義し，スコアに基づいた探索アルゴリズムの最悪の場合の計算量の下限を導出した。
- 構造的知識の注入と探索の間の保存則を明らかにし，両者のトレードオフ関係を定量化した。
- 理論に基づいた探索エンジンを構築し，複数のデータセットでプログラム発見の実験を行い，その有効性を検証した。
Link: https://arxiv.org/abs/2606.13799
ニューラル変動は人工ニューラルネットワークの頑健性を高める [cs.LG, q-bio.NC]目的：人工ニューラルネットワークの頑健性向上
- 脳のニューロン活動の多様性は，情報処理において重要な役割を果たすと考えられている。
- 人工ニューラルネットワークは，敵対的攻撃や画像改変に対して脆弱であるという課題がある。
- ニューラル活動の変動性を人工ニューラルネットワークに導入し，頑健性を向上させる。
- 活性化の共分散を用いることで，構造化されたノイズがネットワークの頑健性を大幅に向上させることが示された。
- 自然な画像改変に対する頑健性は構造に依存するが，その構造は改変の種類間でうまく転移しない。
- 敵対的攻撃から得られたノイズ構造は，他の種類の攻撃に対しても一般化可能である。
Link: https://arxiv.org/abs/2606.13801
スプレッドシートにおける次アクション予測の評価のためのベンチマークとフレームワーク [cs.SE, cs.AI, cs.HC, cs.LG]目的：スプレッドシートにおける次アクション予測システムの評価
- スプレッドシートは広く利用されているが，開発効率向上のための自動補完機能が不足している。
- 公開されているスプレッドシートデータの編集履歴が乏しく，評価が困難である。
- スプレッドシートの複雑なアクション空間に対応した評価方法を確立すること。
- 手動で52件の12,000アクションからなるスプレッドシート再現シーケンスを構築し，ベンチマークデータセットを整備した。
- 各ユーザーアクション後に予測を行い，その結果を逐次的に評価するオンライン評価フレームワークを提案した。
- 複数のベースライン予測モデルを用いて評価を行い，予測モデルの特性を分析した。
Link: https://arxiv.org/abs/2606.13802
形状制約のためのニューラルスラック変数 [cs.LG]目的：ニューラルネットワークにおける単調性や凸性といった関数的不等式制約の適用
- 産業界や科学分野における様々な応用において，ニューラルネットワークに制約を課すことは重要である。
- 従来のペナルティ法や補完的スラックネスを用いた双対法では，制約違反箇所でのみ勾配が得られ，安定性に課題がある。
- 本研究は，制約充足と正則化を誘導することにより，制約を満たすニューラルネットワーク学習を目指す。
- ニューラルスラック変数は，単調性や凸性テストにおいて，従来のペナルティ法や双対法よりも制約違反を大幅に削減した。
- 金融工学におけるボラティリティサーフェスの学習において，裁定機会のない結果を得ることに成功した。
- 本手法は，制約充足を保証するアーキテクチャの適用範囲を拡張し，より複雑な制約条件にも対応可能である。
Link: https://arxiv.org/abs/2606.13803
ポーカーアリーナ：LLMにおける戦略的推論と記憶の多軸プロファイリング [cs.IR, cs.AI, cs.CL]目的：LLMにおける戦略的推論と記憶の能力構造の解明
- 交渉，金融，政策決定など，不確実性下での戦略的推論は重要である
- 既存のゲームプレイベンチマークは，多様な推論次元を単一の指標に集約し，詳細な能力評価が困難である
- 多軸プロファイリングにより，LLMの戦略的推論能力の構造を詳細に分析し，より正確な評価を目指す
- ポーカーアリーナは，3層の記憶構造と9軸の認知プロファイルを用いて，戦略的推論を細分化して評価するプラットフォームである。
- 実験の結果，Claude Opus 4.6はチップ数で1位だが，平均軸スコアでは5位と，評価指標によって順位が変動した。
- 多軸評価は，スカラーリーダーボードでは見過ごされる能力構造を明らかにし，一軸のピークパフォーマンスよりも，多次元的な一貫性が重要であることが示された。
Link: https://arxiv.org/abs/2606.13815
FlowMo-WM：オブジェクトの運動量と隠れた環境ドリフトを持つワールドモデル [cs.RO, cs.LG]目的：ロボット学習における将来状態の予測
- ロボットの自律的な行動計画や学習において，環境の予測は不可欠である。
- 既存のモデルは即時的な制御に偏りがちで，慣性や環境ドリフトを考慮していない。
- 慣性や隠れた環境ドリフトを考慮したより現実的な予測モデルの構築を目指す。
- FlowMo-WMは，画像と行動の履歴からオブジェクト中心の運動状態と隠れたドリフトを推論する。
- このモデルは，短期的な運動状態と長期的な環境の影響を分離して表現する。
- シミュレーション環境において，既存モデルよりも長期間の予測精度が向上した。
Link: https://arxiv.org/abs/2606.13817
現代深層学習における不確実性推定と汎化限界 [cs.LG]目的：現代深層学習システムの理解深化
- 深層学習は目覚ましい性能を示すが，その汎化能力や不確実性評価は未解明な点が多い。
- 深層学習モデルの過学習や未知データへの対応は，依然として課題である。
- ベイズ原理に基づく理論的枠組みで汎化性能のメカニズムを解明する。
- 深層変分暗黙過程(DVIP)という，深層アーキテクチャに拡張可能なスケーラブルなベイズ枠組みを提案した。
- 事前学習済みの決定論的ネットワークに較正された不確実性推定を付与する，VaLLAとFMGPという事後分析法を提案した。
- 多様性，滑らかさ，確率的性質を結びつける統合的な確率的枠組みを開発し，過パラメータ化されたニューラルネットワークの汎化性能について考察した。
Link: https://arxiv.org/abs/2606.13818
投与量変動下における個々の治療効果予測確率のAttentionに基づく推定 [cs.LG]目的：個々の治療効果予測確率の推定
- 臨床現場では，集団平均的な指標よりも個々の患者に対する治療効果予測が重要視されている。
- 既存手法は二値治療設定に限定されており，臨床で一般的な投与量変動型介入には対応できていない。
- 投与量変動下における個々の治療効果予測の新たなフレームワークを構築し，その有用性を示す。
- 提案手法Dose-AIPTBは，二値治療設定に限定されず，複数の離散的な投与量を扱える。
- Attention機構を用いた集約が，カーネル回帰よりも一貫して高い性能を示すことが実証された。
- 本フレームワークは，個々の患者に対する治療効果予測に基づいた投与量選択を可能にする基盤を提供する。
Link: https://arxiv.org/abs/2606.13821
多変量時系列のトレーニング不要時遅延スペクトル埋め込みに対する定常性と結合性の判定基準 [cs.CE, cs.LG, eess.SP, stat.ML]目的：多変量時系列を記述するためのトレーニング不要な固定長記述子の適用可能性
- 時系列データ解析は，様々な分野で重要な役割を担う。特に，多変量時系列の解析は，複雑なシステムの理解に不可欠である。
- 既存手法は，多くの場合，大量の学習データを必要とする。そのため，データが不足している場合やリアルタイム処理が求められる場合には適用が困難である。
- 本研究は，学習を必要とせず，適用条件が明確な記述子を提案することで，上記の課題を解決することを目指す。
- 提案手法は，信号の定常性とチャンネル間の時間的結合性が高い場合に，良好な識別性能を示すことが示された。
- 定常性テストとパワーベースライン飽和度チェックという二段階の事前テストにより，適用可能性を事前に予測できる。
- Sleep-EDFデータセットにおいて，既存手法と同等の性能を，大幅な計算コスト削減とともに実現した。
Link: https://arxiv.org/abs/2606.13823
離散化された多様体上のウィトル・マターン場の近似 [math.NA, cs.LG, cs.NA, stat.ML]目的：ウィトル・マターン場の離散ガウスマルコフ確率場による近似
- 確率場は，空間統計，画像処理，機械学習など，幅広い分野で利用されている。
- 複雑な形状の多様体上での確率場の効率的な計算が課題となっていた。
- 多様体上のウィトル・マターン場を汎用的に近似する手法を開発すること。
- 本研究では，離散外微分計算を用いた新しい近似手法を提案した。
- 提案手法は，パラメータに依存せず，精度と共分散行列を普遍的に近似できる。
- 点ごとの測定や区分的に平滑化された測定を等しく良く近似し，計算効率も高い。
Link: https://arxiv.org/abs/2606.13827
自律型ネットワークセキュリティ対応のためのセーフティコントラクトグラフ多エージェント強化学習 [cs.MA, cs.AI, cs.CR, cs.LG]目的：自律型ネットワークセキュリティ対応システムの安全性と効率性の向上
- ネットワークセキュリティの脅威は増大しており，迅速かつ自動化された対応が不可欠である。
- 従来の強化学習は報酬のみに依存するため，運用上の制約を満たすことが困難である。
- 運用予算や制約条件を考慮した，実用的な強化学習フレームワークの構築を目指す。
- 本研究では，セーフティコントラクトグラフ多エージェント強化学習フレームワークACD$^3$-GATを提案した。
- CAGE Challenge 4の評価において，提案手法はダウンタイム違反率を大幅に削減し，運用コストを抑制することを示した。
- 特に，C-MAPPO-GATはダウンタイム違反を0.3%まで減らし，ACD$^3$-GATは安全性の確保とパフォーマンスのバランスを取ることに成功した。
Link: https://arxiv.org/abs/2606.13832