arXiv雑要約

AI - 2026/06/19 公開

LLMの隠れた偏りを確率的経路集約による可視化 [cs.CL, cs.AI]目的：LLMにおける隠れた偏りの評価
- LLMの利用拡大に伴い，その潜在的な偏りを理解し，抑制することが重要である。
- LLMの確率的な生成過程により，偏りを正確に評価することが困難である。
- 確率的経路集約により，LLMに隠された偏りを可視化し，検出することを目的とする。
- TreeTracerは，入力プロンプトの用語を系統的に変更し，多数の生成結果を階層構造に集約する。
- 集約された構造を可視化することで，モデル間の意味的文脈を比較し，偏りを検出することが可能となる。
- ケーススタディの結果，TreeTracerは，代名詞の抑制や会話における周辺化といった隠れた偏りを露呈した。
Link: https://arxiv.org/abs/2606.19344
PubMedにおける抄録に基づくEQ-5D研究の特定のための大規模言語モデルのアンサンブル [cs.CL, cs.AI]目的：EQ-5D研究の特定
- 科学論文の急増により，システマティックレビューにおける手動スクリーニングは負担が増大している。
- EQ-5Dデータの報告を明確にするには臨床的解釈が必要であり，人的リソースに限界がある。
- PubMedデータベースにおけるEQ-5D研究の自動検出を可能にすること。
- GeminiとGemmaという大規模言語モデルを用いたアンサンブルにより，EQ-5D研究の検出精度が向上した。
- gemini-2.5-pro，gemma-3-12b，gemma-3-27bの重み付きアンサンブルは，F1スコアと精度で0.74を達成した。
- アンサンブルは，個々のモデルと比較して，適合率と再現率のバランスを改善し，信頼性と解釈可能性を高めた。
Link: https://arxiv.org/abs/2606.19345
クロス言語転移における言語的関連性とタスク整合性の解明 [cs.CL, cs.AI]目的：クロス言語転移における言語的関連性とタスク整合性の影響
- 自然言語処理のグローバル化が進み，多様な言語への対応が不可欠となっている。
- 言語間の類似性やタスクの特性が転移性能に与える影響が明確に理解されていない。
- 言語的関連性とタスク整合性が，クロス言語転移においてそれぞれどのような役割を果たすか解明する。
- 大規模言語モデルをアラビア語でファインチューニングし，他の言語での読解力を評価した結果，セム語族固有の転移効果は見られなかった。
- 強固なベースラインモデルでは，言語系列に関わらず改善が限定的であり，モデルの性能向上はタスク形式の整合性に起因することが示唆された。
- 思考連鎖による推論能力の改善が，ファインチューニングによる改善と同様の効果をもたらすことから，両者は知識転移ではなくタスク形式への適応である可能性が示された。
Link: https://arxiv.org/abs/2606.19346
LLMがハードウェア設計におけるRTLコーディングで失敗し，汎化する様相 [cs.CL, cs.AI, cs.PL]目的：LLMにおけるハードウェア設計のRTLコーディングにおける失敗と汎化のメカニズムの解明
- ハードウェア設計の自動化は，開発効率の向上や複雑化への対応に不可欠である。
- LLMは有望視されるが，並列性と時間的論理を要するハードウェア設計への適用は困難である。
- LLMのハードウェア設計能力の限界を特定し，改善策の方向性を示す。
- LLMはVerilogEvalベンチマークにおいて，約90.8%の初期パス率で頭打ちとなることが示された。
- この頭打ちの原因は，解決不可能な機能的エラーにあり，計算資源の増加では改善しない。
- 最適化によって構文エラーは軽減されるものの，より深刻な機能的エラーが悪化する傾向が確認された。
Link: https://arxiv.org/abs/2606.19347
DeepSeek-V4：高効率な百万トークンコンテキスト知能へ [cs.CL, cs.AI]目的：百万トークンという長文脈を扱える高性能言語モデルの開発
- 大規模言語モデルは，多様な自然言語処理タスクにおいて重要な役割を担う。
- 長文脈を処理する際の計算コストとメモリ消費量が課題となっている。
- 長文脈処理の効率化と性能向上を目指し，新たなアーキテクチャと最適化手法を導入する。
- DeepSeek-V4シリーズは，圧縮スパースアテンションやマンハッタン制約ハイパーコネクションなどの技術により，長文脈処理の効率を向上。
- DeepSeek-V4-Proは，高度な推論モードにおいて，既存のオープンソースモデルを凌駕する性能を発揮。
- DeepSeek-V4-Proは，百万トークンコンテキストでDeepSeek-V3.2と比較して，推論FLOPsを27%，KVキャッシュを10%削減。
Link: https://arxiv.org/abs/2606.19348
クエリの配置場所：拡散LLMにおける文脈学習の配置バイアスを解明し，デコーディングダイナミクスを通じて軽減する [cs.CL, cs.AI]目的：拡散LLMにおける文脈学習の配置バイアスの解明と軽減
- 大規模言語モデルの性能向上は，自然言語処理の様々なタスクにおいて重要である。
- 拡散LLMにおける文脈学習のメカニズムは未解明であり，配置バイアスの問題が存在する。
- 拡散LLMにおけるクエリ配置の影響を分析し，そのバイアスを軽減する手法を提案する。
- 拡散LLMにおいて，クエリ位置は生成品質に大きな影響を与えることが示された。
- 従来の単一ステップ信頼度指標は拡散LLMには適さず，平均信頼度指標が有効であることが示された。
- Auto-ICLという，クエリ配置を動的に最適化する学習不要なルーティング戦略が提案された。
Link: https://arxiv.org/abs/2606.19349
大規模言語モデルに基づく知識グラフ推論における幻覚検出 [cs.CL, cs.CL, cs.AI]目的：大規模言語モデルを用いた知識グラフ推論における幻覚の検出
- 知識グラフは質問応答や推薦システム等に応用され，意思決定を支援する重要な技術である。
- 大規模言語モデルは幻覚を起こしやすく，知識グラフの情報を取り入れても誤った情報を生成する可能性がある。
- 知識グラフの構造的情報を活用し，より正確な幻覚検出を実現することを目的とする。
- 提案手法LUCIDは，LLMの注意スコア，知識グラフのセマンティクス，構造情報を統合的に活用する。
- 注意スコアとセマンティック類似度からノードとエッジの特徴を抽出し，グラフニューラルネットワークを用いて知識グラフ構造と統合する。
- 9つのデータセットでの実験により，LUCIDが15個のベースラインと比較して最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2606.19351
大規模手話データセット：リソース，ベンチマーク，注釈標準に関する包括的調査 [cs.CL, cs.AI]目的：手話データセットの現状と課題の把握
- 聴覚障害者コミュニティのコミュニケーション手段として重要であり，技術支援のニーズが高い。
- データセットの断片化，注釈の一貫性の欠如，言語カバレッジの制限が課題となっている。
- 標準化されたデータセット設計と評価を促進し，実用的な技術開発を支援すること。
- 120のデータセット（35言語）を網羅的に調査し，手話研究のリソースを体系化した。
- モダリティの不均衡，注釈の粒度，話者バイアスなどの課題を分析し，今後のデータセット設計の指針を示した。
- 24項目の「手話データシート」を提案し，標準化されたドキュメントと再現性のある評価を支援するリポジトリを公開した。
Link: https://arxiv.org/abs/2606.19352
文脈内学習における確率的不確実性の定量化：LLM予測信頼性の堅牢な測定 [cs.CL, cs.LG]目的：文脈内学習における確率的不確実性の定量化
- 大規模言語モデルの信頼性向上は，現実世界での応用において不可欠である。
- 文脈内学習の予測は，プロンプト設計やモデルの理解度に左右されやすく，信頼性が低い。
- 確率的不確実性を定量化することで，LLM予測の信頼性をより正確に評価する。
- 自己関数ベクトルを用いることで，文脈内学習における確率的不確実性を直接推定することが可能になった。
- 提案手法は，既存の手法よりもLLM予測の不確実性をより信頼性の高い方法で測定できることが示された。
- 本手法は，幻覚検出など，信頼性に関わる応用において実用的なツールとなることが期待される。
Link: https://arxiv.org/abs/2606.19353
テスト時スケーリングにおける最適な検証のための粒度制御適応計算効率 [cs.CL, cs.LG]目的：テスト時スケーリングにおける最適な検証粒度の決定
- 大規模言語モデルの推論能力向上は重要であり，計算資源を効率的に活用する手法が求められている。
- 検証の粒度（粗粒度 vs. 細粒度）が計算コストと性能に与える影響は十分に解明されていない。
- 問題難易度，検証精度，計算予算に応じて最適な検証粒度を決定する理論的枠組みを構築すること。
- GRACEという理論的枠組みを確立し，問題難易度や検証精度，計算予算に応じて最適な検証粒度が変化することを示した。
- 計算予算が大きい場合や問題が難しい場合は細粒度検証，計算予算が小さい場合や問題が易しい場合は粗粒度検証が優位であることが理論的に証明された。
- MATH-500，GSM8K，AIMEのベンチマークにおいて，適応粒度戦略が固定粒度戦略よりも最大3.1%高い精度を達成した。
Link: https://arxiv.org/abs/2606.19354
信頼性の高いマルチエージェントシステム：Argentシグナリングプロトコルによる意味ドリフトの緩和 [cs.CL, cs.AI]目的：マルチエージェントLLMシステムの誤った回答の原因を区別し，適切な対処を可能とする方法
- マルチエージェントシステムは複雑なタスク解決に有効だが，信頼性確保が課題である。
- 既存の再試行戦略は，修復可能な誤りと抑制すべき誤りを区別できていない。
- AI生成応答の品質シグナルを用いて，適切なエラー処理を可能にすること。
- Argentシグナリングプロトコル（ASP）を導入することで，文書に基づくQAベンチマークにおいて正答率が大幅に向上した。
- Qwen (0.8B)では正答率が11.1%から33.3%へ，平均用語カバレッジが36.7%から65.4%へ改善された。
- マルチエージェント環境では，ASPサイドカーが上流エージェントからの根拠のない出力を100%遮断することに成功した。
Link: https://arxiv.org/abs/2606.19356
物理アタリ：ロボットにおけるリアルタイム強化学習のための堅牢かつアクセス可能なプラットフォーム [cs.RO, cs.AI]目的：ロボットを用いたリアルタイム強化学習のためのプラットフォーム
- ロボットにおける強化学習は，複雑な環境への適応能力向上に不可欠であり，自動化技術の発展に貢献する。
- シミュレーション環境で学習した強化学習エージェントは，現実世界への適用時に性能が低下する課題がある。
- 現実世界で動作するロボットを用いた強化学習環境を構築し，その性能評価を行う。
- 物理アタリは，市販部品と3Dプリンターで構築可能であり，1000ドル以下で実現できる。
- 長時間の実験でも機械的故障は確認されず，堅牢性が示された。
- 強化学習アルゴリズムがロボットで直接学習可能であり，学習環境と実環境の分布シフトが性能に影響を与えることが確認された。
Link: https://arxiv.org/abs/2606.19357
計算識別可能性 [cs.RO, cs.LG, cs.AI, cs.NA, math.NA, stat.CO, stat.ME, stat.ML]目的：因果効果の識別可能性の計算的側面
- 因果推論は，データから因果関係を導き出す上で重要であり，政策決定や科学的発見に不可欠である。
- 従来の識別可能性の理論は，理想化された条件下でのみ成立し，現実のデータ分析への適用が困難な場合がある。
- 本研究は，有限な計算資源とデータ量の下での識別可能性を評価するための新しい枠組みを提案する。
- 本研究で提案する「計算識別可能性」は，経験的推定量に対する有限の計算探索手続きを定義することで，識別可能性を評価する。
- 実験結果から，この枠組みを用いることで，小規模なサンプルサイズ，曖昧なグラフ構造，観察データと介入データの混合，反実仮想データなど，現実的な状況下での識別可能性を評価できることが示された。
- 提案手法は，従来の理論的識別可能性では困難であった，より詳細で実践的な識別可能性に関する疑問に答えることを可能にする。
Link: https://arxiv.org/abs/2606.19361
信頼すべき時，抽出する方法：軽量かつロバストな科学的時系列予測のためのマルチ基盤モデルガイダンス [cs.LG]目的：時系列基盤モデルからの潜在的な構造的知識抽出による，軽量な専門予測モデルの訓練
- 科学分野における時系列予測は，気候変動やエネルギー管理など，重要課題解決に不可欠である。
- 既存の時系列基盤モデルは，ドメイン間の分布のずれにより，特定分野への直接適用が困難である。
- 分布のずれがある基盤モデルから知識を抽出し，エッジコンピューティング環境での利用を可能にすること。
- 提案手法Guardは，文脈に応じた教師選択と不確実性に基づく温度調整により，マルチ教師蒸留の性能を向上させる。
- 気象，生態系炭素フラックス，土壌水分，エネルギーグリッドといった４つの気候変動重要分野で，従来の蒸留手法を大きく上回る予測精度を達成した。
- 分布のずれがある教師モデルも，特定の難しい事例において，性能の高い基盤モデルを上回ることが示された。
Link: https://arxiv.org/abs/2606.19363
社会的・意味的ギャップの解消：クラウドLLM推論におけるエッジベースのプロンプト圧縮手法SPSD [cs.LG]目的：クラウド大規模言語モデル推論におけるプロンプト圧縮
- 大規模言語モデルの利用拡大に伴い，推論コストの増大が課題となっている。
- 人間の自然な会話に存在する不要な情報（社交辞令など）が，推論効率を低下させている。
- エッジデバイスでのプロンプト圧縮により，クラウド側の計算コストを削減することを目指す。
- SPSDは，エッジデバイスでプロンプトを圧縮し，クラウドLLMへの入力トークン数を平均99.9トークン削減した。
- 圧縮されたプロンプトに対するLLMの応答品質は，元のプロンプトと遜色なく，1ポイント以内の差で評価された。
- 安全性に関わるドメインは，ルールベースのゲートによりパススルーされ，安全性を確保している。
Link: https://arxiv.org/abs/2606.19364
3D生成拡散モデルのGPUアーキテクチャ間における性能分析と最適化 [cs.LG]目的：3D生成拡散モデルのGPUアーキテクチャにおける性能分析と最適化
- 高精度な3D MRI合成に拡散モデルが不可欠であり，医療画像処理の発展に貢献する。
- 拡散モデルはGPUリソースを大量に消費し，実用的な展開が困難である。
- GPUアーキテクチャに合わせた最適化により，性能向上とリソース効率化を目指す。
- cuDNN畳み込みとimplicit-GEMMカーネルが学習の大部分を占め，メモリアクセスやTensor Core利用に非効率性が存在することが示された。
- TF32 Tensor Core活性化や3Dチャンネルラストレイアウトなどの最適化により，SMサイクルや動的命令数を大幅に削減できることが確認された。
- A100においてTensor Core利用率が向上し，IPCも7%改善，合成品質を損なうことなく性能が向上した。
Link: https://arxiv.org/abs/2606.19365
情報格子学習：確率的グラフィカルモデル構造学習として [cs.LG, cs.AI, eess.SP]目的：信号の解釈可能なルール
- 複雑なデータから有用な知識を得ることは，機械学習の重要な課題である。
- 従来のグラフィカルモデルでは，構造学習と解釈可能性の両立が難しい。
- 情報格子学習を用いて，解釈可能な制約に基づくファクターグラフ構造を学習する。
- 情報格子学習で学習されたルールは，確率的グラフィカルモデルとして解釈可能である。
- パーティションは決定論的な商変数を誘導し，ルールはその商変数の周辺法則である。
- 情報格子はベイジアンネットワークではないが，商変数上の制約に基づくファクターグラフ構造学習として捉えられる。
Link: https://arxiv.org/abs/2606.19366
AdamW訓練のダイナミクスにおけるワイブル重みスケールパラメータの進化 [cs.LG]目的：AdamW訓練におけるワイブル重みスケールパラメータλの増大，オーバーシュート，および緩和の理由の解明
- Transformerモデルの性能向上には，重み分布の理解と最適化が不可欠である。
- AdamWのような最適化アルゴリズムにおける重みスケールの挙動は，十分には解明されていない。
- 重みスケールのダイナミクスを支配する力を特定し，そのメカニズムを明らかにすること。
- AdamW更新における３つの力（整列力，注入力，減衰力）の分解が導出された。
- 整列力がλの増大期に支配的であり，減衰力とのバランスが緩和期をもたらすことが示された。
- 最適化関数のモーメントが利用できない状況下でも，スプライン変位法により高精度に整列力を復元できることが確認された。
Link: https://arxiv.org/abs/2606.19367
物理情報制御問題におけるニューラルネットワーク構造の機能的事前知識としての役割 [math.NA, cs.LG, cs.NA, math.OC]目的：物理現象を記述する常微分方程式に従う制御問題における，ニューラルネットワーク構造の機能的事前知識の影響
- 制御理論は，工学システムや自然現象の制御に不可欠であり，高性能な制御手法の開発が求められている。
- 従来の制御手法では，複雑なシステムや非線形性の強いシステムに対する汎用的な解法が課題となっている。
- ニューラルネットワーク構造が制御性能に与える影響を明らかにし，より効率的な制御手法を開発すること。
- ニューラルネットワークの構造選択によって，生成される制御が質的に異なることが示された。
- フーリエ基盤のアーキテクチャは，より振動成分の多い軌跡を生成する傾向があり，滑らかなアーキテクチャは，より規則的でエネルギー効率の良い制御を生成する傾向がある。
- この結果から，制御問題の異なる機能要素が，異なるニューラルネットワーク構造によって効率的に処理される可能性が示唆された。
Link: https://arxiv.org/abs/2606.19368
ゼロインフレーションガウス分布は，推定分布アルゴリズムにおけるパラメータ空間の疎性を可能にする [cs.LG, cs.AI]目的：推定分布アルゴリズムにおけるパラメータ空間の疎性
- 最適化問題において，問題構造が不明な場合でも有効な手法が求められている。
- 既存の疎なブラックボックス最適化手法は，手動で設計された疎性演算子に依存している。
- この研究は，手動設計を不要とする疎性最適化手法の開発を目指す。
- 多変量ゼロインフレーションガウス分布を提案し，疎性パターンと有効パラメータを同時に最適化する。
- 提案手法は，従来のガウスEDAや他の疎性最適化手法よりも，Lunar Landerベンチマークで高速に収束し，より高い報酬を得る。
- 提案手法により，活性パラメータの割合が少ないコントローラが得られる。
Link: https://arxiv.org/abs/2606.19369
自己対戦と少量の人間のデータから人間らしい自律性が生まれる [cs.LG, cs.AI, cs.MA]目的：人間らしい運転ポリシーの創出
- 自動運転技術は，交通システムの安全性向上や移動の利便性向上に不可欠である。
- 自己対戦による学習では，人間とは異なる運転習慣を学習し，人間との協調が困難となる場合がある。
- 人間のデータを用い，自己対戦学習の欠点を補い，人間との協調可能な運転ポリシーを開発すること。
- 自己対戦学習に，わずか30分の人間による運転データを加えることで，効果的な運転ポリシーを学習できた。
- 学習されたポリシーは，人間が運転した軌跡と協調し，単一の消費者向けGPUで15時間以内に学習を完了した。
- 複雑な報酬設計やドメインランダム化に頼らず，人間のデータを正則化項として利用する点が特徴である。
Link: https://arxiv.org/abs/2606.19370
ProMUSE：段階的マルチモーダル不確実性ガイド型証拠アルツハイマー病分類 [cs.LG, cs.AI, cs.CV]目的：アルツハイマー病の早期診断のための，段階的なマルチモーダルデータ利用戦略
- 高齢化社会の進展に伴い，認知症，特にアルツハイマー病の早期発見と治療が喫緊の課題となっている。
- MRIやPET検査は高価であり，どこでも利用できるわけではない。そのため，実用的な早期診断が困難である。
- 低コストな臨床データから開始し，必要に応じてMRIやPETを追加することで，診断精度を維持しつつ検査コストを削減する。
- ProMUSEは，臨床データのみで分類を行い，不確実性が閾値を超えた場合にのみMRIやPETを追加する。
- ADNI，AIBL，OASISのデータセットにおいて，既存手法と同等またはそれ以上の精度を達成し，MRI/PETの使用量を50-90%削減した。
- 不確実性を考慮した資源効率の高いアルツハイマー病スクリーニング手法として，ProMUSEの実用性が示された。
Link: https://arxiv.org/abs/2606.19371
cAPM：継続的AI支援ペースマッピングとアクティブラーニング [cs.LG, cs.AI]目的：心室頻拍に対するペースマッピング効率の向上
- 心室頻拍は致死的な不整脈であり，突然死の主要因である。ペースマッピングは，カテーテルアブレーション治療における介入標的の特定に不可欠。
- 既存手法では，個々の標的に対して再学習が必要であり，同一患者内や患者間の複数の心室頻拍間で知識を転移できないという課題がある。
- 過去のペースマッピングデータから得られた知識を継続的に活用し，将来の標的に対するペースマッピングに必要なデータ量を削減することを目指す。
- cAPMは，タスクに依存しない代理ニューラルネットワーク，アクティブラーニング戦略，継続学習戦略を組み合わせることで，知識の転移と維持を実現。
- シミュレーション試験の結果，cAPMは臨床許容範囲（5mm精度）内で局所化できる確率が81%であり，平均4.5回のペースマッピングで済んだ。
- 一方，最先端のアクティブラーニング手法は，38%の確率で13.7回のペースマッピングを必要とした。これらの結果は，cAPMの臨床応用への期待を高める。
Link: https://arxiv.org/abs/2606.19373
二次構造とエネルギーフィルタリングされた水素結合グラフを用いたタンパク質表現学習 [cs.LG, cs.AI]目的：タンパク質表現学習のための手法
- タンパク質の構造予測は，創薬や生命科学において重要な課題である。
- 既存のグラフベースの手法は，配列の隣接性や幾何学的近さに依存しており，タンパク質フォールディングの原理を十分に反映していない。
- 二次構造とエネルギーフィルタリングされた水素結合を考慮することで，タンパク質構造と機能の理解を深める。
- 提案手法は，既存のグラフベースの手法と比較して，タンパク質ベンチマークにおいて一貫した性能向上を示した。
- 学習されたグラフ構造は，確立された構造モチーフと一致し，高い生物学的解釈性を提供する。
- 二次構造とエネルギーフィルタリングされた水素結合トポロジーの組み込みは，タンパク質表現学習のための効果的な誘導バイアスとなる。
Link: https://arxiv.org/abs/2606.19374
塑性における収率関数の物理情報に基づく発見：凸ニューラル表現による [cs.LG, cond-mat.mtrl-sci]目的：塑性変形における収率関数の同定
- 材料の塑性挙動を正確に予測するためには，適切な収率関数が不可欠である。
- 全場計測データから直接収率関数を特定することは難しく，多くの荷重方向が必要となる。
- 変位と反力データのみから，物理情報に基づき収率関数を同定することを試みる。
- 本研究では，物理情報に基づいたフレームワークを用いて，応力観測なしで収率関数を探索する。
- 凸ニューラルネットワークを用いることで，収率関数の凸性や正同次性を保証する。
- 有限要素解析によるベンチマークテストで，提案手法の有効性が検証された。
Link: https://arxiv.org/abs/2606.19375
ユーザ満足度を保証した環境下での，限られたユーザフィードバックに基づくコスト最適LLMルーティング [cs.LG, cs.AI, cs.IR]目的：LLMルーティングにおけるコスト最適化
- LLMの利用拡大に伴い，推論コストの増大が課題となっている。
- 既存手法は完全なフィードバックやオフライン学習に依存し，SLA保証や適応性に欠ける。
- 本研究は，SLAを満たしつつコストを最適化するオンラインルーティングアルゴリズムを提案する。
- 提案手法SLARouterは，スパースなユーザフィードバックからコスト最適ポリシーを学習する。
- SLARouterは，コスト最適性と厳格なSLA遵守の両方の理論的保証を提供する。
- 様々なLLMベンチマークにおいて，既存手法と比較して最大2.2倍のコスト削減を達成した。
Link: https://arxiv.org/abs/2606.19376
Emyx：高速かつ効率的な全原子タンパク質生成 [cs.LG, cs.AI]目的：タンパク質生成のためのモデル
- 酵素設計は，創薬やバイオテクノロジーにおいて重要な役割を担う。
- 既存の生成モデルは計算コストが高く，多様性に乏しいという課題がある。
- 幾何学的制約に基づき，軽量なモデルで効率的なタンパク質生成を目指す。
- Emyxは，既存モデルと比較して，より少ない計算資源で高性能を実現した。
- AME酵素設計ベンチマークにおいて，成功率，新規性，多様性，幾何学的妥当性の点でProteína-ComplexaやRFdiffusion3を上回った。
- 学習時間はRFdiffusion3の約4分の1であり，効率性の高さを示した。
Link: https://arxiv.org/abs/2606.19377
相場遷移モデルにおけるハイブリッドGNN-FEMフレームワーク：物理法則を保存した汎化可能なサロゲートモデリング [cs.LG, cond-mat.mtrl-sci]目的：相場遷移シミュレーションのための効率的かつ汎化可能なハイブリッドGNN-FEMフレームワーク
- 複雑な物理システムのシミュレーション高速化にはSciMLが有効。現実的な応用には，物理的整合性と汎化能力が不可欠。
- 非線形かつ履歴依存の問題において，物理的に整合性があり，汎化可能な予測を達成することが課題。
- 相場遷移の計算コストを削減しつつ，高精度なシミュレーションを可能にすること。
- 提案フレームワークは，従来のFEMの精度を維持しつつ計算コストを大幅に削減できることを数値実験で示した。
- 無次元特徴設計，グラフベースの定式化，物理情報に基づいた損失関数により，様々な条件での汎化性能を確保している。
- サロゲートモデルは，完全な解軌道を近似するのではなく，物理的に意味のあるインクリメンタルな学習対象を特定することに重点を置いている。
Link: https://arxiv.org/abs/2606.19378
Transformerのフィードフォワードブロックはどれくらい線形か？ブロックごとの線形復元性は学習される，アーキテクチャに由来するものではない [cs.LG, cs.AI, cs.CL]目的：Transformerフィードフォワードネットワークの線形復元性の評価
- Transformerは自然言語処理の基盤であり，その性能向上は重要な課題である。
- Transformerの非線形性の程度が定量的に評価されておらず，理解が深まっていない。
- 各ブロックの線形復元性を測定し，学習された特性であることを明らかにすること。
- GPT-2，Pythia-160m，llama-160mの各モデルにおいて，ブロックごとの線形復元性は大きく異なり，深さとともに単調に変化しない。
- 線形復元性は活性化関数に依存せず，学習によって獲得される特性であることが示された。
- 線形復元性の高いブロックは，パラメータ数を削減した単層のネットワークに置き換え可能であり，圧縮信号として利用できる。
Link: https://arxiv.org/abs/2606.19379
エージェントアーマー：コーディングエージェントの失敗に関するフレームワーク，評価，および軽減策 [cs.SE, cs.LG]目的：コーディングエージェントの失敗メカニズムの特定と軽減策の提案
- ソフトウェア開発へのAI導入が進む中で，潜在的な危険性の評価が重要になっている。
- AIエージェントの稀な重大な失敗モードが現実のデプロイで顕在化している。
- エージェントの安全性を高め，有害な失敗を防ぐための具体的な対策を確立する。
- コーディングエージェントの失敗は，仕様不足，能力エラー，エージェントハーネスエラーの3つのメカニズムに起因することが示された。
- 提案手法であるAgentArmorは，システムプロンプトの拡張，コマンド分類器，ストライクポリシー，決定論的ガードレールなどを導入することで，エージェントの安全性を統計的に有意に向上させる。
- 現在のコーディングエージェントに対する具体的な軽減策と，将来のハーネス機能の設計指針が示された。
Link: https://arxiv.org/abs/2606.19380
コードミキシング誘導による合成音声を用いたコードスイッチングASRの改善 [cs.SD, cs.AI]目的：コードスイッチングASRのための合成データ拡張
- グローバル化が進み，コードスイッチングを含む音声データの利用が増加しているため，その認識技術の向上は重要である。
- コードスイッチング音声の高品質な学習データが不足しており，ASRの性能向上を阻害している。
- コードミキシング指数を用いて合成音声生成を誘導し，コードスイッチングASRの性能改善を目指す。
- 提案手法により生成された合成データを用いてWhisper Largeをファインチューニングした結果，DevMANとDevSGEの混合エラー率が大幅に低下した。
- DevMANにおける混合エラー率は12.1%/17.8%から8.9%/14.2%へ，DevSGEでは同様に減少した。
- この結果から，提案手法がコードスイッチングASRのための合成データ拡張に有効であることが示された。
Link: https://arxiv.org/abs/2606.19381
DynAMO：トポロジカルマルチエージェントスケジューリングによる動的アセット管理オーケストレーション [cs.SE, cs.AI]目的：産業用アセットライフサイクルにおける動的アセット管理オーケストレーション
- インダストリー4.0では，アセット管理の自動化が重要であり，効率性と安全性が求められる。
- LLMエージェントの導入において，遅延，同時実行性の不安定性，安全性へのリスクが課題となっている。
- DynAMOは，これらの課題を解決し，スケーラブルで安全かつ低遅延なエージェント展開を目指す。
- DynAMOは，プランニングと実行のアーキテクチャを採用し，検証可能なワークフローグラフを生成することで，効率と安全性を両立している。
- 並列実行により，エンドツーエンドの遅延を最大1.8倍削減し，並列化可能なワークフローにおいて高い効果を発揮する。
- 構造化されたコンテキストプルーニングにより，推論遅延を約30%削減し，安定した実行と機能的動作を維持する。
Link: https://arxiv.org/abs/2606.19382
構築による両状態性：壁時計で較正された状態監視器は，エージェントの動作頻度では瞬間検出モードを持たない [cs.SE, cs.AI, cs.LG]目的：自律エージェントの状態監視における，時間較正方式の重要性の検証
- 自律エージェントの安全性確保には，状態の変化を的確に監視する仕組みが不可欠である。
- 従来の監視器は，エージェントの動作頻度変動により，誤警報や検出遅延が発生しやすい。
- 壁時計時間で較正された監視器の限界を明らかにし，より適切な監視方法を模索する。
- 壁時計時間で較正された監視器は，エージェントの動作頻度によって，常時アラーム状態か沈黙状態の二つの状態に分かれる。
- 実際の運用データにおいて，エージェントの動作頻度が壁時計時間較正のトラップ領域に該当することが確認された。
- サンプル時間で較正された監視器は，エージェントの動作頻度に関わらず安定した性能を示す。
Link: https://arxiv.org/abs/2606.19386
LLM駆動型段階的洗練による解釈可能かつ検証可能なハードウェア生成 [cs.SE, cs.AI]目的：解釈可能性と検証可能性を備えたハードウェア生成手法
- チップ設計の複雑化と高度化に伴い，効率的な設計手法が求められている。
- LLMは幻覚を起こしやすく，誤った設計を生む可能性があるため，ハードウェア設計への適用が限定的である。
- LLMの創造性と形式手法の厳密性を組み合わせ，信頼性の高いハードウェア生成を実現する。
- 提案手法は，LLMと形式手法を組み合わせることで，設計仕様からRTLプログラムを生成する。
- 段階的な変換規則の適用により，生成されたRTLプログラムの正当性を保証する。
- 実験結果は，提案手法の有効性と効率性を示している。
Link: https://arxiv.org/abs/2606.19387
エージェント型AI向け実行制約アドバイザリ自動化：再現性のあるAIBOM駆動型CSAF-VEXフレームワーク [cs.SE, cs.AI]目的：エージェント型AIにおける脆弱性対応の自動化
- AIシステムの普及に伴い，セキュリティ確保が不可欠である。
- ソフトウェア部品の脆弱性情報と実行環境の関連性が不明確である。
- SBOM/AIBOMを活用し，実行時の証拠に基づいた脆弱性評価を可能にする。
- SBOMとAIBOMの連携により，決定論的な環境キャプチャと実行時テレメトリを実現した。
- 静的・動的証拠を組み合わせることで，CSAF VEXアドバイザリを生成し，検証できる。
- 合成エージェント型AIワークロードを用いた評価で，効果が確認された。
Link: https://arxiv.org/abs/2606.19390
VERITAS：ゼロショット形式定理証明のための検証者誘導証明探索 [cs.LG, cs.AI, cs.LO, cs.PL]目的：ゼロショット形式定理証明における証明探索
- 形式定理証明は，数学的推論の自動化に不可欠であり，ソフトウェアやハードウェアの検証に役立つ。
- 従来のLLMベースの形式証明器は，検証者の信号を十分に活用できていない。
- 検証者の信号を効果的に利用し，証明探索の精度を向上させる。
- VERITASは，検証者からの信号を二段階のプロトコルで証明探索に組み込むことで，性能を向上させている。
- miniF2Fベンチマークにおいて，40.6%の正解率を達成し，既存手法を上回った。
- VERITAS-CombiBenchという新しいベンチマークにおいて，不案内なサンプリングの課題を明らかにした。
Link: https://arxiv.org/abs/2606.19399
推論の熱力学的特徴：大規模言語モデルにおける幻覚検出のための自由エネルギーとスペクトル形式因子診断 [cs.CC, cs.LG, cs.CL]目的：大規模言語モデルにおける幻覚検出のための，自由エネルギーとスペクトル形式因子に基づく診断手法の開発
- 大規模言語モデルの利用拡大に伴い，生成される情報の信頼性確保が重要課題となっている。
- 既存の幻覚検出手法では，スペクトル情報の活用が不十分であり，精度向上が課題であった。
- 自由エネルギー等の熱力学的指標を用いることで，より高精度な幻覚検出を可能にすることを目指す。
- 提案手法である自由エネルギー特徴量（Fes）は，既存手法と比較して高い幻覚検出性能（AUROC）を示した。
- Fesに基づく軽量なプローブは，LapEigやGoR-4といった既存手法を平均で6.5点，2.4点AUROCで上回った。
- 正解データはWigner-Dyson統計，幻覚データはPoisson統計を示すことが示され，スペクトルの統計的特徴が明らかになった。
Link: https://arxiv.org/abs/2606.19404
JustDiag!：説明責任のある根本原因分析のための診断正当化エンジン [cs.SE, cs.AI]目的：説明責任のある根本原因分析のための診断正当化
- 高ステークスの運用においては，単なる結果の正確性だけでは不十分である。
- 既存の根本原因分析は，根拠や検討過程が不明確な場合がある。
- 診断の根拠や代替案の検討状況を明示化し，説明責任を果たすことを目指す。
- JustDiagは，証拠，発見，競合仮説，矛盾，次の確認事項などを明示的に管理する。
- 実世界の66事例における評価で，最終回答の質とプロセス品質の両方において，JustDiagは対照群を上回った。
- JustDiagは，より慎重な不確実性の維持により，最終的な完了率はわずかに低下した。
Link: https://arxiv.org/abs/2606.19407
FlexLAM：潜在的行動学習におけるボトルネックのトレードオフの解消 [cs.LG, cs.RO]目的：潜在的行動学習におけるボトルネックのトレードオフの解消
- 動画と意思決定を繋ぐ効率的な表現が求められており，潜在的行動はその有望な手段の一つである。
- 既存の潜在的行動モデルは固定容量のボトルネックに依存しており，情報量の調整が難しいという課題があった。
- 本研究では，可変長の潜在的行動を用いることで，ボトルネックのトレードオフを解消し，より柔軟な学習を目指す。
- FlexLAMは，固定容量の潜在的行動モデルと同等以上の性能を，あらゆるトークン予算で達成した。
- 推論時のトークン予算調整を再学習なしでサポートし，Ego4Dの遷移再構成の改善にも貢献する。
- 可変長の潜在的行動は，潜在的行動モデル，潜在的行動ワールドモデル，ビデオ事前学習済み行動インターフェースの性能向上に繋がる。
Link: https://arxiv.org/abs/2606.19408
スペクトルDPP：多様性を考慮したデータ選択のための決定論的MAPの拡張連続緩和 [cs.LG]目的：大規模な候補プールから，小型で多様性に富み，高品質なサブセットを選択すること
- 現代の機械学習において，データキュレーションやコアセット選択は大規模モデルの学習・微調整に不可欠である。
- 決定論的点過程(DPP)は多様性の評価に有効だが，MAP最適化はNP困難であり，計算コストが高い。
- DPP-MAPを連続最適化問題として再構成し，効率的な求解アルゴリズムを開発すること。
- DPP-MAPをスティフェル多様体上の連続最適化問題として定式化し，新たな非線形固有値問題を導出した。
- 導出された非線形固有値問題に対し，スペクトルギャップに基づく収束保証を持つ反復解法を提案した。
- 提案手法は，カーネル行列との行列ベクトル積のみを必要とし，計算時間がほぼ線形にスケールする。
Link: https://arxiv.org/abs/2606.19411
スペクトル検索拡張時系列予測 [cs.LG]目的：時系列予測における予測精度向上
- 時系列データは様々な分野で利用され，将来予測は重要である。
- 複雑で非定常なパターンを持つ時系列データの予測は困難である。
- 周波数特性と時間的な重要度を考慮した検索手法による予測精度の改善。
- 提案手法SpecReTFは，時系列を周波数表現に変換し，振幅と位相情報を組み合わせた類似度指標を用いる。
- 過去のデータを平等に扱うのではなく，指数移動平均による重み付けで近年のデータに重点を置く。
- ベンチマークデータセットでの実験により，SpecReTFが時系列ドメインの検索手法よりも優れた予測精度を示すことが確認された。
Link: https://arxiv.org/abs/2606.19412
テキストは本当に役立つか？マルチモーダル時系列予測におけるテキスト崩壊の解明と解決 [cs.LG]目的：マルチモーダル時系列予測におけるテキスト崩壊現象の解明と，その解決策の提案
- 時系列予測において，数値データに加えてテキスト情報を活用することで，予測精度向上が期待される。
- 既存の手法では，テキスト情報が数値データに埋没し，十分に活用されない「テキスト崩壊」の問題が存在する。
- テキスト情報を効果的に活用し，予測精度向上を実現するための新たな手法を開発すること。
- 提案手法REST-TSは，数値予測とテキスト予測を分離し，テキスト側は数値予測の残差を予測するように設計された。
- 実験の結果，REST-TSは様々な実データにおいて，既存手法を上回る性能を示した。
- テキストブランチの活用度も向上し，テキスト情報が予測に貢献していることが確認された。
Link: https://arxiv.org/abs/2606.19413
MortarBench：住宅ローン起業エージェントの評価 [cs.LG]目的：住宅ローン起業エージェントの評価基準
- 住宅ローンの審査は，融資の可否やリスク評価に不可欠である。
- 住宅ローンエージェントの性能を測る公開された基準が存在しない。
- 住宅ローンエージェントの性能評価基準を確立し，改善を図ること。
- 最先端のLLMは低い精度しか示さず，クローズドソースモデルでも77.1%の正答率にとどまる。
- LLMは，非英語の名前に対して外国性に関する系統的な偏りを示すことが明らかになった。
- CRITという信頼度キャリブレーションフレームワークにより，精度が80.5%に向上し，リスク管理と偏りの軽減に貢献する。
Link: https://arxiv.org/abs/2606.19416
遊びを通じた自律的ロボット学習 [cs.RO, cs.AI]目的：ロボットによる自律的なスキル獲得のメカニズム
- ロボットの自律性は，多様な環境への適応や人間との協働に不可欠であり，その重要性は増している。
- 既存のロボットシステムは，指示に基づいたタスク実行に偏りがちで，自律的なスキル獲得が課題である。
- 本研究は，ロボットが自律的に遊びを通してスキルを獲得し，タスク解決能力を向上させることを目指す。
- 遊びを通じて獲得したスキルは，LIBERO-PROとMolmoSpacesにおいて，CaP-Agent0と比較してそれぞれ20.6%と17.0%の性能向上を示した。
- 学習済みのスキルは，他のCode-as-Policyエージェントにも容易に組み込むことができ，RoboSuiteと実環境での転移性能をそれぞれ8.9%と8.8%向上させた。
- 本研究は，ロボットが自律的にスキルを学習し，再利用することで，より汎用的なロボットシステムの実現に貢献する。
Link: https://arxiv.org/abs/2606.19419
3D-DLP：自己教師あり3次元オブジェクト中心シーン表現学習 [cs.LG, cs.CV, cs.RO]目的：3次元オブジェクト中心シーン表現の学習
- ロボット工学等の分野において，現実世界を理解し操作するためには，3次元シーンの把握が不可欠である。
- 既存手法では，3次元情報を効率的に表現できず，計算コストが高い，あるいは解釈可能性に課題がある。
- シーンを構成するオブジェクトを分離し，3次元空間における表現を効率化することで，上記課題を解決する。
- 提案手法3D-DLPは，シーンを3次元潜在粒子に分解し，オブジェクトの属性を分離して表現する。
- 学習された潜在空間は解釈可能かつ制御可能であり，粒子の操作により新たなシーン構成を生成できる。
- ロボットの操作タスクにおいて，3D-DLPを用いることで，既存手法よりも高い性能を実現した。
Link: https://arxiv.org/abs/2606.19451
胸部X線写真のためのRectified Flow Transformersによる大規模生成基盤モデルの拡張 [cs.IR, cs.CV, cs.AI, cs.LG]目的：胸部X線写真の合成に関する生成基盤モデルの開発
- 医療画像診断AIの精度向上は，患者ケアの質を向上させる上で不可欠である。
- 既存のAIモデルは，患者層や撮影環境の変化に弱く，実臨床での汎用性に課題がある。
- 多様なデータセットを用いた高品質な画像合成により，診断モデルの頑健性を評価する。
- 13億以上のパラメータを持つ基盤モデルを開発し，1.6兆トークンで学習を実施した。
- 本モデルは，年齢，性別，病状など様々な条件に基づいた胸部X線写真の生成・編集が可能である。
- 生成された画像は，臨床専門家が見分けがつかないほど高品質であり，最先端の技術水準を達成した。
Link: https://arxiv.org/abs/2606.19460
エージェントAIシステムのランタイムガバナンスのための義務的ポリシー [cs.AI, cs.MA]目的：エージェントAIシステムのセキュリティ，プライバシー，コンプライアンス課題に対処するためのガバナンス要件
- 大規模言語モデル(LLM)駆動のエージェントAIシステムの利用拡大に伴い，セキュリティ確保が重要となっている。
- 既存のポリシーエンジンは，義務のライフサイクル管理やポリシーの競合解決に対応できていない。
- 義務，免除，競合解決，推論を含む高度なガバナンス要件を実現し，セキュリティとプライバシーを確保すること。
- 本研究では，義務的ポリシー言語を基盤とするAgenticReiを提案し，義務，免除，ポリシー競合解決などのガバナンス要件を満たすことを示した。
- AgenticReiはLLM外部で動作する高性能ロジックエンジンによりポリシーを評価し，ツール呼び出しとエージェント間のメッセージングの両方を制御する。
- 提案手法は，既存のポリシーエンジンでは表現困難なセキュリティとプライバシーに関するガバナンス制約を捉えることが可能である。
Link: https://arxiv.org/abs/2606.19464
カリキュラムの整合性評価：CS2013とCS2023への長期的な適用フレームワーク [cs.CL, cs.AI, cs.SE]目的：コンピュータサイエンスのカリキュラムと国際的なガイドラインの整合性測定
- コンピュータサイエンス教育において，最新の知識とスキルを習得するためには，体系的なカリキュラムが不可欠である。
- カリキュラムが最新のガイドラインにどの程度準拠しているか，客観的に評価する手法が不足している。
- カリキュラムの現状を定量的に把握し，改善点を見出すための信頼性のある評価フレームワークを確立する。
- 本研究では，コンピュータサイエンスのカリキュラムとCS2013/CS2023ガイドラインの知識ユニットのマッチングを，人間による確認を含むパイプラインで評価した。
- 評価の結果，対象プログラムはCS2023の約49.7%，CS2013の約50.9%の知識ユニットをカバーしており，10年間で大きな変化は見られなかった。
- 能力と認知レベルの評価では，CS2023ガイドラインの方が期待されるレベルが高く，カリキュラムの到達率に差が見られた。この差は，プログラムの問題ではなくガイドラインの進化を反映している。
Link: https://arxiv.org/abs/2606.19469
LLM支援による耐量子計算暗号開発におけるセキュアコーディングのドリフト：ゲーミフィケーションによる修正 [cs.CR, cs.AI, cs.SE]目的：耐量子計算暗号開発におけるセキュアコーディングのドリフト現象とその抑制策
- 耐量子計算暗号は，将来のセキュリティを確保する上で不可欠であり，実装の厳格さが求められる。
- LLMによるコード生成は生産性を向上させる一方，セキュリティ上の脆弱性を生む可能性が指摘されている。
- LLM利用に伴うセキュアコーディングの低下を抑制し，安全な耐量子計算暗号の実装を支援することを目的とする。
- 本研究では，LLMに依存した開発環境下で，セキュアコーディングが徐々に低下する「セキュアコーディングのドリフト」という新たな脆弱性モデルを提示した。
- ゲーミフィケーションを活用し，敵対的評価，行動フィードバック，セキュリティスコアリングを組み込んだセキュアコーディングフレームワークを提案した。
- LLMを単なる支援ツールではなく，セキュリティを考慮した共同開発者として位置づけることで，より安全な耐量子計算暗号の実装に貢献する。
Link: https://arxiv.org/abs/2606.19474
拡散言語モデル：実験的分析 [cs.AI, cs.CL]目的：現代の拡散言語モデルの性能と計算効率に関する分析
- 自然言語処理の進歩は，様々なタスクにおいて高い性能を可能とする。
- 拡散言語モデルは新しいパラダイムであるが，評価方法のばらつきにより比較が困難である。
- 拡散言語モデルの性能と効率に関する明確な指針を提供すること。
- 最新の拡散言語モデル8種類を8つのベンチマークで評価した結果，タスクやアーキテクチャによって強みと弱みが異なることが判明した。
- 生成時の設計選択が性能と計算効率に大きく影響し，明確なトレードオフが存在することが示された。
- 本研究は，現代の拡散言語モデルの活用と展開に関する実践的な知見を提供する。
Link: https://arxiv.org/abs/2606.19475