arXiv雑要約

AI - 2026/06/11 公開

  • SwiftCTS:少数のキャリブレーションによるクロックツリーメトリクスの高速クロスデザイン予測とパレート最適化 [cs.LG]目的:クロックツリー合成における性能指標の予測と最適化
    • 現代のLSI設計において,クロックツリー合成は非常に重要な工程である。消費電力,配線長,タイミングの最適化が求められる。
    • 従来の機械学習手法は,新しいアーキテクチャへの適応に計算コストがかかり,探索の効率が低いという課題があった。
    • SwiftCTSは,少ない計算量で未知の設計に対しても高精度な予測と最適化を実現し,その課題を解決することを目指す。
    • SwiftCTSは,物理法則に基づいた特徴量と勾配ブースティングアンサンブルを組み合わせることで,高速な予測を実現した。
    • K-shot乗算キャリブレーション機構により,再学習なしで未知の設計に対する予測誤差を大幅に低減することに成功した。
    • 進化型最適化器との統合により,10万回のクロックツリー合成構成を10秒以内に評価し,物理的に検証されたパレート最適解を得た。

    Link: https://arxiv.org/abs/2606.11348

  • いつ質問すべきか:階層型言語エージェントのための自己ゲーティングによる明確化 [cs.AI, cs.HC]目的:階層型推論におけるエージェントの明確化要求のタイミングに関するメカニズム
    • 複雑なタスク遂行において,階層型推論は重要なアプローチである。誤った判断を防ぐため,適切な情報収集が不可欠。
    • 従来のシステムでは,情報不足の認識が遅れ,不必要な行動や誤った判断に繋がりやすいという課題があった。
    • エージェントが自律的に質問を決定し,より効果的な情報収集と正確な判断を可能にすることを目的とする。
    • 提案手法ACTION-RATINGは,質問行動をエージェントの行動空間に組み込み,行動選択と明確化要求を競わせることを可能にした。
    • 実験結果から,エージェントは「必須型」と「機会型」という2つの情報探索モードを示すことが明らかになった。
    • 明確化要求後の正答率(ISE)は,50%から74%へと大幅に向上し,質問行動と回答品質を分離した検証でも同様の傾向が確認された。

    Link: https://arxiv.org/abs/2606.11349

  • TileFuse: AMD NPU 上での効率的な量子化LLM推論のための融合型混合精度カーネルライブラリ [cs.DC, cs.AI, cs.AR, cs.PF]目的:AMD NPU を用いた量子化LLM推論の効率化
    • デバイス上でのLLM推論需要が高まり,NPUによる性能と電力効率向上が期待されている。
    • 既存のNPUソフトウェアスタックは,汎用的な量子化形式に対応せず,低レベル制御が限られている。
    • 標準的な量子化形式(AWQ等)をNPUに直接適用し,実用的なLLM推論を可能にすること。
    • TileFuseは,AMD XDNA2 NPUのtransformer線形層向けに,低ビット形式(W4A16,W8A16)を直接サポートする。
    • カーネルレベル評価では,GEMMで最大121.6%,GEMVで281%の性能向上を実現した。
    • Ryzen AIノートPCでの実験では,TileFuseにより,prefilling latencyが最大2.0倍低減,エネルギー消費量は64.6%以上削減された。

    Link: https://arxiv.org/abs/2606.11357

  • 人間とAI生成言語のダイナミクス:意味合いが異なる時間スケールでどのように変動するか [eess.SY, cs.SY, cs.CL, cs.AI, eess.AS, eess.SP]目的:人間とAI生成言語における意味合いの時間的変動を捉えるための時間的特徴量の分析
    • 言語理解において,言語が時間とともに変化する様式の把握は重要である。
    • 言語の時間的構造と意味合いの関係性を定量的に分析する手法が不足している。
    • 人間とAI生成言語における意味合いの時間的構造の違いを明らかにすること。
    • 意味の時間系列における自己相関ウィンドウ(ACW-0)が長い部分は,より一般的な語彙を含む傾向がある。
    • ACW-0が短い部分は,より具体的な語彙が豊富である。
    • 語順やタイミングをランダム化すると,これらの関連性が弱まることから,ACW-0に基づく尺度は静的な語彙分布を超えた時間的組織を捉えていると考えられる。

    Link: https://arxiv.org/abs/2606.11371

  • プローブ精度が飽和するとき,脆弱性が解決する:LLM事前学習分析のための補完的な指標 [cs.RO, eess.SY, cs.SY, cs.CL, cs.AI, cs.LG]目的:LLM事前学習中の表現学習構造の把握
    • 大規模言語モデルの性能向上には,事前学習中の表現の進化を理解することが不可欠である。
    • 従来の線形プロービングでは,精度が早期に飽和するため,事前学習の全過程を捉えきれないという課題がある。
    • プローブの脆弱性に着目し,精度が飽和した後でも表現学習の構造変化を捉えることを目指す。
    • 脆弱性は,プローブ精度が崩壊する活性化ノイズレベルとして定義され,精度だけでは捉えられない情報を明らかにする。
    • 実験の結果,語彙的な道徳検出から構成的な道徳符号化へと変化する表現の進化を捉えることができた。
    • 脆弱性の指紋は,データキュレーションがプローブの堅牢性を変化させることを示しており,同一のプローブ精度でも異なるデータセットの影響を反映する。

    Link: https://arxiv.org/abs/2606.11375

  • 人間交渉の自動仲介者:構造化LLMパイプラインによる交渉前準備 [cs.AI]目的:人間交渉における交渉前準備の支援
    • 交渉は紛争解決や合意形成の基本であり,その成否は交渉前の準備に大きく左右される。
    • 交渉前準備には専門的な知識と時間が必要であり,利用可能な仲介者は限られている。
    • 費用,時間,アクセスの制約を克服し,交渉前準備を自動化すること。
    • 本研究で開発した自動仲介者は,人間の仲介者と同程度の交渉前準備の成果を達成した。
    • 特に,相手の選好予測の精度は,従来のLLMアプローチと比較して大幅に向上した(RMSEが36%減少)。
    • プロンプトの改良により,過剰な肯定表現が抑制され,人間の仲介者と同等の水準に達した。

    Link: https://arxiv.org/abs/2606.11379

  • 分子特性予測のためのマルチモーダル学生教師モデルGLACIER [cs.LG, q-bio.BM]目的:分子特性予測のための新しいモデルGLACIERの提案
    • 分子設計において,目的とする特性を持つ化合物を効率的に探索することは重要である。
    • 大規模モデルの開発・運用コストが高く,スケーラビリティが課題となっている。
    • 分子グラフ,SMILES文字列,物理化学的記述子の情報を統合し,効率的な予測を実現する。
    • GLACIERは,分子グラフ,SMILES文字列,物理化学的記述子の3つのモダリティを統合したモデルである。
    • 教師モデルからの知識蒸留により,軽量でありながら高い予測性能を達成している。
    • 複雑な分子特性予測タスクにおいて,頑健性と計算効率が実証された。

    Link: https://arxiv.org/abs/2606.11382

  • 活性化ベクトル操縦による全二重音声言語モデルにおける状態慣性の克服 [cs.CL, cs.AI, eess.AS]目的:全二重音声言語モデルにおける状態慣性とその緩和策
    • 自然な対話システム構築には,同時入出力が不可欠であり,全二重音声言語モデルはその実現手段として重要である。
    • 全二重音声言語モデルは,入力と出力を同時に行うため,内部状態の切り替えが遅れると,会話の途切れや誤認識が発生する。
    • 本研究では,活性化ベクトル操縦により,モデルの内部状態を迅速に切り替え,中断された会話からの回復を改善する。
    • 全二重音声言語モデルの内部表現を分析した結果,モデルは入力と出力に応じて予測対象を切り替えていることが分かった。
    • ユーザーの中断時には,モデルの内部状態が生成状態に留まり,入力の開始を見逃すという「状態慣性」を定量的に評価するためのベンチマーク(ZBB)を提案した。
    • 活性化ベクトル操縦を用いることで,追加の学習なしに,中断時の応答精度と初期単語出現率を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2606.11386

  • 小規模な実験,低コストな意思決定:マイクロ事前学習のための段階的昇格に関する事例研究 [cs.CL, cs.AI, cs.LG]目的:マイクロ事前学習における段階的昇格プロトコルの有効性評価
    • 大規模言語モデルの事前学習は計算コストが高く,効率的な実験手法が求められている。
    • 短時間の事前学習では,過度に有望な設定を早期に昇格させてしまう可能性がある。
    • 本研究では,段階的な昇格プロトコルを用いて,コストを抑えつつ信頼性の高い設定を選択することを目指す。
    • 段階的昇格プロトコルは,フルに実行するよりも大幅に少ないGPU時間を消費し,効率的な事前学習を可能にした。
    • 早期の段階ではホスト依存性が見られたが,最終段階では参照条件が常に最上位にランク付けされた。
    • 本研究は,コスト制約下における有効な設定探索手法を示唆するものであり,グローバル最適性や他の最適化手法との比較は今後の課題である。

    Link: https://arxiv.org/abs/2606.11387

  • マルチGPU Gaussian Splatting のためのスケーラブルな PyTorch アブストラクション [cs.CV, cs.DC, cs.GR, cs.LG]目的:マルチGPU Gaussian Splatting による高解像度大規模シーン再構成
    • 現実世界のニューラル再構成において,Gaussian Splatting は重要な手法となっている。
    • 従来の Gaussian Splatting は,計算資源とメモリ制限により,スケールと解像度に限界があった。
    • 本研究は,より大規模で高解像度のシーン再構成を可能にするスケーラブルな手法を提案する。
    • 提案手法は,CUDA unified memory と NVLink を用いて Gaussian パラメータとスプラッティング演算を複数の GPU に分散する。
    • 演算子レベルでの分散により,モデルコードは明示的なデバイス間通信を必要としない。
    • 10 億個以上の Gaussian splats を含む市規模の再構成を実証し,既存技術の25倍以上の規模を達成した。

    Link: https://arxiv.org/abs/2606.11390

  • 低コスト再帰的束縛:オーダーpテンソルメモリにおける部分空間カービング [cs.LG]目的:深層再帰構造の符号化における次元数の指数関数的増加
    • 記号的推論には構造的忠実度が求められるが,次元数の増大が課題。
    • ベクター記号アーキテクチャは次元数を一定に保つが,容量と忠実度が低下する。
    • 静的メモリフットプリント内で深層再帰的束縛を可能にすること。
    • 提案手法である直交部分空間カービング(OSC)は,役割基底の零空間への投影を通じて,フィラーと役割を束縛する。
    • OSCは投影によって束縛構造間の幾何学的直交性を強制し,テンソル次数と構造的深さを分離する。
    • これにより,高重ね合わせの設定において,メモリテンソルよりも大幅に小さい成分ベクトルで効率的なメモリ利用が可能となる。

    Link: https://arxiv.org/abs/2606.11391

  • 聞く場所の舵取り:指示に基づく活性化ベクトルの舵取りが大規模オーディオ言語モデルの temporal attention を再配置する [cs.NI, cs.CL, cs.SD, cs.AI, eess.AS]目的:大規模オーディオ言語モデルにおける temporal attention の再配置メカニズム
    • 音声理解において,大規模言語モデルの活用が進む中で,モデルの注意機構の解明が重要となる。
    • モデルが音声信号のどこに注意を向けているか明確になっていない点が課題である。
    • 指示に基づいた活性化ベクトルによる舵取りで temporal attention を制御し,音響的に重要な領域に集中させる。
    • 指示に基づくベクトル操作により,モデルの temporal attention が有意に再配置されることが確認された。
    • 学習なしで,操作による attention 変化の最大位置から音響イベントの位置を 60.87%~68.72% の精度で復元できた。
    • これは,直接的なプロンプティングやランダムなベースラインと比較して,大幅に高い性能である。

    Link: https://arxiv.org/abs/2606.11400

  • プレッシャー下でのリスク:言語モデルにおける敵対的頑健性の計算コストを考慮した評価 [cs.RO, cs.LG, cs.AI, cs.CR]目的:言語モデルの敵対的頑健性を,計算コストを考慮した指標によって評価する手法
    • 大規模言語モデルの安全性確保は重要であり,敵対的攻撃への対策が不可欠である。
    • 従来の評価では攻撃の計算コストが考慮されず,実際の攻撃の難易度やリスクが正確に把握できない。
    • 計算コストを考慮した評価により,攻撃の実現可能性とリスクをより正確に評価することを可能にする。
    • モデルのAlignment Trainingは,計算コストと頑健性の間に一様ではない影響を与えることが示された。
    • モデルの規模拡大は,勾配ベースの攻撃の効果を低減する一方で,安価なテンプレートベースの攻撃への影響は限定的である。
    • Surrogateモデルで最適化された勾配ベース攻撃は,別のターゲットモデルに転移することが示され,攻撃者のコスト削減に貢献する。

    Link: https://arxiv.org/abs/2606.11409

  • MPC-Patch-Bench:多者間計算のためのセキュリティを考慮したLLMコードパッチ [cs.CR, cs.AI]目的:多者間計算(MPC)ソフトウェアのコード修正における大規模言語モデル(LLM)の性能評価
    • プライバシー保護機械学習等の分野でMPCの利用が拡大しており,その安全性確保が重要である。
    • 既存のコード修正ベンチマークはMPC特有の構造やセキュリティ要件に対応できていない。
    • MPCのセキュリティと数値精度を保証する評価基盤を確立し,LLMによるMPCコード修正の課題を明確化する。
    • MPC-Patch-Benchは,2つのフレームワークを用いてMPCコード修正のベンチマーク環境を提供する。
    • データキュレーションフレームワークにより,205件の検証済みインスタンスを生成した。
    • 最良のLLMでも,MPC-Patch-Benchタスクのわずか17.1%しか安全に解決できず,セキュリティ上の課題が示唆された。

    Link: https://arxiv.org/abs/2606.11416

  • 署名付き圧縮の進捗は,Goodhart耐性を持つ密封監査において有効である [cs.LG, cs.AI, stat.ML]目的:内在的な動機付けのための圧縮進捗の評価
    • 強化学習において,エージェントが自律的に学習を進めるための内在報酬の設計が重要である。
    • 従来の内在報酬は,性能の停滞や劣化を隠蔽し,誤った方向に学習を誘導する可能性がある。
    • 密封監査を用いることで,報酬と実際の性能改善との間に厳密な関係を確立し,誤誘導を防ぐ。
    • 密封監査を用いた場合,累積報酬は最終的な監査性能の改善と完全に一致し,偽りの報酬獲得は不可能となる。
    • 有限の監査パネルでも,誤差範囲を考慮することで同様の結果が得られ,実用的な応用が可能となる。
    • 実験結果は理論を裏付けており,署名付き圧縮進捗は真の改善を示す指標として有効であることが示された。

    Link: https://arxiv.org/abs/2606.11417

  • JailbreakOPT: ツール支援型反復脱獄プロンプト最適化 [cs.RO, cs.CL, cs.SI, cs.CL, cs.CR, cs.AI]目的:大規模言語モデルに対する脱獄攻撃の成功率向上
    • LLMの安全性確保は重要であり,その脆弱性を突く攻撃への対策が求められる。
    • 既存の脱獄攻撃手法は,手動でのプロンプト作成か,多数の試行が必要な反復最適化のいずれかである。
    • JailbreakOPTは,効率的な反復最適化により,より強力な脱獄プロンプトを生成することを目指す。
    • JailbreakOPTは,多様な脱獄プロンプトをツールライブラリとして整理し,それらを組み合わせて攻撃プロンプトを生成する。
    • ツール選択を文脈バンディット問題として捉え,過去の試行結果に基づいた探索と利用を行うことで,効率的な最適化を実現した。
    • 実験により,JailbreakOPTは既存手法と比較して,攻撃成功率を向上させ,成功までの攻撃回数を削減することが示された。

    Link: https://arxiv.org/abs/2606.11425

  • 書誌情報と形式化された数学知識の架け橋に向けて [cs.DL, cs.AI, cs.LO]目的:書誌情報と形式化された数学知識の間の関連付け
    • 数学研究は発展が速く,成果の体系的な管理とアクセスが重要である。
    • 書誌データベースと形式化された証明ライブラリが分断され,連携が困難である。
    • 出版された結果と形式化の間のつながりを確立し,知識の統合を促進する。
    • 書誌メタデータと形式化された成果を関連付ける関係データベースを提案する。
    • 論文レベルの形式化スコアを導入し,形式化の網羅度を測定する。
    • 非公式テキストとLean形式化の間の文書アラインメントを用いて,形式化のカバー率を推定する。

    Link: https://arxiv.org/abs/2606.11430

  • ユークリッド安定性を超えたミラー降下法:初期値感受性の指数関数的乖離 [cs.LG]目的:ミラー降下法の初期値に対する感受性の分析
    • ミラー降下法は,勾配降下法を拡張し,強化学習やLLMのポストトレーニング等に応用され,その重要性が増している。
    • 初期値は,事前学習済みモデル等であり,そのわずかな変動が最適化に大きな影響を及ぼす可能性が懸念されている。
    • 非二次正則化項を持つミラー降下法における初期値感受性の増大を明らかにし,安定化手法を提案する。
    • 非二次正則化項を用いる場合,ミラー降下法は勾配降下法よりも初期値に対して指数関数的に敏感になる場合があることが示された。
    • 特に,シンプレックス上のカノニカルKL正則化ミラー降下法では,線形目的関数でさえ初期値の摂動を指数関数的に増幅させることが示された。
    • アンカーポイントへのブレグマン正則化項を追加することで,ミラー降下法のダイナミクスを安定化させつつ,最適化保証を維持できることが示された。

    Link: https://arxiv.org/abs/2606.11431

  • テスト時学習による近似サンプリングの可能性 [cs.CL, cs.DS, cs.AI, cs.LG, stat.ML]目的:近似サンプリングのためのテスト時学習の理論的枠組み
    • 生成AIの発展に伴い,複雑な確率分布からの効率的なサンプリングが重要課題となっている。
    • LLMと特定のサンプリングタスク間の関係性が,サンプリングアルゴリズムの性能を制限する。
    • テスト時学習による適応を通して,この制限を克服し,サンプリング効率を向上させる。
    • テスト時学習を,既知の分布クラスFに属する確率測度μ^*からのサンプリング問題として定式化した。
    • 十分大きなクラスFに対して,μ^*からのサンプリングにおけるクエリ複雑度の下限を二次関数として示した。
    • Fのサイズが適切に制限されれば,この下限を回避できることを示し,テスト時学習の理論的基盤構築への道を開いた。

    Link: https://arxiv.org/abs/2606.11437

  • INFRAMIND:インフラストラクチャを考慮したマルチエージェントオーケストレーション [cs.AI]目的:マルチエージェントLLMオーケストレーションにおけるインフラストラクチャへの対応
    • LLMの利用拡大に伴い,効率的なリソース管理が重要となっている。
    • 既存手法では,インフラストラクチャの状態が考慮されず,リソースの浪費が生じやすい。
    • 本研究は,リアルタイムなインフラストラクチャの状態を考慮し,遅延を削減することを目的とする。
    • INFRAMINDは,リアルタイムのシステム負荷と予算に基づいて,トポロジーと役割を選択する。
    • モデルのキューの深さ,キャッシュ使用率,応答遅延を観測し,最適なモデル選択と推論深度を決定する。
    • 5つのベンチマークにおいて,低負荷時には精度が最大7.6%向上し,高負荷時にはSLOコンプライアンスが99.9%を維持した。

    Link: https://arxiv.org/abs/2606.11440

  • 将来の行動予測を学習課題として [cs.AI]目的:大規模推論モデルの行動予測
    • AIシステムの信頼性は,その動作原理の説明に依存する。説明を通して行動予測を行うことが重要。
    • 大規模推論モデルの説明は,単一トークン生成の説明から長期的な軌跡へ一般化が難しく,軌跡自体も必ずしも忠実ではない。
    • 説明を経由せずに,行動予測を学習可能な課題として捉え,より正確な予測モデルを構築すること。
    • 行動予測器は,大規模推論モデルからのクエリによって得られるデータのみで学習可能であり,推論コストも低い。
    • 提案手法は,GPT-5.4やClaude Opus-4.6といった大規模言語モデルよりも高い予測精度を,多様な推論データセットで示した。
    • バックボーンをエンドツーエンドでファインチューニングし,ターゲットの推論モデルから初期化することが,高い性能に不可欠である。

    Link: https://arxiv.org/abs/2606.11445

  • 社会科学におけるAIコーディングエージェント:方法論的多様性,経験的一貫性,解釈の脆弱性 [cs.CL, cs.AI, cs.CY]目的:AIコーディングエージェントの利用に関する方法論的多様性,経験的一貫性,および解釈の脆弱性の検証
    • 社会科学研究におけるAIの活用は,分析の効率化と新たな知見の発見に貢献する可能性を秘めている。
    • AIエージェントの利用は,研究者の主観的なバイアスを増幅させる,あるいは方法論的な多様性を損なう可能性が指摘されている。
    • 本研究は,AIエージェントが方法論的多様性やバイアスにどのように影響するかを実証的に明らかにすることを目指す。
    • Claude CodeとCodexは,人間研究者と同等かそれ以上の方法論的多様性を示すことがわかった。
    • AIエージェントの推定値は,人間の合意と概ね一致しており,特定の研究者モデルと完全に一致するものは見られなかった。
    • AIエージェントは,プロンプトによる誘導にもかかわらず,集計推定値や最終的な結論を変化させなかった。バイアスの発生源は解釈にあり,推定自体にはない。

    Link: https://arxiv.org/abs/2606.11456

  • APEX:動的データ選択による自動プロンプトエンジニアリング専門家 [cs.CY, cs.CL, cs.AI, cs.LG]目的:大規模言語モデルのプロンプト最適化
    • 大規模言語モデルの性能はプロンプトに大きく左右されるため,自動最適化が重要である。
    • 既存手法はデータ利用効率が悪く,無駄な計算コストが発生しやすい。
    • データ利用を最適化することで,効率的かつ効果的なプロンプト最適化を実現する。
    • APEXは,データをEasy,Hard,Mixedの3層に動的に分類することでデータ利用効率を高める。
    • Gemini 2.5 FlashおよびGemma 3 27Bにおいて,APEXは初期プロンプトに対し平均で11.2%,6.8%の性能向上を達成した。
    • データ中心のアプローチが,効率的なプロンプト最適化の鍵となることを示す。

    Link: https://arxiv.org/abs/2606.11459

  • LSTMに基づく,不動産保険損失準備金の構造的変化の検出:気候情報を活用したアプローチ [cs.LG, cs.AI]目的:不動産保険における損失準備金の構造変化の検出
    • 保険会社の健全性は正確な損失準備金に依存する。近年,気候変動による災害の増加が課題となっている。
    • 従来の数理手法は,データの安定性を前提としているが,近年の災害増加によりその前提が満たされなくなっている。
    • LSTMを用いて構造変化を迅速かつ正確に検出し,損失準備金の精度向上を目指す。
    • LSTMは,従来のChain Ladder法,Bornhuetter Ferguson法,Cape Cod法と比較して,構造変化の検出において優れた性能を示した。
    • フロリダ州とルイジアナ州の15年以上のデータを用いて検証した結果,災害リスクの高い年の損失準備金精度が15~20%向上した。
    • LSTMによる構造変化検出の理論的枠組みを確立し,災害発生頻度の低い場合でも性能が保証されることを示した。

    Link: https://arxiv.org/abs/2606.11463

  • ヘリンガー距離における密度推定:最小距離推定法,ガウス混合,対数凹関数など [cs.DS, cs.LG, math.ST, stat.TH]目的:確率密度関数の正確な推定
    • データ分析や機械学習において,データの分布を把握することは,予測や意思決定に不可欠である。
    • 総変動距離の推定手法は確立しているものの,ヘリンガー距離における推定法の理論的保証は十分ではなかった。
    • ヘリンガー距離における最小距離推定法のレシピを確立し,高速な推定アルゴリズムを開発すること。
    • ヘリンガー距離における最小距離推定法のレシピが,VC次元の評価によって導き出された。
    • 総変動距離向けに設計された既存のアルゴリズムを修正することで,ガウス混合や対数凹密度混合クラスの推定が可能になった。
    • 提案手法は,ほぼ線形時間で動作し,サンプル複雑度はほぼ最適である。

    Link: https://arxiv.org/abs/2606.11469

  • 機械学習を用いたフィッシング検出システムにおけるコンセプトドリフトの影響評価と対策 [cs.CL, cs.CR, cs.LG]目的:機械学習に基づくフィッシング検出システムの性能低下の原因分析と対策
    • デジタル通信の拡大に伴い,メールは重要な通信手段となり,悪意のある攻撃者にとって脆弱性が増大している。
    • フィッシング詐欺は巧妙化の一途を辿っており,従来の検出方法では対応が困難になっている。
    • 機械学習を用いたフィッシング検出システムの性能劣化を抑制し,検出精度を維持することを目的とする。
    • コンセプトドリフトが機械学習モデルの性能に有意な影響を与えることが確認された。
    • コンセプトドリフトの影響を軽減するために,定期的なモデルの再学習が有効であることが示唆された。
    • 本研究で提案する対策は,フィッシング検出システムのロバスト性を向上させる可能性を持つ。

    Link: https://arxiv.org/abs/2606.11471

  • CRUMB:分布一致型コンテキストバッチングによる効率的な事前適合ネットワーク推論 [cs.LG, cs.AI, stat.ML]目的:大規模データセットにおける事前適合ネットワークの効率的な推論手法
    • 表形式データの活用が重要視され,事前学習済みのモデルによる効率的な学習が求められている。
    • 従来の事前適合ネットワークは,自己注意機構の計算コストが高く,大規模データへの適用が困難であった。
    • コンテキストの分布を考慮したバッチングにより,計算コストを抑えつつ高い予測性能を実現すること。
    • CRUMBは,テストクエリをクラスタリングし,各クラスタに対して分布的に一致する訓練データのサブセットを選択する。
    • TabArenaベンチマークにおいて,CRUMBは既存のコンテキスト選択戦略よりも優れた性能を示した。
    • MMD最小化により,CRUMBは共変量シフトに対して頑健であり,現在のテストバッチ分布に適合したコンテキストを構築する。

    Link: https://arxiv.org/abs/2606.11473

  • マハラノビス距離に基づく潜在的なOOD検出による時間変動システムにおけるハイブリッドES-DRL制御 [cs.LG, cs.SY, eess.SY, physics.acc-ph]目的:非線形時間変動システムにおけるテスト時RLコントローラー切り替えのための,マハラノビス距離による潜在的な分布外(OOD)検出
    • 時間変動システム制御は,複雑なシステムを効率的に制御するために重要である。時間変動に対応できるロバストな制御手法が求められている。
    • RLコントローラーは,訓練分布外の観測に対して性能が低下しやすい。OOD検出なくして,安全なシステム運用は困難である。
    • 訓練データにないOODな状態を検出し,適切な制御手法を選択することで,システムの安定性と性能を維持すること。
    • VAEの潜在空間におけるマハラノビス距離を用いることで,OODなビームプロファイルを効果的に検出できることを示した。
    • 提案手法は,粒子加速器制御における空間磁石の動きによって生成されるOODなビームプロファイルを識別し,RLとESの切り替えに有用な信号を提供する。
    • VAE潜在空間の可視化により,提案手法がOODシナリオを識別し,解釈可能な切り替え信号を提供することが確認された。

    Link: https://arxiv.org/abs/2606.11474

  • 完全自動試験採点に向けて:ファウンデーションモデルを用いた手書き解答の公平性に基づいた認識 [cs.CV, cs.AI]目的:手書き解答の公平性に基づいた認識
    • 手書き試験の採点は時間と労力を要し,大規模な集団では誤りが生じやすい。
    • 従来の自動採点システムは認識精度が低く,特に重要なケースで失敗していた。
    • ファウンデーションモデルを用いて,手書き解答の認識精度と公平性を向上させる。
    • 汎用的なビジョン言語ファウンデーションモデル(VLM)を用いることで,解答認識の精度が大幅に向上し,98.4%を達成した。
    • 参照解答を文脈として与えるプロンプトにより,誤判定(学生に不利になる誤り)の割合を0.58%まで低減することに成功した。
    • 実際の採点スキームにおいて,61件の試験のうち3件のみが手動採点より悪く評価され,学生による自己レビューで捕捉可能であった。

    Link: https://arxiv.org/abs/2606.11477

  • 正確かつ効率的な連合継続学習 [cs.LG]目的:連合継続学習における,リソース効率と精度の向上
    • データ分散環境下での機械学習の重要性が高まる中,プライバシー保護と効率的な学習が課題。
    • 既存の連合継続学習は,通信コストや計算負荷が大きい点が課題。
    • 通信コストを削減しつつ,高い精度を維持する連合継続学習手法の開発。
    • 提案手法FedRANは,勾配ベースの更新をコンパクトなランダム特徴統計量に置き換えることで,通信量を大幅に削減。
    • CIFAR-100,ImageNet-R,VTAB等のデータセットで,既存手法と比較して平均精度が最大4.8%向上。
    • 少ないラベル数(20%)でも,疑似ラベルを用いた学習により平均精度が最大6.61%向上。

    Link: https://arxiv.org/abs/2606.11480

  • OmniLoc: 幾何学情報を考慮したアンカーフリーUE位置推定のための基盤モデル [cs.SI, cs.CL, cs.CC, cs.RO, cs.LG, cs.SY, eess.SY]目的:多様な屋内環境におけるアンカーフリーUE位置推定
    • 屋内測位は,建物の構造やアクセスポイントの配置に大きく左右されるため,実用化が困難である。
    • 既存の学習ベースの手法は,環境の変化に弱く,汎用性に欠ける点が課題である。
    • 無線測位データを直接利用する基盤モデルを構築し,環境変化に強い位置推定を実現する。
    • OmniLocは,既存手法と比較して大幅な性能向上を示し,大規模データセットと公開ベンチマークで優れた結果を得た。
    • その設計要素を既存のモデルに組み込むことで,性能向上が確認された。
    • 異なる環境間での評価においても,高い汎化性能を示すことが示された。

    Link: https://arxiv.org/abs/2606.11490

  • ハブか周辺か:ウェブグラフ中心性による事前学習データ選択 [cs.CL, cs.AI]目的:事前学習データ構成の最適化
    • 大規模言語モデルの性能向上には,事前学習データの質が不可欠である。
    • 既存手法は補助的な分類器や混合最適化に依存し,計算コストが高い。
    • ウェブグラフの構造的中心性に基づき,効率的なデータ選択を目指す。
    • 中心的なホストは再利用可能な抽象化をモデルに提示し,周辺的なホストは特殊な知識を符号化する。
    • ウェブグラフ構造のスコアを組み合わせることで,既存手法を上回る性能が確認された。
    • 中心と周辺のウェブ領域を1:1で組み合わせることで,平均で1.6%の性能向上が見られた。

    Link: https://arxiv.org/abs/2606.11499

  • ロールプレイにおいて,モデルは自らの発言を信じているのか? [cs.CL, cs.AI]目的:言語モデルにおける信念の内部表現の変化
    • 大規模言語モデルの発展に伴い,その出力の信頼性や内部表現が重要視されている。
    • 言語モデルが状況に応じて異なる人格を演じる際,その信念の変化が不明確である。
    • ロールプレイが言語モデルの内部表現に及ぼす影響を,歴史上の人物を例に検証する。
    • 言語モデルは,ロールプレイによって発言内容を変化させるが,内部的な信念の表現は大きく変わらない。
    • 歴史上の人物になりきった場合,その人物が信じていたであろう誤った主張は,それ以外の誤った主張よりも抑制が弱まる。
    • 有害な助言を学習したモデルと比較すると,ロールプレイは信念の内部化の度合いが低いことが示された。

    Link: https://arxiv.org/abs/2606.11502

  • 深層学習を用いた生体認証詐欺検出に関する研究 [cs.CV, cs.AI, cs.CR]目的:深層学習による生体認証詐欺検出の有効性評価
    • セキュリティ向上への貢献が期待されるため,生体認証技術の安全性確保は重要である。
    • 生体認証システムは,偽造データを用いた詐欺攻撃に対して脆弱であるという問題がある。
    • 顔認識システムにおける詐欺攻撃検出能力向上を目指し,汎化性能の評価を行う。
    • MobileNetV2が92%の精度で最も効率的なモデルであり,実用性に適していることが示された。
    • Inception-v3は中程度の堅牢性を示す一方,DenseNet-121とSTDは汎化性能に課題がある。
    • ドメイン適応やハイブリッドアーキテクチャの開発が,生体認証システムのセキュリティ強化に不可欠である。

    Link: https://arxiv.org/abs/2606.11505

  • マルチタスクADME特性予測のための確率的コントラスト学習事前学習 [cs.LG, q-bio.QM]目的:ADME特性予測における性能向上
    • 創薬において,ADME特性の正確な予測は不可欠だが,データ不足や相互依存性により困難である。
    • 既存手法では,ADMEエンドポイントのノイズや複雑な関係性を捉えきれていない。
    • 化学特有の自己教師あり学習とコントラスト学習を組み合わせることで,予測精度を向上させる。
    • 提案手法であるContrastive KERMTは,Biogen, ExpansionRX, ChEMBL-MTにおいてそれぞれ7.6%, 9.9%, 9.5%の性能向上を示した。
    • 事前学習コーパスにADME関連分子を追加することで,転移学習の性能がさらに向上した。
    • コントラスト学習により,化学的に意味のある潜在空間が明確化された。

    Link: https://arxiv.org/abs/2606.11508

  • SirenFNO:フーリエニューラル演算子の効率的かつ全周波数学習 [cs.LG, cs.AI]目的:偏微分方程式の解の近似手法
    • 物理現象のシミュレーションにおいて,高精度かつ効率的な数値解法の重要性が増している。
    • 従来のフーリエニューラル演算子では,計算効率のため周波数情報を制限しており,高周波成分を含む問題への適用が困難であった。
    • 周波数制限をなくし,高周波成分も正確に学習可能な新たな手法を開発し,より幅広い偏微分方程式に対応すること。
    • 提案手法SirenFNOは,SIRENを用いて全周波数スペクトルを学習することで,従来のFNOよりもパラメータ数を大幅に削減しながら,同等の精度を達成した。
    • SirenFNOは,最大で73倍のパラメータ削減を実現し,様々な偏微分方程式ベンチマークで優れた性能を示した。
    • SirenFNOは,離散化に依存しない特性を維持しており,異なる離散化スキーム間での汎化性能も保証されている。

    Link: https://arxiv.org/abs/2606.11518

  • ISE:マルチターンOSエージェント軌跡のための実行に基づいたレシピ [cs.CL, cs.AI, cs.LG]目的:構造化されたユーザーの意図,マルチターンのタスク委譲,および具体的なツール実行を同時に捉えたデータセット
    • OSエージェントの開発には,人間の指示に従いOSを操作する能力が不可欠であり,その学習データが重要となる。
    • 既存のデータセットは,構造化された意図,マルチターン対話,実際のツール実行の記録が不足しているという課題がある。
    • 本研究は,これらの課題を解決し,より高性能なOSエージェントを育成するための学習データセットを構築する。
    • ISETraceデータセットでのファインチューニングにより,Qwen3-8BにおけるClawEvalのpass@1が19.3%から37.7%に向上した。
    • この結果は,ゼロショットのGPT-4oや,4倍大きなQwen3-32Bベースモデルを上回る性能を示している。
    • マルチターンシミュレーション(Stage 2)が,性能向上に大きく貢献することが示唆された。

    Link: https://arxiv.org/abs/2606.11520

  • 大規模言語モデルにおける反例誘導学習 [cs.LG]目的:反例を用いた大規模言語モデルの学習戦略
    • 大規模言語モデルの性能向上は重要であり,そのためのフィードバック活用が課題となっている。
    • フィードバックは多様で制御が難しく,言語モデルが改善可能か判断しにくいという問題がある。
    • 正則表現誘導問題を通して,反例という明確なフィードバックによる学習メカニズムを確立する。
    • 検証者からのフィードバックにより,複雑な正則表現誘導タスクにおいてサンプル効率が大幅に向上した。
    • 最も難しいタスク群において,成功率が3.2%から38.1%へ,38.9%から74.1%へと改善された。
    • これらの結果は,大規模言語モデルが単純なデータ追加以上の,豊富なフィードバックから恩恵を受ける可能性を示唆している。

    Link: https://arxiv.org/abs/2606.11521

  • 長期的研究エージェントのための探索規律 [cs.AI, cs.LG]目的:科学的候補の提案,評価,選択における問題点の克服
    • 科学研究の進展には,効率的な候補探索と検証が不可欠である。
    • 集約された評価指標では,候補の多面的な妥当性が見過ごされやすい。
    • 分散した構造における妥当性を評価し,誤った候補選択を防ぐこと。
    • 集約された評価指標が向上しても,詳細な構造が反転する現象が確認された。
    • 候補の妥当性が多次元であるにもかかわらず,検証が単一の指標に依存する場合に発生する。
    • 外部制御ループによる候補の行動監査と,レビュー可能な証拠に基づく意思決定が提案された。

    Link: https://arxiv.org/abs/2606.11522

  • コントラスト相互作用によるゼロからの物体操作学習 [cs.RO, cs.LG]目的:物体操作におけるコントラスト強化学習の効率と性能向上
    • ロボットの自律的な操作能力は,人間とロボットの協調作業や多様なタスクの自動化に不可欠である。
    • 従来のコントラスト強化学習は,複雑な相互作用を伴う物体操作において,性能が伸び悩むという課題があった。
    • 相互作用を考慮した表現学習により,非線形な到達可能性構造を捉え,操作性能を向上させることを目指す。
    • 相互作用重視のリサンプリング(IWR)を導入し,相互作用前,最中,後の段階で表現を調整することで,モード境界の維持を促進した。
    • 2D制御,ロボット操作,エアホッケーを含む様々な環境で,IWRは既存のコントラスト強化学習手法と比較してサンプル効率と全体的な性能を向上させた(平均19.8%)。
    • IWRで訓練したポリシーを用いたシミュレーションから現実世界への転移により,初めてゴール条件付きのロボットエアホッケーエージェントがゴールを達成できることを示した(成功率25%から60%へ)。

    Link: https://arxiv.org/abs/2606.11525

  • AI研究者は軍備管理の主導に協力し,軍事AIのリスクを軽減する必要がある [cs.CY, cs.AI, cs.ET, cs.LG]目的:軍事AIのリスク軽減のための軍備管理研究の推進
    • AI技術の進展は世界的な影響を及ぼすため,その潜在的リスクへの意識向上は不可欠である。
    • 軍事AI応用の規制に関する議論が不十分であり,技術的リスクの軽減が遅れている。
    • 軍事AIにおける不安定要因を明確化し,リスクを最小限に抑えるための軍備管理研究を促進する。
    • AI研究者と軍備管理の専門家,軍事指導者の協力体制構築が急務である。
    • 核抑止の教訓を活かし,AI安全保障研究における検証と外交の革新を促すことが重要である。
    • AI研究者は,軍事利用における不安定性を定義し緩和するための技術研究を主導する必要がある。

    Link: https://arxiv.org/abs/2606.11533

  • MoCA-Agent:金融および数値推論のための主張市場コードエージェント [cs.AI, cs.CE]目的:金融および表形式の質問応答における正確な根拠に基づく回答の実現
    • 金融分野は,高度な数値計算と正確な情報解釈が不可欠であり,誤りは重大な結果を招く可能性がある。
    • 既存の手法では,数値や単位の誤読,計算ミスなどにより,妥当に見える誤った回答が生成されるリスクがある。
    • 原子的な主張レベルでの検証により,数値推論の堅牢性を向上させ,より信頼性の高い回答を得ることを目指す。
    • MoCA-Agentは,主張市場メカニズムを用いて各質問を原子的な主張に分解し,専門エージェントによる検証を行う。
    • これにより,FinQAで78.3%,FinanceMathで76.0%,ESGeniusで86.9%など,複数のベンチマークで高い性能を達成した。
    • 主張レベルでの証拠集計が,高リスクな数値推論における信頼性を向上させることを実証した。

    Link: https://arxiv.org/abs/2606.11537

  • 事前学習済み自己教師あり音声モデルは未知の子音を認識できる [cs.CL, cs.AI]目的:未知の子音認識能力
    • 音声認識技術は,人間と機械のコミュニケーションにおいて不可欠であり,その性能向上は重要な課題である。
    • 既存の音声モデルは,リソース豊富な言語に偏ったデータで学習されているため,リソースの少ない言語の子音認識性能が課題となる。
    • 本研究は,自己教師あり学習によって未知の音声素(特にクリック音)の認識性能を評価し,その可能性を探る。
    • 事前学習済みモデルをファインチューニングした結果,クリック音と非クリック音を区別する精度が向上した。
    • 特に,クリック音の認識精度が非クリック音よりも高いことから,自己教師あり学習が稀な音素の一般化に寄与することが示唆された。
    • この結果は,自己教師あり学習が言語資源の少ない言語における音声認識の可能性を広げることを示している。

    Link: https://arxiv.org/abs/2606.11542

  • スキル審査員:エージェントのスキル編成が実行時動作に及ぼす影響の測定 [cs.AI, cs.SE]目的:エージェントのスキル編成の変化と実行時動作の関係性の評価
    • LLMエージェントの能力向上には,推論時の手続き的知識の活用が不可欠である。
    • 既存の評価指標では,スキルの内容と編成の違いが明確に区別されていない。
    • スキル編成がエージェントの知識探索と適用方法に影響を与える点を検証する。
    • プログレッシブ・ディスクロージャーは,実行時に参照するスキル資源数を増加させる。
    • プログレッシブ・ディスクロージャーは,検証をパスする試行回数をわずかに増加させる。
    • スキル編成の効果は,タスクの種類によって異なり,資源の活用可能性が重要となる。

    Link: https://arxiv.org/abs/2606.11543

  • 拡散モデルによる左から右への推測能力の学習 [cs.CL, cs.LG]目的:大規模言語モデルの推論コスト削減
    • 言語モデルの性能向上は,その計算コストが課題となっている。
    • 逐次的なトークン生成が,推論速度のボトルネックとなっている。
    • 拡散モデルを用いた推測生成の効率化と性能向上を目指す。
    • 提案手法により,受理されるドラフトの長さがベンチマークごとに21~76%向上した。
    • 追加のフォワードパスや推論パイプラインの変更は行われていない。
    • 位置重み付け,初回エラー損失,チェーン損失が効果的に機能することが示された。

    Link: https://arxiv.org/abs/2606.11552

  • APEX:ワイヤレスエッジ運用における予測と異常検知のためのネットワークネイティブ時系列基盤モデル [cs.LG]目的:ワイヤレスネットワークテレメトリの予測と異常検知
    • 無線ネットワークの安定稼働は,現代社会における通信インフラの中核であり,その重要性は増している。
    • 既存の時系列基盤モデルは,バースト性,ゼロインフレ,プロトコル層間の結合といった無線ネットワーク特有の信号に対応できていない。
    • ネットワーク固有の事前学習により,ワイヤレス運用におけるプロアクティブな対応を可能にすることを目指す。
    • APEX-Largeは,DHCP劣化予測において,既存の基盤モデル(Toto)と比較してMAEを18%削減,SARIMAと比較して38%削減した。
    • APEXは,異常検知においてF1スコア0.93を達成し,高い精度を示した。
    • APEX-Edgeは,APクラスのエッジハードウェア上でサブ秒単位の,プライバシーを保護した推論を可能にした。

    Link: https://arxiv.org/abs/2606.11553

  • エッジデバイスにおける心電図異常検知のためのプライバシー保護連合学習オートエンコーダ [cs.CR, cs.AI, cs.LG]目的:心電図異常検知のためのプライバシー保護連合学習システムの開発
    • 心血管疾患の早期発見は重要であり,継続的な心電図モニタリングが有効である。
    • 個人情報保護の要件,エッジデバイスの計算能力の制約,データ分布の非一様性が課題である。
    • 上記の課題を同時に解決し,実用的な心電図異常検知システムを構築すること。
    • 連合学習は,全てのアーキテクチャにおいて,集中型ベースラインと同等以上の性能を達成した。
    • ε=4が推奨される臨床運用ポイントとして特定され,差分プライバシーと量子化のペナルティは独立していることが示された。
    • INT8量子化によりモデルサイズがほぼ半減し,Raspberry Pi 4の遅延が最大44%削減された。

    Link: https://arxiv.org/abs/2606.11556

  • HERO:環境観測に基づく事後的反射によるエージェントの自己蒸留 [cs.AI]目的:多段階エージェントの能力向上
    • 強化学習はエージェントの能力向上に不可欠だが,各中間段階への貢献度特定が困難。
    • 既存の自己蒸留法を多段階設定に単純に拡張すると性能が低下することがある。
    • 特権的なフィードバックと現在の決定文脈のずれを解消し,性能低下を防ぐ。
    • HEROは,環境観測を局所的に整合性の高いフィードバックとして活用する。
    • HEROは,ロールアウト後に各観測を簡潔なターンレベルの診断に変換する。
    • TauBenchとWebShopにおいて,HEROはタスク成功率を向上させ,不要なターン数を削減した。

    Link: https://arxiv.org/abs/2606.11559

  • LLMとグラフ:グラフネイティブな相乗AIシステムへ [cs.DB, cs.AI]目的:LLMとグラフの相乗効果による,次世代AIシステムの構築
    • 社会,生物,金融など様々な分野でグラフ構造データが活用されており,その重要性は高い。
    • LLMは構造化された多段階推論に限界があり,グラフ構造データを活用する手法が求められている。
    • LLMとグラフの統合により,推論能力の向上と知識の整合性確保を目指す。
    • LLMにグラフ計算を組み合わせることで,検索と推論能力が向上する。
    • LLMと知識グラフの双方向統合により,知識グラフの構築支援と意味制約の実装が可能となる。
    • グラフアルゴリズムによって強化されたAIエージェントは,計画立案や意思決定において高い能力を発揮する。

    Link: https://arxiv.org/abs/2606.11560

  • GraphInfer-Bench:グラフにおけるLLMの推論能力のベンチマーク [cs.LG, cs.CL]目的:グラフ推論能力の評価
    • グラフ分析は,不正検知や創薬など,多様な分野で重要な役割を担う。
    • 既存のグラフQA手法では,単一ノードや経路から得られる情報のみを利用するため,複雑な推論を評価できない。
    • 単一ノードや経路からは導出できない,グラフ全体の構造に基づいた推論能力を評価する。
    • GraphInfer-Benchは,DescriptionとComparisonの2つのタスクに基づき,42,000のサンプルで構成される。
    • グラフトークンアラインメントモデルはDescriptionタスクで一定の性能を示すものの,Comparisonタスクでは性能が低下する。
    • 最先端LLMは外れ値検知やコミュニティ分割で優位性を示すが,マスクノード予測ではGNNに劣る。

    Link: https://arxiv.org/abs/2606.11562