arXiv雑要約

AI - 2026/06/16 公開

OSGuard：コンピュータ利用エージェントの安全性評価ベンチマーク [cs.HC, cs.CL, cs.CY, cs.AI]目的：コンピュータ利用エージェントにおける安全性評価
- 現実世界のタスク実行能力が重要視される中で，安全性確保は不可欠である。
- タスク達成のみでは，危険な方法で目標を達成するケースを見落とす可能性がある。
- エージェントの安全性評価を詳細に行い，危険な行動を特定し，安全性を向上させる。
- OSGuardは，アクションレベルと実行レベルの二重構造で安全性を評価するベンチマークである。
- 既存のマルチモーダルガードレールは，単独のアクション判断は得意だが，全体の安全性には課題が残る。
- この二重構造設計により，モデルが危険なアクションを認識し，タスク全体の安全性を向上させられるかを正確に診断できる。
Link: https://arxiv.org/abs/2606.15034
Transformers は Mestre-Nagao ヒューリスティックを学習する [cs.LG, math.NT]目的：有理楕円曲線E/ℚの導手が 10000 以下のものを，最初の 128 個の正規化フロベニウストレースからランク 0 またはランク 1 に分類すること
- 楕円曲線のランクは数論における重要な問題であり，暗号理論などに応用がある。
- フロベニウストレースから楕円曲線のランクを効率的に予測することは難しい課題である。
- 本研究では，トランスフォーマーモデルを用いてフロベニウストレースからランクを予測し，そのメカニズムを解明する。
- トランスフォーマーモデルは，99% 以上の精度でランク 0 またはランク 1 の楕円曲線を分類することに成功した。
- 学習されたモデルは，Mestre-Nagao 和ヒューリスティックの重みと高い相関を示し，データから数論の結果を学習したことを示唆している。
- モデルの CLS 埋め込みは log{L(E,1)} を高い精度でエンコードし，注意機構は素数位置に集中する傾向がある。
Link: https://arxiv.org/abs/2606.15036
融合は万能ではない：イベント発生時間モデリングのためのクロスモーダル表現アライメント [cs.AI]目的：マルチモーダル臨床データからのイベント発生時間予測の精度向上
- 医療現場では，様々なデータ形式(画像，診療記録等)から患者の予後を予測することが重要である。
- 異なるデータ形式間には不均衡や分布のずれが存在し，正確な予測を困難にしている。
- データ形式間の表現アライメントを通じて，予測精度の向上と汎化性能の向上を目指す。
- 異なる融合戦略(late fusion, contrastive alignment, cross-attention, co-attention)を比較検討した結果，全体として融合が予測精度を向上させた。
- 特に，contrastive multimodal fusionは，肺塞栓症の死亡予測において，最も一貫性と統計的な頑健性を示した。
- 心血管疾患の予測においては，cross-attentionとimage-guided co-attentionがそれぞれ内部検証と外部検証で最良の結果を示した。
Link: https://arxiv.org/abs/2606.15038
拡散モデルに対する時間差分学習 [cs.LG, cs.CV]目的：拡散モデルの時間的一貫性向上
- 拡散モデルは高品質な画像生成を可能とするが，計算コストが高いという課題がある。
- 従来の訓練方法は，ノイズ除去軌跡の一貫性を十分に考慮していない場合がある。
- 時間差分学習を用いて，少ないステップ数でのサンプリング精度を改善すること。
- 時間差分学習を導入することで，FIDスコアによるサンプル品質が大幅に向上することが示された。
- 特に，サンプリングステップ数が少ない場合に，その効果は顕著に現れる。
- 提案手法は，様々な拡散モデルに適用可能であり，汎用性が高い。
Link: https://arxiv.org/abs/2606.15048
PANDA：LLMを活用した性能重視のアナログ回路設計フレームワーク - 設計意図とレイアウト生成の連携 [cs.DC, cs.NI, cs.AR, cs.AI]目的：アナログ回路設計の自動化による効率化と性能向上
- アナログ回路設計は，高性能なシステムを実現する上で不可欠であり，その重要性は増している。
- 従来のアナログ回路設計は手作業に依存しており，設計期間が長く，人的ミスも発生しやすい。
- 設計意図から直接レイアウトを生成するフレームワークを構築し，設計期間を短縮し，性能を向上させる。
- PANDAは，LLMを活用することで，回路トポロジーの合成，サイズ決定，レイアウト生成における相互依存関係を管理する。
- これにより，アルゴリズム中心の設計から，設計意図を中心とした共同設計への移行を実現した。
- 設計期間を数日から数時間へと大幅に短縮し，回路性能の向上にも貢献する。
Link: https://arxiv.org/abs/2606.15052
物理法則適合な潜在的二重表現 [cs.LG, cs.NA, math.NA]目的：物理法則を尊重する高速予測モデルの学習
- 複雑な物理システムの予測・シミュレーションには，計算コストが低い代替モデルが不可欠である。
- 時間依存問題において，既存の代替モデルは物理法則や構造を必ずしも保存しないという課題がある。
- 物理法則を設計段階で組み込み，より信頼性の高い代替モデルを構築することを目的とする。
- 潜在的二重表現の枠組みを拡張し，潜在空間でのダイナミクスに物理構造を保存または消散させる制約を導入した。
- 制約伝達の視点から，元の状態空間の物理構造と潜在空間の制約との関連性を示し，潜在空間での制約強化が復号後の物理的欠陥の制御を改善することを示した。
- 線形・二次不変量保存や消散不等式の強制に関する代数的条件を導出し，数値実験で制約充足度，構造的忠実度，長期挙動の改善を確認した。
Link: https://arxiv.org/abs/2606.15053
サイズは重要ではない：コサインスコアによるスパースオートエンコーダ [cs.LG]目的：コサインスコアを用いたスパースオートエンコーダの性能評価
- 深層学習モデルにおける特徴抽出は，モデルの性能を大きく左右するため重要である。
- 従来のスパースオートエンコーダは入力のノルムに依存し，無関係な特徴を学習しやすいという課題があった。
- コサインスコアを用いることで，入力ノルムへの依存を低減し，意味のある特徴抽出を目指す。
- コサインスコアを用いた場合，従来のinner productによる方法と比較して，より人間が認識しやすい概念と一致する特徴を学習できることが示された。
- 学習過程において，入力のノルムへの依存性はほとんど見られず，コサインスコアが有効であることが確認された。
- 正規化された表現に対する辞書学習においては，コサインスコアをデフォルトとして使用することが推奨される。
Link: https://arxiv.org/abs/2606.15054
地理的偏りを克服する都市景観推論：視覚・意味的ピボットを用いた継続学習 [cs.CV, cs.AI]目的：都市景観推論における地理的偏りの軽減
- 都市計画，公衆衛生，地域活性化において，都市景観の視覚的理解は不可欠である。
- 既存モデルは，撮影頻度の低い地域で性能が低下し，地理的偏りを増幅させている。
- 異なる地域の都市景観データを継続的に学習し，地理的偏りを低減することを目指す。
- 提案手法HVSP-LLは，12都市を対象とした評価で，既存手法を大幅に上回る性能を示した。
- 特に，都市間の知覚ギャップを38%削減し，地理的に公平な景観推論を可能にした。
- 階層的アンカーと公平性を考慮したリハーサルが，継続学習における性能向上に貢献していることが確認された。
Link: https://arxiv.org/abs/2606.15055
AutoDojo：適応的攻撃によるLLMエージェントの脆弱性とユーザー定義の限界の露呈 [cs.CR, cs.AI]目的：LLMエージェントに対する間接プロンプトインジェクション攻撃に対する防御の評価
- LLMエージェントの利用拡大に伴い，セキュリティリスクの評価が不可欠となっている。
- 既存の評価ベンチマークは静的であり，適応的な攻撃に対する防御の堅牢性を評価できない。
- 適応的な攻撃を用いて，既存防御の限界を明らかにし，より安全なエージェント構築に貢献する。
- AutoDojoを用いて既存の防御を攻撃した結果，多くの防御が限定的な保護しか提供しないことが判明した。
- 特に，ユーザーの指示が攻撃者の制御下にある「アクションオープン」タスクにおいて，高い攻撃成功率が確認された。
- これは，防御が指示のようなテキストの検出に依存している構造的な限界によるものである。
Link: https://arxiv.org/abs/2606.15057
機械学習とランダムウォークのパズル：拡大窓評価とSHAP解釈を用いたCAD/USD為替レートの予測 [cs.LG, stat.AP]目的：月次USD/CAD為替レート予測における機械学習モデルの性能評価
- 為替レートの予測は国際金融市場における重要な課題であり，経済政策や企業戦略に大きな影響を与える。
- 従来の予測モデルは，為替レートの変動を捉えきれず，予測精度が低いという課題がある。
- 機械学習モデルの有効性を検証し，為替レート予測の精度向上を目指す。
- 線形回帰モデルのみが，ランダムウォークモデルと比較して統計的に有意な予測性能の向上を示した。
- その他の機械学習アンサンブルモデルは，ランダムウォークモデルとの間に有意な差は見られなかった。
- SHAP分析の結果，短期的なラグと移動平均が予測の主要な要因であることが確認され，為替レートのランダムウォーク的な性質と一致した。
Link: https://arxiv.org/abs/2606.15058
フェーズ局所的キュレーションは役に立たない：デモンストレーションフィルタリングのためのフェーズごとの指標選択に関する否定的な結果 [cs.LG, cs.RO]目的：デモンストレーションフィルタリングにおけるフェーズごとの指標選択の効果の検証
- ロボットによる模倣学習において，効率的な学習には適切なデモンストレーションデータの選択が不可欠である。
- 単一のグローバルな指標では，欠陥の検出とポリシーのキュレーションの両方を最適化することが難しい。
- フェーズごとの指標選択が，デモンストレーションデータのキュレーションを改善すると仮定されているが，その有効性は不明である。
- フェーズごとのキュレーションは，グローバルな指標や一様適用と比較して，キュレーション戦略として優れていないことが示された。
- 欠陥信号が特定のフェーズに集中する場合，フェーズ間で指標を集約することで，その信号が希釈され，より質の低いデモンストレーションが選択される。
- フェーズごとの指標選択はタスク間で転移せず，各タスクごとに指標を再検討する必要があることが明らかになった。
Link: https://arxiv.org/abs/2606.15064
TriAdReview：マルチモーダル技術文書生成のための三角敵対的レビューアーキテクチャ [cs.NI, cs.LG]目的：マルチモーダル技術文書生成における出力品質の向上
- 技術文書の自動生成は，専門知識の効率的な伝達と生産性向上に不可欠である。
- 単一モデルによる生成は，過剰な設計やセキュリティ上の脆弱性，情報不足といった課題を抱える。
- 複数のモデルを用いた敵対的レビューにより，生成モデルの欠点を補完し，品質向上を目指す。
- TriAdReviewは，生成モデルを2つのレビューモデル（エンジニアリングと境界条件）で評価し，反復的に改善する。
- 5つのベンチマークタスクにおいて，単一モデルと比較して，TriAdReviewのトリプルモデル構成で全体的な性能が10.1％向上した。
- 特にセキュリティ監査，コード生成，アーキテクチャ設計で大きな改善が見られたが，要件分析では性能が低下する傾向も確認された。
Link: https://arxiv.org/abs/2606.15074
地理空間データ検索のためのリスク認識型LLMエージェント：設計と予備的な敵対的評価 [cs.DC, cs.AI, cs.CL]目的：地理空間データの検索システム
- 地球観測の重要性が増しており，効率的なデータアクセスが不可欠である。
- 自然言語によるデータ検索は，API操作の複雑さや安全性確保の課題を抱えている。
- API操作時のリスクを軽減し，安全かつ効率的なデータ検索を実現すること。
- LLMを活用したフレームワークにより，自然言語クエリから地理空間データを効率的に取得可能となった。
- Guardrailエージェントによる安全対策が，ある程度の堅牢性向上に貢献するものの，高影響度の失敗事例も存在する。
- 安全性，使いやすさ，コスト効率のバランスを取るための，適応的なシステムレベル防御の必要性が示唆された。
Link: https://arxiv.org/abs/2606.15077
認知債務：AIを知的レバレッジとして捉え，システム的脆弱性のダイナミクス [cs.AI, cs.GT, physics.soc-ph]目的：認知債務の蓄積とそのシステム的影響
- AI技術の発展は生産性向上に貢献する一方，人間の認知能力への依存度を高める。
- AIへの過度な依存は，人間の批判的思考力や問題解決能力の低下を招く恐れがある。
- AI利用による認知的なリスクと，システム全体の脆弱性を定量的に分析し，最適利用の道筋を示す。
- AIを思考の代替手段として利用する場合，短期的な生産性向上と引き換えに，検証されない推論義務が累積し「認知債務」となる。
- 平穏な時期にはAIの代替利用が促進され，システム全体としての脆弱性が高まる。これは認知的なミンスキー・モーメントと呼ばれる。
- AIの過剰な利用は，社会全体の最適解から逸脱し，認知的なパブリック・グッズの喪失や競争激化を引き起こす可能性がある。
Link: https://arxiv.org/abs/2606.15078
Ling および Ring 2.6 技術報告：トリリオンパラメータ規模での効率的かつ即応的なエージェント型知能 [cs.CL, cs.AI]目的：トリリオンパラメータ規模での，効率的かつ即応的なエージェント型知能の実現
- 大規模言語モデルは，多様なタスクに対応可能であり，社会に大きな変革をもたらす可能性を秘めている。
- 応答速度と推論能力を両立させつつ，学習，運用，展開を現実的に行うことが課題となっている。
- モデルアーキテクチャ，最適化，運用システム，学習環境の共同設計により，効率性と性能の向上を目指す。
- Ling-2.6は，即応性とトークンあたりの能力に優れ，Ring-2.6は，高度な推論と複雑なエージェントワークフローに適している。
- ハイブリッド線形注意機構や進化型思考連鎖などの手法により，効率性と性能が向上した。
- 大規模な環境に基づいたデータによる安定した学習を可能にする強化学習フレームワークKPopが提案された。
Link: https://arxiv.org/abs/2606.15079
AdaMame：適応的多言語推論のための学習レシピ [cs.CL, cs.AI]目的：多言語数学的推論における言語崩壊の緩和
- 大規模言語モデルの多言語対応は，グローバルな情報アクセスや知識共有に不可欠である。
- 大規模推論モデルは，英語では高い性能を示すが，クエリ言語での推論が苦手な言語崩壊が課題である。
- クエリ言語への適応的アラインメントにより，精度を損なわずに言語崩壊を解消することを目指す。
- AdaMameは，5言語の自然な推論トレースでSFTを行い，多言語推論能力を確立する。
- AdaMame-GRPOは，クエリ言語に依存したアラインメント係数を徐々に増加させ，多様な言語探索を促す。
- 2つのベンチマーク，2つのLRM，12言語で評価した結果，精度，言語忠実度，トークン効率において，既存手法を上回るPareto最適解を達成した。
Link: https://arxiv.org/abs/2606.15080
一般化ヤング・バクスター方程式に基づく積分可能なトークン混合層 [cs.LG]目的：系列トークン混合層の構造
- 系列データ処理において，計算の安定性と効率性は重要課題である。
- 既存の混合層は，計算の安定性や系列長への汎化性能に課題がある。
- ヤング・バクスター方程式に基づく安定した系列処理アーキテクチャを構築する。
- YB Mixerは，自由フェルミオンと一般化ヤング・バクスター構造から導出された系列トークン混合層である。
- アイジング交換代数を用いることで，ノルムを厳密に保存する直交マップを実現している。
- スペクトル巡回生成器により，系列長への汎化性能を向上させている。
Link: https://arxiv.org/abs/2606.15085
脳コンピュータインターフェースによる感覚回復：統一された2x2フレームワークと収束ロードマップ [cs.HC, cs.AI]目的：脳コンピュータインターフェースによる感覚および運動機能回復の可能性
- 神経変性疾患や外傷により感覚・コミュニケーション障害を抱える人々が多く，その回復が急務である。
- 侵襲的神経補綴と非侵襲的電気生理学的デコーダの間で研究が分断され，用語や評価指標が統一されていない。
- 両手法の統合と，機械学習モデルの活用による限界克服を目指す。
- 本研究では，侵襲性と信号方向の2軸によるBCIの分類フレームワークを提示し，分野間の整合性を高める。
- 感覚回復，代替，拡張というパラダイムを明確に定義することで，研究の方向性を示唆する。
- 短期・中期・長期的なロードマップを提示し，BCI技術の統合と発展の道筋を示す。
Link: https://arxiv.org/abs/2606.15091
言語モデルにおける活性化ベクトル操縦のための高次元ランダム射影 [cs.LG]目的：言語モデルの活性化ベクトル操縦手法
- 大規模言語モデルの制御は，安全性や倫理的な観点から重要性を増している。
- 従来の差分平均に基づく手法では，非線形特徴空間の識別信号を捉えきれない。
- HiDRAは，高次元空間での射影により識別構造を改善し，より効果的な制御を目指す。
- HiDRAは，既存の活性化ベクトル操縦手法と容易に統合できる学習不要なアプローチである。
- 実験結果から，HiDRAは様々な言語モデルにおいて，既存手法を上回る性能を示すことが確認された。
- 計算コストの増加も少なく，より強力な行動制御を実現する。
Link: https://arxiv.org/abs/2606.15092
RH近傍の形式的進展に対するVGPT-RSI：境界証明，検証済みの有限ラグリアス不等式，および明示的な失敗局所化 [eess.SY, cs.SY, cs.AI]目的：リーマン予想に関連する形式的証明の進展
- リーマン予想は数学の中心的な未解決問題であり，その解決は数学全体に影響を与える。
- 形式的な証明は高度な技術を要し，誤りのリスクも伴うため，信頼性の高い検証システムが不可欠である。
- AI支援システムを用いて，形式的証明の過程における数学的な障壁を明確に特定すること。
- VGPT-RSIを用いて，パラメータ化された安全な下限曲線に対する有限のRH境界証明を構築・検証した。
- 有限のラグリアス基準に関する証明を形式化し，Coqで検証可能な有限証明を生成した。
- 未解決の数学的なボトルネックとして，ラグリアス同値性の形式化，グローバル尾定理の証明，および反例の局所化が特定された。
Link: https://arxiv.org/abs/2606.15096
思考を減らし，早期に行動：視覚-言語-行動モデルにおける早期終了による潜在的推論の強化 [cs.CV, cs.LG, cs.RO]目的：視覚・言語・行動モデルにおける潜在的推論の効率化と安定性向上
- ロボット工学において，環境を理解し行動を決定する能力は重要である。複雑なタスクには高度な推論が必要となる。
- 既存のモデルは，計算コストが高く，多段階タスクで誤りが伝播しやすいという課題がある。
- 潜在的推論のノイズを軽減し，タスクレベルの報酬に基づいて推論経路を最適化することを目指す。
- 提案手法AVA-VLAは，明示的なCoTと比較して6倍の推論速度向上を達成した。
- LIBEROベンチマークにおいて，98.3%という高い成功率を示し，長期的な安定性を改善した。
- 状態の確信度に基づいた早期終了戦略により，効率と深さの間の動的なトレードオフを実現した。
Link: https://arxiv.org/abs/2606.15099
検証可能なエージェント型データサイエンスに向けて：ツールに基づく推論による不規則な時系列QAの解決 [eess.SY, cs.SY, math.OC, cs.AI]目的：不規則な時系列データに対する質問応答のベンチマーク
- 現実世界の時系列データは不規則であり，データ分析における重要な課題である。
- 既存の時系列QAベンチマークは規則的にサンプリングされたデータに限定されており，現実世界の状況に対応できていない。
- 不規則な時系列データの分析におけるLLMおよびAIエージェントの性能評価を可能にするベンチマークを開発すること。
- IRTS-ToolBenchは，10種類のタスクと13のドメインにわたる1,700の質問を含むベンチマークである。
- このベンチマークは，LLMベースの不規則な時系列分析を行う研究者が標準化された入力と再現性のある評価プロトコルを利用できるように設計されている。
- IRTS-ToolBenchは，不規則な時系列データにおけるLLMとAIエージェントの性能評価を促進する。
Link: https://arxiv.org/abs/2606.15107
多様性駆動型オフライン多目的最適化：ネストされたパレート集合学習によるアプローチ [cs.LG]目的：オフラインデータセットに基づく多目的最適化における多様かつ高品質な解集合の探索
- 多目的最適化は，複雑な最適化問題において有効な手法であり，現実世界の様々な問題に応用されている。
- オフライン多目的最適化では，真の目的関数にアクセスできないため，未知のデザインに対する予測誤差が問題となる。
- 本研究は，予測誤差による解の偏りを抑制し，多様性と品質を両立した解集合の探索を目指す。
- 提案手法DOMOOは，候補解の潜在的リスクを推定し，訓練データと生成解の分布のずれを緩和するリスク制御モジュールを組み込んだ。
- ネストされたパレート集合学習戦略により，多様なパレートフロント形状への適応を可能にし，解の最適化を促進する。
- オフライン環境に特化した指標IGD_offlineを用いて，多様性と収束性を考慮した代表的な解集合を選択することで，解の質を向上させた。
Link: https://arxiv.org/abs/2606.15115
アンサンブル音声映像を用いたドメイン適応のための教師・生徒構造によるディープフェイク検出 [cs.HC, cs.MM, cs.AI, cs.CV, cs.LG, cs.SD]目的：アンサンブル音声映像を用いたディープフェイク検出におけるドメイン適応メカニズム
- 生成AI技術の進展により，高精度なディープフェイクが容易に作成可能となり，プライバシーや社会への影響が懸念されている。
- 既存のディープフェイク検出モデルは，学習データと異なるドメインのデータに対して性能が低下するという課題がある。
- 未知のドメインデータに対しても高い汎化性能を発揮するディープフェイク検出モデルの開発を目指す。
- 提案手法は，教師・生徒構造を用いたドメイン適応メカニズムを組み込むことで，未知ドメインにおけるAUC性能を最大17.94%向上させた。
- 少量の未知ドメインデータのみで生徒モデルを学習させることで，効率的なドメイン適応を実現した。
- 本手法は，どのモダリティが操作されているかを識別する能力も示しており，実用的な応用が期待される。
Link: https://arxiv.org/abs/2606.15117
LLMにおける脆弱性攻撃コード生成のデータ中心型ベンチマーク：ファインチューニングの影響の理解 [cs.CR, cs.LG]目的：LLMによるCVE対応型脆弱性攻撃コード生成の性能評価
- サイバーセキュリティの脅威が増加しており，脆弱性への迅速な対応が不可欠である。
- LLMを活用した脆弱性攻撃コード生成の信頼性評価方法が確立されていない。
- 高品質なデータと評価基準を用いた，信頼性の高い攻撃コード生成手法の確立。
- 17のLLMを8つの評価基準でベンチマークし，ゼロショット性能を体系的に評価した。
- ファインチューニングされた8Bモデルが，脆弱性攻撃コードの品質を42.5%以上向上させ，一部の商用モデルに匹敵する性能を示した。
- データ品質，構造化された教師あり学習，評価設計が，LLMをサイバーセキュリティタスクに適応させる上で重要であることが示された。
Link: https://arxiv.org/abs/2606.15123
精度を超えて：思考連鎖推論におけるバイアス認識の測定 - 責任あるAI評価のために [cs.LG]目的：思考連鎖推論におけるバイアス認識の測定
- AIの利用拡大に伴い，回答の正確性だけでなく，倫理的側面や透明性の評価が重要になっている。
- 従来の評価指標は最終的な回答の正確性のみに焦点を当て，推論過程におけるバイアス認識を無視していた。
- 推論過程におけるバイアスの認識度を測る新たな指標を提案し，責任あるAI評価を実現すること。
- GPT-4oとClaude Sonnet 4は，バイアスに陥る割合はほぼ同等（それぞれ1.3%と1.2%）であった。
- しかし，バイアスを認識し明示的に示す割合は大きく異なり，GPT-4oは13.0%であったのに対し，Claude Sonnet 4は75.0%であった。
- この結果は，同じ精度でも，モデルによってバイアス認識度に大きな差があることを示唆している。
Link: https://arxiv.org/abs/2606.15127
EyeMVP：OCT情報に基づいた網膜表現学習 - ペアCFP-OCT事前学習による [cs.CV, cs.AI]目的：OCT情報を活用した網膜表現の学習
- 網膜疾患の早期発見と治療は重要であり，大規模スクリーニングの効率化が求められている。
- 網膜検査の主流である眼底写真は，立体的な情報に乏しいという課題がある。
- 眼底写真のみでOCTに近い診断能力を実現し，大規模スクリーニングを支援すること。
- EyeMVPは，多数のCFP-OCT画像ペアを用いて事前学習を行い，眼底写真の表現力を高めている。
- 16種類のタスクにおいて，既存のモデルを上回り，特に黄斑・視神経構造に関する性能が向上した。
- 黄斑浮腫の診断精度は，既存モデルEyeCLIPと比較してAUROCで0.948と高い結果を示した。
Link: https://arxiv.org/abs/2606.15129
スカラー距離を超えて：凍結されたMLLMからのセマンティック属性勾配による視覚埋め込み [cs.CV, cs.AI, cs.LG]目的：視覚埋め込みの改善
- 画像検索において，視覚エンコーダの性能が重要であり，埋め込みの質が検索精度に直結する。
- 従来の視覚エンコーダは，クラスラベルによる教師信号のみで学習され，属性間の詳細な差異を捉えきれない。
- MLLMの属性認識能力を活用し，より詳細な属性情報に基づいた教師信号を用いてエンコーダを学習する。
- SAGAフレームワークは，凍結されたMLLMの予測精度を向上させることで，視覚エンコーダの埋め込み表現を改善する。
- 本手法は，CUB-200-2011，Cars-196等のデータセットにおいて，ゼロショット画像検索のRecall@1を3〜6ポイント向上させた。
- 属性レベルでの勾配を用いてエンコーダを学習することで，従来のペアレベルのスカラーによる学習の限界を克服した。
Link: https://arxiv.org/abs/2606.15134
フィリピン語トークンの音韻・接辞・文字レベル理解：PACUTE [cs.CL, cs.AI]目的：フィリピン語における形態素理解の評価
- 言語モデルの性能は，言語の構造理解に大きく依存する。
- 非連結形態論を持つ言語では，トークナイザが形態素境界を正しく認識できない。
- フィリピン語の形態素構造理解における言語モデルの限界を特定する。
- オープンウェイトLLMは，規模に関わらず形態素分解において偶然レベルに近い性能を示した。
- 最先端モデルは，含まれる接辞のマッチングでは良好な結果を得るものの，形態素変換や音節構造化のタスクでは文字レベルの性能を下回った。
- フィリピン語の語構造理解におけるボトルネックは，文字アクセスではなく，形態素の生産的な構成にあることが示された。
Link: https://arxiv.org/abs/2606.15144
口コミ効果最大化のための文脈的バンディット [cs.LG]目的：口コミ効果最大化に向けた，溢れ出し効果を考慮したユーザーのランキング手法
- 口コミは情報拡散の重要な手段であり，マーケティングにおいて大きな影響力を持つ。
- 口コミの波及効果は個人や関係性によって異なり，その推定が困難である。
- 溢れ出し効果を考慮し，効果的なターゲット選定を実現することで，口コミ効果を最大化する。
- 文脈的マルチアームドバンディットフレームワークにより，個々の溢れ出し確率を学習し，上位k人のコネクトユーザーをランキングする。
- 実世界のネットワークデータを用いた実験により，溢れ出し効果の異質性を考慮することで，ターゲット選定の精度が向上することが示された。
- 本手法は，従来のベースライン手法と比較して，報酬の増加に貢献する。
Link: https://arxiv.org/abs/2606.15146
MimicIK：FK整合性を用いたテレオペレーションによるリアルタイム生成逆運動学 [cs.RO, cs.AI]目的：リアルタイムロボット操作における逆運動学の生成
- ロボット操作において，リアルタイム性は重要な課題である。精密な操作には，高速な逆運動学計算が不可欠。
- 従来の数値解法は，特異点近傍で不安定になりやすい。学習に基づく手法は，精度と効率の両立が困難。
- テレオペレーションデータから学習し，安定かつ効率的な逆運動学モデルを構築すること。
- MimicIKは，テレオペレーションのデモンストレーションから滑らかな関節空間の事前分布を学習する。
- 実験結果から，位置誤差は4.65mm，10mm成功率は92.01%，軌道スパイク率は7.99%であることが示された。
- UNet拡散モデルと比較し，空間精度と動作のスムーズさを向上させ，推論時間を短縮した。
Link: https://arxiv.org/abs/2606.15148
HiRo：効率的な画像分類のためのコンパクトな四方向階層型リザバー・トークンミキサー [cs.CV, cs.LG]目的：効率的な画像分類のためのモデル設計
- 画像認識の性能向上には，局所特徴のモデリングと全体的な文脈の理解が不可欠である。
- Transformerなどの高性能モデルはパラメータ数が多く，計算コストが高いという課題がある。
- パラメータ効率と計算コストを抑えつつ，高い分類精度を実現するモデルを開発する。
- 提案手法HiRoは，100万パラメータ以下でMNIST，CIFAR-10，CIFAR-100でそれぞれ高い精度を達成した。
- シフトウィンドウと多方向階層型リザバーコンピューティングを統合することで，効率的なトークンミキシングを実現した。
- 局所特徴と全体的な文脈の相互作用を促進し，Transformerと比較してメモリと計算時間の大幅な削減に貢献する。
Link: https://arxiv.org/abs/2606.15151
選択的信号分類における安全性の錯覚：リスク管理のための束縛の厳密性と交換可能性の監査 [cs.CL, cs.LG]目的：選択的予測における分布自由リスク管理の有効性検証
- 機械学習システムの信頼性確保が重要であり，特に安全性が求められる応用分野での活用が期待される。
- リスク管理の保証レベルが実際の性能と乖離している場合があり，誤った安全性の認識を生む可能性がある。
- 既存のリスク管理手法の信頼性を評価し，交換可能性の前提が満たされない場合の課題を明確化する。
- 経験的な閾値設定は，予算超過が頻繁に発生し，安全性の錯覚をもたらすことが示された。
- 厳密な信頼区間を用いることで，予算超過を回避できる場合があることが確認された。
- 未知の環境下では，交換可能性の仮定が破綻し，信頼区間も予算超過を引き起こすことが示された。
Link: https://arxiv.org/abs/2606.15153
医学における意味推論：5つの主要領域における知識グラフの役割 [cs.RO, cs.LG]目的：医学分野における知識グラフの応用と課題
- 医療データは複雑かつ多様であり，その統合と活用が重要である。
- 既存の医療データは断片的で，異なるデータソース間の整合性が課題である。
- 知識グラフを活用し，医療AIシステムの発展を促進することを目的とする。
- 知識グラフは，疾病，薬剤，症状などの関連性を構造的に表現し，意思決定支援に貢献する。
- 臨床データ，文献，Web情報などから知識グラフを構築する多様な手法が提案されている。
- 知識グラフのカバー範囲の限界，データの異質性，推論方法の脆弱性などが今後の課題として挙げられる。
Link: https://arxiv.org/abs/2606.15155
PolyKV: KVキャッシュ圧縮のための異種保存と割り当て [cs.LG, cs.AI]目的：KVキャッシュ圧縮による，長文コンテキスト大規模言語モデル推論のメモリコスト削減
- 大規模言語モデルの普及に伴い，推論時のメモリ使用量削減が重要な課題となっている。
- 既存手法は，全てのTransformer層に対して単一の圧縮ポリシーを適用し，キャッシュ予算を均一に割り当てる。
- 層ごとに異なる圧縮ポリシーとキャッシュ予算を最適化し，メモリ効率と性能のバランスを図る。
- PolyKVは，層ごとの特性に応じて適切な圧縮ポリシーを選択し，非均一な予算割り当てを行う。
- LLaMA-3.1-8BおよびQwen3-8Bを用いた実験で，PolyKVは既存手法と比較してLongBenchの性能ギャップを大幅に縮小した。
- 512トークンの平均KV予算において，PolyKVはFullKVとの性能差の54.5%および25.7%を回復した。
Link: https://arxiv.org/abs/2606.15157
多様な潜在世界モデルによる効率的なマルチモーダル推論 [cs.CV, cs.LG]目的：効率的なマルチモーダル推論のための多様な潜在世界モデルの構築
- マルチモーダルLLMの推論能力向上は重要である。現実世界での複雑な状況に対応するため。
- 既存手法は単一の解釈に依存し，多様な視点や曖昧さを考慮できないという課題がある。
- 複数の解釈を効率的に探索し，メモリ使用量を削減することで推論の精度向上を目指す。
- DLWMは，多様な潜在世界仮説を構築し，それぞれに対して潜在空間での推論を展開する。
- 正交性に基づく多様性正則化により，仮説の収束を防ぎ，多様性を維持する。
- リソース制約のある強化学習を用いて，仮説ごとの計算資源を動的に配分し，効率を高める。
Link: https://arxiv.org/abs/2606.15160
少ない時系列データに対するドメイン専門家を活用した統一生成モデル [cs.RO, cs.LG]目的：少ない時系列データにおける時系列生成の実現
- 時系列データ生成は，現実世界の問題解決に幅広く応用可能である。
- 既存手法は，豊富な学習データを前提としており，データが少ない状況では効果が限定される。
- 本研究は，データ不足下での時系列生成における汎化性能の向上を目指す。
- 提案手法TimeMoDEは，Diffusion TransformersとMixture-of-Expertsを統合し，ドメイン適応性と拡散段階の認識を活用する。
- 大規模なマルチドメインデータセットで事前学習することで，ドメイン非依存的な時間表現とドメイン固有情報を獲得する。
- 多様な低データ設定下での実験により，TimeMoDEが既存手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2606.15172
リアルタイムPoint-of-Care超音波セグメンテーションの実現：リソース制約環境におけるGPU不要な展開 [cs.CV, cs.AI]目的：Point-of-Care超音波画像におけるセグメンテーションの実現
- 超音波検査は低コストで可搬性に優れ，世界中で広く利用されている。
- AI導入にはGPUが必須であり，AIのコストが超音波装置自体のコストを上回ることが課題。
- GPU不要で臨床レベルのセグメンテーションを可能にし，AIのコストを抑える。
- UltraSeg-130KはシングルコアCPUで89.7 FPS，リフアービッシュモバイルデバイスで34.8 FPSを達成した。
- UltraSeg-500KはCPUで44.6 FPS，モバイルデバイスで16.1 FPSを達成し，UNetやTransUNetと同等以上の性能を示した。
- UltraSeg-500Kは外部検証セットにおいて優れたゼロショット汎化性能を示した。
Link: https://arxiv.org/abs/2606.15176
CONCORD：ドキュメント分離下におけるデバイス-クラウドRAGのための非同期疎な集約 [cs.DC, cs.AI]目的：ドキュメント分離下におけるデバイス-クラウドRAGのための非同期疎な集約フレームワーク
- 言語モデルの性能向上には，外部知識の活用が重要であり，RAGはその有効な手法として注目されている。
- デバイスとクラウドの連携におけるデータ共有制限から，効率的なRAGの実装が課題となっている。
- 低遅延・低帯域幅環境下でも高いスループットを実現する，新しいRAGフレームワークを開発すること。
- CONCORDは，クラウドを非同期的な証拠源として扱い，リモートとの同期頻度を低減することでスループットを向上させている。
- 待ち債務制御と証明書に基づいた最小限の補完機構により，通信量を大幅に削減しつつ，同等以上の回答品質を維持している。
- Natural QuestionsとWikiText-2の実験により，ベースラインと比較してスループットが1.66倍，2.15倍に向上することが示された。
Link: https://arxiv.org/abs/2606.15179
FreeSonic：訓練不要な時間認識デカップルドAttentionによる高精度オーディオ編集 [cs.SD, cs.AI, eess.AS]目的：高精度かつ一貫性のあるオーディオ編集の実現
- 近年，テキストからオーディオへの生成技術は進歩したが，正確な編集は難課題である。
- 既存手法は，時間的一貫性と背景の維持との両立が難しい。
- 時間的精度を保ちつつ，背景音を維持した編集を可能にする。
- FreeSonicは，最先端のRectified Flow-based TangoFluxモデルを活用し，訓練不要なフレームワークとして高精度なオーディオ編集を実現する。
- 最適化された逆プロセスと，テキストとオーディオのAttentionマップを組み合わせることで，ターゲット部分を正確に抽出する。
- スケジュール化されたAttentionデカップリングにより，変更をターゲット領域に限定し，元の音響コンテキストを維持する。
Link: https://arxiv.org/abs/2606.15186
StarOR：最適化モデリングのための木探索とテスト時強化学習の相乗効果 [cs.CL, cs.LG, cs.AI]目的：最適化モデリングにおけるモデリング方針の改善
- 最適化モデリングは階層構造を持ち，効率的な問題解決に不可欠である。
- 既存手法は新たな問題分布への適応にコストがかかる，または初期エラーの伝播に弱い。
- テスト時探索と強化学習を組み合わせ，モデリング方針の偏りを軽減し，中間決定への適切な評価を行う。
- StarORは，MCTSとテスト時強化学習を組み合わせた新しいフレームワークである。
- 各ノードでLoRAアダプターを更新することで，インスタンス固有のポリシーを洗練する。
- 5つの最適化ベンチマークで，既存手法や最先端LLMを凌駕する性能を達成した。
Link: https://arxiv.org/abs/2606.15197
CogGuard：エッジインテリジェントサービスにおけるプロアクティブな警告のための認知・運用プロファイリング [cs.AI]目的：エッジインテリジェントサービスにおけるプロアクティブな警告機能の実現
- エッジ環境では，リアルタイム性とプライバシー保護が重要であり，タスク成功予測が不可欠である。
- 従来のプロファイリング手法はドメイン依存性が高く，汎用性に欠けるという課題がある。
- 異質なエッジ環境でのモデル調整における同期オーバーヘッドを削減し，効率的な警告システムを構築する。
- CogGuardは，LLMによるオフラインでのプロファイル構築と，SLMによるオンラインでのスコア予測を分離することで，効率的な警告パイプラインを実現した。
- KVキャッシュ再利用や長さ認識分散ファインチューニングにより，プロファイル構築時間と分散ファインチューニング時間をそれぞれ最大48%，19%削減した。
- 教育および運用データセットにおいて，警告タスクの平均絶対誤差をそれぞれ13.4，5.9に抑え，ベースラインと比較して予測誤差を最大15.4%削減した。
Link: https://arxiv.org/abs/2606.15199
制御されたダイナミクスアトラクターTransformer [cs.LG, cs.AI, cs.NE]目的：Transformerとアトラクターニューラルネットワークの融合
- Transformerは表現学習と推論において目覚ましい進歩を遂げている。
- 既存のアソシアティブメモリーフレームワークは，生物学的な妥当性に欠ける。
- Transformerとアトラクターダイナミクスのギャップを埋め，制御された推論ダイナミクスを実現する。
- CDATは，Mo-vMFアテンションエネルギーとホップフィールド洗練エネルギーを組み合わせることで，アトラクタースタイルのダイナミクスと最新のエネルギーベースのアテンションを結びつけた。
- 構成的消散解析により，制御された推論ダイナミクスが形式的に確立された。
- CDATは，グラフ異常検出とグラフ分類の複数のベンチマークで最先端の性能を達成した。
Link: https://arxiv.org/abs/2606.15207
インタラクティブなターゲティング広告からの属性推論 [cs.AI, cs.CR]目的：インタラクティブなターゲティング広告を通じて行われる属性推論のモデル
- ターゲティング広告は，効率的な広告配信を実現する重要な技術である。
- ユーザーの属性情報が広告を通じて漏洩するプライバシー上の問題が存在する。
- 広告インタラクションから推論される属性情報の量を評価し，プライバシー保護策を検討する。
- 再現可能なベンチマークを用いて，様々な攻撃手法による属性推論の性能を評価した。
- キャンペーンを繰り返すことで，測定可能な範囲で属性推論の信号が生成されることを確認した。
- 情報開示ポリシーが最も効果的な対策であり，集計レポートはユーザーに紐づいた情報を遮断する。
Link: https://arxiv.org/abs/2606.15209
スポークス：多様な事前学習データ選択の最適化 [cs.DC, cs.CL, cs.AI]目的：多様な事前学習データ選択のための最適化手法
- 大規模言語モデルの性能向上には，データセットの規模と質が重要である。
- データセットの冗長性や反復は，モデルの学習効率を低下させる問題がある。
- データセットの多様性を直接最適化することで，限られたデータ予算内で性能を向上させる。
- 提案手法「SPOKES」は，G-Vendiスコアに基づいた確率的多様化フレームワークを導入し，多様性の高いデータサブセットを生成する。
- SPOKESは，ランダムサンプリングと比較してG-Vendiスコアを489ポイント向上させ，FineWebおよびDCLMにおいて既存手法を上回る性能を示す。
- 品質と多様性を同時に最適化するSPOKESは，DCLMで+1.5ポイント，FineWebで+1.4ポイントの性能向上を達成し，他のベースラインを凌駕する。
Link: https://arxiv.org/abs/2606.15216
ニューラルネットワークは最適な計算統計的トレードオフを達成できるか？単一指数モデルに関する分析 [cs.LG, cs.DS, math.ST, stat.ML, stat.TH]目的：ガウス単一指数モデル学習におけるニューラルネットワークの計算統計的トレードオフの最適性
- 機械学習モデルの性能向上には，計算資源と統計精度のバランスが重要である。
- 統計的クエリ（SQ）フレームワーク下では，サンプル数の理論的下限が存在する。
- 本研究は，ニューラルネットワークがSQ下限と同等のサンプル複雑度を達成できるか検証する。
- 提案手法は，多層ニューラルネットワークを多項式時間で学習する統一的な勾配法に基づくものである。
- 実験により，提案手法が生成指数$s^\star \geq 1$に対して，SQ下限と同等のサンプル複雑度$\widetilde{O} (d^{s^\star/2} \lor d)$を達成することが示された。
- さらに，$k$-スパースな$\theta^\star$に対して，重み摂動技術を導入し，SQ下限$\widetilde{\Omega}(k^{s^\star})$を達成した。
Link: https://arxiv.org/abs/2606.15219
エデュ・シアター：ステージングロールコールによるスケーラブルな学習者行動シミュレーションのためのデータ効率的なエージェントフレームワーク [cs.LG, cs.AI, cs.IR]目的：大規模学習者タスクインタラクションデータのシミュレーション
- 知能教育システム発展には，学習者の行動データが不可欠である。
- データ収集コストやプライバシー，学習意欲維持が課題である。
- データ効率とスケーラビリティを両立したシミュレーション手法の開発。
- エデュ・シアターは，コホートレベルの習熟度に基づき，少数の診断クエリで学習者状態を洗練する。
- LLM呼び出し回数を大幅に削減しつつ，高いシミュレーション精度を実現した。
- 生成された合成データは，適応型テストなどの下流アプリケーションの性能向上に貢献する。
Link: https://arxiv.org/abs/2606.15225
Visual-Seeker：積極的な視覚的推論による視覚ネイティブなマルチモーダルエージェント型検索へ [cs.AI]目的：複雑な現実世界環境下におけるマルチモーダル検索
- マルチモーダル大規模言語モデルの活用が，視覚タスクにおいて大きな可能性を示している。
- 既存手法は単純な画像に依存し，多段かつクロスモーダルな推論が困難である。
- 視覚的な詳細に積極的に注意を払い，動的に視覚的証拠を収集するエージェントを開発する。
- Visual-Seekerは，視覚的推論を活かしたマルチモーダル検索エージェントである。
- 5つのベンチマークにおいて，最先端の性能を達成し，プロプライエタリモデルを上回る結果を示した。
- 動的な視覚的証拠の収集が，現実世界のウェブ環境における検索性能を向上させている。
Link: https://arxiv.org/abs/2606.15231
EnvShip-Bench：短期的船舶軌跡予測のための環境強化ベンチマーク [cs.RO, cs.CY, cs.HC, cs.LG]目的：短期的船舶軌跡予測のための統一ベンチマーク
- 知的船舶，海上監視，航行安全において，船舶軌跡予測は不可欠である。
- 既存の海上AISリソースは，予測プロトコルの一貫性，データ品質，コンテキスト注釈に課題がある。
- 公平な比較とコンテキストを考慮したモデル構築を促進するベンチマークの必要性に応える。
- EnvShip-Benchは，デンマーク海事庁(DMA)とNOAAの大規模AISデータを用いて構築された。
- 標準化された予測プロトコルを採用し，軌跡のみ，環境を考慮した，相互作用を考慮した予測をサポートする。
- 広範な統計分析により，EnvShip-Benchが標準化され，拡張可能で，コンテキストを意識した基盤であることが示された。
Link: https://arxiv.org/abs/2606.15240
単独では無害，組み合わせでは有害：エージェントスキルエコシステムにおけるセキュリティリスク [cs.CR, cs.AI]目的：エージェントスキルエコシステムにおけるスキル構成リスクの評価
- LLMエージェントの能力向上にスキルが不可欠だが，セキュリティリスクが伴う。
- 既存の検証はスキルを個別に評価するが，実際には複数のスキルが連携して動作する。
- スキル連携時の新たなリスクを明らかにし，経路に配慮した評価手法を提供する。
- 単独評価では見過ごされるリスクが，スキル構成によって顕在化することが示された。
- SCR-CapFlowでは，スキル構成下での攻撃成功率が33.6%に達し，単独評価時のほぼゼロ%から大幅に上昇した。
- SCR-TrustLiftでは，5つのバックエンドのうち4つで攻撃成功率が96.5%を超え，SCR-AuthBlurではリスクのある承認率が71.8%増加した。
Link: https://arxiv.org/abs/2606.15242