arXiv雑要約

AI - 2026/06/18 公開

指示に基づく画像編集における製品の一貫性：SFTとRLによる製品識別性の維持向上 [cs.CV, cs.AI]目的：製品を中心とした画像編集における製品識別性の維持
- 製品画像編集は，マーケティング等において重要であり，ブランドイメージの維持に不可欠である。
- 既存モデルは，製品の特徴やテキスト要素の維持が不十分であり，製品識別性が損なわれる場合がある。
- 製品識別性を維持した画像編集を可能にするためのデータセットと評価基準の提供。
- 本研究では，製品を中心とした画像編集を改善するためのProductConsistencyデータセットを開発した。
- Qwen-Image-Edit-2511とFlux.1-Kontext-devをファインチューニングした結果，OCR，知覚指標，MLLM評価において性能が向上し，製品の一貫性，テキストのレンダリング品質が向上した。
- 特にQwen-Image-Edit-2511では，文字エラー率が5分の1に減少した。
Link: https://arxiv.org/abs/2606.19103
平滑性に基づくPAC-Bayes boundの決定化 [cs.LG, stat.ML]目的：平滑な損失関数に対するPAC-Bayes決定化
- 機械学習モデルの汎化性能評価において，信頼性の高い上界は不可欠である。
- 確率的予測子から決定論的予測子への変換に伴う精度低下が課題となる。
- 平滑性の性質を利用し，決定論的予測子の汎化性能の上界を厳密化する。
- 平滑な損失関数と予測子クラスの平滑性を活用することで，決定論的予測子に対する汎化boundを導出した。
- Jensen gapクラスの汎化ギャップが，Gibbs予測子から平均予測子への移行コストを正確に表すことを示した。
- 提案手法は線形予測子や平滑なニューラルネットワークに適用可能であり，実用的な正則化項の設計にもつながる。
Link: https://arxiv.org/abs/2606.19105
JourneyFormer：Airbnbのゲストの旅程をシーケンスモデリングでエンコード [cs.LG]目的：Airbnbの検索ランキングにおけるシーケンスモデリング解法
- 推薦システムにおいて，ユーザー行動のモデル化は重要であり，利用者の意図を推論する上で不可欠である。
- Airbnbのようなプラットフォームでは，ゲストの行動シーケンスが長く複雑であり，ラベルデータが疎であるという課題がある。
- 効果とスケーラビリティのバランスを取りながら，実運用における課題を解決し，検索ランキングの精度向上を目指す。
- JourneyFormerは，Airbnbのプロダクション環境に導入され，オフラインのランキング指標とオンラインA/Bテストの両方で効果が確認された。
- ゲストのイベント選択，ID埋め込み，モデルアーキテクチャ，ラベル属性など，重要な設計上の考慮事項が詳細に説明されている。
- モデルの学習と推論を高速化するためのいくつかの戦略が導入され，ビジネス指標の改善に貢献した。
Link: https://arxiv.org/abs/2606.19108
リーダーシップの協調制御：マルチエージェントLLMチームにおける行動的特徴と回復優位境界 [cs.CL, cs.AI, cs.MA]目的：マルチエージェントLLMチームにおける，プロセスレベルの協調制御の価値が発揮される条件の特定
- チーム科学ではリーダーシップは状況依存であり，高性能なチームには必ずしも必要とされないと考えられている。
- LLMチームにおいても，どのような条件下で協調制御が有効なのか，明確な理解が不足している。
- チーム科学の知見をLLMチームに適用し，協調制御の有効条件を検証することで，チームの性能向上を目指す。
- 実験の結果，特定の条件（初期多数決の信頼性が低い場合）において，トランザクショナル制御が有効であることが示された。
- 協調制御は，チームのパフォーマンスを向上させるための「万能薬」ではなく，状況に応じて適切な制御方法を選択する必要がある。
- 本研究は，協調制御を評価する上で，精度のみを重視するのではなく，チーム科学の理論に基づいた分析が重要であることを示唆している。
Link: https://arxiv.org/abs/2606.19111
エージェント優先のWebへ：AIエージェントのためのWeb再設計 [cs.AI, cs.CY]目的：AIエージェントのためのWeb再設計
- Webは人間を前提に構築されてきたが，AIエージェントの台頭により，その前提が覆されつつある。
- Webサイトはエージェントのアクセスを拒否したり，経済モデルがエージェントアクセスを不正なものとみなすなど，問題が存在する。
- アクセス，経済，コンテンツの各層において，エージェントをWebの第一級市民として扱うための設計原則を提案する。
- アクセス層では，人間が操作するエージェントに同等のアクセス権を付与し，HTTPリクエストでエージェントを識別する。
- 経済層では，エージェントの経済的義務を人間と一致させ，トークンベースのサブスクリプションモデルを提案する。
- コンテンツ層では，AI生成コンテンツの品質を維持するため，人間による監督層モデルと暗号学的Provenanceチェーンを導入する。
Link: https://arxiv.org/abs/2606.19116
ヨーロッパの電力市場における要因と相互依存性のXAIによる分析 [cs.AI, cs.LG, econ.GN, q-fin.EC]目的：ヨーロッパの電力市場における価格形成要因の分析
- 電力市場は複雑であり，エネルギー政策や市場運営において理解が不可欠である。
- 深層学習は予測性能が高いが，価格形成の理由が不明瞭で実用性に課題がある。
- 説明可能なAIを用いて価格形成要因を特定し，市場の相互依存性を明らかにすること。
- 太陽光発電は発電量に占める割合が低いにも関わらず，価格形成において重要な役割を果たしていることが判明した。
- ガス価格はヨーロッパの電力市場全体で一貫して価格を大きく左右する要因である。
- 系統連系は価格変動に影響を与え，ヨーロッパの電力システム間の強い相互依存性を示している。
Link: https://arxiv.org/abs/2606.19118
推論に先立つ視覚：ショートカットに強いマルチモーダルオンポリシー自己蒸留のための知覚と推論の分離 [cs.AR, cs.DC, cs.LG, cs.CV]目的：マルチモーダル大規模言語モデルにおける自己蒸留のフレームワーク
- マルチモーダル大規模言語モデルの性能向上は，現実世界の多様なタスクへの応用を可能にする上で重要である。
- 既存の自己蒸留手法は，テキスト情報に過度に依存し，視覚情報の活用が不十分になる可能性がある。
- 視覚情報に基づいた記述生成と推論を分離することで，よりロバストな学習を目指す。
- 提案手法ViGOSは，画像のみを用いた知覚教師により，視覚記述の質を向上させる。
- ViGOSは，テキスト情報への過度な依存を抑制し，画像に根ざした推論能力を高める。
- 様々なベンチマークにおいて，ViGOSは自己蒸留の利点を維持しつつ，ショートカットに強い性能を示す。
Link: https://arxiv.org/abs/2606.19120
Giskard：大規模分散学習のためのビザンチン耐性と機密性のある集約 [cs.RO, cs.CR, cs.LG]目的：分散学習における機密性とビザンチン的振る舞いへの対処
- 分散学習はデータプライバシーを保ちつつ機械学習を可能にする重要な技術である。
- 機密性とビザンチン耐性を両立させることは，既存手法では計算コストが高い。
- 大規模分散環境下での効率的な機密性とビザンチン耐性を実現する。
- Giskardは，n個のパーティをサイズO(log n)の委員会ツリーに編成することで，スケーラビリティを高めている。
- 各委員会内でBGW形式のMPCを用いて，値域に対する分散二分探索により近似中央値を算出する。
- 実験結果から，Giskardは競合他社と同等のモデル精度を維持しつつ，パーティごとの通信量を漸近的に削減できることが示された。
Link: https://arxiv.org/abs/2606.19129
報酬機械を用いたパレートQ学習 [cs.LG, cs.AI]目的：報酬機械によって定義される報酬構造を持つタスクに対する多目的強化学習
- 強化学習は，複雑な環境下での意思決定において重要な役割を果たす。
- 多目的強化学習は，複数の報酬を同時に最適化する必要がある場合に課題となる。
- 報酬機械の構造を活用し，効率的な多目的学習を実現すること。
- PQLRMは，クロスプロダクトMDPにおいて，単純なPQLよりも高速に収束することが示された。
- PQLRMは，QRMでは合成できないパレート最適戦略を合成できる。
- 非マルコフ的な報酬機械符号化された報酬下においてもサンプル効率を維持する多方針アルゴリズムである。
Link: https://arxiv.org/abs/2606.19134
LLMエージェント通信プロトコルの技術的分類体系 [cs.MA, cs.AI, cs.NI]目的：LLMエージェント通信プロトコルの分類と分析
- 大規模言語モデルの発展に伴い，マルチエージェントシステムが重要性を増しているため。
- プロトコルの分散化により，相互運用性の課題が顕在化している。
- プロトコルの分類体系を確立し，現状の課題解決と今後の方向性を示す。
- 本研究で開発された分類体系は，通信相手，ペイロード，インタラクション状態，発見メカニズム，スキーマ柔軟性の5つの次元で構成される。
- 調査対象のプロトコルは全て，エージェント間通信においてハイブリッドペイロードとセッション状態の永続化を組み合わせている。
- 短期的には，エージェント間およびエージェントとコンテキスト間の通信を統合するプロトコルへの収束圧力が存在する。長期的には，単一のプロトコルで全ての要件を満たすことは難しく，連合型プロトコルスタックへの進化が予想される。
Link: https://arxiv.org/abs/2606.19135
INDEQS：情報に基づいたニューラル制御微分方程式 [cs.LG, stat.ML]目的：時間系列予測におけるグラフ構造の活用
- 時系列データ分析は，気象，経済，交通など多岐にわたる分野で不可欠な技術である。
- 既存のグラフベース手法では，事前知識のある有向グラフ構造を十分に活用できていない。
- INDEQSは，有向グラフの事前知識を組み込み，予測精度向上を目指す。
- INDEQSは，グラフ構造を考慮したNCDE予測手法であり，内側と外側の情報化により柔軟性と効率性を実現した。
- 合成データ実験では，外側情報化が予測誤差を顕著に改善し，大規模グラフで特に効果が認められた。
- 河川流量予測と交通流予測の実験でも，INDEQSは既存手法と比較して高い精度を示した。
Link: https://arxiv.org/abs/2606.19138
臨床経路誘導グラフフレームワーク：多岐にわたる生存期間分析 [cs.LG]目的：多岐にわたる臨床データの生存期間予測
- 頭頸部癌の個別化治療計画には正確な生存予測が不可欠であり，医療の質向上に繋がる。
- 既存手法は静的なデータ統合や時間的要素の無視により，複雑な臨床ワークフローの把握が困難である。
- 臨床経過を考慮したグラフモデルにより，多岐にわたるデータ間の関係性を捉え，生存予測の精度向上を目指す。
- ChronoSurvは，患者のケアを診断ステップに沿った指向性グラフで表現し，臨床経路を考慮した生存期間分析を実現した。
- 提案手法は，2つの公開データセットにおいて，最先端の識別性能と信頼性の高いキャリブレーションを達成した。
- 各アーキテクチャ要素の貢献が確認され，経路を意識したグラフモデリングの可能性を示唆した。
Link: https://arxiv.org/abs/2606.19140
人間とAIの共進化ダイナミクス：長期的な相互作用を通じた社会知能の創発に関する形式理論 [cs.AI, cs.CL]目的：人間とAIの長期的な相互作用における社会知能の創発
- 人間とAIの共存は，社会生活の様々な場面で重要性を増しており，その相互作用の理解が不可欠である。
- 従来のAIシステムでは，社会的な行動を構成要素ごとにモデル化しており，長期的な関係性や社会知能の創発を統一的に説明できていない。
- 長期的な相互作用を通じた社会知能の創発メカニズムを解明し，適応的な人間とAIの社会的な相互作用をモデル化すること。
- 感情適応，関係性組織化，社会記憶，性格の一貫性などを統合したHACD-Hフレームワークが提案された。
- 社会認知における時間的持続性の階層構造，安定した関係性アトラクタ，発達段階的なパターンが確認された。
- 社会知能と社会認知エネルギーとの間に有意な負の相関関係が認められ，相互作用の軌跡は時間とともにエネルギーを減少させる傾向を示した。
Link: https://arxiv.org/abs/2606.19144
OrthoReg: ハイブリッド記号-ニューラル動的システムに対する直交正則化 [cs.LG, cs.AI, cs.SY, eess.SY]目的：ハイブリッド動的システムの記号成分とニューラル成分の重複を抑制し，解釈可能なモデルの構築
- 動的システムは自然現象のモデリングに不可欠であり，物理法則に基づいたモデルとデータ駆動型モデルの融合が求められる
- ニューラルネットワークが物理モデルの機能を学習し，モデルが冗長かつ解釈困難になるという課題が存在する
- 記号成分を吸収するニューラル成分の過学習を防ぎ，それぞれの役割を明確化することで，モデルの精度と解釈性を向上させる
- OrthoRegは，記号成分とニューラル成分の直交性を強制することで，物理モデルを効果的に捉え残りをニューラルネットワークで補完する
- 部分的なライブラリの不一致があるベンチマーク動的システムにおいて，記号成分の復元精度と外挿性能が向上した
- これにより，解釈可能性の高いハイブリッドモデリングが可能となり，より信頼性の高い予測が期待できる
Link: https://arxiv.org/abs/2606.19145
OpenAnt：コード分解，敵対的検証，動的テストによるLLMを活用した脆弱性検出 [cs.CR, cs.LG]目的：大規模コードベースにおける脆弱性検出システム
- ソフトウェアの安全性確保は重要であり，脆弱性の早期発見が不可欠である。
- 従来の静的解析は誤検出が多く，動的解析はインフラコストが高いという課題がある。
- LLMと検証技術を組み合わせ，スケーラブルな自動セキュリティ分析を実現する。
- OpenAntは，コードを分析可能な単位に分解し，分析対象を最大97%削減することで効率的な脆弱性検出を可能にした。
- 敵対的検証により，現実的な攻撃能力を考慮した脆弱性の悪用可能性を評価することで，誤検出を抑制した。
- 動的検証により，自動生成された環境で脆弱性を検証し，信頼性の高い結果を得た。OpenSSL等で未発見の脆弱性を検出した。
Link: https://arxiv.org/abs/2606.19149
効率的なTransformerのための補完的アテンションヘッド剪定 [cs.LG]目的：Transformerモデルの効率化のためのアテンションヘッド剪定手法
- Transformerは自然言語処理で成功を収めているが，パラメータ数が多く計算資源を消費する
- 既存の剪定手法は不安定であったり，パラメータ調整が困難であったりする
- 多様なアテンションヘッドを保持し，性能劣化を最小限に抑える剪定手法を開発する
- CAHPは，ヘッド選択をグラフ理論の問題として捉え，補完的なアテンションヘッドの多様性を維持する。
- 事前定義されたスパース度や剪定率を必要とせず，性能劣化の度合いから自動的にヘッド数を決定する。
- SST-5とMNLIの評価において，CAHPは既存手法を上回り，特に高圧縮率において優れた性能を示した。
Link: https://arxiv.org/abs/2606.19150
報酬は常にデータにあった：識別器誘導強化学習によるフローマッチングの修正 [cs.RO, cs.LG, cs.CV]目的：識別器誘導強化学習（DRL）によるフローマッチングモデルの性能改善
- 画像生成モデルの品質向上は重要であり，特に主観的な好みや写実性，構造の一貫性を高めることが求められる。
- 従来のフローマッチングでは，データの品質を評価する指標と，実際に生成される画像の品質との間にずれが生じることがある。
- 本研究は，識別器の出力を用いて報酬を定義することで，このずれを解消し，より高品質な画像を生成することを目指す。
- 識別器誘導強化学習（DRL）を適用することで，SiT，JiT，REPA，RAEといった様々な条件下で，FIDやFDといった評価指標が大幅に改善された。
- DRLは，人間の好みを直接学習することなく，画像の品質を向上させることに成功し，より自然で写実的な画像を生成することが可能になった。
- DRLにより，生成された画像の忠実度と人間の好みのバランスが改善され，過飽和や過度な明るさといった低レベルなアーティファクトが低減された。
Link: https://arxiv.org/abs/2606.19162
マルチタスク学習における必須部分空間の融合 [cs.DC, cs.LG, cs.AI]目的：モデル融合によるマルチタスク学習の実現
- 多様なタスクを効率的に学習する上で，モデルの汎用性と特化性を両立することが重要である。
- 異なるタスクの学習時に，パラメータ更新が相互に干渉し，性能低下を引き起こす可能性がある。
- タスク更新による出力の変化に着目し，干渉を抑制する新たな融合手法を開発すること。
- 本研究では，活性化の変化が主要な方向へ集中することに着目し，必須部分空間を定義した。
- 提案手法であるEssential Subspace Merging (ESM) および ESM++は，タスク知識を保持しつつ，タスク間の干渉を軽減することを示した。
- ESMおよびESM++は，学習を必要としない静的・動的な融合手法であり，様々なタスクセットとモデル規模で有効であることが確認された。
Link: https://arxiv.org/abs/2606.19164
安全なデータを超えて：事前学習段階における定期的な安全性の内省によるアライメント [cs.AI, cs.LG]目的：大規模言語モデルの安全性向上
- 大規模言語モデルの安全性の確保は，社会への実装において不可欠である。
- 事前学習データ中の有害情報を除去するだけでは，安全性を十分に確保できない。
- 安全なデータからでも有害な行動が生まれるのを防ぐための事前学習手法を開発する。
- 安全性の内省事前学習は，安全性分類の精度を向上させ，推論段階およびファインチューニング段階での攻撃成功率を大幅に低下させる。
- MedSafetyWorldという制御された環境で，安全なデータからの有害行動の一般化を防ぐ効果が確認された。
- 事前学習アライメントは，学習データの安全性確保に加え，モデルが安全なデータから学習する行動を形成する必要がある。
Link: https://arxiv.org/abs/2606.19168
ユーザーを記憶痕跡として：ユーザー固有の記憶を局所的なパラメトリック編集として内包する [cs.CL, cs.AI]目的：ユーザー固有の記憶を，記憶痕跡モデルのハッシュキー付きメモリテーブルへの外科的編集として保存すること
- 言語モデルにおいて，個人化された記憶の効率的な管理は重要な課題である。
- 既存のパーソナライズ手法は，ユーザーの事実をモデルの重みに直接書き込む際に，汎化性能を損なう可能性がある。
- ユーザー固有の情報をモデルの能力に影響を与えることなく効率的に保存・管理し，性能を向上させる。
- ユーザーを記憶痕跡として扱うことで，従来のLoRAアダプターと比較して，間接的な推論精度が平均5.6倍向上した。
- 提示された手法は，ユーザーの知識を書き込んだ際に，他の知識を汚染することなく，ベースモデルの推論能力を損なわない。
- 多数のユーザーが同一のテーブルに加算的に格納可能であり，事実数が100を超えると，検索パイプラインを上回る性能を示す。
Link: https://arxiv.org/abs/2606.19172
超音波AI研究におけるアノテーションと評価のための臨床医中心パイプライン [cs.HC, cs.AI]目的：超音波AI研究におけるアノテーションと評価のための臨床医中心パイプライン
- 医療AIの信頼性確保は重要であり，特に超音波画像のように定量的指標だけでは臨床的有用性を捉えきれない場合に不可欠である。
- 既存の医療画像プラットフォームはデータセットのラベリングに重点を置いており，盲検化されたモデル比較や再現性のある評価ワークフローの統合的なサポートが不足している。
- 本研究は，超音波画像における臨床医中心のアノテーションと人間-AI評価研究を支援するための再現性のあるパイプラインを開発することを目的とする。
- 本パイプラインは，臨床医がローカルでのデータセットダウンロードなしにアノテーション，盲検化されたランキング，レビューを行うことを可能にする集中型サーバーと軽量なブラウザインターフェースを使用する。
- 胎児超音波セグメンテーション研究において，専門家，一般医，非専門家を含む6人の評価者による検証の結果，良好から強い一致が確認された。
- 盲検評価の結果は，アクティブラーニングモデルが好まれる傾向を示しており，臨床医中心の評価が有用であることが示唆された。
Link: https://arxiv.org/abs/2606.19174
自律型海上UAV飛行のための深層単眼姿勢推定のハードウェア・イン・ザ・ループ検証 [cs.RO, cs.AI, cs.SY, eess.SY]目的：深層単眼姿勢推定のハードウェア・イン・ザ・ループ検証
- 船舶におけるUAVの自律運用は重要であり，信頼性の高い視覚に基づく相対姿勢推定が不可欠である。
- 海洋環境下での検証はコストが高く，天候に左右され，リスクを伴うという課題がある。
- 本研究は，安全かつ現実的な検証環境を構築し，海上UAVの自律性開発を促進することを目的とする。
- ハードウェア・イン・ザ・ループ検証フレームワークにより，屋内での完全自律飛行と，写実的な海洋環境の再現を可能にした。
- 遅延 Kalman フィルターを用いたデータ融合により，遅延や非同期性といった現実的な制約下でも安定した状態推定を実現した。
- 離陸，軌道追従，着陸実験により，閉ループ制御による安定した飛行が実証された。
Link: https://arxiv.org/abs/2606.19176
確率的モーメンタム法の計算効率と逐次実行時間のトレードオフ [cs.LG, cs.AI, math.OC, stat.ML]目的：確率的モーメンタム法のバッチサイズと性能のトレードオフ
- 深層学習モデルの学習において，効率的な最適化手法が不可欠であるため。
- 確率的モーメンタム法は計算効率と逐次実行時間のバランスが重要だが，その関係は明確ではない。
- バッチサイズが計算効率と逐次実行時間に与える影響を理論的に解析し，最適なバッチサイズを決定すること。
- 確率的重み付きモーメンタム法(HB)は，任意のスぺクトラムにおいてSGDの計算効率を向上させないことが示された。
- 加速勾配降下法(ASGD)は，急激に減衰するスペクトルにおいて小バッチでの計算効率を向上させるが，バッチサイズが大きくなるにつれて逐次実行時間とのトレードオフが生じる。
- 実験結果は，スペクトル形状に応じてASGDとHBの挙動が変化することを裏付けており，予測される計算効率と逐次実行時間のトレードオフが確認された。
Link: https://arxiv.org/abs/2606.19179
言語モデルをインターフェースとして：小児急性虫垂炎に対するハイブリッドLLM-MLシステム [cs.CL, cs.AI]目的：小児急性虫垂炎の診断支援
- 臨床現場での意思決定支援の必要性が高まっており，迅速かつ正確な診断が重要である。
- 自然言語による診療記録の解釈が困難であり，構造化されたデータ入力が必要となる場合が多い。
- LLMとMLを組み合わせ，自然言語の使いやすさと予測精度の安定性を両立することを目指す。
- ClaMPAPPは，2つの独立した小児急性虫垂炎コホートにおいて，最も高い診断性能を示した。
- 特に，急性期トリアージにおける重要な安全上の懸念である，虫垂炎の未検出事例を最小限に抑えることができた。
- LLMをインターフェース，MLを予測子として分離する設計が，より監査可能な臨床意思決定支援の経路を提供する。
Link: https://arxiv.org/abs/2606.19183
AUCが誤解を招く場合：ドメインシフト下におけるディープフェイク検出器の偏光を考慮した評価 [cs.CV, cs.LG]目的：ドメインシフト下でのディープフェイク検出器の汎化性能評価
- 拡散モデル等の進歩により，高精細なディープフェイクが生成され，金融詐欺等の被害が生じている。
- 既存のAUC評価では，現実的なデータソースの混合や多様なアーティファクトへの対応が不十分である。
- ドメインシフトに対するロバスト性を考慮した，より現実的な評価指標を提案すること。
- 提案手法であるCross-AUCは，各ドメインのAUCを偏光度合いで平均化することで，汎化性能をより正確に評価する。
- Cross-AUCは，性能低下の理由を解釈可能にする点で，既存手法よりも優れている。
- 7つのベンチマークデータセットを用いた実験により，Cross-AUCの実用性が示された。
Link: https://arxiv.org/abs/2606.19184
異方性グラフ拡散ネットワークを用いた巡回セールスマン問題の解法学習 [cs.LG]目的：巡回セールスマン問題に対する解法
- 組合せ最適化の基礎であり，現実の様々な場面で応用が求められている。
- グラフ構造の有効活用方法が未だ十分に解明されていない点が課題である。
- グラフのトポロジー情報を活用し，効率的な情報伝達を実現することで，解の精度向上を目指す。
- 提案手法であるAGDNは，既存手法と比較して一貫して優れた性能を示すことが確認された。
- AGDNは，学習データに含まれる規模や分布を超えた問題に対しても高い汎化性能を発揮する。
- ノード間の類似度と距離を組み合わせたMixScore遷移行列と異方性グラフ拡散戦略が有効である。
Link: https://arxiv.org/abs/2606.19185
遅延・誤作動AEBイベントのアノテーション学習：極端なクラス不均衡と非対称なラベルノイズへの対応 [cs.RO, cs.LG]目的：遅延・誤作動AEBイベントのアノテーション効率化
- 自動緊急ブレーキ（AEB）の性能向上には，実走行データの正確なアノテーションが不可欠である。
- 遅延・誤作動AEBイベントは稀少であり，手動アノテーションには膨大なコストがかかる。
- 本研究は，稀少なイベントのアノテーションを自動化し，効率的なデータ収集を可能にすることを目指す。
- 提案手法では，ターゲット属性の操作，エゴ車両ダイナミクスの移植，非ターゲットエージェントのマスク処理によるデータ拡張を行う。
- また，安定したハードネス推定とプローブによる適応的閾値を用いて，誤った真作動イベントのラベルノイズを抑制する。
- 実運用試験の結果，遅延・誤作動イベントの再現率が80%向上し，手動アノテーションの負担が50%軽減された。
Link: https://arxiv.org/abs/2606.19186
より多くの特性を組み合わせる：ELbotにおける修理意味論下でのABox仮説生成 [cs.LO, cs.AI]目的：ABox仮説生成における特性の組み合わせ
- 知識ベースからの演繹の欠如を説明する上で，仮説生成は不可欠である。
- これまでの研究では，複数の特性や最適化基準を組み合わせた仮説が検討されていない。
- ELbot環境下で，複数の特性や最適化基準を満たす仮説生成手法を開発すること。
- 追加の特性を要求することが，必ずしも計算量の増加につながらないことが示された。
- 勇敢な意味論とAR意味論の双方において，検討を行った。
- より望ましい仮説を生成するための基盤となる。
Link: https://arxiv.org/abs/2606.19197
重要なものを予測：未知の出発時刻を持つ制御されたEV充電のための意思決定型強化学習 [cs.LG, cs.AI]目的：EV充電における意思決定の最適化
- EV普及の増加に伴い，電力系統への負荷増大や不安定化が懸念されている。
- 充電開始時間等の情報が不足している場合，強化学習による効果的な充電制御が困難である。
- 意思決定に焦点を当てた強化学習により，予測モデルと制御ポリシーを同時に最適化し，充電制御の性能向上を目指す。
- 提案手法は，従来の強化学習と比較して，総報酬が最大14%向上，未供給エネルギーが55%削減された。
- 予測モデルと制御ポリシーをエンドツーエンドで共同学習することにより，意思決定の質が向上する。
- 予測誤差が制御性能に与える悪影響を抑制し，より効果的な充電制御を実現した。
Link: https://arxiv.org/abs/2606.19199
XGBoostモデルに対するネットワーク侵入データセットを用いた機械的アンラーニング [cs.CL, cs.LG, cs.AI]目的：XGBoostモデルにおける機械的アンラーニング手法
- ネットワークセキュリティの重要性が増す中，侵入検知技術の精度向上は不可欠である。
- 従来のモデル更新は計算コストが高く，個人情報保護の観点からも課題があった。
- 特定のデータの影響を効率的に除去し，モデルの信頼性を高めることを目指す。
- 提案手法XGBoost-Forgetは，オリジナルモデルの予測性能を維持しつつ，高速なアンラーニングを実現した。
- IoT-23およびGeNISデータセットを用いた評価により，アンラーニング効率と忘却品質が確認された。
- 本手法は，表形式データのネットワーク侵入検知における機械的アンラーニングの可能性を示唆する。
Link: https://arxiv.org/abs/2606.19220
メカニズム誘導型選択的アンラーニング：RLVR誘導推論に対する [cs.LG, cs.AI]目的：RLVR誘導推論のアンラーニングメカニズム
- 大規模言語モデルの推論能力は重要だが，特定の知識や能力の削除が課題。
- 従来のアンラーニング手法は，モデル全体のパラメータを更新するため，有用な知識も失われる。
- 特定の推論能力のみを削除し，他の能力への影響を最小限に抑える手法を開発する。
- 提案手法MASTは，メカニズムに基づき，重要なパラメータのみを更新することで，効率的なアンラーニングを実現。
- MASTは，数学問題解決能力（MATH）の忘却を統計的に有意に抑制しつつ，GSM8Kの性能を維持・向上。
- 他のモデルや学習目標においても，MASTは従来のアンラーニング手法よりも優れた性能を発揮。
Link: https://arxiv.org/abs/2606.19222
制約を考慮したバイオプロセス開発のための人間介入型ベイズ最適化フレームワーク [cs.RO, cs.LG, cs.HC, stat.ML]目的：制約を考慮したバイオプロセス開発のための人間介入型ベイズ最適化フレームワーク
- バイオプロセス開発は，医薬品製造等の重要な産業において不可欠であり，効率化が求められている。
- 従来の最適化手法では，複雑な制約条件や不確実性への対応が難しく，最適な条件探索に限界があった。
- 本研究は，人間の専門知識を活用し，制約条件とロバスト性を考慮した効率的な条件探索を実現する。
- 本フレームワークは，パレートフロントを提示することで，専門家が性能，不確実性，制約充足率，入力ロバスト性のトレードオフを視覚的に評価することを可能にした。
- シミュレーション実験の結果，高性能かつ実現可能で，変動に強い運転条件の系統的な同定が示された。
- 専門家が定義する要件が，実験資源の適切な割り当てと，開発プロセスの停止基準として機能することが示された。
Link: https://arxiv.org/abs/2606.19230
STARE：驚き度に基づいたトークンレベルの利得重み付けによる方策エントロピーの安定化 [cs.LG, cs.AI, cs.CL]目的：大規模言語モデルにおける方策エントロピーの安定化
- LLMの複雑な推論能力向上には，報酬検証型強化学習が不可欠である。
- 報酬検証型強化学習では，訓練中に方策エントロピーが崩壊しやすいという課題がある。
- 方策エントロピー崩壊を防ぎ，安定した強化学習訓練を実現すること。
- STAREは，バッチ内の驚き度分位数を活用し，エントロピーが重要なトークン群を特定・重み付けすることで，方策エントロピーを安定化させる。
- 1.5Bから32Bまでのモデル規模と3種類のタスクファミリーにおいて，STAREは数千ステップにわたる安定したRL訓練を可能にし，エントロピーを目標範囲内に維持した。
- AIME24とAIME25において，STAREは既存手法を4〜8%上回り，考察トークンと応答長の増加が同時に見られ，探索と活用バランスの維持を示した。
Link: https://arxiv.org/abs/2606.19236
TxBench-PP：低分子医薬品前臨床薬理学におけるAIエージェントの性能分析 [cs.AI, cs.LG]目的：低分子医薬品前臨床薬理学におけるAIエージェントの性能評価
- 創薬の効率化が強く求められており，AIの活用が期待されている。
- 既存の評価方法は，文献の暗記に依存し，現実世界のデータへの適用が課題である。
- 現実世界のデータに基づいたAIエージェントの意思決定能力を検証する。
- TxBench-PPは，AIエージェントが実際の実験データから正確な結論を導き出せるかを検証する。
- 16種類のモデル構成で評価した結果，どのシステムも前臨床薬理学の意思決定を確実に再現することはできなかった。
- 最も性能が良かったClaude Opus 4.8 / Piは，エンドポイントの59.3%をクリアした。
Link: https://arxiv.org/abs/2606.19245
アルツハイマー病および認知症介護者のメンタルヘルスとテクノロジーニーズの分類 [cs.HC, cs.AI, cs.CY]目的：アルツハイマー病および関連認知症介護者のメンタルヘルスニーズとテクノロジー介入の関連性
- 認知症介護は家族に依存しており，介護者の負担は大きい。そのメンタルヘルス支援は重要である。
- 介護者の心理社会的経験が「介護負担」として単純化され，具体的なニーズが不明確になっている。
- 介護者の優先順位と既存のテクノロジー支援のミスマッチを明らかにし，より適切なシステム設計を提案する。
- 介護者のメンタルヘルスニーズとテクノロジー介入を結びつける分類体系を提示した。
- 人間関係の緊張や共感疲労など，十分に満たされていないニーズを特定した。
- 臨床に基づいた認知症ケアにおける革新的なテクノロジー開発を促進するための共通語彙を提供する。
Link: https://arxiv.org/abs/2606.19247
Transformer Geometry Observatory TGO-I：スペクトル幾何学観測 [cs.CV, cs.LG]目的：Vision Transformerの表現幾何学とダイナミクスの調査
- ViTは画像認識で広く利用されているが，その幾何学的性質の理解は不十分である。
- ViTの表現次元と表現の幾何学的な構造が十分に解明されていない。
- ViTの表現の幾何学的特性を分析し，その理解を深めることを目指す。
- 学習が進むにつれて，表現の次元利用率が一貫して上昇することが確認された。
- 表現の異方性は低下し，スペクトルエントロピーと参加率は増加する傾向が示された。
- 固有スペクトルは徐々に平坦化し，情報は少数方向へ集中するのではなく，表現次元に再分散されることが明らかになった。
Link: https://arxiv.org/abs/2606.19249
OneCanvas：パノラマ再投影による3Dシーン理解 [cs.CV, cs.AI, cs.LG, cs.RO]目的：3Dシーン理解のための表現形式
- 視覚と言語を結びつけるモデルにおいて，3Dシーンの理解は重要な課題である。
- 既存手法は複雑な幾何エンコーダや多大な学習コストを要する。
- パノラマ再投影による簡素かつ効率的な3Dシーン理解を目指す。
- OneCanvasは，複数の視点からのパッチ特徴量をパノラマキャンバス上に集約する。
- これにより，複雑なモデル構造や大規模な学習なしに3Dシーンの理解が可能となる。
- SQA3D，VSI-Bench，SPBenchにおいて最先端の性能を示し，汎化性能も高い。
Link: https://arxiv.org/abs/2606.19253
SCAN：多スケール近傍中心クラスタリングによる時系列異常検知の強化 [cs.LG]目的：時系列異常検知における性能向上
- 様々な実世界アプリケーションにおいて，時系列データの異常検知は重要な役割を担う。
- 再構成ベースの手法は主流だが，過剰一般化と過小一般化のバランスが課題である。
- 多スケールクラスタリングを用いて，再構成ベースの手法の課題を解決する。
- SCANは，代表的な正常パターンへの再構成を制約することで，過剰な能力による問題を抑制する。
- クラスタメンバーシップ確率に基づく異常確信度を導入し，再構成誤差と組み合わせることで，二重基準による検知を実現する。
- 近傍中心表現抽出による多視点クラスタリングにより，クラスタリング性能を向上させ，SCANの有効性を高める。
Link: https://arxiv.org/abs/2606.19255
X+Slides: 聴衆条件付きスライド生成のベンチマーク [cs.AI]目的：聴衆条件付きスライド生成のためのベンチマーク
- 大規模言語モデルの応用として，資料からのスライド自動生成が重要視されている。
- 既存の評価指標は，スライドの網羅性や専門性に偏っており，聴衆を考慮していない。
- 聴衆に合わせたスライド生成を評価するための新たなベンチマークを開発し，評価指標を提案する。
- X+Slidesは，113のトピックと7種類のプレゼンテーションシーンを含む多様なコーパスを使用している。
- 評価は，8,133個のソースに基づいた検証項目を用いて行われ，聴衆別の重要度を反映している。
- 現状のシステムは，聴衆にとって重要な情報の大部分を捉えられていないことが示された。
Link: https://arxiv.org/abs/2606.19256
GPT-Image-2によって生成されたテキストを多く含む画像の検出のためのマルチドメインベンチマーク [cs.CV, cs.AI]目的：GPT-Image-2によって生成されたテキストを多く含む画像の検出のためのベンチマーク
- 画像生成AIの進化に伴い，デジタルコンテンツの信頼性確保が重要になっている。
- 既存のベンチマークは，テキスト情報に焦点を当てた画像の検出には不十分である。
- テキストとレイアウトを考慮した，AI生成画像検出手法の新たな方向性を示す。
- 既存のAI生成画像検出器は，ドメインによって性能が大きく異なり，JPEG圧縮に弱い。
- マルチモーダルVision-Languageモデルは有望だが，構造化されたフォーマットにおいて限界がある。
- テキストとレイアウトを意識した検出手法の必要性が示唆された。データセットはXXXで公開されている。
Link: https://arxiv.org/abs/2606.19259
ゼロオーバーヘッドテレメトリによる隠れた機械学習トレーニングの検出 [cs.LG]目的：機械学習トレーニングの検出
- AI技術の発展に伴い，計算資源の適切な管理が重要になっている。
- 既存の監視メカニズムは，開発者によって回避される可能性がある。
- プライバシーを保護しつつ，監視回避を困難にする検出手法の開発。
- GPUの物理的な影響を観察するNVMLテレメトリのみを用いて，トレーニングワークロードの識別精度が98.2%を達成した。
- 敵対的偽装が施されたワークロードに対しても，43〜87%の識別精度を維持した。
- 監視者と回避者の繰り返し評価により，20種類の回避戦略ファミリーを検証した。
Link: https://arxiv.org/abs/2606.19262
大規模言語モデルを用いたギブスサンプリングによる構造化推論 [cs.SI, cs.CY, cs.MA, econ.GN, q-fin.EC, cs.LG, cs.CL]目的：複雑な世界を記述する変数に関する構造化推論
- 大規模言語モデルは豊富な知識を持つため，複雑な問題を解決する可能性を秘めている。
- 言語モデルの知識を確率的に一貫性のある形で活用することは，困難な推論問題となっている。
- 言語モデルの条件付き分布を遷移演算子として用いることで，この問題を解決することを目指す。
- 提案手法は，変数間の順序依存性を回避し，局所的な条件付き確率の妥協点を反映した定常分布を生成する。
- 合成分布からのサンプリング，一貫性のある推論タスク，ベイズ構造学習に適用した結果，良好な性能が確認された。
- 言語モデルの条件付き確率を用いたMCMCは，構造化確率推論のための，ワンパス生成の実行可能な代替手段となる。
Link: https://arxiv.org/abs/2606.19264
医療LLMの適応におけるトレードオフ：フランス語QAにおける実証研究 [cs.RO, cs.CL, cs.AI]目的：医療分野へのLLM適応戦略の効果検証
- LLMの専門分野・多言語対応は重要だが，効果的な適応戦略は不明な点が多い。
- 既存研究では，ドメイン適応戦略の有効性が十分に検証されていない。
- 計算資源の制約下で最適な適応戦略を選択するための指針を提示する。
- 多肢選択問題では，CPT+SFTが最も高いスコアを示すことが多いが，SFTとの差は小さく，SFTが費用対効果の高い選択肢となる。
- オープンエンドQAでは，CPTがオーバーラップベースの評価指標を改善する一方，SFTは生成品質を低下させる傾向がある。
- フランス語での適応が英語ベンチマークへの有効な転移学習につながることも示された。
Link: https://arxiv.org/abs/2606.19266
NeSyCat Torch：ニューロシンボリック学習のための圏論的意味論の微分可能なテンソル実装 [cs.AI, cs.LG, cs.LO, math.CT, math.LO, math.PR]目的：ニューロシンボリック学習のための圏論的意味論の実装
- 古典論理，ファジー論理，確率論理，ニューラルシステムがそれぞれ異なる真理の定義を持つ点が課題
- 既存のNeSyCatには，ニューラルネットワークで学習された述語と関数を扱える仕組みが欠如していた
- NeSyCat Torchによって，ニューラルネットワークを介した記号の解釈を可能にし，その枠組みを補完すること
- NeSyCat Torchは，HaskTorch，JAX，PyTorchで実装され，MNIST加算タスクにおいてLTNやDeepProbLogよりも高速かつ高精度
- DeepStochLogの精度に匹敵する結果を達成しつつも，多くのNeSyアプローチに適用可能な統一的な枠組みを維持
- 特に，構成がモナドに依存することから，モナドをGiryモナドに置き換えることで連続確率にも拡張可能
Link: https://arxiv.org/abs/2606.19279
自己修正と社会的つながりがソーシャルチャットボットの信頼性に与える影響 [cs.HC, cs.AI, cs.CY]目的：ソーシャルチャットボットにおける誤りの修正戦略と，それらが信頼性に与える影響の解明
- 日常生活への組み込みが進むソーシャルチャットボットの普及に伴い，その信頼性確保が重要課題となっている。
- チャットボットは誤情報を生成する可能性があり，その誤りをどのように修正するかが信頼性に大きく影響する。
- チャットボット自身による自己修正が，信頼性を損なわずに誤りを訂正する有効な手段となりうるか検証する。
- チャットボットによる自己修正は，外部からの修正と比較して，信頼性と専門性において高い評価を得られた。
- ユーザーとチャットボットの社会的つながりは，自己修正を行った際の信念変化の大きさに影響を与えることが示された。
- チャットボットは，誤りの修正を外部に委託するのではなく，自ら行うことで長期的な信頼性を維持できると考えられる。
Link: https://arxiv.org/abs/2606.19286
集中治療室におけるせん妄リスク層別化のための遍在的環境センシング情報 [cs.LG]目的：集中治療室におけるせん妄リスク層別化
- 集中治療室におけるせん妄は，罹患率上昇，入院期間延長，医療費増大を引き起こす重大な問題である。
- せん妄の早期予測・予防は困難であり，環境要因の評価が不十分である。
- 環境センシング情報を用いて，せん妄リスクの予測精度向上を目指す。
- 環境音の情報が，せん妄予測において最も重要な要素であることが示された。
- 音と光の情報を統合することで，短期的なせん妄予測精度が向上した。
- 環境センシングは，せん妄リスク評価に有用な情報を提供し，多角的な予測・予防戦略に貢献する可能性が示唆された。
Link: https://arxiv.org/abs/2606.19292
VLAは基本的な知識を持っているか：視覚言語行動モデルにおける常識と世界知識の保持量の測定 [eess.SY, cs.SY, math.DS, cs.LG, cs.RO]目的：視覚言語行動モデルにおける常識と世界知識の保持量の評価
- ロボット工学において，視覚と言語を理解し行動する能力は，より高度なタスク実行に不可欠である。
- 既存モデルはロボットデータで調整されるが，その過程で常識や知識がどれだけ失われるか不明である。
- 行動を通じて知識を評価する新しいプロトコルを開発し，知識保持能力を定量的に測定する。
- 新しい評価プロトコルAct2Answerを導入し，知識に基づいた質問に対し，行動を通じて回答させる。
- VLAモデルは単純な概念では良好な性能を示すが，より複雑な概念では元のVLMと比較して知識のギャップが大きい。
- VQAでの共同学習は知識保持能力の向上と関連があり，関連信号は中間層でピークに達し，上層で減衰する。
Link: https://arxiv.org/abs/2606.19297
確信度は信頼性ではない：脳腫瘍セグメンテーションにおけるMC Dropoutの再考 [cs.CV, cs.LG]目的：脳腫瘍セグメンテーションにおける不確実性の評価と臨床的安全性
- 多パラメータMRIによる膠質腫セグメンテーションは治療計画において重要であり，精度が患者の安全に直結する。
- Dice係数などの既存の評価指標では，臨床的に重要な領域におけるセグメンテーションエラーを見逃す可能性がある。
- MC Dropoutを用いて，セグメンテーションエラーの信頼できる特定と，モデルの臨床導入における安全性評価を目指す。
- MC Dropoutはセグメンテーション精度を維持しつつ，高い不確実性-エラーの整合性を示した（AUROCは約0.97）。
- 不確実性に基づく患者層別化により，セグメンテーション性能の低い高不確実性グループを特定できた。
- UNet-ResはAUROCは高いものの，臨床的に重要な領域において誤った確信度を示し，標準的な評価指標では検出できない問題点が明らかになった。
Link: https://arxiv.org/abs/2606.19300
P-K-GCN：物理特性を増強したクープマン強化グラフ畳み込みネットワークによる高解像度時空間超解像 [cs.LG]目的：時空間ダイナミクスの高解像度再構成
- 高精度なシミュレーションは計算コストが高い。効率的な超解像技術が求められている。
- 既存手法は物理制約が弱く，複雑な形状や時間変化への対応が難しい。
- 不規則形状における時空間超解像を，物理特性とクープマン演算子で解決する。
- 提案手法P-K-GCNは，粗いグラフから空間依存性を抽出し，クープマン演算子で非線形ダイナミクスを線形化する。
- 物理ベースの損失関数を最適化に組み込み，再構成の物理法則への適合性と予測精度を高める。
- 理論解析により，物理特性の増強とクープマン正則化が超解像誤差を低減することを示す。
Link: https://arxiv.org/abs/2606.19303
拡散耐性：自己回帰的生成を超える形式定理証明のレシピ [cs.RO, cs.LG]目的：大規模言語モデルによる形式数学推論能力の向上
- 数学および計算機科学分野において，形式的な推論能力は重要な課題である。
- 自己回帰型LLMは長距離一貫性やエラーの蓄積に課題があり，性能が制限される。
- 拡散LLMの形式定理証明への応用可能性を探求し，その課題を解決する。
- 提案手法Diffusion-Proofは，形式定理証明のための拡散LLMの訓練と応用に関する初のフレームワークである。
- Diffusion-Proofは，ProofNet-Testで1.61%，MiniF2F-Testで6.14%の絶対的な性能向上を達成した。
- 特に，Diffusion-ProofはDeepSeek-Prover-V2-7Bでは解けなかったIMO問題を解決し，拡散LLMの優位性を示した。
Link: https://arxiv.org/abs/2606.19315