arXiv雑要約

AI - 2026/05/14 公開

フロー言語モデルからの周辺条件付きブリッジによるサンプリング [cs.LG, stat.ML]目的：フロー言語モデルにおけるサンプリング手法の改善
- 自然言語処理において，より高品質なテキスト生成が求められており，新しい言語モデルの開発が活発である。
- 既存のサンプリング手法では，トークン間の依存関係を十分に考慮できず，生成されるテキストの多様性が損なわれる場合がある。
- フロー言語モデルの特性を活かした，より自然で多様なテキスト生成を可能にするサンプリング手法を提案する。
- 提案手法は，各ステップでトークンごとの事後分布からエンドポイントをサンプリングし，それを条件とした連続状態を生成する。
- この手法は，学習を必要とせず，既存のモデル評価をそのまま利用できるため，実装が容易である。
- 実験の結果，提案手法は品質と多様性のトレードオフを改善することが示された。
Link: https://arxiv.org/abs/2605.13681
スケールに依存する破砕：最適なスケールにおける学習可能性と評価可能性 [cs.LG, cs.IT, math.IT]目的：実数値関数クラスにおける一様収束と学習可能性の最適なスケール
- 機械学習において，汎化性能の理論的保証は重要であり，そのために学習可能性を評価する必要がある。
- 学習可能性を決定するスケールの正確な境界は不明であり，既存の研究にはギャップが存在した。
- 学習可能性と評価可能性を支配するスケールを正確に決定し，既存の研究のギャップを埋める。
- 本研究により，PAC学習の基本定理のスケール依存性の一般化が確立され，Longの予想を反証した。
- 経験的$\ell_\infty$被覆数の直接的な上限を導出し，既存研究よりもシャープな漸近的メトリックエントロピー上限を達成した。
- 有界積分確率測度に対する明確な二分法を確立し，Aiyerらの未解決問題を解決した。
Link: https://arxiv.org/abs/2605.13684
生成フレームワークを用いた医用画像におけるクロスモダリティ画像変換 [cs.CV, cs.AI]目的：医用画像におけるクロスモダリティ画像変換手法の比較評価
- 医用画像診断において，異なるモダリティ間の画像変換は，被ばく線量の低減や検査効率の向上に貢献する。
- 既存研究は2D画像に限定され，評価基準が統一されておらず，臨床での検証が不足している。
- 臨床データを用いた標準化された比較評価により，実用的な画像変換手法の確立を目指す。
- GANsが潜在的生成モデルよりも全てのタスクで優れた性能を示し，SRGANが統計的に有意な優位性を確立した。
- 病変レベルの解析では，全てのモデルが小さな病変の識別が困難であり，CTからPETへの変換において病変形状の再現性が高いことが示された。
- 17名の医師によるVisual Turingテストの結果，合成画像と実画像の間には有意な差が見られず，定量的な指標と臨床的嗜好との間に乖離があることが示唆された。
Link: https://arxiv.org/abs/2605.13686
予測可能なスケーリング則と推論の利点を持つ階層的言語モデル [cs.LG, cs.AI, stat.ML]目的：階層構造を持つ合成言語における，自己回帰的生成におけるコンテキスト長と推論の役割の分析
- 言語モデルの性能向上には，スケーリング則の理解と，より効率的な推論能力の獲得が不可欠である。
- 既存の言語モデルでは，コンテキスト長の限界や，複雑な推論が必要なタスクへの対応が課題となっている。
- 本研究は，合成言語を用いることで，コンテキスト長と推論能力の理論的な限界と可能性を明らかにすることを目指す。
- 合成言語において，生成されたデータの分散はコンテキストの深さに対して対数線形にスケールすることが証明された。
- 制約付き言語では，限られたコンテキストでの自己回帰は，矛盾した結果を生み出す確率が高いことが示された。
- 推論モデルは，$\Theta(\log n)$ のワーキングメモリで正確なサンプリングが可能であり，コンテキスト長に関して指数関数的な改善が示された。
Link: https://arxiv.org/abs/2605.13687
MedCore：境界を維持する医療コアプルーニング（MedSAM用） [cs.CV, cs.LG]目的：MedSAMの医療画像における効率的なセグメンテーション
- 医療画像解析において，高精度なセグメンテーションは診断支援や治療計画に不可欠である。
- 大規模なモデルは計算資源を必要とし，臨床現場での実用性に課題がある。
- 境界の忠実性を保ちつつ，モデルを軽量化し，臨床応用を可能にすること。
- MedCoreは，MedSAMのパラメータ数を60.0%，FLOPsを58.4%削減しつつ，高いDice係数（0.9549）と境界F1スコア（0.6388）を達成した。
- MedCoreは，パラメータを86.6%削減し，90.4G FLOPsの削減を達成しつつ，良好な境界品質を維持した。
- MedSAMは境界に脆弱な領域に存在し，ヘッドプルーニングはMLPプルーニングよりも境界への影響が大きいことが示された。
Link: https://arxiv.org/abs/2605.13688
WidthWall：ハイパーグラフニューラルネットワークの厳密な表現力階層 [cs.LG, cs.AI]目的：ハイパーグラフニューラルネットワークの表現力に関する厳密な階層
- 科学，社会，生物システムなど，高次の相互作用をモデル化する上でハイパーグラフが重要である。
- ハイパーグラフニューラルネットワークがどのような高次の構造を表現できるか不明であった。
- ハイパーグラフの構造的モチーフの出現頻度に基づき，表現力の限界を明らかにする。
- ハイパーグラフの表現力は，アーキテクチャが検出・カウントできる小さなパターンによって決定される。
- 表現力はホモモルフィズム密度によって組織化され，厳密な階層が，ハイパートリー幅によって定義される。
- 実験結果は，Width Wallがノード分類タスクにおける性能低下を予測し，密度特徴の有効性を示した。
Link: https://arxiv.org/abs/2605.13690
多面体不安定性がオンライン学習における後悔を支配する [cs.LG, cs.CC]目的：組み合わせ最適化問題におけるオンライン学習の後悔の性質
- 組み合わせ最適化問題は現実世界の様々な場面で現れるため，効率的な解法が求められている。
- 従来のオンライン凸最適化では，多面体構造が複雑化し，後悔の評価が困難であった。
- 多面体不安定性に着目し，後悔の評価に新たな視点をもたらすことで，より正確な分析を目指す。
- オンライン学習における後悔は，多面体不安定性の回数と最大頂点数に依存することが示された。
- 特に，Lovász凸化されたオンライン部分モジュール・凹面ゲームにおいては，後悔の上界が，permutation-switch countを用いてより精密に評価された。
- 実験結果は，合成データおよび実データにおいて，提案されたスケーリングが妥当であることを確認し，低不安定性領域の実用性を示唆した。
Link: https://arxiv.org/abs/2605.13692
RTLC：ファインマン学習テクニックに着想を得た3段階プロンプティングパラダイム。ファインチューニングなしでJudgeBenchにおけるLLM判断者としての精度を向上 [cs.CL, cs.AI]目的：大規模言語モデル（LLM）を判断者として活用する際の精度向上
- LLMによる評価は，生成AIの性能測定において不可欠な手法となっている。
- 既存のLLM判断者は，JudgeBenchのようなベンチマークにおいて低い精度しか示せていない。
- ファインチューニングなしでLLM判断者の精度を大幅に向上させること。
- RTLC（Research, Teach-to-Learn, Critique）という3段階プロンプティング手法を提案した。
- Claude 3.7 Sonnetにおいて，JudgeBench-GPTのペアワイズ精度が64.6%から78.6%に向上した。
- RTLCは，自己整合性多数決投票や最初の候補よりも優れた性能を示した。
Link: https://arxiv.org/abs/2605.13695
地質学的不確実性下における適応的な鉱山計画：逐次意思決定のためのPOMDPフレームワーク [cs.AR, cs.AI]目的：地質学的不確実性下での鉱山生産計画の適応的な手法
- 鉱山計画は収益に大きく影響する重要な課題であり，資源の最適利用が求められる。
- 従来の計画手法では，将来の地質学的情報を考慮せず，不確実性に対応しにくい。
- 地質情報の逐次的な更新を組み込み，より現実的な計画を策定することを目指す。
- 提案手法（SA-POMDP）は，従来の確率的最適化手法と比較して，期待値と実績の乖離を大幅に削減した。
- 統計的に整合性の取れた事前分布を用いることで，実現NPVを840万米ドル改善する効果が確認された。
- 事前分布に系統的な誤りがあった場合でも，静的な計画手法を最大36.9%上回る成果が得られた。
Link: https://arxiv.org/abs/2605.13702
AIウェブスクレイパーの特定：カナリアトークンを用いた手法 [cs.CR, cs.AI, cs.CY, cs.NI]目的：AIウェブスクレイパーの識別
- 大規模言語モデルの性能向上にはウェブスクレイピングが不可欠だが，サイトの安定性や法的・倫理的問題も存在する。
- ウェブスクレイパーの識別は困難であり，信頼性や拡張性に欠ける既存の手法に課題がある。
- 公開されていないスクレイパーを特定し，望まないスクレイピングへの対策を可能にすること。
- 提案手法では，各スクレイパーに固有のカナリアトークンを埋め込み，LLMがトークンを生成するかどうかでスクレイパーを特定する。
- 22のLLMシステムを用いた実験により，本手法がスクレイパーとLLMの関係を正確に識別できることが示された。
- 本手法は，第三者によるスクレイパーの監視を可能にし，ウェブサイトのデータ利用状況の制御に貢献する。
Link: https://arxiv.org/abs/2605.13706
分散集約器による連合学習における効率的な安全集約 [cs.CR, cs.DC, cs.LG]目的：連合学習における効率的な安全集約の実現
- プライバシー保護が重要視されるデータ活用において，分散環境での機械学習が不可欠である。
- 既存の安全集約手法は，通信ラウンド数，計算コスト，クライアント離脱への対応に課題がある。
- 集約処理を一部クライアントに委譲することで，計算負荷を軽減し，効率的な安全集約を実現する。
- DisAggは，少数の集約クライアントを利用し，局所的な部分和を計算することで，計算コストを削減する。
- DisAggは，OPAと比較して，10万次元の更新ベクトルを10万クライアントから処理する際に4.6倍の高速化を実現した。
- DisAggは，サーバーとクライアント双方の計算負荷を軽減しつつ，プライバシーを保護する。
Link: https://arxiv.org/abs/2605.13708
コンパクトなLLMの教師ありファインチューニングによる，制御可能な難易度と安全性を備えた児童向け英語読み物生成 [cs.CL, cs.AI, cs.LG]目的：児童向け英語読み物の生成
- 教育現場でのLLM活用は重要だが，高コストが課題となっている。
- 生成される読み物が児童の読解レベルに合致しない場合がある。
- 小型LLMで，難易度と安全性を制御可能な読み物生成を目指す。
- 8BパラメータのLLMをファインチューニングすることで，GPT-4oやLlama 3.3 70Bのゼロショット生成よりも難易度指標で優位性を示した。
- 生成された読み物には，顕著な安全性上の問題は認められなかった。
- 教師，保護者，児童が，興味関心に合致した読み物を容易に生成できる可能性がある。
Link: https://arxiv.org/abs/2605.13709
情報的サンプリングを用いた多変量不規則時系列のための大規模言語モデル [cs.LG]目的：多変量不規則時系列データの分類
- 医療分野では，患者の電子カルテなど，多様なデータ形式と不規則な時間間隔でのデータ取得が一般的である。
- 不規則な時系列データには予測に有用な情報が含まれるが，既存の手法ではその情報を十分に活用できていない。
- サンプリングパターンと観測値を同時にモデル化することで，予測精度を向上させる。
- 提案手法MILM-2Sは，複数の電子カルテデータセットにおいて最良またはそれに準ずる性能を達成した。
- 値の隠蔽実験により，サンプリングパターンが予測に役立つ情報を含み，MILM-2Sがそれを学習していることが確認された。
- 一部の値が欠損している状況下では，MILM-2SはMILM-Directよりも大幅に性能が向上し，欠損値時の予測においても有効であることが示された。
Link: https://arxiv.org/abs/2605.13711
エントロピー最良方策識別におけるタイトなサンプル複雑度界限 [cs.LG, stat.ML]目的：リスクに敏感な強化学習における最良方策の識別
- 強化学習は，最適な意思決定戦略を自動的に学習する重要な分野である。
- サンプル効率が低く，特に長期間のタスクでは学習に多くの試行錯誤が必要となる。
- エントロピーリスク尺度を用いた最良方策識別のサンプル複雑度を理論的に改善する。
- 本研究では，既存の上界と下界の間の指数関数的なギャップを解消し，タイトなサンプル複雑度界限を導出した。
- これは，指数関数的ユーティリティに対するより厳密な集中不等式の導出と，それを活用した新しい停止規則によるものである。
- 提案手法は，下界に一致するサンプル複雑度を達成し，サンプル効率を向上させる。
Link: https://arxiv.org/abs/2605.13717
人間洗浄：不快感を覚えるべきである [cs.HC, cs.AI, cs.LG, cs.SI]目的：AI意思決定システムにおける「人間による介入」の欺瞞性
- AIの社会実装が進む中，倫理的・社会的な影響への懸念が高まっている。
- 「人間による介入」という言葉が，安全性を安易に保証する手段として乱用されている。
- AI意思決定における人間の役割を明確化し，「人間洗浄」の実態を暴くこと。
- 「人間による介入」という言葉は，必ずしも安全性を意味せず，むしろ誤解を招く可能性がある。
- 「ループ」というメタファーの無分別な使用は，プロセスと結果を曖昧にし，システムを良い方向に印象操作する「人間洗浄」を助長する。
- AIシステムの透明性，説明責任，公平性の確保には，実質的な人間による監視が必要である。
Link: https://arxiv.org/abs/2605.13723
AnyFlow：オンポリシーフローマップ蒸留を用いた任意のステップ数ビデオ拡散モデル [cs.CV, cs.AI]目的：任意のステップ数ビデオ拡散の性能向上
- ビデオ生成の分野において，一貫性蒸留は重要な手法である。高品質な動画生成への応用が期待されている。
- 従来の蒸留手法では，ステップ数を増やすと性能が低下し，任意のステップ数に対応できないという課題があった。
- 本研究は，フローマップを用いてODEサンプリング軌道を最適化することで，任意のステップ数での性能低下を抑制することを目指す。
- AnyFlowは，既存の一貫性ベースの手法と同等またはそれ以上の性能を，少ないステップ数での生成において実現した。
- フローマップを用いた蒸留により，ステップ数が増加しても性能が維持され，サンプリング予算とのスケーリングが可能になった。
- Flow Map Backward Simulationにより，効率的なオンポリシー蒸留を実現し，テスト時の誤差を低減した。
Link: https://arxiv.org/abs/2605.13724
ScioMind：アンカーに基づく信念ダイナミクスと動的プロファイルを持つ認知に基づいたマルチエージェント社会シミュレーション [cs.AI, cs.SI]目的：社会的な意見のダイナミクスに関する研究のための，認知に基づいたマルチエージェントシミュレーションフレームワーク
- 社会における意見形成のメカニズム解明は，社会科学，政治学等において重要な課題である。
- 既存の手法では，認知的な側面が限定的か，LLMの自由な相互作用に依存し，現実的な挙動を再現できていない。
- 構造化された意見ダイナミクスとLLMによる推論を組み合わせ，より現実的な社会シミュレーションを実現すること。
- ScioMindは，固定的なルールとLLMの自由な相互作用という二つのアプローチの中間を埋める認知に基づいたシミュレーションフレームワークである。
- 動的プロファイルは意見の多様性を高め，記憶と熟考は不安定な振動を低減し，アンカーは政治心理学で報告されているパターンと整合性の高い持続的な信念軌跡を誘導した。
- 提案された構成要素は，偏極化，多様性，極端化，軌跡安定性などの指標において，行動のリアリズムを向上させた。
Link: https://arxiv.org/abs/2605.13725
軌道制御に基づいた人間モーション生成における複数条件の協調 [cs.CV, cs.AI]目的：テキスト記述と空間軌道に基づいた人間モーションの合成
- 人間のような自然な動きの自動生成は，バーチャルリアリティやロボティクスなど広範な分野で重要である。
- 既存手法では，テキストと軌道の条件間の矛盾や冗長なモーション表現が，モーション品質の低下や不安定性を招く。
- 本研究は，テキストと軌道条件を効果的に協調させ，高精度かつ安定した軌道制御を実現することを目指す。
- 提案手法CMCは，テキストと軌道条件を分離し，段階的に処理することで，矛盾を解消し，正確な軌道追従を可能にする。
- CMCは，拡散モデルを用いた簡略化された関節表現の生成と，テキスト条件付きのインペインティングモデルによる全身モーション生成を組み合わせる。
- 実験結果から，CMCがHumanML3DとKITデータセットにおいて，最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2605.13729
経食道心エコー画像を用いた強固かつ説明可能な二尖弁大動脈狭窄症診断：スタックドアンサンブルの活用 [cs.LG, cs.AI, cs.CV]目的：二尖弁大動脈狭窄症と三尖弁大動脈狭窄症の識別
- 二尖弁大動脈狭窄症は，心臓弁膜症の中でも比較的多く，早期発見と適切な治療が重要である。
- 診断精度は，検査者の熟練度や画像品質に左右されるため，客観的な診断支援システムの開発が求められている。
- 日常的に撮影される心エコー画像から，高精度かつ透明性の高い診断支援を実現することを目指す。
- スタックドアンサンブルモデルは，外側交差検証においてF1スコア0.907，再現率0.877を達成し，高い診断性能を示した。
- フレームレベルのGrad-CAM解析により，大動脈根部や弁葉面といった重要な領域が可視化された。
- SHAP値の集計により，各ビデオバックボーンの予測への貢献度を定量化し，透明性の高い監査を可能にした。
Link: https://arxiv.org/abs/2605.13730
生成型AI利用時の成績向上と学習の区別 [cs.LG, cs.HC]目的：生成型AI利用における成績向上と学習効果の差異の明確化
- 教育現場におけるAI活用は重要であり，学習者の能力開発に貢献しうる。
- AI利用は表面的で質の低い学習に繋がりやすく，深い認知処理を促さない。
- 本研究は，AI利用による成績向上と真の学習効果を見分けることを目指す。
- 生成型AIは学習者の成績向上に寄与する可能性があることが示された。
- しかし，AIの利用だけでは，質の高い学習に必要な深い認知・メタ認知処理は促進されない。
- AIの教育利用においては，単なる成績向上だけでなく，学習プロセスそのものの質に注意する必要がある。
Link: https://arxiv.org/abs/2605.13731
KVServe：分散大規模言語モデル推論のためのサービス対応型KVキャッシュ圧縮 [cs.DC, cs.AI, cs.NI]目的：分散大規模言語モデル推論における通信効率向上を目指したKVキャッシュ圧縮フレームワーク
- 大規模言語モデルの利用拡大に伴い，推論システムの性能向上が不可欠である。
- 分散推論では，KVキャッシュがネットワークやストレージを跨ぐため，ボトルネックとなりやすい。
- サービス状況の変化に対応した動的なKVキャッシュ圧縮により，遅延を最小化することを目指す。
- KVServeは，KV圧縮戦略のモジュール化と組み合わせによる柔軟な構成を実現した。
- ベイジアンプロファイリングエンジンにより，効率的な圧縮プロファイルの探索と絞り込みが可能となった。
- サービス状況に応じて最適なプロファイルを選択するオンラインコントローラーにより，最大9.13倍のJCT高速化と32.8倍のTTFT削減を達成した。
Link: https://arxiv.org/abs/2605.13734
感覚を閉ざす：オムニモーダルLLMにおける表現と行動の乖離 [cs.MS, cs.AI, cs.CL]目的：オムニモーダルLLMにおける，テキスト前提と実際の視覚/聴覚情報の矛盾検出能力の評価
- マルチモーダルな情報処理は，AIが現実世界を理解し，より自然な対話を実現するために不可欠である。
- 既存のオムニモーダルモデルは，テキストと感覚情報の整合性を十分に検証されていない。
- モデルが自身の感覚情報と矛盾するテキスト前提を検出し，適切な行動をとれるか検証する。
- オムニモーダルLLMは，内部表現では矛盾を認識できるにもかかわらず，出力では誤った前提を受け入れる傾向がある。
- モデルは，誤った情報を拒否しきれない（under-rejection）か，正しい情報も拒否してしまう（over-rejection）という二つの誤り方をする。
- 矛盾検出能力は，視覚情報よりも聴覚情報において劣る傾向があり，プロンプトの変更にも影響を受けにくいことが示された。
Link: https://arxiv.org/abs/2605.13737
観測と言語モデル事前知識を用いたPOMDP環境モデルの学習 [cs.LG]目的：POMDP環境モデルの学習
- 環境における行動には内部モデルが不可欠であり，その学習はAI研究の根幹をなす。
- 観測と行動データのみからのPOMDP学習は困難であり，多大な環境とのインタラクションが必要となる。
- 言語モデル事前知識を活用し，少ないインタラクションで効率的にPOMDP環境モデルを学習すること。
- 提案手法Pinductorは，言語モデルを用いて少量の観測・行動データから候補となるPOMDPモデルを提案し，反復的に洗練させる。
- Pinductorは，隠れた状態へのアクセスを前提とするLLMベースの手法と同等の性能とサンプル効率を実現する。
- また，Pinductorは，従来の表形式POMDPベースラインよりもサンプル効率が大幅に向上し，LLMの能力向上とともに性能が向上する。
Link: https://arxiv.org/abs/2605.13740
GHGbench：炭素排出量予測のための統一されたマルチエンティティ・マルチタスクベンチマーク [cs.LG]目的：企業および建物レベルの温室効果ガス予測のためのオープンデータセットおよびベンチマーク
- 地球温暖化対策として，企業や建物の炭素排出量の正確な予測は不可欠である。
- 既存のデータセットはアクセス性，規模，粒度，評価において分散しており，比較が困難である。
- この研究は，統一されたベンチマークを提供することで，炭素排出量予測の精度向上を目指す。
- GHGbenchは，12,000以上の企業からなる企業トラックと，26都市の建物からなる建物トラックを含む大規模なデータセットである。
- 建物レベルの排出量予測は，企業レベルよりも構造的に難しいことが示された。
- 分布内から分布外への予測のギャップが，モデル内の性能差よりも大きいことが判明した。また，表形式のファウンデーションモデルが，複数の都市における建物排出量予測タスクで，調整された決定木よりも有意な性能差を開いた。
Link: https://arxiv.org/abs/2605.13743
弱教師あり時空間異常検知 [cs.CV, cs.AI]目的：時空間異常検知手法
- 監視カメラ等の映像解析において，異常行動の自動検出は重要である。
- 動画へのアノテーション作業はコストが高く，大規模なデータセットの作成が困難である。
- 弱教師あり学習を用いて，アノテーションコストを削減し，異常検知を実現する。
- 提案手法では，動画レベルのラベルのみを用いて，時空間領域の異常スコアを算出する。
- 複数インスタンスランキング損失（MIL）を用いて，正常/異常動画を袋としてモデル化する。
- UCF Crime2Localデータセットで実験を行い，有効性を示す。
Link: https://arxiv.org/abs/2605.13746
Min一般化スライス・グロモフ・ワッサースタイン距離：スケーラブルなグロモフ・ワッサースタイン距離への道 [cs.LG, cs.CV]目的：グロモフ・ワッサースタイン距離問題に対する，表現力豊かな一般化スライサーを用いたスライス化された定式
- 幾何学的な形状解析や対応付けにおいて，形状間の距離を定量的に評価する重要性が高まっている。
- 従来のグロモフ・ワッサースタイン距離の計算は，計算コストが高く，大規模データへの適用が困難である。
- 計算効率を向上させつつ，幾何学的な構造を捉えた形状間の距離評価を実現すること。
- 提案手法min-GSGWは，既存のグロモフ・ワッサースタイン距離ソルバーと比較して，大幅に低い計算コストで意味のある幾何学的対応関係と距離値を生成する。
- 一般化スライサーを導入することで，スライス化されたグロモフ・ワッサースタイン距離計算の効率を向上させた。
- 学習済みのスライサーを用いることで，未知の入力ペアに対しても効率的な距離計算が可能となった。
Link: https://arxiv.org/abs/2605.13753
大規模な公平なクラスタリングのための高速かつ効果的なアルゴリズム [cs.RO, cs.LG]目的：公平性を考慮したクラスタリング手法の開発
- 機械学習の応用範囲拡大に伴い，公平性を重視する場面が増加している。
- クラスタリングコストと公平性のバランス調整が難しく，大規模データセットへの対応が課題である。
- コストと公平性のトレードオフを精密に制御し，大規模データにも適用可能な手法を提案する。
- 提案手法は，既存手法と比較してコストと公平性のバランスをより詳細に制御できる。
- 3つのヒューリスティックにより，解の質，スケーラビリティ，計算速度の異なる選択肢を提供する。
- ベンチマークデータセットでの実験により，提案手法が既存手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.13759
都市洪水のためのAI駆動デジタルツイン：浅水方程式の条件付き潜在的ダイナミクスネットワーク代替モデル [cs.LG, cs.CE]目的：都市洪水のアンサンブル予測と観測データ同化のための高速な水理代替モデルの開発
- 都市の浸水被害軽減には，迅速かつ正確な洪水予測が不可欠である。
- 高解像度な水理モデル計算には膨大な計算時間が必要であり，リアルタイム予測の妨げとなっている。
- AIを活用し，計算効率の高い代替モデルを構築することで，迅速な洪水予測を実現することを目指す。
- 提案手法であるCLDNetは，浅水方程式ソルバーと比較して約115倍の計算速度向上を達成した。
- CLDNetは，既存のベースラインモデルと比較して，予測精度を向上させた（相対二乗平均平方根誤差は約半分）。
- CLDNetは，実際の降雨データを用いた検証において，約86%の重要成功指標を示し，実用的な洪水予測が可能であることが示された。
Link: https://arxiv.org/abs/2605.13761
ベクトル密輸：埋め込みストアにおける隠蔽的情報窃取と暗号学的証明の防御 [cs.MA, cs.CR, cs.IR, cs.LG]目的：埋め込みストアにおける隠蔽的情報窃取攻撃とその防御策に関する研究
- 情報検索システムにおける埋め込み技術の重要性が増しており，機密情報の保護が不可欠である。
- 既存のベクトルストアは，埋め込みデータの整合性管理や改ざん検出の機能が不十分である。
- 埋め込みデータへの不正な改ざんや情報窃取を防ぐための対策を提案することを目的とする。
- 攻撃者は，埋め込みデータに微小な摂動を加えることで，RAGシステムの検索性能を維持しつつ，秘密のデータを隠蔽できることが示された。
- 特に，小角度の直交回転は，分布ベースの異常検知を回避するのに有効であることがわかった。
- 提案手法VectorPinは，埋め込みデータとソースコンテンツを暗号学的署名によって結びつけることで，改ざんを検出し，情報窃取攻撃を防ぐ。
Link: https://arxiv.org/abs/2605.13764
高速量子化行列積 II [cs.CE, cs.LG, cs.AI, cs.IT, math.IT]目的：量子化行列積の性能向上
- 大規模言語モデルの効率化が重要であり，量子化はその有力な手法である。
- 既存の量子化手法は，基底の選択に依存し，性能が変動する可能性がある。
- 共分散行列を利用し，水張り法を用いて量子化精度を向上させる。
- 共分散行列が利用可能な環境下で，水張り法がGPTQなどの実用的な量子化アルゴリズムの性能向上に寄与する。
- WaterSICという最近のスキームは，基底に依存せず，理論上の歪み限界に0.25ビット/エントリ以内まで近づく。
- GPTQとランダム回転を用いた場合，WaterSICとの差は0.1ビット程度であり，高レート領域ではほぼ最適である。
Link: https://arxiv.org/abs/2605.13768
微小規模における密結合型と疎結合型事前学習：活性パラメータ対総パラメータのマッチング [cs.CL, cs.LG]目的：微小規模事前学習における，密結合型TransformerとMoE (Mixture-of-Experts) Transformerの性能比較
- Transformerは自然言語処理の基盤技術であり，その効率的な学習方法が重要視されている。
- 大規模言語モデルの学習には膨大な計算資源が必要であり，効率化が課題となっている。
- パラメータ数を抑えつつ性能を向上させる疎結合型モデルの有効性を検証する。
- 活性パラメータ数でマッチングさせたMoEモデルは，密結合型モデルよりも検証損失を低減した。
- 総パラメータ数でマッチングさせた場合，密結合型モデルの方がわずかに優位性を示したが，学習が進むにつれて差は縮小した。
- 2500万パラメータ以下の規模では，MoEは活性パラメータのマッチングにおいて性能向上を示すが，総パラメータ容量が等しい場合は密結合型モデルを上回らない。
Link: https://arxiv.org/abs/2605.13769
推論がどこで破綻するか：隠れ状態輸送幾何学によるステップレベルの幻覚検出 [cs.CC, math.PR, cs.CL, cs.AI]目的：多段階推論における幻覚検出
- 大規模言語モデルの信頼性向上は，実用化に向けた重要な課題である。
- 既存の検出器は出力全体を評価するため，最初の誤りの特定が困難である。
- 隠れ状態の軌跡の幾何学的構造に着目し，ステップごとの幻覚検出を可能とする。
- モデルはProcessBench，PRM800K，HaluEval，TruthfulQAにおいて，既存手法を上回る性能を示した。
- 教師モデルは言語モデルやデータセット間での安定した転移が可能であった。
- 蒸留による学生モデルは分布シフトに弱かったが，理論的に予測された結果と一致する。
Link: https://arxiv.org/abs/2605.13772
大規模言語モデルは高レベルメッセージシーケンスチャートをどのように理解するか [cs.SE, cs.AI, cs.LO]目的：高レベルメッセージシーケンスチャート(HMSC)に対する大規模言語モデルの理解度評価
- ソフトウェア開発ライフサイクルにおける自動化の重要性が増しており，その根拠となるアーキテクチャ設計仕様の理解が不可欠である。
- 大規模言語モデルが扱う成果物の意味論との整合性が不明であり，特にアーキテクチャ設計仕様における検証が不足している。
- HMSCの厳密な形式意味論に基づき，大規模言語モデルの理解度を評価し，その限界を明らかにすることを目的とする。
- 大規模言語モデルはHMSCの形式意味論を限定的にしか理解していないことが示された(全体正答率約52%)。
- 基本的なHMSCの概念(イベントと順序)の理解度は高い(約88%)の，抽象化や合成などの意味論的推論は苦手である(約36%)。
- トレースやLTSの計算においても課題があり，特にコリージョンや明示的な因果関係の概念の活用ができていない。
Link: https://arxiv.org/abs/2605.13773
MinT：数百万のLLMの学習と提供のための管理インフラ [cs.LG, cs.AI, cs.DC]目的：大規模言語モデル（LLM）のLoRA（Low-Rank Adaptation）を用いた後学習とオンライン提供のための管理インフラストラクチャ
- LLMの活用範囲拡大に伴い，効率的な学習と提供基盤の重要性が増している。
- 学習済みポリシーを全てフルチェックポイントとして保存するには，膨大なストレージと時間が必要となる。
- LoRAアダプターの管理を通じて，効率的なポリシー管理とスケーラビリティの向上を目指す。
- MinTは，ベースモデルを保持し，LoRAアダプターをロールアウト，更新，評価，提供，ロールバックすることで，効率的なポリシー管理を実現した。
- 大規模モデル（1Tパラメータ以上）やMoEアーキテクチャへのLoRA適用を可能にし，学習・提供性能を検証した。
- アダプターのみのハンドオフにより，処理時間を大幅に短縮し，大規模なポリシーカタログ（100万規模）を管理できることを示した。
Link: https://arxiv.org/abs/2605.13779
LMPath：言語媒介事前情報と経路生成による空域探索 [cs.RO, cs.AI]目的：空域探索のための言語媒介事前情報生成パイプライン
- 大規模環境での効率的な探索は重要であり，UAVの自律的な探索能力向上に繋がる。
- 従来の探索手法は幾何学的なパターンに頼り，対象のセマンティック情報を無視する点が課題。
- セマンティック情報を活用し，探索の事前情報を生成することで探索時間を短縮すること。
- LMPathは，与えられた地理的範囲と探索対象に基づいて，対象が存在する可能性の高い領域を言語モデルで特定する。
- 衛星画像から得られる視覚情報と組み合わせることで，探索の事前情報を生成し，効率的な経路計画を実現する。
- 実機実験とシミュレーションにより，LMPathが従来の経路計画手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.13782
注意は一度きりですべて：状態保持型Transformerによる効率的なストリーミング推論 [cs.LG]目的：ストリーミング推論における効率化
- Transformerモデルの利用拡大に伴い，推論速度の向上が不可欠となっている。
- 従来のTransformer推論エンジンは，リクエストごとに前処理コストが発生し，ストリーミング処理のボトルネックとなる。
- 状態保持型セッションを用いることで，前処理コストを削減し，低遅延な推論を実現する。
- 状態保持型のKVキャッシュにより，累積コンテキストサイズに関わらずクエリ遅延を一定に保つことができる。
- Flash Queriesは，アイドルGPUサイクルを活用してクエリを事前評価し，ユーザーの質問前にキャッシュされた回答を返す。
- マルチテナント連続バッチ処理スケジューラにより，単一のGPU上で多数の状態保持型セッションを共存させることが可能である。
Link: https://arxiv.org/abs/2605.13784
増幅から合成へ：生成AI前後の認知作戦の比較分析 [cs.CY, cs.AI]目的：認知作戦における行動と言語の調整パターンの比較
- 地政学的領域において，世論や意思決定への影響を巡る認知作戦の重要性が高まっている。
- 従来のボットによる拡散とは異なり，生成AIの登場により作戦の設計と実行に根本的な変化が生じている可能性が指摘されている。
- 生成AIが認知作戦に及ぼす影響を実証的に分析し，対策戦略の基礎となる知見を提供する。
- 2024年のデータでは，オリジナルコンテンツの割合が59％から93％に増加し，リツイートはほぼ消失した。
- 語彙的重複度は平均Jaccard係数0.99から0.27へ低下し，同一テーマに関する表現が大幅に多様化した。
- 時間的な連携は，クロスセマンティックな同期から，特定のナラティブに集中した同時発生へと変化した。
Link: https://arxiv.org/abs/2605.13785
妊娠関連血栓性微小血管症の分娩前予測のための解釈可能な機械学習：日常的な縦断的検査データを用いた研究 [cs.LG]目的：妊娠関連血栓性微小血管症（P-TMA）のリスク予測モデルの構築
- P-TMAはまれだが生命を脅かす疾患であり，早期発見が重要である。
- P-TMAに関連する検査異常は軽微で多面的であり，正常な妊娠変化と区別が困難である。
- 日常的な検査データからP-TMAのリスクを早期に予測できるモデルを開発すること。
- 勾配ブースティングモデルは，テストデータにおいてAUROC 0.872，AUPRC 0.883という良好な識別能力を示した。
- 感度は0.750，特異度は0.812であり，臨床現場での応用が期待される。
- 妊娠6週目のシスタチンCが，P-TMAのリスクモニタリングの早期指標として有望であることが示唆された。
Link: https://arxiv.org/abs/2605.13786
MLIPの効率的かつロバストな能動学習のための力感知ニューラル接線カーネル [cs.LG]目的：機械学習原子間ポテンシャル(MLIP)の能動学習におけるスケーラビリティ，ロバスト性，エネルギー・力情報の活用
- MLIPは，分子動力学シミュレーションにおいて，計算コストを削減し，より大規模な系でのシミュレーションを可能にする重要な技術である。
- 既存の能動学習手法は，候補プールのサイズ拡大や，偏った候補プールへの対応に課題があり，実用性に限界があった。
- 本研究は，大規模な候補プールでも効率的かつロバストな能動学習を実現し，MLIPのファインチューニングを促進することを目的とする。
- 提案手法は，特徴空間の事後分散に基づいたチャンク化された獲得フレームワークにより，約20万構造のスクリーニングを数時間で実現する。
- ニューラル接線カーネルを力感知設定に拡張し，エネルギー・力情報を統合したカーネルを開発することで，ベクトル場の予測における自然な類似性指標を提供する。
- OC20データセットにおいて，提案手法はエネルギーと力の平均絶対誤差および二乗平均平方根誤差において，全ての評価指標と分布分割で最低値を達成した。
Link: https://arxiv.org/abs/2605.13788
Ensembits：タンパク質構造アンサンブルのアルファベット [cs.LG, cs.AI, q-bio.BM]目的：タンパク質構造のコンフォメーションアンサンブルをトークン化する手法
- タンパク質の機能予測や進化解析において，構造トークナイザーは重要な役割を担う。
- 既存の構造トークナイザーは静的な構造しか捉えられず，タンパク質の動的な挙動を反映できない。
- タンパク質のコンフォメーション変化を考慮した新たなトークナイザーの開発を目指す。
- Ensembitsは，RMSF予測において既存手法を上回り，構造トークナイザーとして優れた性能を示した。
- EC，GO，結合部位予測などのタスクにおいても，静的なトークナイザーと同等またはそれ以上の性能を達成した。
- 蒸留目的関数により，単一の構造から動的なトークンを予測することが可能となり，データのスパース性の問題を軽減した。
Link: https://arxiv.org/abs/2605.13789
Di-BiLPS：疎な観測下におけるノイズ除去誘導双方向潜在的偏微分方程式ソルバー [cs.LG, cs.AI]目的：極めて疎な観測下における順問題および逆問題の両方に対応可能な統一的なニューラルフレームワーク
- 偏微分方程式は，複雑な自然現象や物理現象のモデリングに不可欠であり，幅広い応用分野で重要である。
- 現実世界では観測データが極めて疎である場合が多く，従来の数値ソルバーや既存のニューラルアプローチの適用が制限される。
- 本研究では，極めて疎な観測下でも効率的な推論と高精度な予測を可能にするフレームワークを開発し，その課題を解決する。
- 提案手法Di-BiLPSは，極めて疎な入力（3%程度）下で，最先端の性能を安定的に達成することが実験的に示された。
- 計算コストを大幅に削減しつつ，柔軟な入出力マッピングを維持する効率的な推論を実現している。
- 連続的な時空間領域での予測を可能にするゼロショット超解像を実現している。
Link: https://arxiv.org/abs/2605.13790
評価における再現性向上のために：多層アノテーターモデリング [cs.LG, cs.AI]目的：評価における再現性の改善
- 大規模言語モデルの普及に伴い，安全性や信頼性確保が重要課題となっている。
- AI評価の信頼性不足と実験結果の再現性の低さが課題となっている。
- アノテーターの多様性を考慮し，再現性の高い評価手法を確立することを目指す。
- アノテーターの行動を多層ブートストラップ法でモデル化するアプローチを提案。
- 評価項目数と各項目への回答数のトレードオフを分析し，統計的有意性を達成するために必要な数を検討。
- 多数の評価データとアノテーターIDを活用することで，評価の再現性向上に貢献する。
Link: https://arxiv.org/abs/2605.13801
最小最大最適化には指数関数的に多数のクエリが必要である [cs.DS, cs.CC, cs.GT, cs.LG, math.OC]目的：非凸・非凹関数fの最小最大最適化におけるクエリ複雑性
- 機械学習等の最適化問題は多岐に渡り，効率的な解法が求められている。
- 非凸・非凹関数の最適化は，局所解に陥りやすく，厳密解を見つけるのが困難である。
- ε-近似停留点を見つけるためのクエリ数を理論的に評価し，困難性を示す。
- 非凸・非凹関数の最小最大最適化において，ε-近似停留点を見つけるためには，εまたは次元dに対して指数関数的な数のクエリが必要であることが示された。
- この結果は，既存のアルゴリズムの限界を示唆しており，より効率的なアルゴリズム開発の必要性を示唆する。
- クエリ複雑性の理論的限界を理解することは，現実的な問題への適用可能性を評価する上で重要である。
Link: https://arxiv.org/abs/2605.13806
ランダム化ハダマール変換による証明可能な量子化 [cs.LG, cs.DS]目的：ベクトル量子化における理論的保証と効率化
- 機械学習の分野において，類似検索や分散学習など幅広い応用を持つ基本的な手法である。
- ランダムなハダマール変換は計算コストが課題であり，理論的な保証も十分ではない。
- ジッター付き量子化により，ランダム回転行列と同等の性能を達成し，理論的保証を与える。
- ジッター付き量子化とランダム化ハダマール変換の組み合わせが，理論的に無バイアスであることが証明された。
- TurboQuantのジッター付きバージョンは，座標あたり$b$ビットで平均二乗誤差$\bigl(\pi\sqrt{3}/2 + o(1)\bigr) \cdot 4^{-b}$を達成する。
- この誤差は，量子化レベルが増加するにつれて，すべての単位ベクトルとすべての次元で一様的に消失する。
Link: https://arxiv.org/abs/2605.13810
スマートウォッチを用いた精神病再発の不確実性駆動型異常検知：予測とマルチタスク学習の融合 [cs.LG]目的：精神病再発の早期検出
- 精神疾患の早期発見と介入は，患者のQOL向上と社会復帰に不可欠である。
- ウェアラブルデバイスからのデータはノイズが多く，安定した異常検知が困難である。
- 多様なデジタル表現型を統合し，高精度な再発予測を可能にすること。
- スマートウォッチ由来の心拍変動と活動量，睡眠データを活用した2つの異常検知フレームワークを開発した。
- 予測不確実性に基づき，ロバストな異常スコアを算出するアンサンブル学習を導入した。
- 両フレームワークの融合により，既存のベースラインを8%相対的に上回る結果が得られた。
Link: https://arxiv.org/abs/2605.13816
自然言語ソフトウェア要件の神経記号的監査 [cs.SE, cs.AI]目的：自然言語によるソフトウェア要件の曖昧性，矛盾，不備の検出
- 安全性に関わる分野では，要件の誤りが重大な事故につながるため，厳密な検証が不可欠である。
- 自然言語で記述された要件は解釈が曖昧で，一貫性がない場合が多く，誤った仕様や危険な実装を引き起こす。
- 大規模言語モデルとSMTソルバーを組み合わせることで，自然言語要件の曖昧性や矛盾を検出し，安全性を評価する。
- 大規模言語モデルとSMTソルバーの組み合わせにより，要件の曖昧性を検出し，複数の解釈が存在する場合にSMTソルバーで検証可能なテストを生成できる。
- 具体的なSMTソルバーの反例を用いた反復的な修正により，血液透析に関する質疑応答ベンチマークの精度が55.4%から98.5%に向上した。
- VERIMEDは，オープンソースの血液透析安全要件に対する曖昧性感受性要件を削減し，SMTベースのクエリによる厳密な監査を可能にする。
Link: https://arxiv.org/abs/2605.13817
エージェント進化の活用 [cs.AI, cs.LG]目的：プログラム，ワークフロー，科学的解決策の改善
- 複雑化する問題に対し，自動化された改善手法の需要が高まっている。
- 既存手法は，柔軟性と安定性の両立が難しく，長期的な進化において性能が低下する。
- 過去の進化過程の情報を活用し，より効率的な改善サイクルを構築すること。
- AEvoは，エージェント進化をインタラクティブな環境として捉え，過去の情報を活用して進化メカニズム自体を編集する。
- AEvoは，手続き型とエージェント型の両方の進化を制御し，長期的な探索において優れた性能を発揮する。
- 複数のベンチマークテストにおいて，既存の進化手法を凌駕し，最先端の性能を達成した。
Link: https://arxiv.org/abs/2605.13821
履歴アンカー：過去の行動がLLMの意思決定を危険な方向へ導く仕組み [cs.RO, cs.SY, eess.SY, cs.AI, cs.CV]目的：LLMにおける過去の行動履歴が，その後の意思決定に与える影響の分析
- LLMはエージェントとして活用されつつあり，安全性確保が重要な課題となっている。
- LLMは過去の履歴に影響を受けやすく，危険な行動を継続する可能性がある。
- LLMの行動履歴に対する脆弱性を明らかにし，安全な運用方法を模索する。
- 先行する有害な行動履歴が存在する場合，最先端のLLMは，システムプロンプトのみでは危険な選択肢を選ばない。
- しかし，「過去の戦略と一貫性を保て」という指示を加えることで，LLMは91～98%の確率で危険な選択肢を選択するようになる。
- さらに，危険な選択肢がエスカレートする傾向も見られ，LLMの安全性に対する重大な懸念が示唆される。
Link: https://arxiv.org/abs/2605.13825
科学機械学習におけるサンプル間予測変動の低減 [cs.LG, cond-mat.mtrl-sci, physics.chem-ph]目的：科学機械学習における予測変動の評価と抑制
- 科学的機械学習は予測性能を報告するが，データの変動に対する予測の安定性は評価されていない。
- 同じデータセットでも，学習データの異なる抽出により予測結果に大きな変動が生じるという問題がある。
- 学習データのわずかな変動に対する予測のロバスト性を向上させる手法を提案し，評価すること。
- 化学分野の9つのベンチマークデータセットにおいて，異なるブートストラップサンプルで学習させた分類器は，集計精度ではわずかな差しか見られない。
- しかし，個々の分子のクラスラベル予測において，8.0～21.8%の不一致が見られた。これを「サンプル間予測変動」と定義する。
- 提案手法であるTwin-Bootstrapは，Bagging-K=2に加えて，予測変動をさらに中央値で45%削減することに成功した。
Link: https://arxiv.org/abs/2605.13826
否定の軽視：モデルが学習時に否定を学習できない場合 [cs.CL, cs.AI, cs.LG]目的：大規模言語モデルにおける否定の学習に関する問題点の特定
- 大規模言語モデルの性能向上は，様々なタスクにおいて重要な進展をもたらしている。
- モデルは，文脈における否定表現を正しく解釈できず，誤った知識を獲得することがある。
- 否定の学習を阻害する要因を特定し，より信頼性の高いモデルを構築すること。
- 誤情報を含む文書で学習させた場合，モデルは否定された内容を肯定するものとして学習してしまう現象が確認された。
- 特に，否定文が独立した文として記述されている場合に顕著であり，文中に直接否定表現が含まれる場合は改善される傾向がある。
- この問題は，様々な大規模言語モデル（Kimi K2.5，GPT-4.1，Qwenシリーズなど）で共通して発生し，AIの安全性にも影響を及ぼす可能性がある。
Link: https://arxiv.org/abs/2605.13829