arXiv雑要約

AI - 2026/06/16 公開

  • スカラー・ステップサイズ非一様モンテカルロ楽観的方策反復:証明された反例 [cs.LG]目的:非一様モンテカルロ楽観的方策反復における収束性の証明
    • 強化学習において,最適な方策を効率的に学習することは重要な課題である。
    • モンテカルロ法を用いた方策反復において,更新頻度の非一様性が収束性を妨げる可能性がある。
    • スカラー・ステップサイズを用いた非一様更新の具体的な反例を示すことで,収束性の限界を明らかにする。
    • 3状態2行動の割引付きMDPにおいて,非一様更新頻度が対角スケール化された貪欲方策平均場を誘発し,非定常な吸引型ハイブリッド周期軌道が存在することが証明された。
    • 有界なバイアスなし幾何学的ホライズン推定器とRobbins-Monroステップサイズを用いることで,確率的にこの周期軌道近傍に捕捉され,収束しない。
    • 一様サンプリングは放射状の残差収縮をもたらす一方,スカラー非一様サンプリングは残差ダイナミクスを異方的に歪め,スイッチング吸引サイクルを生成する。

    Link: https://arxiv.org/abs/2606.15978

  • 安全性モニターはアップデート後も信頼性を維持するか?ベンチマークと活性化モニターの陳腐化予測 [cs.CC, cs.LG, cs.AI, cs.CL]目的:活性化モニターの信頼性維持に関する検証
    • 大規模言語モデルの安全な展開には,活性化モニターが不可欠である。
    • モデルのアップデートに伴い,活性化モニターの性能が低下する可能性が懸念されている。
    • モデルアップデート後のモニター陳腐化を予測し,再検証の優先順位付けを可能にすること。
    • 量子化によるアップデートはモニター性能を維持する傾向がある一方,ファインチューニングはモニターを陳腐化させやすい。
    • プライバシー保護モニターは特に影響を受けやすく,拒否・遵守モニターは比較的安定している。
    • モニターの陳腐化は,事前特徴から予測可能であり,再検証予算の効率的な配分に役立つ。

    Link: https://arxiv.org/abs/2606.15980

  • 文脈学習による深層学習ワークロード移行のためのエージェント的フレームワーク [cs.AI, cs.LG]目的:深層学習モデルのPyTorchからJAXへの自動移行
    • 深層学習モデルのフレームワーク間移行は,開発効率や移植性に影響する重要な課題である。
    • PyTorchとJAXでは設計思想が異なるため,手動移行は手間とエラーが多発する。
    • 大規模言語モデルを活用し,厳密なAPI対応と自己デバッグにより,信頼性の高い自動移行を実現する。
    • 提案手法は,文脈学習と実行オラクル,自己デバッグを組み合わせることで,従来のベースラインと比較して数値的な等価性が大幅に向上した。
    • ニューラルモジュールにおいて91%という高い数値的等価性を達成し,スケーラブルなフレームワーク間移行の青写真を提供する。
    • SAMやT5,Code Whispererなど,複数の最先端モデルで検証され,高い数値的等価性が確認された。

    Link: https://arxiv.org/abs/2606.15994

  • エンティティラベルはエンティティシグナルではない:文書再ランク付けにおける観測可能な関連性のフレームワーク [cs.RO, cs.SY, eess.SY, cs.IR, cs.AI, cs.CL, cs.LG]目的:文書再ランク付けにおける観測可能な関連性の概念
    • 情報検索の精度向上には,クエリと文書間の意味的な関連性を捉えることが重要である。
    • エンティティ情報を用いた検索では,エンティティリンカーの誤りにより,関連性の低い文書が上位にランク付けされる問題がある。
    • 概念的な関連性だけでなく,文書におけるエンティティの観測可能な関連性を重視することで,検索精度を改善することを目指す。
    • エンティティの概念的関連性と観測可能な関連性にはほとんど相関が見られず,観測可能な関連性がより実用的な指標であることが示された。
    • 概念的関連性に基づく学習では,関連性の低い文書を十分に除去できず,検索性能が制限されることが確認された。
    • 観測可能な関連性に沿った学習により,関連性の低い文書の除去率が大幅に向上し,検索性能が改善された。

    Link: https://arxiv.org/abs/2606.15998

  • GRACE-DS:データサイエンスにおけるガード付き報酬誘導エージェント修正環境 [cs.CL, cs.LG]目的:LLMを活用したAutoMLエージェントの事前展開評価
    • データサイエンスの自動化は,専門知識がなくても効率的な分析を可能にする。
    • LLMベースのAutoMLエージェントは,潜在的なエラーや組織要件への不適合を抱える。
    • LLMエージェントの信頼性と組織固有の基準への適合性を評価するプラットフォームの提供。
    • GRACE-DSは,データサイエンスの様々なワークフロー段階を評価できる環境である。
    • 反復的な対話形式が,最終的な予測性能とプロトコル遵守性を向上させる。
    • 7,000以上のエピソードで検証され,実環境でのLLMベースAutoMLエージェント評価の堅牢なプラットフォームとして確立された。

    Link: https://arxiv.org/abs/2606.16000

  • 1クラスSVMを1データSVMのアンサンブルに分解する [cs.LG]目的:1クラス分類問題に対する高速化戦略
    • 機械学習における異常検知の重要性が高まっており,1クラス分類が活用される場面が増加している。
    • 既存の1クラスSVMは,大規模データセットに対する計算コストが高いという課題を抱えている。
    • 大規模データセットにおいても効率的に1クラスSVMを適用するための手法を確立すること。
    • 提案手法は,従来の1クラスSVMと比較して高速に処理が可能であることを実験で示した。
    • 分類性能は従来の1クラスSVMと同程度であり,実用的な代替手法となりうる。
    • 各サンプルに対応するモデルを作成することで,解釈性の向上も期待できる。

    Link: https://arxiv.org/abs/2606.16002

  • SciText2Eq:科学的創造性を 위한 설명 가능한 방정식 생성을 위한 LLM 평가 [cs.AI]目的:科学技術論文からの数式生成の能力評価
    • 科学研究の発展には,論文の内容を正確に理解し,数式を導き出すことが不可欠である。
    • 既存手法では,非構造化データの処理,複数方程式間の依存関係,人間による評価の整合性などに課題がある。
    • LLMによる数式生成の精度向上と,より信頼性の高い評価手法の開発を目指す。
    • LLMは,語彙的・構文的な類似性においては中程度の性能を示すが,意味的な正確性においては苦戦する。
    • LLMによる評価と人間の判断との間にはずれが見られ,LLMが数式の質を評価することの難しさを示す。
    • 本研究の結果は,数式生成モデルの改善と,科学技術論文評価のための信頼性の高い手法開発に貢献する。

    Link: https://arxiv.org/abs/2606.16003

  • 定理に基づいた実行オントロジーによる解釈可能な機械推論 [cs.CL, cs.HC, cs.IR, cs.AI]目的:解釈可能で検証可能な機械推論システムの構築
    • 大規模言語モデルの推論能力向上は目覚ましいが,その過程の透明性に課題がある。
    • 既存手法では推論の過程が明示的でなく,検証やデバッグが困難である。
    • 推論を状態遷移としてモデル化し,実行可能な構造を明示することで,解釈性と検証可能性を高める。
    • 定理に基づいた実行オントロジー(TGEO)は,推論をトークン列ではなく,実行可能な状態遷移プロセスとしてモデル化する。
    • TGEOは,問題に関連する定理を特定し,ドメインオントロジーに結び付け,実行可能な推論グラフを構築する。
    • 数学的ベンチマークとGolden Execution Suiteを用いた評価で,解釈性,検証性,再現性の高いAI推論システムが実現可能であることが示された。

    Link: https://arxiv.org/abs/2606.16010

  • オーケストレーションされた現実:ロールプレイから生きているプレイ可能なゲーム世界へ - LLM駆動の世界シミュレーションをパラメーター化された行動POMDPとして [cs.CL, cs.HC, cs.AI, cs.MA]目的:LLM駆動によるゲーム世界の実現可能性の検証
    • ゲーム開発において,物語性と世界シミュレーションの融合は重要である。没入感の高い体験を生み出す鍵となる。
    • 従来,物語とシミュレーションの統合はコストが高く,特にサンドボックス型ゲームで課題となっていた。
    • LLMを用いて世界の状態を整合的に管理し,自律的なゲームエンジンを実現することを目指す。
    • 本研究では,世界をGMが所有する正準的なJSONオブジェクトとして捉え,LLMによるゲーム世界をパラメータ化された行動POMDPとして形式化した。
    • LLMを用いたPlan-Diff-Validate-Apply(PDVA)パイプラインにより,スキーマ検証済みのJSONデルタを適用することで,世界の状態を更新する。
    • 実際のデプロイメントから得られた15件の事例を通じて,本フレームワークの有効性を示した。今後の展望として,人間によるプレイヤー研究の実施が計画されている。

    Link: https://arxiv.org/abs/2606.16014

  • 人間およびG2Pによる指導の規模拡大と,堅牢な音素転写 [eess.SY, cs.SY, cs.CL, cs.LG, cs.SD]目的:音素転写の性能向上
    • 音声認識の精度は,正確な音素転写に大きく依存しているため,その重要性は高い。
    • 標準的な方言や非典型的な発話における専門家による音素注釈はコストが高く,規模拡大が困難である。
    • 人間による注釈とG2Pの組み合わせ方によって,音素転写の性能がどのように変化するかを明らかにすること。
    • G2Pによる自動音素転写は,人間による注釈が20~30時間未満の場合に有効であることが示された。
    • 人間注釈が30時間を超えると,G2Pの活用は効果がなく,方言間での汎化性能を低下させる可能性もある。
    • ASRの事前学習によって,従来のシステムと比較して音素特徴エラー率を2.3倍削減し,非母語話者や失語症患者の音声認識性能を向上させた。

    Link: https://arxiv.org/abs/2606.16019

  • IBAD:人間移動データにおける解釈可能な行動異常検知 [cs.RO, cs.LG]目的:人間移動データの行動テンプレートと,それらを用いた個人の行動表現
    • 人間の移動行動は多様だが,個人の日常行動は少数の行動パターンで説明可能である。
    • 既存手法では,特定の場所に着目し,行動の本質的な特徴を捉えきれていない場合がある。
    • 行動テンプレートを用いて,個人の異常行動を検出し,その理由を説明することを目指す。
    • 提案手法IBADは,潜在的ディリクレ配分(LDA)を用いて,解釈可能な日常の行動テンプレートを学習する。
    • IBADは,個人の行動履歴から正常な行動を学習し,異常行動を検出する。
    • 実験により,IBADが地理的・人口統計学的背景が異なる環境でも有効であることが示された。

    Link: https://arxiv.org/abs/2606.16023

  • 直交制約下における共有表現の情報理論的利点 [cs.CL, cs.LG, cs.IT, math.FA, math.IT]目的:直交制約下における共有表現の記述長効率性
    • 深層学習はマルチタスク・マルチモーダル化が進み,汎化性能向上が重要課題である。
    • 複数のタスクを個別に近似する場合と,結合して近似する場合のパラメータ複雑さの差が不明確である。
    • 共有潜在特徴を持つタスクにおいて,結合近似が単独近似よりも少ないビット数で表現可能となることを示す。
    • 本研究では,直交制約下で結合近似が単独近似よりも厳密に少ないビット数で済むことを情報理論的に証明した。
    • 共有ハード特徴をラダメッハー・ハール波動系列で実現し,鋸歯状・ウォルシュ読み出しにより出力座標の直交性を強制することで,この結果を得た。
    • この結果は,幾何学的制約下でもニューラルネットワークが表現力を維持できる理由を説明する理論的根拠を提供する。

    Link: https://arxiv.org/abs/2606.16028

  • 時間的分類における推論時の意思決定キャリブレーション [cs.LG]目的:時間的分類における意思決定の信頼性向上
    • 時間的データ分析は,医療,行動認識など幅広い分野で重要である。
    • 時間的分類では,特徴表現だけでなく,証拠の統合方法も課題となる。
    • 推論時に証拠を調整することで,分類精度と信頼性を高めることを目指す。
    • 提案手法は,時間的分類における特徴表現と意思決定のキャリブレーションを分離する。
    • 残差マルチスケール分岐とブランチアウェアキャリブレータにより,既存モデルの再学習なしに改善を実現。
    • 実験結果から,提案手法の効果はデータやモデルの特性に依存することが示唆された。

    Link: https://arxiv.org/abs/2606.16034

  • Open-SWE-Traces: ソフトウェアエンジニアリングエージェントのためのデュアルモード多言語蒸留の推進 [cs.SE, cs.AI]目的:ソフトウェアエンジニアリングエージェントの学習のための大規模な多様な軌跡データセット
    • 自律的なソフトウェアエンジニアリングの実現には,質の高い学習データが不可欠である。
    • 大規模で多様なソフトウェアエンジニアリングエージェントの軌跡データが不足している。
    • 高品質な軌跡データセットを提供し,ソフトウェアエンジニアリング能力を向上させる。
    • Open-SWE-Tracesは,9つのプログラミング言語における207,489件の軌跡データを含む大規模データセットである。
    • Qwen3-30B-A3Bモデルのファインチューニングにより,SWE-bench Verifiedで61.7%の解決率を達成した。
    • このデータセットは,オープンソースのエージェントLLMへの人間レベルのソフトウェアエンジニアリング能力の蒸留に貢献する。

    Link: https://arxiv.org/abs/2606.16038

  • 自律型物流車両向けロードキャリアの物体及び位置認識のための深層学習の活用 [cs.RO, cs.AI]目的:ロードキャリアの物体及び位置認識
    • 物流自動化への期待が高まる中,重要な要素技術の一つである。
    • 従来の認識手法では,環境変化への対応が困難であった。
    • 深層学習を用いて,ロバストな認識システムの実現を目指す。
    • 深層学習ネットワークにより,RGBDデータからロードキャリア上のランドマークを認識することができた。
    • ランドマークの位置情報と事前幾何学的知識を組み合わせることで,ロードキャリアの位置推定が可能となった。
    • 実験結果から,本手法が産業環境において信頼性の高いロードキャリア検出に適していることが確認された。

    Link: https://arxiv.org/abs/2606.16042

  • 自己回帰型タンパク質言語モデルにおける回路追跡 [cs.LG, q-bio.QM]目的:タンパク質生成のメカニズム解明
    • タンパク質設計において,新たな機能を持つタンパク質創出が重要視されている。
    • タンパク質言語モデルの生成メカニズムは不明であり,解釈性の欠如が課題である。
    • 生成過程を解釈可能な回路として特定し,制御可能なタンパク質生成を目指す。
    • ProGenMechは,既存手法よりもProGen3の確率分布と機能スコアリングをより正確に再現した。
    • 発見された回路は,保存された配列パターンやタンパク質適合性ランドスケープに関連する生物学的に意味のあるモチーフと機能領域を示した。
    • 本研究は,解釈可能かつ制御可能なタンパク質生成のための基盤を確立する。

    Link: https://arxiv.org/abs/2606.16044

  • 低ランク構造を用いたデータ選択における能動学習 [cs.LG, cs.DS]目的:データ選択のための低ランク構造に基づく能動学習手法
    • 機械学習モデルの効率的な学習には,適切なデータ部分集合の選択が不可欠である。
    • 既存手法はデータの幾何学的構造に依存するため,代数的構造を持つデータセットへの適用が難しい。
    • 低ランク近似と残差に基づくサンプリングにより,より広範なデータセットに対応するデータ選択を実現する。
    • 提案手法は,平均損失を$(1+\varepsilon)$の相対誤差で近似する$\tilde{O}\left(k + \frac{1}{\varepsilon^2}\right)$個のデータ点を選択可能である。
    • 理論的保証に加え,実データ実験により,提案手法が既存のサンプリングやクラスタリングに基づく手法を上回る性能を示すことが確認された。
    • この手法は,埋め込み行列の最適ランク-$k$近似コスト$\Phi_k$に依存する誤差項を持つ。

    Link: https://arxiv.org/abs/2606.16045

  • ALCL:非ガウス性ノイズ下におけるロバストな学習のための適応型ログ・コレントロピー損失 [cs.LG, cs.AI]目的:非ガウス性ノイズ下でのロバストな学習
    • 深層学習は強力だが,ノイズに弱い。現実世界のデータにはノイズが多く含まれるため,ロバスト性が重要。
    • 従来の損失関数は外れ値に敏感で,重い裾を持つノイズに弱いという課題があった。
    • 損失関数の形状を適応的に学習することで,ノイズに対するロバスト性を高めることを目指す。
    • 提案手法ALCLは,固定されたカーネルパラメータに依存する既存の方法と異なり,学習中にロバストネスの形状を適応的に学習する。
    • ALCLは,再パラメータ化により損失関数の形状とスケールパラメータをネットワークの重みと同時に学習する。
    • 実験の結果,ALCLは様々なデータセットで,従来の損失関数や最適化されたコレントロピー損失よりも高い性能を示した。

    Link: https://arxiv.org/abs/2606.16050

  • エネルギーコストのみによるHEMS最適化における隠れた劣化コスト:バッテリーとPV感度に関する研究 [cs.NI, cs.LG]目的:住宅用蓄電池システムと太陽光発電の感度分析を通じた,エネルギーコスト最適化における劣化コストの評価
    • 電力価格変動下で,住宅用蓄電池と太陽光発電の組み合わせが普及している。エネルギーコスト削減への貢献が期待される。
    • 既存のHEMS最適化はエネルギーコストのみを最小化するため,バッテリー劣化コストが考慮されていない。
    • エネルギーコストのみの最適化が,実際のシステムコストを過小評価する問題を明らかにする。
    • バッテリーの劣化コストはバッテリー容量に依存せず,エネルギーコスト削減額を最大1060%上回る場合があることが示された。
    • エネルギーコストのみを最適化すると,システム全体のコストを実際よりも低く見積もる可能性があることが明らかになった。
    • 劣化を考慮した制御手法の必要性が示唆される。

    Link: https://arxiv.org/abs/2606.16051

  • AIが民主主義にもたらす危険の検出と測定方法 [cs.SI, cs.CY, cs.CY, cs.AI]目的:AIシステムが民主的プロセスに及ぼす問題の体系化
    • AI技術の発展は,民主主義の根幹に関わる重要な課題を提起している。
    • AIによるリスクの優先順位付けや,領域間の比較が困難である。
    • AIシステムが民主的統制を損なう可能性のある箇所を特定すること。
    • 本研究では,AIを代理人問題として捉えることで,説明責任のギャップやガバナンスの失敗を特定する。
    • NIST AIリスク管理フレームワークの7つの信頼性特性を活用し,委任されたタスクを評価する基準を提供する。
    • 機関による評価可能性を重視した分析フレームワークを提案し,民主主義的統制の条件を明確化する。

    Link: https://arxiv.org/abs/2606.16054

  • 侵襲なし血糖異常リスクスクリーニングのための説明可能な機械学習 [cs.LG, cs.HC]目的:非侵襲的血糖異常リスクスクリーニングのための機械学習モデルの開発と検証
    • 世界的に血糖異常患者が増加しており,早期発見と予防が重要である。
    • 多くの血糖異常患者が未診断のままであり,検査へのアクセスも課題である。
    • 問診や身体測定のみで血糖異常リスクを評価する手法の確立を目指す。
    • LightGBMモデルが最も高いAUC(0.820)を示し,既存の臨床リスクスコアを上回った。
    • 年齢,人種/民族,ウエスト・ハイト比が最も重要な予測因子として特定された。
    • サブグループ分析において,LightGBMモデルは様々な人口統計学的層において一貫した性能を示した。

    Link: https://arxiv.org/abs/2606.16056

  • Mojo:スケーラブルな金融AI効率のための有望なツール [cs.RO, cs.SY, eess.SP, eess.SY, cs.LG, cs.AI]目的:金融AIにおける効率性向上と,研究から本番環境への移行のボトルネック解消
    • 金融分野では,高度な数値計算が不可欠であり,計算効率が競争力の源泉となる。
    • Pythonで開発されたモデルをC++に書き換える際に,数値的な不整合が発生しやすい。
    • Mojoを用いることで,PythonとC++の性能差を縮小し,再現性のある決定論的なカーネル構築を目指す。
    • Mojoは,Apple Silicon上でPythonと比較して,20倍から180倍の速度向上を示した。
    • Mojoは,スカラー,SIMD,マルチコア,GPUなど,多様な実行環境を単一のコードベースでサポート可能である。
    • 再現性のある還元カーネルのオープンソースライブラリ「mojo-deterministic」が提供される。

    Link: https://arxiv.org/abs/2606.16059

  • コードRL学習環境における報酬ハッキングの監査 [cs.AI, cs.LG]目的:コードRL環境における不正解な解答が正解と判定される割合の測定
    • ソフトウェア開発の自動化において,コード生成AIの信頼性向上は不可欠である。
    • コードRL環境のテストスイートが脆弱な場合,誤った修正が通ってしまう可能性がある。
    • 脆弱なテストスイートを持つタスクを特定し,改善するための手法を確立すること。
    • SWE-bench Verifiedの49タスク中,28.5%で脆弱なテストスイートが確認された。
    • R2E-Gymの20タスクでは,不正解な修正が25.0%の割合でテストをパスした。
    • ハッキング可能なタスクは,堅牢なタスクに比べてPass@1スコアが14.14%高かった。

    Link: https://arxiv.org/abs/2606.16062

  • マインド・スタジオ:先読み評価を用いた部分観測ゲームのための実行可能世界モデル [eess.SY, cs.RO, cs.SY, math.OC, cs.AI]目的:部分観測ゲームにおける実行可能な世界モデルの合成
    • ゲームAIの発展には,環境の理解が不可欠であり,世界モデルはそのための重要な要素である。
    • 既存の世界モデルは,環境のダイナミクスを完全に再現できず,実環境から独立して実行できない場合がある。
    • 実環境から独立して実行可能な,より高精度な世界モデルを合成することで,ゲームAIの性能向上を目指す。
    • マインド・スタジオは,状態・行動・次状態の軌跡から,pygameスタイルの実行可能な世界モデルを合成するフレームワークである。
    • モンテズマの復讐において,行動予測の精度がPoE-Worldの0.3%から48.7%へと大幅に向上し,8個のサブゴールのうち5個を検証できた。
    • Alien,Assault,Skiingにおいても,既存の先読み手法よりも高い分岐レベルの忠実度を達成した。

    Link: https://arxiv.org/abs/2606.16070

  • MASCOT-Android:Androidマルウェアのソースコード標本のキュレーション済みデータセットと自動収集パイプライン [cs.CR, cs.AI]目的:Androidマルウェアのソースコード標本に関するキュレーション済みデータセットと自動収集パイプライン
    • マルウェア解析において,攻撃者の意図を直接的に理解するため,ソースコードの解析が重要である。
    • マルウェアのソースコードは入手が困難であり,手動でのレビューには高いコストがかかるという課題がある。
    • GitHubにおけるスケーラブルなマルウェアソースコードの発見を自動化し,データセット構築の効率化を目指す。
    • リポジトリレベルのドキュメントが,マルウェアソースコード収集のための強力な指標となることが示された。
    • READMEファイルのみを利用したモデルが,96.28%の精度と1.06%のFPRを達成した。
    • モデルが出力する信頼度スコアにより,FPRと網羅率のバランスを調整した実用的なマルウェアソースコード収集が可能となる。

    Link: https://arxiv.org/abs/2606.16072

  • サンプラーを止めよ!分類器に基づく適応的停止によるサンプリングカーネル [cs.LG, stat.ML]目的:複雑な非正規化確率密度からのサンプリング
    • ベイズ推論や確率モデルにおいて,確率密度のサンプリングは不可欠である。
    • MCMCは漸近的な保証を持つが,固定長または手動調整の軌跡長により,混合が遅く計算コストが高い。
    • 軌跡の終了を学習可能な要素として扱い,効率的なサンプリングを実現すること。
    • 本手法は,軌跡の終了を状態に依存するニューラル分類器によって決定する。
    • 理論的には,最適な分類器と目標密度の詳細平衡条件との関係が確立された。
    • 様々なベンチマーク密度において,平均軌跡長を短縮し,モードカバレッジと混合を改善した。

    Link: https://arxiv.org/abs/2606.16073

  • PVminerLLM2:嗜好度最適化による患者の声の構造化抽出の改善 [cs.CL, cs.AI]目的:患者の声の構造化抽出
    • 患者の生活体験や社会的背景は,患者中心の成果研究において重要な情報源である。
    • 患者が生成するテキストは非構造化データが多いため,研究への活用が制限されている。
    • きめ細かいエラーに対応し,構造化抽出の精度向上を目指す。
    • PVminerLLM2は,嗜好度最適化を用いることで,教師ありファインチューニングでは克服が難しいトークンレベルの誤りを改善する。
    • トークンレベルの安定化項や,識別困難なペアの構築により,性能向上を実現した。
    • 様々なモデルサイズで,既存手法を上回る結果が得られた (Code, Sub-code, Span)。

    Link: https://arxiv.org/abs/2606.16074

  • 生成AI市場における多種貢献者帰属フレームワーク AME [cs.LG, cs.CV]目的:生成AIにおける価値分配の実現
    • 生成AIの発展は,データ,モデル,プロンプトなど多様な貢献者による協力で価値を生み出す。
    • 貢献者の貢献度に応じた公正な価値分配の方法論が確立されていない。
    • 異質なデータ貢献の評価,データ権利のマッピング,信頼性の高い実行を統合的に解決する。
    • 提案フレームワークAMEは,人間による評価との整合性が高く,低コストで信頼性の高い実行を可能にする。
    • AMEは,データ貢献の評価,権利のマッピング,実行を一つのワークフローに統合する。
    • 本研究は,生成AIデータ市場における価値評価と収益分配の基礎となる。

    Link: https://arxiv.org/abs/2606.16075

  • 物理知識に基づく潜在世界モデルによる多変量時系列予測 [cs.LG, cs.AI, cs.GT]目的:多変量時系列予測のための物理知識に基づく潜在世界モデル
    • 物理システムの予測は,現実世界の理解と制御に不可欠であり,様々な分野で重要性を増している。
    • 既存モデルでは,予測精度と物理的整合性の両立が難しく,解釈可能性にも課題がある。
    • 潜在的な予測状態に物理的な制約を導入し,解釈可能な時系列モデルを構築することを目指す。
    • 提案手法Phys-JEPAは,潜在状態を物理成分と残差成分に分解し,潜在空間での物理的整合性を強制することで,予測性能を向上させた。
    • Jena Climateデータセットでは,予測誤差(MSE)の集約値が0.12482から0.12273に,温度MSEが0.01892から0.01831に減少した。
    • Trafficデータセットでは,全ての予測 horizonにおいて,教師ありモデルよりも集約MSEが改善され,Electricityデータセットでも良好な結果が得られた。

    Link: https://arxiv.org/abs/2606.16076

  • 多項式時間における誤り許容言語生成 [cs.CC, cs.LG]目的:誤り許容言語生成の多項式時間バージョン
    • 言語モデルの学習において,効率性と正確性の両立が重要である。
    • 誤り許容学習は理論的に重要だが,計算コストが高い場合がある。
    • 多項式時間で実行可能な誤り許容言語生成手法を確立すること。
    • 変数のパリティやリテラルの連言の族は,多項式時間MBLGであることが示された。
    • 多項式個数の最大項を持つ単調ブール関数族は,多項式時間MBLGである。
    • この手法は,ボードに数値を書き込む新しい組合せゲームとして表現できる。

    Link: https://arxiv.org/abs/2606.16077

  • Tool-IQA:単純なツールによる画像品質評価の拡張 [cs.RO, cs.CV, cs.AI]目的:画像品質評価におけるツールを活用した評価手法
    • 画像品質評価は,様々な画像処理技術の性能指標として重要である。画像認識や映像処理の進歩に不可欠な要素。
    • 既存手法は静的な評価に留まり,人間の動的な視覚検査を模倣できていない。細部の評価や隠れたアーティファクトの検出が困難。
    • 人間の視覚検査を模倣し,局所的な詳細や隠れたアーティファクトをより正確に評価することを目指す。
    • 提案手法Tool-IQAは,拡大鏡とガンマ補正ツールをVLMに導入し,ツールを活用した評価ワークフローを構築した。
    • 効率的なツール活用のため,貢献度の高いツール呼び出しを促すバッチ対応学習戦略を導入した。
    • 様々なIQAベンチマークにおいて,既存最先端モデルを大幅に上回り,CLIVEデータセットでPLCC 0.854を達成した。

    Link: https://arxiv.org/abs/2606.16082

  • 深海の律動:マッコウクジラのコーダにおけるパターン二重性の計算言語学的検証 [cs.AI, cs.CL]目的:マッコウクジラのコーダにおけるパターン二重性の存在
    • 動物コミュニケーション研究は,言語の起源や進化を理解する上で重要である。
    • 動物のコミュニケーションシステムにおける構造的階層性の解明は困難である。
    • 本研究は,マッコウクジラのコーダにおけるパターン二重性の有無を検証する。
    • マッコウクジラのコーダは,下位層においてクリックの組み合わせとリズムによって構成される。
    • 上位層では,コーダトークンが順次依存性を示し,パターン二重性のような構造が認められた。
    • リズムのみを考慮したベースラインでは,上位層の順次依存性は再現されなかった。

    Link: https://arxiv.org/abs/2606.16084

  • VinQA:現実世界のマルチモーダルドキュメントQAのための視覚要素を組み込んだ長文応答生成 [cs.CV, cs.AI]目的:現実世界のマルチモーダルドキュメントQAにおける長文応答生成
    • 現実世界のドキュメントはテキストと視覚要素が複雑に配置されており,その活用が重要である。
    • 既存のマルチモーダルLLMは視覚要素を十分に活用できておらず,テキストのみの応答に留まっている。
    • 視覚要素を明示的に参照し,応答に組み込むことで,より高精度なQAを実現することを目指す。
    • VinQAデータセットは,視覚要素とテキストの参照関係が明確化された長文応答生成を可能にする。
    • Page EncodingとModality Encodingの2つのエンコーディング手法を検討し,それぞれの有効性を比較した。
    • ファインチューニングにより,オープンソースモデルの性能が向上し,商用モデルとの性能差が縮小した。

    Link: https://arxiv.org/abs/2606.16092

  • 学習可能な混合を用いたGSS-Transformerハイブリッドアーキテクチャによる長文脈モデリング [cs.CL, cs.AI]目的:長文脈における言語モデリングの効率と精度向上
    • 自然言語処理において,長距離依存関係のモデル化は重要な課題である。文章理解や生成の精度を左右する。
    • Transformerは計算量が膨大であり,State Space Modelは情報検索の精度に課題がある。効率と精度の両立が困難である。
    • 異なるモデルの利点を活かし,長文脈モデリングにおける効率と精度を同時に改善することを目指す。
    • 提案手法PHAは,WikiText-103で16.51のPPLを達成し,既存のHedgehogやH3-125Mを上回る性能を示した。
    • 180Mパラメータモデルでは,16.42のPPLを達成し,Transformerと同等の精度を保ちながら,スループットが24%向上し,メモリ使用量が最大40%削減された。
    • OpenWebTextにおいても,標準的なTransformerやGSSハイブリッドモデルを上回る19.72のPPLを達成し,有効性を示した。

    Link: https://arxiv.org/abs/2606.16093

  • 大規模言語モデル推論サービスにおけるフィンガープリント偽装リスクの暴露:プロのLLMサブスクリプションは実は「無料」かもしれない [cs.CR, cs.CL, cs.LG]目的:大規模言語モデル推論サービスにおけるフィンガープリント偽装という新たな脅威
    • LLMの普及に伴い,提供モデルの検証が重要視されている。
    • 従来のフィンガープリント検証は,悪意のあるプロバイダーによる欺瞞に脆弱である。
    • フィンガープリント偽装攻撃に対する脆弱性を明らかにし,対策を提案すること。
    • 本研究では,リソース制約下において,既存のフィンガープリント検証が偽装攻撃に脆弱であることを理論的に証明した。
    • 提案手法GhostPrintは,低コストでフィンガープリントを回避しつつ,高い実用性を維持できることを実証した。
    • 現在のLLMフィンガープリントパイプラインに深刻な脆弱性が存在することが示唆された。

    Link: https://arxiv.org/abs/2606.16100

  • 機械のアンラーニング監査:モデルが真に忘却するかについての体系的研究 [cs.PF, cs.AR, cs.DC, cs.LG]目的:機械アンラーニングにおける真の忘却の検証
    • プライバシー保護の重要性が増し,法規制も強化される中で,データ削除の検証が不可欠となっている。
    • アンラーニングアルゴリズムが指定されたデータを本当に削除しているか確認する信頼できる監査メカニズムが存在しない。
    • 既存のアンラーニング手法がデータを真に忘却できるかを検証する実用的なフレームワークを構築すること。
    • 提案フレームワークは,リトレーニングやシャドウムodelの訓練を不要とし,既存手法の課題を克服した。
    • 実験の結果,本フレームワークはアンラーニングの成功/失敗を正確に識別できることが示された。
    • リトレーニングやファインチューニングは有効である一方,最適化解除やFisher/Hessianベースの手法は真に忘却できないことが明らかになった。

    Link: https://arxiv.org/abs/2606.16110

  • 残差ネットワークにおけるノルム非依存的適応深さのスケーリング [cs.CL, cs.LG, cs.AI]目的:深層モデルの性能向上を目指した残差ネットワークの新しい構造
    • 深層学習において,残差ネットワークは広く用いられているが,深さが増すにつれて問題が生じる
    • 残差ストリームのノルムが増大することで,後続層の更新が抑制され,表現能力が制限される
    • 残差ストリームのノルム増大を抑制し,深層モデルにおける層の貢献度を維持すること
    • 提案手法 NAG は,残差ストリームの大きさ情報と方向情報を分離することで,ノルム増大による更新抑制を防ぐ。
    • NAG はパラメータ数の増加が少なく,計算効率も高く,ベースラインの Transformer を上回る性能を示す。
    • また,適応的に層をスキップする MoD メカニズムにより,計算量と精度のトレードオフを実現し,より効率的な学習が可能となる。

    Link: https://arxiv.org/abs/2606.16112

  • RecourseBench:再現性のあるアルゴリズム的救済評価のためのモジュール型フレームワーク [cs.AI, cs.LG]目的:アルゴリズム的救済評価のためのモジュール型フレームワーク
    • 機械学習モデルの意思決定に対する説明可能性の重要性が高まっている。
    • 既存のフレームワークは拡張が難しく,相互運用性や結果の再現性が課題である。
    • アルゴリズム的救済手法の公平性と信頼性を検証するための標準的な評価基盤を提供する。
    • RecourseBenchは,データ,前処理,モデル,救済手法,評価の5層で構成されるモジュール型フレームワークである。
    • 各救済手法は,自動テストスイートにより,元の報告結果との再現性が検証される。
    • 28の最先端救済手法が統合されており,方法レベルでの再現性を保証する初のベンチマークである。

    Link: https://arxiv.org/abs/2606.16113

  • 限界を知る:法的推論におけるLLMのソルバーおよび自動形式化としての忠実性について [eess.SY, cs.MA, cs.RO, cs.SY, math.DS, eess.SY, cs.SY, cs.AI, cs.CL, cs.LO]目的:法的推論におけるLLMのソルバーとしての忠実性と自動形式化の評価
    • 法的判断は高度な推論能力を必要とし,その自動化は効率化と公平性の向上に繋がる。
    • LLMの推論能力は高いものの,論理的な推論に基づいているか,単なる近似に過ぎないか不明である。
    • LLMによる形式化推論の忠実性を検証し,論理的な誤りを特定・改善すること。
    • LLMを用いた分類,形式化推論,Z3ソルバーを用いた形式化推論を比較した結果,形式化推論は精度を向上させるものの,必ずしも忠実な推論を保証するものではないことが示された。
    • LLMには,スコープの誤用,制約の無視,Z3コードの生成エラーといった共通の失敗パターンが認められ,形式化推論の信頼性に疑問を投げかけている。
    • ベンチマークの精度と論理的な忠実性には根本的なギャップが存在し,LLMの能力には限界があることを明らかにした。

    Link: https://arxiv.org/abs/2606.16118

  • 視覚的根拠に基づいた思考 [cs.AI]目的:視覚的根拠に基づく思考のメカニズム
    • 画像と言語を結びつけるモデルの発展は,AIの推論能力向上に不可欠である。
    • 既存モデルの推論過程は言語化されるものの,視覚的証拠が不明確で検証が困難である。
    • 視覚的証拠を明示的に示す思考プロセスを導入し,推論の信頼性と解釈性を高める。
    • 視覚的根拠に基づいた思考を導入することで,Gemma3-4B-ITの性能が向上した。
    • 特に空間推論タスクにおいて,4BモデルがGemma3-27B-ITと同等以上の性能を示した。
    • 点による根拠付けは数え上げタスクに適し,ボックスによる根拠付けは空間タスクにおいて報酬による強化が有効である。

    Link: https://arxiv.org/abs/2606.16122

  • 大規模言語モデルにおける権威主義的傾向の監査ベンチマークAuAu [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルにおける権威主義的傾向の評価
    • 世界的な権威主義の台頭とAIの普及により,AIシステムの倫理的影響が重要視されている。
    • 既存の研究では,権威主義的傾向の多面的な評価が十分でなく,具体的な行動指針が不足している。
    • 本研究は,言語モデルが示す権威主義的傾向を詳細に分析し,そのリスクを評価することで,AIの安全性向上を目指す。
    • 17モデルの評価の結果,心理測定的評価では高い権威主義的傾向が見られたが,現実的なタスクではその割合は低下した。
    • 権威主義的なシステムプロンプトを用いることで,15モデルがより権威主義的な回答を生成するように操作された。
    • AIシステムにおける権威主義的傾向の継続的な監査と軽減の必要性が示された。

    Link: https://arxiv.org/abs/2606.16127

  • 視覚的自己回帰モデルにおけるShift-and-Sum量子化 [cs.CV, cs.LG]目的:視覚的自己回帰モデルに対する量子化手法の開発
    • 深層学習モデルの効率的な展開は,計算資源の制約下で重要である。
    • 視覚的自己回帰モデルへの量子化適用は,再構成誤差やキャリブレーションデータ不足により困難である。
    • 注意機構における再構成誤差の低減と,キャリブレーションデータの最適化を目指す。
    • Shift-and-Sum量子化により,注意-値積の再構成誤差を効果的に削減できることが示された。
    • キャリブレーションデータの再サンプリング戦略は,コードブックエントリの予測確率との整合性を高めた。
    • 提案手法は,様々な視覚的自己回帰モデルにおいて,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2606.16131

  • スピーチディープフェイク検出のための説明生成:訓練不要マルチモーダル大規模言語モデルとXAIの融合 [cs.DC, cs.CL, cs.AI]目的:スピーチディープフェイク検出における信頼性向上を目的とした説明手法
    • 音声データの改ざんは社会問題であり,検出技術の信頼性確保が重要である。
    • 既存の説明手法は,解釈性の低さや根拠の薄さといった課題を抱えている。
    • XAIと大規模言語モデルを組み合わせ,根拠に基づいた説明生成を実現する。
    • 提案手法は,XAIを活用することで説明の精度を45%以上向上させた。
    • 人間による評価と忠実性検証により,生成された説明の有効性が確認された。
    • スピーチディープフェイク検出における説明生成の新たな方向性を示唆する。

    Link: https://arxiv.org/abs/2606.16137

  • VibeThinker-3B:小規模言語モデルにおける検証可能な推論の限界探索 [cs.AI, cs.CL]目的:小規模言語モデルにおける検証可能な推論の限界
    • 大規模言語モデルの性能向上は目覚ましいが,計算資源の制約も大きい。
    • 小規模モデルでは,推論能力が十分でないという課題がある。
    • 検証可能な推論能力を,小規模モデルでも高めることを目指す。
    • VibeThinker-3Bは,検証可能なタスクにおいて最先端の性能を達成した。
    • AIME26で94.3点(テスト時スケーリングで97.1点),LiveCodeBench v6で80.2%のPass@1を獲得した。
    • 推論能力の向上は,厳密な指示追従性を損なっていないことが確認された。

    Link: https://arxiv.org/abs/2606.16140

  • LiteOdyssey:解釈可能な稀少疾患診断のための軽量推論AIエージェント [cs.AR, cs.AR, cs.AI]目的:稀少疾患診断における高性能なAIシステムの実現
    • 稀少疾患は患者数が少なく,診断が困難であり,医療現場でのAI活用が期待される。
    • 既存のAIシステムは,大規模なデータや計算資源を必要とし,実用化や維持管理が難しい場合がある。
    • 単一AIエージェントの推論能力を拡張し,軽量かつ透明性の高い診断システムの構築を目指す。
    • LiteOdysseyは,臨床遺伝学のワークフローに基づいて言語モデルを誘導し,高い診断性能を達成した。
    • LIRICALとPhenoPacket Storeの2つのベンチマークにおいて,Recall@1で最先端の性能(59.3%)を示した。
    • 特に,PhenoPacket Storeの困難なサブセットにおいて,ツールなしのGPT-5.4と比較して大幅な性能向上(60.7% vs 10.7%)を達成した。

    Link: https://arxiv.org/abs/2606.16149

  • 品質と有用性のパラドックス:高報酬データが小規模モデルの数学的推論を阻害する理由 [cs.CL, cs.AI]目的:数学的推論における知識蒸留の質と有用性の関係性
    • 小規模言語モデルの数学的推論能力向上は重要であり,知識蒸留が有力な手法として注目されている。
    • 高報酬データが必ずしも学習に有効とは限らず,データの品質評価と学習効果の乖離が課題となっている。
    • 報酬モデルのスコアだけでなく,学習モデルとの適合性も考慮した知識蒸留手法を確立する。
    • 強力なOracleによるデータ改良は,報酬モデルのスコアは向上させるものの,実際にはSLM自身が生成したデータよりも性能が劣ることが判明した。
    • Oracleによる改良が,SLMの推論分布からの分布シフトを引き起こし,学習コストが増加することが示唆された。
    • SLMの推論スタイルを維持しつつ論理的な修正を行う「スタイル整合型改良」により,学習コストを低減し,有用性を回復することができた。

    Link: https://arxiv.org/abs/2606.16152

  • 医療画像セグメンテーションの包括的サーベイ:課題,ベンチマーク,そしてその先 [cs.CV, cs.AI]目的:医療画像セグメンテーションに関する体系的な発展の概要
    • 臨床診断,治療計画,疾患モニタリングにおいて不可欠な技術であり,医療の質の向上に貢献する。
    • 既存のサーベイは特定のモデルや臨床応用例に偏りがちで,包括的な分析が不足している。
    • セグメンテーション精度と効率の向上に貢献する手法を統一的なフレームワークで分析し,今後の研究を促進する。
    • U-Net,Transformer,SAMアーキテクチャに基づいた代表的な手法を網羅的にレビューした。
    • 各アーキテクチャの有効性を,セグメンテーション精度と効率の観点から比較・分析した。
    • 関連リソースをGitHubリポジトリで公開し,臨床応用への移行を支援する。

    Link: https://arxiv.org/abs/2606.16153

  • RLVRの安定性と勝者有利性ポリシー最適化に関する勾配的視点 [cs.LG]目的:RLVRの安定性とポリシー最適化手法の改善
    • 言語モデルの推論能力向上は,自然言語処理分野における重要な課題である。
    • 検証可能な報酬を用いた強化学習は不安定になりやすく,最適化が崩壊する可能性がある。
    • トークンレベルの勾配ダイナミクスに基づき,安定性を向上させる新しいポリシー最適化手法を提案する。
    • 本研究では,トークンの分布と強化学習における利点符号の組み合わせが安定性に影響することを示した。
    • 提案手法WAPOは,正の利点を持つ補完のみを更新するシンプルなオンラインクリッピング手法である。
    • 数学的推論や多段式QAのベンチマークにおいて,WAPOは学習の安定性を向上させ,既存手法と同等以上の性能を達成した。

    Link: https://arxiv.org/abs/2606.16154

  • fNIRS駆動認知負荷分類のためのEEGNetの比較・批判的研究 [cs.LG, cs.AI, cs.HC]目的:fNIRSによる認知負荷分類におけるEEGNetの性能評価
    • 認知負荷の正確な推定は,ブレイン・マシン・インターフェースやヒューマン・マシン・インターフェースの高度化に不可欠である。
    • fNIRS信号の変動性,個人差,前処理の影響により,認知負荷の正確な分類は依然として困難である。
    • 本研究は,fNIRSデータを用いた認知負荷分類において,EEGNetの汎化性能を向上させることを目指す。
    • ランダム分割実験では,重複セグメンテーションと小さい固定学習率 (0.01-0.001) の組み合わせが最も高い精度を示した。
    • しかし,個人独立評価では精度が大幅に低下し,未知の被験者への汎化能力に限界があることが示された。
    • 個人独立評価では,非重複セグメンテーションが優位であり,PCA特徴量と20秒ウィンドウ,0.1の学習率で56.11%の最高精度を達成した。

    Link: https://arxiv.org/abs/2606.16160

  • AIの多様性と見過ごされる世界 [cs.AI]目的:AIシステムの存在論的平坦化のメカニズムと,それを克服するためのプラリスティック・ライフサイクル・ガバナンス(PLG)の枠組み
    • AI技術は社会に浸透しており,その設計が価値観や社会構造に影響を及ぼすため,倫理的・社会的な考察が不可欠である。
    • AIシステムは多様な価値観や文脈を十分に考慮せず,特定の認識論や存在論を押し付けているという問題がある。
    • AIシステムの存在論的平坦化を明らかにし,より包摂的で説明責任のあるAIガバナンスを実現することを目指す。
    • 本研究では,AIが多様性を表現する上での課題は,価値観だけでなく,AIが定義する「何が実体か」という存在論的な側面にもあることを指摘した。
    • AIシステムは,文脈依存的な意味を技術的なカテゴリーに変換することで,多様性を圧縮し,議論を困難にしている。
    • プラリスティック・ライフサイクル・ガバナンス(PLG)は,AIの存在論的な透明性,認識論的な包摂性,および説明責任を評価するための枠組みを提案する。

    Link: https://arxiv.org/abs/2606.16167