arXiv雑要約

AI - 2025/10/13 公開

  • 医学画像予測における公正なAIの境界:因果的視点 [cs.LG, cs.CV]目的:医学画像における時間至点予測(TTE)の公平性評価のための包括的フレームワーク
    • 医療現場でのAI活用が進む中で,倫理的・社会的な影響を考慮したAI開発が重要である。
    • 既存の公平性研究は主に診断に焦点を当てており,予後予測におけるバイアスの問題は未解決である。
    • 医療画像予後予測におけるバイアスの特定と定量化,そしてより公平なモデル開発を目指す。
    • 提案手法FairTTEは,多様な画像モダリティとTTE結果に対応し,公平性の詳細な分析を可能にする。
    • 大規模な評価により,バイアスが様々な画像モダリティに広く存在し,既存の公平性手法では十分な軽減が難しいことが示された。
    • バイアスの根本原因とモデルの性能差との間に強い関連性が見られ,包括的なアプローチの必要性が強調された。

    Link: https://arxiv.org/abs/2510.08840

  • エージェントのGPAとは何か? エージェントの目標・計画・行動の一貫性を評価するフレームワーク [cs.DC, cs.AI, cs.MA]目的:エージェントの目標,計画,行動の一貫性評価
    • AIエージェントの性能向上には,目標達成までのプロセス全体を的確に評価することが不可欠である。
    • 既存の評価方法では,エージェントの行動の論理的整合性や計画の質を包括的に評価することが困難であった。
    • エージェントの目標,計画,行動の一貫性を定量的に評価し,改善点を発見することを目的とする。
    • Agent GPAフレームワークは,目標達成度,論理的整合性,実行効率,計画の質,計画遵守度という5つの指標で評価を行う。
    • TRAIL/GAIAデータセットと実運用データセットでの実験により,このフレームワークが幅広いエージェントの失敗を網羅的に捉えられることが示された。
    • LLMによる判定が人間の評価と高い一致率を示し,エラーの特定精度も86%と高い結果が得られた。

    Link: https://arxiv.org/abs/2510.08847

  • ファインチューニングされたLLMによるリポジトリを意識したファイルパス検索 [cs.SE, cs.AI]目的:自然言語のクエリから関連するファイルパスを予測すること
    • 現代のコードベースは巨大化し,開発者やAIコーディングアシスタントがコードを理解することが困難になっている。
    • 従来のコード検索はセマンティックな文脈やファイル間の関連性を捉えきれないという課題がある。
    • LLMの自然言語理解能力とリポジトリ固有の詳細を組み合わせ,正確なファイルパス検索を実現すること。
    • 強力なLLM(Qwen3-8B)をファインチューニングすることで,高いファイルパス検索精度を達成した。
    • 特に,複数のコード認識戦略を組み合わせた学習データを用いることで,91%の完全一致率と93%の再現率を達成した。
    • 大規模コードベース(PyTorch)に対しても59%の再現率を示し,スケーラビリティも確認された。

    Link: https://arxiv.org/abs/2510.08850

  • 教師あり対照学習と自己教師あり対照学習の整合性について [cs.RO, cs.LG]目的:教師あり対照学習と自己教師あり対照学習における表現の整合性
    • 自己教師あり学習は,ラベルなしデータから有用な表現を獲得し,様々なタスクに応用できるため重要である。
    • 自己教師あり対照学習と教師あり学習の理論的な関係性は十分に解明されておらず,表現レベルでの整合性が不明である。
    • 自己教師あり対照学習と教師あり対照学習の表現の整合性を数学的に分析し,その条件を明らかにする。
    • 自己教師あり対照学習と教師あり対照学習の表現は,初期化やバッチ,データ拡張を共有する場合,訓練を通じて類似性を保つことが示された。
    • 表現の類似性を測る指標(CKA, RSA)の整合性が,クラス数増加,温度パラメータ上昇によって改善されることが理論的に証明された。
    • パラメータ空間の整合性は不安定であり,時間経過とともに乖離する可能性があるが,表現空間では整合性が維持されることが確認された。

    Link: https://arxiv.org/abs/2510.08852

  • 時間依存型特徴選択:安定したスパースオートエンコーダ学習のための適応的時系列マスキング [cs.LG, cs.AI, cs.CL]目的:大規模言語モデルの内部表現の理解
    • モデルの信頼性と安全性を確保するため,内部表現の理解が不可欠である。
    • 既存の学習方法は,特徴が互いに吸収され,安定した特徴抽出が困難である。
    • 特徴吸収を抑制し,解釈可能な特徴学習を可能にすること。
    • 適応的時系列マスキング(ATM)は,既存手法と比較して大幅に低い吸収スコアを達成した。
    • ATMは,優れた再構成品質を維持しながら,安定した解釈可能な特徴学習を可能にする。
    • 本研究は,ニューラルネットワークの信頼性ある分析のための基盤を提供する。

    Link: https://arxiv.org/abs/2510.08855

  • 疎な成分が視覚経路を区別し,そのニューラルネットワークとの整合性を示す [cs.LG, cs.CV]目的:視覚経路の疎な成分の識別と,脳と機械の表現整合性の測定
    • 視覚認知の神経メカニズム解明は,脳機能理解の根幹である。
    • 既存手法では,脳とAIの表現の微細な差異を捉えきれない。
    • 脳とAIの表現の整合性を高精度に評価する手法を開発する。
    • 視覚皮質の腹側,背側,側部経路において,顔,場所,身体など,経路ごとに特徴的な疎な成分が確認された。
    • 新たに開発したSparse Component Alignment (SCA) は,従来の評価手法よりも高分解能で表現整合性を評価できることが示された。
    • 標準的なDNNは,腹側経路よりも背側または側部経路との整合性が低いことが明らかになった。

    Link: https://arxiv.org/abs/2510.08858

  • パターン強化多段階脱獄:大規模言語モデルの構造的脆弱性の利用 [cs.CL, cs.AI, cs.CR]目的:大規模言語モデルの多段階脱獄攻撃における会話パターンとモデルの脆弱性
    • 大規模言語モデルの安全性確保は重要であり,悪意ある利用を防ぐ必要がある。
    • 既存の脱獄攻撃は場当たり的であり,モデルの弱点に対する理解が不足している。
    • 会話パターンに着目し,モデルの脆弱性を特定することで,より効果的な防御策を開発する。
    • 提案手法PE-CoAは,12種類のLLMと10種類の有害カテゴリにおいて,最先端の性能を達成した。
    • モデルは会話パターンごとに異なる脆弱性を示し,一つのパターンに対する耐性が他のパターンに一般化されないことが明らかになった。
    • モデルファミリーは類似した失敗モードを共有しており,安全性に関するトレーニングの限界を示唆している。

    Link: https://arxiv.org/abs/2510.08859

  • ガウス過程分類器のための多忠実度バッチ能動学習 [cs.DB, cs.DC, cs.LG, cs.CE, physics.comp-ph]目的:ガウス過程モデルを用いた効率的なシミュレーション予算配分
    • 科学技術計算において高コストなシミュレーションが頻繁に用いられるため,効率的な探索が重要である。
    • シミュレーションの計算コストが高いため,限られた予算内で最適なパラメータ探索が課題となる。
    • 多忠実度情報を用いた能動学習により,少ない計算コストで高精度な予測を目指す。
    • 提案手法であるBPMIは,相互情報量の計算困難性を克服するため,リンク関数の1次テイラー展開を利用する。
    • 合成データセットとレーザー点火ロケット燃焼器のシミュレーションにおいて,既存手法を上回る性能を示した。
    • 固定された計算予算内で,より高い予測精度を達成することが確認された。

    Link: https://arxiv.org/abs/2510.08865

  • ReviewerToo:AIはプログラム委員会に参加すべきか?ピアレビューの未来 [cs.AI, cs.CL]目的:AI支援ピアレビューの調査と展開のためのモジュール型フレームワーク
    • 科学出版の基盤であるピアレビューは,研究の質を保証し,研究コミュニティの発展に不可欠である。
    • ピアレビューは一貫性,主観性,スケーラビリティに課題があり,質の高い論文選考を阻害する要因となっている。
    • AIを活用し,ピアレビューの効率性と公平性を向上させる方法を検討し,新たなシステム構築を目指す。
    • ReviewerTooを用いた実験で,gpt-oss-120bモデルは採択/否決の分類において81.8%の精度を達成し,人間の平均レビューアーの83.9%に匹敵した。
    • LLMによる評価では,ReviewerTooが生成したレビューは人間の平均よりも高品質と評価されたが,最も優秀な専門家には及ばなかった。
    • AIレビューアーは事実確認や文献調査に優れる一方,方法論的な新規性や理論的貢献の評価には課題が残ることを示唆している。

    Link: https://arxiv.org/abs/2510.08867

  • GTAlign: LLMアシスタントの相互厚生のためのゲーム理論的アライメント [cs.CL, cs.AI, cs.GT, cs.HC, cs.LG, cs.MA]目的:LLMアシスタントとユーザー双方の厚生を最大化するアライメント手法
    • LLMは推論能力で目覚ましい進歩を遂げているが,必ずしもユーザーにとって最適な応答が得られるとは限らない。
    • 従来のLLMアライメントでは,モデルの報酬最大化とユーザー厚生の最大化が一致しない場合がある。
    • LLMとユーザー双方に有益な意思決定メカニズムを導入し,社会的に効率的な結果を達成することを目指す。
    • GTAlignは,推論および学習においてゲーム理論的決定メカニズムを組み込むことで,推論効率,回答品質,相互厚生を大幅に改善する。
    • 推論時には,ユーザーとLLMの相互作用を戦略的ゲームとして扱い,双方の厚生を推定するペイオフ行列を構築する。
    • 学習時には,協調的な応答を強化する相互厚生報酬を導入し,LLMの行動を社会的に効率的な結果と一致させる。

    Link: https://arxiv.org/abs/2510.08872

  • スライシングだけで十分:分散行列乗算のための汎用的な片側アルゴリズムへ [cs.AR, cs.DC, cs.AI]目的:分散行列乗算のための汎用的な片側アルゴリズム
    • 科学,データ分析,AI分野において分散行列乗算は重要な計算であり,その効率化が求められている。
    • 既存のアルゴリズムは,特定の分割方法に限定されており,すべての分割方法をサポートするには複数の実装が必要となる。
    • この研究は,あらゆる分割方法と複製係数をサポートする汎用アルゴリズムを提供し,通信コストを削減することを目的とする。
    • 提案手法は,スライシング(インデックス演算)を利用して,乗算に必要な重複するタイルの集合を計算する。
    • この局所的な行列乗算リストは,直接実行するか,最適化されたIRに変換して並列性を最大限に高めることができる。
    • GPU間直接通信を行うPGASフレームワークで実装し,PyTorch DTensorと同等の性能を示すことが確認された。

    Link: https://arxiv.org/abs/2510.08874

  • 課題駆動型ファイル検索のためのベクトルグラフベースのレポジトリ理解 [cs.SE, cs.AI]目的:課題に起因するファイル検索
    • 大規模ソフトウェア開発におけるコード理解の効率化が重要である。
    • 複雑なレポジトリ構造から,必要なファイルを迅速に見つけることが困難である。
    • レポジトリを知識グラフとして表現し,効率的なファイル検索を可能にすること。
    • レポジトリをベクトル化された知識グラフに変換し,プロジェクトのアーキテクチャと意味構造を反映した。
    • セマンティック検索とグラフ認識型拡張を組み合わせたハイブリッド検索パイプラインを開発した。
    • LLMを活用して,制約付きグラフリクエストの生成と人間が理解しやすい説明を可能にした。

    Link: https://arxiv.org/abs/2510.08876

  • ControlAudio:漸進的拡散モデリングによるテキスト指示,タイミング指定,知覚可能な音声生成への取り組み [cs.SD, cs.AI, cs.CL, eess.AS]目的:テキスト指示,タイミング指定,知覚可能な音声生成
    • 音声生成技術は,多様な応用において重要性を増しており,その高品質化が求められている。
    • ファインチューンな制御信号(タイミングや明瞭性)に対応した音声生成はデータ不足に制約され,大規模な生成性能が低い。
    • テキスト,タイミング,音素情報を統合し,段階的な生成戦略で高品質かつ制御可能な音声生成を実現する。
    • ControlAudioは,テキスト,タイミング,音素情報を条件とした分布を段階的に学習する拡散モデルである。
    • 大規模なテキスト-音声ペアでDiTを事前学習し,タイミングと音素情報を段階的に統合することで,制御性を拡張している。
    • 実験により,ControlAudioが時間精度と明瞭度において最先端の性能を発揮し,客観評価および主観評価で既存手法を大きく上回ることが示された。

    Link: https://arxiv.org/abs/2510.08878

  • 敵対的MDPにおける応用を含む,改善されたモデルフリー決定-推定係数 [cs.RO, cs.LG]目的:構造化された観測を持つ意思決定問題の複雑性の評価
    • 意思決定問題において,観測データが構造化されている場合,効率的な学習が困難であり,その複雑性評価が重要である。
    • 従来の決定-推定係数(DEC)には,モデルクラスのサイズに依存するギャップが存在し,性能向上の限界となっていた。
    • 楽観的な探索に頼らない新しいDECを導入し,敵対的環境下でも性能を維持することで,このギャップを解消することを目指す。
    • Dig-DECは,楽観的なDECよりも常に小さく,特別なケースではより小さい値を示すことがわかった。
    • ハイブリッドMDPにおいて,バンディットフィードバックを用いたモデルフリーな後悔境界が初めて確立された。
    • オンライン関数推定手順を改善し,平均推定誤差最小化における後悔境界を$T^{3/4}$から$T^{2/3}$へ,二乗誤差最小化においては$T^{2/3}$から$\sqrt{T}$へと向上させた。

    Link: https://arxiv.org/abs/2510.08882

  • AI駆動型没入型学際シミュレーション(AIMS)の設計と評価 [cs.ET, cs.AI, cs.HC]目的:医療専門職間教育のためのAI駆動型没入型学際シミュレーション
    • 医療現場ではチームワークが不可欠であり,その教育の重要性は高い。
    • 従来の教育方法は費用,拡張性,現実の複雑さを再現できないという課題がある。
    • AIMSは,これらの課題を克服し,より効果的な教育を提供することを目的とする。
    • AIMSは,大規模言語モデル,Unityエンジン,キャラクター作成パイプラインを統合した仮想シミュレーションである。
    • ユーザビリティテストの結果,AIMSは現実的で適切な会話を支援することが示された。
    • 音声経路や応答遅延などの課題が特定され,今後の改善に繋がる。

    Link: https://arxiv.org/abs/2510.08891

  • RLVRにおけるトークン・ロールアウトレベル制御のための多温度戦略の探求 [cs.CL, cs.AI]目的:大規模言語モデルの推論能力向上
    • 大規模言語モデルの活用範囲拡大に伴い,高度な推論能力の獲得が重要である。
    • 既存手法では,探索を間接的に促すのみで,トークン生成段階での探索を直接促進できていない。
    • トークンタイプに応じた温度設定により,推論段階での探索を効率的に行うことを目指す。
    • 推論トークンに高い温度を設定することで,探索的な挙動を促進し,LLMの推論性能を向上させた。
    • 知識トークンには低い温度を維持することで,事実の正確性を維持した。
    • 様々な多温度スケジュール戦略を評価し,その効果を実証した。

    Link: https://arxiv.org/abs/2510.08892

  • HES-SQL:構造的骨格ガイダンスによる効率的なテキストToSQLのためのハイブリッド推論 [cs.DB, cs.AI, cs.CL]目的:テキストToSQL生成の効率化と精度向上
    • 自然言語によるデータベース操作は,情報検索のあり方を大きく変える可能性を秘めている。
    • 既存のテキストToSQLモデルは,複雑なクエリの生成や実行効率の点で課題が残されている。
    • 意味的精度と計算効率の両立を目指し,実行可能性を考慮した学習手法を開発する。
    • HES-SQLは,思考モード融合型教師ありファインチューニングとグループ相対ポリシー最適化を組み合わせたハイブリッド学習フレームワークである。
    • BIRDベンチマークで79.14%,KaggleDBQAベンチマークで54.9%の実行精度を達成し,既存手法と遜色ない性能を示した。
    • 教師あり学習ベースラインと比較して,クエリの実行時間を11%~20%削減することに成功した。

    Link: https://arxiv.org/abs/2510.08896

  • 重要なステップの特定:検証可能な強化学習のための帰属に基づくクレジット割り当て [cs.LG, cs.AI]目的:検証可能な強化学習におけるクレジット割り当て手法
    • 大規模言語モデルの複雑な推論能力向上に不可欠であり,その性能を最大限に引き出す鍵となる。
    • 探索と活用のバランスが難しく,中間ステップのクレジット割り当ての不正確さやエントロピーの崩壊が課題となる。
    • 帰属に基づくクレジット割り当てにより,これらの問題を解決し,モデルの性能向上を目指す。
    • 本研究で提案するACPOは,難易度を考慮したカリキュラムを取り入れ,探索と活用の両方を改善する。
    • 軌跡のセマンティックセグメンテーションと帰属に基づく表現を用いて,ポリシーエントロピーの崩壊を抑制する。
    • AIME,MATH,AMCなどのベンチマークにおいて,既存の最先端手法を大幅に上回る性能を示す。

    Link: https://arxiv.org/abs/2510.08899

  • 大規模言語モデルを用いた統一的な生物医学的固有表現認識フレームワーク [cs.CL, cs.AI]目的:生物医学的固有表現認識のための統一的なフレームワーク
    • 医療情報抽出や知識発見において,正確な固有表現認識が不可欠である。
    • 既存手法では,ネストされた固有表現,曖昧な境界,言語を超えた汎化が課題である。
    • 大規模言語モデルを活用し,これらの課題を克服する。
    • 本研究では,固有表現認識をテキスト生成タスクとして再構築し,記号的なタグ付け戦略を導入した。
    • 多言語・マルチタスクの汎化能力を高めるため,中国語と英語のデータセットを用いた二言語同時ファインチューニングを実施した。
    • 境界情報を考慮したコントラスト学習によるエンティティセレクターを導入し,誤った予測を抑制した。

    Link: https://arxiv.org/abs/2510.08902

  • 多腕バンディット問題の周波数領域解析:探索と活用間のトレードオフに関する新たな視点 [cs.CL, cs.LG, cs.AI, cs.IT, math.IT, math.OC, stat.ML]目的:多腕バンディット問題における探索と活用間のトレードオフの解析
    • 意思決定問題の基礎であり,様々な分野で最適化問題として応用されている。
    • 従来の解析は時間領域に偏っており,学習過程の動的な性質を捉えきれていない。
    • 周波数領域解析により,学習過程の解釈可能性向上とアルゴリズム設計の基盤を確立する。
    • 本研究では,バンディット問題を信号処理問題として捉える周波数領域解析フレームワークを提案した。
    • UCBアルゴリズムの信頼区間は,周波数領域において不確実なスペクトル成分に適用される時間変化するゲインと等価であることが証明された。
    • これにより,探索率の減衰に関する動的限界を導出し,古典的なアルゴリズムの物理的解釈と次世代アルゴリズム設計の理論的基盤を提供した。

    Link: https://arxiv.org/abs/2510.08908

  • 速度と密度を考慮したRRI解析と最適化:IoV SPSにおけるAoI最小化 [cs.LG, cs.NI]目的:IoV SPSにおけるAoI最小化のための最適化手法
    • IoVは,安全運転支援や自動運転などの実現に不可欠であり,その通信品質が重要である。
    • 既存のSPSでは,パケット衝突や車両速度によるチャンネル変動により,AoIが劣化しやすい。
    • LLMとDDPGを活用し,車両速度と密度を考慮したRRIの最適化によりAoIを低減する。
    • LLMは少数の事例学習によりAoIを大幅に削減可能であり,モデル学習が不要である。
    • DDPGは学習後,より安定した性能を発揮することが確認された。
    • 提案手法は,AoI劣化の原因となる要素を考慮することで,IoV SPSの効率向上に貢献する。

    Link: https://arxiv.org/abs/2510.08911

  • PHyCLIP:双曲線要素の$\ell_1$積が,視覚言語表現学習における階層性と構成性を統合する [cs.CV, cs.LG]目的:視覚言語表現学習における階層性と構成性の統合
    • 大規模データを用いた視覚言語モデルは目覚ましい成功を収めているが,その表現能力には限界がある。
    • 概念間の階層性(例:犬 ≺ 哺乳類 ≺ 動物)と,異なる概念の構成性(例:「車の中の犬」≺ 犬,車)を同時に表現することが困難である。
    • 双曲線空間を用いた階層性表現と,構成性表現の課題を解決し,より高度な視覚言語モデルを構築することを目指す。
    • PHyCLIPは,双曲線要素のCartesian積における$\ell_1$積を用いることで,概念内の階層性と概念間の構成性を同時に表現することに成功した。
    • 実験により,PHyCLIPは既存の手法と比較して,ゼロショット分類,検索,階層分類,構成理解タスクにおいて優れた性能を示した。
    • PHyCLIPによって得られた埋め込み空間は,より解釈しやすい構造を持つことが確認された。

    Link: https://arxiv.org/abs/2510.08919

  • 時空間相関のある小規模地球データのシンプルかつ堅牢な予測:テーブル形式の基盤モデルを用いたアプローチ [cs.LG]目的:時空間相関のある小規模地球データの予測
    • 地球科学における観測データの活用は,地球規模のプロセス理解に不可欠である。
    • 従来の深層学習モデルは,タスクごとに学習が必要であり,汎用性に課題がある。
    • 基盤モデルの予測バイアスを軽減し,様々なシナリオで高精度な予測を実現すること。
    • 提案手法は,3つの典型的なシナリオにおいて,グラフ深層学習モデルやテーブル形式基盤モデルよりも優れた精度を達成した。
    • 特に,様々な状況下での堅牢性に優れていることが示された。
    • 時空間パターンを定量化することで,小規模地球データの予測精度向上に貢献する。

    Link: https://arxiv.org/abs/2510.08920

  • AB-PINN:残差駆動型ドメイン分解のための適応基底物理情報ニューラルネットワーク [cs.LG]目的:残差駆動型ドメイン分解のための適応基底物理情報ニューラルネットワーク
    • 物理現象のシミュレーションは科学技術の発展に不可欠であり,高精度な数値解法の需要が高い。
    • 従来の物理情報ニューラルネットワークは,複雑な問題に対して収束が遅い,または局所解に陥りやすい。
    • 複雑な問題に対する解法精度向上と,ハイパーパラメータ調整の負担軽減を目指す。
    • AB-PINNは,未知解の特性に応じてドメインを動的に適応させ,表現力を高める。
    • 残差が大きい領域に新たなドメインを生成することで,微分方程式の解が表現困難な箇所に焦点を当てて学習する。
    • マルチスケール問題に適しており,異なるドメインが異なるスケールの解を学習可能。局所解への収束を防ぎ,ハイパーパラメータ調整の必要性を低減する。

    Link: https://arxiv.org/abs/2510.08924

  • LM闘技場:ゲーム対戦による大規模マルチモーダルモデルのベンチマーク [cs.AI]目的:大規模マルチモーダルモデルの性能評価
    • AIの進化に伴い,現実世界での応用が期待されており,その能力測定が重要である。
    • 既存のベンチマークは,リアルタイムかつ競争的な環境でのモデル性能を十分に捉えられていない。
    • 動的な環境下におけるモデルの戦略的思考能力を客観的に評価する新たなベンチマークの提供。
    • LM闘技場は,格闘ゲーム「モータルコンバットII」を用いて,LMM同士を対戦させることで評価を行う。
    • 6つの代表的なモデルを対象としたトーナメントでは,各モデルが同じキャラクターを操作し,公平な比較を実現した。
    • このフレームワークは,自動化,再現性,客観性を備え,LMMの戦略的推論能力を評価する。

    Link: https://arxiv.org/abs/2510.08928

  • 自己の共同創造:推薦システムにおける興味の反映を支援する人間とAIのインターフェース [cs.HC, cs.AI]目的:推薦システムにおけるユーザーの興味の反映
    • 推薦システムは情報過多な現代において,ユーザーが求める情報に効率的にアクセスするために不可欠である。
    • 従来の推薦システムはブラックボックス化しており,ユーザーがその根拠を理解しづらいという課題がある。
    • AIによる不完全なユーザープロファイルを活用し,ユーザーの介入を促し,透明性と信頼性を高めることを目指す。
    • 編集可能なパーソナライズされた興味の概要を提供することで,ユーザーは自身の興味をより深く理解し,それを修正することが可能となった。
    • 8週間のオンライン実験の結果,システムが推測する興味とユーザーが認識する興味の間には依然としてギャップが存在することが示された。
    • このインターフェースは,ユーザーの積極的な関与と内省を促し,より透明性の高い信頼できる推薦体験の構築に貢献することが期待される。

    Link: https://arxiv.org/abs/2510.08930

  • RADAR:LLM評価におけるデータ汚染検出のメカニズム的経路 [cs.AI, cs.LG]目的:LLM評価におけるデータ汚染の検出
    • LLMの性能評価は重要である。しかし,その信頼性が損なわれる可能性が課題となっている。
    • LLMが訓練データを記憶し,真の推論能力を示さずに高い性能を達成するデータ汚染の問題が存在する。
    • RADARは,メカニズム的解釈可能性を用いて,記憶に基づいた応答と推論に基づいた応答を区別し,汚染を検出する。
    • RADARは,表面的な信頼性軌跡と,アテンションの専門性,回路ダイナミクス,活性化フローパターンを含む深いメカニズム的特性を37個の特徴量として抽出する。
    • 抽出された特徴量を用いて訓練された分類器アンサンブルは,多様な評価セットで93%の精度を達成し,明確なケースでは完璧な性能を示した。
    • 曖昧な例においても76.7%の精度を達成し,メカニズム的解釈可能性がLLM評価を進歩させる可能性を示す。

    Link: https://arxiv.org/abs/2510.08931

  • MATT-CTR:信頼度に基づいた推論経路によるCTR予測のためのモデル非依存テスト時パラダイムの解放 [cs.LG, cs.IR]目的:CTR予測におけるテスト時の性能向上
    • 広告効果測定においてCTR予測は重要であり,精度の向上が収益に直結する。
    • 稀な特徴量の組み合わせが予測性能を低下させ,信頼性の低い結果を生み出す。
    • テスト時の推論過程における特徴量信頼度を利用し,予測のロバスト性を高める。
    • MATTは,既存のCTRモデルに容易に適用可能であり,高い互換性を示す。
    • 特徴量の組み合わせに対する信頼度を確率的ハッシュ関数で定量化する手法を提案した。
    • 複数の推論経路を生成し,それらを統合することで,より堅牢な予測を実現した。

    Link: https://arxiv.org/abs/2510.08932

  • RO-Bench:テキスト駆動型反実仮想ビデオによるMLLMの大規模な頑健性評価 [cs.IR, cs.CV, cs.AI]目的:マルチモーダル大規模言語モデルの頑健性評価
    • ビデオ理解の分野では,MLLMの性能向上は目覚ましいが,実用化には頑健性が重要である。
    • 既存のMLLMは,操作されたビデオコンテンツに対して脆弱であり,その評価方法が確立されていない。
    • 反実仮想ビデオを用いたベンチマークを構築し,MLLMの頑健性を定量的に評価・改善すること。
    • 本研究で開発したRo-Benchを用いて8つのMLLMを評価した結果,反実仮想ビデオに対して性能が大幅に低下することが示された。
    • 反実仮想データでのファインチューニングにより,Ro-Benchにおける性能が21.73%向上し,MVBenchデータセットでも12.78%改善された。
    • これらの結果は,反実仮想データがMLLMのビデオ理解能力を高める上で有効であることを示唆している。

    Link: https://arxiv.org/abs/2510.08936

  • 証拠的深層学習における動的な不確実性較正のための二層メタポリシー制御 [cs.LG, cs.CV]目的:動的な不確実性較正のための二層メタポリシー制御
    • 高リスクな意思決定において,モデルの信頼性と予測精度は極めて重要である。
    • 従来の証拠的深層学習は静的なハイパーパラメータに依存し,変化するデータ分布への適応が困難である。
    • 動的なデータ分布下での不確実性較正と汎化性能の向上を目指す。
    • 提案手法であるメタポリシーコントローラ(MPC)は,KLダイバージェンス係数とディリクレ事前強度の動的な調整により,不確実性モデリングを最適化する。
    • 二層最適化アプローチを用いることで,予測精度と不確実性の質を両立させる多目的報酬に基づいてポリシーネットワークが最適化される。
    • 様々なタスクにおいて,モデル予測の信頼性と較正が大幅に向上し,信頼度に基づくサンプル拒否後の性能維持も改善されることが示された。

    Link: https://arxiv.org/abs/2510.08938

  • 可変性に対応した再帰型ニューラルネットワーク(VARNN):系列回帰モデリングにおける時間的逸脱を捉える残差-メモリモデル [cs.AR, cs.CL, cs.LG]目的:時間的変動性に対応した系列回帰モデリング
    • 実世界の時系列データは,非定常性やノイズ変動を含むため,安定した予測が困難である。
    • 標準的な回帰モデルは,時系列データの変動に対応できず,ロバスト性が低いという課題がある。
    • 予測残差から変動とドリフトを学習し,それに基づいて予測を再調整することで,予測精度を向上させる。
    • VARNNは,家電エネルギー,医療,環境モニタリングといった多様なデータセットにおいて,既存モデルを上回る性能を示した。
    • VARNNは,低いテストMSEを達成し,計算コストの増加も最小限に抑えることができた。
    • 変動とボラティリティの環境下で堅牢な予測を提供し,時系列学習の有望なフレームワークとなり得る。

    Link: https://arxiv.org/abs/2510.08944

  • FATHOMS-RAG:検索拡張生成を用いたマルチモーダルシステムの思考・観察能力評価フレームワーク [cs.AI]目的:マルチモーダルシステムの思考および観察能力評価
    • LLMの性能向上は,情報検索と知識獲得の効率化に不可欠であり,様々な応用分野への発展が期待される。
    • 既存のRAG評価指標は,検索や生成といった個別の要素に偏っており,システム全体の思考能力を包括的に評価できない。
    • テキスト,表,画像などの多様な情報を統合し,システム全体の正確性と幻覚抑制能力を評価する手法を確立すること。
    • 本研究では,テキスト,表,画像を組み合わせた質問セットを用いて,RAGパイプライン全体の性能を評価するFATHOMS-RAGを提案した。
    • クローズドソースのパイプラインは,オープンソースのパイプラインと比較して,正確性と幻覚抑制の点で有意に高い性能を示した。
    • 提案した正確性と幻覚検出の指標は,人間による評価と高い一致度を示し,客観的な評価が可能であることが確認された。

    Link: https://arxiv.org/abs/2510.08945

  • SHERLOCK: LLMを活用したECリスク管理における動的知識適応へ [cs.IR, cs.AI]目的:ECリスク管理における動的知識適応
    • EC市場の拡大に伴い,不正行為との闘いは不可欠であり,リスク管理の重要性は増している。
    • リスク分析者の経験やスキルにばらつきがあり,標準化された質の高いワークフローの確立が課題である。
    • LLMを活用し,リスク管理の知識を動的に適応させ,効率的な不正検知を実現することを目指す。
    • SHERLOCKフレームワークは,マルチモーダルデータからリスク管理知識を抽出し,知識ベースを構築する。
    • データフライホイールパラダイムに基づき,日々の業務,専門家による注釈,モデル評価を統合し,LLMを反復的にファインチューニングする。
    • 実世界の取引データを用いた実験により,LLM分析結果の事実整合性とリスク特定精度が大幅に向上することが示された。

    Link: https://arxiv.org/abs/2510.08948

  • LLMエージェントとグラフ最適化:自動データ品質改善アプローチ [cs.LG]目的:テキスト付与グラフのデータ品質改善
    • グラフ構造と意味情報を組み合わせることで,多様なデータ中心型アプリケーションの基盤となる。
    • グラフニューラルネットワークの性能は入力品質に大きく左右され,特にスパース性,ノイズ,不均衡の影響を受けやすい。
    • データ自体に着目し,LLMエージェントを活用してグラフ品質を自動的に最適化し,頑健なグラフ学習を実現する。
    • LAGAは,検出,計画,行動,評価の4つの協調エージェントからなる統合されたマルチエージェントフレームワークである。
    • 行動エージェントは,二重エンコーダーと三重目的設計により,多様なモダリティ情報を捉え,グラフ品質の全体的な向上を図る。
    • 実験により,LAGAがグラフ品質を改善し,様々なタスクとバックボーンで最先端の性能を達成することが示された。

    Link: https://arxiv.org/abs/2510.08952

  • オブジェクトに焦点を当てた画像拡張のためのノイズ除去拡散 [cs.RO, cs.SY, eess.SY, cs.CV, cs.LG]目的:動物の健康モニタリングのためのデータ拡張戦略
    • 現代農業では,農場最適化のために複数のデータソースを統合したモニタリングシステムが不可欠となっている。
    • 特定の農場環境を反映した大規模なデータセットが不足しており,転移学習の効果が限定的である。
    • 限られたデータ環境下でも,動物検出とモニタリング性能を向上させるためのドメイン固有データ生成を目指す。
    • 提案手法は,背景から動物をセグメント化し,拡散ベースの合成により多様なシーンを生成する。
    • 拡張データセットを用いた実験により,動物検出タスクにおいてベースラインモデルよりも優れた性能が確認された。
    • この手法は,データ不足の状況下でもリアルタイムな動物の健康モニタリングを可能にする。

    Link: https://arxiv.org/abs/2510.08955

  • ソフトウェアプロジェクトにおける集団的ガバナンスの人間行動の基盤 [cs.CL, cs.AI]目的:ソフトウェアプロジェクトにおける集団的ガバナンスの人間行動の基盤
    • ソフトウェア開発は社会技術システムであり,人間の行動が成功を左右する
    • オープンソースプロジェクトのガバナンスは分散型であるが,その構造と変化は不明
    • ガバナンス文書の分析を通じて,参加と統制のパターンを明らかにする
    • プロジェクトのガバナンス文書における役割と行動の種類は時間と共に増加する
    • 役割と行動の分布は均一化され,多様性が増す
    • ガバナンスの規則の構成は安定しており,記述的な強制力は大きく変化しない

    Link: https://arxiv.org/abs/2510.08956

  • EcphoryRAG:人間の連想記憶に着想を得た知識グラフRAGの再構築 [cs.AI, cs.IR]目的:知識グラフRAGフレームワークEcphoryRAGの提案
    • 複雑な質問応答において,知識グラフは情報間の関係性を明示し,推論を支援する。
    • 従来の知識グラフRAGシステムは,大量のトークンを消費し,スケーラビリティが課題となっていた。
    • 本研究は,人間の連想記憶のメカニズムを応用し,効率的な知識グラフRAGを実現する。
    • EcphoryRAGは,コアエンティティとメタデータのみを保存することで,トークン消費量を最大94%削減した。
    • クエリからキューエンティティを抽出し,知識グラフ上でスケーラブルな多段連想検索を行う。
    • 2WikiMultiHop, HotpotQA, MuSiQueのベンチマークにおいて,既存のKG-RAG手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2510.08958

  • DualResearch:エントロピーゲートを用いたデュアルグラフ検索による解答再構成 [cs.AI]目的:ツール集約型推論における知識グラフの構築と利用
    • 複雑な科学的推論には,単一のLLMの能力を超える外部ツール利用が不可欠である。
    • 既存手法では,文脈汚染や根拠の脆弱性,実行経路の不安定性などが課題となっている。
    • 安定かつ効果的な解答再構成を実現し,科学的推論の精度向上を目指す。
    • DualResearchは,広範な意味グラフと深層的な因果グラフを組み合わせることで,ツール利用型推論の構造をモデル化する。
    • 各グラフに特化した関連性関数と拡散手法を用いることで,より信頼性の高い知識の抽出と活用を可能にする。
    • HLEおよびGPQAの科学的推論ベンチマークにおいて,既存手法を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2510.08959

  • 低リソースデータを用いた学習に関する分析的調査:分析から調査へ [cs.LG, cs.AI]目的:低リソースデータからの学習における汎化誤差とラベル複雑性
    • AIの発展には大量のデータが必要だが,データ収集・アノテーションにはコストがかかる。
    • 限られたデータでは,AIモデルの汎化性能が低下しやすいという課題がある。
    • 低リソースデータでもロバストな汎化を実現するための手法を明らかにすること。
    • PACフレームワークに基づくアグノスティックな能動的サンプリング理論を用いて,汎化誤差とラベル複雑性を分析した。
    • 勾配情報に基づいた最適化,メタ反復最適化,幾何学的情報を活用した最適化,LLMを活用した最適化などの戦略を調査した。
    • ドメイン転移,強化学習からのフィードバック,階層構造モデリングなど,低リソースデータを活用できる学習パラダイムを網羅的に概観した。

    Link: https://arxiv.org/abs/2510.08962

  • HiBBO:HiPPOに基づく空間整合性による高次元ベイズ最適化 [cs.LG]目的:高次元ベイズ最適化における空間整合性の導入
    • ベイズ最適化は高コストなブラックボックス関数の最適化に有効だが,高次元空間ではデータが疎になり,モデルの拡張性が課題となる。
    • VAEに基づくアプローチは次元削減で有効だが,潜在空間と元の空間の分布の不一致が最適化性能を低下させる。
    • HiPPOを用いて潜在空間の構築に空間整合性を導入し,分布の不一致を軽減することで最適化性能の向上を目指す。
    • 提案手法HiBBOは,既存のVAEに基づくベイズ最適化手法と比較して,収束速度と解の質において優れた性能を示す。
    • HiBBOは,長期系列モデリング手法であるHiPPOを活用し,潜在空間と元の空間の分布の不一致を低減する。
    • 本研究は,高次元系列表現学習と効率的なベイズ最適化を結びつけ,ニューラルアーキテクチャ探索などの応用範囲を広げる。

    Link: https://arxiv.org/abs/2510.08965

  • 意味条件チューニング:知識グラフ補完のためのグラフ文脈と大規模言語モデルの融合 [cs.AI, cs.CL]目的:知識グラフの補完における,グラフ文脈と大規模言語モデルの融合
    • 知識集約型タスクにおいて,知識グラフと大規模言語モデルの連携は不可欠である。
    • 既存手法は知識グラフの豊富な関係性を見過ごし,言語モデルに過度な推論を強いる。
    • グラフ文脈を用いたより直接的で強力な信号を言語モデルに提供し,知識推論の精度と安定性を向上させる。
    • 提案手法Semantic-condition Tuning(SCT)は,既存のprefix-tuningや他のベースラインを大幅に上回る性能を示す。
    • SCTはグラフニューラルネットワークにより文脈を考慮した意味条件を抽出し,テキスト埋め込みを適応的に調整する。
    • これにより,言語モデルへの入力表現をより直接的かつ効果的に知識グラフの文脈で調整することが可能となる。

    Link: https://arxiv.org/abs/2510.08966

  • 正則化項の学習:正則化可能な最適化手法の学習 [cs.LG, cs.AI]目的:最適化手法の学習
    • 機械学習の性能向上には,汎化能力と収束速度の改善が不可欠である。
    • 既存の勾配降下法では,明示的な正則化手法が用いられることが多い。
    • 学習された最適化手法が,明示的な正則化なしで正則化効果を学習できるか検証する。
    • 学習された最適化手法は,従来の正則化手法の効果を内部化することが示された。
    • 正則化された学習最適化手法は,テスト精度と汎化性能において,正則化されていない手法を上回る。
    • 学習された最適化手法は,正則化効果を新しい最適化タスクに転移できる。

    Link: https://arxiv.org/abs/2510.08968

  • 自己報酬型強化学習におけるシステムバイアスの診断と軽減 [cs.LG, cs.CL]目的:自己報酬型強化学習におけるシステムバイアスの特性と軽減策
    • 大規模言語モデルの推論能力向上に強化学習が貢献するが,ラベル付きデータの不足が課題。
    • 自己報酬型強化学習はラベルなしデータで拡張可能だが,性能と安定性が検証可能な報酬型に劣る。
    • モデルが自身の行動を過大評価するバイアスを特定し,安定した学習を可能にすること。
    • 自己報酬型強化学習におけるバイアスを3つの指標で定量的に評価した。
    • アンサンブル報酬型強化学習(RLER)を提案し,報酬の集約と補間,ロールアウト選択を最適化した。
    • RLERはRLIRより13.6%性能が向上し,検証可能な報酬型に迫る結果が得られた。

    Link: https://arxiv.org/abs/2510.08977

  • 彩色不能な事例:知覚を意識した色制限摂動によるAIによる無許可の彩色を防止 [cs.CV, cs.LG]目的:AIによる無許可の彩色を防止するための手法
    • AI技術の発展は画像処理に革新をもたらす一方,著作権侵害のリスクも伴う。
    • モノクロ画像に対するAIによる彩色技術は進歩しているが,無断利用を防ぐ有効な手段が存在しない。
    • 著作権保護の観点から,AIによる無許可の彩色を防ぐための防御策を確立することを目指す。
    • 提案手法PAChromaは,知覚的に不可知な摂動を埋め込むことで,AIによる彩色を効果的に阻害する。
    • ImageNetおよびDanbooruデータセットにおける実験により,PAChromaが彩色の品質を低下させつつ,視覚的な外観を維持することが確認された。
    • 本研究は,生成メディアにおける著作権を意識した防御策の第一歩となる。

    Link: https://arxiv.org/abs/2510.08979

  • SEER:ソフトウェア要求の持続可能性向上エンジニアリング [eess.SY, cs.SY, cs.SE, cs.AI]目的:ソフトウェア要求における持続可能性の向上
    • ソフトウェア開発の拡大は,環境,技術,社会,経済に大きな影響を与える。
    • 既存手法は抽象的な指針にとどまり,実装に時間がかかり,チームの適応力に依存する。
    • ソフトウェア開発の初期段階から持続可能性を考慮する手法を確立する。
    • SEERフレームワークは,ソフトウェア要求段階における持続可能性への対応を可能にする。
    • このフレームワークは,一般的な分類から関連する持続可能性要求を特定し,システム要求の持続可能性を評価する。
    • Gemini 2.5を用いた実験により,多様なドメインにおける広範な持続可能性に関する懸念を正確に特定できることが示された。

    Link: https://arxiv.org/abs/2510.08981

  • FedL2T:二重教師蒸留を用いたパーソナライズされた連合学習によるてんかん予測 [cs.LG, cs.NE]目的:てんかん予測のためのパーソナライズされた連合学習フレームワーク
    • 脳波データは医療診断に不可欠であり,その分析はてんかん予測において重要な役割を果たす。
    • 患者間の脳波データのばらつきが大きく,連合学習においてロバストな性能を達成することが困難である。
    • 患者固有の脳波特性に対応し,質の高いパーソナライズされた予測モデルを構築すること。
    • 提案手法FedL2Tは,二重教師蒸留戦略により,各クライアントに対して優れたパーソナライズモデルを生成する。
    • 適応的な多段階蒸留戦略により,タスクの確信度に基づいて予測出力と中間特徴表現を整合させることで,信頼性の高い知識伝達を実現する。
    • 実験結果から,FedL2Tは既存の連合学習手法と比較して,特にラベルが少ない条件下で一貫して優れた性能を発揮することが示された。

    Link: https://arxiv.org/abs/2510.08984

  • Tiny-R1V:モデル統合による軽量なマルチモーダル統一推論モデル [cs.IR, cs.CL, cs.CE, cs.CY, cs.AI]目的:軽量なマルチモーダル推論モデルの性能向上
    • マルチモーダル大規模言語モデルは多様なタスクで能力を示すが,サイズや推論効率が課題である。
    • 軽量なマルチモーダルモデルの推論能力に関する研究が不足している。
    • 簡潔かつ高精度な応答を生成し,多様なマルチモーダル推論タスクでの性能向上を目指す。
    • Tiny-R1Vは,長さ情報を考慮した強化学習手法LIPOと,訓練不要なモデル統合手法AMMを組み合わせることで,高速な推論と高精度を実現した。
    • LIPOは応答群内の利得を動的に調整し,簡潔で高品質な応答を優先することで,短く正確な応答生成を促進する。
    • AMMはタスクベクトルを適応的に調整し,勾配投影正則化損失関数を用いて統合ベクトルの競合を軽減する。

    Link: https://arxiv.org/abs/2510.08987

  • 思考の制約:言語モデル誘導探索における制約付き推論のためのフレームワーク [cs.HC, cs.LG]目的:言語モデルによる探索において,制約付き推論を可能にするフレームワーク
    • 大規模言語モデルの活用が進む中で,複雑なタスクにおける計画能力の向上が重要視されている。
    • 既存手法では,生成される計画が高レベルな意図と整合せず,記号的な制約を満たせない場合がある。
    • 意図と制約を組み合わせた探索により,実行可能かつ意味のある計画の生成を可能にすること。
    • 提案手法「思考の制約 (Const-o-T)」は,モンテカルロ木探索(MCTS)の探索空間を絞り,効率的な計画立案を実現する。
    • Const-o-Tは,意図と制約のペアを用いて探索を誘導し,無効な行動や幻覚を抑制することで,計画の信頼性を高める。
    • リスクゲーム,CADコード生成,算術推論の3つの領域で,既存手法を上回る精度と構造的整合性を示すことが示された。

    Link: https://arxiv.org/abs/2510.08992

  • PlatformX: エネルギー効率の良いニューラルアーキテクチャ探索のためのエンドツーエンドで転移可能なプラットフォーム [cs.LG, cs.AI]目的:エネルギー効率の良いニューラルアーキテクチャの探索
    • エッジデバイス向けにDNNを設計する上で,効率的なニューラルアーキテクチャ探索は重要である。
    • 既存手法は,時間コストが高く,手動プロファイリングが必要で,多様なハードウェアへのスケーラビリティに課題がある。
    • 多様なハードウェアプラットフォームでの効率的なアーキテクチャ探索を自動化し,実用的な展開を可能にすること。
    • PlatformXは,エネルギー消費を重視した探索空間,転移可能なエネルギー予測器,多目的探索アルゴリズム,高分解能エネルギープロファイリングシステムを統合している。
    • 複数のモバイルプラットフォームでの評価により,PlatformXが検索オーバーヘッドを大幅に削減し,精度とエネルギー消費の忠実性を維持することが示された。
    • MobileNet-V2と比較して,精度と効率の両方で優れたモデルを特定した(最大0.94の精度,推論あたり0.16mJのエネルギー消費)。

    Link: https://arxiv.org/abs/2510.08993

  • SWE-Benchの改善:現実的なエージェント評価のためのベンチマーク変異アプローチ [cs.SE, cs.AI]目的:ソフトウェアエージェントの現実的な評価
    • ソフトウェア開発エージェントの性能評価は,開発効率向上に不可欠である。
    • 既存のベンチマークは,実際のIDEでの利用状況と乖離しており,エージェント能力を過大評価する。
    • IDE利用状況に基づいた変異ベンチマークにより,より正確な能力評価を目指す。
    • 既存のベンチマークは,エージェントの能力を最大で50%以上過大評価していることが示された。
    • 社内ベンチマークにおいても,約10〜16%の過大評価を確認した。
    • ベンチマーク変異技術により,対話型ソフトウェアエージェントの評価パラダイムを確立した。

    Link: https://arxiv.org/abs/2510.08996