arXiv雑要約

AI - 2026/04/30 公開

  • DFT実験におけるバンドギャップ不一致の説明可能な診断のための自己進化エージェント [cond-mat.mtrl-sci, cs.AI, physics.comp-ph]目的:DFT実験におけるバンドギャップ不一致の原因特定
    • 物質の電子状態を正確に予測することは,材料設計や物性解明に不可欠である。
    • 従来のDFT計算は,相関性の強い複雑な物質で誤った結果を出しやすい。
    • この研究は,DFT計算の不一致を自動的に診断し,原因を特定することを目的とする。
    • XDFTは,124材料のベンチマークにおいて,90件の不一致事例のうち70件を解決した。
    • XDFTの診断精度は,ランダムな探索や静的なLLMによる予測を大幅に上回る。
    • 診断された物質は,修正された計算プロトコルとメカニズムの説明と共に返され,未解決事例は実験的な再検討の対象として示される。

    Link: https://arxiv.org/abs/2604.26703

  • トラップイオンハードウェアを用いた高次二値最適化による量子特徴選択 [math.DS, cs.FL, math.MG, quant-ph, cs.LG]目的:量子特徴選択のためのフレームワーク
    • 機械学習の性能向上には,適切な特徴量の選択が不可欠である。
    • 従来の二値最適化では,特徴量間の多変量依存性を捉えきれない場合がある。
    • 高次相互作用項を含むHUBOモデルで,より効果的な特徴量選択を目指す。
    • 提案手法は,トラップイオンプロセッサ上での量子最適化の実現可能性を示した。
    • 古典的な次元削減手法と比較して,競争力のある分類性能を達成した。
    • コンパクトかつ情報量の多い特徴量サブセットを選択できることが示された。

    Link: https://arxiv.org/abs/2604.26834

  • 深層Transformerモデルにおける確率的スケーリング限界とノイズによる同期 [math.PR, cs.LG, stat.ML]目的:深層Transformerモデルにおけるトークンの層ごとの進化の確率的スケーリング限界
    • Transformerモデルは自然言語処理等の分野で広く利用されており,その理論的理解が重要である。
    • モデルの規模が大きくなるにつれて,その振る舞いを数学的に解析することが困難になっている。
    • 大規模なTransformerモデルの振る舞いを確率的相互作用粒子系として理解し,同期現象を解明すること。
    • 層ごとのトークンの進化が連続時間確率的相互作用粒子系へ収束することを数学的に証明した。
    • トークン分布の進化を記述する確率的偏微分方程式を特定し,大規模なトークン数におけるカオス拡散を証明した。
    • モデルがノイズによって同期を示すこと,および相互作用エネルギーの平均的な指数関数的な減衰を確立した。

    Link: https://arxiv.org/abs/2604.26898

  • 次世代技術に向けたミリ波およびサブテラヘルツ/テラヘルツ発振器の最近の進歩 [eess.SP, cs.AI, cs.AR, cs.ET, cs.SY, eess.SY]目的:次世代通信・計算システム用ミリ波およびサブテラヘルツ/テラヘルツ発振器に関する最近の進歩の概観
    • 高速・大容量通信の需要増加に伴い,より高い周波数帯域の利用が不可欠となっている。
    • 高周波発振器の性能向上には,低ノイズ性,高出力,高効率,広帯域性,安定性といった課題が存在する。
    • 将来の通信,計算,センシングアプリケーション向けに,高性能で信頼性の高い発振器の開発を支援する。
    • CMOS,SiGe,III-V半導体技術など,様々な設計アプローチが検討されている。
    • 発振器の性能指標(位相ノイズ,出力電力,効率,周波数調整可能性,安定性)における最近の設計動向が評価されている。
    • 高性能で信頼性の高い発振器設計のための貴重な洞察と設計ガイドラインを提供することを目的としている。

    Link: https://arxiv.org/abs/2604.26903

  • ADMMにおける収束保証付き緩和ポリシー学習 [quant-ph, cs.CC, math.OC, cs.LG]目的:ADMMの緩和パラメータ更新ポリシー
    • 最適化問題解決の効率化が重要であり,特に構造化された凸最適化問題ではADMMが広く利用されている。
    • ADMMの性能はパラメータ設定に大きく左右され,適切なパラメータ選択が課題となっている。
    • 問題クラスに応じた緩和パラメータのオンライン学習により,ADMMの性能向上を目指す。
    • 緩和パラメータを学習的に更新することで,ベンチマーク問題において反復回数と計算時間を削減できることを示した。
    • 行列分解を伴うペナルティ更新とは異なり,緩和パラメータの適応は計算コストを抑えられる。
    • 緩和パラメータとペナルティパラメータが時間変化する場合でも,ADMMの収束性を保証する理論的な枠組みを確立した。

    Link: https://arxiv.org/abs/2604.26932

  • ReLU,Leaky ReLU,Softplus活性化関数を持つ深層ニューラルネットワークが,Lipschitz非線形性を持つKolmogorov偏微分方程式の次元の呪いを,$L^p$の意味で克服することの証明 [math.NA, cs.LG, cs.NA, math.PR]目的:高次元偏微分方程式に対する深層学習による近似手法の次元の呪いの克服可能性
    • 偏微分方程式の近似計算において,次元の呪い克服は,高次元問題への適用を可能にする上で重要である。
    • 既存の深層学習手法は,次元の呪いを克服できると示唆するシミュレーション結果はあるものの,数学的な証明は不足している。
    • ReLU,Leaky ReLU,Softplus活性化関数を持つ深層ニューラルネットワークが,$L^p$空間において次元の呪いを克服することを示す。
    • 本研究では,ReLU,Leaky ReLU,Softplus活性化関数を持つ深層ニューラルネットワークが,Lipschitz非線形性を持つKolmogorov偏微分方程式の解を,次元の呪いなしで$L^p$の意味で近似できることを証明した。
    • この結果は,既存研究におけるReLU活性化関数に対する結果を,$L^p$空間とより一般的な活性化関数へと拡張するものである。
    • 特に,初期値関数がReLU深層ニューラルネットワークで次元の呪いなしに近似可能であれば,終端時刻における解も同様に近似可能となることが示された。

    Link: https://arxiv.org/abs/2309.13722

  • LLMにおける事実誤りのダイナミックな発見手法:反復的アプローチ [cs.SE, cs.AI, cs.CL]目的:大規模言語モデルにおける事実誤りの特定
    • LLMは多様な応用で基盤技術であり,その知識活用が重要視されている。
    • LLMは事実や常識に関する誤りを生じやすく,特に重要な分野での誤情報拡散が懸念される。
    • LLMの事実誤りを効率的かつ効果的に発見するための自動化手法を開発する。
    • 提案手法HalluHunterは,知識グラフを利用して多様な質問を生成し,LLMの事実誤りを系統的に発見する。
    • HalluHunterは,LLMが誤りやすい箇所に焦点を当てて反復的に質問を選択することで,高いエラー検出率(最大55%)を実現した。
    • HalluHunterのテストケースは,LLMの事実性のベンチマークにおける弱点を露呈させ,質問の網羅性を維持する。

    Link: https://arxiv.org/abs/2401.00761

  • 計算医療におけるデータ中心型基盤モデル:サーベイ [cs.LG, cs.AI]目的:計算医療におけるデータ中心型基盤モデルに関するアプローチ
    • 医療分野でのAI活用は,患者の転帰改善や臨床ワークフローの効率化に不可欠である。
    • 質の高い臨床データの取得・処理は長年の課題であり,データ量,アノテーション,プライバシー,倫理などが問題となる。
    • 基盤モデル時代におけるデータ中心型アプローチを通じて,医療ワークフローの改善を目指す。
    • 本サーベイでは,基盤モデルの事前学習から推論に至るまでの幅広いデータ中心型アプローチを調査した。
    • AIセキュリティ,評価,そして人間価値観との整合性といった重要な視点についても議論した。
    • 患者アウトカムと臨床ワークフローを向上させるための基盤モデルベースの分析に,将来性があると考えられる。

    Link: https://arxiv.org/abs/2401.02458

  • 拡散生成モデルにおける組み合わせ確率性 [cs.CG, cs.SC, math.NT, math.OA, cs.RO, cs.LG, cs.AI, cs.CV, cs.GR]目的:拡散生成モデルの組み合わせ的複雑性に関する検討
    • 高次元データ生成において,多様な属性の組み合わせが重要である。
    • 既存手法では,次元と属性の組み合わせ空間を十分に網羅できない場合がある。
    • 組み合わせ構造を最大限に活用する確率過程を導入し,生成性能の向上を目指す。
    • ComboStocにより,画像や3D形状など多様なデータ形式において,ネットワーク学習が大幅に加速された。
    • テスト時生成において,各次元と属性に対して非同期な時間ステップを使用することで,制御性の向上が確認された。
    • 組み合わせ確率性(ComboStoc)は,拡散生成モデルの学習効率と生成品質を改善する有効な手法である。

    Link: https://arxiv.org/abs/2405.13729

  • 異なる競合度を持つ問題に対する多目的進化アルゴリズムの優位性証明 [cs.NE]目的:異なる競合度を持つ問題クラスにおける多目的進化アルゴリズムと他の最適化手法との理論的な性能比較
    • 多目的最適化は,現実世界の複雑な意思決定問題を扱う上で不可欠な手法である。
    • 多目的進化アルゴリズムの理論的な性能は十分に解明されておらず,他の最適化手法との比較が不足している。
    • 競合の度合いが異なる問題において,多目的進化アルゴリズムの有効性を示すことで,その適用範囲を明確化する。
    • スカラー化法やε制約法といった多目的進化アルゴリズム以外の一般的な手法では,高い競合度を持つ問題において最適な解を網羅することが困難である。
    • 多目的進化アルゴリズムは,問題設定の調整を必要とせずに,OneMaxMin$_k$問題を効率的に解くことが理論的に証明された。
    • GSEMO,MOEA/D,NSGA-II,SMS-EMOAといった代表的な多目的進化アルゴリズムは,OneMaxMin$_k$問題に対して期待される計算量 $O(\max\{k,1\}n\ln n)$ で解を求めることが示された。

    Link: https://arxiv.org/abs/2408.04207

  • 質問することを学習する:LLMエージェントと不明確な指示 [cs.CL, cs.AI, cs.SE]目的:不明確な指示下におけるLLMエージェントのツール利用性能評価
    • LLMは高度な言語能力に加え,外部ツール利用により多様なタスク遂行が可能である。
    • 現実世界では,LLMのツール利用は正確な指示に依存するが,指示は常に明確とは限らない。
    • 不明確な指示に対するLLMの課題を分析し,質問による指示の明確化を目指す。
    • LLMは,次トークン予測学習の特性から,欠損引数を恣意的に生成し,幻覚やリスクを生じさせる傾向がある。
    • 提案手法Ask-when-Needed(AwN)は,不明確な指示に直面した際にユーザーに質問することで,この問題を解決する。
    • AwNは,既存のツール学習フレームワークと比較して,NoisyToolBenchにおいて大幅な性能向上を実証した。

    Link: https://arxiv.org/abs/2409.00557

  • ランダム畳み込みカーネルによる時系列分類:プーリング演算と入力表現が重要 [cs.LG]目的:高速時系列分類の新たな手法
    • 時系列データは,産業界や科学研究において広く利用され,その解析は重要である。
    • 既存手法は,計算コストが高く,大規模データセットへの適用が困難な場合がある。
    • 入力表現とプーリング演算を動的に選択することで,高速かつ高精度な分類を実現する。
    • SelF-Rocketは,既存のランダム畳み込みカーネルに基づく手法とは異なり,訓練過程で最適な入力表現とプーリング演算を動的に選択する。
    • UCR時系列分類ベンチマークデータセットにおいて,最先端の精度を達成した。
    • 高速性と精度の両立により,大規模時系列データの効率的な分類に貢献する。

    Link: https://arxiv.org/abs/2409.01115

  • Llama-3 70Bにおける追加言語混合比率の最適選択によるポストトレーニングの実践 [cs.CL, cs.AI, cs.LG]目的:追加言語混合比率の最適化
    • 大規模言語モデルの性能向上が求められており,特に多様な言語能力の獲得が重要である。
    • 追加学習時のハイパーパラメータ最適化が課題であり,混合比率と性能の関係は未解明である。
    • Llama-3の中国語能力向上を通して,混合比率と学習率の相関関係を明らかにする。
    • Llama-3 8Bモデルでハイパーパラメータの最適化を行い,実験設定の指針を得た。
    • 追加学習とファインチューニングにより,中国語関連のベンチマークだけでなく,数学,コーディング,感情知能などの分野でも性能が向上した。
    • 最終的に70Bモデルを実運用チャットシステムに導入し,良好な結果が得られた。

    Link: https://arxiv.org/abs/2409.06624

  • 部分観測マルコフ決定過程における有限記憶方策の説明可能な表現:決定木を用いた手法 [cs.AI, cs.LG, cs.RO, cs.SY, eess.SY]目的:部分観測マルコフ決定過程における有限記憶方策の説明可能性向上
    • 不確実性下での意思決定の基本枠組みであり,ロボティクスや人工知能など幅広い分野で重要。
    • 最適な方策は無限の記憶を要する場合が多く,実装が困難で,計算不能となる場合がある。
    • 有限記憶方策をより理解しやすく,コンパクトに表現することで,説明可能性を高める。
    • 決定木とミーリーマシンを組み合わせることで,方策を解釈しやすい形式で表現できる。
    • 提案手法は,有限状態コントローラ(FSC)形式の方策だけでなく,他の有限記憶方策にも適用可能。
    • アトラクターベースの方策の特性を利用することで,さらに簡潔な表現が可能となる。

    Link: https://arxiv.org/abs/2411.13365

  • 気候変動が再生可能エネルギー発電に与える影響の定量化:超解像再帰拡散モデル [cs.LG, eess.SP]目的:再生可能エネルギー発電量に対する気候変動の影響の定量化
    • 地球温暖化とエネルギー転換が進む中,電力供給能力と気象要因の関連性が重要になっている。
    • 気候データは通常,再生可能エネルギーの短期変動を捉えるための時間分解能が不足している。
    • 気候データの時間分解能を向上させ,再生可能エネルギーの不確実性をモデル化すること。
    • 提案するSRDMは,既存の生成モデルと比較して,超解像気候データの生成において優れた性能を示した。
    • 低解像度の気候データを用いた電力変換による推定バイアスが明らかになった。
    • SRDMを用いて,将来の風力および太陽光発電量を長期的にシミュレーションすることが可能となった。

    Link: https://arxiv.org/abs/2412.11399

  • ChinaTravel:構成的制約検証を備えたオープンエンドの旅行計画ベンチマーク [cs.AI, cs.CL]目的:言語エージェントのための旅行計画のベンチマーク
    • 現実世界の言語エージェント応用において,旅行計画は高い需要と厳格な制約充足課題を両立する重要な分野である。
    • 既存のベンチマークはスロットフィル形式が中心で,自然な言語の多様性や暗黙的な意図を捉えきれていない。
    • 本研究は,構成的な制約検証を通して,複雑な現実世界の計画シナリオにおける言語エージェントの進歩を目指す。
    • ChinaTravelは,多日間の旅行計画に適した実用的な環境と,拡張性のあるドメイン固有言語(DSL)を提供する。
    • 1154人の参加者から得られた多様な旅行要件を含むオープンエンドデータセットを構築した。
    • ニューロシンボリックエージェントが人間のクエリに対して37.0%の制約充足率を達成し,純粋なニューラルモデルより10倍の改善を示した。

    Link: https://arxiv.org/abs/2412.13682

  • 人間らしい文章は人間によって好まれるか? 多言語における人間による識別とAIに対する選好 [cs.RO, cs.CL, cs.AI]目的:人間とAIが生成した文章の識別精度と選好
    • 大規模言語モデルの普及に伴い,生成された文章の信頼性確保が重要課題となっている。
    • 人間がAI生成文章と人間執筆文章を識別することは難しく,しばしば偶然レベルであると言われていた。
    • 多言語・多様な分野において,人間の識別能力の上限を検証し,AIとの違いを明確化する。
    • 16のデータセットを用いた実験で,人間による識別精度は平均87.6%と,従来の結論を覆す結果となった。
    • 人間と機械の文章の違いは,具体性,文化的なニュアンス,多様性にあることが示された。
    • 文章の区別を明示するプロンプトにより識別精度が向上する一方,出所が不明な場合は人間が必ずしも人間執筆文章を好むとは限らない。

    Link: https://arxiv.org/abs/2502.11614

  • 化学元素のセマンティック埋め込みによる材料推論と発見の高度化 [cs.CL, cond-mat.mtrl-sci, cs.LG]目的:化学元素の普遍的なセマンティック埋め込みの生成
    • 材料開発は,産業の発展や技術革新に不可欠であり,その効率化が求められている。
    • 従来の材料記述子は,元素間の複雑な関係性を十分に捉えきれていないという課題がある。
    • 科学文献から得られる元素の文脈的知識を活用し,材料推論の精度向上を目指す。
    • 本研究で開発したElementBERTは,合金関連論文の知識を効果的にエンコードし,汎用BERTモデルを上回る性能を示した。
    • 生成されたセマンティック埋め込みは,機械的特性や相構造の予測,材料最適化において,従来の記述子よりも優れた結果をもたらした。
    • チタン合金,高エントロピー合金,形状記憶合金への適用により,最大23%の予測精度向上を達成した。

    Link: https://arxiv.org/abs/2502.14912

  • TinyR1-32B-Preview:ブランチマージ蒸留による精度向上 [cs.CL, cs.AI]目的:大規模言語モデルのサイズ縮小と性能維持
    • 大規模言語モデルは高性能だが,その巨大さが課題。計算資源やコストが大きいため,実用化には小型化が不可欠である。
    • 既存のモデル蒸留や転移学習では,十分な精度を維持したままモデルを小型化することが難しい場合が多い。
    • ブランチマージ蒸留によって,高性能かつ小型な言語モデルを効率的に生成し,計算コストと時間を削減することを目指す。
    • ブランチマージ蒸留は,教師モデルの知識を特定分野に特化した学生モデルに選択的に蒸留するブランチ相と,学生モデルを統合して汎化性能を高めるマージ相の二段階構成である。
    • TinyR1-32B-Previewは,数学,コーディング,科学などの複数のベンチマークにおいて,DeepSeek-R1-Distill-Qwen-32Bを上回る性能を示した。
    • AIME 2024においてはDeepSeek-R1に匹敵する性能を達成し,計算コストを削減しながら高性能なLLMを実現するスケーラブルなソリューションを提供する。

    Link: https://arxiv.org/abs/2503.04872

  • L2RU:規定されたL2バウンドを持つ構造化状態空間モデル [eess.SY, cs.LG, cs.SY]目的:構造化状態空間モデルにおける安定性とロバスト性の確保
    • 機械学習と制御の融合領域であり,長系列タスクで高い性能を発揮する。
    • システム同定や最適制御への応用が,安定性とロバスト性の確保の難しさにより制限されている。
    • パラメータ値に関わらず,入出力安定性とロバスト性を保証するモデルを開発すること。
    • L2RUは,規定されたL2ゲインバウンドを持つ構造化状態空間モデルであり,安定性とロバスト性を保証する。
    • L2RUは,LTIシステムの自由パラメータ化に基づき,勾配降下法による最適化と厳密な安定性保証を両立する。
    • 非保守的および保守的な2つのパラメータ化を提示し,非線形システム同定ベンチマークで既存モデルよりも優れた性能と学習安定性を示した。

    Link: https://arxiv.org/abs/2503.23818

  • ポートフォリオ管理のための適応的スケジューリングによるベイズ最適化の改善 [cs.LG, cs.SY, eess.SY, q-fin.CP, q-fin.PM]目的:ブラックボックスポートフォリオモデルにおける安定性とサンプル効率の向上
    • 金融業界ではブラックボックスシステムが普及しているが,市場の変化に弱く,安定した運用が課題である。
    • ブラックボックスシステムの評価は計算コストが高く,限られた評価回数の中で最適なポートフォリオを見つけるのが困難である。
    • ベイズ最適化の枠組みを改良し,限られた評価回数で安定した最適化を実現することを目指す。
    • 提案手法TPE-ASは,既存のベイズ最適化の不安定性を克服し,探索効率を高めることに成功した。
    • 適応的スケジューリングと重要度サンプリングに基づく重み付きラグランジュ推定器は,探索と利用のバランスを動的に調整する。
    • 実証実験により,TPE-ASが様々なポートフォリオモデルとバックテスト環境で優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2504.13529

  • 量子深層ニューラルネットワークを用いたコンプトン形因子の抽出 [cs.LG, hep-ph, nucl-th, quant-ph]目的:コンプトン形因子の抽出
    • 素粒子の構造を理解する上で,ハドロンの内部構造の研究は不可欠である。
    • 従来の解析手法では,高次元データからの効率的な形因子抽出が課題であった。
    • 量子深層ニューラルネットワークを用いることで,より高精度な形因子抽出を目指す。
    • 量子深層ニューラルネットワークは,古典的な深層ニューラルネットワークと比較して,予測精度と不確実性の両面で優れている場合が多いことが示された。
    • 実験データの適合度を評価するための定量的な選択指標が導入され,量子深層ニューラルネットワークと古典的な深層ニューラルネットワークの最適な使い分けが可能になった。
    • JLabデータを用いた解析結果は,量子深層ニューラルネットワークがコンプトン形因子の決定において有効なツールであることを支持する。

    Link: https://arxiv.org/abs/2504.15458

  • M2R2:時間的行動セグメンテーションのためのマルチモーダルロボット表現 [cs.RO, cs.AI]目的:時間的行動セグメンテーションのためのマルチモーダル特徴抽出器
    • ロボット工学とコンピュータビジョンの重要な研究分野であり,ロボットの自律性向上に不可欠である。
    • ロボット工学とコンピュータビジョンでは,特徴抽出方法が異なり,汎用性に課題がある。
    • 異なるモデル間での特徴再利用を可能にする,新しいマルチモーダル特徴抽出器を開発する。
    • 提案手法M2R2は,ロボットの内部感覚情報と外部感覚情報を組み合わせることで,時間的行動セグメンテーションの性能を向上させた。
    • 3つのロボットデータセット(REASSEMBLE,(Im)PerfectPour,JIGSAWS)において,最先端の性能を達成した。
    • 詳細な消去実験により,各モダリティの貢献度を評価し,手法の有効性を検証した。

    Link: https://arxiv.org/abs/2504.18662

  • マルチエージェントセキュリティにおける未解決の課題:相互作用するAIエージェントの安全なシステムに向けて [cs.CR, cs.AI, cs.MA]目的:相互作用するAIエージェントのセキュリティ確保
    • AI技術の社会実装が拡大する中で,AIエージェント間のセキュリティは喫緊の課題である。
    • 従来のセキュリティ対策は,AIエージェント間の複雑な相互作用に対応できない。
    • AIエージェント間の新たな脅威に対応し,安全なシステム設計を可能にすること。
    • AIエージェント間のセキュリティを専門とする「マルチエージェントセキュリティ」という新たな研究分野を提唱する。
    • 相互作用するAIエージェントから生じる脅威の分類と,分散環境・非中央集権環境におけるセキュリティと有用性のトレードオフを明らかにする。
    • 本研究は,大規模なエージェント展開の社会経済的ポテンシャルを引き出し,公共の信頼を促進し,重要インフラや防衛における国家安全保障リスクを軽減することを目指す。

    Link: https://arxiv.org/abs/2505.02077

  • コンピュータ利用エージェントの安全性とセキュリティ脅威に関する調査:JARVISかUltronか [cs.CL, cs.AI, cs.CR, cs.CV, cs.SE]目的:コンピュータ利用エージェントの安全性とセキュリティ脅威の体系化
    • AI技術の発展により,人間とコンピューターのインタラクションが高度化しており,安全性確保が重要である。
    • コンピュータ利用エージェントは複雑なソフトウェア構成と多様な入力により,新たなセキュリティリスクを抱えている。
    • コンピュータ利用エージェントの潜在的な脆弱性を特定し,安全な設計と展開のための指針を提供する。
    • 本研究では,コンピュータ利用エージェントの安全性分析に適した定義を提示した。
    • 既存の安全性脅威を分類し,防御戦略の包括的な分類を提案した。
    • 安全性と性能を評価するための既存のベンチマーク,データセット,評価指標をまとめた。

    Link: https://arxiv.org/abs/2505.10924

  • OTスコア:プロトタイプ支援型ソースフリー教師なしドメイン適応のためのOTに基づく信頼度スコア [cs.LG, cs.AI]目的:ソースフリー教師なしドメイン適応における信頼度評価
    • ドメイン適応は,ラベルなしのターゲットドメインでモデルの性能を向上させるために重要である。
    • 従来のドメイン適応手法は,ターゲットラベルがない環境下での信頼度評価が困難である。
    • 本研究は,計算効率が高く,理論的に妥当な信頼度スコアを提案することで,この課題を解決する。
    • 提案するOTスコアは,半離散最適輸送を利用した理論的解析に基づき,直感的で解釈可能な信頼度指標を提供する。
    • 実験結果から,OTスコアは既存の信頼度スコアよりも優れており,学習時の再重み付けによりドメイン適応の性能を向上させる。
    • OTスコアは,ラベルを用いずにモデルの性能を信頼性高く推定するための代替手段となる。

    Link: https://arxiv.org/abs/2505.11669

  • 圧縮されたレンズを通して:量子化が事実知識の想起に与える影響の調査 [cs.CL, cs.LG]目的:大規模言語モデルにおける事実知識想起の量子化による影響
    • 大規模言語モデルの利用拡大に伴い,推論速度向上とモデル配布の容易化が重要課題となっている。
    • 量子化が言語モデルの様々な能力に与える影響は研究されているが,事実知識想起への影響は未解明な部分が多い。
    • 量子化による事実知識想起への影響を明らかにし,効果的な量子化手法の特定を目指す。
    • 量子化は一般的に言語モデル内の情報損失を引き起こし,結果として事実知識想起能力を低下させる。
    • 特に,同一構造の小規模モデルにおいて,その影響が顕著に現れる。
    • しかし,低ビット精度で量子化されたモデルは一貫して性能が劣るわけではなく,場合によっては想起能力が向上することもある。BitSandBytesが最も事実知識想起能力を維持することが示された。

    Link: https://arxiv.org/abs/2505.13963

  • 安全強化学習と制約付きマルコフ決定過程:単一エージェントおよびマルチエージェントの安全性に関する技術サーベイ [cs.LG]目的:安全強化学習と制約付きマルコフ決定過程の技術的概要
    • 強化学習の応用範囲は広いが,安全性確保が重要課題となっている。
    • 従来の強化学習では,安全性制約を考慮しない場合があり危険を伴う。
    • 安全性制約下での強化学習の理論的基盤とアルゴリズムを整理・提示する。
    • 本サーベイは,制約付きマルコフ決定過程に基づくSafeRLの数理的厳密な概要を提供する。
    • 単一エージェントおよびマルチエージェント環境における最新のSafeRLアルゴリズムをまとめた。
    • SafeMARLに焦点を当てた5つの未解決研究課題を提示し,今後の研究方向性を示唆した。

    Link: https://arxiv.org/abs/2505.17342

  • DB-KSVD:高次元埋め込み空間の潜在的要素を解きほぐすためのスケーラブルな交互最適化 [cs.LG, cs.MS, stat.AP]目的:高次元埋め込み空間の潜在的要素の解きほぐし
    • 大規模言語モデルの解釈可能性向上は,AI技術の信頼性向上に不可欠である。
    • 高次元データの潜在的要素の発見には計算コストがかかり,効率的なアルゴリズムが求められる。
    • 既存手法の制約を克服し,大規模データセットにおける潜在的要素の解きほぐしを可能にすること。
    • 提案手法DB-KSVDは,古典的なKSVDアルゴリズムを改良し,大規模データセットへの適用を可能にした。
    • Gemma-2-2BやPythia-160Mのテキスト埋め込み,DINOv2モデルの画像埋め込みにおいて,SAEBenchの指標で良好な結果を示した。
    • SAEと同等の性能を達成することで,既存手法の有効性と最適化手法のスケーラビリティを示唆している。

    Link: https://arxiv.org/abs/2505.18441

  • ViTaPEs:マルチモーダルTransformerにおけるクロスモーダルアラインメントのための視覚触覚位置エンコーディング [cs.CV, cs.LG, cs.RO]目的:タスクに依存しない視覚触覚表現の学習
    • 視覚と触覚情報は相互補完的であり,ロボット工学やヒューマン・コンピュータインタラクションにおいて重要である。
    • 既存の手法では,視覚と触覚の情報を効果的に融合し,タスクや環境の変化に適応することが困難である。
    • 視覚と触覚の間の空間的推論を捉え,クロスモーダルアラインメントを改善することを目的とする。
    • ViTaPEsは,様々な認識タスクにおいて最先端のベースラインを上回る性能を示した。
    • 未知のデータセットや環境に対するゼロショット汎化能力が実証された。
    • ロボットグリッピングタスクにおいて,グリッピング成功予測において最先端手法を凌駕した。

    Link: https://arxiv.org/abs/2505.20032

  • RetroMotion:逆因果的運動予測モデルは指示可能である [cs.CV, cs.AI, cs.RO]目的:道路利用者の運動予測における,複数エージェント,シーン制約,相互作用に対する複雑性の対応
    • 自動運転やロボット工学において,周囲の状況を正確に予測することは,安全な行動計画に不可欠である。
    • エージェント数が増えるほど,関節軌道分布の出力空間が指数関数的に増加し,計算コストが課題となる。
    • 周辺分布と関節分布を組み合わせることで,効率的かつ高精度な運動予測を実現し,指示への適応性を高める。
    • 提案手法は,Waymo Interaction Prediction Challengeで高い性能を示し,Argoverse 2やV2X-Seqデータセットへの汎化性能も確認された。
    • Transformerモデルを用いて,周辺分布を再エンコードし,ペアワイズモデリングを行うことで,逆因果の流れを組み込んだ。
    • 標準的な運動予測の学習だけで,モデルが指示に従い,シーンの文脈に適応することが示された。

    Link: https://arxiv.org/abs/2505.20414

  • 構造化および逐次的な胸部X線画像解釈のためのベンチマーク [cs.CL, cs.CL, cs.AI]目的:構造化された放射線科レポート生成のためのベンチマークデータセット
    • 放射線科レポートは臨床観察と診断推論を詳細に記録し,医療の質向上に不可欠である。
    • 既存の評価方法は単一レポートに限定され,詳細な臨床的意味や時間的依存性を捉えられない。
    • 時間経過に伴う病状の変化を評価できる,構造化された放射線レポートの生成と評価を可能にする。
    • LUNGUAGEデータセットは,1473件の注釈付き胸部X線レポートと186件の縦断的注釈を含む。
    • 生成されたレポートを構造化し,エンティティ,関係,属性レベルで時間的一貫性を考慮した評価指標LUNGUAGESCOREを提案した。
    • LUNGUAGESCOREは,構造化レポートの評価において有効であることが実証された。

    Link: https://arxiv.org/abs/2505.21190

  • 時間盲:なぜビデオと言語モデルは人間が見れるものが見えないのか? [cs.CL, cs.CL, cs.CV, cs.AI]目的:ビデオにおける時間的パターン認識能力の限界
    • ビデオ理解は,生物学的シグナルや隠れたコミュニケーションなど,多様な現象の解析に不可欠である。
    • 既存のモデルは空間情報に依存しすぎており,純粋な時間的パターンを捉えることが難しい。
    • 空間的依存性を分離し,時間的処理を改善することで,人間レベルのビデオ理解を目指す。
    • 最新のビジョン言語モデルは,ビデオの時空間関係の理解で進歩しているが,空間情報が遮断されると時間的パターンを捉えられないことが判明した。
    • SpookyBenchというベンチマークを通じて,人間はノイズのようなフレームの時系列からパターンを高い精度で認識できる一方,最先端モデルは全く認識できないという性能差が明らかになった。
    • モデルの時間理解は,空間的SNRが低いデータセットで訓練されると,人間よりも急速に低下する。これは,モデルが空間特徴に過度に依存していることを示唆する。

    Link: https://arxiv.org/abs/2505.24867

  • MINOS:画像とテキスト間の双方向生成に対する多モーダル評価モデル [cs.CL, cs.AI, cs.CV]目的:画像とテキスト間の双方向生成タスクに対する多モーダル評価
    • マルチモーダル生成は発展が著しく,その品質評価が重要となっている。
    • 既存の評価指標は限界があり,大規模な評価データ収集だけでは質が軽視される。
    • 質の高い評価データと学習戦略により,汎用的な評価モデルの性能向上を目指す。
    • 本研究では,厳格な品質管理を行った多モーダル評価データセットMinos-57Kを構築した。
    • 構築したデータセットを用いてMinosを開発し,I2TとT2Iの両タスクで最先端の性能を達成した。
    • 少量データで高性能を実現し,品質管理と共同学習,そして嗜好合わせの重要性を示した。

    Link: https://arxiv.org/abs/2506.02494

  • 勾配を用いない並列学習のための射影ベースフレームワーク [cs.LG]目的:ニューラルネットワーク学習の新たな手法
    • 深層学習の発展は,画像認識や自然言語処理など様々な分野で目覚ましい成果を上げている。
    • 従来の勾配降下法は,計算コストが高い,局所最適解に陥りやすいなどの課題がある。
    • 非微分可能な演算にも対応可能で,並列化が容易な学習手法の開発が求められている。
    • 本研究では,学習を大規模な実現可能性問題として再定式化し,射影演算子と反復射影アルゴリズムを用いる。
    • 提案手法は,勾配ベースの学習に代わる有望な選択肢であり,並列化の優位性を示す。
    • PJAXというJAXベースのソフトウェアフレームワークを導入し,その機能と汎用性を実証した。

    Link: https://arxiv.org/abs/2506.05878

  • 大規模道路ネットワークにおける正則化適応グラフ畳み込みによる効率的な交通予測 [cs.LG, cs.AI]目的:大規模道路ネットワークにおける交通予測の効率化
    • 都市管理や経路計画など広範な応用があり,交通予測は空間・時間的な予測において重要な課題である。
    • 従来のグラフ畳み込み演算は計算量が膨大であり,大規模道路ネットワークへの適用が困難であるという課題がある。
    • 計算効率と予測精度を両立する新しいグラフ畳み込みモデルを開発し,この課題を解決することを目指す。
    • 提案手法であるRAGCは,ノード埋め込みのコサイン類似度に基づく効率的なコサイン演算子(ECO)を用いることで,計算量を削減する。
    • RAGCは,確率的共有埋め込み(SSE)と適応グラフ畳み込みを残留差メカニズムで組み合わせることで,高精度なノード埋め込みを獲得する。
    • 4つの大規模実データセットを用いた実験により,RAGCが最先端手法を予測精度と計算効率の両面で上回ることが示された。

    Link: https://arxiv.org/abs/2506.07179

  • 深層グラフ畳み込みネットワークを用いた犯罪ホットスポット予測 [cs.LG, cs.CL]目的:犯罪ホットスポットの予測
    • 都市の安全確保と効果的な法執行にとって重要であり,犯罪発生状況の把握が不可欠である。
    • 従来の犯罪予測手法では,空間的な依存関係を捉えきれず,犯罪間の地理的相互作用を無視する傾向がある。
    • 犯罪データをグラフ構造で表現し,空間的依存関係を明示的にモデル化することで,予測精度向上を目指す。
    • 提案手法は,従来の古典的なアルゴリズムと比較して,有意に高い分類精度(78%)を達成した。
    • グラフベースの学習が,予測型警察と空間犯罪学に有用であることが示された。
    • 犯罪ホットスポットの解釈可能なヒートマップを生成することが可能となった。

    Link: https://arxiv.org/abs/2506.13116

  • MARVIS:可視化に対する様相適応推論 [cs.CG, math.AT, cs.CL, cs.LG]目的:可視化を通じた様相適応推論システム
    • 機械学習の予測応用において,専門分野に特化した小型モデルが有用である。
    • 汎用的なLLMやVLMは,特に非伝統的な様相や希少なドメインにおいて性能が劣る。
    • VLMの空間推論能力を用いて,可視化を解釈し,予測性能を向上させる。
    • MARVISは,視覚,音声,生物,表形式データなど多様なドメインで高い性能を発揮する。
    • 単一の3Bパラメータモデルで,Gemini 2.0を平均16%上回る結果が得られた。
    • ドメイン特有の学習を必要とせず,LLM/VLMと専門的手法の性能差を縮小する。

    Link: https://arxiv.org/abs/2507.01544

  • 逐次スケーリング仮説 [cs.LG, cs.CC, stat.ML]目的:本質的に逐次的な問題の存在とその限界
    • 機械学習の進展には並列化が不可欠だが,逐次処理の問題が無視されてきた。
    • 並列化に適さない逐次的な問題群が存在し,計算効率が制限されている。
    • 本質的に逐次的な問題に対する拡散モデルの不適応性と,その克服の方向性を示す。
    • 機械学習における並列化の限界を理論的に明らかにし,逐次処理の重要性を指摘した。
    • 拡散モデルのような逐次的なモデルであっても,本質的に逐次的な問題を解決できないことを示した。
    • 計算の逐次性を認識することが,機械学習のモデル設計やハードウェア開発に影響を与えることを主張した。

    Link: https://arxiv.org/abs/2507.12549

  • PBiLoss:グラフベース推薦システムにおける公平性を向上させるための人気度を考慮した正則化 [cs.IR, cs.AI, cs.NE]目的:グラフベース推薦システムにおける人気度バイアスに対する公平性の向上
    • 推薦システムは,ユーザーに最適なアイテムを提案する上で重要な役割を果たしている。
    • グラフニューラルネットワークを用いた推薦システムでは,人気アイテムへの偏りが問題となっている。
    • 人気度バイアスを抑制し,より公平で多様な推薦を実現することを目指している。
    • PBiLossは,モデルが人気アイテムを過剰に推薦する傾向を抑制する正則化損失関数である。
    • Epinions,iFashion,MovieLensなどのデータセットを用いた実験で,PBiLossがPRUとPRIを最大10%削減し,推薦の公平性を向上させることが示された。
    • PBiLossは,LightGCNなどの最新のグラフベースフレームワークに容易に統合でき,精度を維持したまま公平性を改善できる。

    Link: https://arxiv.org/abs/2507.19067

  • リーダーボードを超えて:大規模言語モデルのための医療ベンチマークの再考 [cs.MM, cs.IR, cs.CL, cs.AI, cs.CV, cs.LG, cs.MM]目的:大規模言語モデルの医療分野におけるベンチマーク評価の改善
    • 医療分野へのAI活用が期待される中,その性能評価には信頼性の高いベンチマークが不可欠である。
    • 既存の医療ベンチマークは,臨床的妥当性,データ管理,安全性評価が不十分な点が課題となっている。
    • 既存のベンチマークの問題点を診断し,より標準化された信頼性の高い評価を促すことを目指す。
    • 既存の53の医療LLMベンチマークを詳細に評価した結果,臨床実践との乖離,データ汚染リスク,安全性評価の軽視が明らかになった。
    • 開発設計からガバナンスまで,ベンチマーク開発の全段階を評価する「MedCheck」フレームワークを開発した。
    • MedCheckは,既存ベンチマークの診断ツールとして,また,医療AI評価の標準化を促進するための指針として機能する。

    Link: https://arxiv.org/abs/2508.04325

  • リアルタイム入札広告における生成型ビッドシェーディング [cs.GT, cs.LG]目的:リアルタイム入札広告におけるビッドシェーディングの最適化
    • 広告市場において,入札戦略は費用対効果に大きく影響するため,その最適化は重要である。
    • 従来のビッドシェーディング手法は,複雑な価値依存性を捉えきれず,段階的なエラーが発生しやすいという課題があった。
    • 本研究は,複雑な価値依存性を捉え,長期的な収益を最大化する新たなビッドシェーディング手法を提案する。
    • 提案手法であるGBSは,ステップワイズ残差を用いた自己回帰モデルにより,複雑な価値依存性を捉える。
    • GBSは,チャンネル認識階層型動的ネットワーク(CHNet)を用いた報酬モデルにより,詳細な特徴を抽出し,短期・長期的な収益を最適化する。
    • オフラインおよびオンラインA/Bテストの結果,GBSの有効性が確認され,Meituan DSPプラットフォームに実装された。

    Link: https://arxiv.org/abs/2508.06550

  • ニューラルブリッジ過程 [cs.LG, cs.AI]目的:部分的に観測されたコンテキスト・ターゲットペアから確率的関数を学習すること
    • 機械学習における確率的モデリングは,不確実性を含む複雑な現象の理解に不可欠である。
    • 既存のニューラル拡散過程では,入力が拡散過程に十分に含まれていないという課題があった。
    • 入力に依存した拡散過程を導入し,条件付き確率的関数モデリングの精度向上を目指す。
    • 提案手法であるニューラルブリッジ過程は,入力に依存したブリッジ軌跡を導入することで,条件付けを強化する。
    • 理論的に,過程レベルでのアンカリングが,入力の識別可能性を高め,ノイズ状態にxに関する情報を注入することを示した。
    • 合成回帰,脳波,CylinderFlow,画像回帰の実験で,一貫した性能向上が確認された。

    Link: https://arxiv.org/abs/2508.07220

  • ニューラルグローバルイルミネーションのための頂点特徴 [cs.GR, cs.AI]目的:ニューラルレンダリングにおける頂点特徴の表現
    • 3Dシーン再構成やニューラルレンダリングは発展が著しい分野であり,高品質な画像生成が求められている。
    • 従来のグリッドベースの特徴表現はメモリ消費量が大きく,並列計算のボトルネックとなる。
    • メッシュ形状を利用した頂点特徴表現により,メモリ効率と表現力を向上させる。
    • 本手法は,従来のグリッドベース表現と比較して,メモリ消費量を大幅に削減できる。
    • レンダリング品質を維持しつつ,推論時のオーバーヘッドも低減することが示された。
    • 様々なニューラルレンダリングタスクにおいて有効性が確認された。

    Link: https://arxiv.org/abs/2508.07852

  • 目標条件付き視覚ナビゲーション指示生成:多Modal推論によるGoViG [cs.CV, cs.AI]目的:目標条件付き視覚ナビゲーション指示生成
    • ロボットナビゲーションは,現実世界での自律的な動作に不可欠である。しかし,環境の理解と指示の生成が課題。
    • 従来のナビゲーション手法は,構造化された情報に依存しており,未知の環境への適応が困難である。
    • 生の視覚データのみを用いて,環境を理解し,適切なナビゲーション指示を生成することを目指す。
    • 本研究では,視覚的な中間状態を予測し,それに基づいて指示を生成する二つのサブタスクに分解した。
    • 空間的な正確性と言語的な明瞭性を確保するため,多Modal LLMを独自に設計した。
    • R2R-Goalデータセットを用いて評価した結果,最先端手法と比較してBLEU-4とCIDErスコアで大幅な改善が確認された。

    Link: https://arxiv.org/abs/2508.09547

  • 損失に基づくクライアントクラスタリングによる敵対的攻撃に対するロバストな連合学習 [cs.LG, cs.AI]目的:敵対的攻撃下におけるロバストな連合学習手法
    • プライバシー保護と分散環境での機械学習の需要が高まっているため,連合学習は重要である。
    • 連合学習は,悪意のあるクライアントによる攻撃に対して脆弱であり,モデルの信頼性が損なわれる可能性がある。
    • 悪意のあるクライアントの存在下でも,信頼性の高いモデルを学習できる連合学習手法を開発すること。
    • 本研究では,損失に基づくクライアントクラスタリングを用いることで,少ない健全な参加者でも攻撃に強い連合学習を実現した。
    • 理論的分析により,強力な敵対的攻撃下でも最適性のギャップが制限されることが示された。
    • MNIST,FMNIST,CIFAR-10などのベンチマークにおいて,提案手法は既存手法を大幅に上回る性能を示した。

    Link: https://arxiv.org/abs/2508.12672

  • 愚者は確信し,賢者は懐疑する:コード補完におけるLLMの確信度に関する調査 [cs.SE, cs.AI]目的:LLMによるコード補完時の確信度の評価
    • ソフトウェア開発における生産性向上は重要であり,コード補完はその有効な手段となる。
    • LLMのコード生成における信頼性評価は難しく,誤ったコード生成のリスクが存在する。
    • コードのパープレキシティを測定することで,LLMの確信度とコード品質の関係を明らかにすることを目指す。
    • 強型付け言語は動的型付け言語よりも低いパープレキシティを示すことが明らかになった。
    • シェルスクリプトは常に高いパープレキシティを示す一方,Javaは低いパープレキシティを示した。
    • コードのパープレキシティはLLMに依存するが,言語レベルのランキングは比較的安定していることが確認された。

    Link: https://arxiv.org/abs/2508.16131

  • オフライン強化学習における方策制約の適応的スケーリング [cs.LG]目的:オフライン強化学習のための方策制約のスケーリング手法
    • 強化学習は,複雑な制御問題において高い性能を発揮するが,サンプル効率が課題となる。
    • オフライン強化学習では,データの分布シフトが学習の安定性を損なうことが多い。
    • データセットごとにハイパーパラメータ調整が必要であり,効率的な学習が困難である。
    • 提案手法ASPCは,強化学習と行動模倣のバランスを動的に調整することで,分布シフトを軽減する。
    • ASPCは,4つのD4RLドメインにおける39のデータセットで,既存の適応的制約手法や最先端のオフライン強化学習アルゴリズムを上回る性能を示した。
    • ASPCは,データセットごとの調整を必要とせず,計算オーバーヘッドも最小限に抑えることができた。

    Link: https://arxiv.org/abs/2508.19900

  • RoseCDL:稀な事象と異常検知のためのロバストかつスケーラブルな畳み込み辞書学習 [cs.CE, cs.LG]目的:大規模信号における稀な事象と異常の検知
    • 天文学,物理シミュレーション,生物医学など,多くの分野で重要。
    • 従来の畳み込み辞書学習は計算コストが高く,外れ値に弱いという課題があった。
    • 効率的な学習と外れ値への対応により,大規模信号における異常検知を可能とする。
    • RoseCDLは,効率的な学習のための確率的ウィンドウ処理と,ロバスト性を高めるための外れ値検出を導入した。
    • 実際のデータセットを用いた実験により,RoseCDLは検知精度と計算効率が向上することが示された。
    • これにより,大規模信号分析における困難な検知タスクに対して,畳み込み辞書学習の実用性が高まった。

    Link: https://arxiv.org/abs/2509.07523

  • LLMベースの対話型エージェントの個性と整合性が目標指向タスクにおけるユーザーの認識に与える影響の検証 [cs.HC, cs.AI, cs.CL]目的:LLMベース対話型エージェントにおける個性表現とユーザー・エージェント間の性格整合性が,ユーザーの認識に与える影響
    • 対話型エージェントは人間との自然な対話を実現し,多様な分野での応用が期待されている。
    • エージェントの個性がユーザーの体験に大きく影響するが,最適な個性表現は未だ明確ではない。
    • ユーザーの性格とエージェントの個性の整合性を考慮し,より好ましいユーザー体験を実現する。
    • 適度な個性表現が,知性,楽しさ,擬人化,採用意図,信頼性,好感度といった評価項目において最も良い結果をもたらした。
    • 特に外向性と情緒安定性が,ユーザーの認識に大きな影響を与えることが示された。
    • ユーザーの性格とエージェントの個性の整合性が高いグループは,全体的にポジティブな評価を示した。

    Link: https://arxiv.org/abs/2509.09870