arXiv雑要約

AI - 2026/03/19 公開

  • 幾何学的模倣から包括的生成へ:都市形態合成のための文脈情報を考慮したマルチモーダル拡散モデル [cs.CV, cs.AI]目的:都市形態の包括的な生成
    • 都市の機能性や活力を決定する都市形態の研究は,都市計画や設計において不可欠である。
    • 既存のシミュレーション手法は,都市のセマンティクスや地理的文脈の理解が不十分で,幾何学的な問題として単純化されがちである。
    • 本研究は,マルチモーダル情報の融合を通じて,より高度な都市形態の生成を目指す。
    • ControlCityは,画像,テキスト,メタデータ,建築物のフットプリントを組み合わせたデータセットを活用し,多様な情報を統合的に制御条件として利用する。
    • 実験結果から,提案手法は,既存手法と比較して,形態の忠実度と空間的重複度において顕著な改善が見られた (FID: -71.01%, MIoU: +38.46%)。
    • 本研究は,マルチモーダル融合が「幾何学的模倣」から「理解に基づく包括的生成」への転換において重要であることを示唆する。

    Link: https://arxiv.org/abs/2409.17049

  • Den-TP:軌跡予測のための密度バランス型データキュレーションと評価フレームワーク [cs.LG, cs.AI, cs.CV]目的:軌跡予測のための密度を考慮したデータセットのキュレーションと評価
    • 自動運転の安全性向上には,多様な運転シナリオを網羅した高品質な学習データが不可欠である。
    • 既存のデータセットは,シナリオの密度に大きな偏りがあり,特に高密度な危険な状況が不足している。
    • シナリオ密度を考慮し,データセットを再構築することで,モデルの頑健性を向上させる。
    • 提案手法Den-TPは,データセットのサイズを50%削減しつつ,全体的な性能を維持する。
    • 高密度なシナリオにおいて,従来の評価指標では見過ごされていた課題を明らかにする。
    • Argoverse 1および2の実験結果から,軌跡予測の精度はデータ量だけでなく,シナリオ密度のバランスに依存することが示された。

    Link: https://arxiv.org/abs/2409.17385

  • 効率的な拡散による低照度画像強調 [cs.CV, cs.AI]目的:低照度画像強調のための効率化手法
    • 画像処理分野において,低照度画像強調は,視覚的な品質向上や様々な応用において重要である。
    • 拡散モデルは高性能だが,反復計算に時間がかかり,実用上のボトルネックとなっている。
    • 拡散モデルの効率化を図りつつ,性能劣化を抑制すること。
    • 本研究では,誤ったスコア関数の線形外挿と,残差空間へのガウスフローのシフトにより,性能低下を抑制するRATRモジュールを提案した。
    • 提案手法ReDDiTは,既存の拡散モデルと同等の性能を2ステップで実現し,8ステップ,4ステップでもSOTAを達成した。
    • 10のベンチマークデータセットでの実験により,提案手法が既存のSOTA手法を上回ることが確認された。

    Link: https://arxiv.org/abs/2410.12346

  • 衝突によるきめ細かい不確実性定量化 [cs.LG, cs.IT, math.IT, math.ST, stat.ML, stat.TH]目的:クラス衝突の頻度に基づく,新しい不確実性定量化指標の開発
    • 機械学習モデルの信頼性評価は重要であり,特に安全性が求められる分野では不可欠である。
    • 既存の不確実性定量化手法では,クラス間の識別が困難な状況を十分に捉えられていない。
    • クラス間の衝突頻度を定量化し,モデルの不確実性をよりきめ細かく評価することを目指す。
    • クラス衝突行列は,各クラスペア間の識別困難度を測る新しい指標として定義された。
    • 提案手法は,ワンホットラベルデータを用いて衝突行列を推定するための革新的な技術を提供する。
    • 実験結果から,提案手法が衝突行列およびクラス事後確率分布を正確に推定できることが示された。

    Link: https://arxiv.org/abs/2411.12127

  • ACT-JEPA:効率的な方策表現学習のための新規Joint-Embedding予測アーキテクチャ [cs.CL, cs.LG, cs.AI]目的:効率的な方策表現の学習
    • 模倣学習において,効率的な方策表現の学習は重要である。専門家のデモンストレーションは高価であり,環境理解が不十分になりがちである。
    • 現在の模倣学習手法は専門家のデモンストレーションに依存し,環境理解を明示的に学習しないため,世界モデルが未発達である。
    • 本研究は,模倣学習と自己教師あり学習を統合することで,効率的な方策表現学習と世界モデルの改善を目指す。
    • ACT-JEPAは,既存の最良のベースラインと比較して,全ての環境で優れた性能を発揮する。
    • 世界モデルの理解度を最大40%向上させ,タスクの成功率を最大10%向上させる。
    • 潜在的な観測シーケンスの予測は,行動シーケンスの予測に効果的に一般化されることが示された。

    Link: https://arxiv.org/abs/2501.14622

  • オラクルプログラミング:LLMを活用したソフトウェア構築のためのモジュール基盤 [cs.PL, cs.AI]目的:LLMを活用したソフトウェア構築のためのモジュール基盤の確立
    • 近年のLLMの発展は,自然言語による指示だけで高度なタスクを解決可能にした。
    • LLMは正確な制御が難しく,信頼性の高いソフトウェアを大規模に構築するためのモジュール性の欠如が課題である。
    • LLMと従来の計算を統合し,モジュール性と契約による信頼性を確保することで,この課題を解決する。
    • オラクルプログラミングは,コアロジックと探索ロジックを明確に分離することで,LLMの進化が既存システムに影響を与えないようにする。
    • 少数の事例を,プログラムの構成要素として捉え,進化させることで,LLMの学習効率を高める。
    • 戦略,ポリシー,デモンストレーションという3つの要素を組み合わせ,モジュール性と一貫性を保ちながら,複雑な問題解決を可能にする。

    Link: https://arxiv.org/abs/2502.05310

  • 時間点過程分析のためのバイトトークン拡張言語モデル [cs.CL, cs.LG]目的:ウェブイベント系列モデリングの性能向上
    • ウェブ上のユーザー行動分析において,イベント系列の正確なモデリングは不可欠である。
    • 従来の時系列点過程モデルは,イベントに付随するテキスト情報を十分に活用できていない。
    • 言語モデルと時系列点過程を統合し,テキストと時間情報を同時に解析する枠組みを構築する。
    • 提案手法Language-TPPは,様々な時系列点過程ベンチマークにおいて最先端の性能を達成した。
    • 時間情報を組み込むことで,イベント記述の生成品質が向上し,ROUGE-Lスコアが改善された。
    • Language-TPPは,ウェブユーザーの行動パターンを効果的に捉え,コンテンツ生成や行動理解に貢献する。

    Link: https://arxiv.org/abs/2502.07139

  • 算術学習の統合が,より小規模なモデルの数学的推論を改善する [cs.CL, cs.AI, cs.LG]目的:小規模モデルにおける数学的推論能力の向上
    • 数学的推論は,科学技術の発展や問題解決に不可欠であり,AI分野でも重要な研究課題である。
    • 小規模モデルでは,高品質なデータでの事前学習が難しく,数学的推論の性能向上が課題となっている。
    • 算術学習を組み込むことで,小規模モデルの計算能力を高め,数学的推論の精度を改善することを目指す。
    • 合成された算術データセットを活用し,中間ファインチューニングと指示チューニング混合による2つのアプローチを検証した。
    • どちらのアプローチも,モデルの算術能力を向上させ,数学的推論の性能改善に貢献することが示された。
    • 算術データセットの統合は,小規模モデルの数学的推論能力を効果的に高める有効な手段である。

    Link: https://arxiv.org/abs/2502.12855

  • SALSA-RL:強化学習における行動の潜在空間の安定性解析 [cs.LG]目的:強化学習における行動の潜在空間の安定性解析
    • 現実世界の制御システムでは,安全性と信頼性が重要であり,行動の事前評価が求められる。
    • 従来の強化学習手法では,行動の解釈可能性が低く,安全な相互作用の特定が困難である。
    • 行動の潜在空間における安定性解析を通じて,安全かつ信頼性の高い行動生成を目指す。
    • SALSA-RLは,行動を潜在空間における動的な変数としてモデル化することで,解釈可能性を実現する。
    • 事前学習済みのエンコーダ・デコーダと状態依存線形システムを用いて,行動規範の瞬間的な成長を予測する。
    • SALSA-RLは,既存の強化学習エージェントの行動安定性を非侵襲的に評価でき,性能を損なわない。

    Link: https://arxiv.org/abs/2502.15512

  • 繰り返し一次価格オークションにおける共同価値推定と入札 [cs.LG, cs.GT, cs.IT, math.IT, stat.ME, stat.ML]目的:繰り返し一次価格オークションにおける後悔最小化
    • オンライン広告など,入札結果のみから価値を推定する必要性が高まっている
    • 価値推定の精度が低く,最適な入札戦略を立てることが困難である
    • 観測可能な特徴量に基づき,価値推定と入札戦略を同時に最適化する
    • 本研究では,因果推論を取り入れ,最高他者入札額(HOB)のフィードバックタイプに応じたアルゴリズムを提案した
    • 提案アルゴリズムは,完全情報フィードバックと二値フィードバックの両方において,ほぼ最適な後悔限界を達成する
    • 本フレームワークは,治療効果が単純な依存性を持つ場合に,オーバーラップ条件を必要としないという特徴を持つ

    Link: https://arxiv.org/abs/2502.17292

  • 逆最適化によるオフライン強化学習 [cs.LG, cs.SY, eess.SY, math.OC]目的:オフライン強化学習における新しいアルゴリズム
    • 強化学習は,ロボティクスやゲームなど多様な分野で応用が期待されている。
    • オフライン強化学習では,データ分布のずれが性能低下の大きな原因となる。
    • 逆最適化を活用することで,分布ずれの影響を軽減し,効率的な学習を目指す。
    • 提案手法は,逆最適化の損失関数である「サブ最適性損失」を用いることで,連続状態・行動空間におけるオフライン強化学習を実現する。
    • 頑健なモデル予測制御(MPC)を用いることで,モデルの不整合による影響を抑制し,より安定した学習を実現する。
    • MuJoCoベンチマークにおいて,教師の行動を確実に再現し,既存手法と競合する性能を示す。

    Link: https://arxiv.org/abs/2502.20030

  • 連続トークンを用いた周波数自己回帰画像生成 [eess.SY, cs.SY, cs.CV, cs.AI]目的:画像生成のための周波数漸進的自己回帰パラダイム
    • 画像生成分野では,言語モデルの成功に触発された自己回帰モデルが主流である。
    • 画像とテキストのモダリティギャップが大きく,既存モデルの性能向上が課題である。
    • 周波数に基づく漸進的な回帰により,効率的な画像生成を目指す。
    • 本研究では,周波数スペクトル依存性を自己回帰モデルの回帰方向として採用した。
    • 高周波成分が低周波成分上に構築され,段階的に完全な画像を生成する。
    • ImageNetデータセットでの実験により,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2503.05305

  • 適応型UAV支援階層型連合学習:動的スマートIoTにおけるエネルギー,遅延,および耐障害性の最適化 [cs.LG]目的:動的スマートIoT環境におけるエネルギー,遅延,耐障害性の最適化
    • IoTデバイスの普及により,分散環境での効率的な学習が重要になっている。
    • セルラー接続が限られた環境下では,従来の連合学習の集約が困難である。
    • UAVを活用し,通信中断や再配置に対応可能な,堅牢な階層型連合学習を実現する。
    • 提案手法は,学習設定,帯域幅割り当て,デバイスとUAVの関連付けを同時に最適化することで,全体的な学習コストを削減する。
    • データ異質性,デバイス近接性,計算資源に基づいてデバイスの適合度を評価し,TD3アルゴリズムを用いて適応的なデバイス-UAV割り当てを行う。
    • UAVの再配置とグローバル集約器の選択のための低複雑度な二段階貪欲戦略を開発し,UAVの切断にもかかわらず効率的な集約を保証する。

    Link: https://arxiv.org/abs/2503.06145

  • 汚れたデータに対する最小限の修復による学習 [cs.LG, cs.AI]目的:不完全なデータからの効率的な機械学習
    • 現実世界のデータには欠損値が多く,正確なモデル学習にはデータの品質が不可欠である。
    • 欠損値の修復には時間と労力がかかるため,学習のボトルネックとなることが多い。
    • 修復対象を最小限に抑えることで,学習に必要な時間とリソースを削減することを目指す。
    • 欠損値の全てを補完する必要はなく,一部のデータのみを修復することで十分な精度を達成できる。
    • 最小限およびほぼ最小限の修復という概念を導入し,効率的な欠損値補完を可能にする。
    • 提案手法は,不完全なデータセットでの学習時間を大幅に削減できることを実験で示した。

    Link: https://arxiv.org/abs/2503.13921

  • SocialJax:逐次的な社会的ジレンマにおけるマルチエージェント強化学習のための評価スイート [cs.LG, cs.AI]目的:マルチエージェント強化学習環境の評価
    • 個々の利益と集団的利益の対立は,社会における意思決定の根幹をなす重要な課題である。
    • 既存の環境では,計算資源の制約から大規模な実験が困難であり,効率的な評価が課題となっていた。
    • JAXを用いた環境を構築し,計算効率を向上させることで,実用的な評価を可能にすること。
    • SocialJaxは,従来の環境と比較して,少なくとも50倍の高速化を実現した。
    • SocialJax環境内での基盤アルゴリズムの有効性が検証された。
    • シェルディング図を用いて,環境が社会的ジレンマの特性を正確に捉えていることが確認された。

    Link: https://arxiv.org/abs/2503.14576

  • Arch-VQ:自己回帰事前分布による離散アーキテクチャ表現学習 [cs.CE, q-bio.BM, cs.LG]目的:ニューラルアーキテクチャの離散表現
    • ニューラルネットワーク探索における効率化が求められているため。
    • 既存手法では連続空間へのマッピングが不自然で,無効なアーキテクチャが生成されやすい。
    • 離散表現学習と事前分布モデリングの分離により,有効なアーキテクチャ生成率の向上を目指す。
    • Arch-VQは,VQ-VAEを用いてニューラルアーキテクチャの離散潜在空間を学習する。
    • 潜在空間の事前分布を自己回帰Transformerでモデル化することで,探索空間との整合性を高めている。
    • NASBench-101等で,有効かつ一意なアーキテクチャ生成率が最先端手法を22-135%上回った。

    Link: https://arxiv.org/abs/2503.22063

  • 深層ニューラルネットワークに基づく画像分類器におけるデータ重複の影響:堅牢モデルと標準モデル [cs.LG, cs.AI, eess.IV]目的:画像分類におけるデータ重複の影響の包括的検討
    • 機械学習モデルの性能は,学習データの質に大きく左右される。
    • 画像分類器の学習データにおける重複データの及ぼす影響は未解明であった。
    • 画像分類におけるデータ重複がモデルの汎化性能に与える影響を明らかにすること。
    • 学習データ中の重複画像は,モデル学習の効率を低下させる可能性がある。
    • 画像分類器の精度低下を引き起こす可能性があり,特に敵対的学習モデルで顕著である。
    • 均一な重複であっても,重複量を増やすことで精度の著しい向上は見られない。

    Link: https://arxiv.org/abs/2504.00638

  • 多重空間グラフ畳み込みネットワークによる層間リンク重み予測 [cs.LG]目的:層間リンク重み予測
    • グラフ構造データへの応用が広がり,ノード分類やリンク予測など多様な学習タスクで高い性能を示す。
    • 二値リンク分類と比較して複雑なリンク重み予測は,多層ネットワークにおいて特に課題である。
    • 多重ネットワークにおける層間リンク重みを,空間的に埋め込むことで予測精度向上を目指す。
    • 提案手法MSGCNは,多重ネットワーク向けに空間グラフ畳み込みを一般化し,層間ノードの幾何学的構造を捉える。
    • 様々なネットワーク構造のデータを用いた実験により,MSGCNの堅牢性,正確性,汎用性が確認された。
    • ロンドン交通ネットワークへの適用により,MSGCNが乗客数を正確に予測できることが示された。

    Link: https://arxiv.org/abs/2504.17749

  • 大規模言語モデルにおける不確実性測定と軽減手法の比較:体系的レビュー [cs.CL, cs.AI]目的:大規模言語モデルにおける不確実性の測定と軽減手法の比較
    • 大規模言語モデルは多岐にわたる分野で変革をもたらしている。その信頼性を高めることは重要である。
    • 大規模言語モデルは誤情報を自信を持って出力する「幻覚」という問題を抱えている。
    • 大規模言語モデルにおける不確実性の評価と定量化手法の有効性を分析し,比較基盤を提供する。
    • 従来のモデルにおける不確実性定量化(UQ)とキャリブレーション技術は,大規模言語モデルにも応用されている。
    • 本研究では,UQとキャリブレーションに関する先行研究を体系的に調査し,厳密なベンチマークを導入した。
    • 信頼性データセットを用いた実験により,6つの関連手法を評価し,レビューの重要な知見を裏付けた。

    Link: https://arxiv.org/abs/2504.18346

  • 説明は線形になる:解釈可能なメタエンコーディングによる表形式データの事後説明可能性 [cs.LG]目的:ブラックボックス機械学習モデルの説明可能性の向上
    • 機械学習モデルの利用拡大に伴い,モデルの予測根拠の理解が重要となっている。
    • 既存の説明手法には,計算コストや局所的な挙動の把握が困難といった課題が存在する。
    • より正確かつ効率的な説明を可能とする,新たな説明フレームワークの構築を目指す。
    • 提案手法ILLUMEは,表現学習とメタエンコーディングを組み合わせることで,局所的・全体的な説明を両立する。
    • ILLUMEは,従来の代替手法の計算コストやロバスト性の問題を軽減し,高精度な特徴量重要度と決定ルールを提供する。
    • 実験結果から,ILLUMEが様々なブラックボックス分類器に対して有効であることが示された。

    Link: https://arxiv.org/abs/2504.20667

  • 分散知能とモデル最適化におけるエッジクラウド協調コンピューティング:サーベイ [cs.DC, cs.AI, cs.LG]目的:分散環境における知能とモデル最適化の現状と課題
    • AI技術の発展に伴い,低遅延で効率的な処理が求められるようになり,エッジクラウドコンピューティングが重要になっている。
    • AIモデルの展開とリソース管理は複雑であり,性能,エネルギー効率,遅延のバランスが課題となっている。
    • エッジクラウド環境におけるAI活用を最適化し,次世代のインテリジェントシステム開発を促進すること。
    • 本サーベイでは,エッジクラウド環境における基本的なアーキテクチャ,技術,応用事例を体系的に解説している。
    • モデル圧縮,適応,ニューラルアーキテクチャ探索といったモデル最適化手法や,AI駆動のリソース管理戦略を分析している。
    • LLMの展開,6G統合,ニューロモーフィックコンピューティング,量子コンピューティングなど,今後の研究方向性を示唆している。

    Link: https://arxiv.org/abs/2505.01821

  • 大規模データセットのためのクラスタリング効率化アルゴリズム Clust-Splitter [cs.LG]目的:大規模データセットにおけるクラスタリング手法
    • データマイニングや機械学習において,大規模データの分析は重要であり,クラスタリングはその基礎となる技術である。
    • 既存手法では,大規模データセットに対する計算コストが課題であり,効率的なクラスタリングアルゴリズムが求められている。
    • 本研究は,非線形最適化に基づく効率的なクラスタリングアルゴリズムを開発し,大規模データセットへの適用可能性を検証する。
    • 提案手法 Clust-Splitter は,最小二乗和クラスタリング問題を効率的に解決する。
    • 限定メモリバンドル法とインクリメンタルアプローチを組み合わせることで,大規模データセットへの適用を可能にした。
    • 実データ実験の結果,Clust-Splitter は既存の最先端手法と同等以上の性能を発揮し,効率性も実証された。

    Link: https://arxiv.org/abs/2505.04389

  • ノイズの中のシグナル:多義性干渉の伝播とクロスモデル影響の予測 [cs.MA, cs.AI, cs.CL, cs.CR]目的:多義性干渉の伝播と,それを用いたクロスモデル影響の予測
    • 言語モデルの解釈可能性向上は,AIの信頼性向上に不可欠である。そのため,多義性の理解が重要となる。
    • 言語モデルにおける多義性は,モデルの振る舞いを制御する上での大きな課題となっている。
    • 異なるモデル間で共通する多義性干渉パターンを特定し,より大規模なモデルの制御に役立てる。
    • スパースオートエンコーダを用いて,モデル内の意味的に無関係な特徴ペア間の干渉を特定した。
    • 特定された干渉パターンは,小規模モデルから大規模モデルへ信頼性高く伝播し,予測可能な振る舞いの変化を引き起こす。
    • 多義性は確率的な現象ではなく,モデルの規模や系列を超えて一般化する構造的な特性であることが示唆された。

    Link: https://arxiv.org/abs/2505.11611

  • ニストローム超勾配を用いた二段階ポリシー最適化 [cs.LG, cs.AI, cs.GT]目的:アクター・クリティック法における二段階最適化の構造を考慮した新しいアルゴリズムの開発
    • 強化学習において,アクターとクリティックの相互依存性は重要な課題である。
    • アクター・クリティック法の学習は,計算不安定性や収束性の問題に直面しやすい。
    • ニストローム法を用いて超勾配を効率的に計算し,学習の安定性と収束性を向上させる。
    • 提案手法BLPOは,強化学習における二段階最適化の構造をネスト化によって適切に扱う。
    • BLPOは,ニストローム法を用いて超勾配を計算することで,計算コストと安定性の問題を軽減する。
    • 理論的にも,BLPOが多項式時間で強スタケルベルグ均衡点に収束することが証明されている。

    Link: https://arxiv.org/abs/2505.11714

  • スコア蒸留による加速を超えた生成モデリング:破損データからの生成 [cs.LG]目的:破損データからの高精度なワンステップ生成モデルの学習
    • 自然科学分野において,破損した観測データからの生成モデル学習は長年の課題である。
    • 破損データからの生成モデル学習は,高品質なサンプルを得ることが困難である。
    • 破損データのみを用いて,クリーンな分布に近いサンプルを生成する手法を確立する。
    • 提案手法Restoration Score Distillation (RSD)は,様々な破損シナリオにおいて,FIDスコアを大幅に改善した。
    • RSDは,ノイズ除去,画像復元,超解像度,MRIなどのタスクにおいて,教師モデルを上回る性能を示した。
    • RSDは,多段階拡散モデルと比較して最大30倍の高速化を実現し,実用的な生成モデリングツールとなる。

    Link: https://arxiv.org/abs/2505.13377

  • RAGXplain:RAGパイプラインの説明可能な評価から実行可能なガイダンスへ [cs.IR, cs.AI]目的:RAGパイプラインの性能向上
    • 大規模言語モデルの活用において,外部知識の統合は重要であり,その有効性を高める必要性がある。
    • 従来の評価方法では,RAGパイプラインの性能低下は示されても,原因や改善点が明確にならないという課題がある。
    • RAGパイプラインの評価結果に基づき,具体的な改善策を提示することで,性能向上を目指す。
    • RAGXplainは,ユーザー入力,検索されたコンテキスト,生成された回答,正解データを用いて,6つの診断軸で評価を行う。
    • LLMの推論を用いて,自然言語で故障モードの説明と優先順位付けされた介入策を生成する。
    • 5つのQAベンチマークにおいて,RAGXplainの推奨を適用することで,RAGパイプラインの性能が複数の指標で向上した。

    Link: https://arxiv.org/abs/2505.13538

  • ソフトウェア品質の向上:LLMベースの保証技術に関する標準に焦点を当てたレビュー [cs.SE, cs.AI, cs.CL]目的:LLMベースのSQA手法と既存のソフトウェア品質標準との交差点を調査すること
    • 信頼性・安全性・効率性を担保するソフトウェア開発において,品質保証は不可欠である
    • 既存の品質保証プロセスは,自動化が遅れており,人的リソースへの依存度が高い
    • LLMを活用し,既存の品質保証プロセスを効率化し,標準への準拠を維持すること
    • 本研究では,LLMベースのSQA手法が,要件検証,欠陥検出,テスト生成など,様々な品質保証タスクを支援できることを示した。
    • LLMの適用は,ISO/IEC 12207等の既存のソフトウェア品質基準における特定の要件と指標に対処可能であることが示された。
    • データプライバシー,モデルの偏り,説明可能性といった課題への配慮と,適応学習やプライバシー保護技術の今後の展望が議論された。

    Link: https://arxiv.org/abs/2505.13766

  • RRAMクロスバーを用いた二値・三値ニューラルネットワーク推論の最適化:CIM-Explorer活用 [cs.ET, cs.LG]目的:二値・三値ニューラルネットワーク推論の最適化
    • ノイマンボトルのネックを克服する次世代のコンピューティングアーキテクチャとして,メモリ内計算が注目されている。
    • RRAMクロスバーのセルばらつき等の非理想性により,二値動作が主流となっている。
    • CIM-Explorerにより,クロスバーパラメータとマッピングを考慮した精度評価フローを確立する。
    • CIM-Explorerは,コンパイラ,シミュレータ,DSE機能を統合したモジュール型ツールキットである。
    • クロスバーパラメータやマッピングの選択を通して,二値・三値ニューラルネットワークの精度を向上させる。
    • DSEケーススタディにより,様々なマッピングとパラメータにおける期待精度を実証した。

    Link: https://arxiv.org/abs/2505.14303

  • 時系列トラッカー:専門家混合による基盤時系列予測モデルと分離型学習パイプライン [cs.LG]目的:多様な時系列パターンと変数間相関に対応した時系列予測の精度向上
    • 時系列データは,経済,気象,医療など幅広い分野で利用され,その予測は重要な意思決定に不可欠である。
    • 単一のモデルアーキテクチャでは,時系列データの多様なパターンに対応することが難しく,予測精度が低下する可能性がある。
    • 時系列データのパターン多様性と変数間相関を効果的に捉え,予測精度,汎化性能,適応性を向上させる。
    • 本研究では,Transformer内に疎な専門家混合(MoE)を導入し,多様な時系列パターンへの対応と学習困難性の緩和を実現した。
    • Any-variate Attentionを提案することで,単変量・多変量時系列を統一的に処理し,事前学習とファインチューニングの柔軟性を高めた。
    • 周波数領域特徴に基づくグラフ学習モジュールにより,変数間相関のより正確な捉え方を可能にし,予測性能を向上させた。

    Link: https://arxiv.org/abs/2505.15151

  • テキストと画像の深層表現における意味情報の定量的分析 [cs.CL, cs.LG, physics.comp-ph]目的:テキストと画像の深層表現に含まれる意味情報の定量的な分析
    • 深層学習モデルは多様なタスクで高い性能を示すが,その内部表現の理解は不十分である。
    • モデル間の表現の整合性に関する研究は進んでいるものの,意味情報の分布や予測可能性の定量的な評価が課題である。
    • 深層表現の意味情報がどのように分布し,モデル間で予測可能であるかを明らかにすること。
    • 異なるモデル間の表現は,類似または関連する入力を処理する場合,整列する傾向があることが確認された。
    • 意味情報は多くのトークンに分散しており,ネットワークの中間層で最も予測可能性が高いことが示された。
    • 大規模モデル(DeepSeek-V3)は,小規模モデル(Llama3-8b)よりも予測性能が高いことが明らかになった。

    Link: https://arxiv.org/abs/2505.17101

  • BiomedSQL:生物医学知識ベースにおける科学的推論のためのテキスト to SQL [cs.CL, cs.AI, cs.LG]目的:生物医学知識ベースに対するテキスト to SQLの科学的推論能力の評価
    • 生物医学研究において,大規模データベースの利用が不可欠であり,複雑な分析を支援する。
    • 既存のテキスト to SQLシステムは,特に暗黙的なドメイン知識が必要な場合に,SQLへの変換が困難である。
    • 生物医学分野特有の推論を必要とするテキスト to SQLの性能向上を目指す。
    • BiomedSQLは,生物医学知識ベース上のテキスト to SQL生成において,科学的推論能力を評価するための初のベンチマークである。
    • Gemini-3-Proは実行精度58.1%を達成,カスタムエージェントBMSQLは62.6%であったが,専門家の精度90.0%には及ばなかった。
    • 本研究は,構造化された生物医学知識ベースに対する堅牢な推論能力を備えたテキスト to SQLシステムの発展のための基盤を提供する。

    Link: https://arxiv.org/abs/2505.20321

  • 正則化リーダー追随における動的後悔:履歴プルーニングによる楽観主義 [cs.RO, cs.LG]目的:オンライン凸最適化における動的後悔の保証
    • 機械学習のアルゴリズム性能向上のため,オンライン学習の理論的理解が重要である。
    • 正則化リーダー追随法は動的な環境下では「遅延」した更新になりやすく,性能が制限される。
    • 過去のコストの線形化とプルーニングにより,動的後悔の限界を克服し,アルゴリズムの適応性を高める。
    • 正則化リーダー追随法は,将来のコストの楽観的な構成と過去のコストの注意深い線形化により,既知の動的後悔の限界を回復できる。
    • アルゴリズムの状態(線形化された履歴)とイテレートの乖離が,動的後悔を悪化させる要因であることが示された。
    • 履歴のプルーニングによって状態とイテレートを同期させることで,この問題を解決し,AdaFTRLのような最小再帰的正則化が可能になる。

    Link: https://arxiv.org/abs/2505.22899

  • LLMモデレーションにおける過敏性に関する関連バイアスの調査 [cs.CL, cs.AI]目的:LLMモデレーションの過敏性における関連バイアス
    • LLMはコンテンツモデレーションに広く利用されているが,過敏性による誤判定が課題となっている。
    • 過敏性は,安全なコンテンツや指示を誤って拒否する原因となり,ユーザー体験を損なう。
    • LLMが示す体系的なトピックと毒性の関連パターンを明らかにし,過敏性軽減策を提案する。
    • LLMは,明示的な攻撃的なトリガーだけでなく,文脈から切り離された文においても,トピックと毒性の関連パターンを示すことが示された。
    • GPT-4 Turboなどの高性能モデルは,偽陽性率が低いにもかかわらず,偽陽性ケースにおいてより強いトピック関連の偏りを示すことが判明した。
    • 制御されたプレフィックス介入により,トピックのヒントが偽陽性率を変化させることが示され,トピックの枠組みが意思決定に影響を与えることが示唆された。

    Link: https://arxiv.org/abs/2505.23914

  • フローマッチングと拡散モデル入門 [cs.HC, cs.LG]目的:拡散モデルとフローベース生成モデルの理論と実践に関する理解
    • 画像,動画など多様なデータ生成において,生成AIの最先端技術として重要性が高まっている。
    • 理論的理解が難しく,実践的な実装方法が体系的にまとめられていないという課題がある。
    • 拡散モデルとフローベース生成モデルの数学的背景とアルゴリズムを体系的に解説する。
    • 常微分方程式と確率微分方程式の基礎から,フローマッチングと拡散モデルのコアアルゴリズムを導出した。
    • 画像や動画の生成器構築のためのステップバイステップガイドを提供し,学習方法,ガイダンス,アーキテクチャ設計について解説した。
    • 生成AIの理論と実践を原則的に理解したい機械学習研究者にとって理想的な教材となる。

    Link: https://arxiv.org/abs/2506.02070

  • MOBODY:モデルに基づくオフダイナミクスオフライン強化学習 [cs.LG, cs.AI, cs.RO]目的:オフラインデータセットから方策を学習すること
    • 強化学習は,自律的な意思決定を行う上で不可欠な技術である。多様な環境への適応が求められる。
    • 既存手法では,ダイナミクスが大きく異なる環境下での学習が困難である。データ分布の不一致が課題。
    • ダイナミクスシフトの影響を克服し,高報酬な領域への探索を可能にすること。
    • MOBODYは,ターゲット環境のダイナミクスを学習し,その遷移を用いて方策を最適化する。
    • 異なるドメインにおける行動をエンコードするために,個別の行動エンコーダを使用することで,効率的な学習を実現。
    • ターゲットドメインのQ値に基づいた行動クローニング損失を導入し,分布外の行動を回避することで,安定した学習を実現。

    Link: https://arxiv.org/abs/2506.08460

  • コード・ルーレット:プロンプトの変動がLLMによるコード生成に与える影響 [cs.SE, cs.LG]目的:LLMによるコード生成におけるプロンプト変動の感度評価
    • LLMはコーディングの敷居を下げ開発を加速するが,生成されるコード品質はプロンプトに依存する。
    • ユーザーの知識や経験によって生成されるコードの機能や品質が左右されるという課題がある。
    • プロンプトの変動に対するLLMの感度を定量的に評価する手法を確立し,汎用的な評価パイプラインを提供する。
    • 提案手法は特定のプログラミングタスクやLLMに依存せず,幅広い適用が可能であることが示された。
    • 実験結果から,プロンプトのわずかな変動がコード生成に大きな影響を与えることが明らかになった。
    • 本研究で開発したコードは,コミュニティに公開し,さらなる研究の促進に貢献する。

    Link: https://arxiv.org/abs/2506.10204

  • SatSOM:継続学習のための飽和自己組織化マップ [cs.LG, cs.AI]目的:継続学習における知識保持の改善
    • 神経システムは逐次的なタスクにさらされると,破滅的な忘却を起こしやすい。
    • 自己組織化マップも例外ではなく,継続学習において知識を保持することが課題である。
    • 飽和メカニズムを導入し,学習済みニューロンの固定化と未利用領域への学習誘導を目指す。
    • SatSOMは,ニューロンの学習率と近傍半径を徐々に減少させる飽和メカニズムを組み込む。
    • これにより,学習済みのニューロンを効果的に固定し,マップの未利用領域への学習を促す。
    • 実験結果は,SatSOMが継続学習において知識保持能力を向上させることを示唆している。

    Link: https://arxiv.org/abs/2506.10680

  • 感染症解析におけるプライバシー保護型感性データ統合による改善 [cs.LG, cs.AI]目的:感染症解析の精度向上
    • 感染症対策には,多様なデータに基づく迅速かつ正確な解析が不可欠である。
    • 感性データの利用はプライバシー侵害の懸念があり,解析の妨げとなっている。
    • プライバシーを保護しつつ,感性データを活用した感染症解析の精度向上を目指す。
    • DPEpiNNは,深層ニューラルネットワークとSEIRMモデルを統合したフレームワークである。
    • COVID-19データを用いた評価により,感性データ統合が予測性能を大幅に向上させることが示された。
    • DPEpiNNは,予測精度,リアルタイム予測,Rt推定,介入分析を同時に実現し,プライバシーも保護する。

    Link: https://arxiv.org/abs/2506.22342

  • ストリート形態から空間正義へ:トリプルSHAPに基づいた都市運動格差の説明 [cs.CY, cs.IT, cs.LG, math.IT]目的:都市における運動格差の診断
    • 都市ストリートは人々の健康を支える基盤である。その利用状況の公平性が重要視されている。
    • 運動を促進するストリート環境が都市内で不均等に分布しているという課題がある。
    • 空間正義の視点から,運動機会の格差を特定し,改善策を提示することを目指す。
    • 深セン市を事例として,都市の空間特性が運動強度に最も影響を与えることが示された。
    • 運動格差のメカニズムは地域によって大きく異なり,七つの類型に分類された。
    • 運動需要が高いにも関わらず,運動を支える環境が整っていないストリート区間が改善の優先課題として特定された。

    Link: https://arxiv.org/abs/2507.03570

  • LLMエージェントにおける記憶の評価:漸進的な複数ターン対話を通じて [cs.CL, cs.AI]目的:LLMエージェントの記憶メカニズムに関する四つの主要な能力の評価
    • LLMエージェントの発展は著しいが,推論や計画能力に焦点が当たりがちである。
    • エージェントの記憶機能(記憶,更新,検索)を評価するベンチマークが不足している。
    • 記憶機能の四つの主要能力を網羅的に評価できるベンチマークの構築。
    • 既存のベンチマークは文脈長が限られていたり,静的な長文コンテキストに特化しており,エージェントの漸進的な情報蓄積を反映していない。
    • MemoryAgentBenchは,既存のデータセットを複数ターン形式に変換し,記憶の四つの主要能力を包括的に評価する。
    • 多様な記憶エージェントの評価の結果,既存手法は全ての能力を習得できておらず,記憶メカニズムの更なる研究の必要性を示唆している。

    Link: https://arxiv.org/abs/2507.05257

  • 多角的な大規模言語モデルによる説明可能なうつ病認識:MLlm-DR [cs.AI]目的:うつ病の自動診断のための手法
    • メンタルヘルスケアの需要増加に伴い,客観的な診断支援システムの重要性が高まっている。
    • 既存の自動診断システムは,診断根拠が不明確で,臨床現場への導入が課題となっている。
    • 多角的な情報に基づいて,診断根拠を提示できる説明可能なシステムを開発する。
    • 提案手法MLlm-DRは,既存のベンチマークデータセットにおいて最先端の結果を達成した。
    • MLlm-DRは,音声と映像の両方の情報を統合し,うつ病の診断を支援する。
    • 小型LLMと軽量クエリモジュールを組み合わせることで,診断精度と説明可能性を両立した。

    Link: https://arxiv.org/abs/2507.05591

  • 関数呼び出しLLMのためのプロトコル非依存型ツール管理ライブラリToolRegistry [cs.SE, cs.AI, cs.CL, cs.LG]目的:関数呼び出しLLMにおけるツール管理と実行の効率化
    • LLMの機能拡張には外部ツールが不可欠であり,その活用はアプリケーションの可能性を大きく広げる。
    • 既存のツール統合方法は,断片化,プロトコル制限,実装の複雑さにより,開発コストが増大している。
    • ToolRegistryは,これらの課題を解決し,よりシンプルで効率的なツール統合を実現する。
    • ToolRegistryは,ツール統合コードを60~80%削減し,開発効率を向上させる。
    • 並行実行により,最大3.1倍の性能改善を実現する。
    • OpenAIの関数呼び出し標準との互換性を確保し,幅広い応用を可能にする。

    Link: https://arxiv.org/abs/2507.10593

  • 説明できないことを知ること:低品質な説明を拒否する学習 [cs.LG]目的:低品質な説明を拒否する学習
    • 機械学習モデルの信頼性は重要であり,不確実な予測を回避することが求められる。
    • 既存の拒否学習戦略は予測性能に偏っており,説明の質を無視している。
    • モデルが適切な説明を提供できない場合,予測を拒否することで信頼性を向上させる。
    • 提案手法REXは,機械的な判断と人間の注釈を組み合わせた説明品質ラベルから拒否器を学習する。
    • REXは既存の拒否学習戦略や,単独の説明指標に基づく手法よりも優れた性能を示す。
    • 1050件の人手で注釈を付けた機械学習の説明のデータセットを公開し,今後の研究を支援する。

    Link: https://arxiv.org/abs/2507.12900

  • 融合前に確認せよ:ロバストな3D検出のための2D誘導クロスモーダルアラインメント [cs.CV, cs.AI]目的:LiDARとカメラ入力のクロスモーダルアラインメントによる3D検出の精度向上
    • 自動運転車の3D知覚能力向上には,LiDARとカメラ情報の統合が不可欠である。
    • 既存手法は,LiDARとカメラの特徴間の空間的ずれに起因する誤った深度学習や融合誤差に悩まされている。
    • 2D検出器で信頼性の高い物体境界を検出し,クロスモーダル特徴を事前にアラインメントすることで,この問題を解決する。
    • 提案手法Prior Guided Depth Calibration (PGDC)により,クロスモーダル特徴のアラインメント精度が向上し,正しい特徴ペアが保持された。
    • Discontinuity Aware Geometric Fusion (DAGF)により,PGDCからの残差ノイズが抑制され,物体境界での鮮明な深度遷移が強化された。
    • nuScenes検証データセットにおいて,mAP 71.5%,NDS 73.6%を達成し,最先端の性能を示した。Argoverse 2でもmAP 41.7%を獲得した。

    Link: https://arxiv.org/abs/2507.16861

  • 忘却の逆予測による知識過多重みの予測 [cs.LG, cs.AI, cs.CV]目的:知識過多重みの予測
    • 事前学習済み重みは,深層学習の効率的な知識転移に不可欠である。
    • 既存の事前学習では,与えられたデータセット以上の知識を組み込むことが難しい。
    • 構造化された忘却とその逆転を利用し,より知識豊富な重みを予測する。
    • 段階的にデータセットを縮小しながらファインチューニングすることで,構造的な忘却過程を誘導する。
    • 忘却過程をモデル化し,逆転させることで,より大規模なデータセットで学習したかのような重みを回復する。
    • 提案手法KNOWNは,重みの一般的な進化を学習し,汎化性能の高い重みを予測する。

    Link: https://arxiv.org/abs/2508.05059

  • 高速重みプログラミングと線形トランスフォーマー:機械学習から神経生物学へ [cs.LG, cs.AI, q-bio.NC]目的:高速重みプログラマー(FWP)と線形トランスフォーマーの関係性
    • 機械学習の進展は,AI技術の発展に不可欠であり,その基盤技術の理解が重要である。
    • 従来のRNNは,長期的な依存関係の学習が困難であり,効率的な短期記憶機構が求められている。
    • FWPは,動的に変化するシナプス重みを活用し,効率的な短期記憶を実現する可能性を秘めている。
    • FWPは,2次元行列状の隠れ状態を用いることで,従来のRNNの課題を克服しうる。
    • FWPは,トランスフォーマーや状態空間モデルといった他のモデルとの関連性も示唆されている。
    • FWPのメカニズムは,脳におけるシナプス可塑性のモデルとも共通点があり,自然知能と人工知能の融合を示唆する。

    Link: https://arxiv.org/abs/2508.08435

  • 役割付与による意図駆動型生成検索エンジン最適化 [cs.IR, cs.AI]目的:生成検索エンジン最適化のための構造化されたアプローチ
    • 情報検索のあり方が変化しており,従来のSEO対策が通用しなくなっている。
    • 生成検索エンジンは内部構造が不透明であり,コンテンツの可視性が低下している。
    • 生成検索エンジンに最適化されたコンテンツを作成するための方法論を確立する。
    • 検索意図を多様な情報役割に反映させることで,コンテンツの最適化を効果的に誘導できることが示された。
    • 既存の評価指標の限界を克服し,より詳細な人間との整合性を考慮した評価手法(G-Eval 2.0)を提案した。
    • 拡張されたGEOデータセットを用いた実験により,提案手法がコンテンツの可視性を大幅に向上させることが確認された。

    Link: https://arxiv.org/abs/2508.11158

  • AgriChrono:フィールドロボットによる作物成長と照明変動を捉えたマルチモーダルデータセット [cs.RO, cs.AI, cs.SY, eess.SY]目的:作物成長と照明変動を捉えたマルチモーダルデータセット
    • 農業分野におけるAI,ロボティクスの進展は目覚ましい。自律走行や3Dデジタルツイン構築の鍵となる。
    • 実環境の農地データを捉えたデータセットが不足しており,頑健なAIモデル開発の足かせとなっている。
    • 多様な環境下での作物成長過程を捉えたデータセットを公開し,AIモデルの汎化性能向上を目指す。
    • AgriChronoは,RGB,深度,LiDARなどの多様なセンサーデータを時間同期で収集するプラットフォームである。
    • 1ヶ月間に18TBのデータを収集し,菜の花の成長サイクルを詳細に記録した。
    • AgriChronoを用いたベンチマークテストにより,農地環境下での動的な3D再構成の困難性が示された。

    Link: https://arxiv.org/abs/2508.18694

  • マルチエージェント動的ゲームにおけるデモンストレーションからの制約学習 [cs.LG, cs.SY, eess.SY]目的:複数のエージェント間の局所ナッシュ均衡の相互作用データセットから,パラメータ化された制約を学習すること
    • ロボットの協調行動や自律的な相互作用を実現する上で,エージェント間の制約を理解することが重要である
    • 複雑な相互作用においては,制約を明示的にモデル化することが困難であり,安全な行動計画の設計を妨げている
    • 相互作用のデモンストレーションから制約を効率的に学習し,安全な行動計画を生成すること
    • 提案手法は,局所ナッシュ均衡の停留性との整合性を持つ制約を導出し,真の安全・危険領域の内部近似を保証する。
    • 学習された制約を用いて,基礎となる制約を堅牢に満たす運動計画を設計することが可能である。
    • シミュレーションと実機実験により,提案手法が様々なクラスの制約(凸および非凸)から制約を正確に推論し,安全な協調運動計画を設計できることが示された。

    Link: https://arxiv.org/abs/2508.19945

  • ドメインおよびクラスが分離されたプロトタイプを用いたドメイン汎化型脳波情動認識 [cs.DB, cs.MA, cs.LG, cs.AI]目的:ドメイン汎化型脳波情動認識のための手法
    • 脳波を用いた情動認識は,感情を介した脳コンピュータインタフェースの重要な要素である。
    • 個人差,ターゲットドメインへの依存,およびラベルノイズが,実用化の妨げとなっている。
    • 未知のターゲットドメインにおける情動認識性能の向上を目指している。
    • MATは,ドメインとクラスの不変特徴を分離する特徴デカップリングモジュールを導入し,よりロバストな表現を獲得する。
    • 階層的ドメイン集約メカニズムは,被験者間の分布構造をモデル化し,適応的なプロトタイプ更新により安定した表現を捉える。
    • 実験の結果,MATは未知のターゲットドメインにおいて最先端モデルよりも2.87%,3.84%,2.05%高い精度を示した。

    Link: https://arxiv.org/abs/2509.01135