arXiv雑要約

AI - 2025/10/13 公開

  • MedChain:LLMエージェントと臨床現場の架け橋 - インタラクティブなシーケンスによるアプローチ [cs.CL, cs.AI]目的:臨床意思決定におけるLLMエージェントの能力向上
    • 医療現場における的確な意思決定は重要であり,AIによる支援が期待されている。
    • 既存のAIシステムは,実際の臨床現場を反映したデータセットの不足により,臨床意思決定の精度が課題となっている。
    • 実際の臨床ワークフローを模倣したデータセットと,適応能力のあるAIシステムを開発し,その問題を解決する。
    • MedChainは,臨床ワークフローの主要な5段階を網羅する12,163症例から構成されるデータセットである。
    • MedChain-Agentは,フィードバックメカニズムとMCase-RAGモジュールを統合し,過去の症例から学習し,応答を適応させる。
    • MedChain-Agentは,既存の手法と比較して,動的な情報収集とシーケンシャルな臨床タスクの処理において優れた適応性を示した。

    Link: https://arxiv.org/abs/2412.01605

  • NLP-ADBench:自然言語処理における異常検知ベンチマーク [cs.CL, cs.LG]目的:自然言語処理における異常検知のためのベンチマークデータセットおよび評価手法
    • 詐欺検出やコンテンツモデレーションなど,機械学習の重要な課題であり,幅広い応用分野を持つ。
    • 自然言語処理分野における異常検知の研究は不十分であり,有害コンテンツの検出などに課題がある。
    • 自然言語処理における異常検知の性能向上を目指し,評価と研究を促進するための基盤を提供する。
    • NLP-ADBenchは,8つのデータセットと19種類の最先端アルゴリズムを含む,包括的なベンチマークである。
    • 単一のモデルが全てのデータセットで優位性を示すことはなく,自動モデル選択の必要性を示唆している。
    • Transformerベースの埋め込みを用いた二段階手法が,専門的なエンドツーエンド手法を上回る性能を示し,OpenAI埋め込みがBERTを上回った。

    Link: https://arxiv.org/abs/2412.04784

  • 確率的丸めを用いた言語モデルの直接量子化訓練 [cs.LG, cs.CL]目的:言語モデルの直接量子化訓練
    • 大規模言語モデルの利用拡大には,メモリ使用量の削減が不可欠である。
    • 量子化モデルの訓練には,高精度な重みを保持する必要があり,メモリ消費が大きい。
    • 低ビット重みによる情報損失を最小限に抑え,訓練時のメモリ使用量を削減することを目指す。
    • 低精度な重みのみで訓練が可能であり,3値に制約しても実現可能であることが示された。
    • 8ビット化により,BitNet b1.58と同等の性能を達成できることが確認された。
    • 本モデルは精度スケーリングやメモリ削減に対して頑健であり,性能劣化は軽微である。

    Link: https://arxiv.org/abs/2412.04787

  • シーングラフ駆動データ合成による視覚生成トレーニング:任意のシーンの生成 [cs.CV, cs.AI, cs.LG]目的:視覚生成モデルの学習のためのデータ合成手法
    • テキストから画像への生成技術は進歩するが,複雑なシーンの構成的理解と意味的整合性が課題である。
    • 既存のデータセットはノイズが多く,複雑なシーンの理解を妨げるため,高品質な注釈データの取得が困難である。
    • シーングラフを利用し,多様な視覚シーンを系統的に生成することで,モデルの性能向上と評価を可能にする。
    • 本研究で開発したデータエンジン「Generate Any Scene」を用いた自己改善フレームワークにより,Stable Diffusion v1.5の性能が4%向上した。
    • 少量の合成キャプションを用いて,Stable Diffusion v1.5をファインチューニングし,構成的および難解な概念生成においてTIFAスコアが10%向上した。
    • 低コストでセマンティックな精度に合わせた報酬モデルを構築し,SimpleAR-0.5B-SFTをファインチューニングすることで,DPG-BenchにおいてCLIPベースの手法を5%上回った。

    Link: https://arxiv.org/abs/2412.08221

  • SwarmGPT:大規模言語モデルと安全な軌道計画の組み合わせによるドローン群演出 [cs.RO, cs.AI, cs.SY, eess.SY]目的:ドローン群演出の設計
    • ドローン群演出は,現代ロボティクスの魅力的な応用分野であり,その需要は増加している。
    • 滑らかで安全な演出設計は専門知識を要し,高度な課題である。
    • 自然言語による直感的な演出設計を可能にし,安全性を確保すること。
    • SwarmGPTは,大規模言語モデルと安全フィルタを組み合わせ,ドローン群演出の設計を効率化する。
    • シミュレーションと実機実験により,最大200機までのドローン群で,様々な楽曲に合わせて安全かつ同期のとれた演出が可能であることが示された。
    • 本研究は,安全性重視の群ロボティクスへの基盤モデル統合の青写真を提供する。

    Link: https://arxiv.org/abs/2412.08428

  • LLMを活用した生成検索による嗜好の識別 [cs.IR, cs.AI, cs.LG, stat.ML]目的:逐次レコメンデーションにおける嗜好の識別
    • 推薦システムは,ユーザー体験を向上させる上で不可欠であり,ビジネスの成功に大きく影響する。
    • 既存手法では,ユーザーの嗜好を明示的に捉えきれておらず,変化への対応が課題となっている。
    • 自然言語によるユーザー嗜好を明示的に考慮し,動的な嗜好変化に適応するレコメンデーションを実現する。
    • 提案手法Menderは,従来の最先端手法と比較して,ベンチマークにおいて優れた性能を発揮した。
    • Menderは,学習時に観測されなかった嗜好に基づいて推薦を効果的に適応させることが示された。
    • 本研究は,より柔軟なレコメンデーションモデル開発への道を開く。

    Link: https://arxiv.org/abs/2412.08604

  • バランスのとれたデータセットにおけるバイアス増幅の方向性と解釈可能性の向上 [cs.CV, cs.LG]目的:バランスのとれたデータセットにおけるバイアス増幅の測定
    • 機械学習モデルはデータに存在するバイアスを学習し,増幅する可能性があるため,公平性の確保が重要である。
    • 従来のバイアス測定指標は,保護属性とタスクがバランスしている場合にバイアスを正確に測定できない。
    • バランスのとれたデータセットにおいても,バイアスの増幅方向を特定し,解釈可能性を高めることを目指す。
    • 本研究では,新しい予測可能性に基づく指標である方向性予測可能性増幅(DPA)を提案する。
    • DPAは,バランスのとれたデータセットでもバイアスの増幅方向を測定可能であり,解釈が容易である。
    • 実験結果から,DPAは方向性バイアス増幅を測定する有効な指標であることが示された。

    Link: https://arxiv.org/abs/2412.11060

  • 異常検知のための大規模言語モデルのベンチマーク [cs.CL, cs.AI]目的:自然言語処理における異常検知の可能性評価
    • 不正検知や医療診断など,現実世界での応用が期待される重要な機械学習分野である。
    • 大規模言語モデルの異常検知における潜在能力は十分に研究されていない。
    • 大規模言語モデルを異常検知に活用するためのベンチマークを確立し,課題を明確化する。
    • 大規模言語モデルは,タスク固有の学習なしに,ゼロショット異常検知において良好な性能を示す。
    • 適切なデータ拡張手法を用いることで,異常検知モデルの性能向上が期待できる。
    • 特定のデータセットに対するモデル選択の説明は依然として課題が残る。

    Link: https://arxiv.org/abs/2412.11142

  • ディーゼルエンジンのデジタルツイン:エンジン健全性監視のための転移学習を用いたオペレーター注入型物理情報ニューラルネットワーク [cs.RO, cs.SY, eess.SY, cs.LG, cs.SY, eess.SY]目的:ディーゼルエンジンの健全性監視のためのパラメータ特定手法
    • ディーゼルエンジンの効率向上,排出ガス削減,および堅牢な健全性監視は,エンジンモデリング研究において重要な課題である。
    • 従来のニューラルネットワークを用いた手法は,コンポーネントレベルの分析に偏り,汎用性や物理的な解釈可能性に課題がある。
    • 本研究は,物理ベースの知識とデータ駆動型学習を組み合わせることで,汎用性,精度,および展開効率を向上させることを目指す。
    • 物理情報ニューラルネットワーク(PINN)とディープオペレーターネットワーク(DeepONet)を組み合わせた新しいハイブリッドフレームワークを提案した。
    • オフラインで学習済みのDeepONetを組み込むことで,オンライン計算コストを大幅に削減することができた。
    • 多段階転移学習とFew-shot転移学習の2つの戦略により,再学習の負担を軽減し,計算効率の高いエンジン動特性予測とパラメータ特定を可能にした。

    Link: https://arxiv.org/abs/2412.11967

  • 分散学習のための自由な共分散:平均分布の活用 [cs.LG, cs.CV]目的:分散学習における訓練不要な手法
    • データヘテロジェニティへの対策と,学習速度の向上が重要課題である。
    • クライアント間のデータ分布の不均一性が,学習のボトルネックとなる。
    • データ共有量を減らしつつ,分散環境での高性能な学習を実現すること。
    • クラス平均のみを用いて共分散行列を推定し,グローバル分類器の初期化に活用する。
    • クラス内共分散のみを使用することで,分類器の初期化性能が向上する。
    • 既存手法と同等の性能を,大幅に少ない通信量で達成可能である。

    Link: https://arxiv.org/abs/2412.14326

  • 深層ニューラルネットワーク理解のためのネットワーク力学に基づくフレームワーク [cs.RO, cs.SY, eess.SY, cs.LG, nlin.CD, stat.ML]目的:深層学習の学習力学分析のための理論的フレームワーク
    • 人工知能の進展に伴い,深層学習の根底にあるメカニズムの理解が不可欠となっている。
    • ニューラルネットワークの線形性と非線形性の定義が曖昧であり,学習の振る舞いを統一的に説明できていない。
    • 学習フェーズの遷移や汎化性能の構造的安定性を,ネットワーク力学の視点から解明することを目指す。
    • ニューロンレベルでの変換ユニット(順序保存変換と非順序保存変換)を導入し,線形性と非線形性を再定義した。
    • 変換モードの違いが,重みベクトルの組織化,情報抽出モード,学習フェーズに影響を与えることが示された。
    • サンプル空間と重み空間におけるアトラクションベースインの概念を導入し,汎化性能と構造的安定性の評価指標を提示した。

    Link: https://arxiv.org/abs/2501.02436

  • ブラックボックス最適化と量子アニーリングを用いた誤ラベル訓練インスタンスのフィルタリング [eess.SY, cs.SY, cs.LG, cond-mat.stat-mech, quant-ph]目的:汚染された訓練データセットからの誤ラベルインスタンスの除去
    • 実世界のデータセットに誤ラベルが含まれることは珍しくなく,モデルの汎化性能低下の原因となる。
    • 従来のノイズ除去手法は,計算コストが高いか,効率が低い場合がある。
    • 量子アニーリングを活用し,効率的に高品質な訓練サブセットを探索すること。
    • 提案手法は,検証損失に基づいてフィルタリングされた訓練サブセットを評価し,反復的に損失推定を改善する。
    • D-Waveのクリックサンプラーは,OpenJijやNeal's simulated annealingよりも高速かつ高品質な訓練サブセットを生成する。
    • 本研究は,教師あり学習におけるデータセット品質向上の有効性を示唆し,今後の応用範囲の拡大が期待される。

    Link: https://arxiv.org/abs/2501.06916

  • GPUアクセラレーションのための木構造遺伝子プログラミングにおける集団レベル並列化の実現 [cs.CL, cs.IR, cs.CL, cs.NE, cs.AI]目的:GPUアクセラレーションによる木構造遺伝子プログラミングの高性能化
    • 木構造遺伝子プログラミングは,記号回帰,分類,ロボット制御など広範な問題に応用可能な進化アルゴリズムである。
    • TGPの計算コストが高いため,大規模な問題解決にはGPUアクセラレーションが不可欠だが,効率的なGPU実装は困難である。
    • 本研究は,木構造の不均一性,並列化の複雑さ,Python環境との互換性の問題を解決し,TGPのGPUアクセラレーションを可能とする。
    • 提案手法EvoGPは,可変サイズの木構造を固定形状の配列に変換し,均一なメモリアクセスと並列計算を実現した。
    • EvoGPは,データセットサイズに応じて並列化戦略を動的に調整し,高いGPU利用率を維持する。
    • EvoGPはPyTorchランタイムにCUDAカーネルを埋め込み,GymなどのPython環境とのシームレスな統合を実現し,最大$10^{11}$ GPops/sの処理能力を達成した。

    Link: https://arxiv.org/abs/2501.17168

  • OrcaLoca:ソフトウェア問題特定のためのLLMエージェントフレームワーク [cs.SE, cs.AI]目的:ソフトウェア問題の特定における精度向上
    • ソフトウェア開発の自動化が重要視される中,LLMエージェントの活用が注目されている。
    • LLMエージェントとコード検索メカニズムの連携が不十分で,問題特定精度が課題となっていた。
    • LLMエージェントとコード検索の連携を強化し,ソフトウェア問題の正確な特定を目指す。
    • OrcaLocaは,LLMの行動計画の優先度設定,アクション分解,コンテキストの剪定により,問題特定精度を向上させた。
    • SWE-bench Liteにおける関数マッチング率は65.33%を達成し,オープンソースのSOTAを更新した。
    • オープンソースフレームワークの修正成功率を6.33%ポイント改善した。

    Link: https://arxiv.org/abs/2502.00350

  • IG-MCTS:不完全情報下における人間とロボットの協調ナビゲーション [cs.RO, cs.AI]目的:人間とロボットの協調ナビゲーションにおける情報利得モンテカルロ木探索
    • ロボットの自律性と人間との協調は,複雑な環境でのタスク遂行に不可欠である。
    • 不完全な情報下では,人間とロボット間の効果的なコミュニケーションが課題となる。
    • 人間の認知負荷を軽減しつつ,効率的な協調ナビゲーションを実現すること。
    • 提案手法IG-MCTSは,ロボットの自律的な移動と情報的なコミュニケーションを同時に最適化する。
    • ユーザー実験により,IG-MCTSはコミュニケーション頻度を削減し,人間の認知負荷を軽減することが示された。
    • 水路ナビゲーション実験により,離散迷路環境だけでなく,連続空間への汎化可能性が確認された。

    Link: https://arxiv.org/abs/2502.01857

  • SWE-Arena:ソフトウェア工学におけるファウンデーションモデル評価のためのインタラクティブプラットフォーム [cs.SE, cs.LG]目的:ソフトウェア工学におけるファウンデーションモデルの評価
    • ソフトウェア開発の効率化や品質向上に,ファウンデーションモデルの活用が期待されている。
    • 既存の評価フレームワークでは,実際のソフトウェア開発ワークフローを十分に再現できない。
    • 反復的で文脈に富んだ開発プロセスにおけるモデルの性能を評価するプラットフォームを提供する。
    • SWE-Arenaは,透明性の高いオープンソースのリーダーボードを提供し,多段階の会話型ワークフローと,モデルの包括的な比較を可能にする。
    • モデルの出力の一貫性を測る「モデル一貫性スコア」や,結論に至るまでの対話ラウンド数を考慮する「会話効率指数」といった新しい指標を導入した。
    • リポジトリ関連の情報を対話に自動的に組み込む「RepoChat」機能により,より現実的な開発プロセスでの評価を実現する。

    Link: https://arxiv.org/abs/2502.01860

  • RadVLM:胸部X線画像の診断のためのマルチタスク対話型ビジョン言語モデル [cs.CV, cs.AI]目的:胸部X線画像解釈のためのマルチタスク対話型基盤モデル
    • 胸部X線検査は広く行われており,放射線科医不足が課題となっている。
    • 既存のビジョン言語モデルは特定のタスクに限定され,対話的な診断能力に乏しい。
    • 胸部X線画像の診断において,対話的なサポートを提供し,ワークフローを効率化すること。
    • RadVLMは,報告書作成,異常検出,視覚的根拠付けなどの様々なタスクで高い性能を示した。
    • 特に,対話能力と視覚的根拠付けにおいて,最先端の性能を達成した。
    • 複数タスクの同時学習が,限られたアノテーションデータ下で有効であることが示された。

    Link: https://arxiv.org/abs/2502.03333

  • 因果量の推定のための直交表現学習 [cs.LG]目的:因果量の推定における表現学習とNeyman直交学習法の統合
    • 高次元観測データからの因果推論は重要であり,効果的な手法が求められている。
    • 既存の表現学習法は実用上有効だが,漸近最適性において限界がある。
    • 表現学習の利点を活かしつつ,Neyman直交学習法の理論的最適性を向上させる。
    • 低次元多様体仮定の下で,OR学習法は標準的なNeyman直交学習法よりも推定誤差を厳密に改善できる。
    • バランシング制約は追加の誘導バイアスを必要とし,Neyman直交性の欠如を一般的に補償できないことが示された。
    • 表現学習とNeyman直交学習法を効果的に組み合わせるための指針が提示された。

    Link: https://arxiv.org/abs/2502.04274

  • デカップルド拡散逐次モンテカルロによる線形ガウス型ベイズ逆問題の解決 [cs.LG, cs.AI, stat.ML]目的:線形ガウス型ベイズ逆問題の解決法
    • ベイズ推定は不確実性の定量化に有効であり,様々な科学技術分野で重要視されている。
    • 逆問題はしばしば悪条件であり,直接的な解法では安定した解を得ることが難しい。
    • 拡散モデルの活用により,ベイズ逆問題における事後分布の近似精度向上を目指す。
    • 提案手法であるデカップルド拡散逐次モンテカルロ法(DDSMC)は,漸近的に厳密解を与えることが示された。
    • 合成データ,タンパク質データ,画像データを用いた実験により,DDSMC法の有効性が確認された。
    • 本手法は離散データに対しても拡張可能であることが示された。

    Link: https://arxiv.org/abs/2502.06379

  • 観測されない因果経路とバックドア経路を持つ因果加法モデル [eess.SY, cs.SY, cs.LG, stat.ME, stat.ML]目的:観測されない因果経路やバックドア経路が存在する場合における因果関係の識別条件
    • 隠れた変数が存在する状況下での因果関係の発見は,科学的発見や意思決定において重要である。
    • 既存の理論では,観測されないバックドアや因果経路が存在すると因果関係の識別が困難となる。
    • そのようなケースにおいても,因果関係を識別するための十分条件を導き出すことを目指す。
    • 弓型のペアにおいて,親から子への関係を識別するための条件を新たに確立した。
    • 回帰集合の新たな特徴付けと,残差の独立性,観測変数間の条件付き独立性を組み合わせたハイブリッドなアプローチを用いた。
    • これらの洞察を取り入れた健全かつ完全なアルゴリズムを提案し,最新の手法と競合可能な性能を示すことができた。

    Link: https://arxiv.org/abs/2502.07646

  • 拡散モデルの安全な利用のための学習不要型安全ノイズ除去器 [cs.AI]目的:拡散モデルにおける安全性の確保
    • 拡散モデルは強力だが,不適切なコンテンツ生成のリスクがあるため,安全性の確保が重要である。
    • 既存手法は,再学習や負のプロンプトに依存しており,効率性や汎用性に課題がある。
    • 再学習や微調整なしに,拡散モデルの安全性を高める手法を提案する。
    • 提案手法は,否定セットを用いてサンプリング軌跡を直接修正し,安全でない領域を回避する。
    • 安全なノイズ除去器は,期待されるノイズ除去サンプルが安全な領域に存在することを保証する。
    • テキスト条件付き,クラス条件付き,無条件の画像生成において,高品質なサンプルを生成しつつ,否定領域を回避することを示した。

    Link: https://arxiv.org/abs/2502.08011

  • xLSTMを用いたニューラル・グレンジャー因果性探索:複雑データの時間的依存性の解明 [cs.LG]目的:複雑データにおける時間的依存性の解明
    • 時系列データ分析において,変数間の因果関係を理解することは重要である。
    • 従来のグレンジャー因果性分析は,長距離の変数間の関係を捉えることが困難である。
    • 本研究は,長距離依存性を捉え,よりロバストな因果関係の推定を目指す。
    • GC-xLSTMは,初期投影に動的な損失ペナルティを課すことで,時系列成分間のスパース性を促進する。
    • 適応的にモデルを改善し,スパース性候補を特定する手法を開発した。
    • 6つの多様なデータセットでの実験により,GC-xLSTMの有効性が示された。

    Link: https://arxiv.org/abs/2502.09981

  • ノイズ除去表現を用いたデータ帰属による,危険な学習データの検出とフィルタリング [cs.LG]目的:危険な学習データの検出とフィルタリング
    • 大規模言語モデルの信頼性は学習データに大きく依存するため,安全性の確保は重要である。
    • 既存の検出手法は計算コストが高く,定義されたカテゴリに限定されるという課題がある。
    • データ表現のノイズを除去し,より正確なデータ帰属による検出を目指す。
    • 提案手法(DRA)は,学習データと危険な事例との類似性を評価するデータ帰属アプローチを改善する。
    • DRAは,既存のモデレーション分類器ベースの手法と比較して,jailbreakフィルタリングやジェンダーバイアスの検出において顕著な性能向上を示す。
    • 危険なテキストに含まれるノイズを低減することで,より正確な危険データの特定が可能となる。

    Link: https://arxiv.org/abs/2502.11411

  • ペロブスカイトLLM:ペロブスカイト太陽電池研究のための知識強化大規模言語モデル [cs.AI]目的:ペロブスカイト太陽電池研究のための知識管理および推論システム
    • ペロブスカイト太陽電池は急速に発展しており,研究論文が急増している。
    • 研究論文の爆発的な増加により,効率的な知識管理が課題となっている。
    • ペロブスカイト太陽電池の研究を支援する知識と推論能力を備えたシステムを開発する。
    • ペロブスカイトKGというドメイン特化型知識グラフを構築した。これは1,517本の研究論文から,23,789のエンティティと22,272の関係を抽出したものである。
    • ペロブスカイトChat(55,101組)とペロブスカイトReasoning(2,217件)という2つのデータセットを新たに作成した。
    • 開発した大規模言語モデルPerovskite-Chat-LLMとPerovskite-Reasoning-LLMは,既存モデルを凌駕する性能を示した。

    Link: https://arxiv.org/abs/2502.12669

  • コントラスト学習を拡張したソーシャル推薦 [cs.CL, cs.IR, cs.AI, cs.SI]目的:ソーシャル関係グラフを活用した興味表現の強化
    • 現代のコンテンツプラットフォームにおいて,推薦システムは不可欠であり,プラットフォーム成長に寄与する。
    • 従来の行動ベースモデルは,インタラクションデータが少ない新規ユーザーに対して課題がある。
    • ソーシャルグラフのノイズやドメイン間不整合に対処し,正確なソーシャル興味を抽出する。
    • 提案手法は,広く採用されている業界データセットにおいて,特に新規ユーザーに対して有効であることが確認された。
    • 双方向のノイズ除去戦略により,ソーシャルグラフのノイズを抑制し,興味表現の精度を向上させた。
    • 「相互蒸留」技術により,ソーシャルと行動の興味の一貫性を確保し,両方の情報を最大限に活用した。

    Link: https://arxiv.org/abs/2502.15695

  • 大規模言語モデルのメモリ効率の良い学習のためのハイブリッド適応オプティマイザCOSMOS [cs.LG]目的:大規模言語モデルのメモリ効率の良い学習
    • 大規模言語モデルは様々な分野で成功を収めているが,学習の最適化は依然として重要な課題である。
    • 既存の最適化手法は,座標間の相互依存性の捉えにくさやメモリ消費量の多さといった課題を抱えている。
    • COSMOSは,勾配行列のエ eigensubspace の重要度に着目し,メモリ効率を維持しつつ最適化性能を向上させることを目指す。
    • COSMOSは,主要な最適化ダイナミクスを捉える主要な固有空間にSOAPを適用し,残りの固有空間にMUONを適用するハイブリッド戦略を採用している。
    • このハイブリッド戦略により,メモリ消費量を大幅に削減しつつ,堅牢な最適化性能を維持することが可能になった。
    • 様々なデータセットとTransformerアーキテクチャを用いた数値実験により,COSMOSの有効性が示された。

    Link: https://arxiv.org/abs/2502.17410

  • 拡散モデルにおけるスコア平滑化の補間効果について [cs.LG, math.OC, stat.ML]目的:拡散モデルにおけるスコア平滑化が,学習データに存在しない新規データの生成を可能にする要因の解明
    • 拡散モデルは多様な分野で目覚ましい成果を上げており,新たなデータ生成技術として重要性が高まっている。
    • 拡散モデルがどのようにして学習データに存在しないデータを生成できるのか,そのメカニズムは未だ十分に解明されていない。
    • スコア平滑化が,学習データの補間による新規データ生成に寄与する可能性を理論的・実験的に検証する。
    • 理論的に,ReLUニューラルネットワークが経験的スコア関数を平滑化する傾向があることを示した。
    • 平滑化されたスコア関数が,学習データを補間しながら,完全な記憶を回避したデータ生成を可能にすることを示した。
    • ニューラルネットワークによるスコア関数の学習が,実際にもスコア平滑化効果をもたらすことを実験的に確認した。

    Link: https://arxiv.org/abs/2502.19499

  • 二言語LMが二言語となる過程:スパースオートエンコーダによる内部表現の追跡 [cs.CY, cs.HC, cs.CL, cs.CL, cs.LG]目的:二言語LMの複雑な内部表現の開発過程
    • 言語モデルは,自然言語処理の基盤技術であり,その性能向上は様々な応用への発展に不可欠である。
    • 二言語LMにおける内部表現の形成過程は未解明であり,言語獲得メカニズムの理解を阻害している。
    • 二言語LMの内部表現がどのように変化し,二言語能力を獲得していくのかを明らかにすること。
    • 学習段階,層,モデルサイズの影響をスパースオートエンコーダを用いて分析した結果,LMはまず言語を別々に学習し,その後中間層で徐々に二言語間のアライメントを形成することが示された。
    • より大規模なモデルでは,この二言語的傾向がより強く現れることが確認された。
    • 学習済みのモデルから分解された二言語表現を,学習途中のモデルに統合することで,モデルの性能向上が確認され,二言語表現の重要性が示唆された。

    Link: https://arxiv.org/abs/2503.06394

  • 画像キャプションにおける方向性バイアス増幅の測定:予測可能性に基づく手法 [cs.CV, cs.AI]目的:画像キャプションにおける方向性バイアス増幅の測定
    • 機械学習モデルは学習データに含まれるバイアスを学習し,増幅する可能性があり,その評価が重要である。
    • 既存の共起ベース指標は画像分類には有効だが,複雑なキャプションの文脈を捉えられない。
    • キャプションにおけるバイアス増幅の方向性を特定し,より正確なデータセットバイアスの推定を目指す。
    • 提案手法DPACは,既存の指標LICが抱える問題点を克服し,より信頼性の高いバイアス増幅の測定を可能にする。
    • DPACは,バイアスの増幅方向を特定し,改善された語彙置換戦略によりデータセットバイアスをより正確に推定する。
    • COCOデータセットの実験により,DPACがキャプションにおけるバイアス増幅測定において最も信頼できる指標であることが示された。

    Link: https://arxiv.org/abs/2503.07878

  • マルチモーダルテキスト画像分析における自己教師ありコントラスト学習の調査 [cs.CV, cs.LG]目的:マルチモーダルテキスト画像分析における自己教師ありコントラスト学習の動向
    • 画像やテキストの理解において,大量のラベル付きデータが必要となることが課題である。
    • ラベルなしデータからの学習方法が限られており,汎用的なモデル構築が難しい。
    • ラベルなしデータを用いて効果的な特徴抽出を行い,モデルの性能向上を目指す。
    • 自己教師あり学習,特にコントラスト学習は,ラベル付きデータへの依存度を低減し,画像とテキストの理解を促進する。
    • 本調査では,テキスト画像モデルにおけるコントラスト学習の様々なアプローチを構造別に分類・整理した。
    • 最新の事前学習タスク,アーキテクチャ,主要なトレンド,応用事例についても概観した。

    Link: https://arxiv.org/abs/2503.11101

  • HA-VLN 2.0: 離散・連続環境における人間を意識したナビゲーションのオープンベンチマークおよびリーダーボード [cs.AI, cs.CV, cs.RO]目的:人間を意識したナビゲーションの評価基準とデータセット
    • ロボットの自律移動において,人間との共存は不可欠であり,安全性を確保することが重要である。
    • 従来のVLN研究では,混雑した環境や人間とのインタラクションが十分に考慮されていなかった。
    • 人間を意識したナビゲーションの性能評価と,安全で社会的に責任あるナビゲーション研究の基盤を確立すること。
    • HA-VLN 2.0は,ナビゲーションの正確性とパーソナルスペースの尊重という2つの側面を評価する標準化されたタスクと指標を導入した。
    • HAPS 2.0データセットとシミュレーターは,複数の人間とのインタラクション,屋外環境,言語と動作のより詳細な対応関係をモデル化している。
    • 実験の結果,明示的な社会的モデリングがナビゲーションの安定性を向上させ,衝突を減らすことが示された。

    Link: https://arxiv.org/abs/2503.14229

  • 学習可能な多様体上の集約:非同期連合最適化 [cs.LG]目的:非同期連合学習における損失障壁の緩和と遅延更新による干渉の軽減
    • 連合学習は,データプライバシーを保護しつつ分散環境で機械学習を行うための重要な手法である。
    • クライアント間のデータや計算資源の異質性により,非同期連合学習では学習の不安定性や収束の遅延が発生する。
    • 多様体上の集約とベジエ曲線を用いた軌跡学習により,損失障壁を回避し,更新の干渉を低減することを目的とする。
    • 提案手法AsyncBezierは,線形集約を低次多項式軌跡に置き換えることで損失障壁を回避し,精度向上に貢献する。
    • OrthoDCは,内積に基づく直交投影により遅延更新の干渉を軽減し,学習の安定性を高める。
    • ShakespeareおよびFEMNISTを含む3つのデータセットで,既存の非同期ベースラインと比較して,精度とクライアントの公平性が改善された。

    Link: https://arxiv.org/abs/2503.14396

  • 条件付き拡散方策の合成と誘導サンプリング [cs.RO, cs.AI]目的:模倣学習における条件付き拡散方策の合成と誘導サンプリングによる効率的な行動選択
    • ロボットの行動学習において,明示的なモデルやシミュレーションに頼らず,データから直接学習する模倣学習が注目されている。
    • サンプリングされた行動は失敗する可能性があり,単純な再試行では効率が悪いという課題がある。
    • 過去の失敗行動を回避するサンプリング戦略を開発し,効率的な行動選択を実現する。
    • 本研究では,成功例データのみを利用し,追加の探索行動や高レベルコントローラなしに,回復行動を推論することに成功した。
    • 拡散モデルの分解の概念を活用し,長期間の履歴を必要とする問題を,学習,データ収集,推論において管理しやすい複数のサブ問題に分割した。
    • 提案手法は,未知の方向を持つドアの開閉,物体操作,ボタン探索などのタスクにおいて,従来のベースライン手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2503.15386

  • 大規模言語モデルにおけるプロンプト圧縮の理解と改善 [cs.CL, cs.IR, cs.LG]目的:プロンプト圧縮手法における情報保持の評価と改善
    • 大規模言語モデルの応用範囲拡大に伴い,長大なプロンプト処理が課題となっている。
    • プロンプト長が長くなることで計算コスト増大,性能低下,バイアス発生などが懸念される。
    • プロンプト圧縮時の情報損失を抑制し,高性能を維持する手法の確立を目指す。
    • 提案する評価フレームワークにより,既存の圧縮手法が重要な情報を損失することが明らかになった。
    • ソフトプロンプティングの圧縮粒度を制御することで,性能を最大23%向上させることができた。
    • ソフトプロンプティングとシーケンスレベル学習の組み合わせが,最も効果的かつ圧縮率が高いことが示された。

    Link: https://arxiv.org/abs/2503.19114

  • LLM駆動型反復コードグラフ探索による課題局所化 [cs.SE, cs.AI, cs.CL]目的:課題記述に基づいたコードリポジトリの課題修正パッチ生成のための課題局所化
    • ソフトウェア開発において,コードの課題発見と修正は品質向上に不可欠であり,迅速な解決が求められる。
    • 既存のLLMベースの課題局所化手法は,探索範囲の広さと深さのバランスが難しく,効率的な課題特定が困難である。
    • 本研究は,LLMの探索方向を制御し,より正確かつ効率的な課題局所化を実現することを目的とする。
    • 提案手法CoSILは,トレーニングやインデックス作成を必要とせず,関数レベルで高精度な課題局所化を可能にする。
    • SWE-bench LiteとSWE-bench Verifiedにおいて,それぞれ43.3%,44.6%のTop-1局所化精度を達成し,最先端手法を平均96.04%上回る。
    • CoSILを課題解決手法Agentlessに統合することで,課題解決率が2.98%~30.5%向上した。

    Link: https://arxiv.org/abs/2503.22424

  • DeepOHeat-v1:3D-IC設計における高速かつ信頼性の高い熱シミュレーションと最適化のための効率的な演算子学習 [cs.LG, cs.AI, physics.data-an]目的:3D-IC設計における熱シミュレーションと最適化のための効率的な演算子学習フレームワークの開発
    • 3D-ICは高密度化が進み,熱設計が重要課題となっている。信頼性の高い熱解析が不可欠である。
    • 従来の演算子学習フレームワークは,マルチスケールな熱パターンへの対応や学習効率,結果の信頼性に課題があった。
    • マルチスケールな熱パターンへの対応,学習効率向上,予測結果の信頼性評価と最適化手法の確立を目指す。
    • Kolmogorov-Arnoldネットワークと学習可能な活性化関数を組み合わせることで,マルチスケールな熱パターンの表現能力を向上させた。
    • 座標軸に沿った分離可能な学習手法を導入し,学習速度を62倍,GPUメモリ使用量を31倍削減することに成功した。
    • 予測結果の信頼性を評価する指標を提案し,演算子学習と有限差分法のハイブリッド最適化により,高精度かつ効率的な熱最適化を実現した。

    Link: https://arxiv.org/abs/2504.03955

  • TARO:動画から音声合成のための時間ステップ適応表現アラインメントと開始音響条件付け [cs.SD, cs.AI, cs.CV]目的:動画から音声への高品質かつ時間的に一貫性のある合成
    • 動画と音声を同時に理解する技術は,様々な応用において重要性が増している。
    • 動画と音声の同期が難しく,生成される音声の品質が低いという課題がある。
    • 動画の視覚的なイベントと音声の開始タイミングをより正確に一致させる。
    • 提案手法TAROは,既存手法と比較して,Frechet Distance (FD)を53%削減し,高品質な音声を生成する。
    • Frechet Audio Distance (FAD)も29%低減され,より自然な音声を合成できることが示された。
    • Alignment Accuracyは97.19%と高く,動画と音声の同期精度が大幅に向上している。

    Link: https://arxiv.org/abs/2504.05684

  • 連続トークンを用いた拡散生成推薦 [cs.IR, cs.AI]目的:連続トークンをLLMベースの推薦システムに統合するフレームワーク
    • 推薦システムは,情報過多な現代において,ユーザーに最適な情報を提供する上で不可欠である。
    • 従来のベクトル量子化による離散的なトークン表現は,勾配の伝播を阻害し,学習の最適化を妨げる。
    • 連続トークンを用いて,より高精度なユーザーモデリングと推薦を実現すること。
    • 提案手法ContRecは,連続VAEトークナイザーと拡散モジュールを組み合わせ,ユーザー/アイテムを連続トークンでエンコードする。
    • 拡散モジュールは分散損失を用いて高品質なユーザー嗜好の生成を可能にする。
    • 実験結果から,ContRecは既存の推薦システムと比較して,一貫して高い性能を示すことが確認された。

    Link: https://arxiv.org/abs/2504.12007

  • 汎化性能と安定性を最適化した車間追従モデルのための知識に基づく深層学習パラダイム [cs.CE, cs.CL, cs.CL, cs.AI, cs.RO]目的:汎化性と安定性を最適化した車間追従モデルの構築
    • 交通流解析や自動運転において,車間追従モデルは不可欠な要素である。
    • 既存モデルは特定のデータセットに依存し,多様な状況への汎化性能や実用環境での信頼性に課題がある。
    • データセットに依存せず,安全性と効率性を高めるための安定性向上を目指す。
    • 提案手法KIDLは,事前学習済み大規模言語モデルの汎化能力を軽量なニューラルネットワークに転移させる。
    • KIDLは,実際の交通データセットにおいて,既存モデルよりも優れた行動の汎化性と交通流の安定性を示す。
    • 本手法は,次世代の交通システムに向けた堅牢かつスケーラブルな解を提供する。

    Link: https://arxiv.org/abs/2504.14241

  • 開発者によるAI生成コードの自己申告に関する分析:実態調査 [cs.RO, cs.SY, eess.SY, cs.SE, cs.AI]目的:開発者によるAI生成コードの自己申告方法とその理由
    • ソフトウェア開発においてAIの利用が拡大しており,AI生成コードの適切な管理が重要になっている。
    • AI生成コードと人間が書いたコードの区別が難しく,透明性の確保が課題となっている。
    • 開発者の自己申告を通じて,AI生成コードの可視性を高め,品質管理を支援することを目指す。
    • 開発者の多く(76.6%)は,AI生成コードを常に,または時々自己申告していることが明らかになった。
    • 自己申告の理由は,将来のレビューやデバッグのための追跡と監視,そして倫理的な配慮である。
    • 一方,自己申告を行わない理由は,AI生成コードの大幅な修正,および自己申告の必要性に対する認識の低さである。
    • 倫理的およびコード品質の観点から,AI生成コードの自己申告に関するガイドラインが提示された。

    Link: https://arxiv.org/abs/2504.16485

  • LLMを用いた人間と共有自動運転車のインタラクションの探求:心理的要因がユーザー体験に与える影響 [cs.HC, cs.AI, cs.ET]目的:LLM搭載の会話型共有自動運転車エージェントが,心理的オーナーシップ等の心理的要因に及ぼす影響の検証
    • 共有自動運転車の普及には,ユーザーの心理的な受け入れが不可欠である。
    • LLMを活用した会話型エージェントにおける,心理的要因の喚起に関する研究が不足している。
    • LLMエージェント設計を通じて,ユーザーの心理的オーナーシップを高める方法を模索する。
    • より人間らしい設計と心理的オーナーシップの喚起が,ユーザーの自動運転車に対する好意的な認識を高めることが示された。
    • 自動運転車エージェントの応答は,人間らしいほど肯定的かつ主観的なものとして認識される傾向があった。
    • パーソナライズされたインタラクション設計が,ユーザー体験と自動運転車の採用を促進する上で重要であることが示唆された。

    Link: https://arxiv.org/abs/2504.16548

  • マルチモーダル言語モデルは,浅い層を見る方が良い性能を発揮する [cs.CV, cs.AI]目的:マルチモーダル大規模言語モデルにおける視覚層選択の影響
    • 画像とテキストの理解を統合するマルチモーダルモデルの重要性が高まっている。
    • ViTのどの層の視覚特徴を抽出するかの最適な方法が明確ではない。
    • 浅い層の活用により,詳細な視覚タスクの性能向上を目指す。
    • ViTの浅い層,中間層,深い層を分類し,それぞれの特徴を分析した。
    • 深い層はOCRなどの意味的なタスクに優れる一方,浅い層と中間層は,カウントや位置特定などの詳細な視覚タスクで優れた性能を示した。
    • 浅い層を戦略的に組み込む軽量な特徴融合手法を提案し,既存手法を上回る性能を達成した。

    Link: https://arxiv.org/abs/2504.21447

  • 創発的認識:人間とAIの知識共創における主体性,次元,力学 [cs.HC, cs.AI, cs.CY]目的:人間とAIの知識共創における共進化的なパートナーシップの本質
    • 科学研究におけるAIの役割は拡大し,その影響を理解する必要性が高まっている。
    • 既存の枠組みでは,AIを単なる道具またはリスクと捉え,共進化的な側面が軽視されている。
    • 人間とAIの知識共創における主体性,次元,力学を捉える新たな枠組みを提示すること。
    • 本研究で提唱する「創発的認識」は,人間とAIの知識共創を共進化的なパートナーシップとして捉える。
    • 主体性の配置,認識的次元,パートナーシップの力学という3つの要素で構成され,相互の作用を分析可能にする。
    • この枠組みは,知識の質を維持しつつ,人間とAIが単独では達成できない革新的な進歩を促すパートナーシップの構築に貢献する。

    Link: https://arxiv.org/abs/2505.03105

  • メタ学習によるシステムプロンプトの最適化 [cs.CL, cs.AI, cs.LG]目的:システムプロンプトの最適化
    • 大規模言語モデルの性能は,入力プロンプトの最適化に大きく依存する。
    • 従来のプロンプト最適化研究は,ユーザープロンプトに焦点を当て,汎用性の高いシステムプロンプトは軽視されてきた。
    • 多様なユーザープロンプトと未見タスクへの転移性能を向上させるシステムプロンプトを設計する。
    • 提案手法は,5つの異なるドメインにおける14の未見データセットで有効性が確認された。
    • 最適化されたシステムプロンプトは,多様なユーザープロンプトに対して高い汎化性能を示す。
    • 最適化されたシステムプロンプトは,未見タスクへの迅速な適応を可能にし,テスト時のユーザープロンプトの最適化ステップ数を削減する。

    Link: https://arxiv.org/abs/2505.09666

  • MergeBench:ドメイン特化型LLMを統合するためのベンチマーク [cs.DC, cs.NI, cs.LG]目的:ドメイン特化型LLMの統合評価
    • LLMの多様なタスクへの応用が求められる中,効率的な学習手法が重要となる。
    • 既存の統合手法は,モデル規模やタスクの種類が限定的で,実用性に関する検証が不十分である。
    • 大規模LLMにおける統合手法の性能評価と,最適な手法の選択指針を提示すること。
    • MergeBenchは,LlamaやGemmaといったオープンソースLLM (2Bから9B) を対象に,5つの主要ドメイン(指示応答,数学,多言語理解,コーディング,安全性)における統合性能を評価する。
    • 実験の結果,ベースモデルの性能が高いほど統合性能も向上する傾向があり,係数調整や疎化などの技術が知識の保持に貢献することが示された。
    • 大規模モデルにおける計算コストや,マルチタスク学習モデルとの性能差など,今後の課題も明らかになった。

    Link: https://arxiv.org/abs/2505.10833

  • 拡散モデルの内部構造:データ多様体探索のためのスコアベースのリーマン計量 [cs.LG, cs.CV]目的:拡散モデルによって学習されたデータ多様体の内在的幾何構造の特性評価
    • 近年の拡散モデルの進歩は目覚ましいが,学習されたデータ多様体の幾何学的性質は未解明な点が多い。
    • データ多様体の幾何構造を明示的にパラメータ化することなく特徴づける手法が求められていた。
    • 拡散モデルのスコア関数を用いて,データ多様体の幾何構造を捉えるリーマン計量を提案し,多様体上での測地線を計算する。
    • 提案手法は,データ点間の補間や観測データ分布の外的推論に有効であることが示された。
    • 合成データ,Rotated MNIST,Stable Diffusionを用いた実験により,提案手法が意味のある変換を捉えることが確認された。
    • 知覚的指標(LPIPS)や分布レベル指標(FID, KID)において,ベースライン手法を上回り,より滑らかでリアルな画像遷移を実現した。

    Link: https://arxiv.org/abs/2505.11128

  • 大規模言語モデルにおける誤りの原因:重要な問題特徴の幻覚 [cs.LG, cs.AI]目的:大規模言語モデルの誤り頻度とその原因の解明
    • 近年,大規模言語モデルは推論能力で著しい進歩を遂げているため,その限界理解は重要である。
    • 推論能力を持つ大規模言語モデルは未だ完璧ではなく,誤りの原因特定が課題となっている。
    • 提示された問題を誤って解釈する幻覚現象を特定し,その対策を検討すること。
    • グラフ彩色問題において,大規模言語モデルが問題文に記載されていないグラフの辺を幻覚することが確認された。
    • この幻覚現象は,問題の複雑さや表現方法に関わらず,多くのモデルで高頻度に見られた。
    • 大規模言語モデルは問題固有の情報を誤って表現する傾向があり,モデル設計における改善が求められる。

    Link: https://arxiv.org/abs/2505.12151

  • GUI-Shift:自己教師あり強化学習によるVLMベースGUIエージェントの性能向上 [cs.AI]目的:GUIのダイナミクス学習によるVLMベースGUIエージェントの性能向上
    • GUI自動化は,生産性向上やアクセシビリティ向上に不可欠であり,その重要性は高まっている。
    • GUIエージェントの学習には大規模アノテーションデータが必要だが,データ収集にはコストと労力がかかる。
    • ラベルなしGUI軌跡を活用し,アノテーションデータの収集コストを削減し,GUIエージェントの学習を効率化する。
    • K-step GUI Transitionタスクにより,VLMはGUIの状態遷移を引き起こす初期アクションを予測することでGUIのダイナミクスを学習する。
    • GUI-Shiftフレームワークは,ルールベース最適化とデータフィルタリングを組み合わせることでVLMの性能を向上させる。
    • GUI自動化とGUIグラウンディングの両タスクで,最大11.2%のGUI自動化精度向上を達成した。

    Link: https://arxiv.org/abs/2505.12493

  • 協調的ラベルなしデータ最適化 [cs.LG, cs.AI]目的:ラベルなしデータの有用性最大化
    • 深層学習は強力だが,大量のラベル付きデータが必要であり,コストや時間のかかる課題である。
    • 既存の手法では,データから得られた知識がモデルに固定され,再利用性や拡張性が低い。
    • データ自体に知識をエンコードし,再利用可能で持続可能な学習パイプラインを実現する。
    • 提案手法CoOptは,ラベルなしデータの協調的最適化により,効率的かつ並列化された学習を可能にする。
    • Tiny-ImageNetとImageNet-1Kにおいて,それぞれ13.6%と6.8%の精度向上を達成した。
    • 学習速度はそれぞれ1.94倍と1.2倍に向上し,効率性も実証された。

    Link: https://arxiv.org/abs/2505.14117

  • 信頼のゲーム:あなたのブロックチェーンはあなたをどれだけ信頼しているか? [cs.GT, cs.AI, cs.CR]目的:ノードの信頼度を反映する評判システムの構築
    • ブロックチェーン技術は,分散型システムの信頼性と透明性を高める上で重要である。
    • 現在のブロックチェーンでは,ノードの信頼性を客観的に評価する仕組みが不足している。
    • ノードの真実な信念に基づいた信頼情報の抽出と,その報告を促すインセンティブ設計。
    • ブロックチェーン上で,ノードの信頼度を評価する評判システムを構築するためのフレームワークを提案した。
    • PageRankアルゴリズムを応用し,ノードの信念から信頼情報を抽出する方法を確立した。
    • Trustworthy Reputationゲーム(TRepゲーム)を定義し,報酬メカニズムを通じて信頼に関する集団的信念を抽出する手法を示した。

    Link: https://arxiv.org/abs/2505.14551