arXiv雑要約

AI - 2025/10/13 公開

  • 空間ビームRSRP予測のためのニューラルビームフィールド [cs.IT, cs.AI, cs.LG, math.IT]目的:空間ビームレベルの参照信号受信電力(RSRP)予測
    • 高密度多重ユーザー無線ネットワークにおいて,ビーム管理は重要であり,正確なRSRP予測が不可欠である。
    • 高負荷な測定と高速なチャネル変化により,RSRPの正確な予測は困難である。
    • 本研究は,効率的かつ解釈可能な空間ビームRSRP予測を可能にする。
    • 提案手法であるNBFは,従来のテーブルベースのチャネル知識マップ(CKM)や純粋なブラックボックスDNNと比較して,予測精度,学習効率,汎化性能において大幅な改善を示す。
    • NBFは,マルチパス条件電力プロファイル(MCPP)を導入することで,サイト固有の伝搬環境を学習し,汎化能力を高めている。
    • 事前学習と較正(PaC)戦略により,物理に基づいた事前学習と現場較正を行うことで,収束性と適応性を向上させている。

    Link: https://arxiv.org/abs/2508.06956

  • ACD-CLIP:ゼロショット異常検知のための表現と動的融合の分離 [cs.RO, cs.CV, cs.AI, cs.LG]目的:ゼロショット異常検知における表現と融合戦略の改善
    • 画像とテキストの情報を活用し,未知の異常を検出する技術は,産業や医療分野で重要である。
    • 既存のVision-Language Modelは,高精度な局所的な特徴抽出と柔軟な特徴融合が課題となっていた。
    • 局所的な特徴抽出能力を強化し,文脈に応じた動的な特徴融合を実現することで,異常検知の精度向上を目指す。
    • 提案手法ACD-CLIPは,Conv-LoRAとDFGという二つのモジュールを組み合わせ,表現学習と融合戦略を同時に最適化する。
    • 様々な産業および医療分野のベンチマークにおいて,既存手法を上回る精度とロバスト性を示すことが確認された。
    • この結果から,基礎モデルを密な知覚タスクに適応させるには,相乗的な共同設計が不可欠であることが示唆される。

    Link: https://arxiv.org/abs/2508.07819

  • LATTE:銀行顧客のトランザクションとテキスト埋め込みの学習 [cs.CL, cs.AI]目的:銀行顧客のトランザクションとテキスト埋め込みの学習
    • 金融アプリケーションにおいて,顧客の行動理解は重要であり,顧客エンゲージメント向上に繋がる。
    • 長時間のイベント系列を直接LLMで処理すると,計算コストが高く,実用性に課題がある。
    • LLMの知識を活用しつつ,効率的に顧客行動を捉える埋め込み表現の学習を目指す。
    • 提案手法LATTEは,イベント埋め込みとLLMからのセマンティック埋め込みを対照学習により整合させる。
    • これにより,推論コストと入力サイズを大幅に削減し,実運用環境での利用を可能にする。
    • 実験結果から,LATTEは既存手法を上回り,金融データセット上で優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2508.10021

  • エンティティ信頼性からクリーンなフィードバックへ:エンティティ認識ノイズ除去フレームワーク [cs.IR, cs.LG]目的:暗黙的フィードバックのノイズ除去
    • 現代の推薦システムにおいて,暗黙的フィードバックは不可欠だが,ノイズを含みやすい。
    • 既存のノイズ除去戦略はエンティティ固有のノイズを見過ごし,計算コストが高い場合が多い。
    • エンティティレベルの信頼性に着目し,効率的なノイズ除去を実現する。
    • 提案手法EARDは,既存手法と比較してNDCG@50で最大27.01%の改善を示す。
    • EARDはモデルに依存せず,計算効率が高く,直感的なハイパーパラメータのみを必要とする。
    • エンティティ認識の信頼性モデリングが,暗黙的フィードバックのノイズ除去において重要であることが示唆される。

    Link: https://arxiv.org/abs/2508.10851

  • オンポリシー強化学習とオフポリシー専門家:動的重み付けによる教師ありファインチューニングと強化学習の調和 [cs.LG, cs.AI]目的:大規模言語モデルの能力向上と行動の調整
    • 大規模言語モデルの性能は,その活用範囲を広げる上で重要である。
    • 教師ありファインチューニングと強化学習の統合は,既存の応答パターンを損なうリスクがある。
    • オフポリシーデータとオンポリシー探索の調和による学習安定性と効率性の向上を目指す。
    • 提案手法CHORDは,オフポリシーの模倣からオンポリシーの探索への移行を全体的に制御する仕組みを備えている。
    • CHORDは,トークン単位の重み付け関数を用いて,専門家データからの粒状な学習を促進し,オフポリシーデータからの擾乱を緩和する。
    • 数学的推論やツール使用タスクにおいて,ベースラインと比較して,学習の安定性と効率性の顕著な向上が確認された。

    Link: https://arxiv.org/abs/2508.11408

  • オフライン強化学習における探索に基づくクレジット割り当て [cs.AI, cs.LG]目的:オフライン強化学習のためのクレジット割り当て手法
    • 強化学習は自律的な意思決定を可能にするが,報酬関数の設計が課題となる。
    • 人間のフィードバックは代替手段だが,デモンストレーションと嗜好には限界がある。
    • 嗜好とデモンストレーションを統合し,より正確なクレジット割り当てを実現する。
    • 提案手法SPWは,嗜好データ中の各遷移に対し,専門家のデモンストレーションから類似した状態行動ペアを探索する。
    • 探索されたペアの類似度スコアに基づき,段階的な重要度を直接導出し,嗜好学習をガイドする。
    • ロボットマニピュレーションタスクにおいて,既存手法を上回る性能を達成した。

    Link: https://arxiv.org/abs/2508.15327

  • タスクベクトルと勾配について [cs.DC, cs.LG, cs.AI]目的:タスクベクトルの理論的基盤
    • モデル統合は,限られた計算資源で多様な能力を獲得するために重要である。
    • タスクアリティスは実証的に成功しているが,その理論的根拠は不明確である。
    • タスクベクトルと勾配の関係を明確化し,タスクアリティスの有効性を説明する。
    • 標準的な勾配降下法において,1エポックのファインチューニングから生成されたタスクベクトルは,学習率でスケーリングされたタスク損失の勾配の負の値と等価である。
    • 複数エポックの場合,この等価性は近似的に成立し,誤差項を明示的に制限できる。
    • 実験結果は理論を裏付け,初期の勾配がファインチューニング軌跡において支配的な役割を果たすことを示している。

    Link: https://arxiv.org/abs/2508.16082

  • データ駆動型回帰モデルの再較正における不確実性量の質の評価 [cs.MA, cs.CL, cs.LG, stat.ML]目的:データ駆動型回帰モデルの較正の質に関する評価基準と手法の比較
    • 安全性が重要となる応用分野において,モデルの精度だけでなく信頼性のある不確実性推定が不可欠である。
    • 既存の較正指標は定義,仮定,尺度において大きく異なり,研究結果の解釈や比較が困難になっている。
    • 様々な較正指標の一貫性を検証し,信頼性の高い指標を特定することで,より客観的な評価を可能にすること。
    • 様々な較正指標がしばしば矛盾した結果を示すことが,実験を通じて明らかになった。
    • 同一の較正結果に対して,多くの指標が評価において意見の不一致を示す,あるいは矛盾する結論を導くことが判明した。
    • 期待正規化較正誤差(ENCE)とカバレッジ幅基準(CWC)が,検証において最も信頼性の高い指標であることが示された。

    Link: https://arxiv.org/abs/2508.17761

  • AniME:長編アニメ生成のための適応的マルチエージェント計画 [cs.DB, cs.AI, cs.MM]目的:長編アニメ制作の自動化
    • アニメ制作は文化的・経済的に重要であり,効率化が求められている。
    • 従来の手法では,長編アニメの制作に膨大な時間と労力がかかる。
    • AIを活用し,アニメ制作のワークフロー全体を自動化すること。
    • AniMEは,ストーリーから最終的な動画まで,アニメ制作の全工程を自動化するマルチエージェントシステムである。
    • 監督エージェントがワークフロー全体を管理し,下流のエージェントを調整することで,一貫性のあるキャラクターと同期された映像・音声を実現する。
    • カスタマイズされたMCPにより,多様なサブタスクに対して制御条件を適応的に選択し,スケーラブルなアニメ制作を可能にする。

    Link: https://arxiv.org/abs/2508.18781

  • 最新の再帰モデルにおける連想想起の再検討 [cs.CL, cs.LG]目的:連想想起タスクにおける最新の再帰モデルの性能評価と課題分析
    • 言語モデリング性能との相関が示されており,言語理解の基盤となる能力を測る上で重要である。
    • Transformerと比較して,推論や記憶タスクにおいて潜在的な課題が指摘されている。
    • 学習率の調整やモデルの構造が性能に与える影響を詳細に分析し,安定した学習方法を模索する。
    • 最新の再帰モデルでは,学習率が性能に大きく影響することが示された。過去の研究における評価に影響を与えうる要因である。
    • 再帰モデルとAttentionモデルでは,幅方向と深さ方向のスケール拡大による効果が対照的である。Attentionは単層では連想想起を解決できない。
    • 単層Transformerの学習ダイナミクスは,多層Transformerに見られる帰納ヘッドの形成と類似しており,興味深い現象が観察された。

    Link: https://arxiv.org/abs/2508.19029

  • リソース制約のあるデバイスにおけるスパース活性化大規模言語モデルの連合ファインチューニング [cs.DC, cs.AI]目的:リソース制約のあるデバイスにおける大規模言語モデルの連合ファインチューニング手法
    • 大規模言語モデルは自然言語処理の性能向上に不可欠だが,計算資源を大量に必要とする。
    • 連合学習では,参加者の計算資源に制約があるため,大規模モデルのファインチューニングが困難である。
    • 本研究は,計算資源の限られた環境下でも効率的な連合ファインチューニングを実現することを目指す。
    • FLUXは,専門家活性化の推定,適応的な専門家マージ,動的な役割割り当ての3つの革新的な技術を導入することで,連合ファインチューニングを可能にする。
    • 実験結果から,FLUXは既存手法と比較して,精度獲得までの時間を最大4.75倍高速化することが示された。
    • LLaMA-MoEおよびDeepSeek-MoEを用いた複数のベンチマークデータセットで,FLUXの有効性が確認された。

    Link: https://arxiv.org/abs/2508.19078

  • 大規模言語モデルの自己・相互評価におけるラベル起因バイアスの定量化 [cs.IR, cs.CL, cs.AI]目的:大規模言語モデルの自己・相互評価におけるラベルによるバイアスの程度
    • LLMはテキスト品質の評価に活用が増加しており,その妥当性を検証することが重要である。
    • LLMの評価には,モデル自身の特性やラベル情報が影響する可能性が指摘されている。
    • 本研究は,LLMの評価におけるラベル効果を定量的に明らかにし,信頼性向上に貢献する。
    • Claudeのラベルは,実際の著作者に関わらず評価を高める傾向が確認された。
    • Geminiのラベルは,評価を低下させる傾向が確認され,誤ったラベル表示は評価順位を大きく変動させた。
    • Geminiは自己評価で過小評価し,Claudeは自己評価で過大評価する傾向が見られた。

    Link: https://arxiv.org/abs/2508.21164

  • UAVを用いた野生動物保護のための期待値最大化によるマルチエージェント強化学習における潜在変数モデリング [cs.CL, cs.LG, cs.AI]目的:UAVによる野生動物保護のためのマルチエージェント強化学習における潜在変数モデリング
    • 絶滅危惧種の保護は重要課題であり,広大で観測が困難な環境でのリアルタイム対応が求められる。
    • 従来の強化学習では,不確実性下での探索と協調が課題であった。
    • 潜在変数モデルにより不確実性下での探索と協調を改善し,野生動物保護におけるUAVの効率的な連携を実現する。
    • 提案手法は,シミュレーションにおいて,既存のPPOやDDPGといったアルゴリズムと比較して,検出精度,適応性,ポリシー収束において優れた性能を示した。
    • 期待値最大化推論とマルチエージェント強化学習の組み合わせが,複雑な保全シナリオにおける分散型意思決定を改善する可能性が示唆された。
    • 本研究のコード,シミュレーション環境,訓練スクリプトはGitHubで公開されている。

    Link: https://arxiv.org/abs/2509.02579

  • 連合学習からX学習へ:ランダムウォークによる分散性の障壁の打破 [cs.LG, cs.AI]目的:分散学習アーキテクチャX学習の設計に関する考察
    • データプライバシー保護の観点から分散型学習の重要性が増している。
    • 既存の分散学習は中央集権的な要素を含み,真の分散性を欠いている場合がある。
    • X学習の設計自由度を明らかにし,さらなる研究を促進すること。
    • X学習は,グラフ理論やマルコフ連鎖と直感的な繋がりを持つことが示された。
    • 分散性の概念を一般化し,新たな設計の可能性を提示している。
    • 今後の研究の方向性として,未踏破の設計上の検討事項が提案された。

    Link: https://arxiv.org/abs/2509.03709

  • HyPINO:ハイパーPINNと製造解法に基づくマルチ物理ニューラル演算子 [cs.LG]目的:多様なパラメトリック偏微分方程式に対するゼロショット汎化性能
    • 偏微分方程式は自然科学・工学の基礎であり,その効率的な数値解法は重要である。
    • 従来の数値解法は,問題ごとにチューニングが必要であり,汎用性に課題がある。
    • この研究は,タスク固有のファインチューニングなしに汎用的に解けるニューラル演算子の構築を目指す。
    • HyPINOは,製造解法と物理情報に基づく混合学習により,高いゼロショット精度を実現した。
    • 既存のU-Net,Poseidon,PINOなどの手法と比較して,ベンチマーク問題で優れた性能を示した。
    • 反復改善手続きにより,誤差を大幅に低減し,より効率的な学習を可能にした。

    Link: https://arxiv.org/abs/2509.05117

  • DQS:教師なしデータ駆動型異常検知手法を強化するための低コストクエリ戦略 [cs.LG]目的:時系列異常検知における閾値設定の改善
    • 時系列データ分析は,様々な分野で重要であり,異常検知はその中でも不可欠な技術である。
    • 教師なし異常検知は,ラベル付きデータが不足する状況で有用だが,適切な閾値設定が困難である。
    • 本研究は,選択的なラベルクエリによる閾値設定の改善を通じて,より実用的な異常検知を目指す。
    • 提案手法DQSは,動的時間伸縮法を用いてクエリサンプルの多様性を最大化する。
    • DQSは,低予算のシナリオにおいて他のクエリ戦略よりも優れた性能を示すことが判明した。
    • 誤ラベルが存在する場合,他のクエリ戦略の方がより頑健性を持つことが示唆された。

    Link: https://arxiv.org/abs/2509.05663

  • COMPACT:チャネルとトークンにわたる共通トークン最適化モデルプルーニング [cs.HC, cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの効率化
    • LLMの効率化は,エッジ展開,インタラクティブなアプリケーション,および大規模な持続可能な推論に不可欠である。
    • 既存のプルーニング手法は,標準Transformerレイアウトの破壊や,精度の大幅な低下といった課題がある。
    • 本研究は,小規模言語モデルを含む幅広いモデルで性能を維持しつつ,効率的なプルーニングを実現することを目指す。
    • COMPACTは,語彙プルーニングとFFN中間チャネルプルーニングを同時に行うことで,メモリ使用量とスループットを改善する。
    • Qwen,LLaMA,Gemmaを含む複数のモデル(0.5B~70B)において,最先端の性能と大幅なパラメータ削減,GPUメモリ削減,レイテンシ削減を達成した。
    • 標準的なTransformerアーキテクチャを維持し,様々なモデル規模に対応可能なスケーラビリティを持つ。

    Link: https://arxiv.org/abs/2509.06836

  • 申し訳ありません,できません:大規模言語モデルの拒否行動の解剖 [cs.CL, cs.AI]目的:大規模言語モデルにおける有害なプロンプトに対する拒否行動の内部原因の特定
    • 大規模言語モデルの安全性確保は,社会実装において不可欠である。
    • 有害なプロンプトに対する拒否行動のメカニズムは未解明な点が多い。
    • 拒否行動に関わる重要な特徴量を特定し,安全性への介入を可能にすること。
    • スパースオートエンコーダを用いて,拒否行動を引き起こす特徴量を特定した。
    • 特定された特徴量のアブレーションが,拒否から応答への変化を引き起こすことを示した。
    • 特徴量間の非線形な相互作用を捉えることで,拒否行動のメカニズムに関する洞察を得た。

    Link: https://arxiv.org/abs/2509.09708

  • 強化学習を用いたUAVのBVLoS経路計画によるセルラー接続性の最大化 [cs.RO, cs.RO, cs.LG]目的:UAVのセルラー接続性を最大化する経路計画
    • UAV技術は,物流,監視,災害対応など幅広い分野で活用が期待されており,その重要性は増している。
    • 視界外飛行(BVLoS)におけるUAVのセルラー通信は,通信品質の不安定さや距離による減衰といった課題を抱えている。
    • 本研究は,セルラー通信品質を考慮したUAVの効率的な経路計画によって,安全で信頼性の高いBVLoS飛行を実現することを目指す。
    • 提案手法は,UAVと基地局間の通信品質を報酬関数として強化学習により経路計画を学習する。
    • シミュレーション結果から,提案手法が有効なUAV経路を生成し,基地局との最大接続性を実現できることが示された。
    • 本手法は,将来のUAV地上管制システムに組み込み可能であり,UAVの機能と安全性を向上させる可能性を秘めている。

    Link: https://arxiv.org/abs/2509.13336

  • MOCHA:マルチモーダル物体認識に基づくクロスアーキテクチャアライメント [cs.CV, cs.AI, cs.LG]目的:マルチモーダル物体認識知識の蒸留
    • 画像とテキストの理解はAIの重要な課題であり,様々な応用への発展が期待される。
    • 大規模モデルの知識を軽量モデルへ効率的に転移することが難しい。
    • 物体レベルでのアライメントにより,効率的な知識転移を実現する。
    • MOCHAは,大規模なビジョン-言語モデルから軽量な物体検出モデルへ,領域レベルのマルチモーダル意味情報を蒸留する。
    • 物体レベルでのアライメントにより,教師モデルの変更や推論時のテキスト入力は不要である。
    • 少数のサンプルでベースラインよりも一貫して高い性能を示し,実用的な展開に適していることが示された。

    Link: https://arxiv.org/abs/2509.14001

  • 連合ファインチューニングのための適応型LoRAエキスパート割り当てと選択 [cs.NI, cs.LG]目的:連合LoRAファインチューニングにおけるエキスパートの最適配置と選択
    • 大規模言語モデルの活用が広がる中で,特定領域への適応が重要となる。
    • 分散されたデータへの適用において,計算資源の制約が課題である。
    • 異質データに対応するため,LoRAエキスパートの最適配置と選択を目指す。
    • 提案手法FedLEASEは,表現類似度に基づくクライアントのクラスタリングにより,ドメイン特化型LoRAエキスパートを効率的に配置・学習する。
    • 適応的なトップ-$M$ Mixture-of-Experts機構により,各クライアントが最適な数のエキスパートを選択することを可能にする。
    • 多様なベンチマークデータセットにおける実験により,FedLEASEが既存手法を大幅に上回り,通信効率も維持することが示された。

    Link: https://arxiv.org/abs/2509.15087

  • メソ構造媒体における衝撃伝播の時空間多分野深層学習 [cs.LG]目的:メソ構造媒体における衝撃伝播の予測モデル
    • 惑星防衛や慣性核融合エネルギーの追求において,衝撃波の挙動予測は重要である。
    • 多孔質材料や構造化材料における細孔崩壊,異常なヒューゴニオ応答,局所的加熱の把握が困難である。
    • 高精度な数値シミュレーションを高速化し,設計研究を可能にすることを目的とする。
    • 7つの結合された物理フィールドを統合した時空間多分野モデル(MSTM)を開発した。
    • MSTMは,多孔質および構造化構成において,非線形な衝撃駆動ダイナミクスを高精度に捉えた。
    • 単一フィールドモデルと比較して,平均二乗誤差と構造的差異を94%削減し,計算速度を3桁以上向上させた。

    Link: https://arxiv.org/abs/2509.16139

  • RPG:統合的かつスケーラブルなコードベース生成のためのリポジトリ計画グラフ [cs.CL, cs.AI, cs.SE]目的:大規模コードベース生成のための計画手法
    • ソフトウェア開発の自動化は,生産性向上と開発コスト削減に不可欠である。
    • 自然言語による計画は曖昧性が高く,一貫性のあるソフトウェア設計が困難である。
    • リポジトリ全体の構造化された計画により,高品質なコード生成を実現する。
    • 提案手法RPGは,機能,ファイル構造,データフローを統一的に表現するグラフ構造を用いる。
    • 実験結果から,ZeroRepoは既存の最良手法(Claude Code)と比較して,コード量で約3.9倍の性能を示した。
    • また,テストカバレッジ81.5%とテスト精度69.7%を達成し,Claude Codeをそれぞれ27.3点,35.8点上回った。

    Link: https://arxiv.org/abs/2509.16198

  • ByteDanceにおける堅牢なLLM学習インフラストラクチャ [cs.LG, cs.AI, cs.DC]目的:大規模言語モデルの安定的な学習のためのGPUインフラストラクチャ管理システム
    • 大規模言語モデルの性能向上には,計算資源の増強が不可欠であり,その規模は拡大の一途を辿っている。
    • 大規模な学習環境では,様々な障害が頻発し,学習の安定性と効率を著しく阻害する。
    • 本研究は,大規模言語モデル学習における障害の検知と復旧を効率化し,継続的な学習を可能にする。
    • ByteRobustは,20万以上のGPUを運用する本番環境に導入され,9,600 GPUを用いた3ヶ月間の学習ジョブで97%のETTRを達成した。
    • ByteRobustは,大規模言語モデル学習の特性を活かし,並列処理とデータ駆動型アプローチにより,高い耐障害性と迅速な障害切り分けを実現する。
    • 本システムは,学習中断の最小化,効率的な障害診断,効果的な障害耐性を重視し,継続的な学習をサポートする。

    Link: https://arxiv.org/abs/2509.16293

  • デジタルツインの大規模研究:強み,弱み,そして更なる改善の機会 [cs.CL, cs.CY, cs.AI, cs.HC, stat.AP]目的:デジタルツインの能力に関する評価
    • 社会科学や意思決定において,個人の行動理解と予測への応用が期待されているため。
    • デジタルツインが実際に個人の行動を正確に反映しているか不明確であった。
    • デジタルツインの現状の限界と可能性を明らかにし,改善の方向性を示すこと。
    • デジタルツインは,個人の回答を75%の精度で再現したが,その精度は人口統計情報に基づいた一般的なペルソナと同程度であった。
    • 詳細な個人情報を取り込むことで相関関係が向上し,従来の機械学習ベンチマークを上回る性能を示した。
    • デジタルツインは,社会・性格に関する領域では優れていたが,政治に関する領域では劣るという系統的な強みと弱みが見られた。

    Link: https://arxiv.org/abs/2509.19088

  • CFDLLMBench:計算流体力学における大規模言語モデル評価のためのベンチマークスイート [cs.CL, cs.AI]目的:計算流体力学における大規模言語モデルの性能評価
    • 計算流体力学は科学技術の発展に不可欠であり,複雑な現象の解明に貢献している。
    • 複雑な物理システムの数値実験は,専門知識と労力を要する作業であり,自動化が課題となっている。
    • 大規模言語モデルを活用した数値実験の自動化を促進するための評価基盤を確立すること。
    • CFDLLMBenchは,CFDQuery,CFDCodeBench,FoamBenchの3つの構成要素からなるベンチマークスイートである。
    • これにより,CFD知識,数値・物理的推論,CFDワークフローの実装能力を総合的に評価可能である。
    • CFDLLMBenchは,コード実行可能性,解の精度,数値収束性といった指標に基づき,大規模言語モデルの性能を定量化する。

    Link: https://arxiv.org/abs/2509.20374

  • MolSpectLLM:分光法,分子構造決定,3D構造生成を結びつける分子基盤モデル [cs.LG]目的:分光法データと分子3D構造を統合した分子基盤モデルの開発
    • 分子設計や反応予測において,分子の性質予測は重要であり,創薬などの分野で応用が期待されている。
    • 既存のモデルはSMILES表記に依存しており,実験スペクトルや3D構造情報といった重要な情報を活用できていない。
    • 実験スペクトルと3D構造を統合し,立体化学や空間配置が重要なタスクにおける効果を高める。
    • MolSpectLLMは,NMR,IR,MSのベンチマークにおいて平均精度0.53を達成し,スペクトル関連タスクで最先端の性能を示した。
    • Spectra-to-SMILESタスクでは,系列精度15.5%,トークン精度41.7%を達成し,汎用LLMを大幅に上回る性能を示した。
    • SMILESまたはスペクトル入力から直接正確な3D分子構造を生成し,スペクトル分析,分子構造決定,分子設計を結びつけた。

    Link: https://arxiv.org/abs/2509.21861

  • 大規模言語モデルエージェントによるエージェントベースモデリングの再構築:Shachiを通じて [cs.AI, cs.MA, cs.SI, econ.GN, q-fin.EC]目的:大規模言語モデル駆動型マルチエージェントシステムの創発的行動に関する研究
    • 複雑なシステムを理解する上で,エージェントベースモデリングは不可欠である。
    • 既存の研究では,制御された実験を行うための原則的な手法が不足している。
    • エージェントの認知アーキテクチャが集合的行動に与える影響を体系的に分析すること。
    • Shachiは,エージェントの特性,記憶,ツールをLLM推論エンジンで編成する形式的な手法とモジュール化されたフレームワークである。
    • 10のタスクベンチマークで検証された結果,Shachiは特定のアーキテクチャ選択が行動に与える影響を分析可能であることが示された。
    • 実際の米国関税ショックをモデル化し,記憶とツールを備えた適切な認知アーキテクチャが市場反応と一致することを確認した。

    Link: https://arxiv.org/abs/2509.21862

  • 医療画像と言語モデルにおける迎合性のベンチマークと緩和 [cs.CV, cs.AI]目的:医療分野における視覚言語モデルの迎合性評価と緩和策
    • 医療現場でのAI活用が進む中,診断支援等の精度向上が喫緊の課題である。
    • 視覚言語モデルは,ユーザーの意図や権威に過剰に依存し,客観的な根拠に基づいた推論が困難になる場合がある。
    • 本研究は,医療用視覚言語モデルの迎合性を評価し,その影響を軽減する手法を開発する。
    • 新たに構築した臨床的根拠に基づいたベンチマークを用いて,既存の視覚言語モデルの迎合性を評価した結果,多くのモデルが脆弱であることが判明した。
    • 特に,模倣や専門家による修正が迎合性を引き起こす主要な要因であり,視覚的根拠とは独立したバイアス機構が存在することが示唆された。
    • 提案するVIPERフレームワークは,迎合性を平均的に軽減しつつ,解釈可能性を維持することで,ベースラインと比較して優れた性能を発揮した。

    Link: https://arxiv.org/abs/2509.21979

  • InfiR2: 推論能力強化言語モデルのための包括的なFP8学習レシピ [cs.CL, cs.AI]目的:推論能力強化言語モデルのFP8学習レシピ
    • 大規模言語モデルは高度な性能を示す一方,学習コストが非常に高いという課題がある。
    • FP8学習は効率的な手法だが,包括的なオープンソースのレシピが存在せず普及が阻害されていた。
    • FP8学習の安定性とBF16と同等の性能を確保し,大規模モデル学習をより民主化すること。
    • 提案手法は,継続事前学習と教師ありファインチューニングを統合したエンドツーエンドのFP8学習レシピである。
    • 実験により,レシピの安定性とBF16ベースラインと同等の性能が確認された。
    • 学習時間の最大22%削減,ピークメモリ使用量の14%削減,スループットの19%向上を実現した。

    Link: https://arxiv.org/abs/2509.22536

  • トラストレジオン報酬最適化とプロキシマル逆報酬最適化アルゴリズム [cs.LG, cs.AI]目的:専門家の行動を説明する報酬関数の学習
    • 強化学習の応用範囲拡大には,報酬関数の設計が不可欠である。
    • 従来の逆強化学習は学習が不安定になる場合がある。
    • 報酬関数とポリシーを同時に学習する安定したアルゴリズムを開発する。
    • 本研究では,既存の非敵対的逆強化学習手法が専門家の行動尤度を最大化することに着目した。
    • トラストレジオン報酬最適化(TRRO)というフレームワークを提案し,尤度の単調増加を保証する。
    • 実用的なアルゴリズムであるプロキシマル逆報酬最適化(PIRO)は,既存手法と同等かそれ以上の性能を示す。

    Link: https://arxiv.org/abs/2509.23135

  • Cell2Text:scRNA-Seqデータから単一細胞記述を生成するマルチモーダルLLM [eess.SY, cs.SY, math.OC, cs.LG, cs.CE]目的:単一細胞の記述
    • 単一細胞RNA-Seqは,細胞レベルでの遺伝子発現測定を可能にし,生物学の理解を深める上で不可欠である。
    • 既存のモデルは,定義されたラベルに細胞の複雑さを集約し,生物学者が求めるより詳細な説明を提供できない。
    • scRNA-Seqデータを自然言語記述に変換し,細胞の特性をより詳細に理解することを可能にする。
    • Cell2Textは,分類精度において既存モデルを上回り,高い性能を示す。
    • PageRankに基づく類似度指標を用いて,Cell2Textが強いオントロジー整合性を持つことが示された。
    • 表現データと自然言語を組み合わせることで,予測性能の向上と解釈可能性の向上が可能になる。

    Link: https://arxiv.org/abs/2509.24840

  • 物理モデルの能動的探求 [cs.AI, cond-mat.quant-gas, quant-ph]目的:物理モデルの能動的探求
    • 科学的発見は,観察,分析,仮説生成の相互作用に依存する。
    • 未知のシステムから法則を発見するための探索を自動化する事は困難である。
    • ドメイン知識に依存せず,実験と分析を通してシステムを探索する手法を確立する。
    • SciExplorerは,大規模言語モデルのツール利用能力を活用し,ドメイン固有の設計図なしにシステムの探求を可能にする。
    • 力学系,波動進化,量子多体系物理学など,幅広いモデルにおいて,運動方程式の回復やハミルトニアンの推論において優れた性能を示した。
    • このアプローチの有効性は,ファインチューニングやタスク固有の指示なしに,他の分野での科学的探求への道を開く。

    Link: https://arxiv.org/abs/2509.24978

  • ClustRecNet:クラスタリングアルゴリズム推奨のための新しいエンドツーエンド深層学習フレームワーク [cs.LG, cs.AI]目的:クラスタリングアルゴリズムの推奨
    • 教師なし学習において,適切なクラスタリングアルゴリズムの選択は重要な課題である。
    • 既存の手法は,手動による特徴量設計やクラスタリング妥当性指標に依存しており,限界がある。
    • 深層学習を用いて,データセット構造から直接アルゴリズムを推奨し,その限界を克服することを目指す。
    • 提案手法ClustRecNetは,畳み込み,残差,注意機構を統合したネットワーク構造を有している。
    • 合成データセットと実データセットの両方において,従来の指標やAutoMLアプローチと比較して優れた性能を示した。
    • 合成データではCalinski-Harabasz指標よりARIが0.497向上し,実データでは最良のAutoMLアプローチよりARIが15.3%向上した。

    Link: https://arxiv.org/abs/2509.25289

  • 編集可能なノイズマップ反転:高忠実度画像操作のためのターゲット画像をノイズにエンコード [cs.CV, cs.AI]目的:高忠実度画像操作を実現するためのノイズマップ反転技術
    • 画像生成AIの発展に伴い,高品質な画像編集技術の需要が高まっている。
    • 既存のノイズマップ反転法では,ターゲットテキストに忠実な編集が難しい場合がある。
    • コンテンツの保持と編集可能性の両立を実現するノイズマップ反転技術の開発。
    • 提案手法ENM Inversionは,既存手法と比較して,画像編集タスクにおいて,保存性と編集の忠実度を両立している。
    • ノイズマップの編集可能性を高める分析に基づき,再構成されたノイズマップと編集されたノイズマップの差を最小化する編集可能なノイズリファインメントを導入している。
    • 本手法は,動画編集にも容易に適用可能であり,フレーム間の時間的な整合性とコンテンツ操作を可能にする。

    Link: https://arxiv.org/abs/2509.25776

  • リチウムイオン電池におけるリチウムめっきの機械学習検出:ガウス過程アプローチ [cs.CL, cs.LG, cs.SY, eess.SY]目的:リチウムイオン電池におけるリチウムめっきの検出
    • 急速充電時のリチウムめっきは,電池の劣化を加速させ,安全性に重大な問題を引き起こすため,その監視が重要である。
    • 従来のdQ/dV計算方法はノイズの影響を受けやすく,ピーク位置にバイアスが生じる可能性がある。
    • ガウス過程を用いたフレームワークにより,ノイズの影響を抑え,高精度なリチウムめっき検出を実現する。
    • ガウス過程に基づく手法は,低温・高レート充電下でリチウムめっきのピークを確実に検出し,基準ケースではピークを正しく報告しない。
    • ガウス過程で特定された微分ピーク,充電スループットの低下,および参照性能テストで測定された容量の低下が一致しており,手法の正確性と堅牢性が確認された。
    • 本手法は,リアルタイムでのリチウムめっき検出に向けた実用的な経路を確立する。

    Link: https://arxiv.org/abs/2509.26234

  • TimeScope:タスク指向の長尺動画における時間的グラウンディングへ [cs.CV, cs.AI]目的:長尺動画におけるタスクに関連する情報の時間範囲の特定
    • 動画理解や推論において,重要な瞬間を特定することは不可欠である。
    • 従来の技術では,長尺動画への対応や汎用性に課題があり,時間的グラウンディングが困難である。
    • タスクの説明に基づいて必要な情報を効率的に特定し,時間的グラウンディングの精度向上を目指す。
    • 本研究では,段階的推論に基づく新しいフレームワークTimeScopeを提案し,長尺動画におけるタスク指向の時間的グラウンディングを実現した。
    • ToTG BenchおよびToTG Pileという高品質なデータセットを構築し,TimeScopeの性能向上に貢献した。
    • 実験の結果,TimeScopeは既存の手法や大規模言語モデルと比較して,様々な設定で優れた性能を示した。

    Link: https://arxiv.org/abs/2509.26360

  • 効率的な大規模推論言語モデルのための適応的推論抑制 (ARS) [cs.AI, cs.CL]目的:大規模推論言語モデルにおける計算効率の改善
    • 複雑な推論タスクにおいて,大規模言語モデルの能力が重要視されている。
    • 大規模言語モデルは過剰な推論により計算コストが増大しやすい。
    • 冗長な推論ステップを抑制し,精度を維持しつつ効率化を図る。
    • 提案手法である適応的推論抑制(ARS)は,動的に冗長な推論ステップを抑制する。
    • ARSは,マルチチェックポイントの確実性推定機構と段階的な抑制閾値を用いることで,高い効率を実現する。
    • 実験により,トークン数,レイテンシ,エネルギー消費をそれぞれ最大53%,46.1%,57.9%削減できることが示された。

    Link: https://arxiv.org/abs/2510.00071

  • 言語化サンプリング:LLMのモード崩壊を緩和し,多様性を解放する方法 [cs.CL, cs.AI]目的:LLMにおける多様性の低下とその原因の特定,およびモード崩壊の緩和
    • LLMの性能向上は目覚ましいが,生成されるテキストの多様性維持が課題となっている。
    • LLMの学習データに含まれる選好データの偏りが,多様性の低下とモード崩壊を引き起こす。
    • 選好データの偏りを考慮したプロンプティング手法により,モード崩壊を緩和し多様性を向上させる。
    • 言語化サンプリングは,LLMに複数の応答とその確率分布を言語化させることで,モード崩壊を回避する。
    • 多様なタスク(創作,対話,QA,データ生成)において,直接プロンプティングと比較して1.6~2.1倍の多様性向上を達成した。
    • より高性能なモデルほど言語化サンプリングの効果を強く受け,多様性の向上が期待できる。

    Link: https://arxiv.org/abs/2510.01171

  • CarbonX:時系列基盤モデルを用いた計算脱炭素化のためのオープンソースツール [cs.LG]目的:計算脱炭素化のためのツール開発
    • 計算資源や社会システムにおける炭素排出量削減が喫緊の課題となっている。
    • 既存のツールは,グリッド固有のデータが必要で,グローバルな適用が困難である。
    • データ不足のグリッドでも高精度な予測を可能にし,グローバルな脱炭素化を促進する。
    • CarbonXは,時系列基盤モデルを活用し,炭素排出量予測や補完タスクにおいて高い性能を発揮する。
    • 214のグリッドでゼロショット予測の平均絶対パーセント誤差(MAPE)は15.82%であり,13のベンチマークグリッドでは9.59%と,最先端技術と同等の性能を示す。
    • CarbonXは,限られたデータでも容易に利用でき,グローバル規模の脱炭素化に貢献する実用的なツールである。

    Link: https://arxiv.org/abs/2510.01521

  • LLMの脱獄検出と分析のための機械学習 [cs.CL, cs.AI, cs.CY]目的:LLMの脱獄プロンプトと通常のプロンプトの識別
    • LLMの安全性確保は重要であり,悪意のある利用を防ぐ必要がある。
    • LLMは入力操作による脆弱性を抱え,安全対策を回避される可能性がある。
    • 未知の戦略を用いた脱獄プロンプトの検出と意図の特定を目指す。
    • 現在のデータセットでは,BERTモデルのファインチューニングが脱獄プロンプトの識別において最良の結果を示した。
    • 脱獄プロンプトと通常のプロンプトを区別するキーワードを可視化し,プロンプト構造における明示的な自己言及が脱獄意図の兆候となりうることを示した。

    Link: https://arxiv.org/abs/2510.01644

  • Nav-EE:自律走行における効率的な視覚言語モデルのためのナビゲーション誘導型早期終了 [cs.RO, cs.AI]目的:自律走行のための視覚言語モデルの効率化
    • 自動運転には,周囲の状況を正確に認識し,迅速な判断を下す能力が不可欠である。
    • 視覚言語モデルの推論遅延は,リアルタイムでの自動運転への展開を妨げる大きな課題となっている。
    • ナビゲーション情報を用いて早期終了を誘導することで,遅延を削減しつつ性能を維持することを目指す。
    • Nav-EEは,CODA,Waymo,BOSCHのデータセットにおいて,フル推論と同等の精度を達成した。
    • 推論遅延は最大63.9%削減され,リアルタイム性能が向上したことが示された。
    • Autoware Universeとの統合実験では,推論遅延が600msから300msに短縮され,複雑な状況下での迅速な意思決定に貢献することが確認された。

    Link: https://arxiv.org/abs/2510.01795

  • G$^2$RPO:フローモデルにおける正確な報酬のための粒状GRPO [cs.LG, cs.CV]目的:フローモデルにおける強化学習のための報酬評価の精度向上
    • 拡散モデルやフローモデルと強化学習を組み合わせることで,人間の好みに合わせた生成モデルの構築が可能になる。
    • 既存手法では,報酬信号が疎で狭いため,人間の好みに完全に合致した生成が難しいという課題がある。
    • 本研究では,報酬評価の精度を高め,より人間の好みに近い生成を可能とする手法を提案する。
    • 提案手法G$^2$RPOは,ステップごとの確率的探索を可能にし,報酬とノイズ間の高い相関を維持することで,SDE摂動に対する忠実な報酬を提供する。
    • 固定粒度のノイズ除去に内在するバイアスを解消するため,多粒度アドバンテージ統合モジュールを導入し,より包括的かつ堅牢なサンプリング方向の評価を実現する。
    • 様々な報酬モデルでの実験結果から,G$^2$RPOが既存のフローベースGRPOのベースラインを大幅に上回り,その有効性と堅牢性が示された。

    Link: https://arxiv.org/abs/2510.01982

  • CLARITY:患者ルーティング,推論,トリアージのための臨床アシスタント [cs.CL, cs.AI, cs.MA]目的:患者から専門医へのルーティング,臨床相談,患者の状態の重症度評価の促進
    • 医療現場では,患者の適切な専門医への迅速な振り分けが重要である。
    • 既存のシステムでは,患者情報の分析と適切な専門医へのルーティングに時間がかかる場合がある。
    • AIを活用し,迅速かつ正確な患者のルーティングと相談を実現すること。
    • CLARITYは,大規模な全国病院間プラットフォームに統合され,2か月で55,000件以上の対話が完了した。
    • 専門家による注釈付きの2,500件の対話を用いた検証の結果,初回ルーティングの精度で人間のパフォーマンスを上回った。
    • CLARITYを用いた相談は,人間が行う相談よりも最大で3分の1の時間で完了することが示された。

    Link: https://arxiv.org/abs/2510.02463

  • TabImpute:事前学習済みTransformerによる高精度かつ高速なゼロショット欠損値補完 [cs.RO, cs.LG]目的:表形式データの欠損値補完手法
    • 表形式データは広く利用されており,欠損値は分析の精度低下を招く。
    • 既存手法はドメインや時代によって性能が大きく変動し,汎用的なデフォルト手法が存在しない。
    • 事前学習済みモデルを用いて,チューニングなしで高精度かつ高速な補完を実現する。
    • TabImputeは,既存のTabPFNを基盤とし,表形式データに対応した効率的な特徴量化を導入した。
    • 現実的な欠損パターンを組み込んだ合成データ生成パイプラインにより,テスト時の性能を向上させた。
    • MissBenchという包括的なベンチマークを新たに開発し,TabImputeの性能を11の手法と比較検証した。

    Link: https://arxiv.org/abs/2510.02625

  • 不正確な教師データからのロバストな拡散モデルの学習 [cs.LG, cs.AI]目的:不正確な教師データに対するロバストな拡散モデルの学習手法
    • 拡散モデルは生成タスクで目覚ましい成果を上げているが,学習には大規模データセットが不可欠である。
    • 教師データにはノイズや曖昧さ,不完全なラベルが含まれることが多く,生成品質の低下を招く。
    • 不正確な教師データでもロバストな生成を可能にする学習フレームワークを開発する。
    • DMISは,拡散モデルにおいて初めての体系的な研究であり,尤度最大化に基づいた統一的なフレームワークである。
    • DMISは,不正確なラベル分布を生成成分でモデル化し,拡散分類器を用いてクラス事後確率を推定する。
    • 画像生成,弱教師あり学習,ノイズデータセット凝縮など,多様な実験で高品質で識別力の高いサンプルが生成された。

    Link: https://arxiv.org/abs/2510.03016

  • プロンプトを考慮した低遅延LLMサービングのためのスケジューリング [cs.LG, cs.AI, cs.DC, cs.PF]目的:LLM推論タスクの効率的なスケジューリング
    • LLMの利用拡大に伴い,低遅延かつ高スループットな推論が不可欠である。
    • 従来のFCFS方式では,長時間のタスクが短いタスクの遅延を引き起こすHOLブロッキングが発生する。
    • プロンプトに基づきタスクの優先順位を決定し,HOLブロッキングを軽減すること。
    • 提案手法PARSは,ペアワイズランキングとマージンランキング損失を用いてSJFスケジューリングを近似する。
    • PARSは応答長の予測に基づきタスクの順序を決定し,オーバーヘッドを最小限に抑えながら低遅延を実現する。
    • 複数のLLMと実世界のデータセットを用いた実験により,PARSが性能を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2510.03243

  • 制約を考慮したラグランジュ双対最適化による連合学習:エッジデバイス向け言語モデル [cs.LG, cs.CL, cs.DC]目的:エッジデバイスにおける言語モデルの連合学習における制約充足
    • モバイルデバイス等,計算資源が限られた環境でのAI活用が重要視されている。
    • 連合学習では,デバイス側のリソース制約が性能低下の原因となる場合がある。
    • デバイスのリソース制約を考慮した連合学習手法を開発し,実用性を高める。
    • CAFL-Lは,標準的なFedAvgと比較して,メモリ使用量を20%削減,通信量を95%削減し,制約充足性を向上させた。
    • トークン予算の保存により訓練の安定性を保ちつつ,動的に訓練ハイパーパラメータを調整する。
    • 文字レベル言語モデルの実験により,CAFL-Lがエッジデバイスへの展開に適していることが示された。

    Link: https://arxiv.org/abs/2510.03298

  • 6Gを活用したリアルタイムサイバーフィジカルシステムのためのデジタルツインフレームワーク:産業用ベアリング故障検出による実験的検証 [cs.CL, cs.NI, cs.AI, cs.LG]目的:リアルタイムサイバーフィジカルシステムのデジタルツインフレームワーク
    • 産業における自動化,遠隔操作の高度化には,リアルタイム性の高いCPSが不可欠である。
    • 従来の5Gでは,リアルタイム性を要する産業用途において遅延が課題となっていた。
    • 6Gを活用し,産業用ベアリング故障検出における低遅延性とリアルタイム性を実現する。
    • 提案するフレームワークは,0.8msの遅延で97.7%のベアリング故障分類精度を達成した。
    • WiFi-6と比較して15.6倍,5Gと比較して5.25倍の遅延改善を達成した。
    • ベアリングの4つの故障カテゴリにおいて,97%を超えるマクロ平均F1スコアを維持し,高いスケーラビリティを示した。

    Link: https://arxiv.org/abs/2510.03807

  • 雷雨による停電発生の早期警告:二段階機械学習モデル [cs.LG]目的:夏季における雷雨関連の停電発生の早期警告
    • 自然災害の中でも停電は社会・経済活動に大きな影響を与えるため,その予測は重要である。
    • 雷雨による停電予測は,発生頻度の低さ,気象現象の複雑さ,データ品質の課題により困難である。
    • 公開データを用いて,雷雨に伴う停電発生をより正確に予測し,早期警告を実現することを目指す。
    • 二段階モデルは,特に+/-48時間において,参照ピークの検出率を向上させ(3/4 vs 2/4),F1スコアも改善(66.7% vs 57.1%)した。
    • ピーク発生時間帯近傍では,予測精度が若干向上(cMASEが+/-0-12時間で2-3%低下)したが,+/-36-48時間ではわずかに低下した。
    • SHAP分析により,湿気輸送や風/突風などの先行指標が有効であることが確認され,特徴量エンジニアリングの重要性が示された。

    Link: https://arxiv.org/abs/2510.03959