arXiv雑要約

AI - 2026/02/02 公開

  • LLMサービスにおけるトークン化の多様性が価格変動の要因となる [cs.CL, cs.AI, cs.LG, stat.ML]目的:LLMサービスの価格変動の原因の特定と対策
    • LLMの利用拡大に伴い,サービスの透明性と公平性が重要になっている。
    • LLMのトークン化処理が,同じ出力に対しても複数存在し得る。
    • トークン化の多様性による不公平な価格変動を解消すること。
    • LLMサービスにおいて,非英語圏の言語で生成されたテキストで,同じ内容でも異なるトークン化が発生し,価格が変動することが確認された。
    • 正準生成という手法を提案し,LLMに訓練時に使用された唯一のトークン化を生成させることで,トークン化の多様性を抑制した。
    • 提案手法は,性能や実行時間において標準的なサンプリング手法と同等であり,価格変動の問題を解決できることを示した。

    Link: https://arxiv.org/abs/2506.06446

  • 代替ノイズ下における拡散モデル:簡略化された分析と感度 [cs.LG, stat.ML]目的:拡散モデルの収束率分析と,ノイズ種類の変更による計算効率化
    • 生成AI分野において,拡散モデルは高い性能を示す重要な手法である。
    • 拡散モデルの理論的解析は複雑であり,理解が困難な場合がある。
    • より簡略化された解析手法を確立し,計算コストを削減することを目指す。
    • 拡散モデルのEuler-Maruyama離散化において,$O(T^{-1/2})$の収束率を導出した。
    • 標準ガウスノイズを,平均と分散が一致する離散確率変数で代替可能であることを示した。
    • 実験により,適切な分散調整により離散ノイズがガウスノイズと同等のサンプル品質を達成することを確認した。

    Link: https://arxiv.org/abs/2506.08337

  • 対称的フローマッチング:スコアベース生成モデルによる画像生成,セグメンテーション,分類の統一 [cs.CV, cs.AI]目的:画像生成,セマンティックセグメンテーション,分類の統合
    • 画像生成技術は,現実的な画像を生成する上で重要な役割を担う。
    • 既存手法では,画像生成とセグメンテーション・分類を別々に行う必要があった。
    • 一つのモデルで複数のタスクを効率的に処理し,高い性能を実現すること。
    • SymmFlowは,セマンティック画像合成において最先端の性能を達成した(CelebAMask-HQでFIDスコア11.9,COCO-Stuffで7.0)。
    • SymmFlowは,双方向の一貫性を保ちつつ,生成多様性を確保する対称的な学習目的を導入した。
    • セマンティックセグメンテーションおよび分類タスクにおいても,競争力のある結果を示している。

    Link: https://arxiv.org/abs/2506.10634

  • BNMusic:環境ノイズをパーソナライズされた音楽に融合 [cs.SD, cs.AI, eess.AS]目的:環境ノイズを,ユーザー提供のテキストプロンプトに基づき生成されたパーソナライズされた音楽に融合させる手法
    • 騒音環境下での快適性向上は重要であり,特に都市生活やオフィス環境において,音環境の質が生活の質に大きく影響する。
    • 従来の音響マスキング技術では,ノイズとマスキング音の不整合が課題であり,効果的なマスキングには過剰な音量が必要となる場合がある。
    • ユーザーの好みに合わせた音楽を生成し,環境ノイズを自然に融合することで,騒音による不快感を軽減し,より快適な音響体験を提供する。
    • 本研究で提案するBNMusicフレームワークは,ノイズの本質を捉えた音楽を生成し,環境ノイズの知覚を低減することに成功した。
    • MusicBench,EPIC-SOUNDS,ESC-50を用いた評価実験により,リズムに合わせ,適応的に増幅された音楽セグメントに環境ノイズを効果的に融合できることが示された。
    • この手法は,ノイズの目立ちにくさを最小限に抑え,全体的な音響体験を向上させる可能性を秘めている。

    Link: https://arxiv.org/abs/2506.10754

  • 直接推論最適化:トークンレベルの密な報酬と評価基準による制約付き強化学習 [cs.CL, cs.AI, cs.LG]目的:オープンエンドなタスクに対する制約付き強化学習による直接推論の最適化
    • 大規模言語モデルの能力向上は,複雑なタスク遂行において不可欠であり,その学習方法が重要視される。
    • オープンエンドなタスクにおける強化学習は,正解の検証が難しく,学習の安定性や効率性に課題がある。
    • 推論の質を評価し,タスクの制約を遵守することで,より効果的な言語モデルの学習を目指す。
    • 提案手法は,トークンレベルの報酬と評価基準による制約を用いることで,既存手法よりも優れた性能を示す。
    • 学習速度が向上し,より少ないサンプル数で効率的な学習が可能となる。
    • タスクの制約を尊重し,現実的な解を生成する能力が向上する。

    Link: https://arxiv.org/abs/2506.13351

  • 明白な範囲を超えて:隠れた視覚的不変性の景観を明らかにする勾配不要フレームワーク [cs.CV, cs.NE]目的:視覚ユニットによって符号化される特徴量の組み合わせの解明
    • 画像認識のメカニズム理解には不可欠であり,汎化性能向上に繋がる。
    • 既存手法では,ユニットの応答が不変である変換の多様性を捉えきれない。
    • 視覚ユニットの最も不変な刺激と,敵対的摂動に対する脆弱性を特定する。
    • SnSは,既存のアフィン変換よりもピクセル空間で参照画像から遠い不変変換を明らかにした。
    • 最適化に使用する画像表現の段階によって,発見された不変画像に違いが見られた。
    • L2ロバストネットワークで得られた階層的な不変画像は,深い層でストレッチされると解釈可能性が低下した。

    Link: https://arxiv.org/abs/2506.17040

  • オフライン目標条件付き強化学習における射影準計量計画 [cs.LG]目的:以前に収集された軌跡から,指定された目標に到達するためのエージェントの訓練
    • 長期的なタスクへの拡張が期待される強化学習の分野において,データ効率と汎化性能が重要である。
    • 価値推定誤差の累積が問題となり,長期的なタスクにおける学習が困難である。
    • 学習された潜在空間においてキーポイントを均一に分布させ,到達可能な領域内での目標達成を可能にする。
    • 提案手法ProQは,非対称距離を学習し,それを反発エネルギーと構造化された方向コストとして活用する。
    • ProQは,計量学習,キーポイントカバレッジ,目標条件付き制御を統合することで,意味のあるサブゴールを生成する。
    • 多様なナビゲーションベンチマークにおいて,長期的な目標達成能力が実証された。

    Link: https://arxiv.org/abs/2506.18847

  • SAFER:スパースオートエンコーダによる報酬モデルの安全性調査 [cs.CL, cs.AI]目的:報酬モデルにおける安全性評価手法の確立
    • LLMの安全性確保は,社会実装において不可欠であり,その重要性は増している。
    • 報酬モデルの内部構造が不透明であり,安全性に関する検証が困難である。
    • 報酬モデルの活性化を分析し,安全性に関わる特徴量を特定・改善することを目指す。
    • SAFERを用いることで,報酬モデルの活性化から人間が解釈可能な特徴量を抽出できた。
    • 選択された応答と却下された応答の活性化差分から,安全性を左右する特徴量の重要度を定量化できた。
    • 少量データの改変により,報酬モデルの安全性アライメントを精密に低下または向上させることが示された。

    Link: https://arxiv.org/abs/2507.00665

  • 拡散光-Turbo: シングルパスのクロームボールインペインティングによる高速光プローブ推定 [cs.CV, cs.GR, cs.LG]目的:単一の低輝度範囲(LDR)画像からの照明推定
    • 実写的な映像制作において,正確な照明表現は重要な課題である。
    • 既存手法は,限られたHDRパノラマデータセットに依存し,汎化性能が低いという問題がある。
    • 拡散モデルの不安定性を克服し,高速かつ高品質な照明推定を実現すること。
    • 本研究では,拡散モデルを用いたクロームボールのインペインティングというシンプルなアプローチで,照明推定を行う。
    • 反復インペインティングとLoRAの微調整により,従来のDiffusionLightと比較して60倍高速化し,推定時間を約30秒に短縮した。
    • 多様な環境下で説得力のある照明推定結果が得られ,汎化性能の高さが示された。

    Link: https://arxiv.org/abs/2507.01305

  • Spattack:連合推薦システムに対するサブグループポイズニング攻撃 [cs.CR, cs.AI, cs.DC, cs.IR]目的:特定のユーザーサブグループに対する推薦操作
    • ユーザープライバシー保護と個別化推薦の両立が重要視される中,連合推薦システムが注目されている。
    • 連合推薦システムは,悪意のあるクライアントによるポイズニング攻撃に対して脆弱であることが示唆されている。
    • 特定のユーザーサブグループを標的とした,より効果的かつステルス性の高いポイズニング攻撃手法を開発すること。
    • Spattackは,ターゲットサブグループに対して高い攻撃性能を発揮しつつ,ノンターゲットユーザーへの影響を最小限に抑えることを可能にした。
    • 悪意のあるユーザーが全体のわずか0.1%でも,効果的な攻撃が実施できることが実証された。
    • Spattackは,一般的な防御策に対しても堅牢性を示し,推薦性能を維持しながら攻撃を成功させる。

    Link: https://arxiv.org/abs/2507.06258

  • FloorplanQA:LLMにおける空間推論のための構造化表現を用いたベンチマーク [cs.AI]目的:LLMにおける空間推論能力の評価
    • AIが現実世界と相互作用するためには,空間的理解が不可欠である。
    • LLMは表面的なクエリには対応できるものの,物理的制約を無視することがある。
    • LLMの室内レイアウトに関する不整合な推論を明らかにし,改善を促す。
    • FloorplanQAは,キッチン,リビングルームなどの室内シーンをJSONやXMLで構造化して表現する。
    • 距離測定,視認性,経路探索,物体配置といった基本的な空間タスクを網羅している。
    • 現在のLLMは,空間的摂動に対してはある程度頑健だが,レイアウトの矛盾した推論に弱点があることが示された。

    Link: https://arxiv.org/abs/2507.07644

  • 情報理論的原理に基づく関係データのための事前学習フレームワーク [cs.LG, cs.AI]目的:関係データに対する事前学習戦略の設計
    • 様々な分野の基盤となる関係データベースの活用が重要であるため。
    • 関係データベースから学習するための汎用的な事前学習戦略の設計が課題となっている。
    • タスクの多様性を考慮したタスク対応表現獲得を目指している。
    • 提案手法TVEは,スキーマトラバーサルグラフを用いた集合ベース集約により予測的な教師信号を構築する。
    • 情報理論的観点から,タスク情報を含む表現はタスク事前情報なしの表現よりも関連信号を多く保持することが示された。
    • RelBenchベンチマークにおける実験で,TVEは従来の事前学習手法を安定して上回る性能を示した。

    Link: https://arxiv.org/abs/2507.09837

  • ロジスティクスのための基盤モデル:検証可能な対話型プランニングインターフェースへ [cs.RO, cs.AI, cs.FL]目的:ロジスティクス計画における検証可能性と対話性を備えたインターフェースの実現
    • ロジスティクスは,サプライチェーンの効率化や災害時の物資供給など,社会経済活動を支える基盤である。
    • 従来の計画手法は理想化された環境モデルに依存し,現実世界の不確実性への対応が課題であった。
    • 自然言語による指示の解釈ミスや誤情報を防ぎ,安全かつ費用対効果の高い計画を実現すること。
    • 本研究では,自然言語と構造化計画を組み合わせたVLLエージェントを開発し,ユーザーの意図を正確に解釈する。
    • わずか100サンプルで学習した軽量モデルが,20倍大きいモデルを上回り,推論速度もほぼ半減した。
    • エージェントは不確実性を定量化し,閾値を超えた場合は対話的な明確化ループを開始することで,安全性を高める。

    Link: https://arxiv.org/abs/2507.11352

  • MetaLint:命令追従と易硬度汎化による汎用的な慣用コード品質分析 [cs.SE, cs.CL, cs.LG]目的:慣用コード品質分析の一般化
    • コード品質はソフトウェア開発において不可欠であり,保守性や信頼性に大きく影響する。
    • 静的学習データだけでは,進化するベストプラクティスを捉えきれず,コード品質分析は困難である。
    • 動的に指定されたベストプラクティスを用いて,未知の品質問題への対応を目指す。
    • MetaLintは,命令追従と優先順位最適化により,見慣れないベストプラクティスへの汎化性能を向上させた。
    • Qwen3-4Bは,検出Fスコアを2.7倍(25.9%から70.4%)に向上させ,高い再現率と局所化Fスコアを実現した。
    • これらの改善は,プログラミング言語,モデル,規模,推論設定,リンターソースを横断して一般化されることが確認された。

    Link: https://arxiv.org/abs/2507.11687

  • PICACO:総相関最適化によるLLMの多元的インコンテキスト価値整合 [cs.CL, cs.AI, cs.CY]目的:LLMの価値整合の向上
    • LLMの安全性と有用性を高めるため,人間の価値観との整合が重要である。
    • 単一のプロンプトで複数の価値観を調整することが困難であり,不完全または偏った整合が生じやすい。
    • 複数の価値観を理解させ,バランスの取れた価値整合を実現することを目指す。
    • PICACOは,ファインチューニングなしでメタ指示を最適化し,LLMが複数の価値観を理解するのを助ける。
    • 指定された価値観とLLMの応答間の総相関を最大化することで,効果的な価値指示を生成する。
    • 5つの価値観セットにおける実験で,既存手法を上回り,最大8つの異なる価値観間のバランスを改善した。

    Link: https://arxiv.org/abs/2507.16679

  • ElectriQ:電力マーケティングにおける大規模言語モデルの応答能力を評価するためのベンチマーク [cs.CL, cs.AI]目的:電力マーケティングにおける大規模言語モデルの応答能力評価のためのベンチマーク
    • 電力システムが脱炭素化,デジタル化する中で,電力マーケティングは規制,系統運用,持続可能なエネルギー導入の重要なインターフェースである。
    • 既存のチャットボットは知識ベースが断片的で,長文の対話や規制遵守,検証可能性に課題がある。
    • 電力分野特有の知識や多段階の安定性を評価するためのベンチマークを提供し,LLMの活用を促進する。
    • ElectriQは,6つのサービス領域と24のサブシナリオにわたる55万件以上の対話を含む大規模なベンチマークである。
    • SEEK-RAGは,ファインチューニングと推論時にポリシーとドメイン知識を注入することで,7Bモデルがより大規模なモデルと同等またはそれ以上の性能を発揮する。
    • 本研究は,需要側管理,再生可能エネルギー統合,レジリエントなグリッド運用を支援するLLMベースの電力マーケティングアシスタントの導入に貢献する。

    Link: https://arxiv.org/abs/2507.22911

  • 思考機械:LLM時代の数学的推論 [cs.AI]目的:LLMにおける数学的推論の現状と課題
    • 現代社会において,数学的思考能力は科学技術の発展や問題解決に不可欠である。
    • LLMはプログラミングでは成功を収めているが,形式化された数学においては進歩が遅れている。
    • LLMの数学的推論能力の限界を明確にし,今後の発展方向を示す。
    • LLMは構造化された推論や記号処理において高い能力を示す一方,数学分野ではその進展が遅れている。
    • 形式化された数学の合成は,コード生成よりも脆い構造と方法論的理由を持つ。
    • LLMが論理的状態を真に表現しているのか,単に模倣しているのかという問題が残されている。

    Link: https://arxiv.org/abs/2508.00459

  • ラベルエラー検出から修正へ:物体検出データセットのためのモジュール型フレームワークとベンチマーク [cs.CL, math.PR, cs.CV, cs.LG]目的:物体検出データセットにおけるラベルエラーの検出と修正
    • 物体検出の性能向上には,大規模かつ多様なデータセットが不可欠である。
    • データセットに存在するラベルエラーは,学習や評価結果に悪影響を及ぼす可能性がある。
    • ラベルエラーを体系的に効率的に修正する手法の確立が求められている。
    • 提案手法Recheckedは,既存のラベルエラー検出手法とクラウドソーシングを組み合わせることで,少ない人的コストでラベルエラーを修正できる。
    • KITTIデータセットの歩行者クラスにおいて,オリジナルデータに約18%のラベルエラー(欠落または不正確)が存在することが確認された。
    • 公開されたベンチマークは,さらなるラベルエラー検出手法の研究開発を促進する。

    Link: https://arxiv.org/abs/2508.06556

  • QuiZSF:ゼロショット時系列予測のための検索拡張フレームワーク [cs.LG]目的:ゼロショット時系列予測における性能向上
    • 現代のWebサービスにおいて,時系列データ予測は不可欠であり,交通管理や異常検知等に応用される。
    • 新しいドメインが急速に現れるWeb環境では,ラベル付きデータの不足がゼロショット予測の課題となる。
    • 外部知識を動的に組み込むことが難しい既存モデルの限界を克服し,予測精度を向上させる。
    • QuiZSFは,大規模な時系列データベースから類似系列を検索し,その知識を予測に統合するフレームワークである。
    • ChronoRAG Baseにより,スケーラブルでドメインを考慮した検索が可能となり,予測精度が向上する。
    • 5つの公開ベンチマークにおいて,QuiZSFは強力なベースラインを上回り,最先端の性能を示した。

    Link: https://arxiv.org/abs/2508.06915

  • BiasGym:驚くべきLLMの偏りと,それらを見つけ(そして除去)する方法 [cs.CL, cs.AI, cs.LG]目的:大規模言語モデル(LLM)における偏見とステレオタイプの分析・軽減手法
    • LLMの社会実装が進む中,潜在的な偏見の影響を理解し,対処することは不可欠である。
    • 偏見は巧妙に隠されており,意図的に引き出しても特定が難しく,体系的な分析が困難である。
    • BiasGymは,LLM内の偏見を確実に注入・分析・軽減し,安全性を高めることを目指す。
    • BiasGymは,モデルを固定したままトークンベースで微調整することで,特定の偏見を安全に注入するBiasInjectと,注入された信号を利用して偏見の原因を特定するBiasScopeの二つのコンポーネントから構成される。
    • BiasGymを用いることで,偏見の一貫した誘発,メカニズム分析,標的を絞った偏見の軽減が可能であり,ファインチューニング時に見られなかった偏見にも対応できる。
    • 実証実験では,BiasGymがイタリア人に対する「無謀な運転手」といったステレオタイプを軽減できることが示され,安全性向上と解釈可能性研究への有用性が確認された。

    Link: https://arxiv.org/abs/2508.08855

  • ファインチューニングされた大規模言語モデルに対する再学習を伴わない多層安全継続投影 [eess.SY, cs.SY, cs.LG, cs.AI]目的:ファインチューニングされた大規模言語モデルの安全性向上
    • 大規模言語モデルの能力向上は目覚ましいが,安全性確保が重要課題となっている。
    • ファインチューニングにより安全性が損なわれ,新たな攻撃に対して脆弱になる問題がある。
    • 安全性と性能を両立し,継続的な安全対策を可能にすることを目的とする。
    • 本研究では,多層安全継続投影(MSCP)という再学習を必要としない手法を提案した。
    • MSCPは,安全性に関わる活性化を多層的に調整し,有害な出力を抑制することで,安全性を高める。
    • 実験結果から,MSCPは有害性スコアと攻撃成功率を大幅に低減し,モデルの有用性を維持することが示された。

    Link: https://arxiv.org/abs/2508.09190

  • 複数アノテーター傾向学習のための統一評価フレームワーク [cs.LG, cs.MM]目的:複数アノテーター傾向学習手法の評価
    • アノテーションは機械学習の基盤技術であり,その品質はモデル性能に大きく影響する。
    • 従来の合意形成学習では,アノテーター個人の特性が無視され,説明可能性に課題があった。
    • アノテーターの行動傾向を捉え,解釈可能な説明を提供する評価手法の確立を目指す。
    • 提案フレームワークは,アノテーター間の整合性の一致度を定量化するDIC指標を導入した。
    • BAE指標により,モデルの説明とアノテーターの行動との整合性を評価することで,説明の妥当性を検証した。
    • 実験結果は,提案フレームワークがITL手法の有効性を評価できることを示した。

    Link: https://arxiv.org/abs/2508.10393

  • DREAMS:次元削減における局所的構造と大域的構造の双方の保存 [cs.LG]目的:高次元データの局所的構造と大域的構造を同時に保存する次元削減手法
    • 高次元データの可視化は,データ理解やパターン発見において重要な役割を果たす。
    • 既存手法は局所構造か大域構造のいずれかに偏り,両構造を同時に保存することが困難である。
    • 局所構造と大域構造のバランスを取ることで,より包括的なデータ表現を目指す。
    • DREAMSは,t-SNEの局所構造保存能力とPCAの大域構造保存能力を組み合わせることで,両構造を効果的に保存する。
    • DREAMSは,t-SNEとPCAの中間的な埋め込みを生成し,局所構造と大域構造のバランスを調整する。
    • 実データセットを用いた評価により,DREAMSが既存手法よりも構造保存能力で優れていることが示された。

    Link: https://arxiv.org/abs/2508.13747

  • 深層生成モデルにおける量子潜在分布 [cs.LG, quant-ph]目的:深層生成モデルの性能向上に資する量子潜在分布の理論的・実験的検証
    • 生成モデルは,データ分布を学習する上で重要な役割を担う。潜在分布の選択が性能に大きく影響する。
    • 古典的な潜在分布では,表現力に限界があり,複雑なデータ分布の学習が困難となる場合がある。
    • 量子プロセッサが生成する潜在分布の利点を明確にし,深層生成モデルの能力拡張に貢献すること。
    • 理論的に,特定の条件下で量子潜在分布が古典的な分布では効率的に生成できないデータ分布を生み出すことを示した。
    • 合成量子データセットおよびQM9分子データセットにおけるベンチマークの結果,量子干渉による統計が古典的なベースラインよりも高い生成性能を示すことが確認された。
    • この結果は,量子プロセッサが深層生成モデルの能力を拡張する可能性を示唆する。

    Link: https://arxiv.org/abs/2508.19857

  • ソーシャルワールドモデル [cs.CL, cs.AI]目的:複雑な社会動態の特性把握
    • 人間は社会性を持ち合わせている一方,AIは社会的な文脈の理解が困難である。
    • AIは意図や信念といった観測されない社会的な要素の表現が不足している。
    • AIが社会的な推論能力を高め,より自然な社会対話を実現すること。
    • 本研究で提案するS3APは,エージェントの状態,行動,メンタルステートを構造的に表現し,大規模言語モデル(LLM)の性能を大幅に向上させる。
    • 実験の結果,FANToMベンチマークで51%の性能改善,SOTOPIAベンチマークでは18%の改善が確認された。
    • 隠れたメンタルステートの明示的なモデル化が,性能向上に大きく貢献していることが明らかになった。

    Link: https://arxiv.org/abs/2509.00559

  • FLM-Audio:自然な独白が二重訓練によりネイティブな全二重チャットボットを改善する [cs.SD, cs.AI, cs.CL]目的:全二重対話型チャットボットの性能向上
    • 自然な対話システムの実現は,人間との円滑なコミュニケーションに不可欠である。
    • 既存の全二重モデルは,テキストを単語レベルで音声と同期させるため,言語モデル能力が低下する。
    • 連続的な文と「待ち」間隔で構成される自然な独白を導入し,音声との意味的整合性を高める。
    • FLM-Audioは,連続的な独白と二重訓練戦略により,優れた応答品質とチャット体験を実現した。
    • 従来のモデルと比較して,大幅に少ない学習データで同等の性能を発揮する。
    • ネイティブな全二重性を持ち,低遅延で動的なユーザー入力に迅速に対応可能である。

    Link: https://arxiv.org/abs/2509.02521

  • SpiderNets:画像から人間の恐怖を予測するビジョンモデル [cs.AR, cs.CV, cs.AI, cs.HC, cs.LG]目的:恐怖画像からの恐怖予測の自動化
    • 恐怖症は一般的であり,視覚刺激を用いた暴露療法が有効である。
    • 刺激選択と治療強度を適応させる自動化には,画像からの恐怖予測が必要。
    • 個人や刺激間で信頼性が高く汎化する恐怖予測手法の開発。
    • 事前学習済みのビジョンモデルが,クモに関する画像の集団レベルでの恐怖度を高い精度で予測。
    • 予測は画像内のクモ固有の領域によって駆動されていることが視覚的説明分析で示された。
    • トランスフォーマーモデルはデータ効率が高く,約300枚のデータで性能飽和に近づく。

    Link: https://arxiv.org/abs/2509.04889

  • 科学的発見におけるAIは社会問題である [cs.LG, cs.CY]目的:科学的発見におけるAIの社会的な課題と解決策
    • 科学研究へのAI活用は進むが,その恩恵は限られている
    • 技術的課題に加え,社会制度上の制約が大きく影響している
    • 公平性と参加を前提とした,AI科学研究の社会プロジェクト化
    • AI科学研究における,コミュニティ連携の重要性が示唆された
    • 研究優先順位と下流ニーズの不一致,データ断片化,インフラの不平等が課題として挙げられた
    • 技術革新に加え,共同体制の構築と教育が不可欠であると主張された

    Link: https://arxiv.org/abs/2509.06580

  • 大規模言語モデルシステムの故障原因特定のための推論に基づく帰属手法 RAFFLES [cs.AI, cs.CL]目的:大規模言語モデルシステムの故障原因の特定
    • 複雑化するLLMシステムの信頼性確保は重要であり,故障時の迅速な原因特定が不可欠である。
    • 既存の評価手法は単純な指標に依存し,複雑なシステムの挙動を捉えきれないという課題がある。
    • 本研究は,LLMシステムの多段階的な故障を自動で検出し,原因を特定することを目指す。
    • RAFFLESは,反復的な推論を用いたオフライン評価アーキテクチャであり,故障特定と評価を繰り返す。
    • Who&Whenデータセットにおいて,既存手法を大きく上回り,手動作成データセットで20%以上,アルゴリズム生成データセットで50%以上の精度を達成した。
    • ReasonEvalデータセットでは80%以上の高精度を達成し,自動故障検出の可能性を示した。

    Link: https://arxiv.org/abs/2509.06822

  • 自律型ネットワークのためのAIエージェント活用:参照アーキテクチャと実証研究 [cs.AI]目的:AIエージェントを活用した自律型ネットワークの実現に向けたアーキテクチャと実証
    • 通信分野において,ネットワークの自律化は,効率化とサービス品質向上に不可欠である。
    • 従来のネットワークは,手動設定や単純な自動化に依存しており,変化への対応が遅れる。
    • 本研究は,AIエージェントによるネットワークの認知能力向上を目指し,自律化レベル4の実現に貢献する。
    • 提案アーキテクチャは,5G NRサブ6GHzにおいて,10ms以下のリアルタイム制御を可能にした。
    • Outer Loop Link Adaptation (OLLA)アルゴリズムと比較して,4%高い下りスループットを達成した。
    • 動的な変調・符号化方式(MCS)最適化により,BERを85%削減し,超信頼性サービスを実現した。

    Link: https://arxiv.org/abs/2509.08312

  • ホプキンス損失による特徴空間トポロジー制御 [cs.HC, cs.LG, cs.AI]目的:特徴空間のトポロジー制御
    • 機械学習の性能向上に,特徴空間の構造が重要な役割を果たす。
    • 既存手法では,入力特徴量のトポロジーを維持することに重点が置かれている。
    • ホプキンス損失を用いて,特徴空間の望ましいトポロジーを強制すること。
    • ホプキンス損失は,分類性能への影響を最小限に抑えつつ,特徴空間のトポロジーを変更可能である。
    • 音声,テキスト,画像データを用いた実験により,その有効性が確認された。
    • 特に,非線形ボトルネックオートエンコーダを用いた次元削減において効果が示された。

    Link: https://arxiv.org/abs/2509.11154

  • EgoMem:全二重オムニモーダルモデルのための生涯記憶エージェント [cs.AI]目的:全二重オムニモーダルモデルにおける生涯記憶の実現
    • 人間とAIの自然な対話を実現するため,長期的な文脈理解と個別化が重要である。
    • 既存の記憶エージェントは,主にテキストデータに依存しており,リアルタイムなマルチモーダル入力への対応が課題である。
    • 本研究は,音声と映像の生のストリームのみを用いて,リアルタイムかつ継続的な個別化対話を可能とする。
    • EgoMemは,顔と声からユーザーを動的に識別し,過去の情報を検索する仕組みを備えている。
    • EgoMemの検索・記憶管理モジュールは,テストセットで95%以上の精度を達成した。
    • RoboEgoと統合した実験では,リアルタイムの個別化対話において87%以上の事実一貫性スコアを記録した。

    Link: https://arxiv.org/abs/2509.11914

  • ネットワーク埋め込みにおける情報損失と不均衡な影響 [cs.SI, cs.LG]目的:ネットワーク埋め込みにおける不均衡な影響の発生メカニズムの解明
    • ネットワーク分析は社会現象の理解に不可欠であり,埋め込み表現はその応用を広げている。
    • 既存の埋め込み手法では,グループ構造や密度に応じた情報損失が生じることが懸念される。
    • グラフ構造の特性が埋め込み表現に与える影響を明らかにし,公平性の問題を解決する糸口を見出す。
    • 確率的ブロックモデルを用いた解析により,埋め込み表現が情報損失を引き起こす条件を特定した。
    • 情報損失の度合いはグラフの密度とアソータティビティに強く依存することが示された。
    • 異なるグラフが同一の埋め込み表現を生み出す非可逆性が,小規模なコミュニティに不均衡な影響をもたらすことが判明した。

    Link: https://arxiv.org/abs/2509.12396

  • 一般損失関数を用いたラベルプロポーションからの最適学習 [cs.LG]目的:ラベルプロポーションからの学習
    • オンライン広告など,ラベル付けコストが高い場合に有用な学習手法である。
    • 集計ラベル情報からの学習は,バイアスが大きく,分散が大きいという課題がある。
    • 幅広い損失関数に対応可能な,低分散のバイアス除去手法を提案する。
    • 提案手法は,二値分類および多クラス分類の両方で優れた柔軟性を示した。
    • 標準的な手法と比較して,サンプル複雑性に関する理論的な保証を改善した。
    • 多様なベンチマークデータセットにおいて,提案手法の有効性が実証された。

    Link: https://arxiv.org/abs/2509.15145

  • 多エージェント討論による言語モデルの自己改善 [cs.AI]目的:言語モデルの自己改善手法
    • 言語モデルの性能向上は,自然言語処理の発展に不可欠である。
    • 言語モデルは,自身の能力を超える改善が困難である。
    • 多エージェント討論による学習信号の活用で自己改善を促進する。
    • 多エージェント討論を用いることで,単一ラウンドの多数決よりも豊富な学習信号が得られる。
    • MACA(Multi-Agent Consensus Alignment)により,言語モデルは数学の問題解決能力が向上した(MATHで+26.87%)。
    • 個々の言語モデルの精度向上(MathQAで+21.51%)と自己整合性の向上(GSM8Kで+27.6%)が確認された。

    Link: https://arxiv.org/abs/2509.15172

  • 敵対的音声攻撃における音声学の影響 [cs.SD, cs.AI, cs.CR, eess.AS]目的:敵対的音声攻撃による話者識別への影響の解明
    • 音声認識や話者認証は,セキュリティシステムの重要な要素であり,その堅牢性が求められている。
    • 敵対的摂動は,人間の知覚では捉えにくい微細な波形改変によって,音声認識システムを欺く可能性がある。
    • 音声学的な特徴に着目し,敵対的攻撃が話者識別にもたらす影響を明らかにすることで,より強固な防御策を開発する。
    • 敵対的音声は,母音の中央化や子音の置換といった,音声学的な混乱を利用していることが示された。
    • これらの歪みは,音声認識の誤りを引き起こすだけでなく,話者認証に不可欠な音声特徴を劣化させ,話者識別のずれを引き起こす。
    • 実験結果から,敵対的音声は転写エラーと話者識別のずれの両方を誘発することが明らかになり,音声学に基づいた防御の必要性が示唆された。

    Link: https://arxiv.org/abs/2509.15437

  • FESTA:マルチモーダルLLMの信頼性評価のための機能的に等価なサンプリング [cs.AI, cs.CL, cs.LG]目的:マルチモーダルLLMの信頼性評価手法
    • マルチモーダルLLMの応用が拡大する中で,その予測の信頼性を評価することが重要である。
    • 多様な入力様式に対応したLLMの信頼性評価は困難であり,誤った予測を検出しにくいという課題がある。
    • 入力空間を拡張し,モデルの一貫性と感度を検証することで,信頼性の高い予測選択を目指す。
    • 提案手法FESTAは,既存のマルチモーダルLLMに対し,外部データなし(教師なし)で適用可能である。
    • FESTAによる不確実性推定は,誤予測検出の精度を大幅に向上させ,特に画像と音声の推論タスクにおいて高い性能を示した。
    • 画像LLMで33.3%,音声LLMで29.6%の相対的な改善が,AUROC指標に基づき確認された。

    Link: https://arxiv.org/abs/2509.16648

  • コア空間における正確かつ効率的な低ランクモデルのマージ [cs.CV, cs.AI]目的:大規模ニューラルネットワークの低ランク適応モデルのマージ
    • 近年,LoRA等のパラメータ効率の良い適応技術により,モデルのファインチューニングが容易になった。
    • 既存のマージ手法は効率性を損ない,フルサイズの重み行列を扱うため計算コストが高い。
    • コア空間を用いることで,効率性を維持しつつ,タスク間の精度を大幅に向上させることを目指す。
    • コア空間マージフレームワークは,共通の配置基底内でLoRA適応モデルをマージすることで,低ランク適応の効率を維持する。
    • コア空間への投影が情報損失をもたらさないことの形式的な証明と,効率性の利点を示す複雑性分析を提供する。
    • ビジョンと言語タスクの両方において,既存のマージ技術を大幅に改善し,最先端の結果を達成する。

    Link: https://arxiv.org/abs/2509.17786

  • 潜在反復洗練フロー:少サンプル生成のための幾何学的制約アプローチ [cs.DM, cs.LG]目的:少サンプル生成における多様性低下の解決
    • データが限られた状況下での生成モデルの性能向上は重要である。
    • 限られたデータで学習した場合,生成モデルは汎化せず,訓練データを記憶してしまう。
    • 学習された速度場が崩壊し,サンプリング軌跡が捕捉される問題を解決する。
    • 提案手法LIRFは,潜在空間の幾何学的構造を利用し,訓練データ多様体を反復的に高密度化する。
    • この多様体高密度化手順の収束性に関する理論的保証も提供する。
    • 実験の結果,LIRFは既存の拡散モデルと比較して,多様性と再現率が大幅に向上した。

    Link: https://arxiv.org/abs/2509.19903

  • 大規模言語モデルの構成要素に向けて [cs.CL, cs.AI]目的:大規模言語モデルの基本的な表現単位の定義,評価,特定
    • 大規模言語モデルの内部メカニズムの理解は,その性能向上と応用範囲拡大に不可欠である。
    • 大規模言語モデルにおける表現の基本単位が未定義であり,モデルの解釈可能性を阻害している。
    • 大規模言語モデルの表現単位を特定し,モデルの内部表現の理解を深めることを目指す。
    • 本研究では「Atom Theory」を提唱し,表現単位を「atom」と定義した。忠実性と安定性の2つの基準を設けて評価を行った。
    • ニューロンや特徴量は理想的なatomとは言えず,TSAEの容量がデータ規模と一致することで,信頼性の高いatomの特定が可能となった。
    • Gemma2やLlama3において,高い忠実性と安定性を持つ表現単位(atom)を特定し,理論的な予測との整合性も確認された。

    Link: https://arxiv.org/abs/2509.20784

  • LAVA:教師なし潜在埋め込みの説明可能性 [cs.LG, cs.AI]目的:教師なし学習における埋め込み構造と入力特徴の関係性の解明
    • 科学的発見を推進する教師なしモデルの利用が増加しており,その解釈可能性が重要である。
    • 既存の説明手法は,個々のサンプルかデータセット全体の要約に留まり,埋め込みの構造を適切に説明できない。
    • 入力データの共分散に着目し,局所的な埋め込みの組織化を説明することで,この問題を解決する。
    • LAVAは,入力特徴の相関関係を捉えたモジュールを通じて,埋め込みの局所的な構造を説明する。
    • LAVAは安定した説明を提供し,画像中の視覚的要素や細胞プロセスの疾患シグナルといったドメインに関連するパターンを明らかにできる。
    • 既存手法では見過ごされていたパターンを提示することで,埋め込みの説明可能性を向上させる。

    Link: https://arxiv.org/abs/2509.21149

  • クリッピングの問題点:LLM強化学習のための確率平滑化によるソフトトラストリージョン [cs.LG, cs.AI]目的:LLMの強化学習における安定化手法
    • 大規模言語モデルの性能向上には,強化学習が不可欠であり,その安定化が重要な課題である。
    • 従来のクリッピング手法は,不安定性を防ぐ一方で,情報の損失や勾配の不連続性を引き起こす。
    • 確率平滑化により勾配を維持し,より安定した学習を実現することで,性能向上を目指す。
    • 提案手法PSPOは,数学的推論ベンチマークにおいて,従来のクリッピング手法やシグモイドベースの手法を上回る性能を示した。
    • 特にQwen2-Math-1.5Bモデルを用いたGSM8Kでは79.9%,MATHでは59.6%の精度を達成した。
    • 線形補間を用いることで,勾配消失や飽和の問題を回避し,よりロバストな勾配の維持を実現した。

    Link: https://arxiv.org/abs/2509.21282

  • 確信度を用いたフィルタリング:データ拡張と適合予測の融合 [cs.LG]目的:データ拡張と適合予測を組み合わせたフィルタリング手法
    • データ不足やモデルのデータ依存度増加が課題であり,データ拡張が有効な解決策として注目されている。
    • データ拡張の品質管理が重要であり,分布のずれやバイアスが問題となる場合がある。
    • 生成された合成データの品質を保証し,リスクを制御するフィルタリング手法を提案する。
    • 提案手法であるConformal Data Augmentationは,適合予測を活用し,高品質な合成データを生成する。
    • 本手法は実装が容易であり,モデルの内部ロジットや大規模な再学習は不要である。
    • トピック予測,感情分析,画像分類,不正検知など複数のタスクで,F1スコアが最大40%向上することを確認した。

    Link: https://arxiv.org/abs/2509.21479

  • 行動固持を用いた車両経路問題の継続学習 [cs.AI, cs.LG]目的:車両経路問題における継続学習のための行動固持フレームワーク
    • 経路問題解決において,ニューラルネットワークを用いたアプローチが注目を集めている。
    • 新たなタスクへの対応時に,知識の忘却(キャタストロフィック・フォージェッティング)が課題となる。
    • 過去の知識を保持しつつ,新たなタスクに柔軟に対応できる継続学習手法を確立する。
    • 提案手法LLR-BCは,新しいタスクで学習した挙動を過去の挙動に沿って調整することで,知識の固持を効果的に実現する。
    • 低い確信度を持つ決定により大きな重みを付与することで,重要な経験に焦点を当て,学習効率を向上させる。
    • Capacitated Vehicle Routing ProblemおよびTraveling Salesman Problemにおける実験により,LLR-BCの有効性が確認された。

    Link: https://arxiv.org/abs/2509.21765

  • LLMを用いた効率的なマルチエージェント協調のための協調的信念推論 [cs.CL, cs.AI, cs.MA]目的:マルチエージェント協調における効率化
    • 現実世界の問題解決には,複数エージェントの協調が不可欠であり,その重要性は増している。
    • 既存のLLM協調フレームワークは,動的な意図推論の可能性を見過ごしており,非効率な協調が生じやすい。
    • LLMに協調的信念世界を付与することで,意図を考慮した協調を実現し,効率性を向上させる。
    • CoBel-Worldは,物理環境と協調者の精神状態を共同でモデル化する内部表現である協調的信念世界をLLMエージェントに提供する。
    • 実験の結果,CoBel-Worldは通信コストを64-79%削減し,タスク完了効率を4-28%向上させた。
    • 明示的な意図を考慮した信念モデリングは,LLMベースのマルチエージェントシステムにおける効率的な協調に不可欠である。

    Link: https://arxiv.org/abs/2509.21981

  • ベアリング故障診断のための機械学習モデル評価のより現実的な手法 [cs.LG, eess.SP]目的:ベアリング故障診断における機械学習モデルの評価方法
    • 回転機械の安全性と運用効率維持に,ベアリング故障の信頼性高い検出が不可欠である。
    • 既存研究では,データリーケージなどの手法上の欠陥により,実環境への汎化性能が低い場合が多い。
    • データリーケージを防ぐ厳密な評価手法と,汎化性能に影響するデータセット多様性を明らかにすること。
    • 一般的なデータ分割戦略が性能指標を過大評価するスプリアス相関を生じさせることを示した。
    • ベアリング単位でのデータ分割によるリーケージフリーな評価方法論を提案し,実用的なガイドラインを提示した。
    • データセット内のユニークなベアリング数が多いほど,堅牢な性能が得られることを確認した。

    Link: https://arxiv.org/abs/2509.22267

  • 拡散モデルにおける情報の分離可能性について [cs.CL, cs.LG, cond-mat.stat-mech, cs.AI, cs.IT, math.IT]目的:拡散モデルに内在する情報の性質
    • 画像生成AIの発展は目覚ましく,その基盤技術である拡散モデルの理解が重要である。
    • 拡散モデルがどのように情報を捉え,生成に利用しているかの詳細なメカニズムは未解明である。
    • 拡散モデルが学習する情報の内訳と,それが生成品質に及ぼす影響を明らかにすること。
    • 拡散モデルは,画像全体の小規模な知覚的詳細の再構成に多くの情報を費やしていることが判明した。
    • 画像とクラスラベルの相関は,画像のセマンティックコンテンツに強く依存し,低レベルな詳細には依存しない。
    • この特性は,分類器フリーガイダンスの効果を説明するものであり,ガイダンスベクトルは生成初期にセマンティック構造に影響を与え,知覚的詳細が埋められるにつれてその影響が薄れる。

    Link: https://arxiv.org/abs/2509.23937

  • 価値表現の二重機構:大規模言語モデルにおける内在的価値と誘導的価値 [cs.CL, cs.AI]目的:大規模言語モデルにおける価値表現機構の解明
    • 言語モデルの倫理的利用が重要視される中で,モデルがどのように価値を学習・表現するか理解する必要がある。
    • 内在的価値と誘導的価値のメカニズムが重なるのか,異なるのかが不明であり,価値調整の妨げとなっている。
    • 内在的・誘導的価値のメカニズムを解明し,より安全で制御可能な言語モデルを開発することを目指す。
    • 内在的価値と誘導的価値は,価値表現の基盤となる共通要素を一部共有することが示された。
    • しかし,両者はそれぞれ固有の要素も持ち,応答の多様性や制御性に違いを生じさせている。
    • 内在的要素は応答の語彙的多様性を促進し,誘導的要素は指示への追従性を強化する効果がある。

    Link: https://arxiv.org/abs/2509.24319

  • Fidel-TS:時系列予測のための高忠実度マルチモーダルベンチマーク [cs.LG, stat.ML]目的:時系列予測モデルの評価における高忠実度ベンチマーク
    • 時系列予測は,需要予測や異常検知など,多くの分野で不可欠である。
    • 既存のベンチマークは,データ汚染や時間的・記述的リークといった問題を抱えている。
    • データソースの完全性,リークフリーな設計,構造的明確性を重視したベンチマークの構築。
    • 既存のベンチマークの欠陥とモデル評価のバイアスを明らかにした。
    • ライブAPIからデータを取得することで,高忠実度ベンチマークFidel-TSを構築した。
    • 様々な評価タスクにおいて,既存の予測モデルやLLMに関する新たな知見を提供した。

    Link: https://arxiv.org/abs/2509.24789

  • 因果適応器:忠実な反事実生成のためのテキスト-画像拡散の制御 [cs.CV, cs.AI]目的:忠実な反事実画像生成のためのテキスト-画像拡散モデルの制御
    • 画像生成AIの発展は,創造性や表現の可能性を広げるが,意図した変更が反映されない場合がある。
    • 既存手法では,プロンプトの調整に頼るため,属性間の因果関係を考慮した正確な制御が難しい。
    • 属性間の因果構造を明示的に利用し,より正確で忠実な反事実画像生成を実現することを目指す。
    • Causal-Adapterは,既存のテキスト-画像拡散モデルを改変することなく,反事実画像生成を可能にする。
    • Pendulumデータセットにおいて,属性制御の平均絶対誤差を最大91%削減し,高い精度を示した。
    • ADNIデータセットでは,MRI画像の高品質な生成においてFIDを87%削減し,現実的な画像を生成した。

    Link: https://arxiv.org/abs/2509.24798