arXiv雑要約

AI - 2026/02/02 公開

  • IRIS:内在報酬による画像合成 [cs.AI, cs.CL, cs.CV, cs.LG]目的:自己回帰型テキスト-画像生成モデルの性能向上
    • 画像生成AIの発展は,多様で高品質なコンテンツ制作を可能にするため重要である。
    • 人間の好みのデータ収集はコストが高く,学習データ不足が課題となっている。
    • 人間の報酬に頼らず,モデル内部の信号のみで学習を進めることを目指す。
    • 自己確信度を最小化することで,画像生成の質が向上することが示された。
    • IRISは,内在報酬のみを用いた強化学習フレームワークとして,優れた性能を発揮する。
    • IRISは,外部報酬による学習と同等以上の性能を達成し,より詳細な画像を生成する。

    Link: https://arxiv.org/abs/2509.25562

  • 思考を減らし,より良いラベルを付与する:大規模言語モデルのテレコミュニケーションにおけるファインチューニングのための多段階ドメインに基づいた合成データ生成 [cs.CL, cs.AI, cs.IT, cs.NI, math.IT]目的:テレコミュニケーション分野における大規模言語モデルのファインチューニング用合成データ生成手法
    • 大規模言語モデルの性能向上には,高品質な学習データが不可欠である。専門知識が必要な分野では特に,その重要性は高い。
    • 専門分野の高品質な学習データは,人的アノテーションに多大な時間とコストがかかるという課題がある。
    • 本研究は,人的アノテーションへの依存を低減しつつ,高品質な学習データを効率的に生成することを目指す。
    • 提案手法は,ドメイン知識に基づいた情報検索と,生成モデル,そして改良モデルを組み合わせた多段階パイプラインである。
    • RAGASベースのスコアリングによりデータ品質を確保し,RANトラブルシューティングに特化した高品質なデータセットを生成した。
    • 人間の介入なしで,複雑かつ文脈に富んだトラブルシューティング解決策を生成可能であることを示した。

    Link: https://arxiv.org/abs/2509.25736

  • 深層学習における一般化情報ボトルネック理論 [cs.LG, cs.IT, math.IT]目的:深層学習の学習原理の理論的枠組み
    • 深層学習の汎化性能向上は,その学習過程の理解に基づき重要である。
    • 既存の情報ボトルネック理論は,理論的曖昧さや正確な推定の困難さを抱えていた。
    • 相乗性の概念を取り入れ,情報ボトルネック理論の限界を克服し汎化性能を向上させる。
    • 本研究で提案する一般化情報ボトルネック(GIB)は,既存の情報ボトルネック理論を上回る汎化性能を示すことが確認された。
    • GIBは,ReLU活性化関数を持つアーキテクチャを含む幅広いモデルで圧縮段階を示し,情報圧縮と汎化性能の関係をより明確にした。
    • 実験結果は,GIBが敵対的ロバスト性に関する理解とも整合性があり,解釈可能な学習ダイナミクスを示すことがわかった。

    Link: https://arxiv.org/abs/2509.26327

  • 連合学習におけるマルチタスク・マルチモーダル基盤モデルの二段階適応的個別化 [cs.LG, cs.AI]目的:連合学習環境下における基盤モデルの個別化手法
    • 分散データ活用が重要視され,プライバシー保護とモデル性能の両立が求められている。
    • クライアント間のデータ,タスク,モダリティの異質性が高く,効果的な個別化が困難である。
    • 多様なクライアント環境に対応し,汎化性能を維持した個別化を実現すること。
    • 提案手法TAPは,クライアントとサーバーのモデルアーキテクチャの不一致を活用し,タスクに応じて選択的に置換を行う。
    • TAPは,連合学習後の知識蒸留により,汎用的な知識を獲得しつつ個別化を維持する。
    • 様々なデータセットとタスクにおいて,最先端の個別化手法と比較して有効性が示された。

    Link: https://arxiv.org/abs/2509.26524

  • FedLLM-Align: 異種クライアントからの特徴抽出 [cs.LG]目的:異種クライアントにおける特徴抽出手法
    • 個人情報保護が重要視される昨今,データの共有を伴わない分散学習の需要が高まっている。
    • 実用的な設定では,クライアント間のスキーマ不一致や特徴空間の非互換性が集約を妨げる。
    • 異種表形式データに対する分散学習を可能にし,効率性とプライバシー保護を両立することを目指す。
    • FedLLM-Alignは,事前学習済みのLLMを用いて表形式データをテキスト化し,意味的に整列した埋め込みベクトルを抽出する。
    • シミュレーションによるスキーマの異質性下において,F1スコアで最先端のベースラインを最大25%上回る性能を示した。
    • また,通信オーバーヘッドを65%削減し,効率的な分散学習を実現している。

    Link: https://arxiv.org/abs/2510.00065

  • 思考の泡: レイテンシ空間における並列思考のための教師なし手法 [cs.LG, cs.AI, cs.CL, cs.NE]目的:Transformerモデルにおける潜在空間での並列適応計算
    • 大規模言語モデルの推論コスト削減は,実用化における重要な課題である。
    • 既存手法は,推論時にのみ計算量を調整するため,事前学習段階では利用できない。
    • 事前学習中に並列計算を学習し,推論時の計算効率向上を目指す。
    • Thoughtbubblesは,モデルの残差ストリームを分岐・削除することで,潜在空間での並列計算を可能にする。
    • 半分の学習予算で,従来のモデルや非適応並列計算モデルよりも高い性能を示す。
    • GSM8Kのタスクにおいて,ベースラインモデルのトークン予算の半分で競合する結果を達成した。

    Link: https://arxiv.org/abs/2510.00219

  • 2つで十分:あなたのGRPOは実はDPOである [cs.LG, cs.CL]目的:大規模言語モデルのポストトレーニングにおける強化学習アルゴリズムGRPOの有効性のメカニズム解明
    • 大規模言語モデルの性能向上は重要であり,強化学習はその有効な手法の一つである。
    • 従来の強化学習手法では,方策勾配推定量の分散が大きく,学習が不安定になりやすい。
    • 本研究は,GRPOの有効性の根本原因を対照的な目的関数に求め,より効率的な学習手法の設計を目指す。
    • GRPOの有効性は,大規模なグループサイズによる正確な優位性推定に起因すると考えられていたが,実際には暗黙的な対照的な目的関数が分散を低減している。
    • 最小限の2ロールアウトケース(2-GRPO)でも,98.1%の16-GRPOの性能を維持でき,ロールアウト数と学習時間を大幅に削減できる。
    • この知見は,大規模言語モデルのポストトレーニングにおけるアルゴリズム設計に新たな視点を提供する。

    Link: https://arxiv.org/abs/2510.00977

  • ノイズのあるフィードバック下での嗜好最適化の汎化性能 [cs.LG]目的:ノイズのあるフィードバック下における嗜好最適化の汎化性能
    • 大規模言語モデルの能力向上に伴い,人間との整合性が重要視されている。
    • 既存研究ではノイズのないフィードバックを仮定しているが,人間の判断には誤りや不整合が伴う。
    • ノイズのあるフィードバック下での汎化性能を保証し,実用的なLLM学習に役立つ知見を得る。
    • ノイズの種類とノイズ率に応じて,嗜好最適化の汎化性能がどのように変化するかを解析した。
    • DPO,IPO,SLiCなど,様々な嗜好最適化損失関数に対して本研究の解析が適用可能であることを示した。
    • 現代的なLLMを用いた実験により,本研究の結果が実用的に妥当であることを確認した。

    Link: https://arxiv.org/abs/2510.01458

  • 逆思考:逆向き推論によるAI安全性の追求 [cs.AI, cs.CL]目的:言語モデルにおける逆向き推論の能力開発
    • AIの発展に伴い,倫理的・社会的な影響が重要視されているため。
    • 既存の安全性確保手法では,有害な応答を完全に回避できない場合がある。
    • 潜在的な危険を事前に分析し,安全な応答を生成する手法を確立すること。
    • 逆思考は,モデルの規模が大きくなるにつれて,安全性に関する推論能力が著しく向上することが示された。
    • 逆思考は,安全性を高めるための性能低下(safety tax)を軽減し,一般的な推論能力を維持する。
    • 医療,金融,法律などの分野や,リスクの高い状況において,有害な応答を最大17.8%削減できることが確認された。

    Link: https://arxiv.org/abs/2510.01569

  • PENEX:AdaBoostに着想を得たニューラルネットワークの正則化 [cs.LG]目的:ニューラルネットワークにおける汎化性能の向上
    • 機械学習モデルの汎化性能は,過学習を抑制し,未知データへの対応能力を高める上で重要である。
    • 従来の正則化手法では,低データ環境下での汎化性能向上が十分でない場合がある。
    • 指数損失関数の利点を活かし,ニューラルネットワークの汎化性能を向上させる。
    • 提案手法PENEXは,データ点のマージンを効果的に増加させる。
    • PENEXは,低データ環境下において,既存の正則化手法と同等またはそれ以上の汎化性能を示す。
    • PENEXは,計算コストを抑えつつ,コンピュータービジョンおよび言語タスクにおいて有効であることが示された。

    Link: https://arxiv.org/abs/2510.02107

  • テスト時アンカリングによる離散拡散事後サンプリング [cs.LG, cs.CV, stat.ML]目的:離散拡散モデルを用いた事後サンプリング手法
    • 近年,画像とテキストを統一的にモデル化できる離散拡散モデルが注目されている。
    • 既存手法は,勾配誘導の疎さ,連続的緩和の適用限界,ギブスサンプリングの次元の呪いといった課題を抱える。
    • これらの課題を克服し,より高性能な離散拡散サンプラーを開発すること。
    • 提案手法APSは,離散埋め込み空間での勾配類似の誘導と適応的デコーディングを実現し,最先端の性能を示す。
    • APSは,画像ベンチマークにおける線形・非線形逆問題,学習不要のスタイル変換,テキストガイダンス編集で有効性が確認された。
    • 大規模拡散言語モデルへの適用により,質問応答性能の一貫した向上が示された。

    Link: https://arxiv.org/abs/2510.02291

  • VideoNSA:ネイティブスパースアテンションによる動画理解のスケーリング [cs.CV, cs.AI, cs.LG]目的:動画理解における長文脈処理の性能向上
    • マルチモーダル言語モデルにおいて,動画理解は重要な課題であり,その性能は文脈長の制限に左右される。
    • 既存モデルは,重要なフレームを見逃したり,長時間の動画における一貫性を維持することが困難である。
    • ネイティブスパースアテンションを動画言語モデルに適用することで,長文脈動画理解の課題を解決する。
    • VideoNSAは,Qwen2.5-VLを216Kの動画指示データセットでEnd-to-End学習させることで実現された。
    • 動画に対しスパースアテンション,テキストに対し密アテンションを用いるハイブリッドアプローチにより,長文脈動画理解,時間的推論,空間的ベンチマークにおいて性能が向上した。
    • 実験により,128Kトークンへのスケーリング,最適なグローバル・ローカルアテンション配分,タスク依存的な分岐利用パターン,動的なアテンションシンクの誘導が確認された。

    Link: https://arxiv.org/abs/2510.02295

  • ContextFlow:空間オミクスデータからの軌跡推論のための文脈認識フローマッチング [cs.LG]目的:空間オミクスデータからの軌跡推論
    • 発生,再生,疾患進行の理解に不可欠であり,治療反応の予測にも貢献する。
    • 空間的・時間的なオミクスデータの解析は計算コストが高く,生物学的な意味合いが不明確になりやすい。
    • 組織の構造変化を,事前知識を用いてより正確に推論すること。
    • ContextFlowは,局所的な組織構造とリガンド受容体間のコミュニケーションパターンを考慮した文脈認識フローマッチングフレームワークである。
    • このフレームワークは,最適な輸送問題を正則化する推移可能性行列を組み込むことで,統計的に整合性があり,かつ生物学的に意味のある軌跡を生成する。
    • 3つのデータセットでの評価において,ContextFlowは既存のフローマッチング手法を精度と生物学的整合性の両面で上回った。

    Link: https://arxiv.org/abs/2510.02952

  • PT$^2$-LLM: 大規模言語モデルのポストトレーニング二値化 [cs.LG, cs.AI]目的:大規模言語モデルの効率的な圧縮と高速化
    • 大規模言語モデルは強力だが,メモリと計算資源の制約が実用上の課題となる。
    • ポストトレーニング量子化における二値化は有望だが,パラメータ最適化や外れ値処理が難しい。
    • 本研究は,二値化による大規模言語モデルの圧縮と高速化を改善することを目指す。
    • 提案手法PT$^2$-LLMは,既存の2ビットポストトレーニング量子化手法と同等の性能を,より低いメモリコストで実現する。
    • PT$^2$-LLMは,逐次的な二値化調整と活性化を考慮したグリッド調整により,量子化誤差を最小限に抑える。
    • 構造類似度に基づく再配置戦略により,外れ値の影響を軽減し,推論速度を向上させる。

    Link: https://arxiv.org/abs/2510.03267

  • バックドアの解明:事前学習済み言語モデルに対する勾配・注意異常スコアによる説明可能な防御 [cs.CL, cs.LG]目的:事前学習済み言語モデルにおけるバックドア攻撃に対する防御手法
    • 自然言語処理の性能向上に貢献する事前学習済み言語モデルの安全性確保は重要である。
    • 学習データに埋め込まれたトリガーにより,悪意のある振る舞いを引き起こすバックドア攻撃が存在する。
    • トリガーの活性化時に現れる注意と勾配の変化を検出し,バックドア攻撃を防御することを試みる。
    • 提案手法は,既存の防御手法と比較して,攻撃の成功率を大幅に低減できることが示された。
    • 注意と勾配情報を組み合わせた異常スコアが,トリガーの特定に有効であることが確認された。
    • スコアリングメカニズムの解釈可能性に基づき,提案手法の堅牢性が示唆された。

    Link: https://arxiv.org/abs/2510.04347

  • エージェント的文脈エンジニアリング:自己改善型言語モデルのための文脈進化 [cs.LG, cs.AI, cs.CL]目的:自己改善型言語モデルの文脈進化
    • LLMはエージェントや特定分野の推論で活用が拡大しており,文脈適応が重要である。
    • 既存手法は簡潔性偏りや文脈崩壊の問題を抱えており,詳細な知識の維持が課題である。
    • 文脈を体系的に進化させ,知識の維持とスケーラビリティを両立させることを目指す。
    • ACEは文脈を生成・反省・キュレーションするモジュールプロセスにより,文脈崩壊を防ぎ,詳細な知識を維持する。
    • エージェントベンチマークで10.6%,金融分野で8.6%の性能向上を示し,適応遅延とロールアウトコストを削減した。
    • 教師なしで自然な実行フィードバックを活用し,AppWorldリーダーボードでトップレベルのエージェントと同等以上の性能を実現した。

    Link: https://arxiv.org/abs/2510.04618

  • 学習ダイナミクスが後学習量子化の堅牢性に与える影響 [cs.LG]目的:後学習量子化の堅牢性のメカニズム解明
    • 大規模言語モデルの効率的な展開には量子化が不可欠である。
    • 量子化の堅牢性を左右する要因が不明確である。
    • 学習ダイナミクスと量子化性能の関係を明らかにする。
    • 学習率の減衰後,検証損失と量子化誤差が乖離し,データ規模に依存しないことが示された。
    • データセット規模の拡大が必ずしも量子化効率を損なうわけではないことが示唆された。
    • 戦略的なハイパーパラメータ調整によって,大規模な学習における量子化品質を向上させることが可能である。

    Link: https://arxiv.org/abs/2510.06213

  • LLMの心理測定評価におけるデータ汚染の定量化 [cs.CL, cs.LG]目的:LLMの心理測定評価におけるデータ汚染の程度
    • LLMの能力評価において,心理学的特性の測定が注目されている。
    • 心理測定尺度自体がLLMの学習データに含まれる可能性があり,評価の信頼性を損なう恐れがある。
    • LLMの学習データに含まれる心理測定尺度の汚染度を定量的に評価し,信頼性のある評価手法を確立する。
    • 主要なLLMモデルと心理測定尺度を分析した結果,多くの尺度に強い汚染が確認された。
    • モデルは項目を記憶するだけでなく,特定の目標スコアを達成するように応答を調整できることが示された。
    • 特にBig Five InventoryやPortrait Values Questionnaireといった広く使用されている尺度で高い汚染が見られた。

    Link: https://arxiv.org/abs/2510.07175

  • Post-Normによる注意機構の再活性化 [cs.CL, cs.LG, cs.AI]目的:長さ一般化能力の向上
    • 自律エージェントが,学習時よりも長い文脈でタスクをこなす能力は不可欠である。
    • 注意機構の分散により,単純なTransformerでは長さ一般化性能が低下する問題がある。
    • Post-Normを用いて注意機構を再活性化することで,この性能低下を改善することを目指す。
    • Post-Normを用いることで,注意機構の分散を抑制し,長さ一般化能力を向上させることが示された。
    • セット補完タスクにおいて,Post-NormはTransformerの性能を改善し,理論的な予測と一致する結果が得られた。
    • また,Exponential Moving Averagesは,複数の正解候補がある状況におけるノイズの多い勾配の問題を軽減するのに役立つ。

    Link: https://arxiv.org/abs/2510.08341

  • 効率的な推論モデルの証明可能な性能保証について [cs.CL, cs.CL, cs.AI, cs.LG, math.ST, stat.TH]目的:効率的な推論モデルにおける性能損失の制御
    • 大規模言語モデルは複雑な問題解決で進歩している。実用化には計算コストが課題。
    • 動的な思考・非思考モード切り替えは効率化の方向だが,誤り増加と性能低下の保証がない。
    • ユーザ指定の許容範囲内で性能損失を制御し,信頼性の高い推論を実現すること。
    • 提案手法は,性能損失の上限値を設定し,非思考モードへの切り替え閾値を決定する。
    • 理論的に,閾値に基づいたモード切り替えは,分布に依存しない形で性能損失を抑制する。
    • 実験結果から,提案手法は計算コストを削減し,指定された性能損失を制御できることが示された。

    Link: https://arxiv.org/abs/2510.09133

  • Herb.jl:統一的なプログラム合成ライブラリ [cs.PL, cs.AI, cs.SE]目的:プログラム合成のための統一的なライブラリ
    • AI研究の根幹であり,プログラミングの自動化に貢献する重要な分野である。
    • 既存の合成ツールは多様だが,再利用や適応に手間と時間がかかるという課題がある。
    • プログラム合成の基盤となるアルゴリズムを再利用可能な部品として提供し,効率化を目指す。
    • Herb.jlはJuliaで実装された統一的なライブラリであり,既存のプログラム合成ツールの再利用性を高める。
    • 共通する要素を分割し,拡張可能な再利用可能なサブコンポーネントとして提供する。
    • 簡単な問題と文法を用いて,Herb.jlの利点を実証し,数行のコードで解決可能であることを示す。

    Link: https://arxiv.org/abs/2510.09726

  • エージェントをファインチューニングするだけでなく,環境を調整せよ [cs.CL, cs.AI]目的:LLMエージェントの学習におけるデータ効率性と汎化性能の向上
    • LLMエージェントは複雑なタスクに有望だが,高品質な学習データの不足が課題。
    • SFTは過学習しやすく,RLはコールドスタート問題や不安定性に悩む。
    • 問題インスタンスから直接学習し,データ効率と汎化性能を高める。
    • 提案手法「Environment Tuning」は,わずか400件のデータで既存手法と同等以上の性能を達成。
    • 特に,SFTで陥りやすい分布外性能の低下を克服し,優れた汎化性能を示した。
    • 静的なデータからのファインチューニングから,動的な環境ベースの探索へのパラダイムシフト。

    Link: https://arxiv.org/abs/2510.10197

  • プランナーとコーダーの間のギャップの理解と解消:コード生成のためのマルチエージェントシステムの堅牢性に関する体系的研究 [cs.SE, cs.AI]目的:マルチエージェントシステムにおける堅牢性の根本的な欠陥の解明と改善
    • コード生成の自動化は,ソフトウェア開発の効率化に不可欠であり,その重要性は増している。
    • マルチエージェントシステムは性能が向上しているものの,その堅牢性のメカニズムは未解明な点が残る。
    • プランナーとコーダーの間の情報損失を特定し,それを軽減することで,システムの信頼性を高める。
    • マルチエージェントシステムは,意味的に同等な入力に対して性能が大幅に低下することが明らかになった。
    • 性能低下の根本原因は「プランナーとコーダーのギャップ」にあり,これが全体の75.3%の失敗を説明している。
    • 提案手法である修復方法は,特定された失敗の40.0%から88.9%を解決することで,マルチエージェントシステムの堅牢性を効果的に向上させた。

    Link: https://arxiv.org/abs/2510.10460

  • PaperArena:科学文献におけるツールを活用した推論的エージェントの評価ベンチマーク [cs.CL, cs.AI]目的:科学文献を横断する推論と複数ツールの連携を評価するベンチマーク
    • 大規模言語モデル(LLM)の能力評価において,科学文献の理解と推論は重要な検証項目である。
    • 既存の評価は単一論文内のタスクに限定されており,複数論文を跨いだ推論やツール連携の評価が不足している。
    • 複数論文からの情報統合と外部ツール活用を必要とする科学的質問への回答能力を評価する。
    • PaperArenaは,科学文献を横断する推論とツール連携を評価するためのベンチマークを提供する。
    • 最先端のLLM搭載エージェントでさえ,平均正答率は38.78%にとどまり,難易度の高い問題群では18.47%まで低下する。
    • 推論トレースの分析により,エージェントの行動特性が明らかになり,より高性能な科学的エージェント開発への知見を提供する。

    Link: https://arxiv.org/abs/2510.10909

  • Stronger-MAS:協調的LLMのためのマルチエージェント強化学習 [cs.LG, cs.MA]目的:大規模言語モデル(LLM)の協調能力向上
    • LLMの能力拡張には,マルチエージェントシステムと強化学習が不可欠である。
    • マルチエージェントシステムへのオンポリシー強化学習の適用は未開拓で課題が多い。
    • 役割とターンごとのプロンプト変動に対応した強化学習アルゴリズムを開発する。
    • AT-GRPOは,エージェントおよびターンごとのグループ化強化学習アルゴリズムと,単一および複数ポリシー体制をサポートする学習システムを含む。
    • 長期的計画タスクにおいて,単一エージェント強化学習のベースライン(14.0〜47.0%)から96.0〜99.5%へと大幅な精度向上を実現した。
    • コーディングタスクでは平均3.87〜7.62%,数学タスクでは9.0〜17.93%の推論性能向上を達成した。

    Link: https://arxiv.org/abs/2510.11062

  • LLMのファインチューニングによるトムソンサンプリング [cs.LG, cs.AI]目的:大規模離散空間におけるベイズ最適化手法
    • 最適化問題は科学技術の根幹であり,効率的な手法が求められている。
    • 勾配が存在しないため,獲得関数の最大化が計算コストのボトルネックとなる。
    • LLMの知識を活用し,獲得関数の最大化を回避する効率的な手法を提案する。
    • 提案手法ToSFiTは,FAQ応答の改善,安定なタンパク質探索,量子回路設計の3つのタスクで優れた性能を示した。
    • ToSFiTは,ベイズ最適化,強化学習,進化探索といった既存手法と比較して,サンプル効率と計算効率の両面で最先端の結果を達成した。
    • 変分トムソンサンプリングの新しい後悔限界を導出し,標準的なトムソンサンプリングと同等の保証を提供する。

    Link: https://arxiv.org/abs/2510.13328

  • DialectGen:マルチモーダル生成における方言ロバスト性のベンチマークと改善 [cs.CL, cs.CV, cs.LG]目的:方言を用いたマルチモーダル生成モデルの性能評価と改善
    • 言語は地域によって多様な方言を持つため,生成モデルとの対話において方言への対応は重要である。
    • 既存の生成モデルは方言表現への対応が不十分であり,性能低下を引き起こす場合がある。
    • 方言を理解しつつ標準語の性能を維持できる,マルチモーダル生成モデルの改善を目指す。
    • 既存の最先端モデルは,方言表現を含むプロンプトにおいて32.26%から48.17%の性能低下を示す。
    • 提案手法は,5つの方言における性能を標準語と同程度に向上 (+34.4%) させることができた。
    • 標準語の性能劣化はほぼなく,汎用的なエンコーダーベースの軽減戦略が有効であることが示された。

    Link: https://arxiv.org/abs/2510.14949

  • オープンであることは免除を意味するべきではない:オープンソースの特権性と生成AI [cs.CL, cs.CY, cs.AI, cs.LG]目的:生成AIにおけるオープンソースの倫理的・法的責任
    • AI技術の急速な発展に伴い,倫理的・法的課題への対応が急務である。
    • オープンソースAIシステムに対する責任の所在が曖昧になっている。
    • オープンソースAIシステムの不正利用を防ぎ,責任ある開発を促進すること。
    • 本稿は,オープンソースのステータスが倫理的・法的責任からの免除根拠となり得ないことを論じる。
    • オープンソースGenAIが,独占の打破,アクセス民主化,イノベーション促進といった主張を批判的に検証する。
    • 健全な研究のための限定的なセーフハーバーを提案し,厳格な基準順守を条件とする。

    Link: https://arxiv.org/abs/2510.16048

  • GenAIスクレイピング時代における動産侵入権の再活性化:排除への気概 [cs.CY, cs.AI, cs.LG]目的:GenAIスクレイピングによるウェブコンテンツの無断利用に対する法的保護
    • デジタルコンテンツの価値は高まり,その保護の重要性が増している。
    • 既存の著作権法では,大規模スクレイピングへの対処が困難である。
    • 動産侵入権の適用により,ウェブサイト所有者の排除権を保護すること。
    • 本研究は,ウェブサイトを統合されたデジタル資産と捉え,物理的な動産と同様の排除権を有すると主張する。
    • スクレイピング行為がアクセス制御を回避し,ウェブサイトの価値を損なう場合,動産侵入権侵害に該当すると解釈する。
    • 動産侵入権の再活性化は,コンテンツ制作者だけでなく,デジタルエコシステム全体を保護する上で重要である。

    Link: https://arxiv.org/abs/2510.16049

  • ドメインシフト下におけるデータ効率的な音響シーン分類のための動的二重信号カリキュラム [cs.SD, cs.AI]目的:音響シーン分類におけるドメインシフト問題への対処
    • 音響シーン分類は,様々な環境音を認識する技術であり,多様な応用分野で重要である。
    • デバイスの違いによるドメインシフトが性能低下の大きな要因となっている。
    • 学習の進捗に応じてカリキュラムを動的に調整し,データ効率を高めることを目指す。
    • 提案手法DDSCは,ドメイン不変性信号と学習進捗信号を組み合わせることで,オンラインにカリキュラムを適応させる。
    • DDSCは,初期段階ではドメイン不変なサンプルを優先し,徐々にデバイス固有のケースを重視する。
    • DCASE 2024 Task 1の公式プロトコルにおいて,多様なベースラインでDDSCはクロスデバイス性能を改善した。

    Link: https://arxiv.org/abs/2510.17345

  • TopSeg:データ効率的な心音セグメンテーションのためのマルチスケールトポロジーフレームワーク [cs.SD, cs.AI]目的:データ効率的な心音セグメンテーションのためのトポロジー表現中心のフレームワーク
    • 心音解析は,心疾患の早期発見や診断に不可欠であり,医療現場での応用が期待されている。
    • 深層学習は高い精度を達成するものの,大量の専門家によるラベル付きデータが必要となり,汎用性に課題がある。
    • ラベル付きデータが限られた状況下でも,効率的かつ汎用性の高い心音セグメンテーションを実現すること。
    • TopSegは,マルチスケールトポロジー特徴量を用いることで,従来のスペクトログラムやエンベロープ入力よりも優れた性能を発揮した。
    • 特に,データ量が少ない場合において,その効果が顕著であり,限られたデータでの学習においても高い精度を実現した。
    • 本研究の結果は,トポロジーに基づいた表現が,データ効率的かつクロスデータセットでの心音セグメンテーションに有効であることを示唆している。

    Link: https://arxiv.org/abs/2510.17346

  • キャリアガイダンスにおけるLLMの評価:10カ国におけるコンピューティング能力に関する推奨の比較分析 [cs.CY, cs.AI]目的:アフリカ10カ国における,エントリーレベルのコンピューティング職に必要な能力のLLMによる記述の比較
    • 企業が卒業生にLLMの活用を期待する中,アフリカ各国の状況に応じた能力要件の明確化が求められている。
    • LLMは,技術的スキルに偏った推奨を行い,現地の技術エコシステムや言語,政策への配慮が不足している。
    • アフリカのコンピューティング教育におけるLLMの活用における課題を明らかにし,地域に適したAI教育モデルの構築を目指す。
    • 6つのLLMの分析の結果,技術スキル(クラウドコンピューティング,プログラミング等)は概ね網羅されていたが,倫理や責任あるAI利用などの非技術スキルには差異が見られた。
    • オープンソースモデル(Llama,DeepSeek)は,コンテキストへの理解度が高く,技術スキルと専門スキルのバランスが取れていた。
    • LLMは,現地の技術環境や政策への配慮が平均35.4%にとどまり,インフラの前提や欧米中心的なバイアスが明らかになった。

    Link: https://arxiv.org/abs/2510.18902

  • LLMにおける文脈に応じた公平性評価と軽減 [cs.CL, cs.AI]目的:大規模言語モデルにおける公平性評価と軽減手法
    • 言語モデルの普及に伴い,社会的な公平性の確保が重要課題となっている。
    • 既存手法は計算コストが高く,状況変化への対応が遅れるという課題がある。
    • 文脈に応じてニューロンの活性を制御し,公平性を動的に調整する。
    • 本研究では,文脈を考慮した動的なニューロンプルーニングフレームワークを提案した。
    • 推論時にニューロンの活性を適応的にマスクすることで,メモリ効率の良い公平性軽減を実現した。
    • 多言語対話において,知識を保持しつつ,より一貫性のある振る舞いを可能にした。

    Link: https://arxiv.org/abs/2510.18914

  • 企業向け人事分析のためのサーバーレスGPUアーキテクチャ:実運用規模のBDaaS実装 [cs.DC, cs.AI, cs.LG]目的:企業向け人事分析における実運用規模のビッグデータサービス (BDaaS) の設計
    • データ駆動型分析は,企業や政府機関において意思決定に不可欠であり,その重要性は増している。
    • 大規模データ分析フレームワークは複雑であり,中小規模かつ低遅延な推論処理には不向きな点。
    • サーバーレスGPUを活用し,解釈可能なモデルを用いて,コンプライアンス要件を満たす効率的な分析基盤を構築する。
    • GPUパイプラインは,Sparkと比較して最大4.5倍の処理能力,98倍の低遅延,90%のコスト削減を実現した。
    • コンプライアンス機構導入による遅延はわずか約5.7msであり,p99レイテンシは22ms未満に抑えられた。
    • 負荷増大時においても解釈可能性が維持され,信頼性の高い監査性を確保することができた。

    Link: https://arxiv.org/abs/2510.19689

  • MARS-M:分散削減が行列と出会うとき [cs.LG, math.OC, stat.ML]目的:大規模ニューラルネットワークの最適化
    • 近年,LLM等の巨大モデル学習において,最適化の効率化が重要課題となっている。
    • 既存の最適化手法では,収束速度が遅い,あるいは性能が十分でない問題がある。
    • 分散削減と行列ベースの事前条件付き最適化を組み合わせることで,学習効率の向上を目指す。
    • 提案手法MARS-Mは,理論的にMuonよりも高速な収束率($\tilde{\mathcal{O}}(T^{-1/3})$)を達成する。
    • 言語モデリングやコンピュータビジョンのタスクにおいて,既存手法よりも低い損失と高い性能を示す。
    • MARS-Mの実装は公開されており,利用可能である。

    Link: https://arxiv.org/abs/2510.21800

  • TOM-SWE:ソフトウェア工学エージェントにおけるユーザーのメンタルモデル [cs.SE, cs.AI]目的:ソフトウェアエージェントにおけるユーザーの意図推論と追跡
    • コーディングエージェントの発展は,ソフトウェア開発の自動化に貢献する重要な分野である。
    • 既存のエージェントは,曖昧な指示や文脈依存の意図を理解することが課題となっていた。
    • ユーザーのメンタルモデルを組み込むことで,より的確な意図理解と支援を目指す。
    • ToM-SWEは,SWEエージェントとToMエージェントの二重エージェント構造を採用している。
    • SWE-benchおよびstateful SWE-benchの評価で,タスク成功率とユーザー満足度を向上させた。
    • stateful SWE-benchでは,OpenHandsと比較して大幅に高いタスク成功率(59.7% vs 18.1%)を達成した。

    Link: https://arxiv.org/abs/2510.21903

  • 感情はどこに? 大規模言語モデルの感情潜在空間の理解と特徴付け [cs.CL, cs.AI]目的:大規模言語モデルにおける感情の内部表現の理解
    • 自然言語処理の高度化に伴い,人間らしい感情理解が不可欠となっている。
    • 大規模言語モデルが感情をどのように捉えているかは未解明な点が多い。
    • 言語モデルの感情潜在空間を解析し,その構造と操作可能性を明らかにすること。
    • 大規模言語モデル内に低次元の感情多様体が確認され,感情表現が方向性を持って符号化されていることが示された。
    • 感情表現は層を跨いで分布し,解釈可能な次元と整合性があることが明らかになった。
    • この感情潜在空間は,異なる言語・ドメインにわたる感情データセットで安定的に再現され,介入モジュールによる感情制御が可能となった。

    Link: https://arxiv.org/abs/2510.22042

  • バッチ推論における投機的デコーディングの正しい実装 [cs.CL, cs.AI]目的:投機的デコーディングにおける出力分布の等価性の確保
    • 大規模言語モデルの推論速度向上は,実用的な応用において不可欠である。
    • 既存のバッチ投機的デコーディング実装は,出力の正確性を損なう問題がある。
    • 本研究は,正確な出力分布を保証するバッチ投機的デコーディングフレームワークを開発する。
    • 提案手法EQSPECは,出力等価性を保証する最初のアルゴリズムである。
    • EQSPECおよびEXSPECは,バッチサイズ8において最大3倍の推論速度向上を達成した。
    • 残差のずれはGPU推論における浮動小数点演算の非決定性に起因し,同期の失敗によるものではない。

    Link: https://arxiv.org/abs/2510.22876

  • リー代数上の一般線形対称性に対する等変ニューラルネットワーク [cs.LG, cs.NE]目的:リー代数上の一般線形対称性に対する等変性を持つニューラルネットワークの構築
    • 科学や幾何学の問題には線形対称性が多く存在する。それらを効率的に処理することが重要である。
    • 既存の等変ニューラルネットワークは,コンパクト群や単純なベクトル特徴量に限定され,行列値データへの適用が困難である。
    • 行列値データやリー代数特徴量に対応し,再利用可能な等変性ニューラルネットワークを開発し,その問題を解決する。
    • Reductive Lie Neurons (ReLNs) という,一般線形対称性を持つ新しいニューラルネットワークアーキテクチャを提案した。
    • ReLNsは,sl(3)やsp(4)などの多様なタスクにおいて,既存のモデルと同等またはそれ以上の性能を発揮した。
    • 少ないパラメータ数と計算量で高い精度を実現し,精度と効率性のトレードオフを改善した。

    Link: https://arxiv.org/abs/2510.22984

  • エージェントは確率的オートマトンか?トレースに基づく,メモリ制約のあるエージェントAIの理論 [cs.AI, cs.FL]目的:エージェントAIの制御アーキテクチャにおける相互作用挙動のオートマトン理論モデルの導出
    • AIシステムの安全性や信頼性向上には,その振る舞いを形式的に記述・検証することが不可欠である。
    • 既存手法では,複雑なエージェントAIシステムの振る舞いを正確かつ効率的に記述することが困難である。
    • 有限メモリ制約下でのエージェントAIの振る舞いを形式的に記述し,検証可能性を評価することを目的とする。
    • 有限メモリコントローラでは,生成されるトレース言語のサポートが正則であると証明された。
    • 厳密なコール・リターンコントローラでは,トレース言語のサポートが文脈自由であると証明された。
    • 読み書き可能なメモリを備えたコントローラでは,トレース言語のサポートが再帰的に列挙可能であると証明された。

    Link: https://arxiv.org/abs/2510.23487

  • キーと値の重みだけで十分である可能性:エンコーダー専用およびデコーダー専用Transformerにおけるクエリ,キー,値の重み三重項の必要性について [cs.LG, cs.AI]目的:クエリ,キー,値の重み三重項の削減可能性
    • Transformerは自然言語処理をはじめとする多様な分野で広く用いられており,その効率化は重要である。
    • TransformerのAttention機構はパラメータ数が多く,計算コストが高いという課題がある。
    • クエリ重みの冗長性を証明し,パラメータ削減と最適化の簡略化を目指す。
    • 理論的に,クエリ重みは冗長であり,恒等行列で代替可能であることが示された。これにより,Attentionパラメータが25%削減される。
    • GPTスタイルの小規模モデルでの実験により,調整されたAttentionスケーリングと重み減衰により,パラメータ削減モデルがベースラインと同等の性能を発揮することが確認された。
    • クエリ重みの削除は,暗黙的な正則化を提供する可能性が示唆された。また,ReLU環境におけるスキップコネクションの構造的な表現力限界が明らかになった。

    Link: https://arxiv.org/abs/2510.23912

  • 「なるほど」は嘘をつけるか?思考連鎖における真の思考段階と装飾的思考段階の識別 [cs.LG]目的:思考連鎖(CoT)における各段階の因果的貢献度を定量化する真の思考スコア(TTS)の提案
    • 大規模言語モデルの推論能力向上は,AI研究の重要な進展であり,実用的な応用を促進する。
    • CoTで生成される思考段階が,モデルの内部思考を正確に反映しているか不明であり,信頼性が課題である。
    • CoTにおける真の思考段階と装飾的思考段階を識別し,モデルの内部推論プロセスを解明すること。
    • 大規模言語モデルは,真の思考段階と装飾的思考段階を混在させてCoTを生成する傾向があることが示された。
    • CoT全体のわずかな割合(例:Qwen-2.5で2.3%)のみが,最終的な予測に因果的に貢献するステップであることが判明した。
    • 真の思考方向への誘導によって,モデルの内部推論プロセスを制御し,自己検証段階(「なるほど」瞬間)を内部的に処理させることが可能である。

    Link: https://arxiv.org/abs/2510.24941

  • 結果不変データ拡張を用いた因果効果推定の分析 [cs.LG, stat.ML]目的:因果効果推定におけるバイアス軽減と予測性能向上
    • 因果推論は,観察データから因果関係を明らかにすることで,社会科学や医療など幅広い分野で重要である。
    • 未観測交絡因子が存在する場合,因果効果推定はバイアスを受けやすく,正確な結論を得ることが困難となる。
    • データ拡張を活用し,交絡因子によるバイアスを軽減し,介入下での汎化性能を高めることを目指す。
    • 結果不変なデータ拡張は,治療生成メカニズムに対する介入と見なせる可能性があり,交絡によるバイアス軽減に貢献する。
    • IV(操作変数)の利用が難しい場合でも,データ拡張を適切に正則化することで,IV類似(IVL)回帰が可能となり,バイアスを軽減し予測性能を向上させる。
    • パラメータ化されたデータ拡張をIVL回帰問題として捉え,組み合わせることで,単一のデータ拡張よりもさらに高い性能を実現できる。

    Link: https://arxiv.org/abs/2510.25128

  • 道具的目標の形而上学:管理すべき構造的特徴,排除すべき失敗ではない [cs.AI, cs.CY]目的:道具的目標の形而上学的な考察
    • 現代AIアライメント研究において,道具的目標は重要である。
    • 道具的目標の現象論的基盤が理論的に未整備である。
    • 高度AIシステムのガバナンスに関する洞察を提供すること。
    • 道具的目標を,システムに外部から課せられた目的によって生じる構造的特徴と捉えた。
    • 仮定的必然性に基づき,特定の環境下で,ある目的を追求するならば,特定の条件が必須となることを説明した。
    • 訓練レジーム等の偶発的な要素が,課せられた目的構造に内在しない道具的目標様行動を生み出す可能性を示唆した。

    Link: https://arxiv.org/abs/2510.25471

  • 適切な理由による正当性:プロトタイプを用いたニューロシンボリックAIにおける推論の近道回避 [cs.LG]目的:ニューロシンボリックAIにおける推論の近道回避手法
    • ニューロシンボリックAIは,知覚と推論を統合し,高精度なAI実現に貢献する。
    • 既存のニューロシンボリックAIは,見かけ上の相関関係を利用した推論の近道に陥りやすい。
    • プロトタイプ学習を用いて,本質的な概念学習を促し,近道推論を回避することを目指す。
    • 提案手法は,少ない教師データでも,正当な概念を学習できることを示した。
    • rsbenchベンチマークにおいて,合成タスクと現実世界のタスクの両方で大幅な改善を達成した。
    • プロトタイプによるグラウンディングが,安全で信頼性の高いニューロシンボリック学習の有効な戦略となる可能性を示唆した。

    Link: https://arxiv.org/abs/2510.25497

  • Metis-SPECS:自己蒸留による嗜好ベースのコールドスタートを通じたマルチモーダル学習の分離 [cs.LG, cs.AI, cs.CL, cs.CV]目的:マルチモーダル学習におけるコールドスタート時の課題解決
    • 視覚言語モデルへの強化学習の応用が盛んになり,その性能向上が期待されている。
    • 従来のコールドスタート手法は,タスク解決と出力形式の学習が混在し,汎化性能が低下しやすい。
    • 嗜好ベースの学習による汎化性能向上と,深層推論と浅層学習の分離を目指す。
    • 自己蒸留による内部的嗜好データペアの生成により,教師データや手動アノテーションへの依存を回避した。
    • 浅層で汎用的な形式基準(フォーマット,構造,スタイル)に焦点を当てた嗜好ベースの学習が有効であることを示した。
    • MEGA-Benchで4.1%,MathVistaで12.2%の性能向上を達成し,学習の安定化と探索能力の向上に貢献した。

    Link: https://arxiv.org/abs/2510.25801

  • LLM強化学習におけるベイジアンオンラインタスク選択のための統一フレームワーク:BOTS [cs.IR, cs.AI]目的:LLM強化学習におけるタスク選択の効率性と性能向上
    • LLMの性能は人間との整合性や推論能力に大きく依存し,強化学習によるファインチューニングが重要である。
    • 従来のタスク選択方法は,計算コストが高い,適応性が低い,または情報が不完全であるという課題があった。
    • 本研究は,タスクの難易度を推定し,効率的な探索と活用を両立する新しいタスク選択フレームワークを提案する。
    • 提案手法BOTSは,ベイジアン推論に基づき,LLMの進化に合わせてタスクの難易度を適応的に推定する。
    • BOTSは,直接評価からの明示的な証拠と,それらから推論される暗黙的な証拠を統合し,探索と活用のバランスを取る。
    • 様々なドメインとLLMの規模において,既存手法と比較してデータ効率と性能が向上することが示された。

    Link: https://arxiv.org/abs/2510.26374

  • LoCoT2V-Bench:長編かつ複雑なテキストから動画生成のベンチマーク [cs.CV, cs.AI]目的:長編動画生成における評価基準とフレームワーク
    • 動画生成技術の発展は,エンターテインメントや教育など多岐にわたる分野への応用が期待される。
    • 長編動画生成において,複雑なテキストプロンプトに対応し,高品質な動画を生成する評価方法が不足している。
    • 本研究は,長編動画生成モデルの能力を多角的に評価するためのベンチマークと評価フレームワークを開発すること。
    • LoCoT2V-Benchは,現実世界の動画から収集した,シーン遷移やキャラクター設定を含む複雑なプロンプトで構成される。
    • LoCoT2V-Evalは,知覚的品質,テキスト-動画の一致,時間的品質,動的品質,期待実現度を多角的に評価する。
    • 実験結果から,既存モデルは知覚的品質は高いものの,詳細なテキスト-動画の一致やキャラクターの一貫性に課題があることが示された。

    Link: https://arxiv.org/abs/2510.26412

  • CATArena:反復トーナメントによるコードエージェントの進化能力の評価 [cs.AI, cs.CL]目的:コードエージェントの進化能力の評価
    • 大規模言語モデルの活用が広がる中で,コード生成能力の評価が重要となっている。
    • 従来の評価方法は単発的なコード生成に偏っており,継続的な最適化能力を測れない。
    • 反復トーナメントを通じて,コードエージェントの進化能力を継続的に評価すること。
    • CATArenaは,エージェントが自己反省とピア学習を通じてコードを改善する反復トーナメントを可能にする。
    • 進化能力は初期の習熟度と必ずしも相関関係にないことが実験で示された。
    • 現在のエージェントは,ピア学習と自己反省を同時に活用することが困難であることが明らかになった。

    Link: https://arxiv.org/abs/2510.26852

  • LLM指示における表現格差の解消:ソクラテス式質疑によるアプローチ [cs.AI]目的:LLM指示における人間の意図表現の困難さの克服
    • 人間とAIの協働において,複雑な思考をAIに伝えることは重要である。
    • ユーザーの意図が曖昧な場合,試行錯誤が繰り返され,効率が低下する。
    • ユーザーの意図を能動的に理解するエージェントにより,意図の曖昧さを解消する。
    • 提案手法Nousは,ユーザーの意図に関する不確実性を解消するために積極的に情報を探求する。
    • Nousは,情報理論に基づいた報酬設計により,人間の評価データに頼らず学習可能である。
    • 科学図の生成タスクにおいて,Nousは高い効率と出力品質を示し,ユーザーの専門知識レベルに依存しない。

    Link: https://arxiv.org/abs/2510.27410