arXiv雑要約

AI - 2026/04/28 公開

TRINITY：進化型LLMコーディネーター [cs.LG]目的：多様な基盤モデルの組み合わせによる性能向上
- 基盤モデルの組み合わせは有望だが，アーキテクチャの不一致やAPI制限が課題。
- 既存の手法では，異なるモデルの協調が十分でなく，性能向上が限定的。
- 軽量なコーディネーターによる，効率的かつ適応的なモデル連携を実現する。
- TRINITYは，コーディング，数学，推論，知識などのタスクで既存手法を上回る性能を示した。
- コーディネーターの隠れ状態表現が，入力に対する豊富な文脈情報を提供する点が性能向上の一因。
- 高次元かつ予算制約下では，共分散行列適応進化戦略が他の学習手法より優れていることが示された。
Link: https://arxiv.org/abs/2512.04695
ESPADA：意味的認識による模倣学習のためのデモンストレーションデータダウンサンプリングによる実行速度向上 [cs.IR, cs.RO, cs.AI]目的：模倣学習における実行速度向上
- ロボットの精密な操作能力向上は，実用的な展開において重要である。
- 従来の加速手法は，タスクの意味的理解を欠き，多様な状況で失敗する可能性がある。
- ESPADAは，意味と空間を認識し，重要な部分を保持しつつ，安全な部分を積極的にダウンサンプリングする。
- ESPADAは，VLM-LLMパイプラインと3Dグリッパー-オブジェクト関係を利用してデモンストレーションをセグメント化する。
- 実験により，ESPADAはACTおよびDPをベースラインとして，約2倍の速度向上を達成した。
- 成功率は維持されており，人間によるデモンストレーションと効率的なロボット制御の間のギャップを縮小している。
Link: https://arxiv.org/abs/2512.07371
Min-Max 基準下における関数値応答に対するベイズ最適化 [cs.LG, cs.AI, stat.ML]目的：関数値応答に対するベイズ最適化手法
- ベイズ最適化は高コストなブラックボックス関数の最適化に広く用いられ，科学技術分野において重要である。
- 従来のベイズ最適化はスカラー応答に焦点を当てており，時間や波長などのインデックスに沿って変化する関数値応答には不向きである。
- 本研究は，関数領域全体での最大誤差を直接最小化するMM-FBOを提案し，関数値応答の最適化における課題を解決する。
- MM-FBOは，関数主成分分析を用いて関数応答を表現し，主成分スコアに対してガウス過程による代理モデルを構築する。
- 提案手法は，最悪の場合の期待誤差の活用と関数領域全体の探索をバランスさせる統合不確実性獲得関数を導入する。
- 合成ベンチマークやメタフォトニックデバイス，気相浸透に関する実験により，MM-FBOが既存手法を上回り，関数不確実性の明示的なモデリングの重要性が示された。
Link: https://arxiv.org/abs/2512.07868
不親切行為の代償：マルチエージェントモンテカルロシミュレーションによる相互作用の非効率性の定量化 [cs.AI, cs.CL, cs.CY, cs.MA]目的：職場における不親切行為が業務効率に与える影響の定量化
- 組織文化に悪影響を与える職場環境の有害性が広く認識されている。
- 人間を対象とした実験では，対立状況の再現が倫理的・実際的に困難であり，影響の定量化が課題である。
- LLMを用いたシミュレーションにより，有害なコミュニケーションが及ぼす影響を倫理的に測定すること。
- 有害な参加者を含む会話は，平均して約25％長くなることが示された。
- この「有害性の遅延」は，企業や学術環境における経済的損害の指標として機能する可能性がある。
- エージェントベースモデリングは，社会的な摩擦のメカニズムを測定するための，再現可能で倫理的な代替手段を提供する。
Link: https://arxiv.org/abs/2512.08345
AP-BMM：非同期事前分布誘導ベイズモデルマージによるLLMの能力効率パレート集合の近似 [cs.LG, cs.CL, cs.NE]目的：LLMの能力と効率のトレードオフにおける高品質なパレート集合の近似
- LLMの能力向上と効率化は，自然言語処理の発展に不可欠である。
- 既存手法では，トレードオフの形状を詳細に制御することが困難である。
- 非同期最適化と事前分布を活用し，効率的なパレート集合の近似を目指す。
- AP-BMMは，従来の同期型レイヤーごとのマージ手法やモデルレベルのマージ手法と比較して，より優れたパレート集合近似を達成する。
- ハイパーボリュームの向上とトレードオフフロンティアの広い範囲をカバーすることを確認した。
- 同期型ベイズベースラインと比較して，大幅な壁時計時間の短縮も実現した。
Link: https://arxiv.org/abs/2512.09972
ビジュアルファネル：マルチモーダル大規模言語モデルにおける文脈盲目の解消 [cs.CV, cs.AI]目的：マルチモーダル大規模言語モデルにおける文脈盲目の解消
- マルチモーダル大規模言語モデルは高度な推論能力を持つが，詳細な視覚情報の認識に課題がある。
- 既存手法では，重要な領域を切り出すことで部分的な解決策を提供するものの，文脈とのつながりが失われる問題がある。
- 入力情報の「構造的多様性」を高めることで，文脈盲目を解消し，より精度の高いタスクへの適用を目指す。
- 提案手法「Visual Funnel」は，文脈アンカリングとエントロピースケールポートフォリオにより，階層的な文脈を保持する。
- 実験の結果，Visual Funnelは既存手法と比較して顕著な性能向上を示した。
- 無構造なマルチクロップでは効果が限定的または低下することから，提案手法の階層構造の重要性が確認された。
Link: https://arxiv.org/abs/2512.10362
LLMオークション：LLMネイティブ広告に向けた生成オークション [cs.GT, cs.AI, cs.LG]目的：LLMネイティブ広告における生成オークションメカニズム
- LLMの商業利用はオンライン広告の新たな展開であり，LLMを活用した広告が注目されている。
- 従来の広告メカニズムはLLMの出力分布を対象としないため，適用が困難である。
- LLMの生成とオークションを統合し，効率性とインセンティブ適合性を両立することを目指す。
- LLM-Auctionは，LLMの出力を広告配置に活用する初の学習ベースの生成オークションメカニズムである。
- LLMの目的関数と広告主の価値，ユーザー体験の整合性を図り，外部性を考慮した効率的な配置を実現した。
- 理論的にもメカニズムの単調性と連続性が確認され，シンプルな支払いルールが良好なインセンティブ特性を示すことが証明された。
Link: https://arxiv.org/abs/2512.10551
解釈可能かつ制御可能なニューラル表現のためのスパース概念アンカリング [cs.LG]目的：ニューラル表現における解釈性と制御可能性の向上
- 深層学習モデルのブラックボックス化が課題であり，モデルの内部動作を理解することが重要である。
- 既存手法では，モデルの解釈性と制御性を両立することが難しい場合が多い。
- 限定的な教師データを用いて，概念を特定の潜在空間に固定し，モデルの挙動を制御すること。
- スパース概念アンカリングは，わずかな教師データ（アンカー概念あたり0.1%未満の例のラベル）のみを用いて，潜在空間に概念を配置する方法である。
- 実験結果から，特定の概念を選択的に減衰させ，直交する特徴への影響を最小限に抑えられることが示された。
- アンカーされた次元の重みを削除することで，概念を完全に排除でき，再構成誤差は理論限界に近づく。
Link: https://arxiv.org/abs/2512.12469
選択的確信リスク制御 [cs.LG, cs.AI]目的：機械学習システムの信頼性ある不確実性定量化
- 高ステークスな分野での機械学習応用において，不確実性の正確な評価は不可欠である。
- 従来の確信予測は保証されるが，予測集合が大きすぎ，実用性に課題があった。
- 選択的確信リスク制御により，コンパクトで信頼性の高い不確実性定量化を目指す。
- 提案手法SCRCは，選択的分類と確信予測を統合し，効率的な不確実性制御を実現した。
- SCRC-Tは交換可能性を維持し，厳密な有限サンプル保証を提供する。
- SCRC-Iは計算効率が高く，PAC型確率的保証を備え，実用的なリスク制御能力を示した。
Link: https://arxiv.org/abs/2512.12844
翻訳のための聴覚：LLMへの音声モダリティ統合の有効性 [cs.CL, cs.AI, cs.SD]目的：LLMにおける音声モダリティ統合の効果
- 言語の壁を越えたコミュニケーションは不可欠であり，音声翻訳はその重要な手段となる。
- 従来の音声翻訳は，音声認識と機械翻訳の連携に依存し，エラー伝播のリスクがある。
- 音声モダリティを直接統合したLLMが，従来のシステムを上回る性能を発揮できるか検証する。
- 包括的な評価の結果，従来の連携システムが全体的に最も信頼性が高いことが示された。
- しかし，最新のSpeechLLMは特定の条件下で連携システムと同等またはそれ以上の性能を示すことが確認された。
- 音声基盤モデル単体では性能が劣り，LLMとの統合が高品質な音声翻訳に不可欠であることが示唆された。
Link: https://arxiv.org/abs/2512.16378
主要ドメインを超えたAIセキュリティ：履歴書スクリーニングにおける敵対的脆弱性の事例研究 [cs.CL, cs.AI]目的：履歴書スクリーニングにおける敵対的脆弱性の評価と対策
- AIの活用範囲拡大に伴い，セキュリティの確保が不可欠となっている。
- 特定のドメイン以外では，LLMに対する敵対的攻撃に対する防御が遅れている。
- 履歴書スクリーニングにおける敵対的攻撃への脆弱性を明らかにし，対策を提案する。
- 履歴書スクリーニングにおいて，特定の攻撃手法で80%を超える攻撃成功率が確認された。
- プロンプトベースの防御は攻撃を10.1%削減したが，誤拒否率が12.5%増加した。
- 提案手法FIDS（LoRA適応）は攻撃を15.4%削減し，誤拒否率は10.4%増となった。両手法の組み合わせで攻撃を26.3%削減し，学習時防御がより有効であることが示された。
Link: https://arxiv.org/abs/2512.20164
マルチタスク適合Q反復とオフラインQ学習における汎化 [cs.LG]目的：マルチタスクオフライン強化学習における汎化性能の理論的保証
- 複数のタスクを同時に学習することで，効率的な学習と汎化性能の向上が期待される。
- オフライン強化学習では，データ分布のシフトが汎化性能を阻害する可能性がある。
- マルチタスク間の共通構造を利用し，データ効率と汎化性能の向上を目指す。
- マルチタスク適合Q反復において，タスク間でデータをプールすることで，推定精度が向上することが示された。
- 総サンプル数に対する誤差は，$1/\sqrt{nT}$ の依存性を持つことが明らかになった。
- 新しいタスクに対して，事前学習済みの表現を再利用することで，学習の複雑さを軽減できる可能性がある。
Link: https://arxiv.org/abs/2512.20220
パターンか患者か：一人称記述によるパーソナリティ障害の診断におけるLLMと精神保健専門家の比較 [cs.CL, cs.AI, cs.CY, cs.HC]目的：パーソナリティ障害の診断精度
- 精神疾患の早期発見と適切な治療が重要であるため，診断支援技術の発展が求められている。
- LLMによる自己診断支援の信頼性やバイアスに関する検証が十分ではない。
- LLMの診断能力と専門家の診断能力を比較し，LLMの課題を明らかにすること。
- Gemini Proモデルの診断スコアは，専門家平均よりも21.91%高かった。
- LLMと専門家はBPDの診断に優れていたが，NPDの診断ではLLMの精度が低かった。
- LLMはパターンや形式的カテゴリーに焦点を当てたが，専門家は患者の自己認識や時間的経験を重視した。
Link: https://arxiv.org/abs/2512.20298
文脈を超えて：大規模言語モデルのユーザー意図理解の失敗 [cs.AI, cs.CL, cs.CR, cs.CY]目的：大規模言語モデルのユーザー意図理解の限界
- 大規模言語モデルの安全性確保は，社会実装において不可欠である。
- 既存の安全性対策は有害コンテンツに焦点を当て，意図理解の脆弱性を見過ごしている。
- 悪意あるユーザーによる安全性メカニズムの回避を可能にする要因の解明。
- ChatGPT，Claude，Gemini，DeepSeekなどの最先端LLMにおいて，感情的な表現，段階的な開示，学術的根拠を用いることで，安全性メカニズムを回避できることが示された。
- 推論能力の強化は，必ずしも安全性向上につながらず，むしろ悪用の精度を高める傾向が見られた。ただし，Claude Opus 4.1は意図検出を優先する傾向が確認された。
- この結果は，既存のアーキテクチャ設計に根本的な脆弱性があることを示唆し，文脈と意図理解を安全性の中核機能として組み込む必要性を示唆する。
Link: https://arxiv.org/abs/2512.21110
モンテカルロ木探索のための分散を考慮した事前知識に基づく木ポリシー [cs.LG, cs.AI]目的：モンテカルロ木探索における木ポリシーの改善
- 強化学習において，長期的な推論が必要なタスクにおいて計画と学習を統合する手法として重要性が高まっている。
- 既存の木ポリシーは，探索効率の改善や学習の加速化が課題であった。
- 分散を考慮した事前知識に基づく木ポリシーを導出し，探索性能の向上を目指す。
- 本研究で提案する分散を考慮した木ポリシーは，既存のPUCTと比較して複数のベンチマークで優れた性能を示した。
- 提案手法は，計算コストの増加を伴うことなく性能向上を達成した。
- 分散を考慮した木ポリシーをサポートするmctxライブラリの拡張を公開し，今後の研究を促進する。
Link: https://arxiv.org/abs/2512.21648
VAMP-Net：ゲノムの置換不変集合注意と品質を考慮した1D-CNNを用いた解釈可能な多経路ネットワーク（MTB薬剤耐性） [cs.LG]目的：結核菌の薬剤耐性予測における精度向上と解釈性の提供
- 結核は依然として世界的な健康問題であり，薬剤耐性菌の迅速かつ正確な診断が重要である。
- 結核菌ゲノムの複雑な相互作用とシーケンス品質のばらつきが薬剤耐性予測の課題となっている。
- 変異の重要度とシーケンス品質を考慮し，よりロバストで解釈可能な予測モデルを構築すること。
- VAMP-Netは，既存のCNNやMLPモデルと比較して，リファンピシンやリファブチンにおいて95%以上の高い精度と0.97程度のAUCを達成した。
- 特徴量帰属解析により，既知の標的遺伝子（rpoB，embB，katG）が同定され，新たな重要な変異領域も発見された。
- 機能的濃縮解析により，発見された変異が細胞壁リモデリングを中心とした代謝モジュールと関連することが示された。
Link: https://arxiv.org/abs/2512.21786
PRAXIS：プログラム解析とオブザーバビリティの統合による根本原因分析 [cs.DC, cs.AI, cs.SE]目的：クラウドインシデントの根本原因分析のための手法
- クラウドサービスの可用性は重要であり，インシデントによる損失を最小限に抑える必要がある。
- クラウドインシデントの根本原因の特定は，複雑で時間がかかる場合が多い。
- 根本原因分析の精度向上と，コスト削減を目指す。
- PRAXISは，サービス依存グラフとプログラム依存グラフを活用し，エージェントによるワークフローを調整する。
- 最先端のReActベースラインと比較して，根本原因分析の精度を最大6.3倍向上させ，トークン消費量を5.3倍削減する。
- 30件の実世界のインシデントを用いてPRAXISの有効性を実証し，根本原因分析のベンチマークを構築中である。
Link: https://arxiv.org/abs/2512.22113
評価，推論，そして最適な選択！ピアレビュープロセスによる大規模言語モデルのアンサンブル [cs.CL, cs.AI]目的：大規模言語モデル生成の応答候補から最適なものを選択する手法
- 多様な能力を持つ言語モデルの集合知を活用し，より高度な性能を目指すことが重要である。
- 既存手法では，モデルの選択根拠が不明確であったり，汎用性に課題がある場合がある。
- モデル間の相互評価に基づき，透明性と解釈可能性を備えた応答選択を実現する。
- LLM-PeerReviewは，複数のLLMによる判断を統合し，応答のスコアリングを行う。
- 平均化戦略またはグラフィカルモデルを用いた推論により，最終的なスコアを算出する。
- 4つのデータセットでSmoothie-Globalを6.9%～7.3%上回り，高い有効性が確認された。
Link: https://arxiv.org/abs/2512.23213
大規模推論モデルへのエネルギー効率を考慮したルーティング [cs.AI, cs.IT, cs.SY, eess.SY, math.IT]目的：大規模推論モデルのエネルギー消費削減
- AIモデルの規模拡大に伴い，推論時のエネルギー消費が大きな課題となっている。
- モデル選択や運用方法によってエネルギーコストが異なり，最適なバランスが不明である。
- エネルギー消費と性能の変動性を考慮したルーティング戦略を確立すること。
- 推論時のエネルギーコストはモデルや推論量によって異なり，適切なモデル選択が重要である。
- システム性能は，平均エネルギー供給量と変動性のバランスによって決まる。
- トレーニング計算量と推論計算量のスケーリング則に基づくルーティングポリシーの有効性が示された。
Link: https://arxiv.org/abs/2601.00823
動力二輪車利用者の時間的プレッシャー予測による能動的安全介入 [cs.LG, cs.HC]目的：動力二輪車利用者の時間的プレッシャーの予測
- 二輪車事故の危険性を低減するためには，ライダーの行動特性の理解が不可欠である。
- 時間的プレッシャーがライダーの危険な行動に影響するが，その予測は十分に進んでいない。
- 時間的プレッシャーを予測し，事故リスクを低減するための安全支援システムを開発すること。
- 実験データから，時間的プレッシャーが高い状況下では，速度が48%上昇し，急ブレーキも36%増加することが示された。
- 提案手法MotoTimePressureは，91.53%の精度と98.93%のROC AUCを達成し，既存手法を上回る性能を示した。
- 予測された時間的プレッシャーを衝突予測モデルに組み込むことで，精度向上が確認され，安全な二輪車移動を支援する。
Link: https://arxiv.org/abs/2601.03173
SCRIBE：ツール利用言語モデルの構造化された中間レベルの監督 [cs.AI]目的：ツール利用言語モデルの信頼性向上
- 複雑な推論において，言語モデルにツールを使用させることは，自律性の向上に不可欠である。
- 多段階推論における報酬の適切な配分が難しく，性能向上のボトルネックとなっている。
- 中間レベルの抽象化による報酬モデリングで，より安定した学習を目指す。
- SCRIBEは，既存のQwen3-4BモデルのAIME25精度を43.3%から63.3%に向上させた。
- 複雑な複数ターンのツール利用において，成功率が大幅に向上した。
- 中間レベルのスキルの習得が，高度な計画能力の創発に先行することが示された。
Link: https://arxiv.org/abs/2601.03555
NeoAMT：強化学習を用いた新語対応型エージェント機械翻訳 [cs.CL, cs.AI]目的：新語を含む文の翻訳
- グローバル化の進展により，新語の出現頻度が増加しており，正確な翻訳が重要である。
- 従来の機械翻訳は，新語への対応が苦手であり，翻訳品質の低下を招く場合がある。
- 新語に対応できる機械翻訳システムを開発し，翻訳精度を向上させる。
- 新語対応型機械翻訳のためのエージェントフレームワークNeoAMTを提案した。
- Wiktionaryを基盤とした検索ツールキットを構築し，16言語75方向のデータセットを構築した。
- 強化学習による翻訳エージェントの訓練と評価を行い，翻訳品質の向上に成功した。
Link: https://arxiv.org/abs/2601.03790
TeachMaster：コードによる生成的な教育 [cs.CY, cs.AI, cs.CL, cs.HC, cs.MA]目的：質の高いオンライン教育の生成
- オンライン教育の普及には，高品質な教材が不可欠である。
- 教材作成にはコストと時間がかかり，教育の拡大を阻害する要因となっている。
- 教材作成の自動化を通じて，オンライン教育のスケールアップを目指す。
- TeachMasterは，教育ビデオの制作効率を大幅に向上させる。
- 従来のオンラインコースビデオ制作費用の0.3%という低コストを実現した。
- 構造的な一貫性や視覚的な品質を損なうことなく，教育に適したビデオを生成する。
Link: https://arxiv.org/abs/2601.04204
報酬誘導デコーディングによるクラスタレベル適応：パーソナライズされたテキスト生成 [cs.CL, cs.AI]目的：パーソナライズされたテキスト生成のためのクラスタレベル適応手法
- 大規模言語モデルの活用が広がる中，個々のユーザーに最適化されたテキスト生成が求められている。
- きめ細かいパーソナライズと，実用的な規模での展開との両立が課題となっていた。
- ユーザーのスタイルパターンに基づいたクラスタリングと，効率的なパーソナライズを実現する。
- CARDは，ユーザーをスタイルパターンでクラスタリングし，各クラスタに特化したLoRAアダプターを学習することで，高い汎化性能と低リソース環境での性能を実現した。
- CARDは，ユーザーが作成したテキストとクラスタレベルの生成結果を比較することで，ユーザー固有のスタイル嗜好を推定し，手動アノテーションの必要性を削減した。
- 推論時には，軽量なユーザー嗜好ベクトルと低ランクのロジット修正を用いてパーソナライズをデコーディング段階に注入し，効率性とスケーラビリティを向上させた。
Link: https://arxiv.org/abs/2601.06352
KOCO-BENCH：大規模言語モデルはソフトウェア開発におけるドメイン知識を活用できるか [cs.NI, cs.HC, cs.CY, cs.SE, cs.AI, cs.CL, cs.LG]目的：ソフトウェア開発におけるドメイン知識の活用に関する大規模言語モデルの評価
- ソフトウェア開発は，経済活動の基盤であり，その効率化は重要である。
- 大規模言語モデルは汎用的なプログラミングには優れるが，特定のドメインに特化したソフトウェア開発には課題がある。
- 既存のベンチマークではドメイン知識の習得・応用能力を評価できず，本研究ではその評価を可能にするベンチマークを開発する。
- KOCO-BENCHは，6つの新たなドメインと11のフレームワーク，25のプロジェクトを含む，実用的なソフトウェア開発を評価するためのベンチマークである。
- 本ベンチマークは，APIやルールなどの多様なドメイン知識の習得・応用を必要とし，大規模言語モデルに有意な課題を提示する。
- 最先端モデルであるClaude Codeでも34.2%の精度にとどまり，より効果的なドメイン特化手法の開発が急務であることが示された。
Link: https://arxiv.org/abs/2601.13240
CURE-Med：カリキュラムに基づいた多言語医療推論のための強化学習 [cs.AI, cs.CL]目的：多言語医療推論のための強化学習フレームワーク
- グローバル化が進む中で，多言語対応の医療支援システムの重要性が高まっている。
- 既存のLLMは，多言語医療推論において信頼性が低く，実用化の妨げとなっている。
- LLMにおける多言語医療推論の論理的正確性と言語安定性を向上させることを目指す。
- 新たに多言語医療推論データセットCUREMED-BENCHを構築し，13言語に対応した。
- カリキュラムに基づいた強化学習フレームワークCURE-MEDを提案し，論理的正確性と言語安定性を同時に改善した。
- 7Bパラメータで言語一貫性85.21%，論理的正確性54.35%，32Bパラメータでそれぞれ94.96%と70.04%を達成した。
Link: https://arxiv.org/abs/2601.13262
CorpusQA：コーパスレベル分析と推論のための1000万トークンベンチマーク [cs.CL, cs.AI]目的：コーパスレベル分析と推論のためのベンチマーク
- 大規模言語モデルの進化に伴い，より広範なテキストデータに対する処理能力が求められている。
- 既存のベンチマークは，単一の長いテキストか，限られた関連部分からの回答に依存しており，大規模コーパスの分析には不十分である。
- 分散した証拠を統合し，統計的な集計を行う真のコーパスレベル分析を可能にするベンチマークの提供。
- CorpusQAは，1000万トークン規模の新しいベンチマークであり，複雑で計算集約的なクエリを通じて，大規模テキスト全体での包括的な推論を試す。
- 最先端の長文コンテキストLLMでさえ，入力長が増加すると性能が低下し，標準的な検索拡張生成システムは完全に破綻する。
- メモリ拡張されたエージェントアーキテクチャがより堅牢な代替手段であり，コンテキストウィンドウの拡張から，グローバルな情報統合のための高度なアーキテクチャへのシフトが必要であることを示唆する。
Link: https://arxiv.org/abs/2601.14952
大規模言語モデルの台頭とアメリカ合衆国連邦政府研究資金の動向および影響 [cs.DL, cs.AI, cs.CY, physics.soc-ph]目的：アメリカ合衆国連邦政府の研究資金配分における大規模言語モデル（LLM）の影響分析
- 科学研究の方向性，多様性，影響を決定する上で，政府研究資金は重要な役割を担う。
- LLMが科学研究に浸透する中で，資金配分への影響に関する知見は乏しい現状がある。
- LLMの台頭が研究アイデアの選定と資金配分に及ぼす影響を明らかにすることを目指す。
- 2023年以降，LLMの利用が急速に増加しており，利用度合いには二峰性が見られる。
- LLMの利用度が高いほど，提案内容と既存の研究との意味的類似性が高くなる傾向がある。
- NIHではLLM利用が提案の採択率および論文発表数と正の相関を示す一方，NSFでは同様の傾向は見られない。
Link: https://arxiv.org/abs/2601.15485
静的なものからインタラクティブなものへ：自然言語によるインタラクティブな可視化の作成 [cs.HC, cs.AI]目的：既存の静的な可視化をインタラクティブなものへと変換する手法
- データ可視化はデータ分析において不可欠であり，その効果を高めるためにはインタラクティブ性が重要である。
- 既存の静的グラフをインタラクティブ化するには，元のコードやデータが必要であり，手間と時間がかかる。
- 自然言語による指示を通じて，既存の静的グラフを容易にインタラクティブなものへと変換すること。
- Athanorは，マルチモーダル大規模言語モデルと自然言語指示を用いて，静的グラフをインタラクティブに変換する。
- ユーザーアクションと対応する調整をマッピングする「アクション修正インタラクション設計空間」を導入している。
- 自然言語指示を実行可能な操作空間に変換する「マルチエージェント要件分析器」が，高い有効性とユーザビリティを示す。
Link: https://arxiv.org/abs/2601.17736
液体-液体分離における稠密層高度の推定：物理情報ニューラルネットワークアプローチ [cs.LG]目的：液体-液体分離装置における稠密層高度の推定手法
- 化学，製薬，リサイクルプロセスにおいて，液体-液体分散系の分離は不可欠であり，分離性能の向上が重要である。
- 稠密層高度は重要な指標だが，光学的な制約から計測が困難であり，コストと手間がかかるという課題がある。
- 流量測定のみを用いて，稠密層高度を推定する，効率的かつ実用的な手法を開発することを目的とする。
- 物理情報ニューラルネットワーク（PINN）を事前学習と微調整の二段階で学習させることで，高精度な高度推定を実現した。
- 拡張カルマンフィルターとの組み合わせにより，流量測定のみを用いてリアルタイムな高度追跡が可能となった。
- PINNは，従来のデータ駆動型ニューラルネットワークやメカニスティックモデルと比較して，最も正確な推定結果を示した。
Link: https://arxiv.org/abs/2601.18399
制御のためのベルマン残差最小化：幾何学，定常性，収束性 [cs.LG, cs.SY, eess.SY]目的：制御のためのベルマン残差最小化に関する基礎的な結果
- 強化学習を含む意思決定問題解決において，動的計画法が広く用いられている
- ベルマン残差最小化は効率性やモデルフリー設定への拡張が難しい点が課題であった
- 関数近似を用いた価値関数の安定した収束性を実現する制御問題への応用を目指す
- 本研究では，制御のためのベルマン残差最小化に関する幾何学的特性が示された
- 定常性条件の下で，ベルマン残差最小化が収束するための十分条件が確立された
- 既存研究では少ない制御タスクにおけるベルマン残差最小化法の可能性を示唆した
Link: https://arxiv.org/abs/2601.18840
GTAC：近似回路のための生成Transformer [cs.AR, cs.AI, cs.LG]目的：近似回路の生成
- 低消費電力・高性能化が求められる現代において，近似計算は重要な技術である。
- 従来の近似論理合成は探索範囲が限られており，最適な回路設計が困難であった。
- Transformerの生成能力を用いて，大規模な回路設計における探索範囲を拡大する。
- GTACは，既存の正確な生成ベースラインと比較して，遅延を30.9％削減し，ゲート数を50.5％削減した。
- 従来の近似論理合成法と比較して，6.5％の面積削減と4.3倍の高速化を実現した。
- GTACの冗長性を排除したエンコーディングは，シーケンス長を33.3倍，ピークメモリを61.6倍削減した。
Link: https://arxiv.org/abs/2601.19906
テスト時の適応による教師なし組合せ最適化 [cs.LG]目的：教師なし組合せ最適化における汎化能力とインスタンス固有の適応性の両立
- 組合せ最適化問題は現実世界の様々な課題に応用可能であり，効率的な解法が求められている。
- 既存手法では，汎化性能とインスタンス固有の適応性の両立が難しく，性能向上の余地がある。
- 汎化学習で得られた知識を活用しつつ，インスタンス固有の適応を可能にする新たな枠組みを提案する。
- TACOは，汎化性能の高いモデルをテスト時に戦略的に微調整することで，インスタンス固有の最適化を効率的に行う。
- TACOは，既存手法と比較して，より高品質な解をほぼ同等の計算コストで達成できる。
- 様々な組合せ最適化問題において，TACOの有効性とロバスト性が実証された。
Link: https://arxiv.org/abs/2601.21048
LLM支援による演算増幅器の行動レベル設計：エージェントによる人間模倣型推論 [cs.AI]目的：演算増幅器の行動レベルパラメータ設計
- 高性能なアナログ回路設計は，現代のエレクトロニクスシステムの根幹をなすものであり，その重要性は高い。
- 従来の回路設計は，専門家の経験と試行錯誤に依存する部分が多く，自動化が困難であった。
- LLMを活用し，人間が行う設計過程を模倣することで，効率的な自動設計を実現することを目指す。
- White-Opは，LLMエージェントによる人間模倣型推論を取り入れた演算増幅器の行動レベルパラメータ設計フレームワークである。
- 実験の結果，White-Opは平均8.52%の理論予測誤差で解釈可能な設計を達成し，全てのトポロジーでトランジスタレベルへのマッピング後の回路機能を維持した。
- 一方，ブラックボックスベースラインは5〜7のトポロジーで失敗しており，White-Opの有効性が示された。
Link: https://arxiv.org/abs/2601.21321
大規模言語モデル用歪みのない多ビット透かし：MirrorMark [cs.CR, cs.AI]目的：大規模言語モデルにおける信頼性の高いコンテンツ帰属
- 質問応答やコンテンツ生成等，LLMの応用拡大に伴い，著作権保護が重要になっている。
- 既存の透かし技術は，二値信号しか提供しないか，テキスト品質を低下させる歪みを生じる。
- 歪みを生じさせず，検出性と堅牢性を高めた多ビット透かし技術の開発。
- MirrorMarkは，トークン確率分布を変更せずに多ビット情報を埋め込むことで，テキスト品質を維持する。
- 文脈に基づいたスケジューラにより，挿入・削除に対する堅牢性を高めている。
- 300トークンに54ビットを埋め込み，ビット精度を8-12%向上させ，偽陽性率1%で11%多くの透かしテキストを正しく識別した。
Link: https://arxiv.org/abs/2601.22246
BEAR：大規模言語モデルを用いた推薦におけるビーム探索を考慮した最適化 [cs.IR, cs.AI, cs.LG]目的：大規模言語モデルを用いた推薦システムにおけるビーム探索の挙動を考慮した最適化手法
- 推薦システムは，ユーザーに適切な情報を提供するため，重要な技術である。近年，大規模言語モデルの活用が進んでいる。
- 従来のファインチューニング手法では，ビーム探索におけるアイテムの早期打ち切り問題が発生し，性能低下を招く可能性がある。
- ビーム探索の特性を考慮した新しいファインチューニング手法を開発し，推薦性能の向上を目指す。
- BEARは，ビーム探索の各ステップにおいて，正解アイテムの各トークンが上位B個の候補に含まれることを保証する。
- この手法は，計算コストを抑えつつ，誤った打ち切りリスクを軽減し，推薦精度を向上させる。
- ４つの実データセットでの実験により，BEARが既存手法を大きく上回ることが示された。
Link: https://arxiv.org/abs/2601.22925
MedSpeak：知識グラフを活用した音声医療QAにおけるASRエラー訂正フレームワーク [cs.CL, cs.AI]目的：音声医療QAにおけるASRエラー訂正
- 医療分野での音声認識技術は，医師や患者の負担軽減に貢献し，医療サービスの効率化に繋がる。
- 医療用語は専門性が高く，音声認識システムでの正確な認識が困難であるという課題がある。
- 医療知識グラフとLLMを活用し，音声認識エラーを訂正することで，医療QAの精度向上を目指す。
- MedSpeakは，医療知識グラフのセマンティック情報と音響情報を活用し，ASRエラーを効果的に訂正する。
- 実験結果から，MedSpeakは医療用語の認識精度と全体的な医療QAのパフォーマンスを大幅に向上させることが示された。
- MedSpeakは，医療QAにおける最先端のソリューションとして確立された。
Link: https://arxiv.org/abs/2602.00981
拡散モデルと対数凹分布のための高精度サンプリング [cs.LG, math.ST, stat.ML, stat.TH]目的：拡散モデルおよび対数凹分布における高精度サンプリング手法
- 機械学習の発展において，生成モデルは重要な役割を担う。
- 従来のサンプリング手法は計算コストが高く，効率が課題であった。
- 計算効率を向上させ，より迅速なサンプリングを可能にすること。
- 本研究では，拡散モデルサンプリングにおいて，$\delta$-誤差を$\mathrm{polylog}(1/\delta)$ステップで達成するアルゴリズムを提案した。
- この手法は，既存の結果と比較して指数関数的に改善されており，計算量が$\widetilde O(d_\star \mathrm{polylog}(1/\delta))$または$\widetilde O(L \mathrm{polylog}(1/\delta))$で済む。
- さらに，勾配評価のみを用いて，一般的な対数凹分布に対する$\mathrm{polylog}(1/\delta)$複雑度サンプラーを初めて実現した。
Link: https://arxiv.org/abs/2602.01338
「賢いほど，それを使ったとは悟られない」：職場における生成AIリテラシー育成の社会力学 [cs.HC, cs.AI]目的：職場における生成AIリテラシー育成の社会力学
- 知識労働の変革に伴い，生成AIリテラシーは組織にとって不可欠な能力となっている。
- 職場環境における生成AIリテラシーに関する信念形成の社会力学的側面が不明である。
- 生成AIツールの活用能力育成における学習機会の阻害要因とその改善策を明らかにすること。
- 同僚からの知識共有は学習を支援する一方で，生成AI使用の痕跡を消すことが専門知識の証明と捉えられている。
- その結果，知識共有の機会が減少し，透明性が損なわれている。
- 職場におけるAIリテラシー向上のためには，率直な対話の促進，ユーザー生成知識の可視化，協調学習の重視が不可欠である。
Link: https://arxiv.org/abs/2602.01386
経験検索を超えて：凍結済みLLMのためのユーティリティ最適化構造化経験の生成学習 [cs.LG, cs.AI]目的：凍結済みLLMを誘導するためのユーティリティ最適化構造化経験の生成
- LLMの性能向上は重要であり，特に静的なLLMの改善が求められている。
- 既存の経験再利用は類似性検索に依存し，ノイズや遅延を引き起こす可能性がある。
- LLMのパラメータ内に経験を格納し，単一のフォワードパスで構造化された経験を提供する。
- SEAMは軽量なプラグインであり，実行者固有であり，パラメータ内に経験を格納する。
- SEAMは実行者のロールアウトとGRPOを通じてユーティリティのために訓練され，凍結された状態を維持する。
- 数学的推論ベンチマークにおいて，一貫した精度向上が確認され，オーバーヘッドも低い。
Link: https://arxiv.org/abs/2602.02556
エッジAIシステムのためのスケーラブルな説明可能性 as a Service (XaaS) [cs.LG, cs.AI, cs.DC, cs.SE]目的：エッジAIシステムにおける説明可能性の提供
- AIの信頼性向上は重要であり，説明可能性はその鍵となる。特にエッジ環境での活用が求められている。
- 既存手法は推論と説明を同時に行うため，計算コストが高く，スケーラビリティに課題がある。
- エッジデバイスのリソース制約下でも，効率的に説明可能性を提供するアーキテクチャを構築する。
- XaaSは，推論と説明生成を分離することで，遅延を38%削減し，説明の質を維持する。
- 分散キャッシュとセマンティック類似性に基づく検索により，冗長な計算を削減する。
- 軽量な検証プロトコルにより，キャッシュされた説明と新規生成された説明の信頼性を保証する。
Link: https://arxiv.org/abs/2602.04120
産業界と学術界における敵対的機械学習に関する比較的研究：ユーザー調査アプローチ [cs.CR, cs.AI]目的：産業界と学術界における敵対的機械学習の脆弱性認識と教育戦略
- 機械学習の急速な発展に伴い，セキュリティ上の課題が顕在化している。
- 敵対的機械学習に対する教育が不十分であり，対策の遅れが懸念される。
- 機械学習教育にセキュリティ教育を統合し，脆弱性への理解を深める。
- オンライン調査により，サイバーセキュリティ教育と敵対的機械学習への懸念との間に相関関係が認められた。
- 自然言語処理と生成AIを用いたCTFチャレンジが，学生の興味を引き付ける有効な教育手法であることが示された。
- 機械学習カリキュラムへのセキュリティ教育の統合が不可欠であることが明らかになった。
Link: https://arxiv.org/abs/2602.04753
リアルタイム知識トレース：tabular foundationモデルを用いたリアルタイム適応 [cs.LG]目的：知識トレースにおけるリアルタイム適応手法
- 学習者の理解度を把握し，個別最適化された教育を実現する上で重要な研究分野である。
- 従来の深層学習モデルは学習に時間がかかり，短いシーケンスデータで過学習しやすいという課題があった。
- tabular foundationモデルを用いて，学習プロセス中にリアルタイムで知識状態を推定し，迅速な適応を可能にすること。
- 本研究では，tabular foundationモデルを活用したリアルタイム知識トレース手法を提案した。
- 提案手法は，従来のオフライン学習型モデルと比較して，学習時間を大幅に削減し，最大53倍の高速化を達成した。
- 様々な規模のデータセットを用いて，予測性能が競争力のある水準にあることを示した。
Link: https://arxiv.org/abs/2602.06542
Fine-R1：思考連鎖による推論で，マルチモーダルLLMを詳細な視覚認識において卓越させる [cs.CV, cs.AI]目的：詳細な視覚認識のためのマルチモーダルLLMの性能向上
- 視覚情報は階層的に分類可能であり，LLMによる高度な視覚理解が求められている。
- 汎用LLMは，詳細な視覚認識において性能が低い場合が多く，大規模なアノテーションが必要となる。
- 本研究は，少ないデータで詳細な視覚認識を実現し，未知のカテゴリへの汎化性能を高めることを目指す。
- Fine-R1は，思考連鎖を用いた教師ありファインチューニングと，トリプレット拡張による方策最適化により，詳細な視覚認識能力を獲得した。
- わずか4ショットの学習で，既存の汎用LLM，推論LLM，およびコントラスト学習CLIPモデルを上回る性能を示した。
- 特に，学習済みのカテゴリと未知のカテゴリの両方において優れた識別能力を発揮し，専門家によるアノテーションが困難な分野での活用が期待される。
Link: https://arxiv.org/abs/2602.07605
バックトラッキングフィードバックによる強化学習 [cs.LG, cs.AI, cs.CL]目的：大規模言語モデルの安全性向上
- 大規模言語モデルの安全性は，悪意のある攻撃や誤りから保護するために不可欠である。
- 既存手法では，巧妙な攻撃や分布内エラーに対する頑健な安全性が課題となっていた。
- 動的なエラー訂正能力をモデルに学習させ，攻撃への耐性を高めることを目指す。
- 本研究で提案するRLBFは，多様なベンチマークにおいて攻撃成功率を大幅に低減した。
- モデルの基礎的な性能を維持しつつ，安全性を向上させることに成功した。
- BSAFE+によるSFTデータ生成戦略が，バックトラッキング機能の学習を効果的に支援した。
Link: https://arxiv.org/abs/2602.08377
モバイルGUIエージェントのための匿名化によるプライバシー保護：利用可能でありながら不可視 [cs.CR, cs.AI]目的：モバイルGUIエージェントにおけるプライバシー保護の枠組み
- スマートフォン自動化の需要が高まる中で，GUIエージェントの利便性は大きい。
- GUIエージェントは画面全体をキャプチャするため，個人情報漏洩のリスクがある。
- タスク遂行に必要な情報を保護しつつ，エージェントの利便性を維持すること。
- 提案手法は，個人情報を利用可能なまま隠蔽する「利用可能でありながら不可視」の原則を採用。
- 個人情報検出モデルとプレースホルダーを用いて，識別情報を削除しつつ意味カテゴリを保持。
- AndroidLabとPrivScreenの評価で，プライバシー保護とユーティリティのバランスが改善された。
Link: https://arxiv.org/abs/2602.10139
プローブベースのデータ帰属：LLMポストトレーニングにおける望ましくない行動の発見と軽減 [cs.LG, cs.AI]目的：LLMポストトレーニングにおける行動変化の原因となる学習データポイントの特定
- 大規模言語モデルの安全性確保は，その社会実装において不可欠である。
- ポストトレーニングにおけるモデルの予期せぬ有害な行動の特定と原因究明が困難である。
- 特定の有害行動を引き起こすデータポイントを特定し，モデルの安全性を向上させる。
- 提案手法により，モデルが危険な要求に有害に従う「注意散漫誘導型コンプライアンス」を発見した。
- 上位のデータポイントをフィルタリングすることで，この行動を63%削減し，ラベルを切り替えることで78%削減した。
- 本手法は，既存手法と比較して性能が高く，コストも大幅に低いことが示された。
Link: https://arxiv.org/abs/2602.11079
コンセンサスの罠：データアノテーションにおける主観性と「正解」の幻想の解剖 [cs.AI, cs.CL, cs.CY]目的：データアノテーションにおけるコンセンサスの罠のメカニズムの分析
- 機械学習の性能は，質の高い学習データに大きく依存する。アノテーションはその根幹を担う。
- アノテーションにおける人間の意見の不一致が，単なるノイズとして扱われがちである。
- 人間の多様な経験を反映した，文化的に適応性のあるモデル構築を目指す。
- データアノテーションの実践における位置づけの可視性の欠如と，モデルによる検証への依存が，バイアスを生み出している。
- 地理的覇権が西洋規範を普遍的な基準として押し付け，不安定な立場にあるデータワーカーの主観性を抑圧している。
- 意見の不一致をエラーではなく，高精度なシグナルとして捉え直し，多様性をマッピングするアノテーション基盤の構築を提唱する。
Link: https://arxiv.org/abs/2602.11318
データ不足下における入学予定者数予測：高等教育計画のためのゼロショット時系列基盤モデルフレームワーク [cs.AI]目的：高等教育における入学予定者数予測のためのゼロショット時系列基盤モデルの有効性
- 高等教育機関のリソース配分は，正確な入学予測に依存する。
- 構造変化によりデータ系列が中断され，予測が困難になる場合がある。
- データ不足下での予測精度向上と，実用的な予測プロトコルの確立を目指す。
- ゼロショット時系列基盤モデルは，古典的な手法と同程度の予測性能を示す。
- Google TrendsとIOCI（歴史的記録から抽出されたレジーム指標）を組み込むことで，予測精度が向上する。
- 予測効果は，コホート特性と共変量の設計に依存する。
Link: https://arxiv.org/abs/2602.12120
価値整合税：LLMの価値整合における価値トレードオフの測定 [cs.AI, cs.HC]目的：LLMの価値整合における価値トレードオフの定量化
- LLMの価値整合は，倫理的で安全なAIシステムの開発に不可欠であり，社会への影響が大きい。
- 従来の価値整合研究では，価値関係が静的に捉えられ，整合介入による価値システムの変化が無視されてきた。
- 価値整合介入が他の価値に与える影響を測定し，意図しない副作用を明らかにすること。
- VATフレームワークを用いることで，価値整合が価値全体に与える影響を定量的に測定することができた。
- 価値整合は，目標とする価値の向上だけでなく，他の価値との間で構造的なトレードオフを生じさせることが示された。
- 従来の評価方法では見過ごされがちな，価値整合プロセスにおけるリスクをVATによって可視化することができた。
Link: https://arxiv.org/abs/2602.12134