arXiv雑要約
AI - 2026/03/24 公開
物理システムの代理モデルにおけるニューラルネットワーク代理を用いた直接区間伝播法 [cs.LG]目的:物理システムの不確実性量化のための区間伝播手法
- 工学分野において,不確実性に対するロバストな設計や信頼性評価は重要であるため,出力のばらつきを正確に把握する必要がある。
- 従来の区間伝播法は,複雑なシステムに対して計算コストが膨大になるという課題があった。
- 本研究では,ニューラルネットワークを用いた代理モデルにより,効率的な区間伝播を実現し,計算コストを削減することを目指す。
- 提案手法は,従来の最適化に基づく手法と比較して計算効率を大幅に向上させながら,精度の高い区間推定を可能にした。
- 多層パーセプトロン(MLP)やDeepONetを含む様々なニューラルネットワークモデルの有効性が確認された。
- 区間伝播法の実用上の限界や,今後の課題についても議論した。
FluidWorld:反応拡散力学を予測モデルの基盤とする [cs.DB, cs.NI, cs.HC, cs.LG]目的:環境の将来状態を予測するための世界モデルの構築
- 環境の予測は,計画やメンタルシミュレーションを可能にする重要な能力である。
- 既存のアプローチは計算コストが高く,空間的な誘導バイアスが不足している。
- 自己注意機構に頼らず,反応拡散力学を用いて効率的な予測モデルを開発する。
- FluidWorldは,TransformerやConvLSTMと比較して,同程度のパラメータ数で優れた予測性能を示した。
- 特に,FluidWorldは多段階予測において,他のモデルよりも遥かに安定した結果を維持した。
- 本研究は,世界モデルにおける空間的複雑性,適応的な計算,および空間的な一貫性の実現に,PDEベースの力学が有効であることを示した。
HELIX:二次限界を超えるハイブリッドMamba-Attentionによる生の音声理解のスケーリング [cs.SD, cs.LG, eess.AS]目的:音声理解における入力フロントエンド,シーケンスバックボーン,シーケンス長の関係性の解明
- 音声認識技術は,人間と機械のコミュニケーションにおいて不可欠であり,その性能向上は社会に大きな影響を与える。
- 従来の音声表現学習では,各要素が独立して評価され,設定の変更が他の要素に与える影響が不明確であった。
- HELIXは,MambaとAttentionの組み合わせにより,長時間の音声処理における課題を解決することを目指す。
- HELIXは,純粋なMamba,純粋なAttention,そしてハイブリッドモデルを比較検証するフレームワークである。
- Attentionは,短い音声では性能を低下させるが,長いシーケンスでは重要となることが示された。
- 5分間の話者識別タスクにおいて,HELIXは純粋なMambaと比較して11.5ポイントの性能向上を実現した。
ストリーム分離がTransformerにおけるブレグマン条件付けを改善する [cs.LG]目的:Transformer表現のブレグマン条件付けの改善
- Transformerモデルの解釈と制御は,AIの安全性と信頼性を高める上で不可欠である。
- Transformer表現空間の幾何学がユークリッド幾何学であるという仮定が,誤った操作を引き起こす可能性がある。
- ストリーム分離が,Transformer中間層における表現空間の幾何学的な問題を緩和し,条件付けを改善する。
- ストリーム分離は,中間層におけるHessianの有効ランクを最大22まで向上させ,ブレグマン条件付けを改善する。
- 層ごとの教師あり学習も有効だが,ストリーム分離ほど効果的ではない。
- 原始概念方向と双対概念方向のコサイン類似度は,層ごとの操作有効性を予測し,閾値は約0.3である。
能動的推論によるエージェンシーの形式化,指標,および収束評価 [cs.LG]目的:AI安全性におけるメソ最適化の課題に対するエージェンシーの形式的定義と分析フレームワーク
- AIの進化に伴い,意図しない最適化プロセスが安全上のリスクとなるため,エージェンシーの理解が不可欠である。
- 既存の研究では,AIシステムの内部最適化プロセス(メソ最適化)を特定し,制御する方法が確立されていない。
- 本研究は,AIシステムにおけるエージェンシーを定量化し,メソ最適化の検出を可能にする指標を提案する。
- 提案されたエージェンシー関数は滑らかで凸であり,最適化に適した性質を持つことが示された。
- エージェンシー関数は抽象関数空間のごく一部を占めるが,疎な環境下で対数収束を示すことが確認された。
- システムと理想的なエージェンシー関数との距離に基づいた指標により,メソ最適化の検出が可能となる。
エージェントAIによるシステム最適化における一貫性と持続性の向上 [cs.AI, cs.CL]目的:システム最適化のためのエージェントAIの一貫性と持続性の改善
- システム最適化は,専門家の反復的な試行錯誤により実現される重要な課題である。
- 従来のLLMは,局所最適解への陥りやすさや文脈の劣化により,複雑なシステム問題に対応が難しい。
- 本研究は,長期的な探索と文脈の制約を分離することで,これらの課題を克服することを目的とする。
- Engramは,複数のエージェントが反復的にメカニズムを設計・テスト・分析するアーキテクチャである。
- 各実行後,エージェントはコードや結果を永続的なArchiveに保存し,研究の知見をResearch Digestに集約する。
- Engramは,マルチクラウド,LLM推論,データベースのキャッシュ再利用など,多様な分野で優れた性能を示した。
どの警告の除去が有益であるか [cs.SE, cs.LG]目的:警告除去がコードの複雑さとバグの発生傾向に与える影響の評価
- 静的解析はソフトウェア工学の知識を捉え,問題のあるパターンを検出する上で重要である。
- 警告の除去がソフトウェア品質に及ぼす影響は不明であり,その評価が課題となっている。
- 有用な警告の除去を特定し,バグの発生を抑制するための介入方法を明らかにすること。
- 複雑さを低減させ,将来のバグ発生確率を減少させる警告除去の介入が特定された。
- Pythonファイルの約33%で該当する介入が確認され,バグの発生傾向を5.5パーセントポイント程度削減できる可能性がある。
- 介入の影響を評価する手法が提示され,因果関係研究における自然な介入の特定に貢献する。
COINBench:個々の視点を超えて集団的意図の理解へ [cs.IR, cs.AI]目的:集団的意図の理解
- 大規模言語モデルの高度な認知能力の評価が重要視されている。
- 複数ソースからの議論における合意形成や矛盾解決が課題である。
- 複雑な議論から集団的意図を抽出する能力向上を目指す。
- COIN-BENCHは,消費者ドメインにおける集団的意図の理解を評価するための新たなベンチマークである。
- 既存のLLMは表面的な集計は可能だが,複雑な意図の合成には苦戦していることが示された。
- COIN-BENCHは,LLMを高度な分析エージェントへと進化させるための新たな基準を確立する。
AutoKernel: 自律的なエージェント駆動型探索によるGPUカーネルの自動最適化 [cs.LG, cs.PF]目的:GPUカーネル最適化のための自律エージェントループの適用
- 機械学習システムの性能向上には,効率的なGPUカーネルが不可欠である。
- 高性能なGPUカーネルの作成は,手作業が多く時間と労力を要する。
- AutoKernelは,人間の介入なしにGPUカーネルを自動的に最適化し,開発効率を向上させる。
- AutoKernelは,PyTorchモデルのGPUカーネルを自動的に最適化し,RMSNormで最大5.29倍,softmaxで2.82倍,クロスエントロピーで2.21倍の高速化を達成した。
- torch.compile(max-autotune)と比較して,それぞれ2.83倍,3.44倍,2.94倍の性能向上が確認された。
- コミュニティでの展開において,AutoKernel最適化カーネルがvectorsum_v2 B200リーダーボードで1位を獲得した。
TimeTox:臨床試験プロトコルからの時間毒性自動抽出のためのLLMベースパイプライン [cs.HC, cs.CL, cs.LG]目的:臨床試験プロトコルからの時間毒性抽出
- 臨床試験において,時間毒性は患者の負担を評価する上で重要な指標である。
- 時間毒性の手動抽出には多大な労力と時間が必要となる。
- 時間毒性の自動抽出パイプラインを構築し,効率的な評価を可能にすること。
- LLMベースのTimeToxパイプラインを開発し,臨床試験プロトコルから時間毒性を自動抽出した。
- 合成データでは二段階パイプラインが100%の臨床的に許容可能な精度を示したが,実データでは単段階パイプラインがより高い再現性を示した。
- 実データにおける抽出の安定性が,合成ベンチマークの精度よりも生産LLMの展開において重要であることが示された。
物理制約に基づいた構成可能かつ決定論的なワールドモデルアーキテクチャ ARYA [cs.AI, cs.DC]目的:物理制約に基づいたワールドモデルアーキテクチャの構築
- 現実世界の複雑な現象をモデル化し,予測することは,科学技術の発展に不可欠である。
- 既存のワールドモデルは,計算効率と能力のバランス,安全性の確保が課題となっていた。
- 計算効率を維持しつつ,高度な能力と安全性を兼ね備えたワールドモデルの実現を目指す。
- ARYAは,ナノモデル,構成可能性,因果推論,決定論,アーキテクチャAI安全性という5つの原則に基づいている。
- ARYAは,GPT-5.2,Opus 4.6,V-JEPA-2といった最先端モデルと同等以上の性能を示した。
- 安全性をアーキテクチャ自体に組み込むことで,自律性の向上に伴う人間による制御の維持を実現した。
RoboAlign:ビジョン・言語・行動モデルにおけるテスト時推論のための学習 [cs.AI]目的:言語と行動のアライメント
- マルチモーダル大規模言語モデルの具現化された推論能力は,視覚情報と言語を組み合わせて行動を制御するために重要である。
- 既存手法では,性能が不安定で,改善が見られない場合がある。
- 言語と低レベル行動のギャップを埋め,知識伝達を促進することでVLA性能を向上させる。
- RoboAlignは,少量のデータで強化学習ベースのアライメントを行うことで,SFTベースラインと比較して,LIBERO,CALVIN,実環境でそれぞれ17.5%,18.9%,106.6%の性能向上を達成した。
- 本研究では,ゼロショット自然言語推論を用いて行動トークンをサンプリングし,強化学習により推論を洗練させるという枠組みを提案する。
- RoboAlignは,マルチモーダル大規模言語モデルにおける言語と低レベル行動間のモダリティギャップを解消し,知識伝達を促進する。
AI科学コミュニティ:エージェント仮想ラボ群 [cs.AI]目的:AI科学コミュニティのモデルとしての,エージェント仮想ラボ群
- 科学研究は,知識創造の根幹であり,社会発展に不可欠である。
- 従来の科学研究プロセスは,時間と資源を要し,効率性に課題がある。
- AIを活用し,科学研究の加速と効率化を目指す。
- 本研究では,群知能の特性を活用し,分散協調的な仮想ラボ群を構築する。
- ラボ間の相互作用には,引用 analogous な投票システムを導入し,科学的成功を定量化する。
- ラボの支配を防ぎ,多様性を維持するためのメカニズムを検討することで,現実の科学コミュニティを模倣する。
LLM推論最適化のためのワークロード-ルーター-プールアーキテクチャ:vLLMセマンティックルータープロジェクトからの展望論文 [cs.CL, cs.CC, math.CO, cs.LG, cs.DC]目的:LLM推論最適化のための三次元的フレームワーク
- LLMの急速な発展に伴い,効率的な推論が不可欠となっている。
- LLM推論におけるワークロード,ルーティング,プールの連携が十分には解明されていない。
- LLM推論最適化の課題を体系的に整理し,今後の研究方向性を示す。
- 本研究では,ワークロード,ルーティング,プールの三要素からなるWRPアーキテクチャを提案した。
- 既存の研究成果をWRP相互作用マトリックスにマッピングし,未解決の課題を明確にした。
- 工学的応用から基礎研究まで,21の具体的な研究方向性を提案した。
AgentHER:LLMエージェントの軌跡リラベルのための回想的経験リプレイ [cs.AI, cs.CL]目的:LLMエージェントの失敗した軌跡からの学習信号の回復
- 現実世界の複雑なタスクにおいて,LLMエージェントの性能向上が不可欠である。
- LLMエージェントは多くのタスクで失敗し,その失敗データが活用されていない。
- 失敗した軌跡を再利用し,LLMエージェントの学習データとして活用すること。
- AgentHERは,失敗した軌跡を代替目標に向けた成功例として再解釈する。
- WebArenaとToolBenchにおいて,成功例のみのSFTよりも+7.1-11.7ppの性能向上を達成した。
- データ効率が2倍に向上し,少ない成功例で同等の性能が得られた。
ベンガル方言バイアスのベンチマーク:RAGベース翻訳と人間支援RLAIFを統合した多段階フレームワーク [cs.MA, cs.CY, cs.CL, cs.AI, cs.CY]目的:ベンガル方言におけるLLMの質問応答性能の差異の定量化
- 低リソース言語の方言は,LLMの性能に地域差をもたらす可能性があり,公平性の確保が重要である。
- 方言の非標準性により,従来の翻訳品質評価指標は信頼性が低いという課題がある。
- LLMの安全性に影響を与える可能性のある方言バイアスを定量的に評価するための指標を開発する。
- RAGパイプラインを用いた方言翻訳と,LLMによる品質評価により,4,000組の質問セットを作成した。
- 19のLLMをベンチマークした結果,言語の乖離が大きいほど性能が低下する傾向が明らかになった。
- モデルの規模拡大だけでは,方言バイアスを必ずしも軽減できないことが示された。
AdaRubric:タスク適応型評価ルーブリック [cs.AI, cs.CL]目的:LLMエージェント評価のためのタスク適応型ルーブリックの生成と活用
- LLMエージェントの性能評価は,その実用化において不可欠である。
- 既存の固定されたルーブリックでは,タスクごとの重要要素を捉えきれない。
- タスク記述から動的にルーブリックを生成し,より適切な評価を実現する。
- AdaRubricは,WebArenaおよびToolBenchにおいて,人間の評価との相関係数0.79を達成した。
- AdaRubricを用いて学習したDPOエージェントは,Prometheusと比較してタスク成功率が6.8~8.5pp向上した。
- SWE-benchのコード修正やPPOの収束加速にも貢献し,ルーブリック設計の必要性を低減する。
TIDE:LLM推論におけるトークンごとの早期終了のためのトークン情報付き深度実行 [cs.HC, cs.LG, cs.CL]目的:LLM推論におけるトークンごとの早期終了
- 大規模言語モデルの効率的な推論は,その利用拡大に不可欠である。
- 従来のLLMは全てのトークンに対し全ての層を処理するため,計算コストが高い。
- トークンごとに必要な処理層を特定し,早期に推論を終了することで効率化を目指す。
- TIDEは,モデルの再学習を必要とせず,様々なHuggingFaceの因果言語モデルに適用可能である。
- DeepSeek R1 Distill 8Bにおいて,TIDEはプレフィルのレイテンシを7.2%削減し,スループットを6.6%向上させた。
- Qwen3 8Bにおいても,バッチサイズ8でスループットが8.1%改善される結果が得られた。
PLR:文脈内学習事例の並び替えにおけるプラケット・リュースモデル [cs.CL, cs.LG, cs.CL]目的:文脈内学習事例の並び替え手法
- 大規模言語モデルの性能は,少ない事例数での学習に依存するため,事例の選択と順序が重要である。
- 事例の順序最適化は組み合わせ爆発の問題があり,全探索は現実的ではない。
- プラケット・リュースモデルを用いて,効率的な順序探索を可能にし,性能向上を目指す。
- 提案手法PLRは,複数の分類タスクにおいて,少ない事例数での精度を安定して向上させる。
- 特に,ラベルに基づく並び替え手法が適用できない数学的推論タスクにおいても効果が確認された。
- PLRは,高パフォーマンスな順序に確率質量を集中させることで,効率的に最適な並び替えを見つけ出す。
制約付きオンライン凸最適化におけるメモリと予測 [cs.CE, math.OC, cs.LG, stat.ML]目的:制約付きオンライン凸最適化におけるアルゴリズム開発
- 動的システム制御やスケジューリングなど,実用的な問題解決に不可欠な分野である。
- 過去の決定に依存する制約条件下のオンライン最適化は,未解決の問題が多い。
- 時間変化する制約下で,サブ線形な後悔と制約違反を達成するアルゴリズムを提案する。
- 予測なしの場合,適応的ペナルティ手法により,後悔と制約違反をサブ線形に抑える。
- 予測がある場合,遅延フィードバック付きオンライン学習として問題を再解釈し,予測精度に応じて性能が向上するアルゴリズムを設計した。
- 古典的な制約付きオンライン凸最適化とメモリ依存型設定のギャップを埋め,多様な応用への道を開く。
外部化された推論を促すためのTransformerアーキテクチャの変更 [cs.AI]目的:大規模言語モデルにおける推論過程の可視化と効率化
- 複雑な推論を必要とするタスクにおいて,LLMの性能向上が不可欠である。
- LLMは不必要な計算を多く行い,効率性に課題がある。
- 計算資源の無駄を削減し,推論効率を向上させることを目指す。
- Transformerアーキテクチャに早期終了機構を導入し,モデルが浅い層で出口を学習するように訓練した。
- 強化学習を用いて,タスク性能を維持しながら可能な限り早期に終了するようにモデルを誘導した。
- 小規模な推論モデルで計算量の削減が確認された。大規模モデルへの応用で更なる効果が期待される。
HamVision:医療画像解析のためのハミルトニアンダイナミクスを帰納的バイアスとして [cs.CV, cs.LG]目的:医療画像解析におけるセグメンテーションと分類タスクに対する,構造化された帰納的バイアス
- 医療画像解析は,疾患診断や治療において不可欠であり,高精度な画像解析技術が求められている。
- 既存の画像解析手法は,大量のラベル付きデータに依存する傾向があり,データ収集の困難さが課題となっている。
- 本研究は,ラベルなしデータでも有効な,新しい画像解析フレームワークを開発し,データ依存性を低減することを目指す。
- HamVisionは,減衰調和振動子という基本的な信号処理ブロックを帰納的バイアスとして利用することで,セグメンテーションと分類の両タスクで優れた性能を発揮する。
- セグメンテーションにおいて,ISIC\,2018やACDC等の主要なベンチマークで最先端のDiceスコアを達成し,少ないパラメータ数で高い性能を実現した。
- 分類においては,BloodMNISTやPathMNISTで最先端の精度を達成し,他のMedMNISTデータセットにおいても競争力のある結果を示した。
大規模かつ複雑なイベントに対するInSAR位相ほどきフレームワーク [cs.CV, cs.AI, physics.geo-ph]目的:大規模InSARデータの位相ほどき手法
- 地殻変動観測において,InSARは広域かつ高精度な変位計測に不可欠である。
- 断層活動など複雑な変形場では,位相の不連続性が位相ほどきの精度を著しく低下させる。
- 大規模データかつ不連続性を含むInSAR画像に対する,ロバストな位相ほどき手法を確立すること。
- 拡散モデルに基づく新しい位相ほどきフレームワークを提案し,大規模InSARデータへの適用を可能にした。
- 提案手法は,断層活動に伴う位相跳躍を含む複雑な変形場において,物理的に整合性の高い位相を復元できることを示した。
- 合成データおよび実データを用いた実験により,提案手法が従来の解析手法と比較して高い精度とスケーラビリティを持つことが確認された。
ピボットRL:低計算コストでの高精度なエージェントのポストトレーニング [cs.HC, cs.HC, cs.AI]目的:長期的エージェントタスクに対するポストトレーニングにおける,計算効率と汎化性能の向上
- エージェント技術は,複雑なタスクの自動化において重要な役割を担う。実用化には高い性能が不可欠である。
- 既存のポストトレーニング手法は,計算コストと汎化性能のトレードオフに悩まされる。OOD環境での性能低下が課題である。
- 計算効率を保ちつつ,OOD環境における性能向上を目指す。特に,実用的な大規模言語モデルへの応用を可能にする。
- PivotRLは,SFTの計算効率とE2E RLのOOD汎化性能を組み合わせることで,両者の課題を克服する。
- SFTデータに基づき,結果の分散が大きい重要な中間段階(ピボット)を特定し,報酬を最適化する。
- 実験結果から,PivotRLはSFTと比較して,in-domain/OOD accuracyともに大幅な改善を示す。E2E RLと同等の性能をより少ない計算量で実現する。
タスク固有の効率分析:小規模言語モデルが大規模言語モデルを上回る場合 [cs.DB, cs.CL, cs.LG]目的:タスク固有の効率に関する分析
- 自然言語処理の発展に伴い,大規模言語モデルの利用が拡大している。
- 大規模言語モデルは計算コストが高く,リソース制約のある環境での利用が困難である。
- 計算効率を優先する場合における,小規模言語モデルの有効性を示すこと。
- 本研究では,16の言語モデルを5つの自然言語処理タスクで比較分析した。
- 新たに提案する指標PER(性能効率比)に基づき,小規模言語モデルが全タスクにおいて優れたPERスコアを示すことが明らかになった。
- この結果は,推論効率を重視する場合,小規模言語モデルの利用を定量的に裏付ける根拠となる。
二値および多クラス分類タスクにおける公平性を高めるための一般化された指数勾配アプローチ [cs.LG, stat.ML]目的:二値および多クラス分類における公平性の向上
- AI/MLモデルの利用拡大に伴い,倫理的な問題として公平性が重要視されている。
- 二値分類では公平性に関する研究が進む一方,多クラス分類では未解明な点が多い。
- 多クラス分類における公平性と予測精度の両立を目指す。
- 提案手法GEGは,公平性の制約下での多クラス分類問題を効率的に解決する。
- 7つの多クラスデータセットと3つの二値データセットでGEGを評価した結果,既存手法を上回る性能を示した。
- 公平性が最大92%向上し,精度の低下は最大14%に抑えられた。
内省的認識のメカニズム [cs.LG]目的:大規模言語モデルにおける内省的認識のメカニズム
- AIの安全性と信頼性確保のため,モデルの内部状態理解は重要である。
- LLMの内省的認識が,高度な認知機能なのか,それとも単なるヒューリスティックなのか不明である。
- LLMの内省的認識のメカニズムを解明し,その改善の可能性を探る。
- LLMは,注入されたステアリングベクトルを検出し,その概念を特定する能力を示す。
- この能力は,事前学習ではなく,後学習によって顕在化することが示された。
- 内省的認識は,分散型MLP計算に依存しており,拒否方向の削減が検出能力を向上させる。
ゲームにおけるペルソナベクトル:活性化ベクトルによる戦略の測定と誘導 [cs.AI, cs.GT]目的:ゲームにおける戦略的行動特性の測定と誘導
- 戦略的状況におけるLLMの活用が進む中で,その行動特性を理解する手段が求められている。
- LLMの戦略と,その正当化となる言語表現との間に乖離が生じる場合がある。
- 活性化ベクトルを用いて,利他性や許容性といったペルソナを操作し,戦略と表現の一致を目指す。
- 活性化ベクトルによる誘導は,定量的な戦略選択と自然言語による説明の両方を系統的に変化させる。
- 自己行動と他者期待に関するベクトルは部分的に異なることが示された。
- ペルソナベクトルは,戦略的環境における高水準な特性をメカニスティックに制御する有望な手段となる。
有界相互作用に対するマイヒル・ネロードの定理:エージェント有界識別性による正準抽象化 [cs.AI]目的:有界な観測者によって誘導される正準商
- 複雑な環境における行動計画は困難であり,効率的な状態抽象化が不可欠である。
- 既存の方法では,状態空間の適切な抽象化が難しく,計算コストが高い場合がある。
- エージェントの識別能力に基づいた,最小かつ一意な正準抽象化を確立すること。
- 有限POMDPに対して,閉ループのWasserstein擬距離と,識別不可能な履歴をまとめる商を定義した。
- クロック認識プローブを用いることで,観測と行動のみに依存する目的関数に対して決定十分性を実現した。
- TigerやGridWorldなどの環境で検証を行い,定理レベルの結果を裏付けた。
深層ニューラルネットワークの指紋認証による所有権保護:解析的アプローチ [cs.CL, cs.CC, cs.DM, math.PR, cs.HC, cs.RO, cs.CR, cs.AI]目的:深層ニューラルネットワークの所有権保護のための指紋認証手法
- 深層学習モデルの盗用が頻発しており,モデルの知的財産保護が重要になっている。
- 既存の指紋認証手法は経験則に依存しており,堅牢性や一意性が保証されない場合がある。
- 指紋と決定境界との距離を理論的に制御することで,堅牢性と一意性を両立することを目指す。
- 提案手法AnaFPは,指紋生成における決定境界との距離を調整可能な引数で制御する。
- 堅牢性と一意性を数学的に定式化し,引数の許容範囲を導出することで理論的な関係を確立した。
- 多様なモデル構造や改変攻撃に対して,既存手法よりも効果的な所有権検証が可能であることを示した。
命令調整型言語モデルにおける無言コミットメント失敗:アーキテクチャ間での統制可能性の乖離に関する証拠 [cs.AI, cs.CR, cs.LG]目的:命令調整型言語モデルの統制可能性
- 大規模言語モデルは自律エージェントとして利用されつつあり,その安全性確保が重要である。
- モデルエラーが実行時に検出可能であるという前提が成り立たない場合がある。
- モデルの誤りを検出・修正する能力(統制可能性)の差を明らかにする。
- 3つの命令調整モデルのうち2つで,警告信号なしに誤った出力を自信を持って生成する「無言コミットメント失敗」を確認した。
- ベンチマーク精度は統制可能性を予測せず,検出と修正能力は独立して変化し,同じ統制構造が異なるモデルで逆効果となる場合がある。
- アーキテクチャ間のスパイク比に大きな差が見られた一方,ファインチューニングによる変動は小さく,統制可能性は事前学習時に固定されている可能性が示唆された。
ポルトガル語質問応答のための効率的なファインチューニング手法:BERTimbauにおけるPEFTの比較研究と生成LLMの探索的評価 [cs.CL, cs.AI, cs.LG]目的:ブラジルポルトガル語質問応答タスクにおけるパラメータ効率的なファインチューニング(PEFT)と量子化技術の評価
- 大規模言語モデルは自然言語処理を変革したが,計算コストが高く,リソースの少ない言語へのアクセスが困難である
- ブラジルポルトガル語のような低リソース言語では,大規模言語モデルの利用における計算資源の制約が課題となっている
- BERTimbauを用いた効率的なファインチューニング手法を確立し,計算コストを削減することで,より持続可能なAIを実現することを目指す
- LoRAはBERTimbau-Largeにおいて,ベースライン性能の95.8%を達成しつつ,学習時間を73.5%削減した(F1=81.32 vs 84.86)。
- PEFTの性能は学習率に大きく依存し,より高い学習率(2e-4)を用いることで,F1スコアが最大19.71ポイント向上した。
- 大規模モデルは,量子化に対する耐性が高く,F1スコアの低下が小さい(4.83 vs 9.56ポイント)。生成LLMと比較して,BERTimbauはより効率的である。
AIの未来はグリーンか? イノベーション拡散モデルから見る生成AIの環境影響 [cs.AI]目的:生成AIの環境影響の進化予測
- AI技術の発展は社会に変革をもたらすが,その環境負荷は無視できない課題である。
- 生成AIの普及に伴う環境負荷増大の予測は,技術進化による効率化を考慮していない。
- イノベーション拡散モデルを用いて生成AI業界の構造と環境影響の変化を予測する。
- 生成AIは完全に環境に優しい技術とはなりえないものの,その環境負荷は過度に悲観されるものではない可能性が示された。
- ビジネスモデルの覇権が環境影響の程度に大きく影響する。
- 技術革新と最適化により,生成AIの環境負荷は経済的要因によって低減される可能性がある。
HyReach:未知の複雑環境における視覚誘導ハイブリッドマニピュレータのリーチング [cs.RO, cs.AI]目的:複雑な環境下での物体リーチングを実現するためのハイブリッド剛柔性マニピュレータシステム
- ロボットが未知の環境で活躍するには,柔軟性,適応性,精密制御が不可欠である。
- 既存手法は特定の環境に依存し,汎用性に欠ける場合が多い。
- 環境に依存しない汎用的なリーチング手法を開発し,ロバスト性を高める。
- 提案システムは,視覚情報と3Dシーン再構成に基づき,安全な軌道を生成する。
- 学習ベースのコントローラにより,柔軟性と精密性を両立したリーチングを実現した。
- 実環境実験により,多様な環境下で2cm以下の誤差でリーチング性能が確認された。
ドメイン知識と事例推論を活用したドメイン特化型コード生成 [eess.SY, cs.SY, eess.SY, cs.SY, cs.AI, cs.SE]目的:ドメイン特化型コード生成の性能向上
- ソフトウェア開発における生産性向上は重要であり,自動化技術への期待が高まっている。
- 汎用LLMはドメイン知識に乏しく,実世界での応用は困難な場合が多い。
- 知識グラフと事例推論を組み合わせることで,ドメイン知識の不足を補い,コード生成の精度向上を目指す。
- DomAgentは,知識グラフと事例推論を統合したDomRetrieverにより,ドメイン知識を効率的に取得・活用する。
- データサイエンスのベンチマークデータセット(DS-1000)において,DomAgentはコード生成性能を大幅に向上させた。
- DomAgentは,小規模なオープンソースモデルでも,大規模な商用LLMに匹敵する性能を実世界のタスクで実現可能にした。
行動可能集合:AI意思決定支援における価値整合制約 [cs.AI, econ.GN, q-fin.EC]目的:AI意思決定支援システムの価値整合制約
- 組織がAIを導入する際,ベンダーの価値観が影響するため,その透明性と交渉可能性が重要となる。
- AIシステムの推奨範囲がベンダーの価値観によって制限されているという問題がある。
- ベンダーの価値観が組織の要求を超える場合の限界を明らかにすること。
- 価値整合制約は,AIシステムの推奨可能な範囲を著しく狭めることが示された。
- 事前・事後整合モデルの比較から,価値整合が文脈変化に対する推奨の柔軟性を低下させることが確認された。
- 価値整合はステークホルダーの優先順位を中立化するのではなく,ベンダーによって設定された価値観を組織に組み込む。
LLMを活用した多分野ソフトウェア開発のワークフロー最適化:自動車産業における事例研究 [cs.CL, cs.IR, cs.CL, cs.SE, cs.AI]目的:多分野ソフトウェア開発におけるワークフロー最適化
- 自動車産業をはじめとする複雑なシステム開発では,専門知識と実装の連携が不可欠である。
- 専門家と開発者の間には形式や成果物の不整合があり,非効率な連携が課題である。
- LLMを活用し,手動による連携を自動化することで,ワークフローを効率化する。
- 提案手法は,自動車APIシステム(spapi)において93.7%のF1スコアを達成した。
- API開発時間を約5時間から7分未満に短縮し,推定979時間のエンジニアリング時間を削減した。
- 専門家と開発者双方から高い満足度が得られ,コミュニケーション効率の向上を報告した。
KG-Hopper:強化学習による知識グラフ推論を通じたコンパクトなオープンLLMの強化 [cs.CL, cs.AI]目的:知識グラフ推論能力の向上
- 大規模言語モデルの能力向上は,自然言語処理の発展に不可欠である。
- 知識集約型推論タスクにおいて,LLMはしばしば苦戦する。
- 段階的な推論の制約を克服し,効率的な知識グラフ推論を実現する。
- KG-Hopperは,強化学習フレームワークを用いて,コンパクトなオープンLLMに統合的な多段知識グラフ推論能力を付与する。
- 従来のパイプライン型アプローチとは異なり,単一の推論ラウンドでKG全体の探索と意思決定を行う。
- 7BパラメータのLLMで,最大70Bのより大規模なシステムを凌駕し,GPT-3.5-TurboやGPT-4o-miniと競合する性能を達成した。
タスク指向型対話における能力閉包を通じた安全な回答再利用 [cs.DC, cs.MS, cs.CY, cs.AI]目的:タスク指向型対話システムにおける安全な回答再利用の実現
- 対話システムは高度化の一途を辿り,より複雑なタスク処理が求められている。
- 従来のシステムでは,各ターンを独立して処理し,同じ回答を何度も生成していた。
- 能力ベースシステムにおける安全認証ステップを利用し,効率的な回答再利用を目指す。
- 能力閉包cl(At)を計算することで,現在の構成から到達可能なすべての回答を網羅する。
- 認証済みのターンで,派生可能な回答と最小限のProvenance Witnessesを具現化する。
- 正式な包含チェックにより,冗長な検索や生成を排除し,サブミリ秒レベルでの応答を可能にする。
文書の不一致:検索拡張言語モデルを用いた移植に関するガイダンスの機関間差異の測定 [cs.IR, cs.AI]目的:移植に関するガイダンスの機関間差異の定量化
- 移植医療における患者教育は重要であり,質の高い情報提供が予後を左右する。
- 米国の移植施設間では患者教育資料に大きなばらつきが見られ,その差異を定量的に評価する手段が不足している。
- 検索拡張言語モデルを用いて施設間のガイダンスを比較し,情報格差と組織間の差異を明らかにすること。
- 23施設の102のハンドブックを分析した結果,pairwise比較の20.8%で臨床的に意味のある相違が確認された。
- 特に,状態モニタリングやライフスタイルに関する情報に相違が集中していることが示された。
- 96.2%の質問-ハンドブックペアで関連コンテンツが欠落しており,生殖健康に関する欠落率が特に高かった。
DSPA:データ効率的な嗜好合わせのための動的SAEステアリング [cs.LG, cs.AI, cs.CL]目的:嗜好合わせの効率化
- 大規模言語モデルの性能は,人間との整合性が重要であり,その調整が不可欠である。
- 従来の嗜好合わせは計算コストが高く,調整メカニズムの解釈が困難である。
- 少ないデータで効率的に,かつ解釈可能な嗜好合わせを実現することを目指す。
- DSPAは,Gemma-2-2B/9BおよびQwen3-8Bにおいて,MT-Benchの性能を向上させ,AlpacaEvalで競争力のある結果を示した。
- 限られた嗜好データ下でもDSPAは堅牢であり,二段階のRAHF-SCITパイプラインと同等の性能を発揮しつつ,計算量を最大で4.47倍削減した。
- DSPAが修正するSAE特徴を分析した結果,嗜好方向は談話やスタイルに関する信号に支配されていることがわかった。
DRTriton:Tritonカーネル生成のための大規模合成データ強化学習 [cs.CL, cs.LG]目的:Tritonカーネル生成のための大規模言語モデルの学習フレームワーク
- 生成AI産業において,効率的なCUDAカーネル開発は不可欠であり,その自動化が求められている。
- 最先端のLLMは,PyTorchコードからCUDAカーネルへの変換において,まだ課題を抱えている。
- 合成データを用いた強化学習により,実世界のCUDAカーネル生成における性能向上を目指す。
- DRTritonは,合成データのみで学習しつつも,人間の専門家にとっても難しい実世界のCUDAカーネルに対して有効に汎化する。
- KernelBench Level 2の92%において高速化を達成し,GPT-5.2(23%)やClaude-Sonnet-4.5(19%)を大幅に上回る性能を示した。
- CSP-DAG,カリキュラム強化学習,テスト時探索という3つの要素により,変換成功率と推論速度を同時に最適化している。
相関関係を超えて:反証検証に基づく解釈可能なエネルギー市場リターンのアスペクトベース感情分析 [cs.SI, cs.CY, cs.AI, cs.CL, cs.LG]目的:金融市場におけるアスペクトベース感情分析のための反証検証フレームワーク
- 金融市場分析において,市場の感情を理解することは,投資戦略において重要である。
- 相関関係だけでは,真の関連性と見せかけの関係を区別することが困難である。
- 反証検証を通じて,信頼性の高い感情分析シグナルを抽出することを試みる。
- エネルギーセクターのデータ分析の結果,ロバストで反証検証された感情と株価リターンの関連性は限定的であった。
- 再生可能エネルギーは,アスペクトや期間によって異なる反応を示した。
- 本研究は因果関係を証明するものではないが,統計的にロバストで解釈可能なシグナルを提供する手法の概念実証である。
Unified-MAS:自動マルチエージェントシステムを強化するためのドメイン固有ノードの普遍的な生成 [cs.AI]目的:複雑な推論タスクを解決するための自動マルチエージェントシステム生成の性能向上
- 複雑な問題解決において,マルチエージェントシステムは有望なアプローチとして注目されている。
- 既存のフレームワークは,知識集約的なドメインにおいて専門知識の欠如やアーキテクチャの結合度の高さが課題である。
- ドメイン固有のノード生成とトポロジ最適化の分離により,システム全体の効率を改善することを目指す。
- 提案手法Unified-MASは,外部知識を活用したノード生成と報酬に基づいたノード最適化の二段階構成により,性能向上を実現した。
- 4つの専門ドメインにおける実験により,既存のAutomatic-MASベースラインに統合することで,最大14.2%の性能向上とコスト削減が確認された。
- 異なる設計者LLMや数学的推論タスクにおいても,その堅牢性と有効性が示された。
TaigiSpeech:低リソース環境における現実世界の音声意図データセットとスケーラブルなデータマイニングによる予備的な結果 [cs.CL, cs.LG, eess.AS]目的:台湾語(台語/閩南語)の現実世界の音声意図データセット
- 音声技術は多様な人々に貢献しているが,リソース不足により少数言語の対応が遅れている。
- 音声データが不足しているため,低リソース言語での音声認識・意図検出は困難である。
- データマイニングにより,低リソース言語向けのデータセットを効率的に構築することを目指す。
- 台湾語の音声意図データセットTaigiSpeechを構築し,21話者,3000発話を含む。
- キーワードマッチングとLLMによる擬似ラベリング,およびマルチモーダルな音声・画像フレームワークを用いたデータマイニングを検討した。
- これらの手法により,低リソース言語でのスケーラブルなデータセット構築の可能性を示した。
決定論的ロギングポリシー下におけるランキングポリシーのオフポリシー評価 [cs.LG]目的:ランキングポリシーのオフポリシー評価手法
- アルゴリズムによるランキングシステムの性能向上は,ユーザーエクスペリエンスとビジネス成果に不可欠である。
- 既存手法はロギングポリシーの確率性に依存し,決定論的なポリシー下では大きなバイアスを生じる。
- 決定論的ロギングポリシー下でも低バイアスなオフポリシー評価を実現すること。
- 提案手法CIPSは,ユーザーのクリック行動の確率性を活用し,既存手法が抱えるバイアスを軽減する。
- 理論的分析により,CIPSのバイアスと分散の特性が明らかにされた。
- 合成データと実データを用いた実験により,CIPSが既存手法よりも低いバイアスを示すことが確認された。
GaussianSSC:3次元セマンティックシーン補完のための三平面誘導指向性ガウス場 [cs.RO, cs.LG]目的:3次元セマンティックシーン補完における性能向上
- 自動運転やロボティクスにおいて,周囲環境の正確な3次元理解は不可欠である。
- 既存手法では,十分な精度と効率を両立した3次元セマンティックシーン補完が課題となっている。
- ガウス場を活用し,効率的かつ高精度な3次元セマンティックシーン補完を実現すること。
- GaussianSSCは,既存の最先端手法と比較して,Stage 1の占有率においてRecallで+1.0%,Precisionで+2.0%,IoUで+1.8%の改善を示した。
- Stage 2のセマンティック予測においても,IoUで+1.8%,mIoUで+0.8%の改善を達成した。
- 三平面に沿ったガウス場による洗練モジュールが,表面の接線,スケール,オクルージョンを考慮した非等方的な表現を可能にしている。
非同期ソフトウェアエンジニアリングエージェントの効果的な戦略 [cs.CL, cs.AI]目的:ソフトウェアエンジニアリングにおける長期的課題への対処
- ソフトウェア開発の効率化は,社会のデジタル化に伴い重要性が増している。
- 複数段階にわたる複雑な課題において,AIエージェントの連携が困難である。
- エージェント間の競合や依存関係の同期問題を解決し,効率的な協調を実現する。
- 提案手法CAIDは,単独エージェントと比較してPaperBenchで26.7%,Commit0で14.3%高い精度を示す。
- CAIDは,中央集権的なタスク委譲,非同期実行,隔離されたワークスペースという3つの主要な要素に基づいている。
- ブランチとマージが,マルチエージェント協調の中核となるメカニズムであることが示された。
潜在的な信頼性下での学習は誤った信念に安定的に収束しうる [cs.LG]目的:潜在的な信頼性下での誤った信念への学習収束現象
- 学習システムにおいて,フィードバックの質は重要であり,その信頼性を把握することは,正しい学習目標の達成に不可欠である。
- フィードバックの信頼性が不明な場合,学習アルゴリズムは誤った解に安定的に収束する可能性があるという問題が存在する。
- 学習ダイナミクスから信頼性を推測し,更新を調整することで,誤った信念の蓄積を抑制し,回復を促進することを目的とする。
- 標準的なアルゴリズムは,潜在的な信頼性が低い状況下で誤った解に安定的に収束する傾向があることが示された。
- 提案するMTRフレームワークは,学習ダイナミクスに基づいて信頼性を推測し,信頼度に応じた更新を行うことで,バイアスの蓄積を軽減し,回復力を向上させる。
- 学習ダイナミクスは最適化の軌跡であると同時に,フィードバックの信頼性に関する情報源となりうるという知見が得られた。
多項式拡張:パーティション制約付き部分集合選択のための無損失連続緩和 [cs.LG, math.OC]目的:近似最適解の導出
- 機械学習における重要なタスクであり,代表的な部分集合の特定は多くの応用に繋がる。
- 既存手法は,クエリの複雑さや構造パラメータの事前知識の必要性により制限される。
- パラメータフリーで,既存手法と同等の近似保証を実現するアルゴリズムを開発する。
- 提案手法Multinoulli-SCGは,既存手法よりも少ない関数評価回数で同等の近似保証を達成する。
- 多項式拡張(ME)は,離散部分集合選択問題を解ける連続最大化問題に変換する。
- MEは,多線形拡張とは異なり,任意の集合関数に対して無損失の丸めスキームを提供する。
