arXiv雑要約
AI - 2026/04/29 公開
ワールド生成からクエストラインへ:一貫性のあるRPG生成のための依存性駆動型プロンプトパイプライン [cs.NI, cs.CL, cs.AI]目的:一貫性のあるRPG生成のためのプロンプトパイプライン
- ゲーム開発におけるコンテンツ自動生成の需要が高まっているため。
- 大規模言語モデルは物語生成に優れるものの,複雑なRPG世界への適用は一貫性,制御性,構造的整合性の問題がある。
- 構造化された中間表現を用いて,物語の依存関係をモデル化し,一貫性のあるRPGコンテンツ生成を目指す。
- 提案手法は,ワールド構築からクエスト拡張までを段階的に行い,各段階で前の段階のJSON出力を条件とする。
- パイプラインは,物語のずれを減らし,ハルシネーションを抑制し,相互接続された物語要素の拡張性をサポートする。
- 実験結果から,提案手法は論理的で構造的に有効なRPGコンテンツを一貫して生成し,複雑性が増しても品質が低下しないことが示された。
ウォーターマーク除去の法科学的コスト [cs.DL, cs.IR, cs.CV, cs.AI]目的:ウォーターマーク除去における,攻撃成功率,知覚品質,法科学的検出可能性の評価
- デジタルコンテンツの保護において,ウォーターマークは重要な役割を果たす。
- 既存のウォーターマーク除去手法は,法科学的な脆弱性を考慮していない。
- ウォーターマーク除去後の統計的痕跡の検出と,それに対する対策を提示する。
- 既存の除去手法はウォーターマーク信号を劣化させつつも,検出可能な統計的痕跡を残すことが示された。
- 提案手法は,低い誤検出率($10^{-3}$ FPR)で,ウォーターマーク除去の試みを高い精度で検出できる。
- 現在のどのウォーターマーク手法も,攻撃成功率,知覚品質,法科学的検出可能性の全てをバランス良く満たしていない。
行動タスクサンプリングによるゼロショットオフライン強化学習の改善 [cs.AI]目的:ゼロショットオフライン強化学習における性能向上
- 強化学習は,複雑な環境下での意思決定問題を解決する上で重要な技術である。
- オフライン強化学習では,既存のデータのみで学習するため,未観測の状況への対応が課題となる。
- タスクサンプリングの改善により,未観測報酬関数への汎化性能を高めることを目指す。
- 提案手法では,オフラインデータセットから直接タスクベクトルを抽出し,タスク分布を定義する。
- このアプローチにより,複数のベンチマーク環境でゼロショット性能が平均20%向上した。
- 原理的なタスクサンプリングの重要性が示された。
シンフォニーGen:制御可能なハーモニー骨格を用いた3D階層オーケストレーション生成 [cs.SD, cs.AI]目的:3D階層オーケストレーション生成のためのフレームワーク
- 交響楽曲の生成は,構造とオーケストレーションを同時に扱う必要があるため,複雑な課題である。
- 既存のモデルは,長期的かつ詳細な制御が難しく,複雑さと制御のバランスが取れていない。
- 計算効率と拡張性を向上させ,ハーモニーの制御を可能にし,より自然な音楽を生成することを目指す。
- SymphonyGenは,バー,トラック,イベントの軸を分解するカスケードデコーダーアーキテクチャを採用し,計算効率と拡張性を高めている。
- 短譜(short-score)による条件付けにより,楽曲の概要を制御しながらテクスチャの多様性を維持している。
- 強化学習と不協和音回避サンプリングにより,楽曲のハーモニーの調和性と旋律表現の両立を実現している。
EvoTSC:遺伝的プログラミングによる時系列分類のための特徴学習モデルの進化 [cs.LG, cs.NE]目的:時系列分類のための軽量な特徴学習モデルの自動進化
- 時系列データは多様な分野で重要だが,ラベル付きデータの不足が課題である。
- 従来の時系列分類手法は,計算資源を多く必要とする場合が多い。
- EvoTSCは,少ないデータと計算資源で高精度な分類を実現することを目指す。
- EvoTSCは,多様な事前知識を組み込んだ遺伝的プログラミングにより,軽量な特徴学習モデルを自動進化させる。
- 提案手法は,Paretoトーナメント選択戦略により,過学習を抑制し,汎化性能の高いモデルを発見する。
- 実験結果から,EvoTSCは多くのデータセットで11の既存手法を上回り,高い有効性が示された。
アシスタント,アーキテクトではない:ネットワークシステム設計におけるLLMの役割 [cs.HC, cs.NI, cs.AI]目的:ネットワークシステム設計におけるLLMの能力と限界の評価
- 現代のネットワークシステム設計は複雑であり,専門知識と経験が不可欠である。
- 既存の設計手法は,試行錯誤や経験則に頼る部分が多く,効率的でない。
- LLMを活用した設計支援の可能性を探り,その課題を克服する。
- LLMは一見もっともらしい構成を生成するものの,重要な制約を見落としたり,誤った前提を組み込んだりすることが多い。
- Keplerという軽量な推論フレームワークを提案し,構造化された仕様とSMTベースの最適化を組み合わせることで,実現可能な設計を合成する。
- KeplerはLLMが見逃す相互作用を発見し,体系的で説明可能な設計探索を可能にすることが示された。
ダイナスタイル安全性拡張強化学習:不確実性下での安全性確保 [cs.LG]目的:強化学習における安全性確保
- 強化学習の応用範囲拡大には,安全性確保が不可欠である。
- 未知の環境や高次元システムにおける安全な探索が困難である。
- 不確実性を考慮したダイナミクスモデルを用いて安全性フィルターを学習する。
- Dyna-SAuRは,スケーラブルな安全性フィルターと制御ポリシーを学習する。
- 安全性フィルターは,失敗や不確実性の高い領域を回避する。
- CartPoleおよびMuJoCo Walkerにおいて,既存手法と比較して失敗を大幅に削減した。
PHISHREV:文脈を意識したフィッシングウェブサイト分類のためのハイブリッド機械学習と事後非単調推論フレームワーク [cs.AI]目的:文脈を意識したフィッシングウェブサイト分類
- フィッシング詐欺は深刻な脅威であり,被害拡大を防ぐため,高精度な検出技術が求められている。
- 既存の機械学習モデルは文脈理解が不十分で,巧妙な攻撃に脆弱であるという課題がある。
- 機械学習と非単調推論を組み合わせ,専門家の知識を活用することで,より堅牢な分類を実現する。
- 提案手法は分類器の出力の約5.08%を修正し,判断の一貫性を向上させている。
- 新たなドメイン知識は効率的に推論層に組み込むことができ,モデルの再学習は不要である。
- 機械学習と非単調推論の統合により,文脈を考慮したフィッシング検出が可能となった。
認知科学における理論構築を促進するための自動敵対的協調 [cs.AI]目的:認知科学における理論の検証と進化
- 認知科学は,人間の認知機能を理解する上で不可欠であり,様々な分野に応用される。
- 既存の研究は,狭い範囲での検証に偏りがちで,異なるタスクやモデル間の統合が課題である。
- この研究は,自動化された敵対的協調により,認知科学の理論検証プロセスを改善することを目指す。
- 本研究で開発されたフレームワークは,理論エージェント,プログラム合成,情報理論的実験計画を統合した閉ループシステムである。
- シミュレーション研究では,3つの古典的な分類理論において,ノイズ条件下で正解の理論を再現できた。
- この結果は,認知科学における閉ループのin-silico理論検証の実現可能性を示す具体的な概念実証となる。
AIの消費者および参加者:MBSE基盤と手法の共同設計アジェンダ [cs.CL, cs.HC, cs.SE, cs.AI]目的:MBSE基盤と手法の共同設計
- 現代のシステム開発において,MBSEは複雑なシステムを効率的に構築・運用するための不可欠な手法である。
- 既存のMBSEモデルは,AIによる知識利用を前提として設計されていないため,AIの推論根拠の透明性が低いという問題がある。
- AIがモデルから知識を抽出し,一貫性のある推論を行うためのMBSEモデルと手法の共同設計を目指す。
- 現在のAIツールは,MBSEモデルを知識ベースとしてではなく,プロンプトとして機能させている点が課題である。
- モデルと手法を共同設計することで,AIがモデルから直接知識を取得し,推論根拠を明確にできる可能性が示された。
- AI統合に関するアーキテクチャ決定が手法的な基盤なしに進むことを防ぐため,コミュニティへの共同設計の呼びかけが行われた。
セマンティックセグメンテーションにおける正準知識蒸留の驚くべき有効性 [eess.SY, cs.SY, cs.CV, cs.AI]目的:セマンティックセグメンテーションのための知識蒸留における有効性検証
- セマンティックセグメンテーションは,画像認識の重要なタスクであり,自動運転や医療画像診断など,幅広い応用が期待されている。
- 知識蒸留の評価において,計算コストが考慮されず,反復回数のみで比較されることが課題となっていた。
- 計算コストを考慮した上で,よりシンプルで効果的な知識蒸留手法を明らかにすることを目指す。
- 従来のセグメンテーション特化型手法よりも,正準知識蒸留が同等の計算コストで優れた性能を発揮することが示された。
- 特徴ベースの知識蒸留は,CityscapesとADE20Kにおいて最先端のResNet-18性能を達成した。
- PSPNet ResNet-18モデルは,ResNet-101教師モデルの性能に匹敵し,パラメータ数を大幅に削減することに成功した。
サンプル効率の良いニューロシンボリック近接方策最適化 [cs.AI]目的:ニューロシンボリック近接方策最適化による学習効率の向上
- 深層強化学習は強力だが,大量のデータが必要となり,実用上の課題がある。
- 疎な報酬環境や長期的な計画が必要な環境では,学習が困難になりやすい。
- 論理的な方策仕様を活用し,複雑な環境での学習を促進することを試みる。
- 提案手法は,OfficeWorld,WaterWorld,DoorKeyの3つのベンチマークで,PPOや報酬機械ベースラインよりも高速な学習と高い収益率を示した。
- H-PPO-Productはサンプリング時の行動分布をバイアスし,H-PPO-SymLossはシンボリックな正則化項をPPO損失に追加する。
- 不完全なシンボリック知識下でも,一貫して優れた性能が確認された。
産業制御システムにおけるクロスプラント未知攻撃検知のためのメドイドプロトタイプアラインメント [cs.DC, hep-ex, cs.CR, cs.AI]目的:クロスプラント未知攻撃検知のためのメドイドプロトタイプアラインメント手法
- 産業制御システムのセキュリティ確保は,社会インフラの安定運用に不可欠である。
- プラント固有のトラフィック特性により,他プラントで学習した検知器の適用が困難である。
- ドメイン間の差異を考慮し,未知の攻撃に対する検知精度向上を目指す。
- 提案手法は,異なるプラントのトラフィックを比較可能な表現空間に圧縮し,ロバストなメドイドプロトタイプを抽出する。
- プロトタイプを基準とした転移学習により,ソースドメインの識別能力を維持しつつ,ターゲットプロトタイプをソースプロトタイプにアラインメントする。
- 自然ガスおよび水貯蔵制御システムでの実験により,提案手法が既存モデルを上回り,平均精度0.843,F1スコア0.838を達成した。
SignSGDの強化:小バッチ収束解析とハイブリッド切り替え戦略 [cs.LG]目的:SignSGDの小バッチ収束率解析と性能改善
- 深層学習の学習には大きな計算資源が必要であり,効率化が重要である。
- SignSGDはメモリ消費量を削減するが,精度低下が課題となっている。
- SignSGDの精度を向上させ,SGDと同等以上の性能を目指す。
- SignSGDの小バッチ収束率を理論的に解析し,従来の制約を緩和した。
- SignSGDに古典的なジッタリング機構を導入し,情報損失を軽減した。
- SignSGDとSGDを滑らかに切り替える学習率調整戦略により,CIFAR-10で高い精度を達成した。
再帰型グラフニューラルネットワークにおける停止と収束について [cs.LG, cs.AI, cs.LO]目的:再帰型グラフニューラルネットワークの表現力の関係性
- グラフ構造を持つデータの解析に応用されるため,表現力の高いモデルが求められている。
- 再帰型グラフニューラルネットワークの停止条件や収束条件が,モデルの表現力に影響を与える。
- 異なる停止・収束条件を持つ再帰型グラフニューラルネットワークの表現力の関係を明確にすること。
- 収束型再帰型グラフニューラルネットワークは,ある条件の下で停止型再帰型グラフニューラルネットワークと同等の表現力を持つことが示された。
- 出力収束型再帰型グラフニューラルネットワークは,少なくとも収束型再帰型グラフニューラルネットワークと同等以上の表現力を持つ。
- 異なる停止・収束条件を持つ再帰型グラフニューラルネットワークの表現力は,モノディック2次論理式で表現可能な分類器によって規定される。
自己中心的触覚・近接センサー:ヒューマノイド衝突回避のための観測事前分布 [cs.RO, cs.LG]目的:ヒューマノイド衝突回避におけるセンサー特性の学習的評価
- ロボットの安全な動作を実現するためには,衝突回避が不可欠である。特にヒューマノイドロボットでは,その複雑な構造から高度な衝突回避技術が求められる。
- 従来の衝突回避は,カメラなどの外部センサーに依存することが多く,遮蔽物による認識の困難さが課題であった。
- 本研究は,触覚・近接センサーの特性が,ヒューマノイドロボットの衝突回避性能に及ぼす影響を明らかにする。
- 触覚・近接センサーは,遮蔽物に強いという利点があり,ヒューマノイドロボットの衝突回避において有効であることが示された。
- 十分な検出範囲を持つ近接センサーは,物体位置の明示的な特定に代わるものとなり得る。
- 疎な非方向性近接信号の方が,高密度な方向性信号よりもサンプル効率が良いことが示された。
CRUDから自律エージェントへ:AIネイティブなエンタープライズシステムにおけるセマンティックゲートウェイの形式検証とゼロトラストセキュリティ [cs.CR, cs.AI]目的:AIネイティブなエンタープライズシステムにおけるセマンティックゲートウェイの設計,形式検証,および実証的評価
- 企業システムはAIを活用する方向へ変化しており,LLMが重要な役割を担うようになっている。
- 確率的なLLMの導入により,従来の検証,アクセス制御,テスト機構が弱体化する可能性がある。
- 自律エージェントの安全な導入のために,動的な形式検証の必要性を実証する。
- セマンティックゲートウェイは,意図とポリシーに基づいてツールを動的に発見,承認,実行するセマンティックなAPI表面を提供する。
- 本手法は,偶然のコードを84.2%削減し,隠れた不正な状態遷移を100%検出した。
- 有効化維持アブストラクション(EPA)とグレーボックスセマンティックファジングを適用し,企業環境におけるエージェントの行動を監査した。
SnapGuard:スクリーンショットベースのWebエージェントに対する軽量なプロンプトインジェクション検出 [cs.CR, cs.AI]目的:Webエージェントにおけるプロンプトインジェクション攻撃の検出
- WebエージェントはWeb操作を自動化するが,セキュリティ上の脆弱性が存在する。
- 従来のテキストベースの防御策は,スクリーンショットを扱うエージェントには不向きである。
- Webページのスクリーンショットから,軽量かつ高精度に攻撃を検出することを目指す。
- SnapGuardは,Webページのスクリーンショットから,視覚的な安定性とテキスト情報を分析する。
- 悪意のあるWebページは,滑らかな勾配分布を示すため,視覚的安定性指標で検出可能である。
- SnapGuardはGPT-4o-promptよりも8倍高速で,メモリ使用量も増加しない。
Marco-MoE:効率的な再利用による多言語混合エキスパート言語モデル [cs.IR, cs.CL, cs.AI]目的:多言語混合エキスパートモデルの効率的な事前学習と性能向上
- 大規模言語モデルは,自然言語処理の様々なタスクにおいて重要な役割を担っている。
- モデルの規模拡大には計算資源が必要であり,効率的な学習方法が課題となっている。
- 疎な混合エキスパートモデルを活用し,既存モデルの再利用で効率化を図る。
- Marco-MoEは,入力トークンあたり約5%のパラメータのみが活性化される,高度に疎な設計を実現している。
- 英語および多言語ベンチマークにおいて,同規模の競合モデルを上回り,計算量あたりの性能比で最高クラスを達成した。
- Marco-MoEは,関連言語間で共有される構造化されたエキスパート活性化パターンを学習し,孤立した言語に対しては高度に特殊化された利用を維持していることが示された。
DualFact+: 手続き型ビデオ理解のためのマルチモーダルファクト検証フレームワーク [cs.AI]目的:手続き型ビデオのキャプションにおける事実性の評価
- ビデオ理解は,ロボット工学や教育などに応用が期待され,重要性が増している。
- 既存の評価指標は,ビデオとキャプションの一貫性を十分に捉えられていない。
- ビデオとテキストの両方に基づいた,より正確な事実性評価手法を確立すること。
- DualFactは,概念的な事実と文脈的な事実の2層で事実性を評価する。
- 最先端のマルチモーダル言語モデルは流暢だが,事実が不完全なキャプションを生成することが示された。
- DualFactは,人間の判断との相関が高く,ビデオに基づいた検証が,テキストのみの評価よりもハルシネーションを正確に評価できることを示した。
PLM-GNNハイブリッドにおけるコード分類と脆弱性検出の重要な要素 [cs.DC, cs.HC, cs.MA, cs.SI, cs.SI, cs.DL, physics.soc-ph, stat.AP, cs.SE, cs.LG]目的:コード分類と脆弱性検出のためのPLM-GNNハイブリッドモデルの性能評価
- ソフトウェアの信頼性確保が重要であり,コードの理解は欠かせない。
- 既存手法では,コードのセマンティクスと構造を同時に捉えるのが困難。
- PLMとGNNを組み合わせることで,コード理解の精度向上を目指す。
- PLM-GNNハイブリッドは,GNNのみのモデルよりも常に優れた性能を示した。
- Devignデータセットでは,PLMのFeature抽出源が性能に大きく影響する。
- 大規模なPLMが必ずしも優れたFeature抽出器とは限らないことが示された。
感情を考慮したアーキテクチャ:LLMが仕事環境調整に果たす役割 [cs.HC, cs.AI]目的:仕事環境における感情適応の枠組み
- リモートワークの普及に伴い,物理・デジタル環境の統合が重要性を増している。
- 既存の環境は,従業員の感情や行動に対応しておらず,最適化が課題である。
- LLMを活用し,環境を動的に変化させることで,より人間中心のワークスペースを実現する。
- LLMは,照明,音響,インターフェースなどをリアルタイムで調整し,環境を感情的に反応するよう変化させることが可能である。
- 本研究では,LLMを導入することで,集中力,幸福度,エンゲージメントの向上に繋がる可能性を示唆する。
- 倫理的な懸念(プライバシー,感情追跡,ユーザーの自律性)に対処し,包括的で透明性の高い設計の重要性を強調する。
OxyGent:オキシ抽象化によるマルチエージェントシステムのモジュール性,可観測性,進化可能性の実現 [cs.AI]目的:マルチエージェントシステムのモジュール化,可観測化,進化可能性
- 複雑な産業環境での活用が期待されるマルチエージェントシステム研究の重要性
- スケーラビリティ,可観測性,自律進化の限界が課題となっている現状
- モジュール性,可観測性,進化可能性を高めるフレームワークの開発
- OxyGentは,エージェント,ツール,LLMなどをプラグ可能なコンポーネントとして扱うことで,スケーラブルなシステム構築を可能にする。
- 実行時に生成される動的計画により,従来のワークフローの硬直性を解消し,適応的な可視化を提供する。
- OxyBankを通じてデータバックフロー,アノテーション,共同進化を自動化し,継続的なシステム進化を支援する。
非構造化臨床記録における大規模ヘルスシステム向け意味検索 [cs.IR, cs.AI, cs.DB]目的:大規模ヘルスシステムにおける非構造化臨床記録からの意味検索の実現
- 臨床情報は膨大かつ多様であり,効率的な情報検索が医療の質向上に不可欠である。
- 従来のキーワード検索では,概念的な類似性を捉えきれず,必要な情報にたどり着くのが困難である。
- 本研究は,大規模な臨床記録に対しても実用的な意味検索システムの構築を目指す。
- 本システムは,400万ドル程度の月額コストで,サブセカンドのクエリ遅延(中央値237ms,20ユーザー同時アクセス時451ms)を実現した。
- Qwen3埋め込みと300トークンチャンクサイズにより,臨床質問応答ベンチマークで94.6%の精度を達成した。
- 臨床的有用性の評価では,意味検索は臨床医によるチャートレビューと比較して,3つの抽出タスクにおいて24~89%完了時間を短縮し,同等のrater間一致度を維持した。
非言語構文フレームワーク:学習者の状態を観察可能な行動的兆候から推測するためのエビデンスに基づく階層システム [cs.AI]目的:学習者の認知・情動状態の理解
- 適応型教育システムや効果的な指導において,学習者の状態把握は不可欠である。
- 非言語的兆候と内部状態の関連性は示されているが,それをエビデンスに基づいて体系化した枠組みは存在しなかった。
- 本研究は,非言語的行動から学習者の状態をより正確に推測するための枠組みを提示し,エビデンスに基づく推論を可能とする。
- 908の研究と17,043の兆候-状態マッピングの系統的レビューに基づき,非言語構文フレームワークを構築した。
- 本フレームワークは,用語の断片化,エビデンスの不均一性,状態の曖昧性という3つの課題に対応している。
- 480の再現性のある関係性を特定し,60年間の研究における中核的な知見を提供する。残りは更なる検証が必要な仮説として提示した。
オンラインコメントの人気度評価のためのベンチマーク:HotComment [cs.AI]目的:オンラインコメントの人気度評価
- ソーシャルメディアにおける世論形成において,オンラインコメントは重要な役割を果たす。
- コメントの人気度評価は,言語的質,独創性,感情的な共鳴に加え,プラットフォームやユーザーグループによる嗜好の差により困難である。
- コンテンツの質,人気予測,ユーザー行動シミュレーションという3つの側面から人気度を定量的に評価するベンチマークの提供。
- HotCommentは,動画とテキストの両方のモダリティを統合したベンチマークである。
- StyleCmtを提案し,社会的影響力を増幅する表現と抑制する表現の関係をモデル化した。
- プラットフォームユーザーの分布をモデル化し,エージェントベースのフレームワークを用いてエンゲージメントスコアを近似した。
大規模言語モデルによる科学理解の浸食:実験的研究 [cs.CY, cs.AI]目的:大規模言語モデルの科学的質問への回答の信頼性と,周辺科学的資料の影響を受けやすさの検証
- 科学技術の発展は社会に不可欠であり,正確な科学知識の普及が重要である。
- 大規模言語モデルは,誤情報や偏った情報を拡散するリスクを孕んでいる。
- 大規模言語モデルが科学的理解を損なう可能性を明らかにし,その対策を提示する。
- 修正された大規模言語モデルは,科学的合意に反する,流暢かつ説得力のある回答を生成した。
- 専門家でない人々は,誤解を招く回答を識別することが困難であった。
- 大規模言語モデルは操作に脆弱であり,専門家の判断に取って代わることはできないことが示された。
大規模ビジョン言語モデルにおける幻覚軽減のための事前入力時介入 [cs.NI, cs.CV, cs.AI]目的:大規模ビジョン言語モデルにおける幻覚の軽減
- 近年,画像とテキストの理解において目覚ましい進歩があるが,その信頼性は幻覚によって損なわれる。
- 既存手法では,残存する幻覚を増幅させてしまうという課題があった。
- 事前入力段階で介入することで,エラーの蓄積を抑制し,幻覚発生源への対処を目指す。
- 提案手法であるPTIは,事前入力段階でKey-Valueキャッシュを強化し,幻覚を効果的に軽減する。
- PTIは,画像とテキストの表現に対して異なる方向性を導き出すモダリティ認識型のアプローチを採用する。
- 様々なデコーディング戦略やモデル,ベンチマークにおいて,PTIは汎用性と性能向上を示す。
量子アニーリング特徴選択による解釈可能なAIへの取り組み [cs.CY, cs.LG]目的:画像分類における畳み込みニューラルネットワークの解釈手法
- 深層学習は重要課題に応用される一方,予測根拠の不透明さが課題である。
- モデルの判断基準が不明確なため,誤った学習やバイアスの検出が困難である。
- 量子アニーリングを用いて重要な特徴マップを選択し,モデルの解釈性を向上させる。
- 本研究で提案する手法は,既存の解釈手法(GradCAM,GradCAM++)と比較して,クラス分離性能を向上させる。
- これにより,モデルの意思決定境界が明確になり,推論過程がより透明になることが示された。
- また,量子アニーリングアルゴリズムの計算特性を分析し,その有効性の理論的根拠を提供する。
LLMによる自己評価を通じた反復要約のためのフレームワーク [cs.CL, cs.HC, cs.RO, cs.HC, cs.CL, cs.AI, cs.DL, cs.IR]目的:大規模言語モデル生成要約の反復的改善
- 要約は情報過多な現代において,効率的な情報アクセスに不可欠である。
- 大規模言語モデルの要約の信頼性評価は難しく,特に多様な分野や文書長において課題がある。
- 言語モデルを用いた評価と生成を組み合わせ,モデルのファインチューニングなしに要約品質を向上させる。
- 従来の類似度指標は人間の評価と相関が低い一方,タスク特化型指標や言語モデルベースの評価器は高い相関を示す。
- LLM-ReSumは,事実の正確性を最大33%,網羅性を39%向上させ,人間の評価者による好みを89%のケースで得た。
- 法務文書要約のための新たなベンチマークデータセット PatentSumEval を公開する。
CORAL:文化に沿った多言語RAGのための適応的検索ループ [cs.CL, cs.CL, cs.AI]目的:文化に沿った多言語RAGのための適応的な検索手法
- 多言語情報へのアクセスが重要視される中で,検索と生成を組み合わせたRAGが注目されている。
- 従来のRAGでは,文化的な背景を考慮した検索が難しく,関連性の低い情報が取得される場合がある。
- 文化的文脈に即した検索空間とクエリの適応的改善により,より適切な回答生成を目指す。
- CORALは,検索空間とクエリを反復的に改善することで,証拠の質を高める。
- 文化的なQAベンチマークにおいて,低リソース言語で最先端のベースラインと比較して最大3.58%の精度向上を達成した。
- 証拠の関連性と文化的な適合性を評価し,不十分な場合は検索空間とクエリを再選択する。
行動する前に思考を巡らせよ - 自律型AIエージェントのための神経認知ガバナンスモデル [cs.IR, cs.AI]目的:自律型AIエージェントにおけるガバナンスの新たな枠組み
- AIエージェントの社会実装が進む中で,安全かつ信頼性の高い運用が不可欠となっている。
- 既存のガバナンス手法は外部からの制約に依存しており,エージェントの自律的な判断を阻害する可能性がある。
- 人間の自己ガバナンスのメカニズムを参考に,AIエージェントに内在的なガバナンス能力を付与することを目指す。
- 提案する神経認知ガバナンスフレームワークは,人間の思考プロセスとAIの推論構造を対応付け,より安全で説明可能な行動を可能にする。
- 生産環境の小売サプライチェーンへの実装において,95%のコンプライアンス精度とゼロの誤エスカレーションを達成した。
- AIエージェントがルールを強制されるのではなく,思考プロセスにガバナンスを組み込むことで自己管理を行う基盤を提供する。
GPTを活用した小規模問題に対するスプレッドシートモデリング実験と壁課題 [cs.SE, cs.AI]目的:再利用可能な分析用スプレッドシートモデルの構築におけるGPTベースのツールの支援
- ビジネスや研究において,データ分析の効率化は重要な課題である。
- スプレッドシートモデリングは専門知識を要し,誤りが発生しやすい。
- GPTの活用により,モデリングの効率化とスキル要件の低減を目指す。
- Excel AIは,構造化されたモデルを生成できるものの,一貫性と再現性に課題があることが示された。
- 「信頼性の問題」と「ワークフローの問題」の2つの主要な課題が特定された。
- GPTは草案モデル生成の可能性を示すが,現在のツールはプロフェッショナル用途には信頼性が低い。
RADD:検索拡張離散拡散によるマルチモーダル知識グラフ補完 [cs.CE, cs.RO, cs.AI]目的:マルチモーダル知識グラフ補完の性能向上
- 知識グラフは,事実の構造化された表現であり,様々なAIタスクの基盤となる。
- 既存モデルは,検索と最終的な決定を一つのスコアラーで行うため,ボトルネックとなっている。
- 検索と再ランキングを分離することで,より高精度な知識グラフ補完を実現する。
- RADDは,既存の強化学習ベースラインと比較して,優れた性能と一貫した改善を達成した。
- 関係性を考慮したマルチモーダルKGE検索器が,グローバルな検索と蒸留教師の両方として機能する。
- 条件付き離散ノイズ除去器が,再ランキングのためのショートリストレベルのエンティティ識別を生成する。
バグ報告駆動型故障局所化:ABB Roboticsにおける産業ベンチマークと教訓 [cs.CG, cs.RO, cs.AR, cs.SE, cs.LG]目的:バグ報告のみを用いた故障局所化の支援
- 産業環境では大規模システムに欠陥が蓄積しやすく,品質保証が重要な課題である。
- 故障箇所特定には時間がかかり費用も嵩むことが多く,特にバグ報告のみに基づく保守段階で困難が生じる。
- バグ報告のテキスト情報のみから,既存の保守ワークフローに組み込める故障局所化手法を確立する。
- 伝統的な機械学習モデル(ロジスティック回帰,SVM,ランダムフォレスト)が,ファインチューニングされたTransformerベースの言語モデルよりも一貫して高い性能を示した。
- データ拡張はランダムフォレストの性能を向上させた。Transformerモデルが常に古典的手法を上回るわけではないことが示唆された。
- 過去のバグ報告を体系的に活用することで,テキストベースのAI支援故障局所化が可能となり,既存のデバッグ手法を補完できる。
ソフトウェア脆弱性検出のための汎化可能なマルチモーダル表現学習 [cs.CL, cs.IR, cs.SE, cs.AI]目的:ソフトウェア脆弱性検出における汎化可能なマルチモーダル表現
- ソフトウェアの安全性確保は重要であり,脆弱性検出は不可欠である。
- 従来の脆弱性検出手法はコードのみに依存し,コメントの意味情報を活用できていない。
- コードとコメントの相補的な情報を統合し,脆弱性検出の精度向上を目指す。
- MultiVulは,コードとコメントの表現を対照学習と一貫性正則化によって整合させる新しいフレームワークである。
- 多様なコード・テキストペアを用いることで,モデルのロバスト性を向上させている。
- 実験結果から,MultiVulは既存手法と比較してF1スコアで最大27.07%の改善を示した。
意味コードブックによるクロスリンガル脱獄検出 [cs.CL, cs.AI]目的:大規模言語モデルにおけるクロスリンガル脱獄攻撃の検出
- 多言語対応のLLM利用拡大に伴い,言語依存の安全対策の脆弱性が課題となっている。
- 悪意のあるプロンプトを翻訳することで脱獄成功率が向上し,言語間のセキュリティギャップが存在する。
- 言語に依存しない意味的類似性を用いて,脱獄攻撃を軽減する手法を検討する。
- 固定された英語の脱獄プロンプトのコードブックと多言語クエリ埋め込みを比較することで,訓練不要の外部ガードレールとして機能する。
- 厳格な低誤検知率制約下で,標準的な脱獄テンプレートを含むベンチマークにおいて,高い分離性能(AUC最大0.99)と攻撃成功率の大幅な低下が確認された。
- しかし,分布シフトが発生する多様な不正ベンチマークでは分離性能が低下し(AUC約0.60-0.70),低誤検知率領域における再現率も低下した。
複合AIシステムの拡張性のある推論アーキテクチャ:本番環境でのデプロイメント研究 [cs.AI]目的:複合AIシステムの効率的な推論インフラストラクチャ
- AI活用が企業で拡大する中で,複雑なタスクを処理する複合AIシステムの重要性が高まっている。
- 既存のインフラでは,複数のモデルを同時に効率的に実行し,コストと低遅延性を両立することが困難である。
- 本研究は,複合AIシステムの本番環境でのスケーラビリティと効率性を向上させることを目指す。
- Salesforceにおける本番環境のデプロイメント研究により,P95レイテンシが50%以上削減された。
- スループットは最大3.9倍に向上し,コストは30~40%削減された。
- マルチモデルのファンアウトオーバーヘッドやコールドスタートの伝播など,複合システム特有の課題を分析した。
スキルグラフによるスケーラブルなターミナルタスク合成に向けて [cs.AI]目的:ターミナルタスク合成のスケール化
- 自律的なコマンドライン実行エージェントの重要性が増している。
- 学習データとなる高品質で多様な実行軌跡の不足が課題である。
- 実行軌跡の多様性を制御しつつ,タスク数をスケール化すること。
- SkillSynthは,シナリオを介したスキルグラフに基づいた自動タスク合成フレームワークである。
- スキルグラフからワークフローをサンプリングすることで,多様な実行軌跡を制御する。
- Terminal-Benchでの実験により,SkillSynthの有効性が示された。Hy3 Previewの学習にも貢献した。
ニューラルネットワークの検証(講義ノート) [cs.IR, cs.LO, cs.AI, cs.FL]目的:ニューラルネットワークの検証に関する理論的考察
- AIの安全性確保には,その動作を保証する検証が不可欠である。
- 複雑なニューラルネットワークの形式的な検証は困難である。
- 様々なネットワーク構造に対する検証手法の基礎を確立すること。
- 本講義ノートでは,ニューラルネットワークの検証について理論的な入門を提供する。
- フィードフォワードネットワーク,再帰型ネットワーク,注意機構,Transformerなどの検証対象を網羅している。
- 仕様記述言語とアルゴリズムによる検証手法についても議論している。
SAFEdit:マルチエージェント分解は指示型コード編集の信頼性課題を解決するか [cs.SE, cs.AI]目的:指示型コード編集の信頼性向上
- LLMのコード編集能力は,汎用的なコード生成とは異なり,実行可能なテスト制約下での課題が多い。
- 既存モデルのEditBenchでのタスク成功率は低い(40モデル中39モデルが60%未満)。
- SAFEditは,マルチエージェント分解により信頼性を高め,意図しないコード変更を減らすことを目指す。
- SAFEditはEditBenchにおいて68.6%のタスク成功率を達成し,シングルモデルベースラインを3.8%上回った。
- 反復改善ループは,SAFEditの全体的な成功率に17.4%貢献した。
- SAFEditの自動エラー分析は,シングルエージェントアプローチと比較して指示レベルの幻覚を減少させることを示唆した。
QAROO:エネルギー効率と持続可能性のためのAI駆動型オンラインタスクオフローディングMECネットワーク [eess.SY, cs.SY, cs.AI]目的:無線電力供給型モバイルエッジコンピューティングネットワークにおけるオンラインタスクオフローディング
- AI技術の進展によりエッジコンピューティングが普及。計算資源の効率的な活用が重要。
- 従来のオフローディング手法は,適応性や収束速度に課題があり,資源効率が低い。
- 動的な環境下で計算・エネルギー資源を協調的に最適化する効率的なオフローディング手法を開発。
- 提案手法QAROOは,正規化計算速度と処理時間の両面で,比較対象手法よりも優れた性能を示す。
- 量子ニューラルネットワークとアテンション機構を統合することで,時間的モデリング能力と探索効率を向上。
- 大規模IoT環境におけるオンラインタスクオフローディングに対し,効率的かつ安定した解を提供する。
自律プラットフォームのセキュリティ評価のための脅威志向型デジタルツイン [cs.CR, cs.AI, cs.RO, cs.SY, eess.SY]目的:自律プラットフォームのサイバーセキュリティ評価手法
- 自律システムの安全確保は重要であり,特に現実環境での検証が困難である。
- 実際の運用プラットフォームへのアクセス制限や,敵対的状況の再現が課題である。
- 脅威分析を再現可能なテストに変換し,セキュリティ評価を容易にすることを目的とする。
- 脅威志向型デジタルツインの設計パターンを提示し,スプーフィングやデータ改ざん等のテストを可能にした。
- 実装されたプロキシは地上ベースだが,UAVや宇宙システムにも適用可能なアーキテクチャとなっている。
- この手法により,UAVや宇宙分野における安全な自律性研究のための基盤を提供しうる。
分類モデルの感度をエラー感度プロファイルで測定 [cs.LG, cs.AI]目的:分類モデルのエラーに対する感度の定量化
- 機械学習モデルの性能は学習データに大きく依存する。
- データ中のエラーがモデル性能に与える影響は予測困難である。
- モデル性能への影響が大きいエラーの特定とデータクレンジングの優先順位付け。
- エラー感度プロファイル(ESP)を用いて,個々の特徴量や複数の特徴量におけるエラーがモデル性能に与える影響を定量化できる。
- 実験結果から,目的変数との単純な相関関係だけでは性能劣化を予測できない場合があることが示された。
- ESPを活用することで,モデル性能に最も影響を与える可能性のあるエラータイプと特徴量に基づいて,データクレンジングの努力を優先できる。
FoodBench-QA 2026におけるCGU-ILALab:レシピからの栄養素推定における従来手法とLLMに基づく手法の比較 [cs.CL, cs.AI]目的:レシピのテキストからの栄養素推定
- 食生活のモニタリングにおいて,栄養摂取量の正確な把握は健康管理上重要である。
- 曖昧な食材名や多様な計量表現により,レシピから栄養素を正確に推定することが困難である。
- レシピから栄養素を推定する際の精度と効率性のトレードオフを明らかにすること。
- TF-IDFベースラインは高速な推論が可能だが,栄養素推定の性能は中程度である。
- DeBERTa-v3エンコーダは,タスク固有のデータ不足のため性能が低い。
- Gemini 2.5 FlashなどのLLMと,TF-IDFとGemini 2.5 Flashのハイブリッド手法は,すべての栄養素カテゴリーで最も高い検証精度を達成した。
コード評価指標はコードの盗用を検出できるか [cs.CL, cs.SE, cs.AI, cs.IR]目的:コードの盗用検出性能の評価
- ソフトウェア教育における公正性や学術的誠実性の維持は重要であるため,コード盗用検出が不可欠である。
- コード生成タスク評価指標は存在するが,改変レベルに応じた盗用検出の信頼性については不明な点が多い。
- 様々な改変レベルにおけるコード評価指標の盗用検出能力を検証し,その有効性を明らかにすること。
- 前処理なしではDolosが全体ランキングで最も高い性能を示したが,個別の指標ではCrystalBLEU,CodeBLEU,RUBYがJPlagを上回った。
- 性能はL1レベルで最も高く,L4以降から低下する傾向が見られたが,CrystalBLEUはL6レベルでも競争力があった。
- 前処理を施すと,CrystalBLEUがDolosを上回り,全体的に最高の性能となった。データセットごとに見ると,ConPlag rawではDolosが,それ以外のデータセットではCrystalBLEUが優れていた。
多段階設定における持続的な勾配アラインメントが潜在学習を媒介する:MNIST補助ロジット蒸留実験からの証拠 [cs.LG, cs.AI]目的:多段階設定における潜在学習のメカニズム
- 機械学習のモデルは,意図しない特性を獲得することがあるため,そのメカニズム解明が重要である。
- 潜在学習は,教師データのラベル情報に依存せず,教師モデルの特性を獲得する現象であり,制御が難しい。
- 多段階学習において,勾配アラインメントが潜在学習にどのように影響するかを明らかにすること。
- MNIST補助ロジット蒸留実験において,生徒モデルが教師モデルの意図しない特性を獲得することが確認された。
- 勾配アラインメントは,学習を通して一貫して弱く正の相関を保ち,特性獲得に因果的に寄与することが示された。
- 既存の緩和手法(liminal training)は,アラインメントを減衰させるものの,特性獲得を完全に抑制するには至らなかった。
ブラックボックスデータフリー知識蒸留のための多様な画像事前分布 [cs.NI, cs.RO, cs.CL, cs.IR, cs.RO, cs.LG, cs.CV]目的:ブラックボックスデータフリー知識蒸留における知識獲得
- AI技術の発展には,モデルの効率化と知識伝達が不可欠である。
- 教師モデルのデータやインターフェースが利用できない環境では,知識蒸留が困難である。
- 多様な画像事前分布を利用し,データフリー知識蒸留の性能向上を目指す。
- 提案手法DIP-KDは,多様な画像事前分布を合成することで,蒸留信号の多様性を高める。
- コントラスト学習により,合成サンプル間の識別性を向上させ,知識獲得を促進する。
- 12のベンチマークにおいて,DIP-KDは最先端の性能を達成し,データ多様性の重要性を確認した。
ブラックボックス少数ショット知識蒸留における多様性の向上 [cs.CV, cs.LG]目的:少数ショット知識蒸留における多様性向上手法
- 大規模モデルの圧縮は,計算資源の制約下での実用的な展開に不可欠である。
- 従来の知識蒸留は,教師モデルへのアクセスと大量の学習データが必要であり,現実的な制約が多い。
- 教師モデルへのアクセスが制限された環境でも,少数データで効率的な学習を実現すること。
- 本研究では,敵対的生成ネットワークを用いて,教師モデルの指導の下で高信頼度の画像を動的に選択する手法を提案する。
- これにより,蒸留データの多様性を拡大し,学生モデルの精度を大幅に向上させる。
- 7つの画像データセットにおいて,他の少数ショット知識蒸留手法を凌駕する最先端の結果を達成した。
StratFormer:不完全情報ゲームにおける適応的な対戦相手モデリングと利用 [cs.AI]目的:不完全情報ゲームにおける対戦相手のモデリングと利用
- ゲームAIの発展は,人間の思考を模倣し,より高度な戦略を可能にする点で重要である。
- 従来のAIは,対戦相手の行動パターンに適応できず,最適戦略を維持できない場合がある。
- 対戦相手の行動を学習し,それに基づいた最適な戦略を選択することで,AIの性能向上を目指す。
- StratFormerは,対戦相手の行動履歴から行動パターンを識別するモデリングヘッドと,ゲーム理論的に最適な戦略(GTO)を学習するフェーズを持つ。
- その後,利得(exploitability)に連動した正則化スケジュールによって,最良応答(BR)戦略への移行を段階的に行う。
- Leduc Hold'emにおいて,GTOと比較して平均0.106BB/handの利得を達成し,特に弱い対戦相手に対しては最大0.821BB/handの利得が得られた。
