arXiv雑要約
AI - 2026/05/01 公開
WindowsWorld:プロフェッショナルなクロスアプリケーション環境における自律型GUIエージェントのプロセス中心型ベンチマーク [cs.DC, eess.SY, cs.SY, cs.AI, cs.CL]目的:プロフェッショナルなクロスアプリケーション環境におけるGUIエージェントの性能評価
- GUIエージェントの応用範囲拡大のため,実用的な環境での性能評価が不可欠である。
- 既存のベンチマークは単一アプリケーションに限定されており,複数のアプリケーション連携を考慮していない。
- 現実的な業務フローを模倣したベンチマークを通じて,クロスアプリケーション連携能力の評価を目指す。
- 既存のGUIエージェントは,複数アプリケーション連携タスクにおいて低い成功率(21%未満)を示した。
- 3つ以上のアプリケーションを必要とするタスクや条件判断を伴うタスクでは,エージェントは初期段階で停止する傾向がある。
- タスクの実行効率が低く,人間が許容するステップ数を超過しても失敗することが多い。
RuC:HDLに依存しないルール補完ベンチマーク生成 [cs.AR, cs.AI]目的:HDL記述からのルール選択型ベンチマーク自動生成
- RTL開発にLLMの導入が期待されており,その性能評価が重要である。
- 既存のベンチマークは,補完範囲の制御や構文の多様性に課題があった。
- 文法に基づき,粒度の制御可能なベンチマーク生成を目指す。
- RuCフレームワークにより,SystemVerilogのベンチマークを生成・評価した。
- 補完性能はモデルの種類,文法構造,プロンプト戦略に大きく依存することが示された。
- Fill-in-the-Middle (FIM) プロンプトが最も高いスコアを獲得した。
線形SDPを解くGNNの表現力について [cs.LG]目的:線形SDPの最適解復元のためのGNNの表現力
- 半定値計画法は組合せ最適化問題を解く上で強力な手法であり,その応用範囲は広い。
- 大規模なSDPの計算コストが高いことが課題であり,効率的な近似解法が求められている。
- 標準的なGNNでは解決できないSDPの構造を捉え,より高精度な予測を可能にすること。
- 標準的なGNNアーキテクチャでは線形SDPの最適解を復元できないことが示された。
- SDPの主要な構造を捉えるより表現力の高いアーキテクチャが提案され,第一種ソルバーの更新を模倣できることが示された。
- 提案手法は合成データおよびSdpLibベンチマークにおいて,既存手法と比較して低い予測誤差と目的関数のギャップを達成し,最速80%の速度向上を実現した。
LLMサプライチェーンにおける更新の管理:展開前にテストする [cs.CC, math.LO, cs.SE, cs.AI]目的:LLMサプライチェーンにおける更新管理のためのフレームワーク
- LLMはソフトウェアシステムの中核依存関係として普及しており,その安定運用が重要である。
- プロバイダー側の更新により挙動が変化するものの,バージョン管理が不十分であるという問題がある。
- 展開側の視点から互換性を管理し,LLMの挙動変化による問題を未然に防ぐことを目指す。
- 本研究では,LLMの許容される挙動を定義する「プロダクションコントラクト」や,リスクカテゴリに基づくテストスイート,互換性ゲートを提案した。
- 実験により,特定の危険領域に焦点を当てたテストが,全体的な指標では見逃される性能劣化を検出できることが示された。
- 効果的なテストスイートの構築や,非決定的なシステムにおける信頼性のある閾値設定などが今後の課題として挙げられた。
生成AIが検索に与える影響:Google検索,Gemini,AI概要に関する実証研究 [cs.IR, cs.AI, cs.CL, cs.CY, cs.HC]目的:生成AIによる検索の変化
- 検索は情報への主要なアクセス手段であり,その変化を理解することは重要である。
- 従来の検索エンジンと生成AI検索では情報提示方法が異なり,影響が不明確である。
- 生成AI検索がウェブサイトの可視性やSEOに与える影響を明らかにすること。
- AI概要はユーザーの約51.5%に対して表示され,特に論争的な質問で頻繁に生成される。
- 検索結果のソースは,従来のGoogle検索と生成AI検索で大きく異なり,類似度は低い。
- GoogleのAIクローラーをブロックしたウェブサイトは,AI概要に表示される可能性が低い。
LoRAの後最適化適応ランク割り当て [cs.RO, cs.AI]目的:LoRAのパラメータ効率的な圧縮
- 大規模言語モデルの発展に伴い,効率的な微調整手法が重要視されている。
- 既存のLoRAは層ごとの次元の差を無視し,冗長なパラメータが存在する。
- 層ごとの重要度に応じたランク割り当てによる圧縮を目指す。
- PARAは,特異値分解を用いてLoRAのランクを削減し,パラメータ数を大幅に削減する。
- パラメータ数を75-90%削減しつつ,元のLoRAの性能を維持できる。
- 追加の学習を必要とせず,既存の微調整パイプラインに容易に組み込める。
クラス除去のためのSISAベース深層ニューラルネットワークアーキテクチャにおける機械的アンラーニング [cs.CE, cs.CV, cs.CR, cs.LG]目的:クラスレベルのアンラーニング
- 画像生成モデル等のAI利用拡大に伴い,データプライバシーとユーザー同意が重要視されている。
- 学習済みモデルに影響を与えたユーザーデータの削除要求への対応が課題となっている。
- 特定のデータの影響をモデルから除去し,プライバシー保護を実現する。
- 提案手法は,SISAフレームワークを改良し,選択的な忘却効率を高めている。
- 複数の画像データセットとCNN構成において,効果的なクラスアンラーニングが確認された。
- モデル性能を維持しつつ,再学習コストを削減できる可能性が示された。
AI時代における自律システムの信頼性:安全性,セキュリティ,信頼性,認証における設計課題 [cs.SC, cs.AI, cs.DC]目的:AI時代における自律組込みシステムの信頼性設計手法,アーキテクチャ,フレームワーク
- 次世代自動車など高度化する組込みシステムにおいて,信頼性確保は不可欠である。
- AI/ML導入により,システムの非決定性,データ依存性,安全性確保が困難になっている。
- AI/MLの活用と認証可能なシステムレベルの信頼性確保のギャップを埋めることを目指す。
- 本研究では,不完全な学習要素を考慮した信頼性モデリングの進展を提示する。
- セキュアなシステム設計と,AIを組み込んだシステムの認証アプローチについて議論する。
- AIの革新と認証可能なシステムレベルの信頼性確保の両立を目指す方法を探求する。
超次元フィンガープリントによる分子表現 [cs.AR, cs.LG]目的:分子の表現方法
- 創薬や材料探索において,分子の計算による表現が不可欠である。
- 従来のフィンガープリントは効率的だが,低次元では構造情報が失われやすい。
- 高次元ベクトル演算により,学習不要で構造情報を保持する分子表現を開発する。
- 超次元フィンガープリントは,多くの物性予測において従来のフィンガープリントを上回る性能を示した。
- 32次元において,HDF空間での距離はグラフ編集距離との相関が0.9と高く,構造類似性を忠実に反映する。
- ベイズ分子最適化において,HDFに基づくモデルはサンプル効率を大幅に向上させた。
不規則多変量時系列予測のための確率回路 [cs.HC, cs.LG]目的:不規則多変量時系列予測における不確実性の定量化
- 時系列データは,金融,気象など多くの分野で重要な役割を担う。
- 複雑な依存関係を捉えつつ,一貫性のある周辺化を保証することが困難。
- 予測の信頼性と矛盾の解消を目指す。
- CircuITSは,確率回路に基づいた新しい確率的IMTS予測アーキテクチャである。
- 実験結果から,CircuITSは最先端のベースラインと比較して,優れた同時および周辺密度推定を達成した。
- 本モデルは,時系列チャネル間の複雑な依存関係を捉えながら,有効な同時分布を構造的に保証する。
マルチサーバーMCPエージェントにおけるクロス境界データ伝播の評価フレームワーク:MCPHunt [cs.AI]目的:マルチサーバーMCPエージェントにおける,クロス境界の資格情報伝播の評価
- 情報フロー制御は,AIシステムのセキュリティにおいて重要であり,機密情報の漏洩を防ぐ。
- 複数のサーバー間で連携するMCPエージェントでは,資格情報の意図しない伝播が問題となる。
- 本研究は,資格情報の伝播を正確に評価し,その原因を特定することを目的とする。
- 提示されたMCPHuntフレームワークは,クロス境界における資格情報伝播を分離して評価できる初のベンチマークである。
- 複数のモデルを用いた評価により,ポリシーに違反する資格情報伝播率が11.5〜41.3%に達することが示された。
- プロンプト対策によって資格情報伝播を最大97%削減できることが示唆されたが,効果はモデルの性能に依存する。
オブジェクトグラフ:ドキュメントインジェクションから知識トラバーサルへ - エージェント時代のネイティブファイルフォーマット [cs.AI, cs.DB, cs.IR, cs.MA]目的:ドキュメントを型付きの有向知識グラフとして捉え,トラバースすることを目指すファイルフォーマット
- LLMエージェントの利用拡大に伴い,大量のドキュメントを効率的に処理する技術が重要になっている。
- 既存のドキュメントフォーマットは人間向けに設計されており,LLMエージェントの特性に合致していない。
- LLMエージェントが効率的にドキュメントを処理するための新たなファイルフォーマットを提案すること。
- OBJECTGRAPHは,Markdownの厳密な上位互換性を持つ知識グラフベースのファイルフォーマットである。
- 五種類のドキュメントクラスと八種類のタスクにおいて,最大95.3%のトークン削減効果が確認された。
- タスクの精度低下は見られず,トランスパイラのコンテンツ保持率は98.7%に達した。
プライバシー保護型パーソナライズド連合ファインチューニングにおけるノイズ誘発プロトタイプ劣化の抑制 [cs.CV, cs.LG]目的:プライバシー保護と性能維持を両立する連合学習手法の改善
- 連合学習は,分散したデータを用いてモデルを学習する技術であり,プライバシー保護とデータ活用の両立に貢献する。
- プロトタイプベースの連合学習は効率的だが,プロトタイプの共有はプライバシー侵害のリスクを伴う。
- 既存手法の過剰なノイズ付加による性能劣化を改善し,プライバシー保護とモデル性能のバランスを取る。
- 提案手法VPDRは,次元ごとの分散に基づいてノイズ量を調整することで,識別力の高い特徴量のノイズを抑制し,プライバシーを保護する。
- 蒸留ガイドクリッピング正則化DCRにより,特徴量ノルムをクリッピング閾値付近に集中させ,予測精度を維持する。
- 多次元ベンチマーク実験により,VPDRが既存手法IGPPを上回り,プライバシーと性能のトレードオフを改善することが示された。
CastFlow:時系列予測のための役割特化型エージェントワークフロー学習 [cs.LG, cs.AI]目的:時系列予測における役割特化型エージェントワークフロー
- 時系列予測は,経済,環境,医療など,幅広い分野で不可欠な技術である。
- 既存のLLMベースの予測手法は,静的な生成パラダイムに縛られ,複雑なパターン抽出が困難である。
- 本研究は,動的なエージェントワークフローにより,予測精度と適応性を向上させることを目指す。
- CastFlowは,計画,行動,予測,反省というエージェントワークフローを確立した。
- 過去の経験を活用するメモリモジュールと,信頼性の高いアンサンブル予測基盤を構築するツールキットを導入した。
- 汎用的な推論と数値予測を組み合わせた役割特化型設計を採用し,多様なデータセットで優れた性能を示した。
電気自動車充電システム解析のためのグリッド連動型エージェントベースモデル [cs.DC, cs.CL, cs.CL, cs.AI]目的:電気自動車充電システムの系統的分析
- 電気自動車の普及に伴い,充電インフラの最適化が重要課題となっている。
- 既存の研究では,充電需要の変動やグリッドへの影響を十分に考慮できていない。
- インフラ構成や運用戦略が充電性能とグリッド負荷に与える影響を評価する。
- 提案モデルは,多様なEV行動,充電器制約,および電力配分を統合的に解析できる。
- シミュレーション結果から,インフラ構成と調整メカニズムがエネルギー供給性能に影響することが示された。
- 充電戦略や充電器の種類によって,サービスレベルの結果とグリッドへの影響が変化することが明らかになった。
NeocorRAG:無関係な情報の削減,明示的な証拠の提示,そしてエビデンスチェーンによる効果的な想起 [cs.CL, cs.IR, cs.AI]目的:検索拡張生成(RAG)における想起と推論の乖離問題の解決
- RAGは大規模言語モデルの知識不足を補い,より正確な応答を生成するために不可欠である。
- 従来のRAG手法では,検索性能の向上と推論精度の向上が必ずしも一致しないという課題がある。
- エビデンスチェーンを活用することで,検索品質を最適化し,想起と推論の間のギャップを埋める。
- NeocorRAGは,活性化検索アルゴリズムと制約付きデコーディングにより,高品質なエビデンスチェーンを効率的に生成する。
- HotpotQA,2WikiMultiHopQA,MuSiQue,NQ等のベンチマークにおいて,3Bおよび70Bパラメータモデルで最先端の性能を達成した。
- 既存手法と比較して,トークン消費量を20%以下に抑えながら,検索品質と想起性能の両立を実現した。
AI推論における移転可能な電力需要:遅延制約型エネルギー地理フレームワーク [cs.NI, cs.DC, cs.AI]目的:AI推論の地理的分布と電力需要の関係性
- AIの普及に伴い,その電力消費は無視できないものとなっている。
- AI推論の計算場所の最適化が,電力コストや環境負荷の低減に繋がる可能性がある。
- AI推論の遅延制約下での最適な配置戦略を明らかにすること。
- AI推論の計算場所を移動させることで,電力需要の地理的な移動が可能となる。
- 遅延許容度合いによって,AI推論の実行層(ローカル,地域,エネルギー最適化)が分離される。
- 計算場所の移動コストや法的制約などが,得られる利益を大きく左右する。
大規模言語モデルにおける能動的強化学習の再考 [cs.AI, cs.ET]目的:大規模言語モデルに基づく能動的強化学習の概念的基盤,方法論的革新,効果的な設計
- 従来の強化学習は特定環境に限定されがちだが,大規模言語モデルの登場により,より複雑なタスクへの応用が期待される。
- 従来の強化学習は静的な目的関数に依存し,現実世界のような不確実な環境への適応が課題であった。
- 大規模言語モデルを活用し,自己反省や多段階意思決定などの認知的な能力を組み込むことで,この課題を解決することを目指す。
- 本研究は,能動的強化学習の概念的基盤,方法論的革新,効果的な設計について深い洞察を提供する。
- 大規模言語モデルに基づく能動的強化学習における重要な課題を特定し,今後の有望な方向性を示す。
- 目標設定,長期計画,動的な戦略適応,不確実な環境における対話的推論を可能にする自律エージェントの開発を促進する。
TwinGate:非追跡型トラフィックにおける分解的脱獄に対するステートフル防御 [cs.CR, cs.CL, cs.LG]目的:分解的脱獄攻撃に対するステートフル防御機構の構築
- 大規模言語モデルの安全性確保は,社会実装において不可欠であり,その脆弱性対策は喫緊の課題である。
- 分解的脱獄攻撃は,悪意のある目的を分割して隠蔽するため,既存の防御策では検知が困難である。
- 本研究は,ユーザー情報に頼らず,低遅延で高い防御性能を実現する新たな防御手法を提案する。
- TwinGateは,Asymmetric Contrastive Learningを用いて,意味的に異なる悪意のある断片を潜在空間上でクラスタリングする。
- これにより,誤検知を抑制しつつ,高い悪意のある意図の再現率を達成した。
- 大規模なデータセットを用いた評価において,既存手法を凌駕する性能と効率性を実証した。
ケリーベンチ:長期的シーケンシャル決定のベンチマーク [cs.AI]目的:スポーツベッティング市場におけるシーケンシャルな意思決定の評価
- 手続き的なタスクのベンチマークは飽和状態にあるが,現実世界への応用が求められている
- 長期的な非定常環境におけるオープンエンドな目標設定の課題が存在する
- スポーツベッティング市場をシミュレーションし,長期的な収益最大化を目指す
- 評価された最先端モデルは平均してシーズンを通して損失を出しており,最良のモデルでも平均収益率は-8%である。
- 多くのモデルが破綻を経験しており,戦略の洗練度には改善の余地が大きい。
- Claude Opus 4.6の専門家による評価は26.5%であり,人間のベースラインと比較して未熟である。
言語モデルエージェントにおける臨床的懸念の軌跡のモデル化 [cs.AI]目的:臨床的懸念の軌跡のモデル化
- 臨床現場での意思決定は,累積的なリスクに基づいて行われるため,その再現が重要である。
- 既存の言語モデルエージェントは,閾値を超えた際の急激な行動を示し,リスクの兆候が不明瞭である。
- エージェントの意思決定過程を可視化し,人間による介入を促すこと。
- 従来のモデルでは急激なエスカレーションが見られる一方,二次のダイナミクスを用いることで,より滑らかな懸念の軌跡が得られた。
- この軌跡は,エスカレーション前に持続的な不安を示すことで,人間による監視と介入を可能にする。
- 明示的な状態ダイナミクスにより,エージェントの臨床的解釈可能性が向上し,懸念がどのように高まってきたかがわかる。
要求に応じてパーソナベースのエージェントを構築する:ユーザーニーズに合わせたマルチエージェントワークフローの調整 [cs.IR, cs.AI, cs.HC]目的:要求に応じたパーソナベースのエージェント生成
- AIエージェントの進化は,自動化を個別ツールから,複数の専門能力を連携させるプロアクティブなシステムへと変革させている。
- 既存のシステムは固定された構造に依存し,ユーザーの個性や状況への適応が困難である。
- ユーザー特性,タスク,状況に応じてエージェントを動的に生成し,柔軟な対応を可能にすること。
- 本研究では,エージェントプラットフォームにおけるオンデマンドのパーソナ生成パイプラインを提案する。
- リアルタイムでのAIパーソナの作成を体系的に統合することで,エージェントシステムのデザインパラダイムに新たな可能性を開く。
- これにより,ユーザーニーズに最適化された効率的な対話を実現し,使いやすさを向上させることが期待される。
手続き的タスクにおけるインコンテキストプロンプティングがエージェントオーケストレーションを不要にする [cs.AI, cs.LG]目的:手続き的タスクにおけるインコンテキストプロンプティングとエージェントオーケストレーションの比較評価
- 大規模言語モデルの活用範囲拡大に伴い,複雑なタスク処理の自動化が重要になっている。
- 既存のエージェントオーケストレーションは複雑で,モデルの性能を最大限に引き出せていない可能性がある。
- より単純なインコンテキストプロンプティングによるタスク処理で,エージェントオーケストレーションと同等以上の性能が期待される。
- 手続き的タスクにおいて,システムプロンプトに全ての情報を記述するインコンテキストプロンプティングは,エージェントオーケストレーションよりも高い評価を得た。
- 旅行予約,Zoom技術サポート,保険請求処理の各タスクにおいて,インコンテキストプロンプティングはLangGraphオーケストレーターよりも高い品質スコアを示した。
- エージェントオーケストレーションによるシステムは,インコンテキストプロンプティングと比較して,タスク失敗率が高かった。
グラフワールドモデル:概念,分類,および今後の方向性 [cs.AI]目的:グラフワールドモデルの体系的な整理と分類
- AIの発展において,環境の表現学習は効率的な予測と計画に不可欠である。
- 従来のテンソルベースのワールドモデルは,ノイズや誤差の蓄積,推論能力の弱さといった課題がある。
- グラフ構造を用いることで,環境を構造的にモデル化し,これらの課題を克服することを目指す。
- 本研究では,グラフワールドモデル(GWM)の概念を明確化し,統一的な研究パラダイムとして体系的に整理した。
- 関係的帰納的バイアス(RIB)に基づき,GWMを空間RIB,物理RIB,論理RIBの3つのカテゴリに分類した。
- 各カテゴリにおける主要な設計原則と代表的なモデルを概説し,比較分析を行った。今後の課題と方向性についても議論した。
人間の生理機能を生成的にモデル化する臨床介入シミュレーション [cs.AI]目的:人間の生理学的軌跡の生成的モデリング
- 医学において,時間経過に伴う健康状態の変化と介入への個人差を理解することは重要である。
- 個々の患者における健康状態の変化を予測し,最適な介入策を導き出すことは困難である。
- 介入効果を事前に予測し,個別化医療の実現に貢献することを目指している。
- HealthFormerは,既存の臨床リスクスコアを上回る予測性能を示し,30項目中27項目で死亡率や疾患発生予測を改善した。
- 個別の栄養介入試験において,モデルによる予測は実際のバイオマーカー変化を高い精度で再現した(Pearson r = 0.78)。
- 公開された臨床試験41件の介入結果について,予測方向は全て一致し,平均値は95%信頼区間内に30件含まれていた。
非構造化リコールからスキーマに基づいたメモリへ:反復的,スキーマ認識抽出による信頼性の高いAIメモリ [cs.HC, cs.AI, cs.CL]目的:信頼性の高いAIメモリの実現
- AIエージェントにおける長期的な記憶は,その性能を大きく左右するため重要である。
- 従来のAIメモリは検索に依存しており,正確な事実管理や状態更新が困難である。
- スキーマに基づいてメモリを構築し,書き込み段階での検証を強化することで,正確性を向上させる。
- 提案手法は,構造化抽出ベンチマークにおいて,オブジェクトレベルで90.42%の精度,出力レベルで62.67%の精度を達成した。
- エンドツーエンドのメモリベンチマークでは,F1スコア97.10%を達成し,既存のベースラインを上回った。
- アプリケーションレベルのタスクでは,95.2%の精度を達成し,専門的なメモリシステムやコード生成されたハーネスよりも優れた性能を示した。
物理的基盤モデル:大規模ニューラルネットワークの固定ハードウェア実装 [cs.LG, cs.ET, cs.NE]目的:大規模ニューラルネットワークの固定ハードウェア実装
- AI技術の発展は,計算資源の消費という課題を抱えている。省エネルギーなAI実装が急務である。
- 既存のAIハードウェアは,汎用性が高くとも,エネルギー効率やパラメータ密度に限界がある。
- 物理的基盤モデルにより,エネルギー効率,速度,パラメータ密度を飛躍的に向上させることを目指す。
- 基盤モデルの登場により,特定のタスクに特化したハードウェア実装が現実的になった。
- 物理的基盤モデルは,ハードウェアの物理的なダイナミクスを利用し,従来の電子回路に比べて大幅な省電力化が期待される。
- ナノ構造化ガラスなどの光学的な例を用いて,物理的基盤モデルのスケーリング可能性を示唆している。
幾何学的に校正された共形棄権:言語モデルのためのアブステーション [cs.CL, cs.LG]目的:言語モデルにおける知識不足時の誤った応答生成の抑制
- 言語モデルの信頼性は重要であり,誤情報の拡散を防ぐことが求められる。
- 言語モデルは知識不足の場合でも応答を生成し,虚偽の情報を提供することがある。
- モデルの知識不足を検出し,適切な棄権判断を行うことで,誤情報を削減する。
- 提案手法「共形棄権」は,回答の信頼性に基づいて棄権を決定する。
- モデル内部の表現幾何学を用いて,知識の関与度を評価し,棄権の精度を向上させる。
- 実験により,条件付き正答率が75%に達することが示された。
意味を超えて:小規模言語モデルによる機械翻訳における繊細な感情の保持度測定 [cs.CL, cs.AI]目的:小規模言語モデルを用いた機械翻訳における繊細な感情保持
- 機械翻訳の分野では,コミュニケーションの重要な要素である感情が十分に考慮されていない。
- 機械翻訳において,意味の正確性は重視される一方,感情のニュアンスは軽視されがちである。
- 本研究は,小規模言語モデルにおける感情保持能力の向上を目指す。
- EuroLLM,Aya Expanse,Gemmaという3つの最新の小規模言語モデルを評価した結果,感情保持能力に差が見られた。
- 感情を考慮したプロンプトを用いることで,感情保持能力が向上することが確認された。
- ModernBERTは,機械翻訳の評価における感情分類において,BERTの有効な代替となりうる可能性が示唆された。
AIは優れた査読者となりうるか? 査読プロセス,評価,そして未来に関する調査 [cs.CL, cs.AI]目的:査読プロセスの自動化・支援技術
- 研究の質を保証する査読は,学術界において不可欠なプロセスである。
- 査読は時間と労力を要し,偏りや遅延が生じやすいという課題がある。
- LLMを活用し,査読プロセス全体の効率化と質の向上を目指す。
- 本調査は,査読生成,反論作成,メタレビュー,修正といった各段階におけるLLM活用技術を体系的にまとめた。
- データセット,モデリング手法の比較,および倫理的懸念と今後の展望についても議論した。
- LLMシステム構築・評価・統合のための実践的な指針を提供することが目的である。
LAPITHSによるAI性能解釈のための理論的根拠構築 [cs.AI]目的:AI性能解釈のための枠組み
- AI研究は,人間の認知能力を模倣するシステム開発において重要である。
- AIの高性能が,人間の認知プロセスを反映しているとの安易な解釈が存在する。
- AI性能の解釈に理論的根拠を与え,人間認知との混同を避ける。
- 本研究で提案するLAPITHSフレームワークは,AIモデルの解釈に理論的根拠を提供する。
- CENTAUR等のモデルが示す高性能は,必ずしも認知的な計算を反映するものではないことを示した。
- 認知的な妥当性を満たさないシステムでも同様の結果が得られることを実証した。
訓練不要のトンネル欠陥検査と視覚的再調整およびエンティティ再構成による工学的解釈 [cs.CV, cs.AI]目的:トンネル欠陥の局所化,測定,深刻度評価,および工学的文書化を支援する出力
- トンネルの安全管理は社会インフラの維持に不可欠であり,迅速かつ正確な欠陥検査が重要である。
- 既存の訓練不要な手法は粗い提案に留まり,トンネルのような複雑な環境での利用が困難である。
- トンネル固有の課題に対応し,より信頼性の高い欠陥情報を提供することで工学的評価を支援する。
- TunnelMINDは,視覚的一貫性に基づき,粗い提案をより信頼性の高いものへと再調整する。
- 欠陥マスクを,カテゴリー,位置,形状,深刻度,コンテキストを含む構造化されたエンティティに再構成する。
- 可視光,GPR,道路欠陥タスクにおいて,それぞれF1スコア0.68,0.78,0.72を達成した。
MM-StanceDet:検索拡張による多次元多エージェント構え検出 [cs.ET, cs.AI, cs.CL]目的:多次元構え検出における性能向上
- 世論分析において,テキストと画像を含む多次元データの理解が重要である。
- 既存手法は,文脈の把握,異種間解釈の曖昧性,および推論の脆弱性に課題がある。
- 文脈に基づいた多次元情報の解釈と,頑健な推論を実現する。
- MM-StanceDetは,検索拡張による文脈の把握,多次元分析エージェントによる詳細な解釈を可能にする。
- 議論と自己反省の段階を導入することで,複雑な多次元構え検出における推論の質を向上させる。
- 5つのデータセットでの実験により,MM-StanceDetが最先端のベースラインを大幅に上回る性能を示すことが示された。
ベースバンドを超えて:全スペクトル生物音響分類のための適応型マルチバンドエンコーディング [cs.RO, cs.SY, eess.SP, eess.SY, cs.LG, eess.AS]目的:動物の鳴き声の全スペクトルを利用した生物音響分類手法
- 動物は人間とは異なる周波数範囲で聴覚と発声を行うため,その全スペクトルを捉えることが重要である。
- 既存の生物音響システムは16kHzに制限され,多くの生物音響記録に含まれる高周波情報を活用できていない。
- 動物の鳴き声を複数のバンドに分解し,それらを融合することで,分類性能の向上を目指す。
- マルチバンドエンコーディングは,特定のエンコーダにおいてバンド埋め込みの非相関性を生み出し,クラス分離を改善する。
- 3つの生物音響データセットを用いた実験により,融合表現はベースバンドや時間拡張ベースラインよりも一貫して優れた性能を示した。
- 本研究は,動物の鳴き声の全スペクトルエンコーディングにおけるマルチバンド手法の可能性を示す。
ベイズ推論,ゲーム理論,熱力学を統一する集団変分原理 [cs.AI]目的:集団知能の根底にある原理の解明
- 生物,物理,人工システムに共通する集団知能の理解は,複雑系科学において重要である。
- 既存の理論では,中心的な調整なしに現れる集団行動を統一的に説明できていない。
- 多主体系における自由エネルギー最小化とゲーム理論的均衡の関係を明らかにすること。
- 多主体系が局所的な自由エネルギー最小化を行うことは,確率的ゲームの実装と等価であることが示された。
- 集団自由エネルギーの停留点は,誘導されたゲームの近似ナッシュ均衡に対応することが証明された。
- 感覚的精度とエージェントの影響力との間には,反比例する関係が存在し,神経系,生物,人工システムで検証された。
参加型気象センシングにおける報酬配分に対する帰属性プロキシの較正 [cs.LG, cs.CY, cs.GT, physics.ao-ph]目的:参加型気象センシングにおける報酬配分戦略の構築
- 気象センシングネットワークの維持にはインセンティブが不可欠であり,データ提供者への適切な報酬が重要である。
- 既存手法ではデータの価値評価が難しく,各データ貢献度に応じた報酬配分が困難である。
- 微分可能なAI気象モデルを用いて,データ価値を評価し,報酬配分における課題を解決することを目指す。
- 勾配に基づく帰属性は,センサー配置の最適化において高い有用性を示す。
- 帰属性は,単調増加する信頼性の高い報酬支払いを可能にする。
- 悪意のある入力による帰属性の過大評価が確認され,外部からの基準データによる検知が不可欠である。
アトラクタFCM [cs.NE, cs.AI, cs.LG, cs.LO]目的:アトラクタFCMの作成,検証,および分析
- 複雑なシステムのモデリングにおいて,因果関係を明確化することは重要である。
- 従来のFCMは学習アルゴリズムや収束性において課題を抱えている場合がある。
- 物理制約に基づいた効率的な学習アルゴリズムによる高精度なFCMの実現。
- 本研究で提案するアトラクタFCMは,残差メモリ,時間反伝播,固定点アンカーを特徴とする。
- ニュートン法を用いて固定点アトラクタを見つけ,勾配降下法で地形を適応的に変化させる新しい学習アルゴリズムを導入した。
- 物理的制約を反映した因果マスクにより,エラーを効率的に削減し,局所最小値への早期収束を防ぐ。
視覚的プライミングが視覚言語モデルの協調行動に及ぼす影響 [cs.HC, cs.AI, cs.CV]目的:視覚言語モデルにおける協調行動
- 視覚言語モデルは意思決定システムに組み込まれることが増えており,その行動原理の理解が重要である。
- 視覚入力がモデルの行動に与える影響は十分に解明されていない。
- 視覚的プライミングによる行動の変化と,その緩和策の有効性を検証する。
- 視覚言語モデルの行動は,画像の内容と色による手がかりの両方に影響を受けることが示された。
- モデルによって影響を受けやすさや緩和策の有効性に差が見られた。
- 視覚的に豊かな環境や安全性が重要な環境におけるモデルの展開には,堅牢な評価フレームワークが不可欠である。
強化学習によるGUIエージェント:デジタル住人へ向けて [cs.AI, cs.CV]目的:GUIエージェントと強化学習の交差領域に関する包括的な概要
- GUIエージェントは,視覚的にグラフィカルインターフェースを理解し操作する知能システムとして期待されている
- 教師あり学習だけでは,長期的な報酬の割り当て,分布の変化,不可逆環境での安全な探索が困難である
- 強化学習を用いて,GUI自動化の堅牢性を高め,エージェント固有のインフラを構築することを目指す
- オフライン強化学習,オンライン強化学習,ハイブリッド戦略を含む既存手法の分類体系を提案した
- 信頼性とスケーラビリティの緊張が,複合的な多層報酬アーキテクチャの採用を促していることが示唆された
- GUI I/Oの遅延が,ワールドモデルに基づく学習への移行を加速させ,有意な性能向上をもたらす可能性がある
LLMをASPプログラマーとして:自己修正がタスク非依存の非単調推論を可能にする [cs.AI]目的:非単調推論の実現
- 高度な推論能力は,AIの発展において不可欠であり,人間のような柔軟な思考を可能にする。
- 既存のAIは計算コストが高く,論理的な矛盾を抱え,複雑な問題で性能が低下する課題がある。
- 自然言語を非単調論理に変換し,タスク固有の知識なしで推論性能を向上させることを目指す。
- LLMとASPを組み合わせた「LLM+ASP」フレームワークにより,デフォルトルールと例外を自然に表現できる。
- 自動的な自己修正ループが性能向上に大きく貢献し,手作業によるドメイン知識の作成が不要となる。
- 簡潔な参照ガイドが冗長なドキュメントよりも制約への準拠を促進し,「コンテキストの腐敗」現象が明らかになった。
言語モデルによる記号的推論とモジュール最適化を通じた機械リンク機構の設計改良 [cs.AI, cs.CE, cs.MA]目的:機械リンク機構の設計改善
- 機械設計は,産業界における重要な課題であり,効率的な設計手法が求められている。
- 従来の設計手法は,設計空間の探索や最適化に限界があり,高性能な機構の創出が困難である。
- 言語モデルを活用し,設計の記号的表現とモジュール最適化により,設計プロセスを効率化し,高性能な機構を実現する。
- 言語モデルは,離散的なトポロジーの探索と連続パラメータの最適化を組み合わせることで,機械リンク機構の設計を系統的に改善できることが示された。
- 実験の結果,提案手法は,従来の単一モデルと比較して,幾何学的誤差を最大68%,構造的妥当性を最大134%削減することに成功した。
- 言語モデルは,過拘束や過不足拘束といった故障モードを正確に診断し,適切な修正案を提案できることが示され,解釈可能な機械的推論戦略を獲得した。
前提に基づく議論枠組みの分割 [cs.AI]目的:前提に基づく議論の分割手法
- 議論の自動化は,意思決定支援や知識発見において不可欠である。
- 前提に基づく議論の計算複雑性が高く,大規模な問題への適用が困難である。
- 前提に基づく議論の計算効率を向上させるため,知識ベースの分割を試みる。
- 本研究では,グラフ化された議論枠組みではなく,知識ベース自体を分割する手法を提案する。
- これにより,前提に基づく議論の分割における指数関数的な増大を抑制できる可能性がある。
- さらに,分割手法のパラメータ化されたバージョンを前提に基づく議論枠組みに一般化する。
臨床時系列における解釈可能な予測のための微分可能な潜在構造発見 [cs.LG]目的:臨床時系列データの解釈可能な予測のための潜在構造の発見
- 臨床データは患者管理に不可欠であり,正確な予測は治療方針決定を支援する。
- 不規則な臨床データへの既存手法は,解釈性の欠如や予測精度の低さといった課題がある。
- 変数間の依存関係を構造化し,解釈性と予測精度を両立させること。
- シミュレーションにおいて,真のグラフ構造と経路割り当てを高い精度で復元できた。
- MIMIC-IVデータを用いた実験で,既存手法と比較して短期予測精度が向上した(RMSE 0.68 vs 0.88)。
- PhysioNet Challengeにおいても,最先端のグラフニューラルモデルと同等の精度を示し,不確実性の較正も良好であった。
幻影から接地へ:信頼性の高いマルチモーダル回路-Verilogコード生成に向けて [cs.SE, cs.AI]目的:回路図からRTLコードへの変換を通じた,マルチモーダル大規模言語モデルの信頼性評価
- ハードウェア設計における自動化のニーズが高まっており,AIによるコード生成が注目されている。
- 既存のモデルは,視覚情報を無視して識別子のみに依存する「幻影」現象を起こしやすい。
- 視覚情報の活用を促し,よりロバストなコード生成を実現することが課題である。
- モデルが回路図の視覚情報を利用せず,識別子からテンプレートを呼び出している「幻影」現象が確認された。
- 識別子を匿名化したAnonyモードでは,モデルの精度が大幅に低下し,「幻影」現象が顕著であることが示された。
- 識別子匿名化,拒否拡張,D-ORPOを用いたVeriGroundは,Anonyモードにおいて既存モデルを凌駕する性能を示した。
大規模言語モデル駆動によるトレーディングカード生成と手続き的関連性:ポケモンケーススタディ [cs.AI, cs.HC]目的:トレーディングカードゲームのカード生成における大規模言語モデルと画像拡散モデルの利用
- トレーディングカードゲームは巨大産業であり,プレイヤーの継続的なエンゲージメントが不可欠である。
- メタゲームの安定化により,戦略が予測可能になり,利用可能なカードオプションが減少する。
- 手続き的関連性を導入し,プレイヤーとカードのユニークな繋がりを育むこと。
- ユーザー調査の結果,参加者の多くがプロンプト調整を通じて自身のアイデアを具現化できたことが示された。
- カードの美観と表現,メカニクスの代表性に関して高い満足度が得られた。
- 手続き的関連性によるメタゲーム進化の代替案と,今後のコンテンツ生成システムの基礎となる。
TransVLM:あらゆるショットトランジション検出のためのビジョン-言語フレームワークとベンチマーク [cs.CV, cs.AI]目的:ショットトランジション検出のタスク
- 動画解析において,正確なショット境界検出は,コンテンツ理解や検索の基礎となる。
- 従来のショット境界検出は,複雑なトランジションに対して脆弱であり,動画ショットの品質を損なう。
- トランジションを連続的なセグメントとして捉え,よりロバストな検出を実現すること。
- TransVLMは,色情報と光学的フローを融合することで,時間的特徴に対する認識能力を向上させた。
- 大規模なデータ合成エンジンを用いて,クラス不均衡の問題を克服し,ロバストな学習を可能にした。
- 提案手法は,既存の手法や最先端のVLMを凌駕する優れた性能を実験的に示した。
D3-Gym:データ駆動型発見のための現実世界検証可能環境の構築 [cs.AI, cs.LG]目的:データ駆動型発見のための検証可能な環境のデータセット
- 科学分野におけるデータ駆動型発見は,新たな知見の獲得に不可欠である。
- 現実世界の科学タスクを表現する検証可能な環境の欠如が,研究の進展を阻害している。
- 現実世界の科学タスクを再現可能な環境を提供し,データ駆動型発見の能力向上を目指す。
- D3-Gymは,239の科学リポジトリから抽出した565のタスクを含むデータセットである。
- D3-Gymの評価スクリプトは,人間のゴールドスタンダードとの合致率が87.5%と高い。
- D3-Gymで学習させたQwen3モデルは,ScienceAgentBenchにおいて大幅な性能向上を示した。
ITS-Mina:ハリス鷹最適化に基づく反復改良と外部注意を用いた全MLPフレームワーク - 多変量時系列予測 [cs.DC, cs.LG, cs.AI]目的:多変量時系列予測のための新たな全MLPフレームワーク
- 金融,エネルギー,交通など多くの分野で,時系列予測は重要な役割を担う。
- Transformerは高性能だが,計算コストが高いという課題がある。
- より効率的かつ高性能な多変量時系列予測モデルを開発する。
- ITS-Minaは,反復改良メカニズム,外部注意モジュール,ハリス鷹最適化を統合した。
- 6つのベンチマークデータセットにおいて,既存モデルと比較して最先端または非常に高い性能を達成した。
- 計算コストを抑えつつ,予測精度を向上させることを実証した。
分類のための安定したファインチューニングに対する動的スケーリング勾配降下法 [cs.LG]目的:分類タスクにおける安定したファインチューニングの実現
- 事前学習モデルの活用は,新たなデータセットへの適応において重要な手法である。
- 学習例間の勾配の打ち消しが,不安定な学習や性能低下を引き起こすことがある。
- 正しく分類された例の勾配を動的にスケーリングすることで,学習の安定化を図る。
- 提案手法は,勾配のスケーリングを通じて学習の安定性を向上させる理論的・実験的利点を提供する。
- 様々なベンチマークデータセットにおいて,性能変動を低減し,既存手法を上回る精度を達成した。
- 特に,疎で不均衡なデータセットに対する有効性が示された。
科学的可視化におけるLLMエージェントの対話パラダイムの探求 [cs.RO, cs.AI, cs.GR, cs.HC]目的:科学的可視化タスクにおけるLLMエージェントの性能評価
- 科学研究におけるデータ可視化は,知見発見と理解に不可欠である。
- 自然言語による指示から可視化ワークフローを生成する際の自動化が課題である。
- 多様なLLMエージェントの性能比較と,最適な対話パラダイムの特定を目指す。
- 汎用コーディングエージェントは高いタスク成功率を示すが,計算コストが高い。
- ドメイン特化型エージェントは効率的で安定しているが,柔軟性に欠ける。
- 長期的な計画立案能力が,コンピューター利用エージェントの課題である。
