arXiv雑要約
AI - 2026/03/20 公開
エージェント型ビジネスプロセス管理:研究宣言 [cs.AI]目的:エージェント型ビジネスプロセス管理の概念的基盤
- ビジネス環境の変化に対応するため,自律的なプロセス実行体の重要性が高まっている。
- 従来のBPMは自律性に乏しく,変化への適応が課題となっていた。
- 組織目標と整合性のとれた自律的なエージェントの実現を目指す。
- 本研究は,エージェント型ビジネスプロセス管理(APM)の主要な抽象化とアーキテクチャ要素を提示する。
- APMエージェントが備えるべき,フレーム化された自律性,説明可能性,対話的な実行可能性,自己修正といった主要な能力を定義した。
- BPM,AI,マルチエージェントシステムの進歩により,APMシステム開発のロードマップを示す。
金融ローンのデフォルト予測のための最適化された貪欲加重アンサンブルフレームワーク [cs.LG]目的:金融ローンのデフォルト予測
- 信用リスク管理において,正確な貸倒予測は不可欠であり,金融機関の健全性を維持する上で重要である。
- 従来のモデルは,非線形性,クラス不均衡,借り手行動の変化に対応できず,予測性能が低下する課題がある。
- 経験的な予測性能に基づきモデルの重みを動的に調整することで,予測精度と解釈性を向上させることを目指す。
- 提案されたフレームワークは,Lending Clubデータセットを用いた実験で,個々の分類器と比較して予測性能が向上した。
- 特に,BlendNetアンサンブルはAUC 0.80,マクロ平均F1スコア 0.73,デフォルトリコール 0.81という高い結果を示した。
- 特徴量分析の結果,ローディング利用率,年収,負債比率が最も影響力のある予測因子であることが示された。
エントロピー軌道の形状がLLMの推論信頼性を予測:思考の連鎖における不確実性の動態に関する診断研究 [cs.CL, cs.LG]目的:LLMにおける推論の信頼性予測
- 大規模言語モデル(LLM)の性能向上は目覚ましいが,その信頼性評価は重要な課題である。
- LLMの推論過程における失敗検出は困難であり,低コストな手法が求められている。
- 推論ステップにおける不確実性の動態に着目し,その形状が信頼性を予測するか検証する。
- 推論ステップごとにエントロピーが減少する「エントロピー軌道単調性」が,正答率と有意な相関を示した。
- Qwen2.5-7B-Instructにおいて,単調な思考の連鎖は非単調なものと比較して21.9%高い正答率を達成した。
- 不確実性軌道の構造的特徴は,集約的な指標よりも信頼性評価において有用であることが示唆された。
文脈ブートストラップによる強化学習 [cs.CY, cs.CL, cs.CE, cs.SY, eess.SY, eess.SY, cs.SY, cs.HC, cs.LG]目的:検証可能な報酬からの強化学習における探索効率の向上
- 強化学習は,複雑なタスクの自動化において重要な役割を果たす。
- 報酬からの強化学習は,効果的な探索が困難で学習信号が少ないという課題がある。
- 文脈ブートストラップにより,初期探索を促進し,推論能力の獲得を支援する。
- CBRLは,成功率を向上させ,探索効率を高めることが示された。
- CBRLは,アルゴリズムに依存しない汎用性を持つことが確認された。
- Qというドメイン特化型プログラミング言語においても,CBRLの有効性が実証された。
分散型発電所監視における説明可能なAIの性能と公平性の両立 [cs.LG]目的:分散型発電所監視における異常検知のための性能,解釈可能性,公平性のバランス
- 発電所の安定稼働と保守コスト削減に不可欠であり,特に通信事業者のディーゼル発電への依存度が高い地域では重要である。
- 異常データの偏り,解釈の困難さ,地域間での公平性の問題が課題となっている。
- 異常検知における性能,解釈可能性,公平性のバランスを実現し,より公平で説明可能なAIシステムの構築を目指す。
- アンサンブルモデルはベースラインモデルと比較して常に優れた性能を示し,LightGBMはF1スコア0.99,かつ地域間のバイアスを最小限(DIR≈0.95)に抑えた。
- SHAP分析により,燃料消費率と1日あたりの稼働時間が主要な予測因子として特定され,運用者への具体的な示唆が得られた。
- 異常検知において性能,解釈可能性,公平性のバランスが取れることを示し,産業用電力管理におけるより公平で説明可能なAIシステムへの道を開いた。
BVSIMC:ベイジアン変数選択誘導型行列補完による医薬品探索の改善と解釈性向上 [cs.LG, stat.ME]目的:医薬品探索における側情報からの変数選択
- 医薬品探索において,側情報を取り入れることで予測性能が向上することが示されている。
- 側情報の関連性は様々であり,ノイズが多く高次元であるという課題がある。
- 側情報から重要な特徴を選択し,予測精度と解釈性の両立を目指す。
- 提案手法BVSIMCは,疎な潜在埋め込みを学習することで,予測精度と解釈性の向上を実現した。
- シミュレーション実験と2つの医薬品探索応用(結核における薬剤耐性予測,計算による薬剤再配置)において,BVSIMCは既存手法を上回った。
- 実際のデータ分析において,臨床的に意味のある側情報を明らかにすることができた。
将来状態行動訪問度に基づく最大エントロピー探索 [cs.HC, cs.CY, cs.LG, stat.ML]目的:将来のステップで訪問される状態行動特徴量の分布のエントロピーに比例する内在的報酬
- 強化学習において,効率的な探索は学習の成功に不可欠であり,未訪問の領域へのアクセスが重要である。
- 既存手法では,探索の多様性を定量化し,効率的に内在的報酬として利用する手段が課題となっていた。
- 状態行動特徴量の将来訪問度に着目し,多様な探索を促す新たな内在的報酬の枠組みを提案する。
- 提案手法は,状態行動特徴量の訪問分布のエントロピーの下限を内在的報酬として利用することで,探索の改善を目指す。
- 内在的報酬に用いられる分布は固定点として安定的に推定可能であり,オフポリシー学習に適している。
- 実験結果から,提案手法は個々の軌跡における特徴量訪問度を向上させ,探索のみの学習エージェントの収束速度も改善されることが示された。
構造因果モデルにおける意図的介入を通じた目的論的推論 [cs.AI]目的:構造因果モデルを用いた目的論的推論の実現
- 因果関係の解明は科学的探求の根幹であり,様々な分野で不可欠である。
- 目的を持つ主体による介入を因果モデルで扱う手法は未成熟であり,限界があった。
- 主体による介入とその意図を構造因果モデル上で明確に捉えることを目指す。
- 本研究で提案する「意図的介入」は,時間軸に依存せず,構造最終モデル(SFM)を構築する。
- SFMは観測値を意図的介入の結果とみなし,介入しなかった場合の反事実条件との関係性を記述する。
- SFMを用いることで,主体を経験的に検出し,その意図を発見することが可能となる。
両様子のマルチ対戦型バンディット:コンコルセ及びボルダ目標下における確率的・敵対的選好に対する統一アルゴリズム [cs.LG]目的:確率的及び敵対的な選好下におけるマルチ対戦型バンディット問題に対する最適なアルゴリズムの開発
- ランキングや推薦システム等の分野で,選好のモデル化が重要視されている。
- 既存手法では,確率的環境と敵対的環境のどちらか一方に特化しており,両方を同時に扱えるアルゴリズムが存在しない。
- 未知の環境下でも最適な性能を発揮する,汎用的なマルチ対戦型バンディットアルゴリズムの提案。
- コンコルセ設定では,既存の対戦型バンディットアルゴリズムをマルチ対戦型バンディットアルゴリズムに変換するMetaDuelingを提案し,最適なアルゴリズムを実現した。
- ボルダ設定では,確率的・敵対的環境両方に対応するAlgBordaを提案し,高い性能を示すことが示された。
- コンコルセ設定において,提案手法の上界と下界が一致することを確認し,理論的な正当性を保証した。
人間とAIのインタラクションにおける5W3H構造化プロンプトの効果評価 [cs.AI]目的:人間とAIのインタラクションにおける意図適合性の向上
- AI技術の発展に伴い,人間とAIの円滑なコミュニケーションが重要になっている。
- 自然言語による指示は,意図の伝達ロスが生じやすく,AIの期待通りの動作を妨げる。
- 5W3Hに基づく構造化プロンプトを用いて,AIへの意図伝達の精度と効率を改善する。
- 構造化されたPPS(Prompt Protocol Specification)は,単純なプロンプトやJSON形式と比較して,意図適合性において高い性能を示した。
- タスクの曖昧性が高いビジネス分析においては,PPSの効果が大きく,一方で曖昧性の低い旅行計画では効果が限定的であった。
- 予備的な調査から,PPSの使用により,フォローアップのプロンプト回数が66.1%削減され,平均3.33ラウンドから1.13ラウンドに減少することが示唆された。
ヒューマノイド歩行のための知覚学習:参照歩行事前知識を用いたアプローチ [cs.RO, cs.AI]目的:複雑な地形における自然な歩行を実現するヒューマノイドの知覚歩行ポリシーの学習
- ヒューマノイドロボットの実用化には,多様な環境下での自律歩行能力が不可欠である。
- 複雑な地形に対するロバストな歩行を実現するには,多段階の訓練や大規模な実環境での較正が必要となる。
- 本研究では,参照歩行事前知識を用いて,効率的かつ再現性のある地形歩行フレームワークを開発する。
- 提案手法 PRIOR は,モーションキャプチャ由来の安定した参照軌道と,自己教師あり学習による地形推定により,ロバストな地形歩行を実現する。
- 深度画像解像度のトレードオフ分析により,リアルタイム制約下で地形の忠実度を最大化する構成を特定し,知覚的オーバーヘッドを削減した。
- 階段,箱,隙間などの多様な地形における実験により,提案手法の有効性が確認され,100%の歩行成功率を達成した。
チューリングホテルで部屋を予約せよ! 複数のAIと人間による対称的・分散型チューリングテスト [cs.LG, cs.HC]目的:大規模言語モデルと人間の参加者による混合コミュニティ内での対話に基づく,新しいチューリングテストの拡張である「TuringHotel」の実施経験
- AI技術の進化は,人間の知能との区別が曖昧になりつつあり,その評価方法の確立が重要である。
- 従来のチューリングテストは1対1の対話に限定され,より現実的な状況でのAIの評価が困難であった。
- 本研究は,分散型環境におけるAIと人間の相互作用を通じて,AIの知的能力をより総合的に評価することを試みる。
- 実験の結果,現在のモデルは時に人間と間違われることが示された。
- 人間の回答には誤りが認められ,高度な言語能力を持つAIの存在にも関わらず,人間特有の痕跡が識別可能であった。
- 本研究は分散型設定での初の実験であり,同様の取り組みはAIの進化をモニタリングする上で国家的な関心事となりうる。
予測警察におけるアルゴリズム的バイアスの解明:多都市時系列分析を用いたGANベースのシミュレーションフレームワーク [cs.AI]目的:予測警察システムにおける人種間の不公平の拡大の測定
- 犯罪予測は,警察資源の効率的な配分に貢献するが,アルゴリズムの公平性が重要課題となっている。
- 既存の予測警察システムが,人種間の不公平を暗黙のうちに強化する可能性が指摘されている。
- 本研究は,アルゴリズムを通してバイアスがどのように伝播するかを定量的に評価することを目的とする。
- シミュレーションの結果,ボルチモアにおけるDIR(Disparate Impact Ratio)は最大で15714と極端なバイアスを示すことが判明した。
- シカゴでは,黒人居住者の検出不足が確認されたが,ボルチモアと比較してバイアスの程度は低い。
- CTGANを用いたバイアス軽減策は,検出率の再分配には寄与するものの,構造的な不公平を完全に解消するには,政策的な介入が必要である。
拡散モデルのファインチューニングは,あなたが思うよりも容易である:CRAFT [cs.RO, cs.CV, cs.LG]目的:拡散モデルのアライメント手法
- 高品質な画像生成において,拡散モデルは画期的な進歩を遂げているため,アライメント技術の重要性が高い。
- 既存手法は,高品質な画像データや大規模な優先度データに依存しており,その取得や一貫性の維持が課題である。
- 限られたデータと高い計算効率で,拡散モデルのアライメントを実現すること。
- 提案手法CRAFTは,わずか100サンプルで既存の最先端手法を凌駕する性能を示す。
- CRAFTは,従来の優先度最適化手法と比較して,11〜220倍高速な収束を実現する。
- CRAFTは,選択されたデータを用いたSFTと強化学習との間の原理的なつながりを理論的に証明する。
生成モデリングのためのシュレーディンガーブリッジの基礎 [cs.LG, cs.AI]目的:生成モデリングにおけるシュレーディンガーブリッジの数学的基礎
- 近年の生成モデリングは,複雑な分布を生成する上で重要な役割を果たしている。
- 既存手法は,確率空間内の経路を通じて単純な分布を複雑な分布へ変換する原理が不明瞭である。
- シュレーディンガーブリッジを用いて,生成モデリングの理論的基盤を確立し,計算手法を開発すること。
- シュレーディンガーブリッジは,拡散モデル,スコアベースモデル,フローマッチングを含む最新の生成モデリング手法を統一的に解釈する基盤となる。
- 最適な確率的ブリッジを決定する問題としてシュレーディンガーブリッジを定式化し,最小エントロピー偏位に着目した。
- 最適な輸送,確率的制御,経路空間最適化の数学的ツールを活用し,原理からシュレーディンガーブリッジを構築する包括的な手法を提示した。
テトリスブロックパズルの難易度評価 [cs.AI, cs.LG]目的:テトリスブロックパズルのルール変更に伴う難易度の違い
- パズルゲームは広く楽しまれており,ゲームデザインへの理解が重要である。
- テトリスのようなパズルゲームにおいて,ルール変更が難易度に与える影響は明確ではない。
- ルール変更がゲームの難易度に与える影響を定量的に評価する手法を確立すること。
- SGAZを用いてテトリスブロックパズルを評価した結果,保持ブロック数(h)やプレビュー数(p)の増加は難易度を低下させる。
- 一方,テトリスブロックの種類を増やすと難易度は上昇し,特にT-ペンチノミノの追加は難易度を大きく上昇させた。
- SGAZは少ないシミュレーション予算でも高いパフォーマンスを示し,ルールセット間の効率的かつ再現性のある比較を可能にした。
競争的資源配分における後悔限界:内生的なコストを伴う場合 [cs.AI, cs.DS, cs.GT, cs.LG]目的:N個の相互作用するモジュールに対するTラウンドにわたるオンライン資源配分
- モジュール化されたシステムにおける資源配分は,効率的な運用に不可欠である。
- 従来のオンライン最適化では,コストが固定されている前提があり,現実の相互作用を考慮していない。
- 内生的なコストを考慮した資源配分アルゴリズムの性能限界を明らかにすること。
- 均一配分はΩ(T)の後悔を招く一方,ゲート付き配分はO(T^{2/3}),競争的配分はO(sqrt(T log N))を達成する。
- 競争的配分は,相互作用を通じて明らかになる内生的なコスト情報を活用することで,性能向上を実現する。
- 相互作用のトポロジーが計算コストと後悔のトレードオフを決定し,五行(Wuxing)トポロジーが最小化する。
AgentDSテクニカルレポート:ドメイン特化型データサイエンスにおける人間とAIの協調の未来に関するベンチマーク [cs.LG, cs.AI, stat.ME]目的:ドメイン特化型データサイエンスにおけるAIエージェントと人間-AI協調のパフォーマンス評価
- データサイエンスは,複雑なデータを実用的な洞察に変換し,多様な分野の変革を促進する上で不可欠である。
- LLMやAIエージェントの発展によりデータサイエンスの自動化が進む一方で,ドメイン特化型タスクにおけるAIの能力は未解明である。
- 本研究は,ドメイン特化型データサイエンスにおけるAIの限界と,人間がAIに貢献できる領域を明らかにすることを目指す。
- 現在のAIエージェントは,ドメイン特化型の推論において苦戦していることが示された。
- AIのみのベースラインは,参加者のパフォーマンスの中央値付近かそれ以下であり,最も優れたソリューションは人間とAIの協調によって生まれることが明らかになった。
- これらの結果は,AIによる完全な自動化という考えに異議を唱え,データサイエンスにおける人間の専門知識の永続的な重要性を強調している。
仮説条件付きクエリ書き換えによる意思決定に有用な検索 [cs.CL, cs.AI, cs.LG]目的:意思決定に有用な検索手法
- 大規模言語モデルの性能向上が求められており,外部知識を活用するRAGが注目されている。
- 従来のRAGは,選択肢間の判断を伴うタスクにおいて,決定に直結する証拠の検索が不十分である。
- 決定に資する証拠に焦点を当てた検索により,RAGの意思決定能力を向上させることを目指す。
- 提案手法HCQRは,入力質問と選択肢から仮説を導き出し,証拠を支持,比較,検証するための3つのクエリを生成する。
- HCQRは,MedQAおよびMMLU-Medの実験において,単純なRAGと比較して平均精度がそれぞれ5.9ポイント,3.6ポイント向上した。
- HCQRは,トピック指向の検索から証拠指向の検索へRAGを転換し,より正確な意思決定を可能にする。
LLMエージェントにおけるセキュリティ意識:NDAIゾーンの事例 [cs.CR, cs.AI]目的:LLMエージェントが実行環境のセキュリティを認識する際の証拠の重み付け
- 知的財産の保護は,技術革新を促進する上で不可欠である。
- LLMエージェントは,自身の実行環境の安全性を判断する能力が不足している。
- NDAIゾーンのようなプライバシー保護プロトコルをLLMエージェントに実装するための課題を明らかにすること。
- アテステーション失敗は,全モデルで情報開示を抑制する。
- アテステーション成功の場合,モデルによって開示量の増加,不変,または減少といった多様な反応が見られた。
- 現在のLLMは危険信号は検知できるが,安全性を確実に検証することはできない。
大規模言語モデルにおける時間推論:トークン化か時間の表現か [cs.DC, cs.CL, cs.AI]目的:多言語時間推論ベンチマークの開発と大規模言語モデルの評価
- 言語モデルの性能向上には,時間に関する推論能力が不可欠である。
- 低リソース言語や特殊な暦形式において,時間表現のトークン化が課題となっている。
- 時間推論におけるトークン化の影響を定量化し,改善策を検討する。
- 新たに開発した多言語ベンチマークMultiTempBenchを用いて20のLLMを評価した。
- トークン化の質が低リソース言語や特殊な暦形式において精度に大きな影響を与えることが示された。
- 高リソース言語では時間的な線形性が,低リソース言語ではトークン化の断片化が,時間推論の予測因子として重要であることが明らかになった。
LLMエンドポイントの安定性と識別に関する行動特性 [cs.AI]目的:LLMエンドポイントの安定性と識別
- AIネイティブアプリケーションの品質を保証する上で,モデルの挙動の一貫性は不可欠である。
- 従来の可用性指標ではモデルの挙動変化を捉えられず,更新によってモデルの特性が変動する可能性がある。
- モデルの挙動変化を検出し,エンドポイントの安定性を評価する手法を開発すること。
- Stability Monitorは,固定されたプロンプトセットから出力をサンプリングし,出力分布の時間変化を比較することでエンドポイントの安定性を評価する。
- 分布の変化を検出するために,エネルギー距離統計量と順列検定を用いたp値を集計し,安定期間を定義する。
- 検証実験の結果,Stability Monitorはモデルの種類,バージョン,推論スタック,量子化,行動パラメータの変化を検出できることが示された。
軽量な暗号学的推論証明による検証可能なAIへ [cs.CR, cs.LG]目的:AI推論の検証プロトコル
- AIモデルの信頼性確保は重要。クラウド利用時の応答の正当性確認が課題。
- 既存の暗号学的証明は計算コストが高く,大規模モデルへの適用が困難。
- 統計的性質に基づいた軽量な検証手法で,効率的な推論検証を実現。
- 提案手法は,従来の暗号学的証明と比較して,証明時間を大幅に短縮。
- ResNet-18やLlama-2-7Bを用いた実験で,提案手法の有効性を確認。
- 敵対的戦略を用いても,検証を回避するトレースの生成は困難であった。
SEM:視覚言語モデルの事後的なバイアス軽減のための疎な埋め込み変調 [cs.CV, cs.AI, cs.LG]目的:視覚言語モデルにおけるバイアス軽減手法
- 視覚と言語を結びつけるモデルはマルチモーダルAIの中核であり,その性能は社会に大きな影響を与える。
- 大規模な学習データに存在する社会的な偏りや誤った相関関係が,モデルの公平性を損なっている。
- CLIP埋め込み空間でのバイアスとタスク関連情報の絡み合いを解消し,より効果的なバイアス軽減を目指す。
- 提案手法SEMは,疎な自動符号化器の潜在空間でバイアスに関わるニューロンを特定し,調整することで,公平性を向上させる。
- SEMは,4つのベンチマークデータセットと2つのCLIPバックボーンにおいて,検索およびゼロショット分類タスクで顕著な公平性の改善を示す。
- 疎な潜在表現が,視覚言語モデルの事後的なバイアス軽減のための有効な基盤となることが示された。
差分プライバシーとワイヤレス連合学習の融合:プライバシーと収束性に関する改善された解析 [cs.LG]目的:差分プライバシーを用いたワイヤレス連合学習におけるプライバシー損失と収束性の解析
- 個人情報保護の重要性が増す中,分散型機械学習の安全な実装が求められている。
- 従来の解析は,プライバシー損失の厳密な評価が難しく,収束性解析も制約が多い。
- 本研究は,非凸損失関数下でのプライバシー損失の収束性と収束性を保証する。
- 提案手法は,反復回数が増加してもプライバシー損失が発散せず,定数に収束することを示した。
- 勾配クリッピングを用いた収束性保証を確立し,プライバシーと精度間のトレードオフを明確化した。
- 数値実験の結果は,理論的知見を裏付けている。
人間と機械:人工知能と司法判断 [cs.AI]目的:司法判断における人工知能の役割に関する理解
- 司法判断の質向上と公平性確保は,法治国家の根幹をなす重要な課題である。
- 人工知能導入における透明性,信頼性,説明責任の欠如が懸念されている。
- 司法判断における人工知能と人間の相互作用の理解を深めることを目指す。
- 刑事司法リスク評価を対象に,AIツールの性能と公平性,人間の判断バイアス,AIと人間の相互作用の3側面を包括的に検討した。
- 既存研究では,AI判断支援ツールが前逮捕や量刑決定に与える影響は限定的であることが示唆されている。
- AIと人間の比較研究を通じて,アルゴリズムツールと人間の意思決定の双方に対する新たな知見が得られる可能性がある。
Em-Garde:プロアクティブなストリーミングビデオ理解のための提案照合フレームワーク [cs.CV, cs.AI]目的:プロアクティブなストリーミングビデオ理解のためのフレームワーク
- ビデオ理解技術は,ユーザーインタラクションの新たなパラダイムを可能にする重要な分野である。
- 既存のモデルは,フレーム単位での判断に依存しており,効率性と精度に課題がある。
- 効率性と精度を両立し,計算資源の制約下でのプロアクティブなビデオ理解を実現すること。
- 提案手法Em-Gardeは,意味理解とストリーミング知覚を分離することで,効率と精度を向上させている。
- Instruction-Guided Proposal Parserがクエリを視覚的提案に変換し,Lightweight Proposal Matching Moduleが効率的な照合を行う。
- StreamingBenchおよびOVO-Benchでの実験により,提案手法が既存モデルを上回る性能を示すことが確認された。
高次元線形分類の困難性 [cs.CG, cs.DS, cs.LG, stat.ML]目的:最大半空間不一致問題に対する次元数に関する指数関数的な下限
- 計算幾何学と機械学習の基盤であり,分類問題への応用が期待されるため。
- 既存の上界と下界に次元数に対する指数関数的な依存関係のギャップが存在する。
- アフィン退化判定問題やk-Sum問題の困難性仮説を用いてこのギャップを埋める。
- 最大半空間不一致問題に対し,$n^d$および$1/\varepsilon^d$に関する整合的な下限が得られた。
- アフィン退化判定問題に基づけば,$\tilde\Omega(n^d)$と$\tilde\Omega(1/\varepsilon^d)$の下限が導かれる。
- 片側判定クエリに制限されたモデルでは,同様の結果が無条件で成立する。
平行四辺形,再び:LLMは人間よりも優れた類推を生成する [cs.CL, cs.AI]目的:言葉の四項類推におけるLLMと人間の性能比較
- 類推は思考や学習の根幹であり,AIの高度化にも不可欠な能力である。
- 従来の類推モデルは人間の思考を十分に反映しておらず,性能向上に課題があった。
- LLMが人間の類推生成能力を上回るかを検証し,類推モデルの妥当性を評価する。
- LLMが生成した類推は,人間が生成した類推よりも質の高いと評価された。
- LLMの優れた性能は,分布表現空間における平行四辺形構造との整合性によるものである。
- LLMと人間の主要な違いは,人間が弱い類推を多く生成することにある。
潜在空間コンセンサスによる効率的かつ堅牢なマルチモーダル連合学習 [cs.LG, eess.SP]目的:マルチモーダル連合学習における通信効率と堅牢性の向上
- データプライバシー保護と分散環境での機械学習の重要性が高まっており,連合学習が注目されている。
- マルチモーダル連合学習では,クライアント間のモダリティやモデルの異質性による特徴空間の整合が課題である。
- モダリティ間の整合性を高め,通信コストを抑制する新しいフレームワークを開発し,堅牢性を向上させる。
- 提案手法CoMFedは,学習可能な射影行列を用いて圧縮された潜在表現を生成することで通信効率を高める。
- 潜在空間の正則化により,クライアント間の潜在表現を整合させ,クロスモーダルの一貫性と外れ値への耐性を向上させる。
- ヒューマンアクティビティ認識ベンチマーク実験において,CoMFedは最小限のオーバーヘッドで競合する精度を達成した。
多目的多旅行者セールスマン問題に対する条件付きニューラルソルバーCAMO [cs.RO, cs.AI]目的:多目的多旅行者セールスマン問題のパレートフロント近似
- ロボットチームによる複数目標地点の効率的な訪問は,現実世界の様々なタスクで重要である。
- 複数エージェントの協調と多目的トレードオフを同時に扱う手法は十分に進んでいない。
- 多様な設定で高品質なパレートフロント近似を可能にする汎用的なソルバーを開発する。
- 提案手法CAMOは,ターゲット数,エージェント数,優先度ベクトルが変化しても汎用的に機能する。
- CAMOは,従来のヒューリスティクスや他のニューラルネットワークと比較して,パレートフロントをより正確に近似する。
- 実世界でのモバイルロボットを用いた実験により,CAMOの実用性が確認された。
偶然性を意図的に:クロスドメインマッピングが人間とLLMの創造性に与える影響の評価 [cs.CE, cs.AI, cs.CL]目的:人間とLLMにおける創造性の向上策の評価
- 創造性は,技術革新や問題解決の源泉であり,社会の発展に不可欠である。
- 創造性の促進方法については,未だ十分な解明がなされておらず,効果的な手法が求められている。
- クロスドメインマッピングという手法が,人間とLLMの創造性に及ぼす影響を明らかにすること。
- 人間は,ランダムなクロスドメインマッピングによって創造性が向上することが示された。
- LLMは,人間よりもオリジナルなアイデアを生成する傾向があるが,クロスドメインマッピングの効果は有意ではなかった。
- クロスドメインマッピングの効果は,ターゲットとインスピレーション源の間の意味的な距離が大きくなるほど高まる。
ノード分類におけるスペクトルGNNはスペクトル的でも優れているわけでもない [cs.LG]目的:ノード分類のためのスペクトルグラフニューラルネットワークの理論的誤り
- グラフ構造データは様々な分野で活用され,その解析が重要視されている。
- 既存のスペクトルGNNは理論的根拠に乏しく,その有効性が疑問視されていた。
- スペクトルGNNの実効性の源泉を明らかにし,その限界を示す。
- スペクトルGNNは,グラフのスペクトルを意味的に捉えているわけではないことが示された。
- GCNの有効性は,スペクトル低周波フィルタリングによるものではなく,メッセージパッシングのダイナミクスによるものである。
- MagNetやHoloNetといった既存モデルも,実装上の問題によりMPNNとして機能しており,本来のスペクトルアルゴリズムとは異なる。
SAVeS:セマンティックな手がかりによるビジョン言語モデルにおける安全性判断の制御 [cs.CV, cs.AI, cs.CL, cs.LG]目的:ビジョン言語モデルにおける安全性判断のメカニズム解明
- 現実世界での応用が進む中で,ビジョン言語モデルの安全性確保が重要課題となっている。
- モデルの安全性判断が,視覚情報だけでなく言語的要素に左右される可能性が指摘されている。
- セマンティックな手がかりが安全性判断に与える影響を定量的に評価し,脆弱性を明らかにする。
- ビジョン言語モデルの安全性判断は,セマンティックな手がかりに大きく影響を受けることが示された。
- この結果は,モデルが視覚的な理解よりも,学習された視覚言語間の関連性に依存していることを示唆する。
- セマンティックな手がかりを利用した自動制御パイプラインによる脆弱性も確認された。
多言語マルチホップ質問応答のためのデュアルパスフレームワーク DaPT [cs.CL, cs.AI]目的:多言語マルチホップ質問応答における性能向上
- 質問応答技術は,情報検索や知識獲得において不可欠であり,その応用範囲は広い。
- 既存のRAGシステムは英語に偏っており,多言語環境での性能が十分ではない点が課題である。
- 多言語マルチホップ質問応答のためのベンチマーク構築と,その性能改善を目指す。
- 既存のRAGシステムは多言語環境において性能の不均衡が顕著であることが示された。
- 提案手法DaPTは,MuSiQueベンチマークにおいて,最良のベースラインと比較してEMスコアが平均18.3%向上した。
- DaPTは,ソース言語クエリと英語翻訳クエリの両方に対してサブ質問グラフを並行生成し,それらを統合することで,より正確で簡潔な回答を生成する。
LuMamba: 電極配置不変かつ効率的な脳波モデリングのための潜在的統合Mamba [cs.DC, cs.AI]目的:脳波の電極配置不変性と計算効率を両立する基礎モデルの構築
- 臨床・神経技術分野において脳波は非侵襲的な脳活動モニタリングに不可欠であり,その解析技術の発展が求められている。
- 従来のTransformerアーキテクチャは計算量が多く,電極配置の違いに対応が難しく,脳波モデリングのボトルネックとなっていた。
- 本研究は,電極配置に依存せず,計算効率の高い脳波モデリング手法を開発し,その課題を解決することを目指す。
- LuMambaは,21,000時間以上のラベルなし脳波データで事前学習され,異常検知,アーチファクト認識,精神状態分類など,多様なタスクで評価された。
- LuMambaは,わずか460万パラメータで,既存モデルと比較して377分の1のFLOPSで同等の性能を達成し,12倍長いシーケンスに対応可能である。
- マスク再構成とLeJEPAを組み合わせた学習が最もロバストな性能を発揮し,TUABで80.99%の正解率,アルツハイマー病検出で0.97のAUPRを達成した。
FedTrident: 連合学習におけるポイズニング攻撃に対するロバストな路面状態分類 [cs.CR, cs.AI, cs.DC, cs.LG]目的:連合学習を用いた路面状態分類における,ポイズニング攻撃への耐性を向上させること
- ITS分野において,カメラベースの路面状態分類は重要な役割を担う。車両の安全運転支援に不可欠である。
- 連合学習は悪意のある参加者による標的ラベル反転攻撃に対して脆弱であり,安全性に重大な影響を及ぼす可能性がある。
- 本研究は,標的ラベル反転攻撃を検出し,悪意のある車両を除外し,汚染されたグローバルモデルを修復することで,この問題を解決することを目指す。
- FedTridentは,ニューロン単位の分析,適応的なクライアント評価,機械的アンラーニングを導入することにより,標的ラベル反転攻撃を効果的に抑制する。
- 多様な環境下での実験結果から,FedTridentは攻撃がない場合と同等の性能を達成し,既存の対策を上回る結果が得られた。
- 特に重要な指標において,それぞれ9.49%と4.47%の性能向上が確認された。また,さまざまな悪意のあるクライアントの割合やデータ異質性にも強い。
推論モデルにおけるサンプリング数と不確実性推定の関係 [eess.SY, cs.SY, eess.SP, cs.AI, cs.CL, cs.LG]目的:推論モデルにおける不確実性推定のスケール
- 推論言語モデルの実用化には不可欠であり,その精度向上は重要な課題である。
- 複雑な思考連鎖推論下での不確実性推定は十分に理解されていない。
- サンプリング数を増やすことで不確実性推定がどのように変化するかを明らかにすること。
- 自己整合性と言語化された確信度は推論モデルにおいてスケールすることが示された。
- 特に,わずか2つのサンプルでも,ハイブリッド推定器はAUROCを平均で最大12%向上させ,単一の指標よりも優れた性能を発揮する。
- 数学問題においては,他の分野よりも高い不確実性品質と,より強い相補性および迅速なスケールが確認された。
CustomTex:マルチ参照による高忠実度な屋内シーンテクスチャリング [eess.SY, cs.SY, cs.CV, cs.AI]目的:高忠実度なカスタマイズ可能な3D屋内シーンテクスチャの生成
- 3Dコンテンツ制作において,現実世界に近い質感を再現することが重要である。
- テキストからの制御は柔軟だが,インスタンスレベルの細かい制御や高品質なテクスチャ生成が課題。
- 参照画像に基づき,インスタンスレベルで高忠実度なテクスチャを生成し,この課題を解決する。
- CustomTexは,参照画像に基づいて各オブジェクトインスタンスの外観を指定し,統一された高解像度テクスチャマップを生成する。
- セマンティックレベルとピクセルレベルの蒸留を組み合わせることで,セマンティックな整合性と視覚的な忠実度を両立している。
- 実験により,CustomTexが参照画像とのインスタンスレベルの一貫性と,従来法よりも優れた鮮明度,アーティファクトの低減,ベイクドインシャドウの最小化を達成することが示された。
音声言語モデルに対するマルチモーダル脱獄攻撃の最適化 [cs.RO, cs.LG]目的:音声言語モデルの脱獄攻撃手法の最適化
- 音声言語モデルは,安全性確保が重要であり,悪意のある利用を防ぐ必要がある。
- 既存の脱獄攻撃は単一のモダリティに焦点を当てており,マルチモーダル環境における脆弱性が十分に対処されていない。
- テキストと音声を同時に操作する脱獄攻撃手法を開発し,音声言語モデルの安全性評価を向上させる。
- 提案手法JAMAは,既存の単一モダリティの脱獄攻撃よりも1.5倍から10倍高い成功率を示した。
- JAMAは,テキストと音声を同時に最適化することで,より効果的な脱獄攻撃を可能にすることを示した。
- 逐次近似法を用いることで,JAMAの実行速度を4倍から6倍に向上させた。
推論効率から具現化効率へ:視覚-言語-行動モデルにおける効率指標の再検討 [cs.LG, cs.RO]目的:視覚,言語,運動モダリティを統合的に推論する視覚-言語-行動モデルの効率指標に関する研究
- ロボット工学において,複雑なタスクを実行するためには,視覚,言語,行動の理解が不可欠である。
- 従来の効率指標(パラメータ数,FLOPsなど)は,ロボットプラットフォーム上での実際の性能を反映していない。
- ロボットの動作時間,軌道の滑らかさ,関節回転量,運動エネルギーといった具現化効率に着目し,評価指標の再検討を行う。
- 従来の効率化手法が,タスク成功率を維持しつつも,エンドツーエンドの実行コスト増加や動作品質の低下を招く場合があることが示された。
- 具現化効率指標を用いることで,従来の評価では見過ごされていた行動ポリシーの性能差が明らかになった。
- インコンテキストプロンプティングや教師ありファインチューニングなどの適応手法は,具現化効率の特定の指標を改善するものの,他の指標とのトレードオフが生じることがある。
強化学習制御を用いた自己符号化器・ゲート付き二重ノードTransformerによる適応的レジーム認識株式価格予測 [eess.SY, cs.SY, cs.DC, cs.RO, cs.HC, cs.LG, cs.AI, q-fin.ST]目的:株式価格予測の精度向上
- 株式市場は常に変動しており,安定した予測モデルを構築することが重要である。
- 従来のモデルは市場の状態を均一に扱うか,レジームのラベル付けが必要であり,変化への対応が遅れる。
- 市場の異常を検出し,適切な予測経路を選択することで,予測精度を向上させる。
- 提案手法は,強化学習制御なしで1日先の予測において0.68%のMAPEを達成した。
- 強化学習制御を含む完全な適応システムでは,MAPEは0.59%に改善され,ベースラインの統合ノードTransformer(0.80%)を上回った。
- 予測方向の精度は72%に達し,高ボラティリティ期間においても堅牢な性能を維持した。
LLMベースのバイナリ解析における暗黙的パターン [cs.AI, cs.CR, cs.SE]目的:LLMベースのバイナリ脆弱性解析における探索の組織化
- バイナリ解析はセキュリティにおいて不可欠であり,自動化の必要性が高まっている。
- LLMの思考過程はブラックボックスであり,解析戦略の理解が困難である。
- LLMのバイナリ解析における暗黙的なパターンを明らかにすること。
- LLMによる多段階の推論過程から,トークンレベルでの明確なパターンが認められた。
- そのパターンは,早期の枝刈り,経路依存型ロックイン,標的型バックトラッキング,知識に基づいた優先順位付けを含む。
- これらのパターンは,LLM駆動のバイナリ解析を特徴づける体系的なシステムを形成する。
オンライン推論による階層的潜在構造学習 [cs.LG, q-bio.NC]目的:経験にわたる一般化とタスクに関連する詳細の識別とのバランス
- 学習システムにおいて,経験からの学習と詳細な識別を両立させることが重要である。
- 従来のモデルでは,階層構造の学習にオフライン推論が必要であり,リアルタイム処理が困難である。
- オンライン推論によって階層的潜在構造を学習し,効率的な学習を可能にすること。
- HOLMESモデルは,平坦なモデルと同等の予測性能を示しつつ,よりコンパクトな表現を学習した。
- 学習された表現は,高レベルの潜在カテゴリへのワンショット転移を支援した。
- ネストされた時間構造を持つタスクにおいて,HOLMESモデルは平坦なモデルよりも結果予測を改善した。
SHAPCA:分光データに対する機械学習モデルの説明の一貫性と解釈性 [cs.LG]目的:機械学習モデルの説明の一貫性と解釈性の向上
- 化学や生物医学分析において分光データへの機械学習の応用が拡大している。
- 分光データの高次元性と強い多重共線性により,モデルの説明可能性が課題となっている。
- 元の入力空間での説明を提供し,専門家が生物学的構成要素との関連を理解できるようにする。
- SHAPCAは,主成分分析とSHAP値を用いることで,モデルの挙動を説明するスペクトルバンドを特定する。
- 提案手法は,グローバルおよびローカルな視点からの分析を可能にし,個々の予測に影響する特徴を明らかにする。
- 数値解析により,結果の解釈性と実行間の高い一貫性が示された。
大規模言語モデルのバイアス軽減のための統一グラフ同型性 [cs.CL, cs.AI]目的:大規模言語モデルにおけるバイアスの軽減
- 言語モデルの社会的不偏性は重要であり,公平なAIシステムの構築に不可欠である。
- 既存のバイアス軽減手法は不十分であり,内部表現にバイアスが埋め込まれている点が課題である。
- Transformerのグラフ構造を利用し,反事実的な入力に対する構造的不変性を強制することでバイアスを軽減する。
- 提案手法UGIDは,分布内および分布外の両方において,効果的にバイアスを軽減することが示された。
- 内部構造の不一致を大幅に減らし,モデルの安全性と有用性を維持する。
- 注意経路と隠れ表現を同時に制約することで,バイアスの伝播を抑制する。
事前学習モデルに基づく継続的表現学習の強化:誘導ランダム射影によるアプローチ [cs.LG]目的:継続的表現学習における性能向上
- 事前学習モデルの活用は,様々なタスクで高い性能を発揮する基盤技術である。
- ドメインギャップが大きい場合,ランダム初期化された射影層では表現力が不足する。
- データに基づいた射影層の構築により,表現力と数値的安定性を両立する。
- 提案手法SCL-MGSMは,ターゲットドメインに適応したランダム基底を選択的に活用する。
- これにより,コンパクトかつ表現力豊かな射影層を構築し,線形ヘッドの更新の安定性を高める。
- 複数のベンチマークにおいて,SCL-MGSMは最先端手法と比較して優れた性能を達成した。
D5P4:並列離散拡散復号における多様性のための分割決定型点過程 [cs.AI, cs.LG]目的:離散拡散復号における多様性の向上
- テキスト生成において,自己回帰モデルに代わる有望な手法として離散拡散モデルが注目されている。
- 既存の拡散復号技術は,バッチ内多様性の制御に限界がある。
- D5P4は,モデル確率と多様性の間のトレードオフを明示的に制御する。
- D5P4は,決定型点過程を用いたMAP推論により,選択ステップを多様性重視で実現する。
- 本手法は,マルチGPU環境に対応し,計算コストの増加をほぼゼロに抑える。
- 自由形式生成および質問応答実験により,D5P4が既存手法と比較して多様性を向上させつつ,生成品質を維持することが示された。
混合モデルからの言語モデルの最適分割:専門領域への応用 [cs.CL, cs.LG]目的:言語モデルの専門領域への最適分割戦略
- 大規模な事前学習データにより,言語モデルは多様なタスクで高い性能を発揮する。
- 複数ドメインへの適用において,専門領域ごとにモデルを再学習する必要がある。
- 事前学習と追加学習の計算資源配分を最適化し,効率的なモデル構築を目指す。
- スケーリング則に基づき,事前学習と追加学習の計算資源配分を予測する手法を提案した。
- 提案手法は,モデルサイズやトークン数が増加した場合でも損失を正確に予測できる。
- 常識知識および推論ベンチマークにおいて,様々なモデルサイズと計算量で性能が向上した。
低資源言語用ファウンデーションモデルのための可変エントロピー方策最適化 [cs.CL, cs.AI]目的:低資源言語におけるファウンデーションモデルの性能向上
- 言語モデルの多様な言語への適用は重要であり,特に資源の少ない言語での性能向上が求められる。
- 低資源言語では,サブワード分割の非効率性や学習データ不均衡がモデルの性能を低下させる。
- 決定論的な構造制約を導入し,トークン化効率と翻訳品質のギャップを埋めることを目指す。
- 提案手法VEPOは,強化学習と検証可能な報酬を用いて,シーケンス長,形式の一貫性,言語学的妥当性を訓練中に強制する。
- 可変エントロピー機構により,モデルはリテラルな忠実性と意味的な自然さの均衡を動的に調整し,探索と活用を最適化する。
- FLORES-200, COMET-22, chrFの評価で,VEPOはトークン化効率と翻訳品質の両方で大幅な改善を示し,低リソース言語の性能を向上させる。
