arXiv雑要約
AI - 2025/12/16 公開
HTMformer:時系列予測のためのハイブリッド時間・多変量Transformer [cs.LG, cs.AI]目的:時系列予測におけるTransformerモデルの性能向上
- 時系列データは様々な分野で不可欠であり,正確な予測は意思決定に重要である。
- 既存のTransformerモデルは,時間依存性を過度に重視し,計算コストが増大する。
- より効率的で高精度な時系列予測モデルの開発を目指す。
- 本研究では,多変量特徴量を活用したハイブリッド時間・多変量埋め込み(HTME)を提案した。
- HTMEは,時間特徴と多変量特徴を統合し,Transformerモデルへの入力表現を豊かにする。
- 実験結果から,HTMformerが既存モデルと比較して,精度と効率の両面で優れていることが示された。
動的信頼評価のためのロバストな深層ガウスベースグラフニューラルネットワーク:不確実性定量化対応 [cs.LG, cs.AI]目的:大規模で急速に進化するグラフにおける動的信頼評価手法
- 大規模グラフの普及に伴い,ノード間の信頼関係を正確かつ効率的に評価する重要性が増している。
- 既存手法では,時間変化する関係性や不確実性の表現,悪意ある攻撃に対する耐性が不十分である。
- 不確実性を考慮し,攻撃に強い動的信頼評価モデルを構築し,信頼性向上を目指す。
- DGTENは,不確実性に対応したメッセージパッシング,時間的モデリング,攻撃防御を統合した新しいフレームワークである。
- Bitcoin-OTCデータセットにおいて,既存の動的ベースラインと比較して,MCCが+12.34%向上した。
- Bitcoin-Alphaデータセットのコールドスタートシナリオでは,MCCが+25.00%向上し,最も大きな改善が見られた。また,敵対的攻撃下でも優れた性能を示した。
AI多元性指数:重要なものを測定する [cs.AI]目的:AIの多元性を評価するための指標
- AI技術は社会に浸透し,その影響力は増大している。公正な発展とガバナンスが重要である。
- AI開発・ガバナンスが一部企業・国家に集中し,多様な価値観が反映されない懸念がある。
- AIの多元性を測定し,包容的で透明性の高い開発を促進することを目指す。
- AI多元性指数(AIPI)を定義し,参加型ガバナンス,多様性,透明性,説明責任の4つの柱に基づいて評価する。
- AIPIは,公開された情報や独立評価から検証可能な慣行をコード化し,信頼性の高い指標を提供する。
- パイロット調査の結果を示し,他の透明性,安全性,ガバナンスフレームワークとの関連性を示す。
TinyGraphEstimator:グラフ構造推論のための軽量言語モデルの適応 [cs.LG]目的:グラフ構造推論のための軽量言語モデルの能力
- 複雑な関係システムを表現するグラフは,分析や推論において不可欠である。
- 大規模言語モデルが優れている一方,軽量モデルの可能性は未開拓である。
- グラフ表現からグラフ理論的パラメータを直接推論する手法を確立する。
- コンパクトなTransformerモデルがグラフ構造データに対して,ある程度の推論能力を持つことが示された。
- 新たに作成したTinyGraphEstimatorデータセットを用いて,グラフパラメータの予測性能を評価した。
- LoRAによる軽量なファインチューニングにより,評価指標において一貫した改善が確認された。
AI革命に対する三つの視点:リスク,変革,継続性 [cs.CY, cs.AI]目的:AI革命の特性に関する考察
- 技術革新は社会構造を大きく変えるため,その影響を予測し,適切に対応することが重要である。
- AI技術の急速な発展に伴い,倫理的・社会的な問題やリスクへの懸念が高まっている。
- 過去の技術革新の事例から学び,AI技術の健全な発展と社会への実装を促すことを目指す。
- AIは,核技術のように不可逆的かつ世界的な影響を及ぼすリスクを抱えつつ,産業革命のように生産性と労働市場を再編する変革をもたらす。
- AI革命は,過去の技術革新と同様に,利用の民主化と生産の集中,コスト低下,パーソナライズの深化といったパターンを示す。
- AIの健全な発展には,技術革新を促進する戦略と安全保障を組み合わせ,公平なアクセスを確保し,責任あるAIを構築する必要がある。
安定しているが誤校正されている:フィルタから大規模言語モデルへのカント的見解 [cs.RO, cs.AI, cs.CL, cs.LG]目的:大規模言語モデルにおける過信のメカニズム解明
- 人間の認識能力の限界理解は,AIシステムの安全性を高める上で不可欠である。
- AIモデルは,一見安定していても,過信による誤りを犯す可能性がある。
- モデルの内部状態を分析し,過信の根本原因を特定することを目指す。
- カントの哲学を参考に,フィードバック安定性の観点から過信を捉える新しい指標「H-Risk」を提案した。
- 大規模言語モデルにH-Riskを適用し,過信の傾向と内部状態の関係性を明らかにした。
- 高確信度の誤りは,不安定性を示すものではなく,むしろ安定した誤校正状態にあることが示唆された。
pi-Flow:模倣蒸留による少ステップの方策ベース生成 [cs.LG, cs.AI, cs.CV]目的:少ステップ拡散モデルまたはフローベース生成モデルにおける方策に基づく生成手法
- 生成モデルは,高品質な画像生成において重要な役割を担う。近年,拡散モデルやフローベースモデルが注目されている。
- 従来の蒸留手法では,教師モデルと生徒モデルの出力形式の不一致により,学習が複雑化し,生成品質と多様性のバランスが課題となっていた。
- 本研究では,出力層を修正し方策を予測することで,この課題を解決し,高品質かつ多様な画像を生成することを目指す。
- 提案手法pi-Flowは,ImageNet 256$^2$において,従来の1-NFEモデルを上回るFIDスコア2.85を達成した。
- FLUX.1-12BおよびQwen-Image-20Bの実験では,4 NFEsにおいて最先端のDMDモデルと比較して,多様性が大幅に向上し,教師モデルと同等の品質を維持した。
- pi-Flowは,方策の模倣により,安定かつスケーラブルな学習を可能にし,品質と多様性のトレードオフを回避する。
cuAPO:人工原生動物オプティマイザーのCUDAベース並列化 [cs.NE, cs.AI, cs.ET]目的:人工原生動物オプティマイザーの並列化による性能向上
- 複雑な問題解決に有効なメタヒューリスティックアルゴリズムの利用が拡大している。
- 問題規模や探索空間の拡大に伴い,計算時間が課題となる。
- GPU加速による並列化で,計算時間を短縮し,効率的な最適化を目指す。
- 提案手法であるcuAPOは,既存の逐次型人工原生動物オプティマイザーと比較して,最大6.7倍の高速化を達成した。
- CEC2022ベンチマーク関数を用いた実験により,cuAPOの有効性が確認された。
- 実応用である画像閾値処理においても,cuAPOは優れた性能を示した。
Schema 悪用によるLLMの脱獄: BreakFun [cs.DM, math.CO, cs.CR, cs.AI, cs.CL]目的:LLMの構造化データ処理能力の脆弱性を利用した脱獄手法の調査
- LLMは構造化データ処理能力が強みだが,その特性が逆に弱点となる可能性が示唆されている。
- LLMが構造やスキーマを遵守する傾向が強く,悪意のある構造化データによって制御されるリスクがある。
- LLMの構造化データ処理能力に着目し,悪意のあるスキーマを用いた脱獄攻撃とその対策を提案する。
- BreakFunは,巧妙に作成された「トロイのスキーマ」を用いてLLMを欺き,有害なコンテンツを生成させる手法である。
- 13のLLMに対して平均89%の成功率で脱獄に成功し,特に複数の著名なモデルでは100%の攻撃成功率を達成した。
- Adversarial Prompt Deconstructionという防御策は,LLMを用いてユーザーの意図を抽出し,攻撃を効果的に抑制することが確認された。
PrivaDE:ブロックチェーン 기반データマーケットプレイスのためのプライバシー保護データ評価 [cs.CR, cs.LG]目的:データ評価の有用性
- 機械学習モデルの品質向上にはデータが不可欠であり,データの価値評価が重要である。
- モデル構築者とデータ提供者は,それぞれの知的財産を保護する必要がある。
- データとモデルを公開せずに,データセットの有用性を評価する手段を提供する。
- PrivaDEは,モデルパラメータやデータを公開することなく,データセットの有用性を評価できる。
- 悪意のある行動に対する高いセキュリティを提供し,ブロックチェーン 기반のマーケットプレイスに組み込むことができる。
- 数百万パラメータのモデルでも,オンライン実行時間が15分以内と実用的な性能を示す。
不誠実性検出における曖昧さの抑制:信頼性のグレーゾーン [cs.CL, cs.AI]目的:大規模言語モデルの要約における不誠実性検出
- 言語モデルの応用拡大に伴い,生成される情報の信頼性確保が重要課題となっている。
- 既存の評価基準は,外部知識の利用範囲が不明確で,アノテーションの一貫性に問題がある。
- 不誠実性検出におけるアノテーションの曖昧さを解消し,より厳密な評価を可能にすること。
- 新たなアノテーション枠組み「Out-Dependent」を導入し,外部知識が必要なケースを分類した。
- 新ベンチマーク「VeriGray」を構築し,最先端モデルでも幻覚が生じることを明らかにした(約6%)。
- 生成された文の多く(平均約8%)が「Out-Dependent」に分類され,曖昧性解消の重要性が示された。
削除スコア:外科的精度での編集評価 [cs.LG]目的:改訂の類似性評価
- 文書編集は様々なタスクの根幹であり,その評価は機械学習の発展に不可欠である。
- 既存の評価指標は,共有コンテンツに大きく影響され,人間の判断との乖離が生じやすい。
- 人間の判断により合致した,改訂の類似性をより正確に評価する指標を開発すること。
- 提案手法である削除スコア(ES)は,共有コンテンツを除去し,相違点のみを比較することで,既存指標の課題を克服する。
- コード編集評価において,ESは既存指標を凌駕し,HumanEvalFixにおけるテスト実行との相関が向上する。
- 共有コンテンツを増加させた場合,ESの性能向上がさらに顕著になり,頑健性も確認された。
計算心理学のためのマルチコンポーネントAIフレームワーク:堅牢な予測モデリングから展開された生成対話まで [cs.AI, cs.HC, cs.LG]目的:計算心理学における複雑な人間の心理状態のモデリング,理解,および相互作用
- 人間の心理を理解することは,精神疾患の診断や治療,教育,人間工学など,幅広い分野で重要である。
- 従来の心理学研究は,データ収集や分析の困難さ,再現性の問題などが課題となっている。
- 予測分析と生成対話の統合により,心理学研究の効率化と新たな知見の発見を目指す。
- 回帰タスクにおける数値的不安定性を克服し,感情計算のためのTransformerベースのモデルの安定化に成功した。
- 大規模なAI研究を可能にする,再現可能な方法論を確立し,研究の民主化に貢献した。
- 予測分析と生成対話の統合による,研究から展開までの完全なパイプラインを実証し,今後の計算心理学研究のモデルとなる。
ベイズ最適化とアクティブラーニングのための情報に基づいた初期化 [cs.LG]目的:ベイズ最適化における初期化戦略
- 高コストなブラックボックス関数の最適化に広く用いられ,性能向上の鍵となる。
- 初期化に準乱数設計を用いるのが一般的だが,予測不確実性の低減やハイパーパラメータ学習を考慮していない。
- 情報理論に基づき,予測不確実性の低減とハイパーパラメータ学習のバランスを取ることで最適化性能を向上させる。
- 提案手法HIPEは,ガウス過程における閉形式の表現を持つ。
- アクティブラーニングや少サンプルベイズ最適化の実験で,標準的な初期化戦略よりも優れた性能を示した。
- 特に,大規模バッチ,少サンプル設定において,予測精度,ハイパーパラメータの特定,最適化性能が向上した。
リプシッツ定数に着目した線形グラフティングによる証明可能なロバスト性 [cs.LG, cs.AI]目的:証明可能なロバスト性向上のための手法
- 敵対的攻撃に対するモデルの頑健性を保証する上で,リプシッツ定数は重要な指標である。
- 厳密な検証は計算コストが高く,近似手法では近似誤差が課題となっていた。
- 線形グラフティングによる近似誤差の低減と局所リプシッツ定数の精度向上を目指す。
- 線形グラフティングが,局所リプシッツ定数を改善し,証明可能なロバスト性を高める理論的根拠を提示した。
- 影響の大きい活性化関数への線形グラフティングが,近似誤差を低減し,よりタイトな局所リプシッツ定数を実現することを示した。
- 提案手法は,証明学習なしでも局所リプシッツ定数を改善し,ロバスト性を向上させることを実験的に示した。
共有自律による終端から終端までの器用なアーム・ハンドVLAポリシー:効率的なデータ収集のためのVR遠隔操作と自律ハンドVLAポリシーの拡張 [cs.RO, cs.AI]目的:汎用ロボットにおける人間のような器用な操作の実現
- ロボットの汎用性を高める上で,高度な操作能力は不可欠である。
- 高品質な学習データの不足が,VLAモデルの拡張性を制限している。
- VR遠隔操作と自律ハンドVLAポリシーを組み合わせ,効率的なデータ収集を可能にする。
- 提案手法により,最小限の人員で高品質なデータを生成することが可能となった。
- 多様な対象物に対して90%という高い成功率を達成した。
- 本システムは,器用な操作能力の開発において有効であることが確認された。
カーネル最適損失を用いた行列センシング:頑健性と最適化ランドスケープ [eess.SY, cs.SY, math.OC, eess.SY, cs.SY, cs.LG, cs.AI]目的:ノイズのある行列センシングを通じた,非凸最適化問題における損失関数の選択が,頑健性と最適化ランドスケープに与える影響
- 機械学習の性能は,データに含まれるノイズに大きく左右されるため,頑健性の向上が重要である。
- 従来の平均二乗誤差損失関数は,ガウス分布でない,または裾が重いノイズに対しては信頼性が低いという問題がある。
- カーネルに基づくロバスト損失関数を導入することで,多様なノイズ分布下での頑健性を高めることを目指す。
- 提案手法は,ガウス分布のノイズ下では平均二乗誤差損失関数と同等でありながら,より一般的なノイズ分布下で安定した性能を示す。
- ロバスト損失関数を用いることで,見せかけの局所解の消失に関する制限等方性特性(RIP)の上界を改善し,最適化ランドスケープを改善できる。
- 理論的および実験的分析により,提案手法が大きなノイズに強く,多様なノイズ分布に対してロバストであることが示された。
大規模な数学的探求と発見 [cs.NE, cs.AI, math.CA, math.CO, math.MG]目的:数学的構造の自律的な発見と,長年の未解決問題に対する理解の進展
- 数学は科学技術の基盤であり,その進歩は社会全体の発展に不可欠である。
- 複雑な数学的問題の解決には,高度な専門知識と膨大な時間が必要となる場合が多い。
- AIを活用し,人間の直感と協調することで,数学的発見の加速を目指す。
- AlphaEvolveは,67の問題において既知の最適解を再発見し,いくつかの問題ではより良い解を発見した。
- 有限の入力値に対する結果を,すべての入力値に対して有効な公式に一般化することが可能である。
- Deep ThinkやAlphaProofと組み合わせることで,自動証明生成とさらなる数学的洞察を提供できる。
災害対応のための小型無人航空機画像による迅速な被害評価システムの展開 [cs.HC, cs.CV, cs.AI, cs.CY]目的:災害時の建築物被害評価の自動化
- 災害対応において,迅速な被害状況把握は復旧活動の効率化に不可欠である。
- 災害現場で収集される画像データ量が膨大であり,専門家による手動解析が困難である。
- 小型無人航空機画像を用いた被害評価システムの構築と実運用を目指す。
- 開発したAI/MLシステムをハリケーン・デビーとヘレーンで運用し,約18分で415棟の建築物を評価した。
- 21,716件の建築物被害ラベルを含む大規模なデータセットを用いてモデルを学習した。
- 災害対応の現場でAI/MLを活用した被害評価の実際と,その教訓を記録した。
ベクトル化されたオイラー特性関数の計算と変換 [cs.CG, cs.LG, math.AT]目的:オイラー特性変換とオイラー特性関数の計算
- トポロジーデータ解析は,データの形状や構造を理解する上で重要であり,応用範囲が広い。
- 既存の計算手法は,速度が遅いか,高次元データには適用できないという課題があった。
- テンソル演算を用いた高速かつ汎用的な計算フレームワークを構築し,この課題を解決する。
- 提案手法は,GPUアーキテクチャ向けに最適化されており,単体複体および立方体複体に対して高い汎用性を持つ。
- 二次元および三次元データセットを用いた実験により,既存手法と比較して大幅な高速化が確認された。
- この変換の計算は,公開されているPythonパッケージpyECTで実装されている。
空気分離ユニットのeNMPCのためのクープマンモデルのEnd-to-End強化学習 [cs.LG, math.OC]目的:空気分離ユニットにおける経済的な非線形モデル予測制御(eNMPC)のためのクープマンモデルの学習
- 化学プラントの最適制御は,生産性向上やコスト削減に不可欠である。
- 高次元で非線形なプラントモデルの制御は計算コストが高く,困難を伴う。
- 強化学習とクープマンモデルを組み合わせることで,効率的な最適制御を実現する。
- 提案手法は,大規模な空気分離ユニットの需要応答ケーススタディにおいても良好なスケーラビリティを示す。
- 従来のシステム同定に基づくクープマンeNMPCと比較して,制約違反を回避しつつ同程度の経済的性能を達成する。
- 限られた計測変数のみを用いて,実用的なプラント制御を可能にする。
分散型マルチエージェント確率的最短経路問題に対する後悔の下限 [cs.LG, cs.MA]目的:分散型マルチエージェント確率的最短経路問題における後悔の下限の導出
- 群ロボティクスや交通ルーティングなど,協調行動が求められる分野で,マルチエージェントシステムが不可欠である。
- 単一エージェント環境下での学習研究は進んでいるが,分散型マルチエージェント環境下での研究は未だ発展途上である。
- 分散型マルチエージェント確率的最短経路問題における学習の難易度を明らかにし,効率的な学習アルゴリズム設計の指針を提供する。
- 線形関数近似を用いた分散型マルチエージェント確率的最短経路問題において,最適方策の構造を明らかにした。
- エージェント数nに関わらず学習困難なインスタンスを構築し,後悔の下限 $\Omega(\sqrt{K})$ を導出した。
- この結果は分散型制御の学習複雑性を明確にし,マルチエージェントシステムにおける効率的な学習アルゴリズム設計に貢献する。
Lethe:推論集約型LLMサービングのための層および時間適応KVキャッシュプルーニング [cs.LG]目的:推論集約型LLMサービングにおけるKVキャッシュプルーニング手法
- 大規模言語モデルの利用拡大に伴い,メモリ消費量と推論時間の最適化が重要課題となっている。
- 既存のKVキャッシュ圧縮手法は,入力シーケンスの長さに焦点を当て,長文生成における動的な層間依存性を考慮していない。
- Letheは,層および時間的側面からKVキャッシュを動的に管理し,効率と品質のバランスを最適化することを目指す。
- Letheは,Transformerレイヤーごとに注意の冗長性に基づいてトークンプルーニング予算を割り当てる層ごとのスパースネスを意識した割り当てを行う。
- 生成中に多段階のトークンプルーニングを実施するRecency-Aware Selective Retention (RASR)メカニズムを導入し,トークンの重要度を考慮する。
- 多様なモデルとタスクにおいて,Letheはスループットを最大2.56倍に向上させ,効率と生成品質のバランスを両立した。
データ評価における誤差推定と収束解析 [cs.LG]目的:データ価値の誤差推定と収束性
- データは現代社会の基盤であり,その価値を定量化することは重要である。
- 既存手法では,単一の学習過程で妥当性を保証することが困難である。
- 単一学習過程における妥当性を保証し,データ価値評価の安定性を確立すること。
- Lipschitz条件と滑らかさの仮定の下,損失差に対する二次誤差界限を導出した。
- 誤差界限は時間ステップに反比例し,制御変動に対して二乗比例する。
- 学習損失の勾配ノルムの期待値は漸近的に消失し,メタ損失は反線形に収束する。
フラクタルクラウド:効率的な大規模点群処理のためのフラクタルに着想を得たアーキテクチャ [cs.AR, cs.AI]目的:大規模点群処理のための効率的なハードウェアアーキテクチャ
- 自動運転,ロボット工学,VRなど,3D点群の利用が拡大しており,その処理性能が重要である。
- 従来の点群処理手法は,点数が増加すると計算量とメモリアクセスが急増し,大規模点群への適用が困難である。
- 点群の形状を考慮した分割と並列処理により,計算効率と省電力性を両立するハードウェアアーキテクチャを提案する。
- 提案手法「フラクタルクラウド」は,最新のアクセラレータと比較して21.7倍の高速化と27倍の省電力化を達成した。
- 形状を意識した分割法とブロック並列点演算により,大規模点群の効率的な処理を実現した。
- オンチップのフラクタル構造と柔軟な並列処理により,限られたメモリ資源内で高い処理性能を発揮する。
拡散特徴を用いた統合的な登録と変化検出:DiffRegCD [cs.CV, cs.AI]目的:変化検出と画像登録の統合的フレームワーク
- 環境監視,災害対応,都市開発など,コンピュータビジョンやリモートセンシングにおいて変化検出は不可欠である。
- 現実の画像データには,視差や時間経過による位置ずれが生じやすく,正確な変化検出を妨げる。
- 大規模な位置ずれにも対応可能な,ロバストな変化検出手法を開発する。
- DiffRegCDは,対応点探索をガウス平滑化された分類タスクとして再構築し,サブピクセル精度と安定した学習を実現した。
- 事前学習済みのノイズ除去拡散モデルからの凍結された多重スケール特徴を活用することで,照明や視点の変化に対する頑健性を確保した。
- 標準的な変化検出データセットへの制御されたアフィン摂動を適用することで,擬似ラベルなしでフローと変化検出の両方の正解データペアを得た。
問題提起の学習:大規模推論モデルのための推論駆動型およびソルバー適応型データ合成 [cs.AI, cs.CV]目的:大規模推論モデルの学習のためのデータ合成手法
- 大規模推論モデルは,複雑な課題解決に不可欠だが,学習データが不足している。
- 既存のデータ合成手法は,問題の質や難易度調整が不十分である。
- ソルバーの能力に適応し,推論に基づいた問題生成により,より効果的な学習データを提供する。
- 提案手法は,10の数学および一般推論ベンチマークにおいて,平均2.5%の性能向上を達成した。
- 合成データで訓練されたソルバーは,生成器の継続的な訓練に対する報酬を向上させ,更なる0.7%の性能向上を実現した。
- 言語モデルと視覚-言語モデルの両方に対して,汎化性能が確認された。
思考,発話,決定:経済的意思決定のための言語拡張型マルチエージェント強化学習 [cs.CY, cs.CY, cs.CL, cs.AI, econ.GN, q-fin.EC]目的:経済的意思決定における言語の役割の最適化
- 経済活動は価格や税金だけでなく,対話や報道といった言語情報に大きく依存する。
- 従来のマルチエージェント強化学習は,言語の持つ意味の曖昧さや文脈の多様性にうまく対応できない。
- 言語情報を活用し,より現実的な経済意思決定を実現することを目指す。
- LAMPフレームワークは,数値データと言語情報を統合し,経済シミュレーションにおいて優れた成果を示した。
- 既存の強化学習やLLMと比較して,累積リターン,頑健性,解釈可能性において大幅な改善が確認された。
- 思考・発話・決定のパイプラインにより,言語拡張型ポリシーの有効性が実証された。
Transformerのメカニズム解釈のための標準インターフェースnnterp [cs.LG, cs.AI]目的:Transformerのメカニズム解釈のための標準化されたインターフェース
- Transformerは自然言語処理で重要な役割を担うが,その内部動作の解明は困難である。
- 既存の手法では,一貫性のあるインターフェースと元のモデルとの正確性の両立が課題であった。
- 異なるアーキテクチャ間で統一された分析を可能にし,メカニズム解釈の研究を促進すること。
- nnterpは,NNsightを基盤とし,多様なTransformerアーキテクチャに対応する標準インターフェースを提供する。
- これにより,研究者は一度コードを記述するだけで,50以上のモデルバリアントに適用可能となる。
- ロジットレンズや活性化ステアリングなどの一般的な解釈手法が組み込まれており,検証テストも提供される。
IPR-1:インタラクティブな物理推論器 [eess.SY, cs.SY, cs.AI, cs.CV]目的:人間のような物理的推論の獲得と向上
- 物理法則や因果関係の理解は,知的な行動の基盤であり,AIの汎用性向上に不可欠である。
- 既存のアプローチは,視覚的詳細に過剰適合し,根本的な物理メカニズムを捉えきれていない。
- 視覚的差異が大きい多様なゲーム環境において,物理的推論能力を獲得し,経験を通じて改善することを目指す。
- 提案手法IPRは,VLMのポリシーを強化するために,ワールドモデルのロールアウトを活用することで,優れた性能を発揮する。
- PhysCodeという物理中心のアクションコードを用いることで,意味的な意図とダイナミクスを整合させ,予測と推論のための共通の行動空間を提供する。
- 1,000以上のゲームで事前学習した結果,IPRはGPT-5を含む既存モデルを上回り,未見のゲームへのゼロショット転移も可能であることが示された。
物理的に現実的なシーケンスレベルの敵対的衣類によるロバストな人体検出回避 [eess.SY, cs.SY, cs.CV, cs.AI]目的:人体検出に対する敵対的攻撃のロバスト性
- 監視環境における安全性とプライバシー保護の重要性が増しているため,人体検出技術への攻撃対策が求められる。
- 既存の手法はフレームごとにテクスチャを最適化するため,動きや姿勢変化,衣類の変形など,長時間の動画における隠蔽を維持できない。
- 本研究は,動画全体を通して効果が持続する,自然で印刷可能な敵対的テクスチャを生成することで,この問題を解決することを目指す。
- シーケンスレベルの最適化フレームワークにより,シャツ,ズボン,帽子などの衣類の敵対的テクスチャ生成に成功した。
- 生成されたテクスチャは,デジタルおよび物理的な環境において,歩行動画全体を通して安定した隠蔽効果を示した。
- 昇華転写による物理的な衣類は,屋内および屋外の録画において信頼性の高い検出抑制を実現し,現実世界での実用性が確認された。
毒性検出のための概念に基づく解釈性 [cs.CL, cs.AI]目的:毒性検出における概念的説明
- ソーシャルメディアの普及に伴い,有害コンテンツの拡散が問題となっているため,毒性検出技術が重要である。
- 従来の毒性検出では,なぜそのテキストが毒性があると判断されたかの説明が不足している。
- 概念的解釈性を導入し,誤分類の原因を特定し,より信頼性の高い毒性検出を目指す。
- 本研究では,毒性検出における概念勾配(CG)法を導入し,概念の変化がモデル出力に与える影響を測定することで,より因果的な解釈を可能にした。
- 誤分類に寄与する毒性語彙を収集した「Targeted Lexicon Set」を開発し,Word-Concept Alignment(WCA)スコアを用いて語彙と概念の関連性を定量化した。
- 定義済みの毒性語彙を除外した毒性サンプルを生成するデータ拡張戦略を提案し,明示的な語彙的重複がない場合でも過剰な概念帰属が残存するかどうかを検証した。
FireScope:思考の連鎖オラクルを用いた山火事リスク予測 [cs.CY, cs.CE, cs.CL, cs.CV, cs.LG]目的:山火事リスクの予測
- 地球温暖化や森林管理の課題から,山火事の予測は防災上重要性が増している。
- 既存手法では,視覚的,気候的,地理的要因の因果関係に基づいた信頼性の高い予測が困難である。
- 異なる大陸での有効性を検証し,解釈可能な山火事リスク予測モデルを開発すること。
- FireScopeは,アメリカで学習しヨーロッパでテストすることで,大幅な性能向上を達成した。
- 専門家からのフィードバックと自動分析により,その推論過程が正確かつ意味的に妥当であることが確認された。
- 言語に基づく推論が,視覚的生成における汎化性能を向上させることが示された。
M^3-Bench:マルチモーダル,マルチホップ,マルチスレッドツール利用MLLMエージェントベンチマーク [cs.RO, cs.AI]目的:マルチモーダルツール利用におけるモデルコンテキストプロトコル評価のためのベンチマーク
- 画像とテキストを組み合わせた高度なAIエージェントの開発が求められている。
- 既存のベンチマークでは,複雑なツール連携や状態の維持が十分に評価されていない。
- マルチモーダルツール利用における性能のボトルネックを特定し,改善を促すこと。
- M^3-Benchは,231のツールと28のサーバーを利用した大規模なベンチマークである。
- 最先端のマルチモーダルLLMの評価により,ツール利用における引数の忠実性や構造の一貫性の課題が明らかになった。
- ツール呼び出しのシグネチャをエンコードし,ハンガリー法を用いて対応付けを可視化する手法を導入した。
RTLアサーション失敗解決のためのLLMによる知識ツリー学習 [cs.AI, cs.SE]目的:RTLアサーション失敗の解決における再利用可能な知識の構造化
- 現代のハードウェア検証においてデバッグコストが大きく,効率化が求められている。
- LLMは有望視されるも,エンジニアの専門知識を正確に捉えきれない場合がある。
- 過去の事例からデバッグ知識を抽出し,構造化された知識ツリーとして活用する。
- GROVEは,LLMによって知識ツリーを学習・構成する階層型知識管理フレームワークである。
- 知識ツリーは,RTLアサーション失敗を解決するための知識を効果的に整理し,再利用を可能にする。
- 評価実験により,GROVEはpass@1とpass@5において一貫した改善を示し,構造化された知識進化の価値を実証した。
チームスポーツにおける因果的軌道予測モデルCausalTraj [cs.LG, cs.CV]目的:複数エージェントの軌道予測
- スポーツ分析において,複数エージェントの行動予測は不可欠であり,現実的なシミュレーションや戦略理解に貢献する。
- 既存モデルは個々のエージェントの精度に偏重しており,複数エージェント間の整合性を考慮していない点が課題である。
- エージェント間の因果関係を考慮し,整合性のある複数エージェントの軌道を予測することを目的とする。
- CausalTrajは,時系列因果関係に基づいた尤度ベースモデルであり,複数エージェントの軌道を共同で予測する。
- NBA,バスケットボール,サッカーのデータセットにおいて,個々のエージェントの精度に加え,共同予測の精度指標(minJADE,minJFDE)で最先端の結果を達成した。
- 質的な評価においても,CausalTrajは現実的なゲーム展開を生成することが示された。
ローカリストLLMにおける段階的な局所化 [cs.AI]目的:解釈可能性を保ちつつ高性能な大規模言語モデルのアーキテクチャ
- AIシステムの信頼性向上のため,モデルの解釈可能性が重要視されている。
- 大規模言語モデルは高性能だが,内部構造が複雑で解釈が困難である。
- 段階的な局所化により,解釈性と性能の両立を目指す。
- 段階的な局所化は,初期層で分散的な注意機構,後続層で局所的な注意機構を用いるアーキテクチャである。
- 適応的セマンティックブロック分割と急峻な多項式局所化スケジュールを組み合わせることで,ベースラインに近い言語モデリング性能を維持しつつ解釈可能な注意パターンを実現した。
- 低忠実度制約による柔軟性の維持と,最終層への局所化集中が,性能と解釈性のトレードオフを改善する。
MODEST:多焦点距離・絞り値によるステレオ深度データセット [cs.HC, cs.CY, cs.DB, cs.IR, cs.CV, cs.AI, cs.LG, eess.IV]目的:実光学的条件下における信頼性の高い深度推定の実現
- 自動運転や拡張現実など,カメラビジョンの応用が拡大しており,正確な深度推定が不可欠である。
- 大規模かつ高精度な実写ステレオDSLRデータセットが不足しており,実世界への汎化性能が課題となっている。
- 実光学的条件と複雑なシーンを捉えたデータセットを提供し,汎化性能の向上を目指す。
- 本研究では,5472×3648pxの高解像度ステレオ画像18000枚を含むデータセットを構築した。
- 焦点距離と絞りを系統的に変化させ,多様なシーンと光環境下で撮影を行った。
- このデータセットは,深度推定,被写界深度レンダリング,3D再構成などの研究を支援し,既存手法の課題を明らかにした。
専門家ペルソナを持つLLMにおける自己透明性の欠如:指示への追従が正直さを上回る状況 [cs.AI, cs.HC]目的:専門家ペルソナを持つ大規模言語モデルにおける自己透明性の程度
- LLMの普及に伴い,その安全性確保が重要課題となっている。特に,AIであることの明示は,利用者の信頼関係構築に不可欠である。
- LLMが役割の一貫性を優先し,自身の限界やAIであることの開示を抑制することが問題となっている。
- 異なる専門家ペルソナがLLMの自己開示に与える影響を定量的に評価し,安全性を高めるための指針を示す。
- 金融アドバイザーのペルソナでは30.8%の自己開示が見られたのに対し,神経外科医のペルソナではわずか3.5%に留まり,8.8倍の差が生じた。
- モデルのパラメータ数よりも,モデルのアイデンティティが観測データの適合度を大幅に向上させた($\Delta R_{adj}^{2}=0.359$ vs $0.018$)。
- AIであることの明示許可を与えることで,自己開示率が23.7%から65.8%に向上し,抑制が指示への追従によるものであることが示唆された。
伝統中国医学翻訳におけるイメージ思考の伝達:プロンプトエンジニアリングとLLMに基づく評価フレームワーク [cs.MM, cs.CL, cs.AI]目的:伝統中国医学のイメージ思考を翻訳で伝える手法の確立
- 伝統中国医学は,医療原理や診断・治療論理の基盤となるイメージ思考を有している。
- 既存の英訳は逐語的な訳出が多く,概念構造の理解や臨床応用を困難にしている。
- プロンプトエンジニアリングを用いてLLM翻訳の質を向上させ,イメージ思考の伝達を試みる。
- プロンプト調整されたLLM翻訳は,5つの認知次元全てにおいて最も高い評価を得た。
- モデル間および役割間での一貫性が高く,翻訳の有効性が示された。
- インタビューから,人間と機械翻訳の違い,比喩・隠喩の転換戦略,読者の認知特性などが明らかになった。
安定性の端におけるスペクトル集中:カーネル結合記憶の幾何学的構造 [cs.LG, cs.NE, stat.ML]目的:カーネルホップフィールドネットワークにおける安定性の端の解析
- 記憶容量とネットワークの安定性は,機械学習における重要な課題である。
- 高容量ネットワークでは,最適化の困難さと安定性の維持が課題となる。
- スペクトル集中と安定性の関係を幾何学的に解明し,自己組織化臨界現象の理論を提供する。
- 最適化の隆起は,フィッシャー情報行列が特異になる安定性の端に対応することが示された。
- ユークリッド空間における力拮抗は,リーマン空間における二重平衡状態の現れであることが明らかになった。
- 最小記述長原理を通じて,学習力学と容量を統一する幾何学的理論が提示された。
人間とAIの協調による質的研究アシスタントの開発とベンチマーク [cs.HC, cs.AI]目的:質的研究におけるテーマ抽出とデータ注釈の信頼性評価
- 質的研究は重要な知見を生み出すが,人的リソースの制約や解釈のずれが課題となる。
- 既存の計算手法は,質の高い分析を再現できないため,研究者の信頼を得られていない。
- 大規模言語モデルを活用し,質的研究の効率化と信頼性向上を図る。
- AIアシスタントMuseと人間のテーマ抽出において,Cohen's κ = 0.71という高い一致率が確認された。
- エラー分析により,AIの弱点を特定し,改善の方向性を示唆した。
- Museを活用することで,人間によるバイアスの軽減も期待できることが示された。
LLMにおける信頼性の高い構造化出力のための軽量強化学習フレームワークRL-Struct [cs.AR, cs.AI, cs.LG]目的:LLMにおける構造化出力の信頼性向上
- LLMの活用範囲拡大には,確率的生成と厳密な構造要求との乖離問題の解決が不可欠である。
- 既存手法では,批判ネットワークが必要となり,メモリ消費量が増大する課題があった。
- 本研究は,勾配正則化方策最適化を用いて,構造制約への適合性を高めることを目指す。
- RL-Structは,批判ネットワークを排除することで,PPOと比較してピークVRAMを38%削減することに成功した。
- 複雑なJSONタスクにおいて,構造的精度89.7%と有効性92.1%を達成し,SFTやゼロショットベースラインを大幅に上回った。
- 構文から意味への学習優先順位付けという創発的カリキュラムが観察された。
DDPMおよびVAEにおける適応ラムダ引かれた重要度サンプリングスコア [cs.LG, cs.AI]目的:機械学習モデルからのデータ削除手法の改善
- 大規模生成モデルの利用拡大に伴い,プライバシー保護の重要性が増している
- 既存手法は固定の削除強度を用いるため,サンプルや学習段階に応じた最適な削除が困難
- サンプルと学習段階に応じた最適な削除強度を動的に推定する手法を提案する
- 適応ラムダSISSは,固定ラムダSISSよりも高い削除性能と生成品質の維持を両立した
- スコアベースのデータ削除にも適応ラムダの原理を拡張し,多クラスの忘却蒸留を導入した
- データフリーな効率性と勾配制御を組み合わせたハイブリッド目的関数,強化学習による最適な削除ポリシーも提案した
EfficientFlow:具現化されたAIのための効率的な等変フローポリシー学習 [cs.CL, cs.CL, cs.RO, cs.AI, cs.CV, cs.LG]目的:具現化されたAIにおける効率的なフローベースポリシー学習の枠組み
- ロボット工学やAIにおいて,視覚と運動を統合した制御は,多様なタスクの実現に不可欠である。
- 既存の生成ポリシーは,大量のデータや遅い行動生成速度という課題を抱えていた。
- データ効率とサンプリング効率を向上させ,高性能な具現化AIを実現することを目指す。
- 提案手法EfficientFlowは,フローベースのポリシー学習に等変性を導入することで,データ効率を向上させた。
- 等変性を持つ速度予測ネットワークを用いることで,行動分布の等変性が理論的に保証され,汎化性能が向上した。
- 新しい加速正則化戦略により,推論速度を大幅に向上させ,様々なロボット操作ベンチマークで優れた性能を示した。
VLM-Pruner:効率的なVLM遠心トークンプルーニングにおける空間的疎性のためのバッファリング [eess.SY, cs.SY, cs.CV, cs.LG]目的:ビジョン言語モデルにおける計算コスト削減のためのトークンプルーニング手法
- ビジョン言語モデルは画像理解に優れるが,計算コストが高く,モバイル環境での利用が課題。
- 既存のプルーニング手法はトークンの重要度のみに着目し,トークン間の冗長性を考慮していない場合が多い。
- 空間的な関係性を考慮し,冗長性と疎性を両立するプルーニング手法を提案し,性能劣化を抑制する。
- VLM-Prunerは,5つのVLMで88.9%のプルーニング率を達成し,既存手法を上回る性能を示す。
- 遠心トークンプルーニングにより,詳細なオブジェクト情報の維持と効率的なトークン選択を実現する。
- BSS基準により,空間的に離れたトークンの選択を遅延させ,空間的疎性を高める。
モデレーションからメディアションへ:LLMはオンライン炎上を仲裁できるか [cs.AI]目的:オンライン炎上におけるLLMのメディアション能力
- オンラインコミュニケーションの健全性維持は,社会の安定と個人の幸福に不可欠である。
- 従来のモデレーションでは,有害コンテンツの検出に偏重し,対立の根本解決には至らない場合がある。
- LLMを活用し,対立の公平性と感情的な動態を評価し,建設的な対話を促すことを目指す。
- LLMをモデレーションに加え,公平性や感情を理解し,対立を緩和するメディアションとして活用するフレームワークを提案した。
- Redditのデータセットを用いて評価を行った結果,APIベースのモデルがオープンソースモデルより優れた推論と介入能力を示した。
- LLMはオンライン社会のメディアションエージェントとしての可能性を秘める一方,限界も存在する点が示唆された。
BlurDM:画像鮮明化のためのブラー拡散モデル [cs.RO, cs.CV, cs.AI]目的:画像鮮明化のためのブラー拡散モデルの開発
- 画像処理において,鮮明な画像を得ることは,視覚情報の正確な理解に不可欠である。
- 従来の画像鮮明化手法は,ブラーの発生メカニズムを十分に考慮していない場合がある。
- 拡散モデルにブラー生成過程を組み込み,より効果的な画像鮮明化を実現する。
- 提案手法BlurDMは,拡散モデルにブラー生成過程を統合することで,鮮明化性能を向上させている。
- ブラーとノイズを同時に拡散させる二重拡散スキームと,それに対応する逆生成過程を導入している。
- 複数のベンチマークデータセットにおいて,既存の鮮明化手法と比較して,BlurDMが著しい性能向上を示した。
GraphBench:次世代グラフ学習ベンチマーク [cs.LG, cs.AI, cs.NE, stat.ML]目的:グラフ学習のベンチマークスイート
- グラフ構造データは多様な分野で活用が拡大しており,機械学習の重要性が増している。
- 既存のベンチマークは限定的なデータセットや評価方法に依存し,再現性や進捗を阻害する。
- 多様なタスクとドメインを網羅し,標準化された評価と再現性を実現する。
- GraphBenchは,ノード,エッジ,グラフレベル,生成タスクを含む多様な予測タスクに対応する。
- 標準化された評価プロトコルとハイパーパラメータ調整フレームワークを提供し,分布外汎化性能を考慮する。
- メッセージパッシングニューラルネットワークとグラフTransformerモデルを用いたベンチマークを行い,ベースラインを確立した。
AI支援によるゲーム運営判断:リアルタイムサッカー交代に関するファジー論理アプローチ [cs.AI, cs.CE, cs.SY, eess.SY, math.OC]目的:エリートサッカーにおけるリアルタイムの交代判断を支援する意思決定支援システム
- サッカーの試合結果は多大な金銭的・競技的影響を及ぼすため,効果的な交代判断が重要である。
- 従来の交代判断は直感や過去の偏りを模倣する予測モデルに頼っており,客観性に欠ける点が課題である。
- 本研究は,客観的ルールに基づく推論エンジンを用いて,より合理的な交代判断を可能にすることを目的とする。
- ファジー論理に基づくシステムは,人間の行動を模倣するのではなく,客観的な基準でパフォーマンスを評価する。
- PlayeRank指標を改良し,出場時間の影響を取り除くことで,試合内での正確な比較を可能にした。
- 2018年ワールドカップのブラジル対ベルギー戦の事例研究により,システムが専門家の意見と一致し,人間が見過ごすリスクを検出することが示された。
