arXiv雑要約
AI - 2026/03/20 公開
ランクに基づく均一性検定によるブラックボックスLLM APIの監査 [cs.CR, cs.AI, cs.CL]目的:LLM APIの挙動検証
- LLM利用の拡大に伴い,API経由でのアクセスが一般的になっている。
- API提供者は,モデルを密かに変更する可能性があり,性能低下や安全性への影響が懸念される。
- API提供者によるモデルの隠れた変更を検出し,透明性を確保すること。
- 提案手法は,ブラックボックスLLMとローカルモデルの挙動が等しいかを検証する。
- クエリ効率が良く,検知困難なため,API提供者による応答操作への耐性がある。
- 量子化,有害なファインチューニング,モデルの完全な置き換えなど,様々な脅威シナリオで高い検出力を示した。
嗜好駆動型多目的組合せ最適化における条件付き計算 [cs.CL, cs.AI]目的:嗜好に基づく多目的組合せ最適化問題に対するモデル構造選択
- 組合せ最適化は,現実世界の様々な問題を解決するための基盤技術である。
- 既存手法では,部分問題を均等に扱い,探索が不十分になりやすい。
- 嗜好信号に基づいてモデル構造を適応的に選択し,性能向上を目指す。
- 提案手法POCCOは,既存のニューラルネットワーク手法に容易に組み込むことができる。
- 実験結果から,POCCOは4つのベンチマーク問題で優れた性能と汎化性を示すことが確認された。
- POCCOは,部分問題に応じた専門的なニューラルアーキテクチャへのルーティングを実現する。
公平性評価のためのサイズ適応仮説検定 [cs.LG, cs.AI, cs.CY, stat.ML]目的:アルゴリズムにおける公平性判断のための統計的仮説検定手法
- 公平性は,社会における重要な倫理的課題であり,アルゴリズムの利用拡大に伴い重要性が増している。
- 少数集団における公平性評価は,サンプルサイズが小さく,統計的な信頼性が低いという課題がある。
- 本研究は,グループサイズに応じて適切な統計的検定を行うことで,より信頼性の高い公平性評価を実現する。
- 大規模グループに対しては,統計的パリティ差の中心極限定理を証明し,信頼区間とWald検定を提供することで,厳密な統計的保証を提供する。
- 少数グループに対しては,ベイズ的なDirichlet-multinomial推定器を導入し,サンプルサイズに関わらずキャリブレーションされた信用区間を算出する。
- ベンチマークデータセットを用いた実験により,本手法がデータ可用性や交差性に応じて解釈可能かつ統計的に厳密な判断を下すことを示す。
リソース制約のあるデバイスにおける暗号化通信分類のためのハードウェアを意識したニューラルアーキテクチャ探索 [cs.NI, cs.LG]目的:リソース制約のあるデバイスにおける暗号化通信分類を可能にする,ハードウェア効率に優れた深層ニューラルネットワーク
- IoT機器の普及に伴い,ネットワークセキュリティの確保が重要となっている。
- 暗号化通信の分類は計算リソースを必要とし,IoTデバイスへの実装が困難である。
- ハードウェアを意識したニューラルアーキテクチャ探索により,低リソース環境での効率的な分類を実現する。
- 提案手法は,パラメータ数,FLOPs,最大テンソルサイズを大幅に削減し,メモリ使用量と実行時間を最小限に抑えた。
- ISCX VPN-nonVPNデータセットにおいて96.60%の精度を達成し,USTC-TFCやQUIC NetFlowなどの外部ベンチマークでも高い汎化性能を示した。
- STM32マイクロコントローラへの実装評価により,短いセッション長が低遅延な組み込み推論に貢献することが確認された。
ロボットタスクプランニングにおける一般化旅行者問題解決のためのマルチモーダル融合学習 [eess.SY, cs.SY, cs.AI, cs.RO]目的:ロボットタスクプランニングにおける一般化旅行者問題の解決
- 倉庫内作業や環境モニタリングなど,モバイルロボットの効率的なタスクプランニングは重要である。
- 複数のターゲットクラスターから場所を選択する一般化旅行者問題は,正確かつ効率的な解決が困難である。
- グラフと画像に基づく表現を融合し,リアルタイムで高品質なタスクプランニングを可能にする。
- 提案するマルチモーダル融合学習(MMFL)フレームワークは,様々な一般化旅行者問題において,既存手法を大幅に上回る性能を示した。
- MMFLは,座標ベースの画像生成や適応的な解像度スケーリングにより,問題のスケールに適応し,幾何学的・空間的特徴を効果的に統合する。
- 実機ロボットによるテストの結果,MMFLの実用的な有効性が実証された。
再帰型ニューラルネットワークに基づくロバスト制御システム:局所的特性とMPC設計への応用 [eess.SY, cs.LG, cs.SY]目的:再帰型ニューラルネットワークで記述されるシステムに対する出力フィードバック制御スキームの設計
- 複雑な非線形システムの制御は難しく,ロバスト性が重要である。ニューラルネットワークは,そのようなシステムをモデル化する有力な手段である。
- 従来の制御手法では,システムの不確実性や外乱に対して十分なロバスト性を確保することが困難である場合がある。
- 局所的な漸近安定性に着目し,モデル予測制御を用いることで,ロバスト性を向上させ,吸引領域を拡大すること。
- 線形行列不等式を用いたオブザーバと静的状態フィードバックコントローラを設計する手法を提案した。
- 局所的な漸近安定性を活用し,定常値追従と外乱・状態推定誤差に対するロバスト性を保証する。
- 局所的な漸近安定性の限界に対処するため,モデル予測制御を用いることで収束性と再帰的実行可能性を保証した。
生成AIによる学生の成功度評価:系統的レビューに基づいたモンテカルロシミュレーション [cs.CY, cs.AI]目的:学生の生成AIに対する認識と教育成果の関係性の評価
- 高等教育における学習効果向上への関心が高まる中,生成AIの活用が注目されている。
- 生成AIの学生による利用状況や認識は様々であり,教育成果への影響は不明確である。
- 生成AIに対する学生の認識を定量化し,教育成果との関連性を予測するフレームワークを構築する。
- 系統的レビューから抽出された知見に基づき,モンテカルロシミュレーションを実施した。
- シミュレーションの結果,システム効率と学習負担がSuccess Scoreに最も大きな影響を与えることが示された。
- 本研究は,テーマ分析と確率的モデリングを連携させる透明性の高いフレームワークを提供する。
LiteReality:RGB-Dスキャンからのグラフィックス対応3Dシーン再構築 [cs.CV, cs.AI, cs.GR]目的:RGB-Dスキャンからコンパクトでリアル,かつインタラクティブな3D仮想レプリカの生成
- 仮想環境のリアリティ向上は,AR/VR,ゲーム,ロボティクスなど幅広い分野で重要である。
- 従来の3Dシーン再構築は,データ量が大きく,グラフィックスパイプラインとの互換性が低い場合がある。
- 本研究は,高品質で編集可能,かつグラフィックスパイプラインに対応した3Dシーンの効率的な再構築を目指す。
- LiteRealityは,現実と視覚的に類似したシーンを再構築し,オブジェクトの個体性や物理ベースレンダリングをサポートする。
- 学習不要のオブジェクト検索モジュールが,Scan2CADベンチマークで最先端の類似性性能を達成した。
- ロバストなマテリアルペイントモジュールは,あらゆるスタイルの画像から3Dアセットへの外観転送を可能にする。
分散学習における単一のグローバルマージの効果 [cs.LG, cs.DC, cs.MA, stat.ML]目的:分散学習の効率向上
- 大規模データセットに対するスケーラブルな学習手法の重要性が高まっている。
- 分散学習では,ピアツーピア通信の制限が性能を阻害する課題がある。
- データ分散性の高い状況下での分散学習の汎化性能向上を目指す。
- 分散学習の終盤に通信予算を集中させることが,グローバルテスト性能を著しく向上させる。
- 最終ステップで完全接続通信を行う単一のグローバルマージが,高いデータ異質性下で分散学習の性能を向上させる。
- 分散SGDが並列SGDと同等の収束速度を達成しうることを理論的に証明した。
臨床記述からFHIRリソースを合成するエンドツーエンドのエージェントベースのInfherno [cs.CL, cs.AI]目的:臨床記述からのFHIRリソースの構造化合成
- 医療データの統合とサービスにおいて,FHIR標準は相互運用性のために重要である。
- 既存手法は汎用性に欠け,構造適合性の問題がある。
- FHIRスキーマに準拠し,人間レベルの性能を目指す。
- Infhernoは,LLMエージェント,コード実行,医療用語データベースを活用したエンドツーエンドフレームワークである。
- Gemini 2.5-Proが合成データと臨床データセットの両方で優れた性能を示した。
- 曖昧さや正解データの収集可能性が今後の課題として残る。
LLMを用いた社会経済的推定のための重み制約型Few-Shot回帰モデルGeoReg [cs.LG]目的:社会経済指標の推定
- 政策決定や持続可能な開発に不可欠な社会経済指標の正確な把握が重要である。
- データが不足している地域,特に発展途上国における社会経済指標の推定は困難である。
- 少ないデータでも社会経済指標を正確に推定するための手法を開発すること。
- 本研究では,衛星画像やウェブ情報を活用し,大規模言語モデルの知識を用いてFew-Shot回帰モデルGeoRegを提案した。
- GeoRegは,データ特徴と対象指標間の関係性を分類し,各カテゴリに合わせた重み制約を線形推定器に適用することで,推定精度を向上させた。
- 発展途上国を含む3ヶ国での実験により,GeoRegが既存手法を上回り,データ不足の状況下でも優れた性能を発揮することが示された。
融合前に確認せよ:ロバストな3D検出のための2D誘導クロスモーダルアライメント [cs.CV, cs.AI]目的:LiDARとカメラの入力を統合した統一的な鳥瞰図(BEV)表現の構築
- 自動運転車の3D知覚能力向上には,LiDARとカメラの情報を統合することが不可欠である。
- 既存手法では,LiDARとカメラの特徴間の空間的なずれが問題であり,正確な深度 supervision とクロスモーダル特徴の集約を妨げている。
- 本研究は,投影誤差に起因するずれを,2D検出器で信頼性の高いオブジェクト境界を利用して事前に修正することを目指す。
- 提案手法は,Prior Guided Depth Calibration (PGDC)により,2Dプリアーを用いてずれを軽減し,正しいクロスモーダル特徴ペアを維持する。
- Discontinuity Aware Geometric Fusion (DAGF)を導入し,残差ノイズを抑制し,オブジェクト境界におけるシャープな深度変化を強調することで,構造を意識した表現を実現した。
- nuScenes検証データセットで最先端の性能(mAP 71.5%,NDS 73.6%)を達成し,Argoverse 2でも競争力のあるmAP 41.7%を記録した。
検証が失敗する場合:施設間血圧予測と電子カルテベースモデルの限界 [cs.LG, cs.AI]目的:施設間での血圧予測モデルの汎化性能評価
- 医療における機械学習の進展は,臨床現場での実用性を確認する検証の重要性を高めている。
- 電子カルテデータを用いたモデルは,施設特有のデータ分布の影響を受けやすく,汎化性能が低い場合がある。
- 本研究は,異なる施設間での血圧予測モデルの性能低下とその原因を明らかにすることを目指す。
- 内部検証では中程度の性能を示したが,外部検証において血圧予測性能は著しく低下した。
- 性能低下の原因として,施設間での特徴量分布の違い,患者集団の差異,測定プロトコルの違いが特定された。
- 内部性能が高いモデルであっても,施設間での汎化が保証されないことが示唆された。検証失敗の透明性のある報告が重要である。
コンテンツ特定データ処理のためのページ画像分類 [cs.IR, cs.AI, cs.CV]目的:歴史的文書のページ画像のコンテンツに基づく分類
- デジタル化が進む人文科学において,大量のページ画像データが生成され,効率的な処理が求められている。
- 多様なコンテンツ(手書き文字,図表,レイアウト等)を含むため,手作業での分類・分析に限界がある。
- コンテンツに応じた処理を可能にする自動分類システムの開発により,分析パイプラインの効率化を目指す。
- 本研究では,歴史的文書のページ画像に特化した画像分類システムを開発し,その有効性を評価した。
- 人工知能と機械学習の進歩を活用し,コンテンツ固有の処理ワークフローを促進するためのカテゴリ設定を行った。
- その結果,テキスト認識(OCR)や画像分析など,異なる分析手法が必要なページを効率的に分離できることが示された。
重い裾を持つオンライン凸最適化:旧来のアルゴリズム,新たな後悔,そして応用 [cs.HC, cs.LG, math.OC, stat.ML]目的:重い裾を持つオンライン凸最適化における古典的なアルゴリズムの最適後悔
- 機械学習や最適化において,オンライン学習はデータストリームへの適応が不可欠である。
- 従来の理論は有限分散を仮定しており,重い裾を持つ勾配への対応が課題であった。
- 重い裾を持つ勾配下でも,既存のアルゴリズムが最適に機能することを示す。
- 本研究では,既存のオンライン凸最適化アルゴリズムに対し,重い裾を持つ勾配下での新たな後悔の限界を導出した。
- 導出された後悔の限界はパラメータに関して完全に最適であり,追加の操作(勾配クリッピング等)は不要であることを示した。
- この結果は,ノイズの重い裾を持つ非滑らかな非凸最適化問題への応用を含め,様々な応用可能性を持つ。
原子炉関連条件下における非照射および照射されたオーステナイト鋼およびフェライト/マルテンサイト鋼の疲労寿命予測のための物理情報ニューラルネットワーク [cs.LG, cond-mat.mtrl-sci]目的:原子炉用鋼材の疲労寿命予測
- 原子力材料の信頼性評価は,原子力プラントの安全稼働に不可欠である。
- 照射環境下での材料劣化は複雑であり,従来のモデルでは正確な予測が困難である。
- 物理法則を組み込んだ予測モデルを構築し,より高精度で信頼性の高い寿命予測を実現する。
- 提案されたPINNは,従来の機械学習手法と比較して,疲労寿命予測において優れた性能を示した。
- SHAP分析の結果,ひずみ振幅,照射線量,試験温度が疲労寿命に大きな影響を与える主要な特徴であることが示された。
- オーステナイト鋼は複雑な相互作用を示し,フェライト/マルテンサイト鋼は照射線量飽和挙動と高温感受性を示した。
バス隊列制御のためのロバストな単一エージェント深層強化学習 [cs.AI]目的:バス隊列制御のための単一エージェント強化学習フレームワーク
- 都市交通において,バスの遅延や不規則な運行は乗客の利便性を損なうため,効率的な運行管理が不可欠である。
- 従来の多エージェント強化学習は複雑な路線網や変動する需要に対応できず,データ不均衡や収束性の問題が生じやすい。
- 本研究は,現実的な路線網におけるバスの運行制御において,多エージェント問題を単一エージェント問題に変換し,より安定した制御を目指す。
- 提案手法では,車両ID,駅ID,時間帯などのカテゴリカルな識別子を状態空間に付加することで,単一エージェントがエージェント間の依存関係を捉えられるようにした。
- 報酬関数を設計し,ヘッドウェイの逸脱に対する指数関数的なペナルティではなく,均一なヘッドウェイとスケジュール遵守を重視するリッジ型の報酬を採用した。
- シミュレーション実験の結果,修正されたSACが既存手法(MADDPGなど)よりも安定した性能を示し,特に確率的条件下で優れた結果が得られた。
MMSearch-Plus:マルチモーダルブラウジングエージェントのためのProvenance-Aware検索のベンチマーク [cs.AI]目的:マルチモーダルな理解を必要とする検索タスクのベンチマーク
- 現実世界の情報検索において,画像とテキストの両方を活用するマルチモーダルなアプローチが重要になっている。
- 既存のベンチマークはテキストのみで解ける場合が多く,真のマルチモーダル推論能力を評価できない。
- 画像の視覚的手がかりとテキスト情報を繰り返し利用し,ノイズ下でも正確な推論を可能にするベンチマークを構築する。
- MMSearch-Plusは,311のタスクを含むベンチマークであり,画像の空間情報や時間的情報を活用した推論を必要とする。
- SoM(Set-of-Mark)モジュールを導入することで,エージェントは検索対象を絞り込み,よりロバストな多段階推論が可能になった。
- 最良のシステムはエンドツーエンドの精度36.0%を達成し,SoMを統合することで一貫した改善が見られた(最大+3.9ポイント)。
AI駆動によるサンゴ礁再生産デバイスの散布:グレートバリアリーフの大規模復元 [cs.CV, cs.LG, cs.RO]目的:サンゴ礁再生産デバイスの散布をAIで駆動し,グレートバリアリーフの大規模復元を可能にするシステム
- 気候変動によりサンゴ礁は危機に瀕しており,生態系サービスや生物多様性の維持が困難になっている。
- 手作業によるサンゴ礁の復元は,コストと時間がかかるため,大規模な復元には限界がある。
- AIを活用し,サンゴ礁復元作業の効率化と自動化を図り,大規模復元を実現することを目指す。
- 本研究で開発したAIパイプラインは,専門家のラベル付けコストを削減し,リアルタイムでのサンゴ礁環境分析を可能にした。
- グレートバリアリーフの5つの地点での検証により,77.8%の散布精度と89.1%の画像パッチ分類精度が確認された。
- また,本研究で収集・アノテーションしたデータセットを公開することで,今後の研究促進に貢献する。
因果ARC:因果世界モデルによる抽象的推論 [cs.AI, cs.CL, cs.LG]目的:低データ・分布外環境下におけるAI推論の評価
- AIの汎化性能向上は,現実世界の多様な状況への適応に不可欠である。
- 既存の推論タスクはデータ量に依存し,未知の状況への対応が苦手である。
- 少量のデータと介入情報を用いた推論能力の向上を目指す。
- CausalARCという新たな評価環境を提案し,因果モデルに基づいた推論タスクを構築した。
- 言語モデルを用いて,抽象的推論,反実仮想推論,プログラム合成,因果発見の評価を行った。
- モデル性能はタスクによって大きく異なり,言語モデルの推論能力向上に余地があることが示された。
フーリエ学習機械:科学機械学習のための非調和フーリエに基づくニューラルネットワーク [cs.NI, cs.LG, math.OC]目的:多次元非調和フーリエ級数を表現するためのニューラルネットワークアーキテクチャ
- 科学技術計算において,複雑な関数を効率的に近似することは重要である。
- 従来のニューラルネットワークでは,周期関数や非周期関数を効果的に表現することが難しい場合がある。
- 問題固有のスペクトル基底を学習し,多様な関数を表現可能なモデルを開発すること。
- フーリエ学習機械(FLM)は,多次元非調和フーリエ級数を表現可能な新しいニューラルネットワークアーキテクチャである。
- FLMは,従来のフーリエに基づくニューラルネットワークモデルと比較して,完全な基底関数集合を分離形式で表現できる。
- 偏微分方程式や最適制御問題といった科学技術計算の分野において,既存のアーキテクチャと同等かそれ以上の性能を示すことが示された。
事前情報に基づいた二重注意モデル:多変量時系列異常検知のためのPi-Transformer [cs.RO, cs.MA, cs.LG]目的:多変量時系列データの異常検知手法
- 産業プラント等における異常検知は,安全性の確保や経済的損失の低減に不可欠である。
- 従来の異常検知手法では,時間的文脈やチャネル間の連携を捉えることが困難であった。
- 時間的な不変性に着目し,データの自己相似性や位相同期性を活用することで,検知精度を向上させる。
- Pi-Transformerは,データ駆動型注意と時間不変な事前注意という二つの注意機構を用いることで,従来のモデルを上回る性能を達成した。
- 特に,タイミングや位相のずれといった異常に対して高い検知能力を発揮する。
- 二つの注意機構が互いに補完しあい,変化点付近での解釈可能な異常検知を実現している。
過パラメータ化線形回帰および$\ell_p$バイアス下での対角線形ネットワークにおけるデータを用いた$\ell_r$ノルムのスケーリングの閉形式 [cs.LG, math.ST, stat.ML, stat.TH]目的:過パラメータ化線形回帰におけるパラメータノルムのスケーリングに関する記述
- 機械学習モデルの過パラメータ化は,汎化性能に影響するため,その振る舞いの理解が重要である。
- 過パラメータ化されたモデルのパラメータノルムのスケーリングは,理論的に未解決な問題であった。
- $\ell_p$バイアス下での$\ell_r$ノルムのスケーリングを閉形式で導出し,その振る舞いを予測することを目的とする。
- サンプルサイズに応じて,パラメータノルムが飽和するノルムと成長し続けるノルムを区別する閾値が導出された。
- 過パラメータ化された線形回帰と対角線形ネットワークにおいて,データ依存の転換点と普遍的な閾値が存在することが示された。
- この結果は,汎化性能の予測に用いられるノルムの選択が重要であることを示唆している。
大規模音声言語モデルにおける忠実性の調査 [cs.LG, eess.AS]目的:大規模音声言語モデルにおける思考連鎖の忠実性評価
- 音声とテキストを統合し複雑な推論を可能にするモデルの重要性が高まっている。
- 思考連鎖は生成できるものの,その根拠の信頼性に課題があった。
- 音声への忠実性,包括性,注意深さの基準に基づき忠実性を評価する。
- Audio Flamingo 3とQwen2.5-Omniの実験から,予測と推論が必ずしも音声と整合しないことが示唆された。
- 思考連鎖は幻覚や敵対的な摂動に脆弱であり,マルチモーダルな乖離の可能性が示された。
- 入力音声と最終的な予測の両方に対する思考連鎖の忠実性を評価するフレームワークを提案した。
OT-MeanFlow3D:最適輸送と平均流を架橋し,効率的な3D点群生成を実現する [cs.LG]目的:効率的かつ正確な3D点群生成と補完
- 3Dデータは,様々な分野で重要であり,その生成技術の進歩が求められている。
- 従来の生成モデルは計算コストが高く,効率的な生成が課題であった。
- 平均流のサンプル品質を向上させつつ,単一段階の高速推論を実現する。
- 提案手法OT-MeanFlow3Dは,最適輸送に基づくサンプリングにより,多段階フローの幾何学的・分布構造をより良く保持する。
- ShapeNetにおける実験により,最新のベースラインと比較して,生成と補完の品質が向上することが示された。
- 従来の拡散モデルやフローベースモデルと比較して,学習と推論のコストを削減することに成功した。
ソフト-Di[M]O:ソフト埋め込みによる1ステップ離散画像生成の改善 [cs.CV, cs.AI, cs.LG]目的:1ステップ離散画像生成における性能向上
- 画像生成技術は,創造性や表現力を拡張し,様々な応用分野において重要な役割を担っている。
- 既存の1ステップ生成器は,教師モデルのバイアスを受けやすく,勾配の流れが途絶えるという課題がある。
- ソフト埋め込みにより,勾配計算を可能にし,生成器の性能を改善することを目的とする。
- ソフト埋め込みは,離散トークンを生成器の出力分布に基づく期待埋め込みに置き換えることで,表現の忠実性を保ちながら,微分可能な連続的な代替表現を提供する。
- ソフト-Di[M]Oは,様々なMasked Diffusion Modelで最先端の結果を達成した。ImageNet-256でのFIDスコアは1.56。
- 報酬に基づくファインチューニングやTTEOとの組み合わせにより,さらに性能が向上することも確認された。
位置に盲目,言語に偏り:ゼロショット言語 grounded 空間理解のためのVision-Language Encoderの中間層表現バイアス探求 [cs.CV, cs.AI]目的:Vision-Language Encoderの中間層表現バイアス
- 画像と言語を連携させる技術は,AIの多岐にわたる応用において重要な役割を担っている。
- 既存のVision-Language Encoderは,空間情報への感受性が低く,言語依存の偏りを抱えている。
- 中間層表現を活用し,空間認識能力を向上させることで,ゼロショット空間理解の精度を高める。
- Vision-Language Encoderの中間層表現において,位置情報に対する感受性が低いこと,そして言語に依存した幾何学的なシフトが生じていることが明らかになった。
- 中間層の表現を用いて空間マップを構築することで,ゼロショット参照画像セグメンテーションの性能が1-7 mIoU改善された。
- 混合言語の中間層表現を活用することで,空間 grounding の精度がさらに向上 (7-8 mIoU, IoU@50) したが,推論コストが増加した。
Kolmogorov-Arnoldネットワークに基づく特徴重要度:教師あり表形式データ次元削減のためのフレームワーク [cs.LG]目的:表形式データの次元削減のための特徴選択基準
- 表形式データ分析において,不要な特徴量を削減することで,予測精度向上と解釈性の向上が期待される。
- 従来の選択手法では,非線形な関係性や多変量な相互作用を捉えきれない場合がある。
- Kolmogorov-Arnoldネットワークの特性を活用し,よりロバストで解釈可能な特徴選択を実現する。
- Kolmogorov-Arnoldネットワークに基づく特徴選択基準は,F1スコアや$R^2$スコアにおいて,LASSOやRandom Forestなどの既存手法と競合しうる性能を示した。
- 特に分類問題において,多クラスのタスクで冗長な特徴量を削減し,非線形な相互作用を捉えることで高い性能を発揮した。
- 回帰問題においては,ノイズの多いデータセットに対しても安定した性能を示し,特徴量の選択において再現性と非冗長性を確保した。
冗長性に基づく隠蔽:生成AIにおける記憶老化をモデル化する人工年齢スコア(AAS)の定式化 [cs.RO, cs.IR, cs.CL, cs.CL, cs.AI, cs.IT, cs.LG, math.IT]目的:生成AIの記憶老化をモデル化するための人工年齢スコア(AAS)の形式的な定義
- AIの長期的な性能維持には,記憶メカニズムの理解が不可欠である。特に大規模言語モデルにおける記憶の特性解明が重要。
- 従来のAI評価では,時間経過による記憶劣化が十分に考慮されておらず,実用上の課題となっている。
- AIシステムの記憶老化を定量的に評価し,そのメカニズムを解明することを目指す。
- 人工年齢スコア(AAS)は,AIの記憶想起行動から記憶老化を定量化する指標として提案された。
- ChatGPT-5を用いた二言語研究により,セッション維持時には記憶が安定し,AASは最小値に近づくことが示された。
- セッションリセット時にはエピソード記憶が失われ,AASが急増し,構造的な記憶老化が確認された。
サポート基底:境界付きエントリを超えた高速アテンション [cs.LG]目的:大規模言語モデルにおけるアテンション推論と学習の効率化
- 近年の自然言語処理において,大規模言語モデルの性能向上は目覚ましい。しかし,計算コストが課題となっている。
- 従来の高速化手法は,入力データの分布に関する制約が厳しく,現実のモデルへの適用が困難であった。
- 本研究では,制約の少ない手法を開発し,大規模言語モデルにおけるアテンション計算の効率化を目指す。
- クエリ行列とキー行列のエントリが準ガウス分布に従うことを利用し,疎な成分の正確な計算と密な成分の多項式近似を行う。
- 提案手法は,既存手法と同等の近似誤差を保ちながら,サブクワドラティックな計算量を実現する。
- 多閾値化により,分布に関する仮定を排除し,多項式アテンションの経験的成功を理論的に正当化する。
シミュレーションからルールへ:形式的な視覚プランニングのための二重VLMフレームワーク [cs.RO, cs.AI, cs.CL, cs.SC]目的:視覚プランニングのためのPDDL問題ファイルとドメインファイルの自律的な生成
- 視覚プランニングはロボット工学やAIにおいて重要であり,現実世界でのタスク自動化に不可欠である。
- 従来のVLMは空間的推論や長期的計画に弱く,PDDLプランナーは視覚情報を解釈できないという課題があった。
- VLMの能力とPDDLの形式的な計画能力を組み合わせ,ルール生成の自動化を実現すること。
- 提案手法VLMFPは,シミュレーションVLMと生成VLMを連携させ,PDDL問題ファイルとドメインファイルを自律的に生成する。
- シミュレーションVLMは,既知および未知の外観に対してそれぞれ87.3%と86.0%のシナリオ理解と行動シミュレーションの精度を達成した。
- VLMFPは,未知のインスタンスにおいて,既知および未知の外観でそれぞれ70.0%,54.1%の計画成功率を示し,汎化能力を実証した。
大規模言語モデル評価のためのベイズ的枠組み:Pass@kの代替案 [cs.AI, cs.CL, math.ST, stat.ML, stat.TH]目的:大規模言語モデルの性能評価に関する,安定性と透明性の向上
- 大規模言語モデルの性能評価は,その発展と応用において不可欠であり,客観的な指標が求められている。
- 従来のPass@k指標は,サンプル数が少ない場合や計算資源が限られている場合に,不安定なランキングを生み出す可能性がある。
- ベイズ的枠組みを用いることで,より安定したランキングと明確な判断基準を提供し,評価の信頼性を高める。
- 提案手法は,Pass@kや平均正答率と比較して,より少ないサンプル数で収束が早く,ランキングの安定性が高いことがシミュレーションと実データで示された。
- ベイズ推定によって得られる信頼区間は,観測された性能差が統計的に有意であるか否かを明確にする。
- 本研究は,二値評価だけでなく,段階評価にも適用可能であり,より柔軟な評価を可能とする。
ビジョンエンコーダのアクティベーション量子化にはプレフィックスレジスタが必要である [cs.LG, cs.CV]目的:ビジョンエンコーダにおける量子化性能の改善
- マルチモーダル知能において,大規模な事前学習済みビジョンエンコーダは重要な役割を担う。
- 量子化は推論コスト削減に有効だが,外れ値により8ビット精度でも課題が残る。
- 大規模ビジョンエンコーダにおける外れ値を軽減し,低ビット量子化を可能にすること。
- 本研究では,外れ値が発生しやすいトークンをエンコーダに導入することで,他のトークンの外れ値を抑制する手法RegCacheを提案した。
- RegCacheは,中間層へのプレフィックス付与とトークンの削除という2つの技術革新を取り入れている。
- 実験結果から,RegCacheは様々なビジョンエンコーダにおいて,特に4ビットなどの極めて低ビット条件下で量子化性能を改善することが示された。
VeriEquivBench:形式検証可能なコードの真偽評価のための等価性スコア [cs.CL, cs.PL, cs.AI]目的:大規模言語モデル生成コードの形式検証評価基準
- コードの信頼性向上には形式検証が不可欠であり,特に大規模言語モデル生成コードにおいて重要性が増している。
- 既存の評価方法では,正解データとの照合に依存するため,専門知識が必要であり,データセット規模が限られている。
- 正解データに頼らない評価基準を開発し,形式検証可能なコード生成の課題を明らかにすること。
- VeriEquivBenchは,2389個の複雑なアルゴリズム問題を包含する新たなベンチマークである。
- 提案する等価性スコアは,生成された仕様とコードの品質を厳密に検証可能にする。
- 最新の大規模言語モデルは,形式検証可能なコード生成において依然として大きな課題を抱えていることが示された。
AdaSwitch:知識蒸留における探索とガイダンスのバランスを適応的切り替えで実現 [cs.CL, cs.AI]目的:知識蒸留における適応的切り替えメカニズム
- 低遅延性・低計算コストが求められる環境下で,小規模言語モデルの重要性が高まっている。
- 従来の知識蒸留は,教師強制と学生による生成の乖離,または学生生成の質の低さという課題があった。
- AdaSwitchは,状況に応じて教師のガイダンスと学生の自律的な生成を切り替え,その問題を解決する。
- AdaSwitchは,教師強制と学生による生成の一貫性を保ちつつ,高品質な教師の知識を活用できる。
- 3つのデータセットでの実験により,AdaSwitchが精度と推論能力を安定的に向上させることが示された。
- 適度なオーバーヘッドで性能改善を実現している。
多様な音響条件下における音声クエリを用いたオーディオビジュアルマルチモーダルLLMのハルシネーション評価 [cs.CL, cs.SD, cs.AI, eess.AS]目的:オーディオビジュアルマルチモーダルLLMにおけるハルシネーションの評価
- 音声インターフェースの普及に伴い,マルチモーダルモデルの信頼性評価が重要になっている。
- 画像とテキストの組み合わせによる評価は多いが,音声クエリがハルシネーションに与える影響は未解明である。
- 音声クエリを用いた評価パイプラインを構築し,信頼性の高い音声インターフェース開発に貢献する。
- 既存のマルチモーダルハルシネーションベンチマークを音声クエリ版に変換したRePOPE-Spkを公開した。
- 音声クエリを用いると,ハルシネーションが顕著に増加し,クリーンな音声でも3-6%,ノイズ下では最大30%エラー率が上昇した。
- Few-shotプロンプティングやChain-of-Thought推論は,ハルシネーションの軽減に限定的な効果しか示さなかった。
情報決定スコアリング(IDS)フレームワークを用いたテキスト由来項目による評価尺度拡張 [cs.CL, cs.AI, cs.CY]目的:評価尺度の測定精度と妥当性の向上
- 心理評価において,評価尺度は複雑な経験を要約する上で不可欠である。しかし,テキストデータとの連携は進んでいない。
- テキストデータは豊富だが,潜在的な特性との直接的な対応付けが難しく,測定に活用されていない。
- IDSフレームワークにより,テキストデータから有用な情報を抽出し,評価尺度の測定精度を高める。
- 大規模言語モデル(LLM)を用いて生成されたテキスト由来項目は,既存の評価尺度と共校正され,測定特性に関する情報に基づいて選択される。
- 抑うつ症の調査において,テキスト由来項目を追加することで,測定精度と一致妥当性が有意に向上した。
- 適応検査シミュレーションでは,テキスト由来項目が最大6.3~16.0個の評価尺度項目に相当する情報量を提供し,早期に高精度な測定を可能にした。
敵対的MDPにおける応用を含む,改良されたモデルフリー決定-推定係数 [cs.LG]目的:構造化された観測下での意思決定の複雑性評価
- 強化学習における意思決定は,複雑な環境において最適な行動選択を可能にする上で重要である。
- 従来の決定-推定係数は,モデルクラスのサイズに依存し,理論限界と実際的な性能にギャップが存在した。
- 本研究は,楽観主義に依存しない新しい決定-推定係数を提案し,敵対的な環境下でも性能を向上させることを目指す。
- 提案手法Dig-DECは,楽観主義的DECよりも常に小さく,特に限定的な状況下では大幅に小さくなる。
- ハイブリッドMDPにおいて,Dig-DECを用いたモデルフリーな後悔境界を初めて導き出した。
- オンライン関数推定手順を改良し,平均推定誤差最小化および二乗誤差最小化において,既存手法よりも優れた後悔境界を達成した。
二元から二言語へ:全米気象局が人工知能を活用し,包括的な翻訳プログラムを開発する方法 [cs.CL, cs.MA, cs.CL, cs.AI, cs.CY, cs.HC]目的:全米気象局の翻訳プログラム開発
- 全米に居住する非英語話者への気象情報提供は,防災・減災において重要である。
- 手動翻訳には時間と労力がかかり,迅速な情報伝達の妨げとなる場合がある。
- AIを活用し,迅速かつ正確な多言語翻訳を実現し,情報伝達の遅延を解消する。
- 全米気象局は,人工知能を活用した自動翻訳ツールを開発し,スペイン語,中国語,ベトナム語など多言語に対応している。
- GISマッピングを用いて言語ニーズを特定し,リソースを優先的に配分することで,必要な地域への情報提供を強化している。
- 倫理的なAIの導入により,透明性,公平性,人間による監視を確保し,信頼性の高い翻訳を可能にしている。
より包括的な解釈可能性へ:軽量な分離概念ボトルネックモデル [cs.RO, cs.IR, cs.CV, cs.LG]目的:概念ボトルネックモデルの解釈性と分類性能の向上
- AIの意思決定過程を人間が理解することは,信頼性と安全性を高める上で重要である。
- 既存の概念ボトルネックモデルは,入力と概念の間の偏りや制御性の低さという課題を抱えている。
- 視覚的特徴を意味的に分離し,概念と視覚パターンの整合性を高めることで,解釈可能なAIの信頼性を向上させる。
- 提案するLDCBMは,従来のCBMと比較して,概念およびクラスの精度において高い性能を発揮する。
- LDCBMのパラメータ数とFLOPsは,Vanilla CBMと比較してわずか5%増加に抑えられており,軽量性を実現している。
- 背景マスク介入実験により,LDCBMが不要な画像領域を抑制する能力が高いことが確認された。
ランダム置換集合に対する順序依存衝突度 [cs.AI]目的:ランダム置換集合における衝突の測定
- 順序情報を含む不確実性の推論は,情報融合における重要な課題である。
- 順序依存不確実情報融合において,置換質量関数間の衝突度測定は未解決の問題である。
- ランダム置換集合における衝突を定量化し,より柔軟な意思決定を可能にすること。
- 提案手法は,Dempster-Shafer理論の枠組みでランダム置換集合間の衝突を定量化する。
- 高ランク要素の重要性を反映し,衝突を二分論ではなく段階的な概念として捉える。
- 提案手法は,重みや切り捨て深さの選択において意思決定者に柔軟性を提供する。
Manual2Skill++: 指示書に基づいたコネクタ認識型汎用ロボットアセンブリ [eess.SY, cs.SY, cs.RO, cs.AI]目的:ロボットアセンブリにおけるコネクタ情報の抽出と活用
- アセンブリ作業は,部品間の確実な接続に依存しており,産業界における自動化の重要な課題である。
- 既存手法では,コネクタを後回しにしてアセンブリシーケンスや部品姿勢を計画するため,接続の制約が十分に考慮されていない。
- 本研究は,コネクタ情報を明示的に表現し,指示書から自動的に抽出することで,アセンブリの成功率向上を目指す。
- Manual2Skill++は,視覚情報と言語情報を統合し,アセンブリマニュアルから構造化されたコネクタ情報を自動的に抽出する。
- アセンブリタスクを,部品とサブアセンブリをノード,コネクタ関係をエッジとする階層グラフとして表現する。
- 家具,玩具,製造部品など,多様なアセンブリタスクにおけるシミュレーション実験で,提案手法の有効性を検証した。
地上と宇宙を繋ぐ:非地上ネットワークにおけるHAPSに関する調査 [cs.CL, eess.SY, cs.LG, cs.SY]目的:HAPS(高高度プラットフォームステーション)の利用事例,技術,および6Gエコシステムへの統合戦略
- 通信インフラの拡大が求められる現代において,地上ネットワークの限界を補完する手段として重要。
- サービス未提供地域への接続性確保や,災害時の通信インフラ復旧が課題となっている。
- HAPSを活用し,グローバルに統合され,柔軟かつ持続可能な6Gネットワークの構築を目指す。
- 本調査は,HAPSが6G無線ネットワークの進化における重要な要素であることを包括的に示している。
- HAPSは,広範囲なカバレッジ,低遅延,エネルギー効率の高い通信を可能にし,多様なアプリケーションをサポートする。
- 特に,通信が困難な地域への接続性向上,動的なバックホール,大規模IoT,自律・没入型サービスへの貢献が期待される。
Open-o3-Video:明示的な時空間的証拠を用いたビデオ推論 [cs.CV, cs.AI, cs.MM]目的:ビデオ推論における明示的な時空間的証拠の統合
- ビデオ理解は,現実世界の状況を把握する上で不可欠であり,その応用範囲は広い。
- 既存のビデオ推論モデルは,証拠の提示が不十分であり,推論の根拠が不明確である。
- ビデオにおける重要な証拠(時間,場所,対象物)を特定し,推論の透明性と検証可能性を高める。
- Open-o3-Videoは,時空間的証拠を統合することで,V-STARベンチマークにおいて最先端の性能を達成した。
- Qwen2.5-VLをベースラインとして,mAMで14.4%,mLGMで24.2%の改善が見られた。
- 生成された推論トレースは,テスト時の信頼性向上に貢献する。
対話の幾何学:多エージェント協調のための言語モデルをグラフ化し,相乗効果的なチームを明らかにする [cs.CL, cs.CL, cs.AI, cs.MA]目的:多エージェント協調のための相乗効果的なチームの構成
- 大規模言語モデルの多エージェントアプローチは単一モデルの限界を超える可能性を秘めている。
- モデル内部の不透明性により,効果的な協調に必要な特性を把握することが困難である。
- 事前知識なしに,言語モデル間の協調性を自動的に評価し,最適なチームを構成すること。
- 言語モデル間のペアワイズな対話のセマンティックな一貫性に基づいて「言語モデルグラフ」を構築する。
- コミュニティ検出を用いて,相乗効果的なモデルのクラスターを特定することが可能となった。
- 特定のトピックで対話を誘導することで,ダウンストリームベンチマークでランダムなベースラインを上回り,専門知識に基づく手動で編成されたチームと同等の精度を達成した。
iSeal:信頼性の高いLLM所有権検証のための暗号化フィンガープリンティング [cs.CR, cs.AI]目的:大規模言語モデルの所有権検証
- LLM開発には巨額の費用がかかるため,知的財産の保護が不可欠である。
- 既存手法は検証時の攻撃を考慮しておらず,攻撃者による回避が可能である。
- 検証時に攻撃者がLLMを制御している状況でも信頼性の高い所有権検証を実現する。
- iSealは,モデルと外部モジュールに特徴を注入し,エラー訂正機構と類似性ベースの検証戦略を用いる。
- 理論的分析と実験結果により,検証時攻撃(共謀によるフィンガープリント消去,応答操作など)への耐性が示された。
- 12のLLMに対し,10以上の攻撃に対して100%のフィンガープリント成功率を達成し,既存手法を上回る。
FlowCast:条件付きフローマッチングを用いた降水予測の高度化 [cs.LG]目的:降水予測の精度向上
- 洪水被害軽減や迅速な意思決定のため,短時間降水予測は不可欠な技術である。
- 大気ダイナミクスの不確実性や高次元データの効率的なモデリングが課題となっていた。
- 拡散モデルの計算コスト問題を解決し,より迅速かつ高精度な予測を実現すること。
- FlowCastは,条件付きフローマッチングを用いて,直接ノイズから降水データを生成する新しいモデルである。
- 実験の結果,FlowCastは確率的性能と予測精度において最先端の性能を達成した。
- CFMは,拡散モデルと比較して,より正確かつ効率的に予測を行うことが示された。
SynBullying:サイバーいじめ検出のためのマルチLLM合成会話データセット [cs.RO, cs.AI, cs.CL, cs.CY]目的:サイバーいじめ検出のための合成会話データセット
- オンラインにおけるコミュニケーションの増加に伴い,サイバーいじめの深刻化が社会問題となっている。
- 人間が作成したデータ収集には倫理的な課題があり,十分なデータ量の確保が困難である。
- LLMを活用し,倫理的かつ安全にサイバーいじめ検出モデルの学習データを提供すること。
- SynBullyingは,複数ターンの会話構造,文脈を考慮した有害性評価,詳細なラベル付けを備えたデータセットである。
- データセットの評価により,会話構造,語彙パターン,感情,役割関係,有害性の強さ,いじめの種類に関する特性が明らかになった。
- SynBullyingを学習データとして使用することで,サイバーいじめの分類性能が向上することが示された。
画像を超える洞察:心電図と解剖学的知識に基づく遅延ガドリニウム強調画像からの心筋瘢痕分割 [cs.CV, cs.AI]目的:心筋瘢痕の分割
- 心不全治療において,心筋の組織状態評価は重要である。
- 遅延ガドリニウム強調MRI画像はアーチファクトやコントラスト変動の影響を受けやすい。
- 心電図と解剖学的知識を統合し,より正確な瘢痕分割を目指す。
- 本研究では,心電図由来の生理学的情報と解剖学的情報を統合する新しいフレームワークを提案した。
- 時間依存型特徴融合機構により,異なる時間で取得された画像と心電図の特徴を動的に統合する。
- 臨床データセットにおいて,既存の画像のみのベースラインと比較して,Dice係数を0.6149から0.8463に大幅に向上させた。
大規模言語モデルベースの推薦システムに対するメンバーシップ推論攻撃:新たな知識蒸留に基づくパラダイム [cs.IR, cs.AI]目的:大規模言語モデルベースの推薦システムに対するメンバーシップ推論攻撃の有効性向上
- 推薦システムは,ユーザーの嗜好を学習して有用な情報を提供する重要な技術である。
- 推薦システムの学習データに含まれる個人のプライバシー保護が課題となっている。
- 大規模言語モデルを用いた推薦システムにおけるプライバシー攻撃のリスク評価と軽減を目指す。
- 本研究では,知識蒸留を用いて参照モデルを構築し,メンバーデータと非メンバーデータを区別する能力を高めた。
- 参照モデルから抽出した複数の特徴量を組み合わせることで,従来のシャドウモデルに基づく攻撃手法を大幅に上回る精度を達成した。
- 実験結果から,本手法が大規模言語モデル駆動型推薦システムに対する現実的なプライバシー攻撃の脅威となることが示された。
