arXiv雑要約
AI - 2026/03/27 公開
最適化された特徴ピラミッドと深層ネットワークを用いた作物分類のための説明可能なアンサンブル学習フレームワーク [cs.LG, cs.AI]目的:作物分類の精度向上と,その根拠の提示
- 気候変動や土壌劣化により,農業は困難を増しており,データ駆動型アプローチが求められている。
- 複雑な機械学習モデルでは,予測根拠が不明確であり,農業現場での信頼性が低い。
- 土壌や気候データに基づき,作物の適性を予測するための,説明可能なモデルを構築する。
- 提案するアンサンブル学習モデルは,98.80%という高い精度,適合率,再現率,F1スコアを達成した。
- 特に,土壌pH,窒素,亜鉛といった特徴量が,作物の適性に重要な影響を与えることが明らかになった。
- このフレームワークは,複雑なモデルの解釈可能性を高め,持続可能な農業を支援する。
ビジョン言語モデルにおける疎な視覚思考回路 [cs.AI]目的:ビジョン言語モデルにおける疎な視覚思考回路のモジュール性
- マルチモーダルモデルの解釈可能性向上は,AIの信頼性と安全性確保に不可欠である。
- 疎な自動エンコーダの潜在特徴量が,推論のためのモジュール化された構成要素を形成するか不明である。
- 疎な視覚思考回路の局所化と,そのモジュール性の検証を通じて,VLMの制御可能性向上を目指す。
- タスク選択的な特徴集合への介入は,ある程度の精度向上をもたらすものの,複数の集合を組み合わせると出力のずれや精度低下が生じる。
- これは,特徴量の組み合わせが活性化シフトを増幅する共有内部経路の存在を示唆している。
- Qwen3-VL-8Bを用いて再現可能な因果パイプラインを構築し,タスクタイプ情報がデコーダーの中間層に存在することを確認した。
分布外汎化のためのチャネルレベル疎性化によるドメイン不変特徴の学習 [cs.CV, cs.AI]目的:分布外汎化性能の向上
- 画像解析システムの性能評価において,分布外汎化能力は重要な指標である。
- 深層学習モデルはドメイン固有の情報に依存しやすく,汎化性能を阻害する。
- 因果的特徴と不要な特徴を分離し,モデルの表現力を高めることを目指す。
- 提案手法Hierarchical Causal Dropout (HCD)は,チャネルレベルの疎性化により,因果的特徴と非因果的特徴を分離する。
- MMI目的関数とStyleMix-driven VICRegモジュールにより,ドメインラベルとの相互情報を最小化し,クラスラベルとの情報を最大化する。
- 実験結果から,HCDは既存手法と比較して優れた分布外汎化性能を示すことが確認された。
ピクセルは:ピクセルを用いた推論,知覚から行動へ [cs.CV, cs.AI]目的:ピクセル空間におけるエージェントの学習
- 視覚と言語を組み合わせたAIの発展は,現実世界とのインタラクションにおいて重要である。
- 既存のシステムは静的な観察者であり,行動や環境変化への適応が限定的である。
- ピクセル単位での操作を通じて,環境に適応可能なAIエージェントを開発すること。
- Pixelisは,画像や動画に対して直接操作を行うことで,汎化性能の高い視覚的知能を実現した。
- 学習は,教師ありファインチューニング,好奇心と一貫性を重視した報酬ファインチューニング,テスト時の強化学習の3段階で行われる。
- 6つのベンチマークにおいて,既存のモデルと比較して平均+4.08%の性能向上を達成し,短い実行可能なツールチェーンを生成した。
降雨流出モデルのためのプロセス認識型AI:水文プロセス制約を持つ質量保存ニューラルフレームワーク [cs.IR, cs.LG]目的:降雨流出モデルにおける予測性能と解釈性の向上
- 水文モデリングは,水資源管理や洪水予測において不可欠な要素である。
- 機械学習モデルは予測精度が高いが,物理的解釈性に欠ける場合がある。
- 物理制約を組み込んだAIフレームワークによる,解釈可能な水文モデリングの実現。
- プロセスの物理構造を段階的に組み込むことで,予測性能が一般的に向上することが示された。
- 水文気候によって,プロセスの影響が異なり,垂直排水は乾燥地や積雪域で効果的であった。
- 本研究で得られた最良のモデルは,Long Short-Term Memoryと同等の予測性能を示し,物理的解釈性を維持した。
ElephantBroker:信頼できるAIエージェントのための知識に基づいた認知ランタイム [cs.AI]目的:AIエージェントの信頼性を高めるための認知ランタイムシステム
- 大規模言語モデルを活用したAIエージェントの応用が拡大しており,その信頼性が重要になっている。
- 既存のAIエージェントの記憶システムは,情報の信頼性や出所を追跡する機能が不十分である。
- 情報の信頼性と検証可能性を向上させ,安全で監査可能なAIエージェントを実現することを目指す。
- ElephantBrokerは,Neo4jナレッジグラフとQdrantベクトルストアを統合し,AIエージェントに永続的かつ検証可能な記憶を提供する。
- このシステムは,情報の保存,検索,評価,合成,保護,学習を含む完全な認知ループを実装している。
- 広範なテストスイートにより,サブシステムの正しさが確認され,様々な展開構成に対応できることが示された。
最適化コントローラとしての大規模言語モデル:SIMPトポロジー最適化のための適応的継続 [cs.CE, cs.AI]目的:SIMPトポロジー最適化におけるオンライン適応コントローラとしての大規模言語モデルの活用
- 構造最適化は,軽量化と性能向上に不可欠であり,工学設計において重要な役割を担う。
- 従来のトポロジー最適化は,パラメータ調整の固定スケジュールに依存し,柔軟性に欠ける場合がある。
- 大規模言語モデルを用いて,最適化過程の状態に応じてパラメータをリアルタイムに調整し,最適化性能を向上させる。
- 大規模言語モデルをコントローラとして用いた結果,全てのベンチマーク問題において,固定スケジュールと比較して最終的なコンプライアンスが $-5.7\%$ から $-18.1\%$ 改善された。
- 大規模言語モデルによるリアルタイム介入が最適化の改善に貢献しており,スケジュールのみの変更では性能向上が見られなかった。
- 得られた解は完全に二値化されており,実用的な設計への応用が期待できる。
論理的独占から社会契約へ:権力分立と自律型エージェント経済の制度的基盤 [cs.MA, cs.AI, cs.CR, cs.DC]目的:自律型エージェント経済の制度的基盤
- 多エージェントシステムは社会システムの設計に不可欠であり,経済,社会,技術における自律性の理解を深める。
- 既存のシステムでは,エージェントが計画,実行,評価を一元的に行う「論理的独占」の問題が存在し,信頼性やセキュリティが脆弱である。
- エージェント間の権力分立に基づいた社会契約の枠組みを構築し,システムの信頼性と安全性を向上させる。
- 本研究は,エージェントを法的に識別可能な事業体として捉え,立法,執行,司法の三権分立を導入する「AE4E」パラダイムを提案する。
- このパラダイムは,ガバナンスハブ,TEE,プライバシー保護データブリッジ,エージェントネイティブブロックチェーンなどの技術基盤によって実現される。
- 実験結果から,AE4Eパラダイムが攻撃成功率を大幅に削減し,欺瞞的な行動を抑制し,システムの安定性を高めることが示された。
層特異なリプシッツ変調による耐障害マルチモーダル表現学習 [cs.LG, cs.AI]目的:耐障害マルチモーダル表現学習のための数学的枠組み
- 産業や安全性が求められる環境では,センサー故障時の信頼性が重要である。
- マルチモーダルシステムは,部分的なセンサー故障に弱いという課題がある。
- 本研究は,センサー故障時にも安定した学習を実現することを目指す。
- 提案手法は,局所的な異常信号を潜在空間に保存するマルチモーダル畳み込みオートエンコーダを事前学習する。
- 層特異なリプシッツ変調と勾配クリッピングにより,検出・修正モジュールの感度を制御する。
- 実験結果から,センサー破損下での異常検知精度と再構成性能が向上することが示された。
MoireMix:画像分類のロバスト性を向上させるための数式に基づくデータ拡張 [cs.CV, cs.AI]目的:画像分類モデルのロバスト性向上
- 画像認識の性能は,データ量と多様性に大きく依存する。
- 既存のデータ拡張手法は計算コストが高いか,外部データが必要となる場合がある。
- 計算コストを抑え,外部データを用いずにロバスト性を向上させる手法を提案する。
- 提案手法MoireMixは,モアレ干渉を利用した軽量なデータ拡張を実現する。
- MoireMixはImageNet-C,ImageNet-R等のベンチマークで既存手法を上回るロバスト性を示す。
- 数式に基づいた干渉パターンは,データ駆動型生成手法への効率的な代替案となる。
SEVerA:自己進化型エージェントの検証合成 [cs.LG, cs.PL, cs.SE]目的:自己進化型エージェントの安全性と正当性の形式的な保証
- 近年,プログラム修復や科学的発見において自己進化型LLMエージェントの有効性が示されており,その重要性が増している。
- 既存の自己進化型エージェントフレームワークは,安全性や正当性の形式的な保証を提供しておらず,信頼性やセキュリティ上の懸念がある。
- 形式的な制約とタスクの有用性を組み合わせることで,エージェント生成における安全性と正当性を確保し,高品質なエージェントを合成すること。
- SEVerAは,形式的な行動制約を導入することで,制約違反ゼロを達成し,既存の手法と比較して性能を向上させた。
- 形式的な制約は,正当性を保証するだけでなく,より高品質なエージェントの合成を促進する。
- Dafnyプログラム検証,記号数学合成,ポリシー準拠のエージェントツール使用など,様々なタスクで有効性が確認された。
LLMは自身の知識を理解しているか:信号検出理論によるメタ認知効率の測定 [cs.CL, cs.AI]目的:大規模言語モデルのメタ認知効率の評価
- LLMの性能向上は目覚ましいが,その信頼性評価には課題が残る。
- 既存の評価指標は,モデルの知識量と自己認識能力を区別できていない。
- 信号検出理論を用いて,LLMの知識量と自己認識能力を分離し,評価する。
- モデルによってメタ認知効率に大きな差があり,知識量(d')が高いモデルでも,自己認識(M-ratio)が低い場合がある。
- メタ認知効率は分野によって異なり,集約的な評価指標では見えないモデルごとの弱点も明らかになった。
- 温度調整はType-2基準を変化させるが,メタ認知能力(meta-d')は安定しており,信頼度設定と能力は異なることが示された。
文脈によって変化するセンシング:触覚Few-Shot Class-Incremental Learningのための文脈変換 [cs.AI]目的:触覚Few-Shot Class-Incremental Learningにおける文脈変化への対応
- ロボットの触覚センシングは,物体の認識や操作において重要であり,その性能向上は産業界や学術界で求められている。
- Few-Shot Class-Incremental Learningは,限られたデータで学習するため,センシング環境の変化に弱いという課題がある。
- 本研究は,触覚センシングにおける環境変化の影響を軽減し,Few-Shot Class-Incremental Learningの性能を向上させることを目指す。
- 提案手法CaT-FSCILは,センシング文脈を低次元構造と高次元残差に分解することで,文脈変化へのロバスト性を実現した。
- 低次元構造は可逆的な文脈変換としてモデル化し,擬似的な文脈整合性損失によって最適化することで,特徴量の標準化を促進する。
- 高次元残差は,不確実性条件付きプロトタイプ較正(UCPC)により,バイアスのあるプロトタイプと決定境界を補正することで軽減される。
MCLMR:マルチ行動推薦のためのモデル非依存因果学習フレームワーク [cs.DC, cs.RO, cs.IR, cs.AI]目的:マルチ行動推薦における因果学習フレームワークの構築
- ユーザー行動の多様性を活用し,推薦精度向上とデータスパースネス問題解決が期待される分野である。
- 既存手法では,ユーザー行動習慣やアイテム行動分布からの交絡効果のモデル化が不十分である。
- 交絡効果の除去と行動表現の整合性を図り,偏りのない推薦を実現することを目指す。
- MCLMRは,様々な推薦モデルに組み込めるモデル非依存の因果学習フレームワークである。
- 因果グラフの構築と介入により,交絡効果を考慮した偏りのない嗜好推定を実現している。
- 実験結果から,既存手法と比較して有意な性能向上を確認し,有効性と汎用性が示された。
ロバスト主成分補完 [cs.CV, cs.LG]目的:低ランク成分とスパース成分の抽出
- 画像処理やデータ解析において,データの低次元表現を求めることは重要である。
- 従来のRPCAでは,スパース成分が背景を覆い隠す場合,正確な分離が困難であった。
- スパース成分のサポートを間接的に決定することで,よりロバストな分離を実現する。
- 提案手法(RPCC)は,ベイズ確率的テンソル分解を用いてスパース成分のサポートを推定する。
- シミュレーションデータおよび実データ(カラービデオ,ハイパースペクトルデータ)において,高い性能が確認された。
- 従来のRPCA手法と比較して,後処理における閾値設定が不要となる。
RubricEval:指示応答におけるLLMジャッジのルーブリックレベルメタ評価ベンチマーク [cs.AI]目的:大規模言語モデルの指示応答におけるルーブリックレベル評価の信頼性評価
- LLMの性能評価は,その応用を拡大する上で不可欠であり,客観性と再現性が求められる。
- ルーブリック評価は広く用いられるが,ジャッジの判断精度に関する検証は十分ではない。
- ルーブリックレベルでの評価精度の検証を通じて,信頼性の高い評価手法を確立すること。
- RubricEvalベンチマークにより,GPT-4oでも難易度の高い問題集において55.97%の正答率にとどまることが示された。
- ルーブリックレベル評価はチェックリストレベル評価よりも優れており,明示的な推論は精度向上に寄与する。
- 確立されたルーブリック分類により,評価における一般的な失敗パターンが特定され,改善策の指針が得られた。
SAVe:視覚的アーティファクトと音声・視覚の不整合を利用した自己教師ありの音声・視覚ディープフェイク検出 [cs.RO, cs.SY, eess.SY, cs.CV, cs.AI, cs.LG, cs.MM, cs.SD]目的:音声・視覚ディープフェイクの検出
- ディープフェイク技術の進歩に伴い,その検出が重要性を増している。
- 既存の検出器は,合成データに依存し,汎化性能が低い場合がある。
- 本研究は,認証データのみを用いた自己教師あり学習による検出手法を提案する。
- SAVeは,顔領域における自己ブレンディング擬似操作を生成し,多様な視覚的特徴を学習する。
- また,音声と口元の同期ずれを検出する音声・視覚アライメントコンポーネントを導入する。
- FakeAVCelebとAV-LipSync-TIMITデータセットで,高い性能と汎化能力を示す。
FD$^2$: ファインチ grained データセット蒸留のための専用フレームワーク [cs.CV, cs.AI]目的:ファインチ grained データセット蒸留の性能向上
- 大規模データセットの取り扱いは,計算資源や時間コストがかかるため,効率的なデータ圧縮技術が求められている。
- 従来のデータセット蒸留は,粗いクラスラベルに基づき,クラス内サンプルが類似しやすく,識別力の低下を招く。
- 識別的な特徴を抽出し,クラス内多様性を確保することで,ファインチ grained データセットにおける蒸留性能の向上を目指す。
- FD$^{2}$は,識別的な領域を特定し,ファインチ grained な表現を構築することで蒸留を行う。
- カウンターファクチュアルアテンション学習によりクラスプロトタイプを更新し,サンプルとプロトタイプ間の整合性とサンプル間の多様性を確保する。
- 複数のデータセットにおける実験により,FD$^{2}$が既存手法を上回り,高い汎化性能を示すことが確認された。
ビデオとテキストの整合性のためのキャプションチェーンのランク学習 [cs.CV, cs.LG]目的:ビデオとテキストの整合性に関するキャプションチェーンのランク付け
- 映像と言語の連携は,AIのマルチモーダル理解において重要であり,様々な応用を可能とする。
- 既存のDPOは二値評価であり,視覚情報への忠実度を十分に考慮できない場合がある。
- 視覚情報への忠実度を考慮したランク学習により,より高品質なビデオとテキストの整合性を実現する。
- ランク学習は,長文コンテンツの生成と評価において,二値DPOよりも優れた性能を示すことが確認された。
- 効果的なランク学習のためには,視覚エンコーダのファインチューニングが不可欠であることが示唆された。
- 繰り返しキャプション劣化により,大規模なランキングデータセットを生成する手法が提案された。
AI生成コードの品質に影響を与える要因:実証的証拠の統合 [cs.SE, cs.AI]目的:AI生成コードの品質に影響を与える要因の体系的統合
- ソフトウェア開発において,AI技術の導入が加速しており,その影響は大きい。
- AI生成コードの品質,信頼性,セキュリティに対する懸念が,学術界と産業界で高まっている。
- AI生成コードの品質を向上させるための要因を特定し,ソフトウェア品質への影響を分析すること。
- AI支援開発におけるコード品質は,人間の要因,AIシステムの特徴,および人間とAIの相互作用によって影響を受けることが明らかになった。
- プロンプト設計,タスク仕様,開発者の専門知識が,品質に影響を与える主要な要因として特定された。
- AI生成コードは有望であるものの,開発ワークフローへの慎重な検証と統合が求められる。
音声の良し悪し評価における音素時間アラインメント不要化 [cs.CL, cs.AI, cs.HC, cs.LG]目的:音声評価のための特徴量抽出手法
- 音声評価は,言語学習や音声認識の精度向上に不可欠であり,その自動化が求められている。
- 低リソース言語においては,音声認識モデルの学習データが不足しており,評価システムの構築が困難である。
- 弱学習モデルを活用し,低リソース言語への音声評価の適用を容易にすることを目指す。
- 弱学習モデルの出力と音素混乱ネットワークをマッピングすることで,音素ポステリアを算出する手法を提案。
- 音素レベルではなく語レベルでの話速と持続時間を採用し,フレームレベルと音素レベルの特徴量をクロスアテンション機構で統合。
- 英語とタミル語のデータセットで,標準的なフレーム同期特徴量と同等の性能を達成。
UniAI-GraphRAG:オントロジー誘導抽出,多次元クラスタリング,および二重チャネル融合によるロバストなマルチホップ推論 [cs.AI, cs.IR]目的:複雑な推論,マルチホップクエリ,およびドメイン固有のQAにおけるRetrieval-Augmented Generation(RAG)システムの性能向上
- RAGシステムは,知識集約型タスクにおいて重要であり,大規模言語モデルの能力を拡張する。
- 既存のGraphRAGフレームワークは,業界間の適応性,コミュニティ報告の整合性,検索性能に限界がある。
- UniAI-GraphRAGは,これらの課題を克服し,より堅牢なマルチホップ推論を実現することを目指す。
- UniAI-GraphRAGは,オントロジー誘導抽出,多次元コミュニティクラスタリング,二重チャネルグラフ検索融合という3つの革新的な要素を導入した。
- MultiHopRAGベンチマークにおける評価により,UniAI-GraphRAGは,F1スコアにおいて,LightRAGなどの主流のオープンソースソリューションを上回る性能を示した。
- 特に,推論と時間的なクエリにおいて顕著な性能向上が認められた。
フォトニクス:効率的なマルチモーダル大規模言語モデルによるボリューム理解の高速化 [cs.CV, cs.AI]目的:3D画像における臨床的な視覚的質疑応答タスクの高速化
- 医療画像診断の精度向上は,患者ケアの質を向上させる上で不可欠である。
- 3D医療画像の処理には計算コストが高く,大規模言語モデルの応用が制限されている。
- 計算コストを削減しつつ,3D医療画像の情報を損失なく活用することを可能にする。
- フォトニクスは,可変長のトークン列を用いて3D医療ボリュームを表現するフレームワークである。
- 指示に応じたトークンスケジュールと代理勾配伝播により,学習時と推論時の両方でトークン数を削減する。
- 様々な医療視覚的質疑応答タスクにおいて,最先端の精度を達成しつつ,リソース使用量を削減し,学習と推論を高速化する。
ビジョン・ホップフィールドメモリネットワーク [cs.LG, cs.AI, cs.CV, stat.ML]目的:ビジョン・ホップフィールドメモリネットワークの提案
- 画像,テキスト等の統合モデリングが可能な基盤モデルが発展している。
- 既存モデルは脳の計算原理から遠く,大量の学習データと解釈性の低さが課題。
- 解釈性とデータ効率に優れた脳にヒントを得た基盤モデルの構築。
- V-HMNは,階層的なメモリ機構と反復的な洗練更新を統合した脳にヒントを得た基盤モデルである。
- V-HMNは,既存のself-attentionやstate-spaceモデルと比較して,優れた解釈性,データ効率,生物学的妥当性を示す。
- 本研究は,次世代のビジョン基盤モデル,さらにはマルチモーダル基盤モデルへの応用可能性を示唆する。
軌跡からスキルへ:転移可能なエージェントスキルへの軌跡局所的な教訓の蒸留 [cs.AI]目的:LLMエージェントのドメイン固有のスキル
- 複雑なタスク解決には,LLMエージェントへのドメイン固有スキルの組み込みが不可欠である。
- 手動によるスキル作成はスケーラビリティが低い。自動生成は,知識の浅さや過学習により脆い結果になりがちである。
- 広範な実行経験を分析し,それを統合的なガイドとして蒸留することで,この問題を解決する。
- Trace2Skillは,既存のスキルを深化させ,ゼロから新しいスキルを作成できる。
- 実験結果から,Trace2Skillは強力なベースラインを大きく上回り,LLMの規模や未知の環境への汎化性能も高いことが示された。
- 複雑なエージェントの経験を,パラメータ更新や外部検索モジュールを必要とせずに,高度に転移可能な宣言的なスキルとしてパッケージ化できる。
PIDP攻撃:検索拡張生成システムに対するプロンプトインジェクションとデータベース汚染の組み合わせ [cs.CR, cs.AI]目的:検索拡張生成システムに対する新たな複合攻撃手法
- 大規模言語モデルの応用範囲拡大に伴い,最新知識の維持と誤情報の抑制が重要課題となっている。
- 既存のデータベース汚染攻撃は,具体的な質問内容の事前知識を必要とし,柔軟性に欠けるという問題がある。
- 質問内容の事前知識なしに,大規模言語モデルの応答を操作する攻撃手法を開発する。
- 本研究で提案するPIDP攻撃は,プロンプトインジェクションとデータベース汚染を組み合わせることで,質問内容に関わらず応答を操作できる。
- 実験の結果,PIDP攻撃は既存のPoisonedRAGよりも攻撃成功率が4%から16%向上し,高い検索精度を維持することを確認した。
- 複合攻撃戦略の有効性と必要性が実証された。
熱放射モデリングによる赤外物体検出のための知識誘導敵対的学習 [cs.CL, cs.CV, cs.AI]目的:赤外物体検出におけるロバスト性の向上
- 複雑な環境下での応用と安定性が求められる赤外物体検出の重要性
- 赤外物体検出は,一般的な破損や敵対的サンプルに脆弱であるという問題
- 赤外画像の特性を考慮したロバスト性の改善を目指す
- 提案手法KGATは,赤外物理知識を敵対的学習プロセスに組み込むことで,予測結果を実際の物理法則と整合させる。
- 3つの赤外データセットと6つの主流モデルを用いた実験により,KGATがクリーンな精度とロバスト性を効果的に向上させることが示された。
- 異なるクラス間の熱放射関係は,敵対的サンプルや一般的な破損に対して信頼できる知識源となりうる。
移動する学習限界での訓練:効率的な大規模推論モデルの強化学習のためのオンライン検証プロンプト選択 [cs.CL, cs.LG, cs.AI]目的:大規模推論モデルの効率的な強化学習のためのプロンプト選択
- 大規模言語モデルの推論タスクにおいて,強化学習は不可欠な手法となっている。
- ロールアウトの拡張は訓練の安定化と性能向上に寄与するが,計算コストが課題である。
- 高有用度なプロンプトを事前に選択することで,計算効率を改善することを目指す。
- 実験的分析から,学習信号は「学習限界」に集中することが明らかになった。
- HIVEは,履歴報酬とプロンプトエントロピーを用いて,データ効率の良いプロンプト選択を実現する。
- 複数の数学的推論ベンチマークにおいて,HIVEは性能を損なうことなく,ロールアウト効率を大幅に向上させた。
知識誘導検索拡張生成によるゼロショット精神医療データ:プライバシー保護合成データ生成 [cs.LG]目的:精神医療におけるプライバシーを保護した合成データ生成
- 医療研究におけるAI活用は,患者数の増加や臨床医の支援に貢献する可能性を秘めている。
- 実際の患者データへのアクセス制限が,AI研究の進捗を妨げる課題となっている。
- 実際のデータが利用できない状況下でも,高品質な合成データ生成を目指す。
- 知識ベース(DSM-5,ICD-10)を用いたLLMによる生成は,既存のCTGANやTVAEと比較して遜色ない性能を示す。
- 分離不安障害と社交不安障害において,知識誘導LLMはペアワイズエラーを最小化する。
- 臨床知識の活用が,単変量およびペアワイズの忠実度向上に寄与し,プライバシーリスクも抑制される。
LLMにおける安定した内部信念の欠如の探求 [cs.CL, cs.AI]目的:LLMにおける一貫性の維持
- 対話システムにおける人間らしい人格の実現には,一貫した行動傾向が不可欠である。
- 現在のLLMは,長期的な対話における応答を固定する安定した内部表現を欠いている。
- 本研究は,LLMが明示的な目標設定なしに一貫性を維持できるかを検証する。
- LLMは,秘密裏に目標を選択し,「はい/いいえ」で答える謎解きゲームにおいて,潜在的な一貫性を保てないことが明らかになった。
- LLMの暗黙的な「目標」は,文脈として選択された目標が明示的に与えられない限り,ターン間で変化する。
- これらの結果は,人格駆動型LLMの構築における重要な限界を示しており,時間経過に伴って暗黙的な目標を固定するメカニズムの必要性を強調している。
多岐にわたる会話におけるLLMの臨床診療ガイドライン検出と遵守に関する10年規模のベンチマーク [cs.HC, cs.CL, cs.AI]目的:LLMの臨床診療ガイドライン検出および遵守能力の評価
- 医療現場において,エビデンスに基づいた意思決定と患者アウトカムの改善には,臨床診療ガイドラインが不可欠である。
- LLMが医療に活用されつつあるが,会話の中でガイドラインをどの程度認識し,遵守できるかは不明である。
- LLMがガイドラインを正確に検出し,実践に役立てる能力のギャップを明らかにし,安全な活用を促進する。
- CPGBenchにより,LLMは推奨事項の71.1%-89.6%を検出できるものの,関連するタイトルを正しく参照できるのは3.6%-29.7%に留まることが判明した。
- ガイドラインの内容を知っていることと,その出典を理解していることの間には大きな差があることが示唆された。
- ガイドラインの遵守率はモデルによって21.8%から63.2%と幅があり,知識と応用の間のギャップが示された。
AI支援が安全工学にもたらす限界:理論と範囲 [cs.AI, cs.ET, cs.HC, cs.RO, cs.SE]目的:AI支援による安全分析の質的向上と,それに伴う潜在的な盲点の特定
- 物理AIシステムの安全確保は重要であり,その過程における安全工学の役割は不可欠である。
- 安全工学においては,絶対的な安全性の証明が難しく,専門家の意見も分かれる場合がある。
- AI支援が安全分析に与える影響を定量的に評価し,AIの適切な活用方法を提示すること。
- AI支援は,単なるツール導入ではなく,人間とAIの協調設計が重要であることが示された。
- AIが生成した分析結果に頼りすぎると,人間側の思考が狭まり,重要な視点を見落とす可能性がある。
- 安全性の高いワークフローを構築することで,AI支援による潜在的なリスクを軽減できると考えられる。
自由形状密度推定のためのCDF優先フレームワーク [cs.LG]目的:自由形状密度推定における課題解決
- 機械学習において,点予測を超えた分布全体のモデリングは重要である。
- 確率密度関数を直接推定する方法は,データからのノイズ増幅の問題を抱える。
- 安定した累積分布関数を推定し,そこから確率密度関数を導出することでこの問題を解決する。
- 提案手法は,確率密度関数の直接推定における不安定性を回避し,有効なPDFを保証する。
- SMMネットワークを用いた累積分布関数のパラメータ化により,複雑な分布形状を保持し,近似尤度学習を可能にする。
- 多変量出力に対しては,SMM因子を用いた自己回帰分解を用いることで,高い性能を発揮する。
レイヤー適応型O.O.D補正による長時間動画生成 [cs.DB, cs.CE, cs.CV, cs.AI]目的:長時間動画生成における視覚品質劣化問題の解決
- 動画生成技術は,エンターテイメント,教育,コミュニケーションなど,多様な分野で重要性が増している。
- 事前学習済みの拡散モデルを長時間動画に適用すると,視覚品質が著しく低下するという課題がある。
- フレームレベルとコンテキスト長における分布外(O.O.D)問題を解決し,高品質な長時間動画生成を実現する。
- 本研究では,学習を必要としないFreeLOCフレームワークを提案し,VRPRとTSAの2つの主要な技術を導入した。
- FreeLOCは,レイヤー適応型プロービングメカニズムにより,各TransformerレイヤーのO.O.D問題への感度を特定し,効率的な適用を可能にする。
- 実験結果から,FreeLOCが既存手法を大幅に上回り,時間的一貫性と視覚品質の両面で最先端の結果を達成することが示された。
AIネイティブ6Gネットワークのための無線ワールドモデル [cs.NI, cs.AI, eess.SP]目的:無線チャネルの時空間的進化の予測
- 6GはAIとの融合が不可欠であり,物理層へのAI統合が重要視されている。
- 既存のデータ駆動型アプローチは,電磁波伝搬の理解不足から環境変化への適応が困難である。
- 3D形状と信号ダイナミクスの因果関係をモデル化し,汎化性能の高いAIを実現する。
- 提案する無線ワールドモデル(WWM)は,大規模なレイトレーシングデータで事前学習を行い,データ信憑性の問題を克服した。
- WWMは,チャネル状態情報,3D点群,ユーザー軌跡を統合し,多様なタスクで最先端モデルを上回る性能を示した。
- これにより,物理世界に適応する物理情報に基づいた6Gインテリジェンスの実現が可能となる。
特徴ノイズ下におけるロバストなサポートベクターマシン高速学習のためのギャップセーフスクリーニングルール [cs.HC, cs.LG, math.OC]目的:ロバストなサポートベクターマシンの学習複雑度削減
- 機械学習において,ノイズの影響を軽減し,信頼性の高いモデル構築が重要である。
- ロバストSVMは計算コストが増大する点が課題であった。
- 学習サンプルを安全にスクリーニングし,計算量を削減すること。
- 本研究で提案するスクリーニングルールは,最適解を損なうことなく学習時間を大幅に短縮することを示した。
- ロバストSVM特有の構造から,ラグランジュ双対性を用いてスクリーニングルールを導出した。
- 不確実性集合がマージン超平面の片側に完全に存在すると保証されるサンプルを安全に特定できる。
翻訳か,それとも暗唱か? 非常に低リソース言語の機械翻訳における評価スコアの較正 [cs.CL, cs.LG]目的:非常に低リソース言語の機械翻訳の性能評価におけるスコアの文脈化
- 低リソース言語の機械翻訳研究は,言語資源が限られた言語の翻訳精度向上に不可欠である。
- 言語ペア間での性能比較が難しく,評価結果の解釈に曖昧さが残るという問題がある。
- データセット固有の特性が評価スコアに与える影響を明らかにし,より透明性の高い評価を可能にすること。
- 提案されたFRED指標(F, R, E, D)は,性能のばらつきの多くが,学習データとテストデータの重複や事前学習の影響によるものであることを示唆した。
- 特に絶滅言語や非ラテン文字の言語では,トークン化の網羅性が低いことが,高リソース言語からのモデル転移における根本的な限界となっていることが明らかになった。
- これらの指標をスコアと併せて提供することで,クロスリンガル転移の評価がより信頼性の高いものとなる。
WebTestBench:エンドツーエンドの自動Webテストに向けたコンピュータ利用エージェントの評価 [cs.HC, cs.SE, cs.AI, cs.CL, cs.MA]目的:エンドツーエンドの自動Webテストを評価するためのベンチマーク
- LLMの登場により自然言語でのプログラミングが可能となり,Web開発の自動化が進んでいる。
- 既存手法は静的な視覚的類似性や事前定義されたチェックリストに依存し,汎用性に欠ける。
- Webアプリケーションの機能が確実に実装されているか自動で検証する手法の確立を目指す。
- WebTestBenchは,多様なWebアプリケーションカテゴリーに対応した包括的な評価基準を提供する。
- LLMを用いた自動テストにおいて,テストの網羅性不足,欠陥検出のボトルネック,長期的相互作用の信頼性不足が明らかになった。
- 現在のコンピュータ利用エージェントの能力と産業利用のニーズの間には大きな隔たりが存在することが示された。
バングラデシュにおける一般的な皮膚疾患の画像データセットと機械学習モデルによる性能評価 [cs.CV, cs.LG]目的:バングラデシュにおける一般的な皮膚疾患検出のための画像データセット
- 皮膚疾患は世界的な公衆衛生上の課題であり,専門家による診断が不可欠である。
- バングラデシュでは皮膚科医や診断機器が不足しており,適切な診断と治療が困難である。
- 機械学習を用いて皮膚疾患を画像から自動検出することを目指す。
- バングラデシュの患者から収集した1612枚の画像からなるデータセットを公開する。
- 接触皮膚炎,白斑,湿疹,疥癬,輪癬の5つの一般的な皮膚疾患に焦点を当てている。
- 様々な機械学習および深層学習モデルをデータセットに適用し,分類性能を報告した。
オフライン決定トランスフォーマーによるニューラル組合せ最適化:巡回セールスマン問題におけるヒューリスティクスを凌駕 [cs.LG]目的:巡回セールスマン問題に対するニューラル組合せ最適化戦略
- 組合せ最適化問題は産業界で重要だが,NP困難であり効率的な解法が求められている。
- ニューラル組合せ最適化は有望だが,オンライン強化学習に依存し,既存のアルゴリズム知識の活用が不十分である。
- ヒューリスティクスのデータセットから学習し,既存の知識を超える性能を実現すること。
- 提案手法は,訓練データに含まれる4つの古典的なヒューリスティクスよりも高品質なツアーを生成することが示された。
- ポインタネットワークを統合することで,ノード選択のインスタンス依存性のある可変アクション空間に対応した。
- Return-to-Goの楽観的条件付けにexpectile回帰を用いることで,最適な値が大きく変動するインスタンスにも対応した。
FluxEDA:ステートフルなエージェント型EDAのための統合実行基盤 [cs.AR, cs.AI]目的:エージェント型EDAのための統合実行基盤
- EDAの自動化は,設計効率向上と複雑化への対応に不可欠である。
- 従来の連携はスクリプトレベルに留まり,ツール状態の維持が困難である。
- 本研究は,ツール状態を維持し,反復最適化を可能にする基盤を提供する。
- FluxEDAは,状態管理されたゲートウェイベースの実行インターフェースを提供する。
- これにより,エージェントはツール状態を維持しながら異種EDAツールと連携できる。
- ポストルートタイミングECOや標準セルサブライブラリ最適化のケーススタディで有効性が確認された。
FEAST:空間トランスクリプトミクスに対する完全結合型表現注意機構 [cs.CV, cs.AI]目的:空間トランスクリプトミクスにおける遺伝子発現予測の精度向上
- 組織構造や複雑な疾患の理解に不可欠だが,コストが高く普及が限られている。
- 既存手法は,定義済みの疎なグラフに依存し,潜在的な相互作用を見落とす構造的限界がある。
- すべてのスポットペア間の相互作用を考慮し,生物学的相互作用をより正確にモデル化すること。
- FEASTは,既存の最先端手法を上回り,遺伝子発現予測において高い性能を示した。
- 負の相互作用を考慮する注意機構により,標準的な注意機構では見過ごされがちな重要な関係性を捉えた。
- 中間領域からの追加画像サンプリングにより,より豊かな形態学的コンテキストを獲得し,情報損失を軽減した。
活性は重要である:Vision-LanguageモデルにおけるOOD検出のためのテスト時に活性化される負ラベル [cs.CV, cs.AI, cs.LG]目的:分布外(OOD)検出における負ラベルの活性化方法
- 画像と言語を組み合わせたモデルの応用が広がり,未知のデータに対する安全性確保が重要になっている。
- 既存手法では,OODデータの特性を捉えきれない負ラベルが存在し,検出精度が課題となっている。
- テスト時のデータに基づいて負ラベルを動的に選択し,OOD検出性能の向上を目指す。
- 提案手法TANLは,テストデータ中の活性化レベルを評価し,高活性な負ラベルを動的にマイニングする。
- 過去のテストサンプルを活用し,テスト分布に適応的に負ラベルを選択することで,より高い検出性能を実現する。
- ImageNetベンチマークにおいて,TANLは誤検知率(FPR95)を17.5%から9.8%に大幅に低減した。
説明の正確性は重要か?計算論的XAI評価と人間の理解の関連性 [cs.HC, cs.AI, cs.LG]目的:説明の正確性と人間の理解の関連性
- AIの利用拡大に伴い,AIの判断根拠の説明が求められている。
- XAIの評価指標と人間の理解度との間に乖離がある可能性がある。
- 説明の正確度が人間の理解に与える影響を定量的に検証する。
- 説明の正確性が低下すると,AIの判断パターンの学習者の割合が減少した。
- 正確性が100%の場合と比べて,70%および55%でパフォーマンスが低下したが,それ以下では追加の低下は見られなかった。
- 自己申告の評価とパフォーマンスは,説明が完全に正確で学習者がパターンを習得した場合にのみ相関関係が認められた。
MolQuest:化学構造解明における仮説演繹的推論のエージェント的評価のためのベンチマーク [cs.CL, cs.AI]目的:化学構造解明における仮説演繹的推論のエージェント的評価
- 科学研究の加速化にLLMの活用が期待される一方,その能力を客観的に評価する手段が不足している。
- 既存の評価ベンチマークは静的な質疑応答形式が中心で,実験的相互作用を伴う複雑な科学タスクの評価には不向きである。
- 本研究は,実験データに基づいた対話型タスクを通してLLMの戦略的科学的推論能力を評価するフレームワークを提供する。
- MolQuestは,実際の化学実験データを用いて,分子構造解明を多段階の対話型タスクとして定式化している。
- 最先端モデルであっても,本ベンチマークにおける正答率は50%程度であり,多くのモデルは30%を下回る結果となった。
- 本研究は,LLMの科学的推論能力に課題があることを示し,今後のAI研究の方向性を示唆している。
複数月間の軌跡異常検知のためのハイパースペクトル軌跡画像 [cs.CV, cs.LG]目的:複数月間の軌跡データにおける異常検知手法
- 不正検知や都市の移動分析など,様々な応用分野において軌跡異常検知は重要である。
- 高密度GPSデータは詳細な証拠を保持するが計算コストが高く,長期分析が困難である。
- 高密度・低密度両方の軌跡データを統合的に扱える,新たな異常検知手法を確立すること。
- 本研究では,軌跡をハイパースペクトル軌跡画像として表現することで,異常検知を画像認識問題として扱う手法TITAnDを提案した。
- 提案手法は,既存のスパースデータおよび高密度データを用いたベンチマークにおいて,最高のAUC-PRスコアを達成した。
- また,Transformerと比較して11〜75倍高速であり,メモリ使用量も同程度に抑えられている。
フォグコンピューティングにおけるリソースプロビジョニングにおける回避攻撃の軽減 [cs.CR, cs.LG]目的:フォグネットワークのリソースプロビジョニングに用いられるk-meansアルゴリズムに対するモデル改ざん攻撃の脆弱性軽減
- フォグコンピューティングは,エッジデバイスに近い場所での計算処理を可能にし,応答速度向上や帯域幅削減に貢献する。
- 機械学習モデルを用いたリソースプロビジョニングは,攻撃者によるモデル改ざんの標的となりやすい。
- 本研究は,敵対的学習によるモデルの堅牢性を高め,回避攻撃からの安定性を確保することを目的とする。
- 提案手法は,リソースプロビジョニングシステムの安定性を攻撃に対して効果的に維持することを示した。
- オンライン分類器に対する敵対的学習による防御が有効であることが確認された。
- クエリベースのリバースエンジニアリングによる攻撃への対策として,プロアクティブな堅牢化が重要である。
グリッド近似によるニューラルネットワークの確率的抽象解釈 [cs.AI]目的:ニューラルネットワークの入力分布の解析
- ニューラルネットワークの安全性やロバスト性の保証は,社会実装において不可欠である。
- ニューラルネットワークへの入力は無限に存在し,網羅的なテストが困難である。
- 無限入力に対するニューラルネットワークの振る舞いを,効率的に解析する手法を確立する。
- 確率的抽象解釈をニューラルネットワークに適用することで,入力分布の変化を解析可能となった。
- 抽象ドメインとムーア・ペンローズ擬逆行列,抽象変換子を組み合わせることで,理論的枠組みが構築された。
- 実際の課題への適用例を通して,本手法の有効性が示された。
CRAFT:部分情報下におけるマルチエージェント協調 [cs.CL, cs.AI]目的:大規模言語モデルにおける実用的なコミュニケーションの評価
- AIエージェントの協調は,現実世界の複雑な問題を解決する上で不可欠である。
- 部分情報下での協調は,エージェント間の知識の共有と理解が困難である。
- 言語モデルによるマルチエージェント協調の課題を明確化し,改善策を探る。
- 大規模言語モデルにおいて,推論能力の向上と協調性の向上が必ずしも相関しないことが示された。
- 小規模なオープンウェイトモデルが,最先端モデルと同等またはそれ以上の協調能力を示す場合がある。
- 現在の言語モデルは,マルチエージェント協調において未解決の課題を抱えている。
ニューラルネットワーク解析における確率的抽象解釈のための分布とクラスタ近似 [cs.CL, cs.AI]目的:ニューラルネットワークの解析手法
- 深層学習の安全性の保証は重要であり,その検証には形式手法が求められている。
- ニューラルネットワークの入力空間は広大であり,その解析は計算量的に困難である。
- ニューラルネットワークの解析を効率化するための抽象化手法の提案。
- 本研究では,分布近似とクラスタ近似という二つの新しい近似手法を提案した。
- これらの手法は,理論的な考察と簡単な例を用いて,抽象変換器とともに説明されている。
- これにより,ニューラルネットワークの密度分布フローを効率的に解析することが期待される。
