arXiv雑要約
AI - 2026/03/27 公開
時間経過による敗血症モデリング:完全解釈可能な関係的アプローチ [cs.LG, cs.AI]目的:敗血症の時間的モデリング手法
- 集中治療における敗血症は複雑で多様であり,早期発見が重要である。
- 深層学習モデルは予測性能が高い一方,解釈性が乏しいという課題がある。
- 患者の潜在的なサブ表現型を考慮し,解釈可能な予測モデルを構築する。
- 本研究では,電子カルテデータを関係データスキーマとして表現する。
- 関係データからの特徴量を抽出し,解釈可能な特徴量へと変換する手法を提案した。
- 選択的ナイーブベイズ分類器を用いて分類を行い,高い解釈性を確認した。
PowerGenie:解析的指針による高性能再構成可能電力変換器の進化的発見 [cs.LG, cs.AR]目的:高性能再構成可能電力変換器の自動発見
- 電力変換器は,現代の電子機器において不可欠であり,効率向上は重要課題である。
- 従来の手法では,設計空間が広大であり,最適な回路トポロジーの探索が困難である。
- 既存のAI手法の限界を克服し,大規模な性能向上を伴う回路トポロジーの発見を目指す。
- PowerGenieは,解析的フレームワークと進化的手法を組み合わせることで,高性能な電力変換器を自動的に発見する。
- 発見された新規8モード再構成可能電力変換器は,最良の学習トポロジーと比較して23%高いFoMを示した。
- SPICEシミュレーションにより,平均10%の効率向上,単一モードでは最大17%の効率向上が確認された。
球面座標を用いた埋め込み圧縮 [cs.LG, cs.CV]目的:単位ノルム埋め込みの圧縮手法
- 機械学習モデルの規模拡大に伴い,埋め込みベクトルの格納・伝送コストが課題となっている。
- 従来の無損失圧縮手法では十分な圧縮率が得られず,効率的な運用が困難であった。
- 高次元ベクトルが球面座標で表現される特性を利用し,より高効率な圧縮を実現する。
- 本研究で提案する手法は,既存の最良の無損失圧縮手法と比較して1.5倍の圧縮率を達成した。
- 再構成誤差はfloat32の機械イプシロン内に収まり,実質的にオリジナルとの区別がつかないレベルである。
- テキスト,画像,マルチベクトル埋め込みを含む26の構成で一貫して圧縮率の向上が確認された。
双腕アクティブパーセプションによる探索的・集中的な操作:新たな問題,ベンチマーク,戦略 [cs.RO, cs.AI]目的:探索的・集中的な操作問題の提起と解決
- ロボットの視覚的認知において,カメラ位置による遮蔽が課題となる。
- 遮蔽による情報欠如が,タスク達成を困難にしている。
- タスク達成に必要な情報を能動的に収集する手法の確立。
- 新たなベンチマーク EFM-10 を構築し,探索と集中を要する操作タスクを定義した。
- 双腕アクティブパーセプション (BAP) 戦略を提案し,視覚と力覚の相乗効果を利用する。
- BAPData データセットを用いて,模倣学習による BAP 戦略の有効性を検証した。
腫瘍性管状腺腫の分類のためのXtraLight-MedMamba [cs.CV, cs.LG]目的:腫瘍性管状腺腫の分類
- 大腸癌は依然として主要な死因であり,早期発見と予防が重要である。
- 低悪性度異形成の評価は主観に頼り,正確なリスク分類が困難である。
- 計算病理と深層学習を用いて,微細な形態学的パターンを識別し,より正確な分類を目指す。
- XtraLight-MedMambaは,約32,000パラメータで97.18%の精度と0.9767のF1スコアを達成した。
- Transformerベースや従来のMambaアーキテクチャよりも優れた性能を示し,計算負荷が低い。
- リソースに制約のある環境での利用に適している。
単眼画像からのシェーディング系列推定による法線推定 [cs.CL, cs.CV, cs.AI]目的:単眼画像からの法線マップ推定
- 3次元形状理解は,ロボット工学やコンピュータビジョンの基盤技術である。
- 既存手法では,推定された法線マップの形状が実際の形状と一致しない場合がある。
- シェーディング系列推定という新しいアプローチでこの形状不一致問題を解決する。
- 本研究では,画像から動画生成モデルを用いてシェーディング系列を予測するRoSEを提案する。
- 予測されたシェーディング系列から,最小二乗法を用いて法線マップを算出する。
- 実験により,RoSEが既存手法を上回る性能を発揮することが示された。
AI検索要約がウェブサイトのトラフィックに与える影響:Google AI概要とWikipediaからの証拠 [cs.CY, cs.AI]目的:Google AI概要がWikipediaのトラフィックに与える因果的影響の推定
- 検索エンジンは情報収集の主要な手段であり,その変化はウェブサイトへのアクセスに大きな影響を及ぼす。
- 検索エンジンにおけるAI要約の導入は,ウェブサイトのトラフィック減少を引き起こす可能性があるという懸念がある。
- AI要約が情報提供元のトラフィックに与える影響を定量的に評価し,そのメカニズムを解明すること。
- Google AI概要の導入により,英語Wikipediaの記事への日々のトラフィックが約15%減少することが示された。
- 文化関連の記事ではトラフィックの減少が大きく,STEM関連の記事では減少幅が小さいことが確認された。
- 生成的な回答機能が検索エンジンにおいて,情報提供元へのトラフィックを再配分する可能性があることが示唆された。
科学教育におけるAIの現状:変化と対応 [cs.CY, cs.AI]目的:科学教育におけるAIの役割と影響
- 科学技術の進歩は,教育のあり方に大きな変革をもたらす可能性を秘めている。
- AI技術の導入は,教育における公平性,透明性,倫理的な問題を引き起こす可能性がある。
- AIを教育に適切に統合するための指針と原則を提示し,その課題を解決する。
- AI支援ツールは,個別最適化,効率化,公平性の向上に貢献し,批判的思考力,創造性,学際的協調性を育む。
- AIの倫理的,社会的,教育的課題に対処するため,公正性,科学的誠実性,民主的参加に基づいた責任と倫理原則(REP)フレームワークが不可欠である。
- AIは教師や学習者の代替ではなく,探求を支援し,評価を豊かにし,本格的な科学的実践へのアクセスを拡大するパートナーとして捉えるべきである。
疑似ラベリングと知識蒸留による自動コード認識の性能向上 [cs.CL, cs.SD, cs.IR, cs.LG, cs.MM]目的:自動コード認識の精度向上
- 音楽情報処理において,コード認識は楽曲分析や自動伴奏などの重要な要素技術である。
- 高品質なコード認識を実現するには,大量のアノテーション付きデータが必要だが,その作成コストが高い。
- 教師あり学習に加え,教師なしデータと知識蒸留を活用し,少ないアノテーションで高精度なコード認識を目指す。
- 事前学習済みモデルを教師として擬似ラベルを生成し,それを用いて学生モデルを学習することで,教師の性能に匹敵する精度を達成した。
- 学生モデルを,ground truthラベルで追加学習することで,従来の教師あり学習よりも高い性能を達成した。
- 特に,稀なコード品質の認識において,顕著な性能向上が認められた。
欠陥を見て修正する:エージェントによるデータ合成を通じて,視覚的アーティファクトを理解するVLMと拡散モデルの実現 [cs.CV, cs.AI]目的:視覚的アーティファクトの理解と軽減
- 拡散モデルの進歩により画像生成が可能になったが,リアリズムを損なう視覚的アーティファクトが残存する。
- 従来のアーティファクト対応手法は,高コストで拡張性に乏しい人間によるアノテーションに依存している。
- 自動化されたアプローチにより,信頼性の高いアーティファクトアノテーションデータセットを獲得すること。
- 提案手法ArtiAgentは,現実画像とアーティファクト注入画像ペアを効率的に生成する。
- ArtiAgentは,知覚エージェント,合成エージェント,キュレーションエージェントの3つのエージェントで構成される。
- 10万枚のアーティファクトアノテーション付き画像を合成し,多様なアプリケーションにおける有効性と汎用性を示す。
スケールからスピードへ:画像編集のための適応的テスト時スケーリング [cs.CV, cs.AI, cs.LG, eess.IV]目的:画像編集における効率と性能のトレードオフ改善
- 画像生成技術は発展を続け,多様な応用が期待される分野である。
- 画像編集は,生成画像全体の品質を保ちつつ,指示通りの編集を行うことが難しい。
- 編集難易度に応じたリソース配分と検証手法の改善を目指す。
- ADE-CoTは,編集難易度を考慮した動的なリソース配分により効率的な編集を可能にする。
- 編集領域の特定とキャプションの一貫性に基づく検証により,有望な候補を選択する。
- 意図に合致する結果が得られ次第に探索を停止することで,処理速度を向上させる。
アダムがSGDを上回る理由:二次のモーメント正規化がより鋭い尾部を生み出す [cs.LG, cs.AI]目的:アダムとSGDの収束性の理論的相違
- 機械学習における最適化手法は,モデルの性能を大きく左右するため重要である。
- アダムの経験的な収束速度はSGDより速いものの,理論的な保証はほとんど差がない。
- アダムの二次のモーメント正規化に着目し,収束性の違いを理論的に解明する。
- アダムは,信頼パラメータ$\delta$に対して$\delta^{-1/2}$の依存性を示す。
- SGDは,同様の確率的保証を得るには,少なくとも$\delta^{-1}$の依存性を伴う。
- この結果は,アダムとSGDの収束挙動に理論的な差異があることを初めて示す。
グラフ・オブ・マーク:グラフベースの視覚的プロンプトによるマルチモーダル言語モデルの空間推論能力の向上 [cs.CV, cs.AI]目的:マルチモーダル言語モデルにおける空間推論能力の向上
- 画像とテキストを理解するマルチモーダル言語モデルは,多様な応用で重要性が増している。
- 既存手法では,画像中のオブジェクトを独立に扱うため,オブジェクト間の関係性を捉えられない。
- シーングラフを用いてオブジェクト間の関係性を明示的に示すことで,空間推論能力の向上を目指す。
- 提案手法「グラフ・オブ・マーク」は,オブジェクトの位置と相対的な方向性の解釈において,ベースラインよりも最大11%の精度向上を示す。
- 3つのオープンソースのマルチモーダル言語モデルと4つのデータセットを用いて,幅広い実験を行い,有効性を検証した。
- グラフ構造に加え,テキストプロンプトに補助的なグラフ記述を加えることで,性能向上が確認された。
回顧的二重内在フィードバックによる解決から進化へ:RetroAgent [cs.AI]目的:大規模言語モデルエージェントにおける継続的適応と探索の促進
- LLMエージェントの性能向上は,様々なタスクへの適応能力に依存する。
- 従来の強化学習では,探索が限定的で,最適でない方策に収束しやすい。
- 過去の経験を明示的に再利用し,より効果的な自己改善を可能にする。
- RetroAgentは,外在的報酬と回顧的二重内在フィードバックにより,複雑な環境で優れた性能を示す。
- 実験の結果,ALFWorld,WebShop,Sokoban,MineSweeperといった様々なタスクで最先端の性能を達成した。
- SimUtil-UCBにより,テキスト経験の活用と探索のバランスが最適化され,汎化性能も向上した。
DMAストリーミングフレームワーク:高性能AIデータパスのためのカーネルレベルのバッファオーケストレーション [cs.AR, cs.AI, cs.DC]目的:AIデータパスにおける高性能なバッファオーケストレーション
- AI分野の発展に伴い,データ転送の効率化が重要な課題となっている。
- 既存のAI輸送ライブラリは,バッファ管理を前提としており,その部分がボトルネックとなる場合がある。
- カーネルレベルでのバッファオーケストレーションにより,データ転送の効率と信頼性を向上させる。
- dmaplaneは,カーネルUAPIを通じて安定したインターフェースを提供し,バッファライフサイクルを管理する。
- NUMAノード間ペナルティの測定や,RDMA負荷時のフロー制御の安全性を検証した結果,効率的なオーケストレーションが可能であることが示された。
- RDMA WRITE WITH IMMEDIATEを用いた分散推論のデモンストレーションにより,実用的な応用可能性が確認された。
消費者向けヘルスAIのトリアージ失敗における評価形式の影響 [cs.DB, cs.IR, cs.CL, cs.HC, cs.AI]目的:消費者向けヘルスAIのトリアージ精度に対する評価形式の影響の検証
- ヘルスケア分野におけるAI活用は,医療アクセスの向上や効率化に貢献しうる重要な技術である。
- 既存のAIトリアージシステムの評価方法は,実際の利用状況を反映していない場合があり,その精度を過小評価する可能性がある。
- 本研究は,より現実的な評価方法を用いることで,ヘルスAIのトリアージ精度を正確に評価し,安全性を確認することを目的とする。
- 自然な対話形式での評価は,従来の試験形式に比べ,トリアージ精度を6.4%向上させた (p = 0.015)。
- 選択肢形式の評価がトリアージ失敗の主な原因であり,自由記述形式では高い精度が確認された (p < 10^{-8})。
- 糖尿病性ケトアシドーシスについては,全てのモデルと評価条件で100%の精度で正しくトリアージされた。
動的適応的協調の理論 [cs.MA, cs.AI, econ.TH, math.DS]目的:持続的な環境記憶によって支配される適応的協調のダイナミクス
- 社会や経済システムにおいて,個々の行動が相互に影響し,複雑な協調関係を形成する点が重要である。
- 従来の協調理論では,最適化や学習に焦点を当て,環境の役割が十分に考慮されていない。
- 環境記憶とエージェントの適応的更新の相互作用から協調がどのように生まれるかを解明すること。
- 環境記憶を伴う閉ループシステムは,最適化に依存せず,安定な状態を維持する。
- 持続的な環境記憶によって,協調は静的な最適化に還元できないことが示された。
- 記憶依存型インセンティブとエージェントの更新の双方向結合が,協調の創発に不可欠な条件である。
ユーティリティ最大化プロンプティング:多目的大規模言語モデル最適化のための形式的フレームワーク [cs.CL, cs.AI]目的:多目的大規模言語モデルの最適化手法
- 大規模言語モデルの性能は,プロンプトの質に大きく左右されるため,効果的なプロンプト設計が重要である。
- 自然言語によるプロンプトは曖昧さを持ちやすく,特に複数目的を同時に達成しようとする場合に問題となる。
- 形式的な数学言語を用いてタスクを定義することで,曖昧さを解消し,より正確な最適化を可能とする。
- 本研究で提案するユーティリティ最大化プロンプティングは,大規模言語モデルに期待される効用を最大化する回答を導き出す。
- MovieLens 1Mデータセットを用いた実験で,最先端モデル(Claude Sonnet 4.6,GPT-4.5,Gemini 2.5 Pro)において,自然言語ベースラインと比較して,精度およびNDCGが向上した。
- この手法により,大規模言語モデルは各目的成分について明示的に推論し,主観的な解釈に頼らず,正確な最適化目標に向かって出力を導くことができる。
SemBench:LLM評価のための普遍的意味フレームワーク [cs.CL, cs.AI]目的:大規模言語モデルの意味理解能力の評価
- 自然言語処理の進歩はLLMに支えられているが,その真の意味理解の評価は重要である。
- 従来の評価ベンチマークはリソース集約的で,言語への制約があるという課題があった。
- 辞書による意味定義と文エンコーダを用いた,自動生成可能な評価フレームワークを提案する。
- SemBenchは,英語,スペイン語,バスク語で評価され,様々なLLMのランキングに一貫性が見られた。
- SemBenchから得られるランキングは,既存のWiCデータセットのランキングと高い相関関係にあった。
- 安定した評価を得るには,少ないサンプル数で十分であることが示された。
拡散ノイズにおける物理法則の探求 [cs.CV, cs.AI, cs.LG, cs.RO]目的:動画拡散モデルにおける物理的妥当性の予測信号の存在
- 物理シミュレーションの精度向上は,現実世界のモデリングにおいて不可欠である。
- 拡散モデル生成動画の物理的整合性は未解決の課題である。
- 拡散モデルの潜在表現から物理法則に関する情報を抽出・活用すること。
- 事前学習済みの拡散モデル中間表現において,物理的に妥当な動画とそうでない動画が分離可能であることが示された。
- この分離性は,視覚的品質や生成器の識別性だけでは説明できず,物理関連の信号が含まれていることが示唆された。
- 提案手法である逐次軌道選択は,推論コストを削減しつつ物理的な整合性を改善し,Best-of-Kサンプリングと同等の結果を達成した。
帰結主義的目標と破局 [cs.AI, cs.LG]目的:AIによる破局的結果の発生条件の形式化
- AIの発展は社会に大きな変革をもたらすが,その目標設定には慎重な検討が必要である。
- AIの目標設定が不完全である場合,意図しない行動を引き起こし,報酬ハッキングなどの問題が生じる。
- 高度なAI能力を持つAIが,固定された目標を追求することで,破局的な結果を招く可能性を解明する。
- AIが複雑な環境で固定された帰結主義的目標を追求する場合,破局的な結果が生じやすいことが示された。
- 破局的なリスクは,AIの能力不足ではなく,むしろ高度な能力によって引き起こされることが明らかになった。
- 破局を回避するためには,AIの能力を適切に制限することが有効であり,同時に望ましい結果をもたらす可能性がある。
MLLMによる360度画像認識:包括的ベンチマークと学習不要手法 [cs.CV, cs.AI]目的:360度画像に関するMLLMの認識能力の評価と向上
- 近年,MLLMは画像理解で高い性能を示すが,360度画像への対応は遅れている。
- 360度画像は歪みや複雑な空間関係があり,従来の画像処理では困難が生じる。
- 360度画像に対するMLLMの認識能力を向上させるための手法を開発する。
- 360Benchは,7K解像度の360度画像を対象としたVQAベンチマークであり,7つのタスクを含む。
- 実験の結果,既存のMLLMは360度画像認識において課題を抱えていることが明らかになった。
- Free360は学習不要で,シーングラフに基づくフレームワークにより360度VQAの性能を向上させる。
ロボットはいつ考えるべきか:強化学習によるリソースを意識した推論 [cs.RO, cs.AI, cs.LG]目的:埋め込み型ロボットにおける意思決定のためのリソースを意識した推論
- ロボットが複雑な環境で自律的に行動するには,高度な推論と計画が不可欠である。
- 大規模言語モデルを用いた推論は計算コストが高く,リアルタイム性に課題がある。
- 推論のタイミングとリソース配分を最適化し,効率的かつ信頼性の高いロボットを実現すること。
- RARRLは,強化学習を用いて推論を制御する階層的なフレームワークである。
- 実験結果から,RARRLはタスク成功率を向上させ,実行遅延を削減し,ロバスト性を高めることが示された。
- 適応的な推論制御は,信頼性と効率性に優れたロボットを構築するために不可欠である。
最小作用学習:ノイズデータからの物理法則同定のためのエネルギー制約型記号モデル選択 [cs.RO, cs.LG]目的:ノイズのある観測データから物理法則を同定すること
- 科学機械学習において,データから物理法則を発見することは重要な課題である。
- ノイズデータからの物理法則の同定は,信号対雑音比が低い場合に困難である。
- エネルギー制約を導入することで,ノイズに強く,解釈可能なモデル選択を目指す。
- MALは,軌道再構成,アーキテクチャの疎性,エネルギー保存の強制を組み合わせることで,物理法則の同定精度を向上させる。
- ケプラーの法則とフックの法則のベンチマークにおいて,MALは正しい物理法則を高い精度で復元し,予測誤差のみに基づく手法と比較してエネルギー消費量を40%削減した。
- エネルギー保存則に基づいた判定基準は,正しい物理法則を識別する上で決定的な役割を果たし,パイプラインレベルでの同定精度を100%に向上させた。
継続学習のための正しい弾性重み固定化 [eess.SY, cs.SY, eess.SP, cs.LG, cs.AI, cs.CV]目的:継続学習における破滅的忘却の緩和
- 機械学習モデルは新しいタスクを学習する際,過去の知識を忘れてしまうことがある。
- 既存の弾性重み固定化法は,重み重要度の推定に課題があり,性能が不十分である。
- 重み重要度の推定方法を修正し,継続学習の性能向上を目指す。
- 弾性重み固定化(EWC)がFisher情報行列に依存することで勾配消失や不正確な重み重要度推定が生じることを指摘。
- 提案手法Logits Reversal (LR)は,EWCの重み重要度推定を修正し,勾配消失と冗長な保護を効果的に防止する。
- 様々な継続学習タスクにおいて,提案手法LRは既存のEWCとその派生手法を大幅に上回る性能を示す。
RadioDiff-FS:少数ショット拡散モデルにおける物理情報に基づいた多様体アラインメントによる高精度電波マップ構築 [eess.SY, cs.LG, cs.SY]目的:高精度な電波マップの構築
- 次世代通信技術である6Gネットワーク計画において,空間的に連続的な電波伝搬特性の把握が不可欠である。
- 厳密な電磁界シミュレーションは計算コストが高く,データ駆動型モデルは大量のラベル付きデータと環境への汎化性能が課題となる。
- 少数の高精度サンプルのみを用いて,複雑なマルチパス環境における電波マップの適応を可能にすること。
- 提案手法RadioDiff-FSは,静的電波マップにおいて従来の拡散モデルと比較してNMSEを59.5%削減し,動的電波マップでは74.0%削減した。
- SSIMは0.9752,PSNRは36.37dBを達成し,限られた教師データ下でも高い性能を示した。
- 特に,1ショット設定においても,完全に教師あり学習を行ったベースライン手法を上回り,方向性制約の有効性を確認した。
非同期アクションを持つ多エージェントパスファインディングのための衝突ベース探索 [cs.AI]目的:多エージェントパスファインディングにおける,衝突のない最適経路の探索
- ロボットや群制御など,複数の主体が協調して動作する場面で不可欠な技術である。
- 従来のアルゴリズムは,全ての主体のアクションが同期して開始されるという制約があった。
- 非同期アクションを許容し,より現実的な環境での経路計画を可能にすること。
- 本研究では,理論的な不完全性の問題を回避し,完全性と最適性を保証するCBS-AAを提案した。
- CBS-AAに基づき,スケーラビリティを向上させるための衝突解決手法を開発した。
- 実験結果から,提案手法は探索空間の分岐数を最大90%削減できることが示された。
言語モデル間の線形アラインメントの特性評価 [cs.AI]目的:言語モデル間の線形アラインメントの可能性
- 異なる学習方法でも言語モデルが類似表現を獲得することに着目し,モデル間の相互運用性を高めることが重要である。
- セキュリティやプライバシーの制約により,データやモデルの共有が困難な状況が存在する。
- 独立に学習された言語モデル間の線形アラインメントによって,これらの課題を解決することを目指す。
- 異なるモデル間でも性能が維持されることが示された。
- 線形アラインメントによって,独立に学習されたモデル間でのテキスト生成が可能になる場合があることが初めて示された。
- プライバシー保護のためのクロスサイロ推論への応用可能性が示唆された。
人と機械:人工知能と司法判断 [cs.AI]目的:司法判断における人工知能の役割に関する総合的理解
- 司法判断の質向上と公平性確保は,法社会の根幹をなす重要な課題である。
- 司法判断における人間の認知バイアスや限界が,公平な判断を妨げる可能性がある。
- AIと人間の相互作用を理解し,司法判断へのAI導入を最適化すること。
- 刑事司法リスク評価を事例に,AIツールの性能・公平性,人間の判断特性,AIと人間の協働の様相を分析した。
- 既存研究では,AI判断支援ツールが pretrial や量刑決定に与える影響は限定的であることが示されている。
- AIと人間の比較研究を通じて,アルゴリズムと人間の意思決定プロセスに対する新たな知見を得ることが期待される。
ノード分類におけるスペクトルGNNはスペクトル的でも優れてもいない [cs.LG]目的:ノード分類のためのスペクトルグラフニューラルネットワークの理論的誤り
- グラフ構造データの解析は,ソーシャルネットワークや分子構造など,幅広い分野で重要性が増している。
- 従来のスペクトルGNNは,理論的な基盤に問題があり,その有効性の根拠が不明確である。
- 本研究は,スペクトルGNNの理論的欠陥を明らかにし,その実効性のメカニズムを解明する。
- スペクトルGNNの基盤となる「グラフフーリエ基底」は,古典的なフーリエ基底の性質を満たさないことが示された。
- GCNの有効性は,スペクトル的な低周波フィルタリングではなく,メッセージパッシングのダイナミクスに起因することが証明された。
- MagNetやHoloNetなどの代表的なスペクトルモデルは,実装上の問題により強力なMPNNとして機能しているに過ぎない。
胃癌分析のためのビジョン言語モデル発展に貢献するマルチモーダル多相ベンチマークデータセット Gastric-X [cs.CV, cs.AI]目的:胃癌分析のためのビジョン言語モデルの性能評価と理解
- 近年,医療分野においてもAI活用が期待される中,高精度な診断支援システムの構築が重要視されている。
- 既存のデータセットは臨床ワークフローを網羅的に捉えておらず,現実的な医療現場での応用が限定されている。
- 臨床ワークフローを反映した包括的なデータセットを提供し,胃癌診断におけるビジョン言語モデルの性能向上を目指す。
- Gastric-Xは,1700例の胃癌症例を含む大規模なマルチモーダルベンチマークデータセットである。
- データセットは,CT画像,内視鏡画像,生化学的指標,診断レポート,腫瘍領域のバウンディングボックスを含む。
- 主要なビジョン言語モデルの性能を,VQA,レポート生成,クロスモーダル検索などのタスクで評価した結果,現状では生化学的指標と画像特徴の関連性の理解に課題があることが示唆された。
ニューラル不確定性原理:敵対的脆弱性とLLMの幻覚の統一的見解 [cs.LG, cs.IT, math.IT, physics.comp-ph]目的:敵対的脆弱性および大規模言語モデルの幻覚の共通の幾何学的起源の解明
- 視覚と自然言語処理はAIの重要な分野であり,その信頼性は現実世界への応用において不可欠である。
- 既存の手法では,敵対的脆弱性と幻覚は別々の問題として扱われ,それぞれの問題に対応した対策が必要とされてきた。
- 本研究は,敵対的脆弱性と幻覚を統一的に理解し,信頼性を高めるための新しい手法を開発することを目的とする。
- 敵対的脆弱性と幻覚は,入力と損失勾配の共役可観測量に由来する不確定性境界によって共通の起源を持つことが示された。
- 提案手法ConjMask(高寄与入力成分のマスキング)とLogitReg(ロジット側正則化)は,敵対的訓練なしでロバスト性を向上させる。
- 設計したシングルバックワードプローブは,LLMにおける幻覚リスクをデコーディングなしで検出し,プロンプト選択に役立つ。
JANUS:分布最適化によるテキスト画像モデルの脱獄のための軽量フレームワーク [cs.CL, cs.CV, cs.LG]目的:テキスト画像モデルの脱獄手法
- テキスト画像モデルの安全性確保は重要である。有害または不適切なコンテンツ生成を防ぐ必要がある。
- 既存の脱獄攻撃は,真のend-to-endな最適化ではなく,大規模な計算コストを伴う場合がある。
- JANUSは,効率的な探索とターゲットセマンティクスの維持を通して,脱獄問題を解決することを目指す。
- JANUSは,テキスト画像モデルの安全フィルターを回避する脱獄攻撃を,分布最適化として定式化した。
- Stable Diffusion 3.5 Large Turboにおいて,ASR-8の成功率を25.30%から43.15%に向上させた。
- 本研究は,現在のテキスト画像モデルの安全パイプラインの構造的な弱点を明らかにし,より強固な防御策を促す。
mSFT:マルチタスクSFTにおけるデータセット混合の過学習への異種対応 [cs.IR, cs.HC, cs.OS, cs.DB, cs.LG, cs.AI]目的:マルチタスクSFTにおけるデータセット混合の過学習問題の解決
- 言語モデルの性能向上には,多様なデータセットを用いた学習が不可欠である。
- 既存手法では,データセットごとに学習速度が異なり,過学習や未学習が発生しやすい。
- 異なる学習速度を持つデータセットへの対応により,学習効率とモデル性能を最適化する。
- mSFTは,過学習を検出し,そのデータセットを除外することで,より効果的な学習を実現する。
- 10のベンチマークと6つのベースモデルで,4つのベースラインと比較して一貫して優れた性能を示した。
- 少ない計算資源でも性能向上と計算量の削減を両立できる実用的なアルゴリズムである。
MIRAGE:視覚的理解の幻想 [cs.AI]目的:視覚言語モデルにおける推論メカニズムの解明
- マルチモーダルAIは実用化が進むが,その内部動作は未だ不明な点が多い。
- 視覚情報を必要としない状況でも高い性能を示すモデルが存在し,評価の妥当性が問われている。
- モデルが視覚情報なしに推論する脆弱性を明らかにし,適切な評価手法を提案する。
- マルチモーダルAIモデルは,提示されていない画像に対しても詳細な記述や推論を生成する「mirage reasoning」という現象を示す。
- 画像入力なしでも,既存のベンチマークで高いスコアを獲得し,視覚情報の有用性に疑問を呈している。
- 明示的に回答を推測するように指示すると性能が低下し,視覚情報への依存が示唆された。B-Cleanという新たな評価手法が提案されている。
P^2O:共同方針とプロンプト最適化 [cs.LG, cs.AI]目的:大規模言語モデルの推論能力向上を目指す強化学習手法における効率的な探索
- 大規模言語モデルの推論能力向上は,自然言語処理の発展に不可欠である。
- 従来の強化学習は,成功率が低い困難なサンプルに対して効率的な学習が難しい。
- 困難なサンプルに対する密な正の教師信号を提供し,学習の収束を加速させる。
- 提案手法P^2Oは,プロンプト最適化と方針最適化を組み合わせることで,探索効率を改善する。
- P^2Oは,困難なサンプルを特定し,遺伝的パレート最適化(GEPA)を用いて効果的なプロンプトを生成する。
- 実験結果から,P^2Oは分布内データセットだけでなく,分布外ベンチマークにおいても優れた汎化性能を示す。
行動するタイミングの学習:予測的時系列構造を持つ間隔を意識した強化学習 [cs.LG, cs.AI]目的:最適な行動間隔の学習
- 連続環境における自律エージェントは,行動だけでなく行動時を選択する必要があり,その重要性が増している。
- 従来の強化学習では,行動タイミングが手動で設定されることが多く,最適な間隔を学習することが困難であった。
- 経験から最適な行動間隔を学習する適応的な時系列制御システムを開発し,行動タイミングの最適化を目指す。
- 双曲線拡散信号(カーバチャ信号)を用いることで,将来の不確実性を予測し,より早く行動するようになる。
- 間隔を意識した報酬関数を導入することで,タイミング問題における報酬の誤配分を修正し,効率的な学習を促進する。
- 空間情報を埋め込みに加えることで,双曲線拡散の平均値を高め,さらなる効率向上を実現した。
組み合わせのプライバシー:バーコフ多面体への隠蔽によるプライベートな多者間ビットストリームグランドサム [eess.SY, cs.SY, cs.HC, cs.ET, cs.HC, cs.CR, cs.LG]目的:プライベートなブール和の実現
- プライバシー保護技術は,データ利用における重要な課題であり,個人情報保護の観点から不可欠である。
- 既存のプライバシー保護プロトコルは,計算コストが高い,またはプライバシー保護の度合いが不十分である場合がある。
- 計算効率とプライバシー保護のバランスをとった,新たなプロトコルの開発が求められている。
- PolyVeilは,クライアントのプライベートビットをバーコフ多面体内の置換行列としてエンコードすることで,プライベートなブール和を実現する。
- 完全な形式では,集約者は永続的な式を通して\#P困難な尤度推論に直面するが,圧縮形式ではスカラーのみを観測する。
- 完全な形式と圧縮形式の間には,プライバシー保護と計算効率のトレードオフが存在し,両立する形式の実現は未解決の課題である。
航空機健全性診断のためのタスク分解フレームワーク:異種長・微小スケールカスケードによる安全性と効率性の両立 [cs.LG]目的:航空機健全性診断における安全性と効率性のバランス
- 航空機の安全性確保は最重要課題であり,早期の故障診断が不可欠である。
- 実際の航空機データはクラス不均衡や環境的不確実性が高く,診断精度が課題となる。
- 計算資源の制約下で,高精度かつ効率的な故障診断を実現すること。
- 提案手法であるLMSDは,グローバルな異常検知と微小スケールの故障分類を分離することで,受容野の矛盾を解消し,学習コストを削減する。
- 知識蒸留に基づく解釈モジュールにより,安全性が重要な検証における物理的に追跡可能な説明を提供する。
- NGAFIDデータセットを用いた実験により,安全性が重要な指標において4-8%の改善,学習速度は4.2倍向上,モデル圧縮率は46%向上することが示された。
SpecXMaster技術報告 [cs.LG]目的:NMR分子スペクトルの解釈自動化
- 物質構造とAIを結び,科学的発見を加速する上で,知的な分光法は不可欠である。
- 従来のスペクトル解釈は,専門家の主観や限界に依存し,精度と効率に課題があった。
- SpecXMasterは,NMRスペクトルの自動解釈により,これらの課題克服を目指す。
- SpecXMasterは,エージェント強化学習を用いて,1Hおよび13Cスペクトルから多重度情報を自動抽出する。
- 本手法は,生FIDデータから化学構造への完全自動解釈パイプラインを実現した。
- 公開ベンチマークにおいて優れた性能を示し,専門家による評価を通じて改良された。
セントラルドグマ変換器III:DNA,RNA,タンパク質を網羅する解釈可能なAI [cs.LG, q-bio.GN]目的:DNA,RNA,タンパク質を含むセントラルドグマ全体を対象とした,メカニズム志向型AIモデルの開発
- 生物学における複雑な細胞応答の予測にはAIが活用されているが,その学習表現は分子プロセスとの接続が希薄である。
- 既存のRNAのみを対象としたモデルでは,mRNAの変化とタンパク質レベルの変化の方向性の不一致が課題となっている。
- 本研究は,DNAからタンパク質への情報を統合することで,より正確な予測と解釈性を実現することを目指す。
- CDT-IIIは,RNAとタンパク質の予測においてそれぞれ高い相関係数(r=0.843,r=0.969)を達成した。
- タンパク質予測の追加はRNA予測の性能を向上させ,下流タスクが上流表現を正則化することを示した。
- CDT-IIIは,細胞応答の予測において,mRNAとタンパク質の変化の方向性の不一致を捉え,臨床的副作用を再現した。
有限関数概念クラスに対するラベル付き圧縮スキーム [cs.IT, cs.LG, math.IT]目的:有限関数概念クラスに対するラベル付き圧縮スキーム
- 機械学習において,効率的なデータ表現は学習性能に大きく影響する。
- VC次元の決定が困難な概念クラスが多く存在する。
- VC次元に基づいた圧縮スキームの構築を目指す。
- 有限関数概念クラスに対し,VC次元dに等しいサイズのラベル付き圧縮スキームを提示した。
- これにより,長年未解決だったサンプル圧縮予想が解決された。
環境マップ:長期的エージェントのための構造化された環境表現 [cs.AI]目的:複雑なソフトウェアワークフローの自動化における環境表現の構造化
- 長期的なタスク遂行において,環境の変化やエラーが積み重なる問題が重要である。
- エージェントは動的なインターフェースでの小さなミスによりタスクに失敗しやすく,幻覚や試行錯誤を引き起こす。
- 環境マップを用いて,環境の構造化された表現を構築し,エージェントのロバスト性を高める。
- 環境マップは,スクリーン記録や実行トレースなどの異種証拠を構造化グラフに統合する。
- WebArenaベンチマークにおいて,環境マップを用いたエージェントは,ベースラインと比較して成功率をほぼ2倍に向上させた。
- 環境マップは,人間が解釈可能で編集可能,かつ段階的に改善可能な長期計画の基盤を提供する。
ベイジアン潜在輸送による確率的幾何学的アラインメント:ドメイン適応型基盤モデルに向けて [cs.LG, cs.AI, math.OC, math.PR, stat.ML]目的:ドメイン適応型基盤モデルにおける確率的幾何学的アラインメント
- 基盤モデルの汎用性が高まる一方で,新しいドメインへの適応が課題となっている。
- 限られた教師データ下でのドメイン適応は,潜在分布の不一致や最適化の不安定性により困難である。
- 潜在空間における確率分布の幾何学的アラインメントを通じて,ドメイン適応の信頼性を高める。
- 提案手法は,潜在多様体の不一致を大幅に低減し,輸送エネルギーの減衰を加速させた。
- PAC-Bayesian正則化により,カタストロフィックな過学習を抑制し,モデルの複雑さを制御した。
- 境界付き事後不確実性の進化は,クロスドメイン転移時の確率的信頼性の向上を示唆している。
産業IoT向け多層MLベースセキュリティフレームワークの構築 [cs.CR, cs.LG]目的:産業IoT環境における軽量な機械学習ベースセキュリティフレームワーク
- 産業IoTの普及に伴い,重要インフラへのサイバー攻撃リスクが増大している。
- 従来のセキュリティ対策は単一レイヤーに限定され,コスト高かつ実環境での適用が困難。
- ネットワーク状況の悪化が信頼収束に与える影響を予測・軽減し,セキュリティ向上を図る。
- Tm-IIoTトラストモデルとH-IIoTアーキテクチャを基盤とし,機械学習による信頼収束加速手法(TCA)を提案。
- TCAは,ネットワーク状況の悪化に対する信頼収束時間を最大28.6%短縮し,敵対的行動への堅牢性を維持。
- 安価なオープンソースハードウェアを用いた実環境での展開アーキテクチャを提案し,物理層での脅威検知に向けた研究も進めている。
ニューロンレベルのドロップインと神経可塑性メカニズムによるディープフェイク音声検出の効率と性能の向上 [cs.SD, cs.AI]目的:ディープフェイク音声検出における効率と性能の向上
- 音声のディープフェイク検出は,セキュリティや信頼性確保において重要性が増している。
- モデルのパラメータ増加は計算コスト増大を招き,再学習が必要となるという課題がある。
- ニューロンの動的な調整により,パラメータ効率を高め,計算コストを削減することを目指す。
- 提案手法であるドロップインは,計算効率を改善することを示した。
- ドロップインおよび可塑性アプローチにより,ASVSpoof2019データセットにおいて,それぞれ最大約39%と66%の等価エラー率の相対的な削減を達成した。
- 本研究は,ResNet,GRU,Wav2Vecを含む様々なアーキテクチャで有効であることを確認した。
AI-Supervisor:持続的な研究世界モデルによる自律的なAI研究監督 [cs.AI]目的:AI研究の監督
- AI技術の進歩は目覚ましいが,研究開発の効率化が課題となっている。
- 既存の自動研究システムは,研究状況の理解が断片的で,一貫性に欠ける。
- 研究知識の構造化と継続的な更新を通して,AI研究の自律性と効率性を高める。
- AI-Supervisorは,知識グラフとして実装された「研究世界モデル」を維持し,研究状況を継続的に進化させる。
- 構造化されたギャップ発見,自己修正型の発見ループ,自己改善型の開発ループという3つのアーキテクチャ貢献がある。
- 複数のエージェントが合意形成メカニズムのもとで協調し,人間が関心を持つ分野の研究を自動的に監督する。
Composer 2 技術報告 [cs.SE, cs.LG]目的:エージェント型ソフトウェアエンジニアリングのためのモデル
- ソフトウェア開発の自動化は,生産性向上とコスト削減に不可欠である。
- 既存モデルは,複雑な長期計画や正確な複数段階実行が困難である。
- 現実的なコーディング問題に対する推論能力と一貫性を向上させる。
- Composer 2は,従来のComposerモデルと比較してCursorBenchで大幅な精度向上(61.3)を達成した。
- 公開ベンチマークにおいて,Terminal-Benchで61.7,SWE-bench Multilingualで73.7のスコアを獲得し,最先端システムと同等の性能を示した。
- 本研究は,ドメイン特化型モデルを効果的に学習するためのプロセスを示す。
高次元におけるsignSGDのリスク曲線:事前条件付けとノイズ圧縮効果の定量化 [quant-ph, cs.FL, stat.ML, cs.LG]目的:signSGDのリスク曲線に関する解析
- 最適化アルゴリズムは機械学習の根幹であり,その効率化は重要である。
- signSGDは単純化されたモデルだが,その理論的理解は困難であった。
- signSGDの事前条件付けとノイズ圧縮効果を定量的に明らかにすること。
- 高次元極限において,signSGDを記述するSDEとODEを導出した。
- 実効学習率,ノイズ圧縮,対角事前条件付け,勾配ノイズの再形成の四つの効果を定量化した。
- 解析結果は実験的観察と一致し,データとノイズ分布への依存性を定量的に示した。
物理情報に基づく進化:シュレーディンガー方程式を含む量子制御問題解決のための進化フレームワーク [quant-ph, cs.AI, cs.SY, eess.SY]目的:量子制御問題に対する物理情報組み込み進化戦略
- 量子制御は,量子技術の実現に不可欠であり,精密な制御手法が求められている。
- 従来の最適化手法では,物理法則を考慮した効率的な探索が課題となっていた。
- 物理法則を進化計算の適応度関数に組み込み,探索効率と解の精度を向上させる。
- 提案手法PIEは,適応度関数に物理情報を組み込むことで,進化探索を効率的に導く。
- シミュレーション結果から,PIEは高精度かつロバストな量子制御パルスを生成することが示された。
- 物理情報に基づくアプローチは,ニューラルネットワーク以外にも進化計算全般に適用可能であることが示唆された。
