arXiv雑要約
AI - 2026/03/19 公開
EHR統合型LLM活用による外科患者トリアージツールの展開と評価 [cs.CY, cs.AI]目的:外科患者の共同診療(SCM)対象患者のトリアージ自動化可能性の検証
- 外科領域では,患者の複雑な状態を考慮したチーム医療が重要視されている。
- 適切なSCM対象患者の手動選別には,多大な労力と時間がかかる。
- LLMを活用し,SCM対象患者のトリアージを効率化することで,医療現場の負担軽減を目指す。
- LLM統合型トリアージツール(SCM Navigator)は,高い感度(0.94)を示し,SCM対象患者を見逃す可能性が低いことが示された。
- 特異度は中程度(0.74)であり,偽陽性が発生する可能性があるが,その多くは臨床基準やワークフローの改善で対応可能であると示唆された。
- 本研究は,LLMを活用したトリアージシステムが,外科患者のSCM対象選別を支援し,医療ワークフローの自動化に貢献する可能性を示した。
AIエージェントのためのグラフネイティブ認知メモリ:バージョン管理メモリアーキテクチャに対する形式的な信念修正意味論 [cs.AI, cs.IR, cs.LO]目的:AIエージェントの認知メモリアーキテクチャの形式的な基礎付け
- AIエージェントの性能向上には,長期的な知識の効率的な管理が不可欠である。
- 既存のメモリシステムは,アーキテクチャの統合や形式的な保証が不足している。
- 信念修正の形式理論を用いて,認知メモリの整合性と推論能力を向上させる。
- Kumihoは,グラフネイティブな認知メモリアーキテクチャであり,AGM信念修正の公理を満たすことを形式的に証明した。
- LoCoMoベンチマークにおいて,高いF1スコア(0.565)と敵対的拒否精度(97.5%)を達成した。
- LoCoMo-Plusベンチマークでは,93.3%の判定精度を達成し,既存のベースラインモデルを大幅に上回った。
医療ビジョン言語埋め込みにおける円錐効果とモダリティギャップ [cs.LG]目的:医療分野におけるビジョン言語モデルのモダリティギャップの影響評価
- 医療画像診断支援など,医療分野でのマルチモーダル学習の重要性が高まっている。
- ビジョンと言語の表現空間の分離(モダリティギャップ)が,学習性能を阻害する要因となりうる。
- モダリティギャップの程度を調整し,最適な分離度を見つけることが目的である。
- 事前学習済みのモデルを再学習することなく,ハイパーパラメータ調整によってモダリティギャップを制御する手法を提案した。
- モダリティギャップの過度な縮小は必ずしも最適ではなく,タスクに応じた適切な分離度が重要であることが示された。
- モダリティギャップは普遍的に最小化されるべき量ではなく,調整可能な表現特性であるという知見が得られた。
量子アニーリング最適化のための二値潜在タンパク質適合度景観 [cs.LG, q-bio.QM]目的:タンパク質の適合度景観のモデリングと最適化
- タンパク質工学は,医薬品開発や材料科学において重要な役割を担う。
- タンパク質の適合度景観は複雑であり,効率的な探索が困難である。
- 量子アニーリングを用いて,タンパク質の最適化を加速することを目指す。
- Q-BIOLATは,タンパク質の適合度景観における構造を捉え,高適合度変異体の特定を可能にした。
- 単純な二値化スキームを用いながらも,トレーニング適合度分布の上位に位置する近傍配列を再現的に取得できた。
- 進化探索は高次元の潜在空間で優位性を示し,局所探索は現実的な配列の保存において競争力を維持した。
病理を考慮したマルチビュー対照学習による患者独立型ECG再構成 [cs.LG, cs.AI]目的:患者独立なECG再構成の精度向上
- 心電図は不整脈診断の基礎であり,医療現場での重要性は高い。
- 従来のECG再構成手法では,患者の解剖学的差異や病理が考慮されにくい。
- 病理情報を活用することで,より高精度なECG再構成を目指す。
- 提案手法は,既存の最先端モデルと比較して,患者独立な設定でRMSEを約76%削減した。
- PTB Diagnostic Databaseを用いたクロスデータセット評価により,高い汎化性能が確認された。
- ハードウェアの可搬性と診断レベルの再構成の両立に貢献する。
ノイズラベルに対する変分修正推論 [cs.SI, cs.CY, cs.LG]目的:ノイズラベルに対する学習におけるロバスト性の向上
- 現実世界のデータセットにはラベルノイズが頻繁に存在し,深層モデルの性能低下の原因となる。
- 既存手法はメタ学習を利用するが,モデル崩壊が起こり,汎化性能が低下する可能性がある。
- 損失関数への適応的な修正を,変分推論問題として定式化し,モデル崩壊を防ぐことを目指す。
- 変分修正推論(VRI)を提案し,損失関数の修正ベクトルを潜在変数として扱う階層ベイズモデルを構築した。
- VRIは,変分項を導入することで,条件付き事後分布の推定精度を向上させ,モデル崩壊を回避する。
- 実験結果から,VRIはノイズラベルに対するロバスト学習において,特にオープンセットノイズの存在下で有効であることが示された。
DANCE:動的3次元CNNプルーニング:エッジにおけるエネルギー効率のためのフレーム,チャネル,特徴の適応 [cs.CV, cs.AI]目的:3次元CNNにおけるエネルギー効率の最大化
- 動画・画像処理においてCNNは重要な役割を果たすが,計算資源の制約がある。
- 入力サンプルの計算複雑さに応じて動的に適応できず,エネルギー消費が大きい。
- 入力に応じて動的にプルーニングを行い,エネルギー効率を向上させる。
- 提案手法DANCEは,性能への影響を最小限に抑えつつ,電力効率を大幅に向上させる。
- AVAにより,ネットワーク全体のニューロン活性化の分散を増加させ,プルーニングを容易にする。
- AAPにより,フレーム,チャネル,特徴を動的にプルーニングし,MAC演算とメモリアクセスを削減する。Jetson NanoとSnapdragon 8 Gen 1での検証で高速化とエネルギー効率の向上が確認された。
現代的な順序分類のための分類器プーリング [cs.LG, stat.ME]目的:順序データの分類手法
- 臨床分野をはじめ,様々な分野で順序データが利用されている。
- 順序データに対応した現代的な機械学習手法やソフトウェアが不足している。
- 順序データに対して,既存の分類手法を適用可能にする手法を開発する。
- 提案手法は,非順序分類手法よりも優れた性能を示すことが多い。
- 特に,データ数が少ない場合や,結果のクラス数が多くの場合に有効である。
- 本研究で開発したソフトウェアは,より強力な機械学習アルゴリズムの活用を促進する。
物語生成における一貫性とスタイル制御のためのファインチューニング手法 [eess.SY, cs.SY, cs.CV, cs.AI]目的:物語生成における一貫性とスタイル制御
- 物語視覚化は,感情に訴えかける表現を可能にする重要な技術である。
- 既存手法では,登場人物の不整合やアイデンティティの変動が課題となっていた。
- 登場人物と視覚的スタイルの一貫性を高めることによって物語生成の品質向上を目指す。
- 提案手法では,Group-Shared Attention (GSA)というメカニズムを導入し,フレーム間のアイデンティティの一貫性を構造的に符号化している。
- Direct Preference Optimization (DPO)を活用することで,視覚的な忠実性とアイデンティティの保存を同時に強化している。
- ViStoryBenchでの評価により,Character Identity (CIDS)とStyle Consistency (CSD)で最先端の結果を達成した。
デジタルデザイン教育におけるGenAIユニット [cs.CY, cs.AI]目的:デジタルデザイン教育のためのGenAIユニットリポジトリの構築と活用
- チップ設計教育は高度な専門知識を要し,実践的な学習環境の整備が不可欠である。
- 従来の教育方法では,最新のAI技術を習得するための教材や環境が不足している。
- GenAIを活用した教材を提供し,実践的なスキル習得を支援することで,教育の質を向上させる。
- GUIDEリポジトリは,Google Colabラボや教材を含むオープンな教育リソースとして構築された。
- 標準化された教育ユニットを用いることで,学生の学習体験の一貫性と,教員の教材再利用・評価の容易性を実現した。
- VeriThoughts,LLMを活用したテストベンチ生成,LLMPirateなど,具体的なユニットの活用事例と,4つのコース事例が示された。
WINFlowNets:ロボット工学および機械的故障適応のための生成フローネットワークのウォームアップ統合ネットワーク学習 [cs.DB, cs.RO, cs.LG]目的:生成フローネットワークの共同学習手法
- ロボット制御は自動化の重要な要素であり,複雑な環境への適応が求められる。
- 従来の強化学習はサンプル効率が悪く,動的な環境への適応が困難である。
- 事前学習に依存せず,動的環境下での迅速な適応を可能にする手法の開発。
- WINFlowNetsは,既存のCFlowNetsおよび最先端の強化学習アルゴリズムを平均報酬と学習安定性の両面で上回る。
- WINFlowNetsは,故障環境下で優れた適応能力を示し,限られたサンプルデータでの適応に適している。
- 本研究の成果は,動的かつ故障しやすいロボットシステムへのWINFlowNetsの展開可能性を示唆する。
言葉から世界へ:機械翻訳における異文化理解のベンチマーク [cs.CL, cs.AI]目的:文化的に背景依存的な表現の機械翻訳における性能評価
- 自然言語には文化的な背景を反映した表現が多く,翻訳の質を左右する重要な要素である。
- 既存のベンチマークは断片的であり,文化的な要素を含む翻訳の評価体系が確立されていない。
- 文化的な背景を考慮した表現の翻訳におけるモデルの弱点を特定し,評価指標を改善すること。
- 大規模言語モデルの評価を通じて,文化的な背景依存的な意味の保持が課題であることが示された。
- 既存の自動評価指標では捉えきれない,文化的なニュアンスのずれを検出するための補完的な評価指標が提案された。
- 文化的な背景依存的な表現を網羅したCulT-Evalベンチマークとコードが公開された。
対照的推論アラインメント:隠れ表現からの強化学習 [cs.AI, cs.CL, cs.LG]目的:脱獄攻撃に対する堅牢性を向上させるためのモデルの推論能力と隠れ表現を活用する,レッドチーム型アラインメントフレームワーク
- 大規模言語モデルの安全性確保は,社会実装において不可欠であり,悪意ある攻撃への対策が急務である。
- 既存の防御策は主に最終出力に焦点を当てており,モデル内部の推論プロセスにおける安全性を確保できていない。
- 隠れ状態空間における最適化を通じて,安全を意識した推論軌跡を生成し,推論レベルでの安全アラインメントを実現する。
- CRAFTは,Qwen3-4B-ThinkingとR1-Distill-Llama-8Bを用いた評価において,IPOやSafeKeyなどの最先端の防御策を凌駕する性能を示した。
- ベースモデルと比較して,推論の安全性において平均79.0%,最終応答の安全性において87.7%の改善が確認された。
- 潜在テキストの一貫性をGRPOに組み込むことで,表面的にアラインメントされたポリシーを局所最適解として排除できることが示された。
交響曲:長編動画理解のための認知に着想を得たマルチエージェントシステム [cs.CL, q-bio.NC, cs.CV, cs.AI]目的:長編動画理解における推論能力の向上
- 動画理解は,AIの応用範囲を広げる上で重要であり,特に長編動画の理解は困難な課題である。
- 既存のマルチモーダル大規模言語モデルエージェントは,情報密度が高く時間的な広がりが長い長編動画の理解に苦戦している。
- 本研究は,人間の認知パターンを模倣することで,複雑な長編動画の理解を可能にする。
- Symphonyは,長編動画理解を細粒度のサブタスクに分解し,リフレクション機能を強化した深い推論協調メカニズムを組み込む。
- 動画内の関連性の高いセグメントを特定するためのVLMベースのグラウンディングアプローチを提供し,複雑な問題を正確に特定する能力を向上させる。
- 実験結果から,SymphonyはLVBench,LongVideoBench,VideoMME,MLVUで最先端の性能を達成し,LVBenchで前述の手法を5.0%上回る。
ReLMXEL:説明可能なエネルギーおよび遅延最適化を備えた適応型強化学習ベースのメモリコントローラ [cs.AR, cs.AI, cs.LG, cs.MA, cs.SY, eess.SY]目的:メモリコントローラのパラメータの動的最適化
- 現代の計算において,メモリシステムの効率向上が不可欠であり,遅延とエネルギー消費の削減が重要である。
- 従来のメモリ制御手法では,多様なワークロードへの適応が難しく,最適な性能を引き出せない場合がある。
- ワークロード固有のメモリアクセス特性に基づいて,メモリコントローラを自動的に最適化し,説明可能性を高める。
- ReLMXELは,報酬分解を用いた説明可能なマルチエージェントオンライン強化学習フレームワークである。
- 実験の結果,多様なワークロードにおいて,ベースライン構成と比較して一貫した性能向上が確認された。
- 学習プロセスに説明可能性を組み込むことで,制御決定の透明性を高め,説明責任のある適応型メモリシステム設計を可能にする。
情報密度:効率的な推論のための情報豊富なトレースへの報酬 [cs.AI, cs.CL]目的:大規模言語モデルにおける推論の効率化
- 複雑な推論能力を持つLLMの普及に伴い,計算コストの最適化が重要となっている。
- 既存手法は最終的な応答長を最適化するのみで,中間推論ステップの質を軽視している。
- 中間推論ステップの質を向上させ,冗長性を排除することで,より効率的な推論を可能とする。
- 提案手法InfoDensityは,AUCベースの報酬と単調性報酬を組み合わせ,推論品質を評価する。
- 実験結果から,InfoDensityは既存の最先端手法と同等またはそれ以上の精度を達成し,トークン使用量を大幅に削減することが示された。
- これにより,精度と効率性の間のトレードオフを最適化できることが示唆される。
視覚言語モデルによる反復推論:長期的身体化タスクの進捗推定 [cs.CL, cs.CV, cs.AI]目的:長期的身体化タスクの進捗推定
- 身体化エージェントが長期的なタスクを実行するには,正確な進捗推定が不可欠である。
- 既存手法は動画理解に偏っており,VLMsの複雑な推論能力を活用できていない。
- VLMsの計算コストを抑えつつ,推論能力を維持し,進捗推定の精度向上を目指す。
- 提案手法$\text{R}^2$VLMは,局所的な動画スニペットを反復的に処理する推論フレームワークを持つ。
- これにより,タスク分解やステップの完了状況を明示的に記録するChain of Thought(CoT)を維持し,時間的依存性を考慮した推論が可能となる。
- ALFREDとEgo4Dデータセットを用いた実験で,進捗推定と関連タスクにおいて最先端の性能を達成した。
物理情報に基づくオフライン強化学習による,海上輸送における壊滅的な燃料浪費の解消 [cs.AI, cs.LG, cs.RO]目的:海上輸送ルートにおける燃料効率,安全性,リスクを考慮した最適なルート選択方法の開発
- 国際海運は世界の温室効果ガス排出量の約3%を占めるため,その削減は喫緊の課題である。
- 従来の航路選択は経験則に頼ることが多く,燃料効率や安全性に課題が残る。
- 物理情報とオフライン強化学習を用いて,より効率的かつ安全な航路選択を可能にすること。
- 提案手法PIERは,メキシコ湾の7つの航路において,大圏航路と比較して平均二酸化炭素排出量を10%削減した。
- PIERは,大圏航路で発生する極端な燃料消費(中央値の1.5倍以上)を9分の1に抑制し,航路ごとの燃料消費量のばらつきを大幅に低減した。
- PIERは,波浪予報の不確実性による性能劣化がなく,現地観測のみで安定した性能を維持する。
ShuttleEnv:バドミントン戦略モデリングのためのインタラクティブなデータ駆動型強化学習環境 [cs.RO, cs.AI, cs.LG]目的:バドミントン戦略モデリングのためのインタラクティブなデータ駆動型強化学習環境
- スポーツAI分野は,人間の運動能力を超える知的なエージェントの実現を目指しており,競技パフォーマンス向上への貢献が期待される。
- 既存のシミュレーション環境は,物理ベースであり計算コストが高いか,現実の試合データを反映しにくいため,戦略分析が困難であった。
- 現実的な試合データを活用し,高速な対戦スポーツにおける戦略分析を可能にする環境を構築し,エージェントの意思決定を理解することを目的とする。
- ShuttleEnvは,エリート選手の試合データに基づき,ラリーレベルのダイナミクスを確率モデルでシミュレーションすることで,現実的かつ解釈可能なエージェント間のインタラクションを実現する。
- 複数の訓練済みエージェントを用いてバドミントンのラリーを可視化し,異なるプレイスタイルや創発的な戦略,意思決定行動をインタラクティブに分析できる。
- ShuttleEnvは,スポーツAI分野における研究,可視化,および知能エージェントのデモンストレーションのための再利用可能なプラットフォームとして機能する。
配車サービスにおける責任判断のための漸進的視覚・論理整合フレームワーク [cs.AI, cs.LG]目的:配車サービスにおける責任判断の効率化
- 公正なマーケットプレイス維持には,責任紛争の効率的解決が不可欠である。
- 配車サービスの急増により,手動での審査が困難になっており,既存の自動化手法では説明責任が不十分である。
- 視覚情報と厳密な証拠プロトコル間のギャップを埋め,透明性と論理性を確保した判断を実現する。
- RideJudge-8Bは88.41%の精度を達成し,32Bスケールのベースラインを超え,解釈可能な判断の新たな基準を確立した。
- SynTrajエンジンにより,抽象的な責任概念と具体的な軌跡パターンを関連付け,意味の乖離を解消している。
- 専門知識を蒸留する適応的コンテキスト最適化戦略と,積極的な証拠調査を促す判断連鎖機構を導入している。
ランクに対する反射拡散による順列分布の学習 [cs.MM, cs.RO, cs.LG, cs.AI]目的:順列分布の学習
- 順列は組み合わせ論の基礎であり,機械学習における多様な応用が期待される。
- 順列空間はサイズが指数関数的に増加し,離散的で非ユークリッド構造であるため,学習が困難である。
- 拡散モデルを用いて,より滑らかで扱いやすい順列の軌跡を学習することで,その問題を解決する。
- 提案手法「Soft-Rank Diffusion」は,順列を連続的な潜在表現に変換し,よりスムーズな軌跡を生成する。
- 文脈化された一般化Plackett-Luce (cGPL) デノイザーを用いることで,表現力を向上させている。
- ソートや組み合わせ最適化のベンチマークにおいて,既存の拡散モデルよりも優れた性能を示した。
外れ値を超えて:数値と構造の二重感度に基づくデータフリーな層別混合精度量子化アプローチ [cs.LG, cs.CL]目的:層別混合精度量子化におけるビット割り当ての最適化
- モデルの圧縮は,限られた計算資源での推論や展開に不可欠であり,特にエッジデバイス等での活用が期待される。
- 既存手法では,層内の各重みモジュールを均一に扱い,数値的特性のみに依存するため,性能向上の限界があった。
- 数値と構造の両面から層の感度を捉え,より精度の高いビット割り当てを行うことで,量子化性能を向上させる。
- 提案手法NSDSは,様々なモデルとダウンストリームタスクにおいて,既存手法と比較して一貫して優れた性能を示した。
- NSDSは,キャリブレーションデータに依存せずに,高い圧縮率を維持しつつ精度を向上させることに成功した。
- 層を構成する各モジュールの役割と構造的特徴を考慮することで,より効果的な量子化を実現した。
WebPII:コンピュータ利用エージェント向け視覚的PII検出のベンチマーク [cs.CL, cs.CR, cs.AI]目的:ウェブサイトのPII検出のためのベンチマークデータセット
- コンピュータ利用エージェントの普及に伴い,プライバシー保護の重要性が増している。
- ウェブサイトから収集されるデータには個人情報が含まれる可能性があり,検出技術が不十分である。
- ウェブサイトのUI画像からPIIを高精度に検出するためのベンチマークを構築し,技術向上を目指す。
- WebPIIは,個人情報を含む44,865枚のeコマースUI画像から構成される,詳細な合成ベンチマークである。
- このデータセットを用いることで,レイアウトに依存しないPII検出性能と,未知のページタイプへの汎化性能が向上することが示された。
- WebRedactは,テキスト抽出のベースラインと比較して,PII検出精度を大幅に向上させ,リアルタイム処理を実現する。
引用文献推薦におけるプロファイルの影響:大規模統合アプローチ [cs.IR, cs.AI, cs.CL, cs.SI]目的:学術論文の引用文献推薦システムの性能向上
- 学術研究の信頼性確保に引用は不可欠であり,適切な引用文献の提示は研究の質を高める。
- 既存システムは,文脈情報に偏りやすく,人間特有の引用行動を捉えきれていない。
- 人間による引用パターンを効率的に捉え,推薦の精度と効率を両立させる。
- 提案手法Profilerは,軽量かつ非学習で,人間の引用パターンを効率的に捉え,候補文献の抽出性能を向上させる。
- 厳格な時間的制約を設けたInductive評価設定を導入し,現実世界での推薦シナリオをより正確に反映した評価を実現した。
- 新しいrerankingモデルDAVINCIは,Profilerからの信頼度と意味情報を統合し,最先端の結果を達成した。
内部ノイズのための変分カーネル設計:ガウス混沌ノイズ,表現適合性,そして信頼性の高い深層学習 [cs.LG, math.PR]目的:深層ネットワークにおける内部ノイズの相関構造と表現との適合性
- 深層学習の性能向上には,モデルの汎化能力とロバスト性が重要である。内部ノイズはその改善に寄与しうる。
- 既存のノイズ注入法は,経験則に頼ることが多く,理論的な根拠に乏しい場合がある。
- ノイズの相関構造を最適化し,表現との適合性を高めることで,深層学習の信頼性を向上させる。
- 変分カーネル設計(VKD)フレームワークにより,ガウス混沌ノイズ(GCh)が導出された。
- GChは,ペアワイズ対数比率変形を正確に制御し,安定したランキングを実現する。
- ImageNetおよびImageNet-Cの実験で,GChはキャリブレーションを改善し,シフトに対するNLLを向上させた。
大規模推論モデルにおける安全性向上のための思考連鎖生成前の安全判断促進 [cs.AI]目的:大規模推論モデルの安全性向上
- 大規模言語モデルは高度な推論能力を持つが,安全性確保が課題となっている。
- 思考連鎖(CoT)生成によって推論能力は向上するものの,安全性は低下する傾向にある。
- 思考連鎖生成前に安全判断を促すことで,安全性と推論能力の両立を目指す。
- 本研究では,CoT生成前に安全判断を促す新しい安全性アライメント手法を提案した。
- 安全なモデルから安全判断シグナルを抽出し,大規模推論モデルへの補助的な教師信号として統合する。
- 実験の結果,提案手法は大規模推論モデルの安全性を大幅に向上させつつ,一般的な推論性能を維持できることが示された。
VLMの脱獄に対する理解と防御:脱獄関連表現シフトを通して [cs.CV, cs.AI]目的:VLMの脱獄現象のメカニズム解明と,それに対する防御手法の開発
- 大規模ビジョン言語モデル(VLM)の安全性確保は,その社会実装において重要な課題である。
- VLMは,テキストのみの場合と比較して,画像入力によって脱獄が容易になるという問題がある。
- 画像による表現シフトが脱獄の主要因であるという仮説を検証し,その影響を軽減する。
- VLMは,入力が有害かどうかを表現空間上で識別できることが示された。
- 脱獄サンプルは,拒否サンプルとは異なる内部状態を形成しており,有害意図の認識失敗が原因ではないことが示唆された。
- 提案手法JRS-Remは,複数のシナリオで高い防御性能を示しつつ,通常のタスク性能を維持することが確認された。
大規模における効率的な探索 [cs.LG, cs.AI]目的:人間からのフィードバックを用いた強化学習のデータ効率向上
- 大規模言語モデルの性能向上には,質の高い学習データが不可欠である。
- 既存の強化学習手法では,大量のラベル付きデータが必要となる点が課題である。
- 人間からのフィードバックを効率的に活用し,データ量を削減することを目指す。
- 提案手法は,20万件のラベルで学習したオフラインRLHFと同等の性能を,2万件以下のラベルで達成した。
- これは,10倍以上のデータ効率の向上に相当する。
- 100万件のラベルで学習した場合,10億件のラベルで学習したオフラインRLHFに匹敵すると予想される。
SCALE:仮想細胞摂動予測のためのスケーラブルな条件付きアトラスレベルエンドポイント輸送 [cs.LG, cs.AI, q-bio.QM]目的:仮想細胞摂動予測のための大規模基盤モデルの開発
- 細胞の応答を予測することで,in silico実験を可能にし,創薬や基礎研究に貢献する分野である。
- 大規模な摂動予測は,計算効率,モデルの安定性,評価プロトコルの課題によって制約されている。
- スケーラブルなインフラ,安定した輸送モデリング,生物学的に忠実な評価を共同設計することで,課題を解決する。
- BioNeMoベースの学習・推論フレームワークにより,計算効率が大幅に向上し,スケーラビリティとデプロイ効率が実現された。
- 摂動予測を条件付き輸送として定式化し,LLaMAベースの細胞エンコーディングとエンドポイント指向の教師あり学習を組み合わせることで,モデルの安定性と摂動効果の回復が向上した。
- Tahoe-100Mを用いた評価で,PDCorrが12.02%,DE Overlapが10.66%改善され,生物学的に意味のある指標において高い性能を示した。
グローバル反事実に対するコホモロジー的障害:生成因果モデルの層理論的基礎 [cs.LG]目的:生成因果モデルにおけるグローバル反事実の障害
- 因果推論は,科学的発見や意思決定において不可欠な役割を果たす。
- 既存の生成モデルは,局所的な因果メカニズムがグローバルに一貫性のある反事実を導くという仮定に依存する。
- 因果グラフの非自明なホモロジーが,この仮定の破綻を層理論的に解決する。
- 構造因果モデルをワッサースタイン空間上のセル層として形式化し,コホモロジー的障害の定義を厳密化した。
- エントロピー正則化と,それに伴うエントロピー的ワッサースタイン因果層ラプラシアンを導入し,計算可能性を確保した。
- 高次元scRNA-seqデータにおける反事実推論において,熱力学的ノイズを活用することで,トポロジー的障壁を克服できることを示した。
因果的不確実性原理:多様体引き裂きと反事実介入のトポロジー的限界 [cs.LG]目的:因果推論における介入の限界と,その不確実性の原理
- 因果推論は,科学的発見や意思決定において不可欠な役割を果たす。
- 連続的な生成モデルへのdo-calculusの適用は,幾何学的な課題を抱えている。
- 極端な介入下での多様体引き裂きを回避し,因果推論の精度向上を目指す。
- 決定論的な流れは,極端な介入下で有限時間特異点を必然的に生じることを証明した。
- 介入の強さと同一性の保持の間にはトレードオフが存在するという因果的不確実性原理を確立した。
- 多様体引き裂きを回避するためのスケーラブルなアルゴリズムGACFを提案し,scRNA-seqデータで検証した。
CRE-T1 プレビュー技術報告:推論集約型検索のための対照学習を超えて [cs.IR, cs.CL, cs.IR, cs.AI]目的:推論集約型検索における課題解決
- 検索技術は情報アクセスの中核であり,その精度向上が不可欠である。
- 従来の検索手法は,表面的な意味的類似性に依存しがちであり,複雑な推論を必要とする検索に課題がある。
- 動的な推論生成を通じて,推論集約型検索の性能を向上させる。
- 本研究では,静的な表現の整合性から動的な推論へと重点を移した生成検索モデルT1を提案した。
- T1は,クエリに対して中間的な推論軌跡を動的に生成し,ベクトル表現に動的な推論能力を組み込むことで,高い性能を発揮する。
- BRIGHTベンチマークにおいて,T1-4Bは対照学習で訓練された大規模モデルを上回り,マルチステージ検索パイプラインに匹敵する性能を達成した。
コーディングエージェントの自己ブートストラップ:仕様即ちプログラム [cs.SE, cs.LG]目的:コーディングエージェントによる自己再現の検証
- AI技術の進化において,自動プログラミングは重要な役割を担う。
- 既存のAIコーディングエージェントは,複雑な仕様の理解と正確な実装が課題。
- 仕様に基づいた自己再現能力を高め,安定したソフトウェア開発を実現する。
- 926語の仕様書と初期実装から,新たに生成されたエージェントが仕様を正確に再現した。
- これはコンパイラ構築における古典的なブートストラップシーケンス,及びLispのメタ循環特性をAIコーディングエージェントの領域で再現したものである。
- 仕様が記録に残すべき安定した成果物であり,エージェントの改善は仕様の改善を意味することが示唆された。
物理に基づいた潜在演算子フローマッチングによる大規模3次元地震動合成 [cs.LG]目的:大規模地域地震動の時間歴生成
- 電力網等のインフラ設計には,現実的な地震動データが不可欠である。
- 物理シミュレーションによる大量の地震動データ生成は計算コストが高い。
- 本研究は,効率的な大規模地震動合成手法を開発し,ハザード評価の迅速化を目指す。
- GMFlowは,物理パラメータに基づき,現実的な大規模地域地震動の時間歴を高速に生成する。
- サンフランシスコ湾域のシミュレーションで,900万グリッドポイントの地震動を数秒で生成し,シミュレーションの1万倍の速度向上を実現した。
- 本手法は,メッシュに依存しない関数生成モデリングを進展させ,多様な科学分野への応用が期待される。
高次元データにおける因果表現学習:ベンチマーク,再現性,評価指標 [cs.LG]目的:高次元データから潜在空間への変換
- データ駆動型科学の発展に不可欠であり,隠れた因果関係の理解を深める。
- 既存の研究は,多岐にわたる評価指標と再現性の問題に直面している。
- 適切なデータセットの特性を明らかにし,総合的な評価指標を提案する。
- 既存の合成データと実データセットの限界を分析し,改善のための要件を提示した。
- 評価の各方向(再構成,分離,因果発見,反事実推論)の性能を統合する単一の指標を導入した。
- 文献中の実装を再現性の観点から評価し,ギャップとベストプラクティスを特定した。
可変レート極限画像圧縮のための劣化を考慮した任意のスケール超解像 [cs.CV, cs.AI]目的:可変レート極限画像圧縮を可能にするための劣化を考慮した任意のスケール超解像技術の開発
- 近年,画像圧縮技術は高度化の一途をたどり,データ容量の削減が求められている。
- 従来の拡散モデルを用いた極限画像圧縮は,ビットレートごとにモデルを訓練する必要があり,計算コストが高い。
- 単一のモデルで多様なビットレートに対応し,極限圧縮時の情報損失を軽減することを目指す。
- 提案手法ASSR-EICは,任意のスケール超解像を活用することで,柔軟なビットレート制御と適応的なレート依存再構成を実現した。
- 圧縮率とリサイズに合わせた拡散事前分布を活用し,高忠実度かつ高リアリズムな画像復元を可能にした。
- 実験の結果,ASSR-EICは極限画像圧縮において最先端の性能を示し,従来の課題を克服した。
ゼロショット学習のための相互因果的意味蒸留ネットワーク [cs.CV, cs.LG]目的:ゼロショット学習における,見たことのないクラスの認識
- オープンワールド環境下での画像認識の応用範囲拡大に貢献する。
- 既存手法では,視覚特徴と属性特徴間の潜在的な意味的知識の学習が不十分である。
- 視覚特徴と属性特徴間の因果関係を学習し,より信頼性の高い特徴表現を獲得すること。
- 提案手法MSDN++は,視覚から属性への注意と,属性から視覚への注意という2つのサブネットを相互に学習させる。
- その結果,既存の強豪手法と比較して,CUB,SUN,AWA2,FLOなどのベンチマークデータセットで大幅な性能向上を達成した。
- MSDN++は,ゼロショット学習における最先端の性能を実現した。
エージェントの囲い込み:ヘルスケアにおける自律型AIのためのゼロトラストセキュリティアーキテクチャ [cs.RO, cs.SY, eess.SY, cs.CY, cs.MA, eess.SY, cs.SY, cs.CR, cs.AI]目的:ヘルスケアにおける自律型AIのためのゼロトラストセキュリティアーキテクチャ
- AI医療応用の進展に伴い,AIエージェントの安全性確保が不可欠となっている。
- AIエージェントは,機密情報漏洩や不正操作などの脆弱性を抱え,セキュリティリスクが高い。
- 本研究は,ヘルスケアAIエージェントにおけるセキュリティ脅威に対応するアーキテクチャを提案する。
- 本研究では,ヘルスケア技術企業で運用されている9つの自律型AIエージェントに対して,6ドメインの脅威モデルと4層防御を実装した。
- 90日間の運用結果から,自動セキュリティ監査エージェントによって4つの高優先度脆弱性が発見・修正された。
- 提示された構成,監査ツール,プロンプト整合性フレームワークは,オープンソースとして公開されている。
デジタルツインからワールドモデルへ:モバイルエッジ汎用知能のための機会,課題,および応用 [cs.AI]目的:デジタルツインからワールドモデルへの移行とそのエッジ汎用知能(EGI)における役割の系統的な調査
- 6G以降の通信システム進化により,ネットワークエッジにおけるデジタルツインとワールドモデルの融合が重要になっている
- 従来のデジタルツインは,自律性,適応性,スケーラビリティに限界があり,動的なエッジ環境での活用が課題である
- エッジ環境における適応的,自律的,リソース効率の良い知能を実現するため,ワールドモデルの設計と応用を推進する
- 本調査では,物理ベースの中央集権的なシステム中心の複製から,データ駆動型で分散化されたエージェント中心の内部モデルへの移行を明確化している
- 知覚,潜在状態表現,ダイナミクス学習,想像に基づく計画,メモリを含むワールドモデルの設計原則,アーキテクチャ,主要コンポーネントをレビューしている
- 統合センシング・通信,セマンティック通信,空中・地上ネットワークなどの無線EGIシステムにおけるワールドモデルとデジタルツインの統合に関する応用例を提示している
医師-患者対話における積極的知識探求:状態追跡抽出,信念更新,および経路認識行動計画 [cs.AI]目的:医師-患者対話における知識探求のプロセス
- 電子カルテは医療の質向上に不可欠だが,情報入力の効率化が課題である。
- 既存のシステムは対話中の知識状態をモデル化せず,適切な質問や提案が困難である。
- 対話を通じて知識の不足を特定し,適切な行動計画を立てるための枠組みを構築する。
- 提案手法は,状態追跡抽出,信念更新,知識検索,行動計画を統合した枠組みを提供する。
- パイロット評価において,83.3%の網羅率,80.0%のリスク再現率,81.4%の構造的完全性を達成した。
- 本研究は,概念実証であり,臨床応用にはさらなる検証が必要である。
phasor変換器:単位円上での注意機構のボトルネック解消 [cs.RO, cs.CL, cs.LG, cs.AI]目的:長文脈時系列における自己注意機構の計算量ボトルネックの解決
- 時系列データ分析において,長文脈を捉えることが重要であり,Transformerモデルはその有力な手法である。
- Transformerの自己注意機構は,文脈長が長くなると計算量が二次関数的に増加し,ボトルネックとなる。
- 単位円上の位相を用いた新しい計算手法により,効率的な時系列モデリングを可能とすること。
- phasor変換器は,軽量な位相シフトとパラメータフリーのDFTによるトークン結合を用いることで,従来の注意機構よりも効率的にグローバルな情報伝達を実現する。
- 実験の結果,phasor変換器は,自己注意機構を用いたモデルと同等の予測性能を示し,パラメータ効率の良さが確認された。
- 本研究は,時系列モデリングにおいて,位相計算と決定論的なグローバル結合が,大規模モデルのスケーラビリティに繋がる可能性を示唆する。
ZipServ:ハードウェアを意識した無損失圧縮による高速かつメモリ効率の良いLLM推論 [cs.DC, cs.AR, cs.LG, cs.PF]目的:大規模言語モデル(LLM)の推論におけるメモリと帯域幅のボトルネック緩和
- LLMの規模拡大に伴い,メモリ使用量と計算コストの増大が課題となっている。
- 既存の圧縮手法は,GPUアーキテクチャとの設計の不一致により,推論速度が低下する。
- GPUでのLLM推論に特化した,効率的な無損失圧縮フレームワークの開発。
- ZipServは,モデルサイズを最大30%削減し,NVIDIAのcuBLASと比較して最大2.21倍のカーネルレベルの高速化を実現した。
- ZipServは,vLLMと比較して,エンドツーエンド推論を平均1.22倍高速化した。
- ZipServは,LLM推論において,ストレージの節約と大幅な高速化を両立する初の無損失圧縮システムである。
TimeAPN:時系列予測のための適応的振幅位相非定常性正規化 [cs.LG, cs.AI]目的:多変量長時系列予測における非定常性への対処
- 時系列データは現実世界を分析する上で不可欠であり,正確な予測は意思決定に重要である。
- 既存手法は分布の変化を捉えきれず,特に振幅や位相の急激な変動に対応できない。
- 時間領域と周波数領域の両方から非定常性を明示的にモデル化し,予測精度を向上させる。
- TimeAPNは,時間領域と周波数領域の両方で平均系列をモデル化し,将来の変動を予測する。
- 位相情報は周波数領域から抽出され,予測値と実測値のずれをモデル化することで,時間的なずれを捉える。
- 実験の結果,TimeAPNは複数のデータセットで予測精度を向上させ,最先端の正規化手法を上回った。
Baguan-TS:共変量を持つ時系列予測のための,系列ネイティブな文脈内学習モデル [cs.RO, cs.LG, cs.AI]目的:時系列予測における,共変量を用いた文脈内学習モデル
- 時系列予測は,エネルギー需要予測など,多くの分野で重要である。
- 既存の文脈内学習手法は,手動で作成された特徴量に依存している場合が多い。
- 系列データそのものを活用し,推論時の適応能力を高めることを目指す。
- Baguan-TSは,既存のベースラインモデルと比較して,一貫して高い性能を示す。
- 点予測と確率予測の両方の評価指標において,有意な改善が見られた。
- 多様な実世界のエネルギーデータセットにおける評価により,その堅牢性が確認された。
AdaZoom-GUI:指示の改良による適応的ズームに基づくGUIグラウンディング [cs.CV, cs.AI]目的:GUIグラウンディングの精度向上
- GUIとの対話は自動化の鍵であり,視覚情報と自然言語の理解が不可欠である。
- 高解像度画像,小さなUI要素,曖昧な指示により,GUIスクリーンショット上でのグラウンディングは困難である。
- 高精度なGUI要素の特定と,より的確な指示理解を実現することを目的とする。
- AdaZoom-GUIは,適応的なズームと指示の改良により,GUIグラウンディングの精度を向上させた。
- 指示を詳細化することで,モデルが正確な要素の特定に集中できるようにした。
- 必要な場合にのみズームインを行うことで,計算コストを抑えつつ精度を向上させた。
ニューロデジタル生態系における大規模言語モデル:意味的インターフェースと倫理的仲介者 - 概念的基盤と規制の必要性 [cs.CE, cs.NE, cs.CY, cs.HC]目的:大規模言語モデルを神経データと社会応用との間の意味的インターフェースとして捉え,その概念的基盤と規制の必要性を提示すること
- 脳科学とデジタル技術の融合は,コミュニケーション,医療,教育等の分野に革新をもたらす可能性を秘めている。
- 大規模言語モデルの利用は,精神的自律性や神経的権利に対する倫理的リスクを引き起こす懸念がある。
- 既存の規制モデルでは,意味生成プロセスを十分に考慮できないため,新たなガバナンスの枠組みが必要とされる。
- 本研究は,意味的透明性,精神的なインフォームドコンセント,主体性の維持という原則に基づいた新たなガバナンスフレームワークを提案する。
- 大規模言語モデルが媒介する意味解釈の倫理に着目した「第二の秩序の神経倫理」の確立を提唱する。
- ニューロデジタル生態系の責任ある発展を導くための概念的基盤を提供することを目的とする。
最終的なテキストのみが残存する場合:マルチエージェントアトリビューションのための暗黙的な実行トレース [cs.AI, cs.CL]目的:マルチエージェントシステムにおけるエージェントの貢献度特定
- 複雑なタスク遂行において,複数のエージェントが連携するシステムが重要になっている。
- エージェントの識別子や実行ログがない場合,責任の所在が不明確になるという課題がある。
- 生成されたテキストのみから,エージェントの貢献と連携構造を特定する手法を確立する。
- IET(Implicit Execution Tracing)というメタデータに依存しないフレームワークを提案した。
- 生成されたテキストにエージェント固有の信号を埋め込み,秘密鍵を用いて実行トレースを検出する。
- 実験により,高い精度でエージェントのセグメントと連携構造の復元が可能であることが示された。
VLM2Rec:マルチモーダル系列推薦のためのビジョン言語モデル埋め込みにおけるモダリティ崩壊の解決 [cs.CL, cs.IR, cs.AI]目的:マルチモーダル系列推薦のためのビジョン言語モデル埋め込みフレームワーク
- マルチモーダルデータ活用は,推薦システムの精度向上に不可欠である。
- 既存手法では,事前学習済みエンコーダの容量制限により,表現力が不足している。
- モダリティ崩壊を防ぎ,各モダリティの情報をバランス良く活用すること。
- VLM2Recは,既存の最先端手法と比較して,精度とロバスト性において一貫して優れた性能を示す。
- 弱モダリティペナルティ付きコントラスティブ学習により,最適化中の勾配の不均衡を修正する。
- クロスモーダル関係的トポロジー正則化により,モダリティ間の幾何学的整合性を維持する。
LLMに基づく行動レベルガイダンスによる効率的なソフトアクタークリティック [cs.LG]目的:連続制御のための効率的な探索
- 強化学習は,複雑な環境での自律的な意思決定を可能にする重要な技術である。
- 広大な状態行動空間における効率的な探索は,強化学習の大きな課題である。
- LLMを活用し,行動レベルでのガイダンスにより探索効率を向上させる。
- 本研究で提案するGuidedSACは,標準的なSACや他の探索手法よりもサンプル効率と最終的な性能において優れていることが実験的に示された。
- LLMベースのスーパーバイザーが,状態情報と視覚的なリプレイに基づいて行動レベルでの介入を行い,的を絞った探索を可能にする。
- GuidedSACはSACの収束性を保証しながら,収束速度を向上させることが理論的に証明された。
VirPro:弱学習単眼3D検出のための視覚参照確率的プロンプト学習 [cs.CV, cs.AI]目的:弱学習単眼3D検出における性能向上
- 3D物体検出は自動運転やロボティクス等の分野で重要であり,実世界の注釈コスト削減が課題。
- 既存手法では,手動で作成したテキスト記述が視覚的多様性を捉えきれず,汎化性能が制限される。
- シーンに依存した表現学習を可能にし,弱学習環境下での検出精度を向上させることを目指す。
- 提案手法VirProは,適応的なマルチモーダル事前学習パラダイムにより,既存の弱学習フレームワークに容易に組み込める。
- アダプティブプロンプトバンク(APB)とマルチガウスプロンプトモデリング(MGPM)により,視覚的曖昧性を考慮したプロンプトを生成する。
- KITTIベンチマークでの実験結果から,VirProを統合することで最大4.8%の平均精度向上を確認した。
