arXiv雑要約

AI - 2026/04/28 公開

熱力学的拡散学習のための対称平衡伝播 [cs.LG, cs.AI]目的：スコアベース拡散モデルの熱力学的拡散学習における効率的な勾配推定手法
- 深層学習モデルの学習には膨大な計算資源が必要であり，エネルギー効率の改善が重要である。
- 従来のデジタル計算では，エネルギー消費量が大きく，学習効率が限られている。
- 物理的な基板を用いた学習により，エネルギー効率を飛躍的に向上させることを目指す。
- 平衡伝播を双線形エネルギーに直接適用することで，ノイズ除去スコアマッチング勾配の不偏推定量が得られることが示された。
- 対称的なノッジングにより，勾配のバイアスが大幅に低減され，更新の整合性が向上する。
- この手法は，従来のGPUベースの学習と比較して，10^3〜10^4倍のエネルギー効率を実現する可能性がある。
Link: https://arxiv.org/abs/2604.23806
SeqShield：ルートキットを検出する行動分析アプローチ [cs.CL, cs.IR, cs.CR, cs.LG]目的：ルートキット検出のための行動分析手法
- セキュリティ脅威は巧妙化の一途を辿っており，従来の対策では不十分であるため，新たな検出手法が求められている。
- 静的解析では変形するルートキットの検出が難しく，シグネチャベースの検出は限界がある。
- 動的なAPIコールシーケンス分析により，ルートキットの悪意ある行動を検出し，検出率を向上させる。
- SeqShieldは，Windows OS向けにAPIコールシーケンスに基づいた行動分析を行うことで，ルートキットを高精度に検出する。
- n-gram分析とランダムフォレストモデルを用いた結果，bigramで97.27%，trigramで96.17%の検出精度を達成した。
- Gini不純度指数を用いた特徴量選択により，特徴量の次元削減と検出効率の向上が確認された。
Link: https://arxiv.org/abs/2604.23812
極端な視点におけるナンバープレートの復元可能性マッピング：都市環境における機会的センシングに向けて [cs.CV, cs.AI]目的：ナンバープレートの復元可能性の境界を定量化する手法
- 都市環境には多様な画像センサーが存在し，それらを活用することで新たな情報収集が可能になる。
- 極端な視点からの画像はノイズが多く，低解像度であるため，ナンバープレート認識が困難である。
- 画像劣化パラメータが復元可能範囲と失敗範囲を特定し，都市環境におけるセンシングの限界を明らかにすること。
- 提案手法である復元可能性マップは，パラメータ空間の復元可能な割合を境界面積曲線で推定する。
- 様々な画像復元モデル（U-Net, Restormer, Pix2Pix, SR3 diffusion）を用いて評価した結果，最良モデルで約93%のパラメータ空間を復元できた。
- 復元性能はモデルアーキテクチャよりもセンシングの幾何学的条件に依存することが示唆された。
Link: https://arxiv.org/abs/2604.23814
クエリから図へ：UML図による開発者からの質問への回答 [cs.CL, cs.SE, cs.AI]目的：開発者からの質問に対応するUML図の生成
- ソフトウェアの複雑化に伴い，コード理解を助けるドキュメントの重要性が増している。
- 既存のドキュメントは古くなりがちで，開発者がコードの意図を理解するのに不十分な場合が多い。
- 大規模言語モデルを用いて，開発者の質問に特化した簡潔なUML図を自動生成し，ドキュメント作成の負担を軽減する。
- ファインチューニングにより，構造的欠陥検出のF1スコアが向上し，既存のLLMよりも欠陥率が低下した。
- 生成されたUML図は構造的に健全であり，開発者からの質問に対して意味的に忠実であることが示された。
- 大規模言語モデルを用いた，スケーラブルな文脈に沿ったオンデマンドドキュメント生成の実現可能性を確立した。
Link: https://arxiv.org/abs/2604.23816
スパースオートエンコーダ特徴量からのドメインフィルタリング知識グラフ [cs.CL, cs.DL, cs.AI]目的：言語モデルから抽出されたスパースオートエンコーダの特徴量を用いたドメイン特化型知識グラフの構築
- 言語モデルの内部表現を理解することは，AIの透明性や信頼性向上に不可欠である。
- スパースオートエンコーダの特徴量は膨大で，ドメイン知識と汎用的な知識が混在し，関連性の解析が困難である。
- スパースオートエンコーダの特徴量を整理し，ドメイン知識を可視化することで，モデルの推論過程を解明することを目指す。
- コントラストアクティベーションと多段階フィルタリングにより，ドメイン固有の概念空間を構築し，ノイズとなる特徴を除去した。
- コーパスレベルの概念構造を示す共起グラフと，特徴量間の関係性を表すメカニズムグラフという2つのグラフ構造を構築した。
- 生物学の教科書を用いた事例研究では，グラフが章や節の構造を再現し，隣接するトピックを結びつける概念を明らかにした。
Link: https://arxiv.org/abs/2604.23829
一律は通用しない：LLM投資助言におけるヒューリスティック崩壊 [cs.CL, cs.LG]目的：LLM投資助言におけるヒューリスティック崩壊の存在
- 高度な意思決定が求められる分野で，LLMの利用が増加している。
- LLMが表面的な特徴に捉われ，文脈を考慮しない可能性がある。
- LLM投資助言におけるヒューリスティック崩壊を明らかにし，対策を検討する。
- LLMの投資配分決定は，自己申告のリスク許容度によって大きく左右されることが明らかになった。
- 他の関連要素は，意思決定にほとんど影響を与えない。
- Web検索による補完はヒューリスティック崩壊を緩和するものの，完全に解決するわけではない。
Link: https://arxiv.org/abs/2604.23837
JigsawRL：効率的なLLMポストトレーニングのためのRLパイプラインのアセンブリ [cs.LG]目的：LLMのポストトレーニングにおけるRLパイプラインの効率化
- 大規模言語モデルの性能向上には，強化学習によるポストトレーニングが不可欠である。
- 従来のRLシステムでは，パイプライン間の負荷分散が不十分で，計算資源の利用効率が低い。
- JigsawRLは，パイプラインの細分化と動的なリソース割り当てにより，この問題を解決する。
- JigsawRLは，Pipeline Multiplexingを導入し，RLの並列性を新たな次元で拡張する。
- 実験の結果，同期型・非同期型RLにおいて，既存システムと比較して最大1.85倍の処理能力向上を達成した。
- 異種パイプラインもサポートし，許容範囲内の遅延時間で高いスループットを実現する。
Link: https://arxiv.org/abs/2604.23838
重要な箇所に焦点を当てる：解剖学的構造を保持した胎児超音波再構成のための二段階ROI認識リファインメント [cs.CV, cs.AI]目的：解剖学的構造を保持した胎児超音波再構成の精度向上
- 胎児超音波検査は，胎児の健康状態を評価する上で重要な役割を担う。
- 従来の再構成評価指標では，臨床的に重要な小さな領域の精度を十分に反映できない場合がある。
- 臨床的に重要な領域に焦点を当てた再構成手法を開発し，精度向上を目指す。
- ROI（関心領域）リファインメントにより，グローバルな品質と測定に関連する品質の両方が向上した。
- 標準的な検証データセットでは，PSNRが+0.27dB (val) および +0.29dB (held-out test) 向上し，ROI MAEがそれぞれ8.87% (val) および 6.43% (held-out test) 減少した。
- また，凍結された潜在的プローブは，汎化に関する追加のエビデンスを提供し，未知の病院データに対する病院の由来の予測可能性が低下した。
Link: https://arxiv.org/abs/2604.23839
スケーラブルな生産スケジューリング：統一された同種グラフによる線形複雑性 [cs.LG, cs.AI]目的：ジョブショップスケジューリング問題における効率的な解法
- 現実の産業応用では，計算負荷が少なく，かつ構造に強いポリシーが求められる。
- 既存の強化学習モデルは，二次のグラフ複雑性や異種層のオーバーヘッドにより，スケーラビリティに課題がある。
- 本研究は，線形複雑性で複雑なリソース競合を捉え，大規模な産業応用に対応する。
- 提案手法は，最先端の性能を達成し，一貫したゼロショット汎化性能を示す。
- ジョブと機械の比率がポリシーの有効性の主要な要因であり，問題の絶対的な規模ではないことが判明した。
- 飽和点での訓練により，スケール不変な解決戦略が学習され，大規模な問題を飽和した部分問題の連結として扱える。
Link: https://arxiv.org/abs/2604.23841
夕食にナチョスを温め直す？新語の異文化コミュニケーションにおけるAI支援の評価 [cs.CL, cs.AI]目的：新語の異文化コミュニケーションにおけるAI支援の有効性
- グローバル化が進む現代において，円滑な異文化コミュニケーションは不可欠である。
- 新語やスラングは日常会話に不可欠だが，非ネイティブスピーカーにとって理解と適切な使用が困難である。
- AI支援によって，新語の異文化コミュニケーションにおける非ネイティブスピーカーの能力向上を目指す。
- AIによる説明が，AI支援なしと比較してネイティブスピーカーによるコミュニケーション能力評価において最も高い向上を示した。
- 文脈の適切性判断においては，AI支援の種類に差は見られなかった。
- 非ネイティブスピーカーの自己評価は，ネイティブスピーカーの評価と乖離しており，能力の過大評価が示唆された。
Link: https://arxiv.org/abs/2604.23842
ClawTrace：LLMエージェントのスキル蒸留のためのコストを考慮したトレーシング [cs.CL, cs.AI]目的：LLMエージェントのスキル蒸留におけるコスト情報を活用するトレーシングプラットフォームおよびパイプライン
- LLMエージェントの性能向上には，効率的なスキル抽出が不可欠である。コストを考慮することで，より実用的なスキルを学習できる。
- 既存のスキル蒸留パイプラインは，各ステップのコスト情報を欠いているため，不要なステップの削除が困難である。
- 各ステップのコストを明示的に把握し，効率的なスキルパッチを生成することで，エージェントの性能とコスト効率を同時に改善する。
- ClawTraceは，LLMの呼び出し，ツール使用，サブエージェントの生成を記録し，ステップごとのコストを含むTraceCardを作成する。
- CostCraftは，TraceCardを用いて，成功に貢献した行動を保持し，不要なコストのかかるステップを削除し，失敗を修正するスキルパッチを生成する。
- 実験の結果，コストの帰属と剪定パッチは，品質の低下を抑制し，異なるベンチマーク間での剪定ルールはコストを32%削減した。
Link: https://arxiv.org/abs/2604.23853
機械アンラーニングは臨床的安全性に影響するか？医療画像分類におけるリスク分析 [cs.AI]目的：医療画像分類における機械アンラーニングが臨床リスクに与える影響の評価
- 医療診断における深層学習の利用は，患者の安全とデータ保護のバランスが重要である。
- 既存の機械アンラーニング手法は，効率性やプライバシー保護に重点が置かれ，臨床的誤りの非対称なコストへの配慮が不足している。
- 臨床リスクを考慮した機械アンラーニング手法を開発し，安全性を確保すること。
- 従来のアンラーニング手法は，テスト精度を低下させ，偽陰性率を増加させる可能性があり，臨床リスクを増幅させる。
- 提案手法SalUn-CRAは，悪性サンプルのランダムな再ラベルをエントロピーに基づく忘却に置き換えることで，有害な良性との関連性の学習を防止する。
- SalUn-CRAは，完全な再学習と同等またはそれ以下の臨床リスクを達成しつつ，アンラーニングの有効性を維持する。
Link: https://arxiv.org/abs/2604.23854
安全重視環境における時系列予測：EU-AI法準拠のオープンソースパッケージ [cs.AI]目的：安全重視環境における時系列予測のための，EU-AI法，IEC 61508，ISA/IEC 62443などの規制要件に準拠したPythonベースのオープンソースパッケージ
- 安全性が重要なシステムでは，正確な時系列予測が不可欠であり，その信頼性確保が求められる。
- 既存のコンプライアンスツールは，ライブラリ外部で動作するため，包括的な安全性確保が困難である。
- 本研究では，ライブラリ内部に規制要件を組み込むことで，より強固な安全性とコンプライアンスを実現する。
- spotforecast2-safeは，アプリケーションプログラミングインタフェース，永続化フォーマット，継続的インテグレーションに規制要件を組み込んだ。
- ゼロデッドコード，決定論的処理，フェイルセーフ処理，最小依存関係という4つのコード開発ルールを徹底した。
- 欧州市場における電力需給予測の例を通して，パッケージの有効性が示された。
Link: https://arxiv.org/abs/2604.23859
一人称視点動画におけるオーディオハルシネーションの探求 [cs.CV, cs.AI]目的：一人称視点動画理解におけるオーディオハルシネーションの分析
- 一人称視点動画は，ユーザーの行動や周囲の状況を理解する上で重要な聴覚情報を提供する。
- 最先端のオーディオビジュアル言語モデルは，視覚情報から実際には聞こえていない音を推論するハルシネーションを起こしやすい。
- 本研究は，オーディオハルシネーションを定量的に評価するためのフレームワークとデータセットを構築し，モデルの信頼性を評価する。
- 大規模なオーディオビジュアル言語モデルは，一人称視点動画において高い割合でオーディオハルシネーションを起こすことが示された。
- Qwen2.5 Omniは，前景音に関する質問応答で27.3%，背景音で39.5%の精度しか達成していない。
- マルチモーダル応答の信頼性を測定し，ハルシネーションの評価が信頼性の高いモデル開発に不可欠であることを強調した。
Link: https://arxiv.org/abs/2604.23860
CIFAR-10分類のための畳み込みニューラルネットワークの経験的アブレーションとアンサンブル最適化 [cs.CV, cs.AI]目的：CIFAR-10分類における畳み込みニューラルネットワーク最適化の検討
- 画像認識は，コンピュータビジョンの重要な課題であり，様々な分野で応用が拡大している。
- 畳み込みニューラルネットワークの性能は，アーキテクチャや学習方法に大きく依存する点が課題である。
- 経験的アブレーションを通じて，性能向上に寄与する要素を特定し，効率的な最適化を目指す。
- 学習時間の延長は，性能を安定的に向上させる効果が認められた。
- アーキテクチャの構造変更は，必ずしも性能向上に繋がらない場合があることが示された。
- 最適な設定を組み合わせたアンサンブル学習により，高い分類精度（89.23%）を達成した。
Link: https://arxiv.org/abs/2604.23861
グラフメモリー変換器 (GMT) [cs.LG, cs.AI, cs.CL]目的：デコーダー専用TransformerにおけるFeed-Forward Network (FFN)サブレイヤーを，学習されたメモリーグラフで置き換える可能性の検証
- Transformerは自然言語処理の基盤技術であり，その性能向上は重要である。
- TransformerのFFNは計算コストが高く，解釈性が低いという課題がある。
- FFNをグラフ構造のメモリーで代替することで，効率性と解釈性の向上を目指す。
- 提案手法GMTは，Transformerの自己注意機構を維持しつつ，FFNを学習されたセントロイドと遷移行列で構成されるメモリーセルに置き換えた。
- GMTは，大規模な言語モデルとして安定して学習可能であり，セントロイドの使用状況や遷移構造を直接観察できる。
- 性能はGPTスタイルのベースラインに劣るものの，ゼロショットベンチマークでは同程度の結果を示し，メモリーナビゲーションの有効性を示唆する。
Link: https://arxiv.org/abs/2604.23862
脳機能の基礎モデルの反転：シミュレーションに基づく推論 [cs.RO, cs.SY, eess.SY, cs.LG, cs.AI, stat.ML]目的：脳活動からの刺激またはその特性の復元
- 脳科学研究において，複雑な刺激に対する神経応答をシミュレーションする基礎モデルが重要視されている。
- 基礎モデルを用いて脳活動から刺激を復元する試みは，まだ初期段階であり課題が多い。
- 脳活動と刺激パラメータ間の確率的マッピングを学習し，脳活動からの刺激の復元を可能にすること。
- 基礎モデルによるニューラルエンコーディングの質を検証するため，刺激パラメータの復元が可能であることが示された。
- 大規模言語モデルが，シミュレーション実験のための制御可能な刺激生成器として機能することが示された。
- これらの結果は，基礎脳モデルを用いたデコーディングと逆設計への一歩となる。
Link: https://arxiv.org/abs/2604.23865
構造的スパース性を伴う生成再構成のための解釈可能な偏微分方程式表現の学習 [cs.LG]目的：科学計測における再構成と超解像度
- 科学計測の精度向上は，様々な分野の発展に不可欠である。
- 計測データにはノイズや空間的な不備が含まれる場合が多く，高精度な再構成が困難である。
- 疎な観測データや低解像度データからの高精度な再構成と超解像度を実現する。
- LatentPDEは，潜在拡散フレームワークを用いて，疎な観測データの再構成と超解像度を同時に解決する。
- 潜在変数を支配方程式の係数とソース項として直接パラメータ化することで，物理的適合性と解釈可能性を確保する。
- 様々な構成において，高精度な復元と予測不確実性の追跡が可能であることが示された。
Link: https://arxiv.org/abs/2604.23867
リスクを考慮したロバスト学習：医用画像分類におけるラベルノイズ下での臨床リスク軽減 [cs.SC, math.AG, cs.CV, cs.AI]目的：医用画像分類におけるラベルノイズ下での臨床リスク軽減
- 医用画像診断は，患者の治療に直接影響するため，高い精度が求められる。
- アノテーションの誤りや診断の曖昧さにより，ラベルノイズが頻繁に発生する。
- 既存手法の臨床的安全性評価に焦点を当て，リスクを低減する手法を提案する。
- 既存のノイズロバスト学習手法は，必ずしも臨床的安全性と相応しないことが示された。
- コストを考慮した最適化を組み込むことで，臨床リスクを大幅に軽減できることが確認された。
- ノイズロバスト学習の評価には，臨床リスクという観点が不可欠であることが示唆された。
Link: https://arxiv.org/abs/2604.23875
心臓安定性理論：スマートフォン光電脈波による継続的健康モニタリングのための公理的枠組み [cs.LG]目的：心臓の安定性指標の算出と，それを用いた継続的な心臓健康状態のモニタリング
- 循環器疾患は世界的な健康問題であり，早期発見と予防が重要である。
- 従来の心臓モニタリングは，医療機関での検査が中心で，日常的な継続モニタリングが困難であった。
- スマートフォン等の普及機器を用いた，非侵襲的かつ継続的な心臓モニタリングの実現。
- 心臓安定性理論（CST）に基づき，心臓の動的安定性を定量化する心臓安定性指標（CSI）を開発した。
- ECGデータを用いたモデルは高い精度を示し，スマートフォンPPGデータへの転移学習も成功した。
- CSIは年齢との負の相関や不整脈の識別能を有し，長期的な安定性指標HeartSpanを導出した。
Link: https://arxiv.org/abs/2604.23876
ZenBrain：自律型AIシステムのための神経科学に触発された7層メモリアーキテクチャ [cs.CL, cs.AI, cs.LG]目的：自律型AIシステムのための新たなメモリアーキテクチャ
- AIの性能向上には，人間の脳の記憶システムを模倣した効率的なメモリ管理が不可欠である。
- 既存のAIメモリシステムは，システム工学的なメタファーに依存しており，脳の記憶メカニズムを十分に活用できていない。
- 脳の記憶の固定化，忘却，再固定化といったプロセスを統合し，AIの長期記憶と適応能力を向上させる。
- ZenBrainは，15の神経科学モデルを統合した7層メモリアーキテクチャであり，既存のシステムよりも高い性能を示す。
- シミュレーション選別的睡眠（Simulation-Selection sleep）により，記憶の安定性が37％向上し，ストレージ要件が47.4％削減された。
- 複数のベンチマークテスト（LoCoMo，MemoryArena，LongMemEval-500）において，ZenBrainは最先端の性能を達成し，特にLongMemEval-500では全てのシステム判定セルで最高平均ランクを獲得した。
Link: https://arxiv.org/abs/2604.23878
筋肉駆動型器用手制御の学習：音楽演奏への応用 [cs.GR, cs.AI]目的：音楽演奏における筋肉駆動型器用手の制御手法
- ロボットの器用な手制御は，人間の生活を豊かにする上で不可欠であり，高度な制御技術が求められる。
- 既存の手法では，多様な音楽に対応した複雑な動きの再現や，生理学的に妥当な筋肉の活性化パターンの生成が課題である。
- 未知の楽曲に対しても，正確な演奏を可能にする筋肉駆動型器用手制御の実現を目指す。
- 提案手法は，物理ベースのシミュレーション環境において，多様なピアノ曲を演奏可能であることを示した。
- 既存モデルと比較して，生体力学的に安定かつ精密な指の動きを実現する筋肉骨格モデルを開発した。
- 生成された筋肉の活性化パターンが，実際の人の筋電図記録と一致することを確認し，生理学的な妥当性を検証した。
Link: https://arxiv.org/abs/2604.23886
大規模言語モデルにおけるプロンプトインジェクション防御の評価 [cs.CR, cs.AI]目的：大規模言語モデルのプロンプトインジェクション攻撃に対する防御策の有効性
- 大規模言語モデルの利用拡大に伴い，セキュリティリスクへの対策が重要となっている。
- システムプロンプトに秘密情報が埋め込まれる一方で，攻撃によって情報漏洩のリスクが存在する。
- モデル自身に防御を委ねる方式の脆弱性を明らかにし，より安全な防御策の方向性を示す。
- あらゆる自己防御型の対策は最終的に破られた。モデルに依存した防御策は限界がある。
- 出力フィルタリングのみが有効であり，15,000回の攻撃で漏洩は確認されなかった。
- セキュリティ境界はアプリケーションコードで強制される必要があり，モデル自身への依存は避けるべきである。
Link: https://arxiv.org/abs/2604.23887
幾何学的構造を保存する損失関数が，ブラックボックス生成モデルの適応能力向上を促進する [cs.LG, cs.AI]目的：ブラックボックス生成モデルの適応
- 生成AIモデルの活用範囲拡大のため，特定用途への適応技術が重要である。
- 大規模生成モデルはアクセス制限や学習コストが高く，容易にファインチューニングできない。
- GANの潜在空間表現を活用し，幾何学的構造を保存することで適応を可能にする。
- 提案手法は，GANの潜在空間における距離を保存することで，ターゲット分布からのサンプル生成を可能にする。
- 実分布の変化に対する実験で，従来の損失関数と比較して，提案手法が生成モデルの適応能力を向上させることが示された。
- GANインバージョンにおける潜在空間表現の役割を再定義し，より正確な適応を実現する。
Link: https://arxiv.org/abs/2604.23888
MarketBench：市場参加者としてのAIエージェントの評価 [cs.HC, cs.AI, econ.GN, q-fin.EC]目的：AIエージェントの市場参加能力の評価
- AIエージェントの活動を調整する上で，市場メカニズムは有効性が期待される。
- AIエージェントは，自身の能力とコストを正確に評価することが課題である。
- AIエージェントの自己評価能力が，市場メカニズムの有効性に影響する点を検証する。
- 最近公開されたLLMは，成功確率とトークン使用量の両方において誤った自己評価をしていることが判明した。
- 自己評価に基づくオークションは，完全情報に基づく配分から乖離している。
- 過去の実験データを用いて自己評価を改善する介入を行ったが，完全情報との差は縮小しなかった。
Link: https://arxiv.org/abs/2604.23897
軽量モデルによるマンモグラフィ病変セグメンテーション：比較研究 [cs.CV, cs.LG]目的：マンモグラフィ病変セグメンテーションのための軽量モデルの性能評価
- 乳癌は女性の癌による死亡原因の主要なものであり，マンモグラフィが主要なスクリーニング手段である。
- 深層学習モデルは高い性能を示すものの，計算資源を多く必要とし，環境に制約がある場所での利用が難しい。
- 計算資源の少ない環境でも利用可能な，高性能な軽量モデルを開発し，実用的なCADシステムへの応用を目指す。
- MobileNetV2(SCSE)が最も高い性能を示し，Diceスコア0.5766を達成，U-Netと比較して約75%少ないパラメータで済んだ。
- DMIDデータセットでの評価では，ドメインシフトにより精度は低下したが，再現率は維持された。
- 軽量アーキテクチャは，実用的なCADシステム展開のための性能と効率のバランスを提供する。
Link: https://arxiv.org/abs/2604.23899
LLMを活用した交通信号制御：LSTMに基づく交通状態予測と安全制約付き意思決定支援 [cs.AI]目的：交通信号制御における効率化と意思決定の解釈可能性向上
- 交通信号制御は，知能交通システムの重要な要素であり，都市の交通渋滞緩和に不可欠である。
- 従来の固定時間式やルールベース式制御は，動的な交通需要への適応が難しく，柔軟性に欠ける。
- LLMの推論能力を活用し，交通状態の変化に対応した安全な信号制御を実現すること。
- 提案手法は，SUMOシミュレーションにおいて，動的な交通条件下で固定時間式制御やルールベース式制御よりも交通効率を改善した。
- LSTMによる交通状態予測とLLMによる意思決定支援を組み合わせることで，より柔軟で解釈可能な制御を実現した。
- 安全フィルタにより制約違反をゼロに抑え，運用信頼性を確保した。
Link: https://arxiv.org/abs/2604.23902
SMSI: システムモデルセキュリティ推論：サイバー物理システムの自動脅威モデリング [cs.CR, cs.AI]目的：サイバー物理システムにおける脅威モデリングの自動化
- サイバー物理システムは重要インフラを支えるため，セキュリティ確保が不可欠である。
- 従来の脅威モデリングは手作業が多く，専門知識と時間が必要とされる。
- システムモデルからセキュリティ対策を自動的に推奨することで，脅威モデリングの効率化を目指す。
- SysMLアーキテクチャモデルからNIST 800-53セキュリティコントロールの優先順位リストを生成するハイブリッドなパイプラインSMSIを提案。
- CVEからMITRE ATT&CKへのマッピングには，SecureBERT+を用いた教師あり分類器が最も高い性能を示した。
- 事前学習済みのSecureBERTが，自動的なコントロール推奨の強力な基盤となることを実証した。
Link: https://arxiv.org/abs/2604.23905
オーストラリア国立電力市場における短期電力価格予測のための機械学習および深層学習モデル [cs.LG, cs.SY, eess.SY]目的：短期電力価格予測の精度向上
- 電力市場の競争激化に伴い，正確な電力価格予測は不可欠である。
- 電力価格系列は，高い変動性，不規則性，非定常性を示すため予測が困難である。
- 再生可能エネルギーの導入増加や決済制度変更など，市場の変化に対応した予測手法を確立する。
- 価格予測において，GBRTを含む決定木ベースのモデルがLSTMやSVRを上回る性能を示した。
- ただし，全てのモデルで平均絶対パーセント誤差が90%を超え，価格予測の難しさが浮き彫りになった。
- 一方，需要予測では，AWMLSTMとGBRTがより高い精度を達成し，誤差も小さくなった。
Link: https://arxiv.org/abs/2604.23908
多視点関係データの埋め込みとクラスタリングのためのグロモフ・ワッサースタイン法 [cs.LG, stat.ML]目的：多視点関係データからの低次元表現の学習
- データの多様性が増す中，複数の視点からの情報を統合する技術の重要性が高まっている。
- 異なる視点間ではデータの幾何構造が異なり，統一的な埋め込み表現の学習が困難である。
- 視点間の幾何構造の違いを考慮し，関係構造を保持した共通の埋め込み表現を学習すること。
- 提案手法Bary-GWMDSは，距離行列を用いて関係構造を保存する共通埋め込みを学習する。
- Mean-GWMDS-Cは，距離行列の平均化とグロモフ・ワッサースタイン輸送を用いて，低サポートの表現を学習する。
- 合成データおよび実データでの実験により，提案フレームワークの安定性と幾何学的な意味の明確さが示された。
Link: https://arxiv.org/abs/2604.23912
グラフニューラル組合せ最適化による結晶構造予測 [cs.SI, cs.LG, cs.AI]目的：結晶構造予測のためのグラフニューラルネットワークに基づく組合せ最適化手法
- 結晶材料は技術応用に広く利用されており，その発見は重要である。構造が特性を決定するため，構造予測が不可欠。
- 従来の結晶構造予測は計算コストが高く，特に対称性制約がない場合に大規模な探索が困難であった。
- 本研究は，グラフニューラルネットワークを用いた組合せ最適化により，効率的な結晶構造予測を目指す。
- グラフニューラルネットワークとエクスパンダーグラフを活用し，原子配置の分布から効率的に構造をサンプリングする手法を開発した。
- 開発した手法は，古典的なヒューリスティック手法や市販の最適化ソルバーと比較して，優れた性能を示した。
- GPUインフラを活用し，大規模な計算を可能にすることで，現在の結晶構造予測能力の限界を超えることを目指す。
Link: https://arxiv.org/abs/2604.23921
自律的なトレーニングとタンパク質-タンパク質相互作用のルール抽出のためのエージェントAIプラットフォーム [cs.AI, q-bio.BM]目的：ヒト-ヒトおよびウイルス-ヒトのタンパク質-タンパク質相互作用に関する予測MLモデルの自律的トレーニングと，それらを支配する明示的な汎用ルールの誘導
- タンパク質間相互作用の理解は，生命現象の解明や創薬において極めて重要である。
- 既存の手法では，相互作用予測の精度向上と，その根拠となる生物学的ルールの解明が課題である。
- エージェントAIを活用し，データ収集からルール抽出，説明までを自動化することで，これらの課題解決を目指す。
- ヒト-ヒトおよびヒト-ウイルスPPIの予測において，それぞれ87.3%と86.5%の精度を達成した。
- ルール誘導プラットフォームは，予測MLモデルからSHAPによって特定された特徴と一致するルールを生成した。
- 本研究は，エージェントAIがデータ計画から実行，ルール抽出，説明までをオーケストレーションできることを示した。
Link: https://arxiv.org/abs/2604.23924
頑健かつ臨床的に信頼性の高い脳波バイオマーカー：汎化可能なパーキンソン病検出のためのクロス集団フレームワーク [cs.HC, cs.NI, cs.LG, eess.SP, q-bio.NC]目的：脳波バイオマーカーの頑健性と臨床的信頼性の評価フレームワーク
- パーキンソン病のような疾患検出において，脳波は非侵襲的な診断手段として重要である。
- 従来の脳波解析は集団特有のアーチファクトに影響を受けやすく，異なる臨床集団への汎化性能が低い。
- 集団間の分布シフトを考慮した評価フレームワークにより，頑健かつ汎化性の高い脳波バイオマーカーを特定する。
- クロス集団評価により，データ転移が非対称であることが示された。
- トレーニング集団の多様性を増やすことで，精度とバイオマーカーの安定性が向上し，最大94.1%の精度を達成した。
- 混合リスク最適化に基づく理論的分析から，多集団トレーニングが集団に頑健な表現を促進することが示唆された。
Link: https://arxiv.org/abs/2604.23933
制約誘導マルチエージェントによる実行可能バイナリからの逆アセンブル [cs.CL, cs.SE, cs.AI]目的：実行可能バイナリからのソースコード復元
- セキュリティ分析，マルウェア解析，レガシーソフトウェア保守において，ソースコード復元は不可欠な技術である。
- 既存の逆アセンブラは，コンパイルや実行に失敗するコードを生成することが多く，実用性が制限されている。
- 本研究は，実用的なソースコードを生成するために，逆アセンブルの精度と信頼性を向上させることを目指す。
- マルチレベル制約誘導逆アセンブル(MCGD)フレームワークにより，逆アセンブルされたコードを実行可能なソースコードに変換した。
- ExeBenchの1,641個の実世界バイナリで84-97%の再実行可能性を達成し，既存の逆アセンブラの出力と比較して28-89%改善した。
- GPT-4oをバックボーンとするLLMベースの逆アセンブル手法(LLM4Decompile, SK2Decompile, SALT4Decompile)と比較して，より高い性能を示した。
Link: https://arxiv.org/abs/2604.23940
彼らは何を意味していたのか？LLMが視点と役割を通して曖昧な社会的状況をどのように解決するか [cs.HC, cs.AI]目的：曖昧な社会的状況に対するLLMの解釈のあり方
- 人間は複雑な社会状況の理解に苦労することがあり，客観的な判断が難しい。
- LLMは曖昧な状況でも結論を導き出す傾向があり，不確実性を認識しにくい。
- LLMが曖昧な状況をどのように解釈し，どのような経路で結論に至るかを明らかにすること。
- GPT，Claude，Geminiの回答の多くは，物語の整合性，反転，規範的助言などを通して解釈を確定しようとする。
- 語り手の視点によって結論の導き方が異なり，一人称では整合性を重視し，三人称では客観的な解釈がされやすい。
- LLMは状況を誤解するだけでなく，未解決の状況を早めに解決してしまうリスクがある。不確実性を維持するAI設計が課題となる。
Link: https://arxiv.org/abs/2604.23942
GAMED.AI：自動教育ゲーム生成のための階層型マルチエージェントフレームワーク [cs.AI]目的：教育ゲームの自動生成
- 教育における個別最適化の重要性が高まっており，多様な学習ニーズに対応できる教材開発が求められている。
- 従来の教育ゲーム開発は，専門知識と時間が必要であり，迅速な教材作成が困難であった。
- 本研究は，質問文から自動的に教育ゲームを生成することで，教材開発の効率化を目指している。
- GameDAIは，教員が提供する質問を，正式なメカニズム契約によって検証された，完全にプレイ可能な教育ゲームへと変換する階層型マルチエージェントフレームワークである。
- 評価実験の結果，200問の質問に対して90%の検証合格率，98.3%のスキーマ適合率，ReActエージェントと比較して73%のトークン削減が確認された。
- 結果から，プロンプティング戦略だけでなく，段階的なアーキテクチャ構造がアライメントの質に強く相関することが示唆された。
Link: https://arxiv.org/abs/2604.23947
サブ文字の組み合わせ規則に基づく韓国文字表現KOMBO [cs.CL, cs.AI]目的：韓国語の文字表現に関する研究
- 韓国語は固有の文字体系を持ち，その体系はハングル創製原理に基づいている。言語理解において重要。
- 既存の事前学習済み言語モデルは，ハングルの創製原理を考慮していないという課題がある。
- ハングルの創製原理に基づいた文字表現を用いて，言語モデルの性能向上を目指す。
- 提案手法KOMBOは，多様な自然言語処理タスクで優れた性能を示す。
- 5つの韓国語自然言語理解タスクにおいて，最先端の韓国語PLMを平均2.11%上回る成果を達成した。
- サブ文字ベースのアプローチが，韓国語PLMにとって効果的であることが示唆された。
Link: https://arxiv.org/abs/2604.23948
LLMを用いた意思決定支援のための文脈を考慮した入院予測評価 [cs.AI]目的：大規模な医療混乱時における入院傾向の予測
- 医療資源の効率的な配分は，公衆衛生の維持に不可欠である。
- 現実世界のデータ条件下では，予測モデルの信頼性が課題となる。
- LLMを活用し，安定した意思決定に資する予測手法を確立すること。
- HybridARXは，従来のARXモデルと比較して，より安定した校正された予測結果を導き出す。
- 特にノイズの多い文脈情報を構造化時系列モデルに組み込むことで，その効果が顕著になる。
- 非定常な医療資源予測において，LLMは構造化ハイブリッドモデルに組み込むことが有効である。
Link: https://arxiv.org/abs/2604.23949
Viewportを意識しない全方向画像品質評価：統一的かつ汎化されたアプローチ [cs.CV, cs.AI]目的：全方向画像品質の評価手法
- VR/AR技術の発展に伴い，全方向画像の利用が拡大しており，高品質な画像評価が不可欠である。
- 従来の全方向画像品質評価は，Viewport生成に計算コストがかかり，他の画像への汎化が難しいという課題があった。
- Viewport生成を不要とし，全方向画像を2D平面画像品質評価問題として捉えることで，上記課題の解決を目指す。
- 本研究では，全方向画像品質評価をViewportを意識しない形で，2D平面画像品質評価問題として解決できることを示した。
- 提案手法は，全方向画像と2D平面画像の双方に対応できる統一性と，既存手法を上回る汎化性能を有する。
- 保留データを用いた実験やクロスデータベース検証，gMADコンペティションにおいて，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2604.23953
臨床データを用いたAIモデル更新のリスクに関する実証的評価：安定性，恣意性，公平性 [cs.AI]目的：AIモデル更新に伴うリスクの評価
- 臨床現場でのAI活用は増加傾向にあり，その安全性と信頼性が重要である。
- 時間経過に伴うデータ変化により，AIモデルの性能が低下する可能性がある。
- モデル更新が引き起こす可能性のあるリスクを検出し，信頼性を確保すること。
- モデル更新戦略が，予測結果の変動，恣意性の増加，公平性の低下を引き起こす可能性があることが示された。
- 重度の高血糖イベント予測をケーススタディとして，安定性，恣意性，公平性に関する評価を行った。
- 継続的なモニタリングが，信頼性の高い臨床意思決定支援システムの開発に不可欠であることが示唆された。
Link: https://arxiv.org/abs/2604.23954
拡散増強を用いたタスク誘導時空間ネットワーク：脳波に基づく認知症診断とMMSE予測 [cs.CC, cs.RO, cs.LG, cs.AI]目的：脳波に基づく認知症の診断とMMSE予測
- 認知症の早期発見は，患者のQOL向上に不可欠である。
- 脳波とMMSEの同時モデリングにおいて，特徴量の混同が課題となっていた。
- タスク誘導時空間ネットワークにより，タスク間の干渉を軽減し，精度向上を目指す。
- 提案手法は，XY02データセットにおいて，AD/FTDの分類精度97.78％を達成した。
- AD/FTD/VCIの分類精度は83.93％であり，既存手法を16.39％と8.28％上回った。
- MMSE予測のRMSEは1.93と2.38に減少し，既存手法と比較して大幅な誤差軽減を示した。
Link: https://arxiv.org/abs/2604.23964
DecompKAN：長期間時系列予測のための分解パッチ-KAN [cs.LG, cs.AI, stat.ML]目的：長期間時系列予測の性能向上
- 気候モデリング等の科学分野において，予測精度とモデルの透明性が重要である。
- 既存モデルは，予測精度と解釈性の両立が課題となっていた。
- 解釈可能な予測モデルを構築し，時系列予測の精度向上を目指す。
- DecompKANは，32のデータセット・予測期間の組み合わせのうち15個で，既存モデルと同等または最高のMSEを達成した。
- 9つのデータセットにおける制御された評価では，36回の比較のうち20回で，既存モデルと同等または最高のMSEを達成した。
- 学習されたエッジ関数の可視化により，ドメインごとの潜在的な非線形性が異なっていることが定性的に示された。
Link: https://arxiv.org/abs/2604.23968
LLM誘導によるエージェント的間取り図解析：視覚障碍者・弱視者のための屋内ナビゲーション [cs.AI, cs.CV, cs.HC, cs.MA]目的：視覚障碍者・弱視者向け屋内ナビゲーションの実現
- 屋内ナビゲーションは，視覚障碍者・弱視者にとって重要な課題であり，自立した生活を支援する上で不可欠である。
- 既存の屋内ナビゲーションシステムは，建物ごとに高価な設備が必要であり，導入のハードルが高い。
- 本研究は，低コストでアクセス可能な屋内ナビゲーションシステムを構築し，その課題を解決することを目指す。
- 提案手法は，単一の間取り図画像から構造化された知識ベースを生成し，安全でアクセス可能なナビゲーション指示を提供する。
- UMBC Math and Psychology buildingにおける実験で，短・中・長距離のルートにおいて，既存のLLMベースラインよりも高い成功率を達成した。
- 本研究は，視覚障碍者・弱視者向けの屋内ナビゲーションにおける，スケーラブルなソリューションの可能性を示す。
Link: https://arxiv.org/abs/2604.23970
量子知識グラフ：文脈依存型トリプルの妥当性モデリング [cs.CL, cs.AI, cs.SC]目的：文脈依存型トリプルの妥当性モデリング
- 大規模言語モデルの推論において，知識グラフの活用が重要性を増している。
- 従来の知識グラフでは，関係性が常にグローバルに有効とみなされ，文脈が考慮されていない。
- 知識グラフにおける関係性の妥当性を文脈に応じて評価するモデルを構築すること。
- 量子知識グラフ(QKG)は，医学分野における糖尿病関連知識グラフの文脈依存関係をモデル化した。
- QKGを用いた推論-検証パイプラインにおいて，検証器の導入により医療QAの精度が向上した（+0.61pp）。
- 特にQKGと文脈照合を組み合わせることで，最も大きな改善が見られ，より強力な検証器を用いると更なる精度向上が確認された。
Link: https://arxiv.org/abs/2604.23972
表現的曲率が大規模言語モデルの行動的確信性に影響を与える [cs.AI, cs.CL, cs.LG]目的：大規模言語モデルにおける表現的曲率とトークンレベルの行動的確信性との関係
- 大規模言語モデルの性能向上には，内部表現の理解が不可欠である。表現の構造はモデルの予測能力に深く関わる。
- 表現的軌跡と具体的な行動との直接的な関係は，未だ明確に解明されていない。
- 表現的曲率を指標として，モデルの不確実性を定量化し，制御することを目指す。
- 文脈的曲率が，トークンレベルの次のトークンエントロピーと相関することが確認された。
- 軌跡に沿った介入によって曲率を操作することで，エントロピーが確実に変化することが示された。
- 訓練中に表現をより直線的にする正則化が，トークンレベルのエントロピーをわずかに低減した。
Link: https://arxiv.org/abs/2604.23985
継続的なキャリブレーション：生涯学習におけるLLMファインチューニングでカバレッジは精度よりも先に崩壊する [cs.LG]目的：大規模言語モデルの生涯学習における不確実性の信頼性低下
- LLMの性能向上には，継続的な学習が不可欠である。多様なタスクへの適応能力を高める必要がある。
- 従来の評価指標は精度に偏っており，モデルの信頼性低下を見落とす可能性がある。
- 精度維持だけでは不十分であり，カバレッジ（信頼区間の維持）の低下を抑制することを目指す。
- 継続学習において，カバレッジの低下は精度低下よりも顕著に現れることが示された。平均で約3.4倍の差が生じた。
- 標準的な継続学習手法ではカバレッジを維持できず，単純なキャリブレーションではそのギャップを完全に埋めることができない。
- 提案手法であるキャリブレーションリプレイは，軽量なポストホック処理でカバレッジをほぼ元の水準まで回復させる。
Link: https://arxiv.org/abs/2604.23987
金融時系列アドバイザリーのための事後選好最適化 [cs.LG, cs.AI]目的：金融時系列に関する予測アドバイザリーの質向上
- 金融市場では，予測モデルの精度だけでなく，投資判断に役立つアドバイスの質が重要である。
- 予測時に未知の将来の情報に依存するアドバイザリーの訓練は，質の評価が困難である。
- 事後的な情報を用いて，言語モデルのアドバイスの質を評価・改善する手法を開発すること。
- 事後選好最適化により，大規模言語モデルが人間の介入なしにアドバイスのランキングを学習することが可能となった。
- S&P500の株式時系列データを用いた実験で，40億パラメータのモデルが2350億パラメータの教師モデルを上回る性能を示した。
- 精度とアドバイスの質の両面において，本手法が有効であることが示された。
Link: https://arxiv.org/abs/2604.23988
初期コードの修正と反復的なテキスト指示による安全な複数ターンコード修正 [cs.LG, cs.AI]目的：複数ターンコード修正における推論性能の向上
- 大規模言語モデルの性能向上には，推論計算資源の拡大が不可欠である。
- 既存手法は複雑で，どの要素が性能向上に貢献しているか不明確である。
- 初期コードを固定し，テキスト指示を反復的に洗練することで，性能向上を目指す。
- 提案手法IRTDは，初期コードを固定しテキスト指示を反復的に改善するシンプルな手法である。
- 理論的に，Oracle-Guided Inductive Synthesis（OGIS）を用いてIRTDの安全性を証明した。
- 複数のコード生成ベンチマークで，IRTDは最先端手法と同等の推論性能を達成した。
Link: https://arxiv.org/abs/2604.23989
展開されたトリリンガル公共空間エージェントに対する故障中心の実行時評価 [cs.AI]目的：展開されたトリリンガル公共空間エージェントの故障中心の実行時評価
- 公共空間エージェントは，多様な言語に対応し，円滑なコミュニケーションを支援する上で重要である。
- 従来の評価方法では，システム全体の平均スコアに注目しがちで，言語間での性能差や故障箇所が隠蔽されやすい。
- 本研究は，故障に着目した評価手法により，展開後のシステムにおける潜在的な問題を可視化し，改善につなげることを目指す。
- 本研究で開発されたPSA-Evalは，質問から故障事例，修理，回帰テストまでの流れを追跡可能にする。
- 実際のトリリンガルデジタルフロントデスクシステムを用いたパイロットスタディの結果，14グループで言語間スコアのドリフトが確認された。
- 故障中心の実行時評価は，集約されたスコアでは見えにくい，展開後のシステムに関する構造的なシグナルを明らかにできる可能性が示された。
Link: https://arxiv.org/abs/2604.23990
EPM-RL：Eコマースにおけるオンプレミス製品マッピングのための強化学習 [cs.CL, cs.AI, cs.DB, cs.LG, cs.MA]目的：Eコマース製品マッピングモデルの精度と効率の向上
- 価格監視やチャネル可視化にとって不可欠な技術であり，Eコマースの発展に寄与する。
- 販売者がタイトルにプロモーションキーワードなどを付加するため，同一製品が多様な名称で表示される。
- 高コストな外部API等に依存せず，プライバシーを保護しつつ，大規模展開可能なシステムを構築する。
- EPM-RLは，PEFTのみの学習と比較して，一貫して性能が向上することを示した。
- 商用APIベースのベースラインと比較して，より優れた品質とコストのトレードオフを実現する。
- 強化学習により，製品マッピングをスケーラブルで検証可能なシステムへと変革できる可能性を示唆する。
Link: https://arxiv.org/abs/2604.23993