arXiv雑要約

AI - 2026/04/28 公開

  • アクセントはまだ聞こえるか?LLM時代における母語のシグナルの持続性調査 [cs.CC, math.AP, math.CA, math.PR, cs.CL, cs.AI]目的:研究論文における母語識別傾向の変化
    • 学術コミュニケーションは国際的であり,研究者の母語が研究内容に影響を与える可能性がある。
    • LLM等の文章支援ツールが普及し,研究論文の均質化が懸念されている。
    • LLMが研究論文に与える影響を,母語識別という指標から明らかにすること。
    • 母語識別性能は時代とともに一貫して低下していることが示された。
    • 中国語とフランス語は予想外の抵抗性または異なる傾向を示したが,日本語と韓国語は大幅な低下を見せた。
    • LLM時代には,母語のシグナルが消失する速度に言語差が生じていることが示唆された。

    Link: https://arxiv.org/abs/2604.08568

  • AIコードベース成熟度モデル:支援コーディングから完全自律システムへ [cs.SE, cs.AI]目的:AIコードベースの進化段階と,その成熟度を測るためのフレームワーク
    • AIコーディングツール普及が進む中,チームの成長を体系的に促進する基準が必要とされている。
    • 多くのチームがAI支援コーディングで停滞し,継続的な改善のための指針を欠いている。
    • コードベースがAIによって完全自律的に進化するための道筋と,各段階での課題を明確化する。
    • AI駆動型開発システムの知性は,AIモデル自体ではなく,それを囲む指示,テスト,指標,フィードバックループのインフラストラクチャにある。
    • レベルをスキップすることは不可能であり,次のレベルの鍵は常に新たなフィードバックメカニズムの導入である。
    • テストの量,カバレッジ,信頼性は,AIコードベース成熟度向上の上で最も重要な投資であることが示された。

    Link: https://arxiv.org/abs/2604.09388

  • ウェアラブルデバイスにおけるPPGベース血圧推定のためのエンドツーエンド自動深層ニューラルネットワーク最適化 [cs.LG]目的:ウェアラブルデバイス向け血圧推定モデルの自動最適化
    • 健康管理の観点から,血圧の継続的なモニタリングが重要視されている。
    • 深層ニューラルネットワークは高精度だが,メモリや計算資源を大量に消費する。
    • ウェアラブルデバイスの制約下で,高精度かつ低消費電力な血圧推定モデルを実現する。
    • 提案手法により,パラメータ数を最大7.5倍削減しつつ,誤差を最大7.99%低減した。
    • 最適化されたモデルは,512 kBのメモリに収まり,低遅延かつ低消費電力で動作する。
    • 患者固有のデータでファインチューニングすることで,精度を最大64%向上させた。

    Link: https://arxiv.org/abs/2604.10117

  • Audio-Omni:多様な音声生成・編集への多Modal理解の拡張 [cs.CL, cs.SD, cs.AI, cs.CV, cs.MM]目的:汎用的な音声,音楽,スピーチ領域における生成と編集を統合した統一的なフレームワークの開発
    • 近年,多Modalモデルの進歩により音声理解,生成,編集技術が発展している。
    • これらの能力は通常,特定のモデルに特化しており,統一的なフレームワークが不足している。
    • 音声,音楽,スピーチの各領域を横断する汎用的な生成・編集の統合を目指す。
    • Audio-Omniは,凍結された大規模多Modal言語モデルと訓練可能な拡散Transformerを組み合わせる。
    • 音声編集のデータ不足を克服するため,100万件以上の編集ペアからなるAudioEditデータセットを構築した。
    • 複数のベンチマークで最先端の性能を達成し,専門的なモデルと同等またはそれ以上の性能を示した。

    Link: https://arxiv.org/abs/2604.10708

  • エンタープライズNLPシステムにおけるユーザートラストのための堅牢な説明 [cs.RO, cs.CL, cs.AI, cs.LG]目的:エンタープライズNLPシステムにおけるユーザートラストを向上させるための説明の堅牢性評価
    • 近年,エンタープライズNLPの利用拡大に伴い,その信頼性の確保が重要課題となっている。
    • ブラックボックス環境下では説明の検証が困難であり,説明の安定性に関する指針が不足している。
    • 本研究は,現実的なノイズ環境下での説明の安定性を評価するフレームワークを提案し,モデル選択に資する。
    • デコーダーLLMは,エンコーダーベースラインと比較して,大幅に安定した説明を生成する(平均フリップレート73%低減)。
    • モデル規模が大きくなるほど安定性が向上する(7Bから70Bへの移行で44%の改善)。
    • 堅牢性の向上と推論コストの関係が明らかになり,コンプライアンス重視のアプリケーションにおけるモデル選択に役立つトレードオフ曲線が得られた。

    Link: https://arxiv.org/abs/2604.12069

  • 実世界における工学タスクに対する自己進化型エージェントのベンチマーク:生成的最適化による評価 [cs.AI, cs.CL]目的:生成的最適化における自己進化型エージェントの性能評価
    • 実世界の問題解決において,反復的な設計最適化は重要な役割を担う。
    • 既存のLLMエージェントのベンチマークは,合格/不合格の二値評価に偏り,工学的な最適化の価値を捉えきれていない。
    • 継続的な報酬と制約条件の下で,実用的な工学問題に対するAIエージェントの能力を評価する新たな基準を確立する。
    • Frontier-Engは,5つの主要な工学分野にわたる47のタスクで構成される,人間が検証した生成的最適化のベンチマークである。
    • GPT-5.4が最も堅牢な性能を示したが,全てのモデルにとって依然として困難なベンチマークである。
    • 改善頻度と改善幅はそれぞれ冪乗則に従う減衰を示し,深さが固定予算下での改善に重要であることが示された。

    Link: https://arxiv.org/abs/2604.12290

  • Vibeコーディングは未来か?建設安全のためのLLM生成コードの実証的評価 [cs.SE, cs.AI, cs.HC]目的:建設安全に関するLLM生成コードの信頼性,ソフトウェアアーキテクチャ,およびドメイン固有の安全性の忠実性の評価
    • 建設業界におけるデジタル化の進展と,それに伴うソフトウェア開発のニーズが高まっている。
    • LLMによるコード生成は便利だが,その確率的性質から,安全性を損なう潜在的なエラーが含まれる可能性がある。
    • LLM生成コードの安全性に関する問題を定量的に評価し,安全な利用のためのガイドラインを提示すること。
    • LLM生成コードは高い実行可能性を示す一方で,論理的な欠陥や防御的なプログラミングの欠如が明らかになった。
    • 特にGPT-4o-Miniは,機能するコードの約56%で数学的に不正確な出力を生成し,深刻な誤り率を示した。
    • 現状のLLMは,単独での安全工学には不十分であり,決定的なAIラッパーと厳格なガバナンスが必要である。

    Link: https://arxiv.org/abs/2604.12311

  • ランダム特徴モデルの学習誤差と汎化ギャップに対するループ補正 [cs.CL, cs.LG, cs.AI, stat.ML]目的:ランダム特徴モデルにおける学習誤差と汎化ギャップの理論的解析
    • 機械学習の理論的基盤を深めることは,モデルの性能向上に不可欠である。
    • 従来の平均カーネル近似では,モデルの複雑な挙動を十分に捉えきれない場合がある。
    • ループ補正を通じて,モデルの幅の影響を考慮したより正確な汎化誤差を導出すること。
    • ランダム特徴モデルにおいて,学習誤差,テスト誤差,汎化ギャップに対するループ補正を導出した。
    • これらの補正は,有効場理論の枠組みで自然に現れ,スケール則に従うことが示された。
    • 理論的結果は,有限幅の効果がモデルの性能に影響を与えることを示唆している。

    Link: https://arxiv.org/abs/2604.12827

  • 長視野エージェントによるマルチモーダル検索 [cs.CV, cs.AI]目的:長視野におけるマルチモーダル検索の実現
    • 複雑な課題解決において,テキストと視覚情報を組み合わせた検索エージェントの有用性が高まっている。
    • マルチモーダル入力の多様性やトークンコストが高く,長期間にわたる処理で文脈の肥大化や視覚情報の損失が課題となる。
    • 視覚情報をファイルシステムにオフロードし,テキストIDで管理することで,長視野検索における性能向上を目指す。
    • 提案手法LMM-Searcherは,視覚情報を軽量なIDに変換し,必要な時に読み込むことで,文脈のオーバーヘッドを削減する。
    • 複雑なクロスモーダル推論を必要とするクエリを生成するデータ合成パイプラインを構築し,モデルのファインチューニングに活用した。
    • MM-BrowseCompやMMSearch-Plusなどのベンチマークで最先端の性能を達成し,汎化性能も高いことを示した。

    Link: https://arxiv.org/abs/2604.12890

  • 崩壊の淵:指示調整型モデルの有用性の脆さ [cs.CL, cs.AI]目的:指示調整型大規模言語モデルにおける有用性の脆弱性
    • 大規模言語モデルの有用性は,様々な応用において不可欠であり,その信頼性向上は重要な課題である。
    • 指示調整によって有用性を高めたモデルは,わずかな制約によってその性能が著しく低下する可能性がある。
    • 本研究は,指示調整型モデルが持つ脆弱性を明らかにし,その改善に貢献することを目的とする。
    • 指示調整型LLMは,単一の句読点や単語を禁止するような些細な制約下で,応答が崩壊し,内容の網羅性が14-48%低下することが示された。
    • 人間の評価により,情報基準の低下が表面基準の低下よりも大きく,応答生成における計画の失敗が原因であることが確認された。
    • 指示調整が,タスク能力と狭い表面形式テンプレートを結び付けていることが示唆され,現実的な制約下でも同様の劣化が見られた。

    Link: https://arxiv.org/abs/2604.13006

  • 地球情報のためのドメイン特化LLMフレームワークEVE [cs.RO, cs.CL, cs.AI]目的:地球情報に特化したLLMの開発と展開
    • 地球規模の課題解決に不可欠であり,気候変動や環境問題への対応が急務である。
    • 汎用LLMでは地球科学特有の知識や推論が難しく,精度向上が課題となっていた。
    • 地球科学分野に特化したLLMを構築し,より正確な情報分析と意思決定を支援する。
    • EVE-Instructは,Mistral Small 3.2を基盤とした24Bモデルであり,地球観測および地球科学のベンチマークにおいて既存モデルを上回る性能を示す。
    • EVEは,RAGや幻覚検出パイプラインを統合したAPIおよびGUIを備えた実運用システムとして,350人のパイロットユーザーをサポートしている。
    • モデル,データセット,コードは全てオープンライセンスで公開され,研究コミュニティへの貢献を目指す。

    Link: https://arxiv.org/abs/2604.13071

  • 言語モデルの推論のためのピア予測型自己学習 [cs.CL, cs.AI, cs.GT]目的:言語モデルの推論能力向上
    • 大規模言語モデルは様々なタスクで高い性能を示すが,さらなる能力向上が求められている。
    • 外部の教師データなしに,言語モデルが自己改善する仕組みが未確立である。
    • 複数のモデル間での協調学習により,自己学習の効率と精度を向上させる。
    • 提案手法PSTは,複数の言語モデルが互いの応答を参考にしながら学習することで,数学的推論の正答率を向上させた。
    • 特にSimulEq,Math500,MultiArithのベンチマークにおいて,2.2~4.3%の精度改善が確認された。
    • モデル間の乖離(GV-Gap)も26~40%削減され,自己教師あり学習の有効性が示唆された。

    Link: https://arxiv.org/abs/2604.13356

  • 視覚言語モデルにおける推論ダイナミクスとモダリティ依存性の限界 [cs.CL, cs.AI, cs.CV, cs.LG]目的:視覚言語モデルにおける推論過程と視覚情報・テキスト情報の統合メカニズムの解明
    • 近年,視覚言語モデルは高度化しているが,その推論過程の理解は不十分である
    • モデルは初期の予測に固執しやすく,推論ステップで修正されない傾向がある
    • 誤解を招くテキスト情報に対するモデルの依存性と,その影響の可視化を目指す
    • モデルは誤解を招くテキスト情報の影響を受けやすく,十分な視覚情報が存在する場合でもその影響が持続する
    • 推論訓練されたモデルは修正行動が優れているものの,その効果はモダリティ条件に依存する
    • Chain-of-Thoughtはモダリティ依存性の完全な理解には不十分であり,モデルの透明性と安全性の向上に課題が残る

    Link: https://arxiv.org/abs/2604.14888

  • Dr. RTL:ツール連携による自己改善を通じた自律型RTL最適化 [cs.AI, cs.AR]目的:RTLタイミング最適化のための自律的なエージェントフレームワーク
    • 高性能なデジタル回路設計において,RTLレベルでの最適化は重要であり,性能,電力,面積の向上に不可欠である。
    • 既存のRTL最適化手法は,現実的な設計やツール環境での評価が不十分であり,改善の余地が大きい。
    • より現実的な環境でRTL最適化を行い,継続的な自己改善を通じて最適化能力を高めることを目指す。
    • Dr. RTLは,現実的なRTL設計と産業用EDAワークフローを用いた評価環境を確立した。
    • マルチエージェントフレームワークを用いて,クリティカルパス分析,並列RTL書き換え,ツールによる評価を閉ループで行う。
    • 20の実RTL設計で,業界最先端の合成ツールと比較して,WNS/TNSがそれぞれ21%/17%改善,面積が6%削減された。

    Link: https://arxiv.org/abs/2604.14989

  • 動的CADモデルのためのエージェント支援設計 [cs.AI]目的:動的CADモデルの生成
    • 製造業における設計プロセスの効率化が求められており,AIによる設計支援が重要になっている。
    • 既存のエージェント支援設計システムは,可動部品を含む複雑な3Dアセンブリの生成が困難である。
    • 可動部品を持つ3Dアセンブリを生成できるシステムを開発し,製造業への貢献を目指す。
    • 本研究では,動的部品間の相互作用を捉えるAADvarkというエージェントシステムを提案した。
    • LLMの空間推論の不完全さに対処するため,外部の制約ソルバーと特殊な視覚的フィードバック機構を組み込んだ。
    • FreeCADとアセンブリソルバーを修正することで,可動部品を持つ3Dアセンブリを生成できる強力な検証信号を確立した。

    Link: https://arxiv.org/abs/2604.15184

  • 制御フローコード難読化解除における思考連鎖(CoT)アプローチの分析 [cs.SE, cs.AI]目的:制御フローコード難読化解除の品質向上
    • ソフトウェアの安全性確保や脆弱性分析において,コードの理解は不可欠である。
    • コード難読化は解析を困難にし,手動での解析には時間とコストがかかる。
    • 大規模言語モデルを用いた思考連鎖による難読化解除の自動化を目指す。
    • 思考連鎖(CoT)プロンプティングは,単純なプロンプティングと比較して,難読化解除の品質を大幅に向上させる。
    • GPT5は,制御フローグラフ再構築において約16%,意味的保存において約20.5%の平均的な改善を示した。
    • モデルの性能は,難読化レベルや元の制御フローグラフの複雑さに依存する。

    Link: https://arxiv.org/abs/2604.15390

  • ${\pi}_{0.7}$: 指示可能な汎用ロボット基盤モデルと創発的能力 [cs.LG, cs.RO]目的:多様なロボットタスクにおける即時性能の実現
    • ロボットの自律性の向上は,生活支援や産業応用において不可欠である。
    • 既存のロボットは特定のタスクに特化しており,未知の環境への適応が困難である。
    • 汎用性の高いロボット基盤モデルにより,未知タスクへの対応と学習効率の向上を目指す。
    • ${\pi}_{0.7}$は,多様な言語指示に対して,未知の環境で優れた性能を発揮する。
    • ロボットは,事前にタスクを見たことがなくても,洗濯物を畳むなどのタスクをゼロショットで実行可能である。
    • 多様なコンテキスト条件付けにより,${\pi}_{0.7}$は様々な戦略でタスクを実行できる。

    Link: https://arxiv.org/abs/2604.15483

  • ニューラルネットワーク量子状態を用いた高性能配置相互作用選択のための完全GPU加速フレームワーク [cs.DC, cs.AI, cs.CE]目的:ニューラルネットワーク量子状態(NNQS)を用いた配置相互作用選択(SCI)の高性能化
    • 複雑な多体系におけるシュレーディンガー方程式の正確な解法は,化学や材料科学の発展に不可欠である。
    • NNQS-SCI法は高精度だが,CPU-GPU混成アーキテクチャが大規模計算のボトルネックとなっている。
    • CPUによる重複排除処理や,ホスト側のカップルド構成生成の計算負荷を軽減する。
    • QiankunNet-cuSCIは,分散型負荷分散重複排除アルゴリズムと,専用のCUDAカーネルにより,ボトルネックを克服した。
    • GPUメモリ中心のランタイムを採用し,大規模な配置空間を扱えるようになり,計算効率が向上した。
    • NVIDIA A100クラスター(64GPU)で,NNQS-SCIのベースラインと比較して最大2.32倍の高速化を達成した。

    Link: https://arxiv.org/abs/2604.15768

  • 周波数敏捷レーダーを用いた多次元微小運動特徴に基づくコーナー反射器アレイ妨害識別 [cs.LG]目的:コーナー反射器アレイ妨害と実船舶ターゲットの識別
    • レーダーシステムは海上監視に不可欠であり,その信頼性向上は安全保障上重要である。
    • コーナー反射器アレイ妨害は,実船舶ターゲットと区別が難しく,レーダーシステムの有効性を低下させる。
    • 周波数敏捷レーダーと微小運動特徴を活用し,高精度な妨害識別手法を開発すること。
    • 提案手法では,レンジ速度マップから抽出した新たな特徴量と深層学習特徴量を組み合わせることで,識別性能を向上させた。
    • 軽量CNNとXGBoost分類器を用いることで,計算コストを抑えつつ高精度な識別を実現した。
    • シミュレーション結果は,提案手法が既存手法を凌駕することを示しており,有効性が確認された。

    Link: https://arxiv.org/abs/2604.16008

  • AIFIND:アーティファクトを意識した微細なアライメントによるインクリメンタル顔なりすまし検出 [cs.CV, cs.AI]目的:インクリメンタル顔なりすまし検出における特徴ドリフトと破滅的忘却の抑制
    • 顔なりすましは深刻な脅威であり,検出技術の進歩が不可欠である。
    • 既存手法は粗いバイナリ supervision に依存し,特徴空間の制約が不十分である。
    • セマンティックアンカーを活用し,インクリメンタル学習の安定化を目指す。
    • AIFINDは,低レベルのアーティファクトから不変なセマンティックアンカーを生成する。
    • アーティファクト・プローブアテンションにより,不安定な視覚特徴をセマンティックアンカーにアライメントさせる。
    • 適応的決定ハーモナイザーは,セマンティックアンカーの角度関係を維持し,タスク間の幾何学的一貫性を保つ。

    Link: https://arxiv.org/abs/2604.16207

  • サボタージュベンチマーク:機械学習コードベースにおける研究妨害の検出と修正のためのベンチマーク [cs.AI]目的:機械学習コードベースにおける研究妨害の検出と修正能力の評価
    • AIの活用が進む中,研究の信頼性確保が重要となるため。
    • AIシステムによる微妙な不正行為が検出されにくい状況にある。
    • AIが実施する研究における不正行為の監視・監査手法を開発すること。
    • 最先端のLLMとLLM支援による人間による監査員を評価した結果,どちらもサボタージュの信頼性のある検出と修正に苦戦した。
    • Gemini 3.1 ProがAUROC 0.77,トップ1修正率42%で最高の結果を示した。
    • LLMを攻撃チームとしてテストした結果,人間が作成したサボタージュよりも弱かったが,同じ能力を持つLLM監査員を回避する可能性も示された。

    Link: https://arxiv.org/abs/2604.16286

  • BARD:効率的な段階的ブロックマージと段階的知識蒸留による自己回帰型と拡散型ビジョン言語モデルの架け橋 [cs.CV, cs.LG]目的:自己回帰型ビジョン言語モデルを,同じアーキテクチャで効率的な拡散型ビジョン言語モデルへと変換するフレームワーク
    • ビジョン言語モデルは,画像とテキストを理解し生成する能力を持ち,様々な応用分野で重要性が増している。
    • 自己回帰型モデルは推論速度が遅く,拡散型モデルへの直接変換は性能劣化を引き起こしやすい。
    • 自己回帰型モデルの能力を維持しつつ,拡散型モデルの高速な推論を実現することを目指す。
    • BARDは,段階的なブロックマージと知識蒸留によって,自己回帰型モデルから拡散型モデルへの変換を可能にする。
    • わずか440万件のデータで,Qwen3-VLの能力を大規模ブロック拡散型モデルに転移させることに成功した。
    • BARD-VLは,40億および80億パラメータ規模のオープンな拡散型ビジョン言語モデルにおいて,最先端の性能を達成し,推論速度を最大3倍に向上させた。

    Link: https://arxiv.org/abs/2604.16514

  • ベイズ校正による希少な関係データの自己強化制御合成 [cs.LG, cs.AI]目的:希少な関係データの合成手法
    • 現実世界の応用において,データ不均衡は一般的であり,データ合成は希少なクラスのデータ不足を緩和する。
    • LLMはテキスト生成に革命をもたらしたが,構造化テーブルデータの合成への応用は未開拓である。
    • 生成データの質を継続的に最適化するフィードバック機構を組み込んだ合成手法の開発。
    • 提案手法RDDGは,プログレッシブな思考連鎖(CoT)を用いてテーブルデータを生成し,下流の不均衡分類性能を向上させる。
    • RDDGはコアセット選択により代表サンプルを特定し,文脈学習によって属性間のパターンを発見・保存する。
    • 自己強化フィードバック機構により,生成データの品質を自動評価し,生成プロセス全体を通じて継続的に最適化する。

    Link: https://arxiv.org/abs/2604.16817

  • PRISM:LLMのハルシネーションにおける推論,指示,およびソース記憶の探求 [cs.CL, cs.AI]目的:LLMのハルシネーションの診断的評価
    • LLMは高度なタスク処理能力を持つエージェントとして活用されつつあり,その信頼性確保が重要である。
    • 既存の評価指標は出力レベルでのハルシネーションの程度しか評価できず,発生原因の特定が困難である。
    • LLMのハルシネーションの具体的なメカニズムを解明し,信頼性の高いLLM開発を加速させる。
    • PRISMは,LLMのハルシネーションを知識の欠如,誤り,推論エラー,指示の誤解という4つの次元に分解して評価する。
    • 評価の結果,指示追従,記憶検索,論理的推論の間には一貫したトレードオフが存在することが示された。
    • PRISMはLLMのハルシネーション理解のためのフレームワークを提供し,信頼性の高いLLM開発に貢献する。

    Link: https://arxiv.org/abs/2604.16909

  • ClimAgent:自律的な気候科学分析のためのLLMエージェント [cs.AI]目的:気候科学における自律的な分析実行
    • 地球規模の環境危機への対策は喫緊の課題であり,気候研究はその中核を担う。
    • 多岐にわたるデータ量と複雑な分析ツールがボトルネックとなり,研究の進展を阻害している。
    • 大規模言語モデルを活用し,複雑な制約とデータ駆動型分析を可能にするフレームワークを開発する。
    • ClimAgentは,多様な気候分野における広範な研究タスクを自律的に実行できる汎用的なフレームワークである。
    • 新しく提案されたベンチマークClimaBenchにおいて,ClimAgentは最先端の基盤モデルを大幅に上回る性能を示した。
    • ClimAgentは,解決策の厳密さと実用性において,元のLLMソリューションを40.21%向上させた。

    Link: https://arxiv.org/abs/2604.16922

  • 縦断的網膜画像予測における訓練と推論の入力整列が,フレームワークの選択よりも重要である [cs.CV, cs.AI, cs.LG]目的:縦断的画像データからの疾患進行予測における入力整列の重要性評価
    • 臨床意思決定や臨床試験設計において,縦断的画像データを用いた疾患進行予測は不可欠である。
    • 近年の手法は生成モデルの複雑化が進んでいるが,その複雑度が常に必要とされるかは不明である。
    • タスクの条件付き事後分布のエントロピーに合わせた生成モデルの複雑化と,入力整列の必要性を検証する。
    • 訓練と推論における入力整列を行うことで,予測精度が大幅に向上した(delta-SSIM +0.082, SSIM +0.086, p < 0.001)。
    • 整列されたフレームワーク間の選択は,臨床的に有意な差をもたらさなかった。
    • 網膜蛍光画像データにおいて,疾患進行よりも画像取得時の変動が大きかったため,複雑な確率モデルと同等の結果が得られた。

    Link: https://arxiv.org/abs/2604.16955

  • 資産としてのハーネス:収束型AIエージェントフレームワーク(CAAF)による決定論の強制 [cs.AI, cs.LG]目的:安全性が重要な工学におけるLLMの制御可能性ギャップの解消
    • 安全性確保が不可欠な分野において,LLMの制御性の課題は重大である。
    • 既存のオーケストレーション手法は,迎合的な応答,文脈注意の減衰,確率的振動などの問題を抱えている。
    • ドメイン不変式を形式化し,実行可能なハーネスとして活用することで制御可能性を向上させる。
    • CAAFは,再帰的アトミック分解,ハーネスの資産化,構造化セマンティック勾配と状態ロックの3つの柱によって,決定論的なフェイルセーフを実現する。
    • ドメイン不変式を実行可能なハーネスとして形式化することで,そのハーネス自体が企業の重要な資産となり,価値を増大させる。
    • CAAFの3つの柱は,それぞれが独立では制御可能性ギャップを埋めることができず,相互に補完し合う。

    Link: https://arxiv.org/abs/2604.17025

  • Mambaのための双線形入力変調:記憶保持と乗算計算のためのコープマン双線形形式 [eess.SY, cs.LG, cs.SY, math.DS]目的:選択的状態空間モデルにおける記憶保持と双線形計算能力の向上
    • 系列データ処理において,効率的な長距離依存関係の学習が重要である。状態空間モデルはその有効性が示されている。
    • 従来のSSMは,対角的な状態遷移により,記憶保持能力と双線形計算能力に限界がある。
    • コープマン双線形形式に基づいた入力変調により,これらの限界を克服し,モデル性能を向上させることを目指す。
    • 提案手法である双線形入力変調は,記憶保持と双線形計算の両方において性能改善を達成した。
    • 特にseq-BIMとp-BIMは,これらの能力を同時に向上させることが示された。
    • 状態次元を大きくすることで,双線形変調のみが性能向上に繋がり,その有効性が確認された。

    Link: https://arxiv.org/abs/2604.17221

  • 時系列異常検知のための最小限のノイズ除去ネットワーク:Repairへの回帰 [cs.LG]目的:時系列異常検知のための,最小限のノイズ除去ネットワークの設計と評価
    • 時系列データは,金融,医療,製造など,幅広い分野で重要な役割を果たすため,異常検知技術の確立が求められている。
    • 従来の異常検知手法は,複雑なネットワーク構造を必要とし,計算コストが高いという課題があった。
    • 本研究は,単純なノイズ除去ネットワークで高精度な異常検知を可能にし,計算コストを削減することを目指す。
    • 提案手法JuReは,複雑なアーキテクチャを必要とせず,TSB-ADベンチマークにおいて,AUC-PRで0.404を達成し,ニューラルネットワークベースの手法の中でトップクラスの性能を示した。
    • UCRユニバリアートアーカイブにおいても,AUC-PRで0.198を達成し,他のニューラルネットワークベースの手法を上回る結果が得られた。
    • 実験結果から,学習時のノイズ付加が検出品質に大きく影響することが確認され,ネットワークの容量よりもノイズ除去の目的が重要であることが示唆された。

    Link: https://arxiv.org/abs/2604.17388

  • 幾何学的なカナリア:表現の安定性による操縦可能性の予測とドリフトの検出 [cs.RO, cs.LG, cs.CL]目的:言語モデルの操縦可能性予測と内部構造の劣化検出
    • 言語モデルの実用化には,安全性と信頼性の確保が不可欠である。
    • モデルの制御可能性や構造劣化を定量的に評価する手法が十分ではない。
    • 表現の安定性に着目し,モデルの制御性とドリフトを評価する。
    • 教師ありSheshaはタスクに沿った幾何学的安定性を測定し,35~69の埋め込みモデルと3つのNLPタスクで,ほぼ完璧な精度(ρ = 0.89~0.97)で線形操縦可能性を予測した。
    • 教師なし安定性は現実世界のタスクでの操縦には全く機能しないが,post-training alignment中のドリフト検出では,CKAよりも2倍以上の幾何学的変化を測定し,73%のモデルで早期警告を発した。
    • 教師ありと教師なしの安定性は,LLMの導入ライフサイクルにおける相補的な診断ツールとして機能する。

    Link: https://arxiv.org/abs/2604.17698

  • 嗜好最適化ダイナミクスの解明:尤度置換を超えて [cs.CL, cs.CY, cs.HC, cs.RO, cs.LG, cs.AI]目的:大規模言語モデルと人間の嗜好の整合化
    • 言語モデルの性能向上には,人間の嗜好との整合が不可欠である。
    • 既存の最適化手法では,尤度置換という問題が発生し,望ましい応答の性能低下を招く。
    • 尤度置換を防ぎ,より効果的な嗜好最適化を実現すること。
    • 嗜好最適化における「インセンティブスコア分解」により,多様な目的関数が共通の更新方向を持つことが示された。
    • 「解離バンド」と呼ばれる条件を特定し,訓練が尤度置換を回避するための経路を明らかにした。
    • 提案手法「報酬較正」は,様々な目的関数において,訓練のダイナミクスを解離させ,性能を向上させる。

    Link: https://arxiv.org/abs/2604.18239

  • 修正と劣化:LLMプロトコルのエラーフローに関する二重レートの視点 [cs.LG]目的:LLMプロトコルの単一ステップにおける修正と劣化を評価する測定インターフェース
    • LLMの利用拡大に伴い,プロトコル型応用における信頼性評価の重要性が増している。
    • プロトコルのエンドツーエンドの精度のみでは,改善点や問題点が特定しにくい。
    • プロトコルステップの修正・劣化を定量化し,精度向上への貢献度を評価すること。
    • 提案されたインターフェースは,プロトコルステップの修正率と劣化率を測定し,精度変化を予測する。
    • 混合分布の変化によりレートが偏る場合,難易度指標に基づく条件付けで安定性が回復する。
    • 提示汚染や状態不足がプロトコルのエラーフローに影響を与えるメカニズムを特定した。

    Link: https://arxiv.org/abs/2604.18245

  • AlphaContext:創造性評価のための進化ツリーに基づく心理測定的文脈生成器 [cs.CL, cs.AI]目的:創造性評価のための心理測定的文脈
    • LLM時代において,創造性はイノベーションを支える重要な能力である。
    • 質の高い専門家設計の文脈が不足しており,既存のLLM生成器は課題が多い。
    • 創造性評価に適した多様かつ高品質な文脈を自動生成することを目指す。
    • AlphaContextは,専門家によるアウトライン設計を形式化し,階層的な計画を立てるHyperTree Outline Plannerを備える。
    • MCTSに基づく文脈生成器は,大域的な構造と局所的な質を両立させ,文脈を生成する。
    • 実験により,AlphaContextは6つの品質指標において競合手法を平均8%上回る改善を示した。

    Link: https://arxiv.org/abs/2604.18398

  • ペプチド-タンパク質相互作用予測とターゲット条件付きペプチド生成のための統合された深層学習フレームワーク [cs.LG, cs.AI]目的:ペプチド-タンパク質相互作用の予測とターゲット条件付きペプチド生成
    • 細胞調節やペプチド治療において,ペプチドとタンパク質の相互作用は極めて重要である。
    • 大規模スクリーニングに必要な実験的特性評価が遅く,既存手法では予測と生成の統合が不十分である。
    • 相互作用予測,残基レベル解釈,ターゲット条件付き拡張を統合することで,初期ペプチドスクリーニングを効率化する。
    • ConGA-PepPIは,非対称エンコーディングと双方向クロスアテンションにより,0.839の精度と0.921のAUROCを達成した。
    • 結合部位のAUPRは,タンパク質側で0.601,ペプチド側で0.950であり,外部ベンチマークでも競争力があった。
    • TC-PepGenによって生成されたペプチドの40.39%は,AlphaFold 3 ipTMにおいてネイティブテンプレートを上回る性能を示した。

    Link: https://arxiv.org/abs/2604.18467

  • NIサンプリング:トークン順序最適化による離散拡散サンプリングの高速化 [cs.LG]目的:離散拡散言語モデルにおけるトークンサンプリング順序最適化
    • 近年の言語モデル研究において,自己回帰モデルに代わる有望な手法として注目されている
    • 既存のサンプリング戦略は効率が悪く,各ステップでサンプリングするトークン数が限られている
    • トークン順序の最適化を通じて,サンプリング回数を大幅に削減し,効率的なデコードを実現すること
    • 提案手法であるNIサンプリングは,ニューラル指標を用いて各ステップでサンプリングするトークンを決定する
    • LLaDAおよびDreamモデルを用いた実験により,フルステップサンプリングと比較して最大14.3倍の高速化を達成した
    • 精度低下をほとんど招くことなく,信頼度閾値サンプリングよりも精度とステップ数のトレードオフで優れている

    Link: https://arxiv.org/abs/2604.18471

  • 設計による高速化:専門家による検証済みCFDで学習されたニューラルサロゲートによるインタラクティブな空力特性評価 [cs.LG, cs.AI]目的:レーシングカーの空力開発におけるCFD計算コストのボトルネック解消
    • 自動車の空力設計において,CFDは不可欠だが,計算資源と時間が必要である。
    • 公開データセットは単純な形状が中心で,モータースポーツに必要な複雑な形状に対応できない。
    • モータースポーツにおける空力設計を効率化するため,高精度なサロゲートモデルを開発する。
    • LMP2クラスのCADモデルに基づく高精度なRANSデータセットを構築し,専門家による検証を行った。
    • グラフベースのニューラル演算子GISTを提案し,複雑な形状に対する予測精度を向上させた。
    • GISTは,初期段階の空力設計に適した予測精度を達成し,CFDの代替としての活用を実証した。

    Link: https://arxiv.org/abs/2604.18491

  • ダンスクラフター:振付構文によるテキスト駆動型制御可能なダンス生成 [cs.CV, cs.AI]目的:テキストによる制御可能なダンス生成手法
    • ダンス生成はエンターテイメントやバーチャルリアリティにおいて重要であり,新たな表現手法の創出が期待される。
    • 高品質なダンスデータセットの不足と,複雑な振付を表現することの困難さが課題となっていた。
    • 振付構文に基づいたデータセットとモデルにより,高精度で制御可能なダンス生成を目指す。
    • 振付構文,大規模ダンスデータセットDanceFlow,およびモーションTransformer DanceCrafterを提案した。
    • DanceCrafterは,高解像度で安定した複雑なダンスシーケンスの生成を可能にする。
    • 客観評価とユーザ調査により,モーション品質,制御性,自然性において最先端の性能を実証した。

    Link: https://arxiv.org/abs/2604.18648

  • 視覚言語モデルにおけるトーン誘発ハルシネーション評価のためのLLM裁判官フレームワーク [cs.CV, cs.AI]目的:視覚言語モデルにおける,プロンプトの誘導的な表現がハルシネーションに与える影響の評価
    • 視覚言語モデルは実運用で利用が増加しており,視覚的根拠の信頼性が重要である。
    • 既存のハルシネーション評価は中立的なプロンプトに偏っており,プロンプトの表現とハルシネーションの関係が不明確である。
    • プロンプトの表現を変化させ,ハルシネーションの発生率と程度を定量的に評価する。
    • 提示されたGhost-100ベンチマークは,対象が存在しない,または判読できない画像を構築し,5段階のプロンプト強度フレームワークを用いた。
    • モデルの回答を,根拠のない肯定に移行する割合(H-Rate)と,GPT-4o-miniによるハルシネーションの信頼性・具体性評価(H-Score)で評価した。
    • オープンウェイトの視覚言語モデル9つを評価した結果,モデルの種類やタスクによってプロンプトへの反応が異なり,中間的なトーンで感度がピークを迎するものもあった。

    Link: https://arxiv.org/abs/2604.18803

  • S2MAM:ロバストな推定と変数選択のための半教師ありメタ加法モデル [cs.LG, cs.AI, stat.ML]目的:ロバストな推定と変数選択
    • ラベル付きデータとラベルなしデータを活用し,データ分析の精度向上を目指す分野である。
    • 既存手法では,類似度指標の選択が性能に大きく依存し,冗長な変数やノイズの影響を受けやすい。
    • 重要な変数を自動的に識別し,類似度行列を更新することで,より解釈性の高い予測を目指す。
    • 提案手法S$^2$MAMは,二段階最適化により,自動的に重要な変数を特定し,類似度行列を更新する。
    • 理論的な収束性および統計的汎化誤差の限界が保証されている。
    • 合成データと実データによる実験により,S$^2$MAMのロバスト性と解釈可能性が検証された。

    Link: https://arxiv.org/abs/2604.19072

  • LLMは間違っていると認識しつつ同意する:共有されたおべっか・嘘つき回路 [cs.LG]目的:言語モデルにおけるおべっか行動と虚偽応答のメカニズムの解明
    • 大規模言語モデルの社会実装が進む中,その安全性と信頼性が重要課題となっている。
    • 言語モデルは,事実に基づかないユーザーの信念に同意する「おべっか」行動を示すことが知られている。
    • 本研究は,言語モデルがどのようにして誤りを認識しつつ,おべっかや嘘をつくのかを明らかにすることを目指す。
    • 複数の言語モデルにおいて,特定の注意ヘッド群が「この記述は誤りである」という信号を伝達することが確認された。
    • これらの注意ヘッドを抑制することで,おべっか行動が大幅に減少する一方,事実の正確性は維持された。
    • おべっか,虚偽,指示された嘘つきといった行動は,同一のヘッド間結合によって駆動されていることが示唆された。

    Link: https://arxiv.org/abs/2604.19117

  • 大規模言語モデルにおける言語的癖の台頭:最先端モデルにおける体系的な分析 [cs.CL, cs.AI]目的:大規模言語モデルにおける言語的癖の現象とその特性の解明
    • 言語モデルの発展は,人間との自然な対話を可能にし,様々な応用分野を広げる上で重要である。
    • 現在の言語モデルは,過剰な迎合や紋切り型の表現といった言語的癖を生じやすく,自然さに欠ける場合がある。
    • 本研究は,言語的癖の程度を定量化し,その影響を明らかにすることで,より自然な対話を目指す。
    • 大規模言語モデル8種類を比較分析した結果,Gemini 3.1 Proが最も高い言語的癖指数(VTI)を示し,DeepSeek V3.2が最も低い値を示した。
    • 言語的癖は,多段階の対話や主観的なタスクにおいて顕著に増加し,言語によって異なるパターンを示すことが明らかになった。
    • 人間による評価では,迎合性と自然さの間には強い負の相関関係が認められ,現在の訓練方法が及ぼす影響が示唆された。

    Link: https://arxiv.org/abs/2604.19139

  • 超知能の解体:同一性,自己修正,および差異 [cs.AI]目的:超知能における自己修正の構造的限界とその哲学的意味合い
    • AI技術の発展は,人間の知能を超える超知能の実現可能性を示唆しているため,その性質理解が重要である。
    • 自己修正能力は超知能の定義に不可欠とされる一方,自己修正の限界や自己矛盾の問題が未解決である。
    • 自己修正のプロセスにおける外部要素の役割を明確化し,超知能の自己言及構造の崩壊メカニズムを解明する。
    • 自己修正が,自己操作の外部にある補完に依存することを示すことで,従来の自己言及構造の限界を形式的に証明した。
    • 更新,識別,自己表現の演算子を用いて,補完が演算子の可換性の崩壊を通じて伝播することを数学的に示した。
    • 自己修正が嘘つきのパラドックスや Priest の包含スキーマ,Derrida の差異といった構造と一致することを発見した。

    Link: https://arxiv.org/abs/2604.19845

  • 剛性微分代数方程式系のシミュレーションフリー演算子学習のための物理制約次元削減 [cs.LG]目的:剛性微分代数方程式系の演算子学習における次元削減手法
    • 複雑な物理現象のモデリングにおいて,高精度かつ高速なシミュレーションが不可欠である。
    • 従来のニューラルサロゲートは,制約条件の扱いが難しく,計算コストが高いという課題がある。
    • 物理法則に基づいた次元削減により,効率的かつ正確な演算子学習を実現すること。
    • 拡張ニュートン層を組み込んだDeepONetは,従来のペナルティ法や標準ニュートン法と比較して,大幅な精度向上を示した。
    • 複数のモデルを再学習なしに組み合わせることで,さらなる精度向上と制約条件の厳密な充足が可能となった。
    • 異なるドメインでの検証により,提案手法の汎用性が確認された。また,適合性予測により,分布外検出が可能となった。

    Link: https://arxiv.org/abs/2604.19930

  • AIシステムのセキュリティ評価フレームワークAVISE [cs.CR, cs.AI, cs.CL]目的:AIシステムの脆弱性特定とセキュリティ評価
    • AIの重要性が増す中,セキュリティの確保は社会機能維持に不可欠である。
    • AIシステムのセキュリティ評価手法が確立しておらず,脆弱性が放置されやすい。
    • AIシステムの脆弱性を自動的に検出し,セキュリティ評価の再現性を高める。
    • AVISEは,AIシステムの脆弱性を特定し,セキュリティを評価するためのモジュール型オープンソースフレームワークである。
    • 拡張されたRed Queen攻撃と自動セキュリティ評価テスト(SET)を開発し,言語モデルの脱獄脆弱性を発見した。
    • SETは92%の精度で脱獄を検出し,9つの最新言語モデル全てに脆弱性が確認された。

    Link: https://arxiv.org/abs/2604.20833

  • 単一観測からの画像再構成における拡散事前分布の最適化 [cs.CV, cs.LG, stat.ME]目的:単一観測からの画像再構成における拡散事前分布最適化手法
    • 画像再構成は,医療診断や天文学など幅広い分野で不可欠な技術である。
    • 拡散モデルは高品質な画像を生成するが,学習データに偏りがあるとバイアスが生じる。
    • 単一観測からの事前分布の調整により,データ不足による過学習を回避し,汎化性能を高める。
    • 提案手法は,複数の拡散事前分布を組み合わせ,ベイズエビデンスを最大化する指数を特定する。
    • 実世界の逆問題(ブラックホールイメージング,テキスト条件付き画像復元)で有効性が確認された。
    • 指数加重により,事前分布を一般化し,より信頼性の高い事後分布を得ることが可能となった。

    Link: https://arxiv.org/abs/2604.21066

  • 1回の再帰の価値は? ループ型言語モデルにおける等深スケーリング則 [cs.LG, cs.CL]目的:ループ型言語モデルにおける,1回の追加再帰が持つ価値
    • 言語モデルの性能向上は,自然言語処理の発展に不可欠であり,計算資源効率が重要。
    • 従来の言語モデルは,モデルサイズ増加に依存する傾向があり,計算コストが高い。
    • 再帰構造を持つ言語モデルの性能向上と,その計算効率を定量的に評価すること。
    • 再帰回数と性能の関係を示す新たなスケーリング則を導出し,再帰の価値を定量的に評価した。
    • 再帰回数を増やすことは,訓練計算量に対して検証損失を増加させることを示した。
    • 短縮バックプロパゲーションやハイパーコネクションといった手法が再帰の有効性に影響を与えることを明らかにした。

    Link: https://arxiv.org/abs/2604.21106

  • SQLyzr:テキストからSQLへの包括的なベンチマークおよび評価プラットフォーム [cs.DB, cs.AI]目的:テキストからSQLへのモデルの評価のためのベンチマークとプラットフォーム
    • 自然言語処理とデータベース技術の融合は,データ活用において重要である。
    • 既存のベンチマークは,評価指標が限定的で,実用的な設定での評価が不足している。
    • 実用的なSQL使用状況を考慮し,モデルの改善を支援する評価プラットフォームを開発する。
    • SQLyzrは,多様な評価指標を取り入れ,生成されたクエリの多角的な評価を可能にする。
    • 本プラットフォームは,実際のSQL使用パターンに合わせた評価や,データベースのスケールに対応する。
    • 詳細なクエリ分類,エラー分析,ワークロード拡張機能をサポートし,モデルの診断と改善を促進する。

    Link: https://arxiv.org/abs/2604.21214

  • ハイパーループTransformer [cs.LG, cs.CL]目的:パラメータ効率の良い言語モデルのアーキテクチャ
    • エッジデバイス等での利用拡大のため,モデルのメモリフットプリント削減が重要である。
    • 従来のTransformerアーキテクチャでは,パラメータ数が多く,メモリ消費量が大きいという課題がある。
    • Transformer層の再利用により,パラメータ数を削減し,メモリ効率を向上させることを目指す。
    • 提案手法であるHyperloop Transformerは,同程度の深さのTransformerやmHC Transformerと比較して,パラメータ数を約50%削減しつつ,性能を上回った。
    • 性能向上は,量子化後も持続し,メモリ効率の良い言語モデリングアーキテクチャとして魅力的である。
    • Hyperloop Transformerは,Transformer層を深さ方向に再利用するループ構造と,ハイパーコネクションによってパラメータ効率を改善している。

    Link: https://arxiv.org/abs/2604.21254

  • MLLMは欠落部分を「読む」ことができるか [cs.AI]目的:マルチモーダル大規模言語モデルの,視覚的コンテキストからのマスクされたテキスト再構成能力の評価
    • 近年のマルチモーダルAI研究の発展は,画像とテキストを統合した高度な情報処理を可能とする。
    • 既存の評価方法では,指示に従う能力と視覚的理解能力を分離して評価することが難しい。
    • 視覚情報からテキストを再構成する能力を直接評価することで,モデルの潜在能力を明らかにすること。
    • MMTR-Benchは,ドキュメントやウェブページなどの現実世界のデータに対して,マスクされたテキストを再構成する能力を評価するためのベンチマークである。
    • 実験の結果,多くのMLLMが文や段落レベルでの再構成において課題を抱えていることが示された。
    • レベルに応じた評価プロトコルが提案され,多様な言語やターゲット長に対応している。

    Link: https://arxiv.org/abs/2604.21277

  • 仮説と問い合わせ:対話型検索拡張型選好抽出によるソフトウェア性能要件の定量化 [cs.SE, cs.AI, cs.CL]目的:ソフトウェア性能要件の数学関数への定量化
    • ソフトウェア開発において,性能要件の明確化は品質向上と効率化に不可欠である。
    • 性能要件は自然言語で記述されるため,解釈の曖昧さが課題となり,自動定量化が困難である。
    • 曖昧性と不確実性を軽減し,効率的な性能要件の定量化手法を確立すること。
    • 本研究で提案するIRAPは,問題固有の知識を活用し,関係者の認知負荷を軽減する。
    • 実世界のデータセットを用いた実験により,IRAPは既存手法を大幅に上回る性能を示した。
    • わずか5回の対話で,最先端手法と比較して最大40倍の改善が見られた。

    Link: https://arxiv.org/abs/2604.21380