arXiv雑要約

AI - 2026/04/29 公開

GCA-BULF：グループ化された重要機器を用いた短期負荷予測のためのボトムアップフレームワーク [cs.LG, cs.AI, eess.SP]目的：グループ化された重要機器を用いる短期負荷予測フレームワークの提案
- 時間帯別料金や段階別料金の普及に伴い，電力消費者の節電意識が高まっている。
- 従来のトップダウン手法では，多様な家電製品の複雑な消費パターンを捉えきれない。
- 重要機器を特定しグループ化することで，より正確な負荷予測を実現することを目指す。
- GCA-BULFは，既存のトップダウン手法と比較して，時間別総負荷予測精度を20.85%-57.88%向上させた。
- また，ボトムアップ手法と比較して，33.03%-92.48%の精度向上を達成した。
- 重要機器の特定とグループ化により，高精度な短期負荷予測が可能となった。
Link: https://arxiv.org/abs/2604.24766
深層学習と手動特徴の融合による心音図からの小児先天性心疾患の自動検出 [cs.LG, cs.CV]目的：小児先天性心疾患の早期自動検出
- 先天性心疾患は出生直後の主要な疾患であり，早期発見が重要である。
- 専門医の判断にばらつきがあり，診断の遅れや誤診が生じる可能性がある。
- 心音図を用いた，低コストでアクセス可能な検査法の開発を目指す。
- 提案モデルは，患者単位で70%の学習，20%の検証，10%のテストの分割において，92%の精度を達成した。
- 感度と特異度も91%であり，受取動作特性曲線下面積（AUROC）は96%，F1スコアは92%であった。
- 本モデルは，低リソース環境における費用対効果の高いスクリーニングツールとして，効率的なリアルタイム遠隔検出を可能にする。
Link: https://arxiv.org/abs/2604.24767
多孔性ナノビームにおける物理情報ニューラルネットワークと数値動的たわみ解析の比較研究 [cs.LG, cs.AI, physics.comp-ph]目的：多孔性ナノビームの静的たわみ応答と動的たわみの関係性
- ナノスケール構造の設計・解析は，高性能デバイス開発の基盤技術である。
- 従来の数値解析では，複雑な形状や境界条件の設定が困難な場合がある。
- 物理情報ニューラルネットワークによる効率的な解析手法の確立が求められている。
- 提案手法は，複雑なニューラルネットワーク構造を必要とせず，高い精度と効率を実現した。
- 境界条件を厳密に満たし，静的および動的なたわみ解析において優れた結果を示した。
- 単純支持多孔性ナノビームの静的・動的たわみの関係性が明らかになった。
Link: https://arxiv.org/abs/2604.24768
クラウドからエッジへ：ハードウェアアクセラレーションを備えたシングルボードコンピュータにおけるLLM推論のベンチマーク [cs.AR, cs.AI, cs.DC, cs.PF]目的：LLM推論のベンチマーク手法とハードウェア効率の評価
- LLMは小型化が進み，様々な分野での応用が期待されている
- クラウド利用には，プライバシー，遅延，コストの問題が存在する
- シングルボードコンピュータ上での効率的なLLM推論方法を確立する
- NPUやGPUなどのハードウェアアクセラレーションが推論速度向上に貢献する
- 電力効率，デバイスサイズ，トークン処理速度のトレードオフが定量的に評価された
- プライバシー保護や接続制限のある環境におけるAI活用に役立つ知見が得られた
Link: https://arxiv.org/abs/2604.24785
天然ガススポット価格時系列予測のための流体ニューラルネットワークモデル [cs.LG, cs.AI]目的：天然ガススポット価格の短期予測
- エネルギーシステムにおいて天然ガスは不可欠であり，価格変動の予測は重要である。
- 従来の時系列モデルは，非線形性や市場の変化に対応しきれない場合がある。
- 本研究は，不安定な市場環境下での予測精度向上を目指す。
- 流体ニューラルネットワークは，時間的パターンへの適応能力が高く，非定常な価格変動に適している。
- ヘンリーハブのスポット価格予測において，その有効性が示された。
- 本研究は，エネルギー取引や電力市場における意思決定支援の強化に貢献する。
Link: https://arxiv.org/abs/2604.24788
LLM制御ロボットにおける意味的DoS攻撃 [cs.CR, cs.AI]目的：LLM制御ロボットに対する意味的DoS攻撃の検証
- LLM制御ロボットの応用拡大に伴い，安全性確保が重要課題となっている。
- 既存の安全対策は，可用性に対する脆弱性を生む可能性がある。
- LLM制御ロボットへの安全に関する信号の悪用によるDoS攻撃を評価する。
- 安全性を考慮した指示追従が，LLM制御ロボットの可用性を脅かす攻撃対象となることを示した。
- 短く安全らしきフレーズを音声チャネルに注入することで，モデルの安全推論を誘発し，実行を停止または中断させることが可能である。
- 多様な安全信号を組み合わせることで，攻撃の成功率が向上することが示された。
Link: https://arxiv.org/abs/2604.24790
V.O.I.C.E：実証データに基づく音声合成リスクの分類体系 [cs.CR, cs.AI, cs.CY, cs.ET, cs.HC]目的：音声合成によるリスクの分類体系
- 音声合成技術の進歩に伴い，プライバシー侵害等の新たなリスクが顕在化している。
- 既存のリスクモデルは，多様な状況下でのリスクを十分に捉えられていない。
- 実データに基づき，音声合成特有のリスク要因を明確化し，体系的に分類することを目的とする。
- V.O.I.C.Eという分類体系を構築した。これは，プライバシー，セキュリティ，ガバナンスのリスクを網羅する。
- AIインシデントデータベース，FTC，IC3のデータに加え，多様なグループからの報告やRedditの議論を分析した。
- リスクがどのように発生し，露出度や法的保護の有無といった文脈要因とどのように相互作用するかをモデル化した。
Link: https://arxiv.org/abs/2604.24794
Transformerのアーキテクチャが観測可能性を決定する [cs.AR, eess.IV, cs.LG, cs.AI]目的：Transformerにおける観測可能性のアーキテクチャ依存性
- Transformerは自然言語処理の重要なモデルであり，その性能向上は様々な分野で求められている。
- Transformerは過信しやすい傾向があり，エラー検出が難しいという課題がある。
- 本研究は，Transformerのアーキテクチャがエラー検出に重要な観測可能性に与える影響を解明する。
- Transformerの観測可能性は，モデルのアーキテクチャによって大きく異なり，特定の構成では低下することが示された。
- 出力に対する制御を行うことで，活性化関数のシグナルが大幅に減少することが確認された。
- 特定のアーキテクチャ構成において，訓練中に観測可能性が消失し，WikiTextで訓練された観測モデルがQAタスクでも有効であることが示された。
Link: https://arxiv.org/abs/2604.24801
グラフ条件付きトラスト領域によるクエリ効率の良い量子近似最適化 [cs.LG, quant-ph]目的：量子近似最適化アルゴリズムにおけるクエリコストの削減
- 量子近似最適化アルゴリズムは，古典的な最適化問題への応用が期待される重要な量子アルゴリズムである。
- 低深度での実装において，回路深度よりも目的関数評価回数が計算コストの大部分を占めるという課題がある。
- グラフニューラルネットワークを用いたトラスト領域法により，目的関数評価回数を削減し，効率的な最適化を目指す。
- 提案手法は，既存手法と比較して，平均的な回路評価回数を大幅に削減することに成功した（85回から45回±7回へ）。
- 近似比は，濃度ベースのヒューリスティクスと同程度の水準を維持し，手法の有効性を示唆している。
- 学習されたトラスト領域は，訓練に使用されていないグラフサイズに対しても転移し，汎化性能の高さが確認された。
Link: https://arxiv.org/abs/2604.24803
内在相互情報による選好最適化のモジュレータ [cs.LG, cs.CL]目的：オフライン選好最適化における性能向上
- LLMを人間の価値観に適合させることは，AIの安全性の確保と実用化に不可欠である。
- 既存の選好最適化手法は，ハイパーパラメータ調整に多大な時間を要し，その最適化が困難である。
- 本研究は，ハイパーパラメータ調整を削減しつつ，選好最適化の性能を向上させることを目指す。
- 提案手法RMiPOは，既存手法と比較して一貫して優れた性能を示す。
- RMiPOは，訓練オーバーヘッドを15％以上削減することに成功した。
- 内在相互情報を活用することで，ハイパーパラメータ調整に依存しない効率的な最適化を実現した。
Link: https://arxiv.org/abs/2604.24804
minAction.net: エネルギー優先ニューラルアーキテクチャ設計 -- 生物学的原理から系統的検証へ [cs.LG, q-bio.QM]目的：エネルギー効率を考慮したニューラルアーキテクチャ設計の検証
- 機械学習の発展に伴い，計算コストの最適化が重要視されている。
- 既存の機械学習は精度に偏重し，エネルギー消費を考慮していない。
- タスクに応じて最適なアーキテクチャを設計し，エネルギー効率を高める。
- アーキテクチャ単体では精度への影響は小さいが，タスクとの相互作用が重要であることが示された。
- エネルギー正則化項を導入することで，活性化エネルギーを低減させつつ精度を維持できることが確認された。
- 作用原理に基づくアーキテクチャは，既存手法と比較して学習効率を5-33%向上させた。
Link: https://arxiv.org/abs/2604.24805
大規模推薦システムにおける超長系列学習のためのバージョン管理遅延マテリアライズ化 [cs.IR, cs.AI, cs.DB]目的：超長系列ユーザインタラクション履歴を用いた推薦モデルの学習におけるデータ効率の向上
- 推薦システムは，ユーザの行動履歴を分析することで精度を向上させるため，系列データの活用が重要である。
- 従来のデータ保存方法では，冗長なデータが大量に発生し，ストレージやI/Oボトルネックとなる。
- バージョン管理遅延マテリアライズ化により，データ冗長性を排除し，効率的な学習を実現する。
- 提案手法は，データインフラの資源使用量を削減しつつ，系列長の拡大を可能にする。
- オンラインとオフラインの整合性を保ちながら，学習時の系列再構成の遅延を最小限に抑える。
- 実運用環境での導入により，モデル品質の向上に貢献し，最新の推薦モデルアーキテクチャの基盤となる。
Link: https://arxiv.org/abs/2604.24806
プロトタイプから教室へ：量子教育のための知能型チューターシステム [cs.CY, cs.AI, cs.MA]目的：量子教育のための知能型チューターシステムの開発と実証
- 量子コンピューティングは発展途上分野であり，人材育成が急務である。
- 量子概念の難解さ，数学的表現の複雑さ，専門教員の不足が課題である。
- 実授業での運用可能性と，教育効果の向上を目指す。
- 本研究で開発したITASは，量子情報科学の五つのモジュールからなるカリキュラムを基盤とする。
- 授業での実証実験により，エージェントの専門化が信頼性の向上に貢献し，教室規模での同時利用が可能であることが確認された。
- また，分析機能により，教員が見落としがちなカリキュラムの課題を可視化することができた。
Link: https://arxiv.org/abs/2604.24807
LLMベースの知能型チューターのためのマルチエージェントアーキテクチャ ITAS [cs.MA, cs.AI, cs.CY, cs.DC]目的：LLMベースの知能型チューターシステムのアーキテクチャ
- 近年のLLM技術の発展により，教育分野への応用が期待されている。
- LLMを教育に適用する際，実際の授業環境での運用に課題が多い。
- LLMベースの知能型チューターシステムを，実際の授業で運用可能とする。
- ITASは，ビデオ，コード，ガイダンスの3つの専門エージェントで構成される教育層を備えている。
- システムは，5人の学生，1つのコース，1学期のパイロット運用で334回のチャットターンを処理し，課題境界における幻覚を回避した。
- 本システムは，LLMベースのITSの実現可能性を示す一例である。
Link: https://arxiv.org/abs/2604.24808
Nautile-370M：スペクトルメモリと注意機構を搭載した小型推論モデル [cs.LG, cs.AI]目的：効率的な推論のための小型言語モデルの設計
- 大規模言語モデルのパラメータ増加は計算コスト増大を招くため，小型モデルの高性能化が求められている。
- 限られたパラメータと推論予算内で，長文脈の効率的な処理と状態追跡が課題となっていた。
- スペクトルメモリと注意機構を組み合わせることで，効率性と表現力を両立したモデルを開発する。
- Nautile-370Mは，SeqCond Attention層とTransformer層を交互に配置したハイブリッドな構造を採用している。
- SCA機構は，prefix summaryから任意のトークンを正確に抽出でき，softmax attentionの機能を再現可能であることが証明された。
- 推論，検証，応答品質向上のための強化学習ステージが組み込まれている。
Link: https://arxiv.org/abs/2604.24809
適応型深層ニューラルネットワークにおける上限信頼区間アルゴリズムの性能比較分析 [cs.LG, cs.AI]目的：上限信頼区間アルゴリズムの性能比較
- エッジコンピューティング環境では，エネルギー消費とレイテンシが厳しく制限される。
- 深層ニューラルネットワークの展開には，計算コストと予測精度とのバランスが課題。
- 精度，エネルギー消費，レイテンシのトレードオフを比較し，最適な戦略を特定する。
- 提案するUCB戦略はすべて，サブ線形累積後悔を達成し，UCB-Bayesが最も速く収束した。
- UCB-VとUCB-Tunedは，精度-レイテンシおよび精度-エネルギーのパレートフロントにおいて優位性を示した。
- ResNetとMobileViTネットワークを用いて，CIFAR-10, 10.1, 100データセットで評価を実施した。
Link: https://arxiv.org/abs/2604.24810
時間変化する相互作用グラフODE：動的グラフ表現学習 [cs.LG, cs.AI]目的：動的グラフ表現学習のための時間変化する相互作用のモデル化
- グラフ構造データは，ソーシャルネットワークや分子構造など，様々な分野で広く現れる
- 既存の動的グラフODEは，ノード間相互作用が一律であると仮定しており，時間変化に対応できない
- ノード間相互作用の多様性と時間変化を捉え，より高精度な動的グラフ表現学習を実現する
- 提案手法TI-ODEは，グラフODEの進化関数を学習可能な相互作用基底関数に分解する
- これらの基底関数は時間依存型の学習可能な重みによって動的に組み合わせられ，相互作用パターンを時間的に変化させる
- 実験結果から，TI-ODEは既存手法を凌駕し，属性予測タスクで最先端の性能を達成した
Link: https://arxiv.org/abs/2604.24811
SWE-QA：複雑なコード理解のためのデータセットとベンチマーク [cs.SE, cs.AI]目的：複雑なコード理解のベンチマーク
- ソフトウェア開発におけるコード理解の重要性が増している。
- 既存のベンチマークはコード断片に焦点を当て，実際の開発現場で必要となる複数箇所に渡る推論を評価できていない。
- 複数ステップのコード理解能力を評価するための新しいベンチマークを提供すること。
- SWE-QAは，SWE-benchの12のPythonリポジトリから生成された9,072個の多肢選択問題を含むデータセットである。
- 15の言語モデル(360Mから671Bパラメータ)の評価の結果，複数ステップの推論に大きな課題があることが明らかになった。最高性能は74.41%の正答率である。
- 密なアーキテクチャはMoEモデルよりも10-14%高い性能を示し，推論能力を強化したモデルの効果は一貫性がないことが示された。
Link: https://arxiv.org/abs/2604.24814
マルコフ劣化ハザードモデルに対する異種変分推論：解釈可能なクラスタを持つ離散混合 [cs.LG]目的：マルコフ劣化ハザードモデルにおける離散リスククラスタの識別
- 設備の信頼性評価は，予防保全計画の最適化やダウンタイムの削減に不可欠である。
- 粗い状態離散化による劣化シグナルの不足や，クラスタ数の過大探索による不安定なクラスタ識別が課題である。
- 統計的傾向，連続的な健全性指標，テキスト埋め込みを統合した特徴量エンジニアリングと，高速な変分推論により安定したクラスタ識別を目指す。
- 8状態のグローバルパーセンタイル離散化により，劣化イベントを増幅し，混合モデルの安定性を向上させた。
- 統計的，連続的，セマンティックな信号を組み合わせた包括的な特徴量エンジニアリング戦略が有効であることを示した。
- 自動微分変分推論(ADVI)は，NUTSと比較して収束性，安定性，計算効率において優れた性能を発揮した。
Link: https://arxiv.org/abs/2604.24818
データを用いたプログラミング：未加工コーパスから自己改善型LLMを実現するテスト駆動型データエンジニアリング [cs.SE, cs.AI]目的：LLMへの専門知識の確実な伝達
- LLMは知識獲得に有効だが，その能力向上には改善の余地がある。
- モデルの失敗原因を特定し，訓練データを的確に修正する手法が不足している。
- データエンジニアリングサイクルをソフトウェア開発サイクルにマッピングし，データ修正を可能とする。
- 構造化された知識表現を基盤とすることで，モデルの失敗は概念レベルのギャップや推論チェーンの断絶として明確化される。
- 欠陥のあるデータに対するピンポイントな修正（パッチ）により，モデルの規模やアーキテクチャに関わらず一貫して性能が向上する。
- 本研究は，訓練データとモデルの振る舞いの間の構造的なトレーサビリティと体系的な修正可能性を確立し，言語モデルへの人間専門知識の信頼性高い組み込みのための原則的な基盤を提供する。
Link: https://arxiv.org/abs/2604.24819
Salca：スパース性を考慮した効率的な長文脈注意デコード用ハードウェアアクセラレータ [cs.AR, cs.AI]目的：長文脈注意デコードの効率化に向けたハードウェアアクセラレータの設計
- 大規模言語モデルの能力向上に長文脈が不可欠だが，ハードウェアへの負荷が大きい。
- 既存のアクセラレータは短文脈向けに設計されており，長文脈処理性能が低い。
- スパース性を活用したハードウェア・ソフトウェア協調設計により，長文脈処理のボトルネックを解消する。
- 提案手法は，A100と比較して3.82倍の高速化と74.19倍のエネルギー効率を実現した。
- 既存のアクセラレータと比較して，長文脈推論を効率的にサポートする初のASICアクセラレータである。
- スループットが少なくとも3.5倍，エネルギー効率が2.08倍向上する結果が得られた。
Link: https://arxiv.org/abs/2604.24820
Transformerを用いたソフトウェア脆弱性検出に関する系統的文献レビュー [cs.SE, cs.LG]目的：Transformerに基づくソフトウェア脆弱性検出手法に関する研究動向の把握
- ソフトウェアは社会基盤を支える存在であり，脆弱性は深刻なセキュリティリスクとなる。
- 機械学習を用いた脆弱性検出研究は存在するものの，Transformerに焦点を当てた体系的な分析は不足している。
- 本研究は，Transformerを用いた脆弱性検出の現状と課題を明確化し，今後の研究方向性を示す。
- 本レビューでは，2021年から2025年に発表された80件の研究を分析し，Transformerモデルのアーキテクチャ（エンコーダ，デコーダ，組み合わせ）と学習方法（事前学習，ファインチューニング）を分類した。
- 研究トレンド，使用されたデータセット，対象言語，フレームワーク，評価指標などを分析し，主要なベンチマークとベースラインを明らかにした。
- データ不均衡，解釈可能性，スケーラビリティ，プログラミング言語間の汎化性能といった技術的な課題も特定された。
Link: https://arxiv.org/abs/2604.24822
機械学習における真のターゲットの負の存在論：民主的な監督下における評価と学習に向けて [cs.LG]目的：機械学習における評価と学習のための知識システム
- 機械学習は社会の様々な分野で活用が拡大しており，その信頼性向上は重要課題である。
- 従来の機械学習は「真のターゲット」の存在を前提としており，その仮定が妥当でない場合がある。
- 本研究は「真のターゲットは客観的に存在しない」という視点から，新たな評価・学習フレームワークを提案する。
- 本研究では，民主的な監督下における評価と学習を可能にする「Multiple Inaccurate True Targets (MIATTs)」を導入した。
- MIATTsの論理的生成・評価に関する原理と，それを用いた評価・学習の定式化を提示した。
- 提案するEL-MIATTsフレームワークの実用性について，教育・能力開発への応用事例を通して実証した。
Link: https://arxiv.org/abs/2604.24824
AIエージェントセキュリティガードレールの比較評価 [cs.CR, cs.AI]目的：AIエージェントセキュリティにおけるガードレールの性能評価
- AI技術の発展に伴い，その安全性確保は重要な課題となっている。
- AIエージェントへの攻撃や有害コンテンツ生成のリスクが存在する。
- AIエージェントのセキュリティガードレールの性能向上を目指す。
- DKnownAI Guardは，96.5%のリコール率を達成し，最も高い性能を示した。
- 真陰性率（TNR）においても90.4%と最高値を記録した。
- 評価されたガードレールの中で，全体的に最高のパフォーマンスを発揮した。
Link: https://arxiv.org/abs/2604.24826
圧縮可能な知識プローブ：事実容量によるブラックボックスLLMパラメータ数の推定 [cs.LG, cs.AI]目的：大規模言語モデルのパラメータ数推定
- LLMの性能向上には，モデルの規模が大きく影響する。
- パラメータ数は非公開であることが多く，推定が困難である。
- 事実に基づいた知識量を測定し，パラメータ数の下限を推定する。
- 知識プローブの精度とパラメータ数の間に高い相関関係が認められた(R^2 = 0.917)。
- Mixture-of-Expertsモデルでは，総パラメータ数の方が有効な知識量を予測する上で，有効パラメータ数よりも優れていた。
- 事実容量は，世代やベンダーを超えて，パラメータ数とともに対数線形にスケールし続けることが示された。
Link: https://arxiv.org/abs/2604.24827
Chain of ThoughtとTree of Thoughtプロンプティングを用いたソフトウェアのバグ検出のための推論認識型マルチエージェントフレームワークFGDM [cs.SE, cs.LG]目的：ソフトウェアのバグ検出
- ソフトウェアの品質確保は重要であり，バグの早期発見が不可欠である。
- 深層学習は局所的な理解に偏りがちで，大規模かつ複雑なコードベースでは性能が低下する。
- LLMを活用し，コード間の依存関係を考慮したバグ検出フレームワークを開発すること。
- 提案フレームワークFGDMは，PythonとCのプログラムにおいて，既存手法を上回る性能を示した。
- Levenshtein距離の平均減少率は，Pythonで24.33，Cで8.37であった。
- コサイン類似度では，Pythonで0.951，Cで0.974の高い類似性を示した。
Link: https://arxiv.org/abs/2604.24831
ブロックワイズ局所性によるマスク拡散言語モデルの学習可能性について [cs.LG, cs.AI]目的：マスク拡散言語モデルの学習特性の解明
- 大規模言語モデルは自然言語処理の基盤であり，その性能向上は重要である。
- 拡散言語モデルは学習の安定性に課題があり，自己回帰モデルに劣ることがある。
- ブロック単位の局所性を導入することで，拡散言語モデルの学習安定性を改善する。
- 標準的なランダムマスキングMDMは線形回帰の学習に失敗する一方，数独の解決においては自己回帰モデルを上回る性能を示す。
- 提案手法Jigsawは線形回帰における自己回帰モデルと同等の安定性を実現し，数独においても高い性能を維持する。
- Scatterはパス探索において拡散モデルの計画立案能力を維持しつつ，安定性を向上させる。
Link: https://arxiv.org/abs/2604.24832
MotionBricks：モジュール型潜在的生成モデルとスマートプリミティブを用いたスケーラブルなリアルタイムモーション [cs.RO, cs.AI, cs.GR, cs.LG]目的：スケーラブルなリアルタイムモーション生成のためのフレームワーク開発
- モーション生成技術は発展しているが，リアルタイムインタラクティブ制御は伝統的な手法に頼っている現状がある。
- リアルタイム性，大規模なモーションスキルセットの生成，多様な制御への対応が課題となっている。
- モーション生成の品質とスケーラビリティを両立させ，多様な制御インターフェースを提供する。
- MotionBricksは，35万件以上のモーションクリップを単一モデルで効率的に学習可能。
- オープンソースおよび独自のデータセットにおいて，最先端のモーション品質を達成。リアルタイム処理速度は15,000 FPS，遅延は2ms。
- アニメーションデモや二足歩行ロボットUnitree G1を用いた実験で，汎用性と実用性が確認された。
Link: https://arxiv.org/abs/2604.24833
共同監督：エージェントによる生成型動画ストーリーテリング [cs.AI, cs.MA, cs.MM]目的：動画ストーリーテリングの新しい枠組み
- 動画生成技術は高度化しているが，一貫性のあるストーリーを生成することは課題である。
- 既存のシステムは，手動のプロンプトに依存するため，意味のずれや連鎖的な失敗が起こりやすい。
- グローバルな最適化問題として動画ストーリーテリングを捉え，意味の一貫性を保ちながら多様なナラティブを探索すること。
- Co-Directorは，複数のエージェントによる階層的なフレームワークであり，既存の最先端モデルを大幅に上回る性能を示す。
- 階層的なパラメータ化により，創造的な方向性の探索と効果的な設定の活用を両立し，意味のずれを抑制し，一貫性を確保する。
- GenAD-Benchという新しいデータセットを用いて評価を行い，より広範なシナリオへの汎化能力が確認された。
Link: https://arxiv.org/abs/2604.24842
拡散モデルにおける照明制御の学習 [cs.CV, cs.AI, cs.LG, eess.IV]目的：拡散モデルにおける照明制御の学習パイプライン
- 写真や視覚コンテンツ制作において，照明制御は不可欠な技術である。
- 既存のオープンソースモデルは，深度マップ等の複雑な入力が必要か，データやコードが公開されていない。
- 本研究は，完全にオープンソースで再現可能な照明制御手法を確立することを目指す。
- 本研究で開発したパイプラインは，well-lit画像から照明制御用の学習データセットを生成する。
- 生成されたデータセットを用いて拡散モデルをファインチューニングすることで，ベースラインモデルよりも高い性能を達成した。
- 全てのコード，データ，モデルウェイトを公開し，再現性を担保した。
Link: https://arxiv.org/abs/2604.24877
ReLUによるTransformer近似 [cs.LG, cs.AI, stat.ML]目的：Transformerの近似手法
- Transformerは自然言語処理等の分野で広く利用されており，その性能向上は重要である。
- Transformerの計算コストが高いことが課題であり，効率的な近似手法が求められている。
- ReLU近似の結果をsoftmax attention機構へ変換する手法を確立し，リソース制約を分析する。
- ReLU近似の結果をsoftmax attentionに変換するための体系的な方法論が提案された。
- 乗算，逆数計算，min/maxなどの基本演算に対する具体的な近似結果が得られた。
- これらの結果は，softmax Transformerモデルの解析のための新たなツールを提供する。
Link: https://arxiv.org/abs/2604.24878
潜在エージェント：内部化されたマルチエージェント討論のための後学習手続き [cs.AI]目的：大規模言語モデルにおける内部化されたマルチエージェント討論の実現
- 言語モデルの推論能力向上には，議論や多角的な視点の重要性が認識されている。
- 従来のマルチエージェント討論は計算コストが高く，効率性に課題があった。
- 計算コストを削減しつつ，マルチエージェント討論と同等の推論能力を実現すること。
- 本研究では，マルチエージェント討論を単一の言語モデルに蒸留するフレームワークを開発した。
- その結果，蒸留されたモデルは，最大93%少ないトークン数で，明示的なマルチエージェント討論と同等またはそれ以上の性能を発揮した。
- 活性化ステアリングにより，内部化がエージェント固有の活性化空間を作成することが示され，有害な行動の局所化と制御が容易になった。
Link: https://arxiv.org/abs/2604.24881
VibeToken：1次元画像トークナイザーと自己回帰モデルの動的解像度生成への拡張 [cs.CV, cs.LG]目的：動的な解像度に対応した画像生成手法の開発
- 画像生成技術は，コンテンツ制作やデータ拡張など，様々な分野で重要性が増している。
- 従来の自己回帰モデルは解像度が高くなるほど計算コストが増大するという課題があった。
- 解像度に依存せず効率的な画像生成を可能にする新しいトークナイザーと生成モデルの提案。
- VibeTokenは，画像を32-256個のトークンからなる動的な系列に変換する1次元Transformerベースの画像トークナイザーである。
- VibeToken-Genは，VibeTokenを活用し，任意の解像度に対応した自己回帰生成器であり，計算資源を大幅に削減する。
- 1024x1024画像生成において，拡散モデルと比較して同等以上の性能 (3.94 gFID) を，より少ない計算量で実現した。
Link: https://arxiv.org/abs/2604.24885
VISION-SLS：学習された視覚表現を介したシステムレベル合成による安全な知覚ベース制御 [cs.RO, cs.CV, cs.LG, cs.SY, eess.SY, math.OC]目的：高解像度RGB画像からの非線形出力帰還制御手法
- ロボット工学において，環境認識と制御は不可欠であり，安全性の確保が重要課題である。
- 従来の制御手法では，高次元の視覚情報処理と安全性の保証が困難であった。
- 学習された視覚表現とシステムレベル合成を組み合わせることで，安全性を保証しつつスケーラブルな制御を実現する。
- VISION-SLSは，不確実性，ノイズ，非線形ダイナミクス下においても，安全な制約充足を保証する。
- 事前学習済みの視覚特徴から低次元の観測マップを学習し，状態依存エラー境界を確立することで，スケーラビリティと保証を両立する。
- シミュレーションと実機実験の両方で，安全な情報収集行動と高い安全性率を実証した。
Link: https://arxiv.org/abs/2604.24894
MultiHedge：検索拡張制御による適応的協調 [cs.MA, cs.AI]目的：変化する条件下における意思決定のロバスト性向上
- 現実世界のシステムでは，状況変化への対応が重要である。変化に対応できないと，安定的な運用が困難になる。
- 既存手法は，状況の変化への汎化性能が低く，不確実性の下で不安定になるという課題がある。
- 過去の事例を参照することで，モジュール型意思決定パイプラインのロバスト性と安定性を高めることを目指す。
- 検索拡張により，モデルの規模を拡大するだけでは得られないロバスト性と安定性が向上することが示された。
- 本研究は，モジュール型意思決定システムにおいて，記憶とアーキテクチャ設計がロバスト性に重要な役割を果たすことを計算実験により示した。
Link: https://arxiv.org/abs/2604.24905
吸着式グリッパーを用いた果実摘取のためのセンサー選択に関する分析 [cs.RO, cs.LG, cs.SY, eess.SY]目的：果実摘取におけるセンサー選択の分析
- 農業分野における自動化のニーズが高まっており，特に労働力不足の解消が重要である。
- 果実の摘取は，果実やグリッパーの柔軟性，茎の接続状態，および遮蔽物により，摘取成功の判断が困難である。
- 摘取段階に応じた最適なセンサー構成を特定し，摘取失敗の早期予測を可能にすることを目的とする。
- マルチモーダルセンサーを用いた実験の結果，ランダムフォレストと多層パーセプトロンは90％以上の精度で摘取成功と失敗を検出した。
- ランダムフォレストは，人手でアノテーションされた正解データから0.09秒以内に摘取/滑りのイベントを予測することができた。
- 摘取段階に応じて重要なセンサーを特定することで，信頼性の高い摘取状態分類を可能にした。
Link: https://arxiv.org/abs/2604.24906
材料透過電子顕微鏡のための対照的な画像メタデータ事前学習 [cs.LG, cs.CE]目的：材料透過電子顕微鏡画像とメタデータの間の結合埋め込み空間の学習
- 材料科学研究において，透過電子顕微鏡観察は不可欠であり，画像データとその条件の理解が重要である。
- 未公開のデータが膨大に存在し，メタデータとの関連性が十分に活用されていない。
- 画像スタイルと取得パラメータ間の関係を学習し，スタイル変換ネットワークによる画像処理を可能にすること。
- 画像メタデータとHAADF-STEM画像の間の結合埋め込み空間を学習することに成功した。
- 学習された埋め込みを用いて，実験画像を異なるパラメータで記録されたかのようにスタイル変換する生成ネットワークを構築した。
- 本手法は物理的なノイズ除去への応用が期待される。
Link: https://arxiv.org/abs/2604.24909
埋め込み線形等式制約を用いた変分ベイズ推論 [cs.LG, cs.AI]目的：埋め込み線形等式制約による学習
- 機械学習は科学技術に応用が広がっているが，不確実性の評価が不十分な場合が多い。
- 既存手法では，予測が既知の物理法則に反する可能性がある。
- モデルパラメータとドメイン知識の両方に対する予測不確実性を考慮した学習を目指す。
- 提案手法は，入力と出力間の線形関係を学習過程に組み込むことができる。
- 単一粒子バッテリーモデルの学習実験で，標準的な変分ベイズニューラルネットワークと比較して，信用区間と制約違反が減少することが示された。
- 物理知識に基づいた制約を満たしつつ，より信頼性の高い予測が可能となる。
Link: https://arxiv.org/abs/2604.24911
時空間インフルエンザ予測のための生成拡散モデル [cs.LG, q-bio.PE]目的：インフルエンザの時空間的動態の予測
- 感染症の発生予測は，公衆衛生計画の策定に不可欠である。その予測は複雑な流行動態により困難。
- 既存の手法では，多峰性不確実性や新たなトレンドの捉え方が課題となっている。
- 拡散モデルを用いて，より現実的で多様な感染症の流行軌道を予測することを目指す。
- Influpaintは，インフルエンザの季節を時空間画像として表現し，疾病動態の豊かな分布を学習する。
- 予測は，部分的な観測データからの条件付き生成（インペインティング）タスクとして定式化される。
- 回帰評価において，主要なアンサンブル手法と同等の予測精度を達成し，リアルタイム評価では性能が大幅に向上した。
Link: https://arxiv.org/abs/2604.24913
asRoBallet：摩擦を考慮した強化学習によるアンダーアクチュエートされた球体ダイナミクスのシミュレーションから実機へのギャップ克服 [cs.RO, cs.AI]目的：ヒューマノイドボールボットハードウェアにおける強化学習の適用
- ボールボットは，アンダーアクチュエート・非ホロノミック制御の標準的なベンチマークであり，複雑な摩擦モデルが課題である。
- 実用的なヒューマノイドボールボットへの強化学習の移行は，接触モデリング，アクチュエータの遅延とジッター，安全なハードウェア探査のギャップによって阻害されている。
- ホイールと球体，球体と地面の界面における摩擦チャネルを制御することで，シミュレーションから実機へのゼロショット転送を実現する。
- ETH型全方向車輪の離散的なローラーメカニズムを明示的にモデル化するMuJoCoシミュレーションを開発し，寄生振動や接触不連続性を捉えた。
- 摩擦を考慮した強化学習フレームワークを構築し，実機でのゼロショット転送を可能にした。
- 過拘束四脚ロボットの主要コンポーネントを再利用し，低コストで堅牢な研究プラットフォームであるasRoBalletを設計した。
Link: https://arxiv.org/abs/2604.24916
エージェントシステムのための秘密利用委譲プロトコル：SUDP [cs.CR, cs.AI]目的：API，メッセージングプラットフォーム，クラウドサービスにおけるユーザーの秘密情報の利用委譲に関する問題の解決
- エージェントシステムはユーザーの秘密情報を扱うため，セキュリティ上の課題が重要である。
- 既存の認証方法は，秘密情報の再利用可能な露出を伴い，長期的なアカウント侵害のリスクがある。
- 再利用可能な権限を要求者に与えることなく，ユーザーが承認した秘密情報の利用を可能にすること。
- 本研究では，秘密利用問題を形式化し，セキュリティ特性の分類を提案した。
- SUDP (Secret-Use Delegation Protocol)は，要求者，ユーザー，保管者の三者間のプロトコルとして実現された。
- SUDPは，認可の検証可能性，操作の束縛性，および一回限りの利用を保証することが示された。
Link: https://arxiv.org/abs/2604.24920
Libra-VLA：非同期粗調整・微調整二重システムによる学習均衡の達成 [cs.RO, cs.AI, cs.CL, cs.CV]目的：ビジョン・言語・行動モデルにおける学習均衡の達成
- 汎用的なロボット操作を実現するため，高レベルな指示を具体的な行動に落とし込むVLAモデルの重要性が高まっている。
- 既存手法は，視覚・言語情報を直接低レベルのモーター制御に変換するため，複雑な行動の階層構造を捉えきれていない。
- 本研究は，粗調整と微調整の二重システムにより学習の複雑さを分離し，VLAモデルの性能向上を目指す。
- 提案手法Libra-VLAは，粗調整段階で行動の方向性を決定し，微調整段階で精密な位置合わせを行うことで，学習のバランスを取っている。
- 実験結果から，行動分解の粒度が学習難易度と釣り合う点がピーク性能を示すことが明らかになった。
- 非同期設計により，提案手法はスケーラブルで堅牢かつ応答性の高いオープンワールド操作を実現する。
Link: https://arxiv.org/abs/2604.24921
潜在蒸留による大規模言語モデルの探索 [cs.CL, cs.AI, cs.LG]目的：大規模言語モデルにおける多様な応答生成
- 大規模言語モデルの性能向上は，様々な応用において不可欠である。
- 従来の確率的サンプリングでは，表面的な語彙変化しかなく，意味的な多様性が不足する。
- 意味的な多様性を明示的に促し，モデルの探索能力を高める。
- 提案手法Exploratory Sampling (ESamp) は，推論時のPass@k効率を大幅に向上させる。
- ESampは，数学，科学，コード生成といった様々なベンチマークで頑健な汎化性能を示す。
- ESampは，多様性と一貫性のトレードオフを解消し，クリエイティブライティングにおいても優れた結果をもたらす。
Link: https://arxiv.org/abs/2604.24927
GAIA-v2-LILT：翻訳を超えた多言語エージェントベンチマークの適応 [cs.CL, cs.AI]目的：多言語エージェントベンチマークの適応手法
- エージェント技術の国際的な応用展開には，多言語対応が不可欠である。
- 既存の多言語ベンチマークは，機械翻訳に頼る傾向があり，文化的適切性や難易度の検証が不十分である。
- ベンチマークの妥当性を高め，言語間の性能差を正確に評価すること。
- 提案手法により，機械翻訳のみで作成されたベンチマークと比較して，エージェントの成功率が最大32.7%向上した。
- 監査された環境下では，性能差は英語の性能との差が3.1%以内に収まったが，他の言語では依然として大きな差が見られた。
- 性能差の多くはベンチマークに起因する測定誤差であり，言語間ベンチマークの適応にはタスクレベルでの整合性が重要である。
Link: https://arxiv.org/abs/2604.24929
S-SONDO：汎用オーディオ基盤モデルのための自己教師あり知識蒸留 [cs.NI, cs.PF, cs.AI, cs.SD]目的：汎用オーディオ基盤モデルの知識蒸留によるモデル圧縮
- 近年，多様なタスクで高性能な汎用オーディオ基盤モデルが開発されている。
- 最先端モデルは巨大であり，推論コストが高く，エッジデバイスへの展開が困難である。
- 埋め込み出力のみを出力するモデルでも知識蒸留を可能にし，モデル圧縮を促進する。
- S-SONDOは，教師モデルの出力埋め込みのみを用いて知識蒸留を行う初のフレームワークである。
- アーキテクチャに依存せず，幅広い埋め込みベースの教師モデルに適用可能である。
- 教師モデルの性能を最大96%維持しつつ，最大61倍までモデルを小型化できることが示された。
Link: https://arxiv.org/abs/2604.24933
CAN-QA：車載CAN通信における推論のための質問応答ベンチマーク [cs.RO, cs.SY, eess.SY, cs.CR, cs.LG]目的：車載CAN通信の質問応答タスクを通じた解析
- 自動車の安全性確保は重要であり，CAN通信はその中核を担う。
- CAN通信にはセキュリティ機構が乏しく，不正侵入検知が課題。
- CAN通信の時系列的・関係的構造を考慮した解析手法が求められる。
- 本研究では，CAN通信解析を質問応答タスクとして捉える新たなベンチマークCAN-QAを提案。
- CAN-QAは，CANログから生成される質問と正解ペアのデータセットであり，モデルのCAN通信理解能力を評価。
- 大規模言語モデルの評価結果から，時系列推論や多条件推論に課題があることが示唆された。
Link: https://arxiv.org/abs/2604.24935
教師なし概念抽出のための統一的フレームワーク [cs.LG, stat.ML]目的：教師なし概念抽出における識別可能性の保証
- 機械学習モデルの解釈性は重要であり，概念抽出はそのための手段となる。
- 既存の手法では，概念抽出の理論的な保証が明確でない場合が多い。
- 概念抽出を生成モデルの識別問題として捉え，識別可能性の保証を容易にする。
- 本研究では，概念抽出の識別可能性を特徴付けるための一般的なメタ定理を提示した。
- このメタ定理により，既存のアプローチに対する識別可能性の証明が大幅に簡略化される。
- 原理に基づいた新たな概念抽出アプローチの開発を促進する道が開かれる。
Link: https://arxiv.org/abs/2604.24936
大規模言語モデルにおける層の冗長性の再考：キャリブレーション目標と深さプルーニングの探索 [cs.LG, cs.AI, cs.CL]目的：大規模言語モデルの深さプルーニングにおける層の冗長性に関する調査
- 大規模言語モデルの利用拡大に伴い，推論効率の向上が重要となっている。
- 既存研究では，層の冗長性を構造的な特性と捉え，普遍的なランキングが困難である。
- キャリブレーション目標と探索アルゴリズムに着目し，層の冗長性の解明を目指す。
- 異なるキャリブレーション目標は，質的に異なる冗長層を導き出すことが確認された。
- perplexityと下流タスクの精度ランキングは必ずしも一致しないことが示された。
- 固定された目標下では，探索アルゴリズムの種類による解の違いは少ない傾向にある。
Link: https://arxiv.org/abs/2604.24938
ADE：適応辞書埋め込み -- 大規模言語モデルへのマルチアンカー表現のスケーリング [eess.SY, cs.SY, math.DS, math.OC, cs.CL, cs.AI]目的：大規模言語モデルへのマルチアンカー表現のスケーリング
- 自然言語処理において，単語埋め込みは不可欠な要素である。表現力向上のため，多義語への対応が課題となっている。
- 従来の単一ベクトル表現では，多義語の表現に限界があり，意味表現の幅が狭まるという問題点が存在する。
- 計算効率とTransformerアーキテクチャとの統合という課題を克服し，マルチアンカー表現を大規模言語モデルに適用する。
- ADEは，高コストなアンカー検索を効率的な行列演算に変換するVocabulary Projection（VP）を導入した。
- ADEは，同じ単語のアンカー間で位置情報を共有するGrouped Positional Encoding（GPE）により，意味的な一貫性を保ちつつアンカーレベルでの変動を可能にした。
- ADEは，DeBERTa-v3-baseと比較して，訓練可能なパラメータ数を98.7%削減しながら，DBpedia-14の精度を上回り，AG Newsの精度に匹敵した。
Link: https://arxiv.org/abs/2604.24940
ノイズの多い嗜好からの学習：直接嗜好最適化への半教師あり学習アプローチ [eess.SY, cs.SY, cs.CV, cs.AI]目的：ノイズを含む嗜好データを用いた，直接嗜好最適化の性能向上
- 人間の視覚的嗜好は複雑であり，その理解は画像生成AIの品質向上に不可欠である。
- 既存のデータセットは単純な勝敗データのみ提供するため，多次元的な嗜好を捉えきれていない。
- 多次元的な嗜好を反映した，ノイズの多い嗜好データからの学習方法を確立すること。
- 提案手法Semi-DPOは，一貫性のあるペアをクリーンなラベルデータ，矛盾するペアをノイズとみなし学習する。
- まず，合意フィルタリングされたクリーンなサブセットで学習し，そのモデルを暗黙の分類器として利用する。
- ノイズのあるデータセットに対する疑似ラベル生成と反復的な改良により，最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.24952