arXiv雑要約

AI - 2026/06/15 公開

  • 妥当性が現実的でないとき:LLMベースの都市シミュレーションにおける人間の移動の評価 [cs.PF, cs.DC, cs.SY, eess.SY, cs.CL, cs.AI, cs.MA]目的:LLMベースの都市シミュレーションにおける人間の移動の現実性評価
    • 都市計画や交通インフラの最適化において,人間の移動パターンの正確な理解は不可欠である。
    • LLMベースのシミュレーションは記述の妥当性は高いものの,現実の移動パターンを正確に再現しているか不明である。
    • LLMベースの都市シミュレーションの現実性を検証し,より信頼性の高いシミュレーションシステムの構築に貢献する。
    • LLMベースのシミュレーターは,高レベルの活動分布は捉えるものの,移動距離分布やODフローなどの空間的・時間的制約の再現に苦戦している。
    • 現実的な移動の多様性は,デフォルトのプロンプト設定では不安定であり,プロファイルに基づいた初期化が必要となる場合がある。
    • 地域規模の地図生成,シミュレーションの可視化,移動指標の計算,交通シミュレーションのためのスケーラブルでオープンなLLM駆動型インフラストラクチャを開発した。

    Link: https://arxiv.org/abs/2606.13835

  • リズムフォーマーの説明:遠隔光容量脈波測定のための周期的なスパース注意機構に関する系統的なXAI分析 [cs.IR, cs.CV, cs.AI, eess.IV]目的:遠隔光容量脈波測定(rPPG)における周期的なスパース注意機構の解釈可能性に関する定量的な評価
    • 遠隔光容量脈波測定は,非侵襲的な心拍数推定技術として,臨床応用が期待されている。
    • rPPGトランスフォーマーは高い精度を達成するものの,その意思決定過程は不透明であり,信頼性に課題がある。
    • 既存のXAI手法では,定量的な評価と生理学的妥当性の検証が不足しており,解釈の信頼性が低い。
    • リズムフォーマーに4つの帰属手法を適用し,スパース注意機構における多段階リーク現象を定量的に評価した。
    • 皮膚被覆率指標を導入し,帰属質量が皮膚領域に集中しているかを検証した。
    • SaCo係数をrPPG回帰問題に適用し,摂動に対する予測波形の変化を評価することで,帰属の忠実度を測定した。

    Link: https://arxiv.org/abs/2606.13839

  • 時間的に一貫性のあるグラフQネットワークを用いたインテリジェントネットワーク制御 [cs.RO, cs.HC, cs.AR, cs.DM, cs.DM, eess.SY, cs.SY, cs.NI, cs.LG]目的:モバイルネットワークのインテリジェントな制御とオーケストレーション
    • モバイルネットワークは複雑化の一途を辿っており,次世代ネットワークにはトラフィック増加と多様なサービスへの対応が求められる。
    • ネットワークの複雑化に伴い,動的な目標下でのアンテナパラメータ最適化が困難になっている。
    • ネットワーク全体の状態を考慮した協調的なローカルアクションの割り当てによる,効率的なネットワーク制御を実現する。
    • 提案手法は,シミュレーション環境において,エネルギー消費を抑制しつつ,QoSを維持する性能が,既存のグラフベース手法やルールベースコントローラを上回った。
    • 時間的に一貫性のあるグラフQネットワークは,タスクに依存しないネットワーク全体の自己予測表現を学習する。
    • 学習された表現により,変化する要件への迅速な適応が可能となった。

    Link: https://arxiv.org/abs/2606.13848

  • SpheriCity:持続可能性に関する意思決定支援のための信頼できる対話型AIの設計 [cs.CL, eess.SY, cs.SY, cs.HC, cs.AI]目的:持続可能性レポートからの信頼できる知識の抽出と理解の支援
    • 持続可能性は,地球規模の課題であり,社会経済活動のあらゆる側面で重要性が増している。
    • 都市レベルの循環経済評価レポートは情報が豊富だが,構造が複雑で,比較検討が困難である。
    • AIの透明性,根拠の提示,専門家との連携を通じて,信頼性と解釈可能性を高めることを目指す。
    • 透明性の高い情報源の提示,文脈に沿った説明,解釈可能性が,専門家の信頼と有用性の判断に大きく影響することが示された。
    • 本研究は,持続可能性に関する知識抽出のための対話型プロトタイプと,AI応答を評価するためのフレームワークを提供する。
    • 根拠の提示,不確実性の伝達,ワークフローへの統合が,専門家のAIに対する信頼に影響を与えることが明らかになった。

    Link: https://arxiv.org/abs/2606.13854

  • 気分を考慮した音楽推薦:ランキングシステムへのユーザの情動信号の統合 [cs.RO, cs.IR, cs.AI]目的:ユーザの情動信号を統合した音楽推薦ランキングフレームワーク
    • 現代の音楽ストリーミングプラットフォームにおいて,膨大な楽曲から好みの曲を見つけることは困難である。
    • 協調フィルタリングは利用頻度が低い楽曲に対して,十分な性能を発揮できないという課題がある。
    • ユーザの感情状態を考慮することで,よりパーソナライズされた音楽推薦を目指す。
    • 提案手法は,エネルギーと価の空間におけるsoftmaxベースのサンプリングにより,ユーザの情動信号をランキングプロセスに統合する。
    • 単盲検実験の結果,提案システムからの推薦は,ベースラインと比較して,認識された推薦品質が向上した。
    • これらの結果は,音楽推薦に感情に基づいた入力を組み込むことの有効性を示す初期的な証拠となる。

    Link: https://arxiv.org/abs/2606.13858

  • 重ね合わせにおける推論トークン:SuperThoughts [cs.LG, cs.AI, cs.CL]目的:大規模言語モデルの推論効率化と精度維持
    • 複雑な問題解決において,長鎖思考(CoT)は有効だが,計算コストが高い。
    • 連続潜在空間での推論は不安定で,複雑なタスクへの応用が難しい。
    • 離散トークンによる教師信号を維持しつつ,推論速度を向上させること。
    • SuperThoughtsは,連続するCoTトークンを圧縮し,Multi-Token Predictionモジュールで2トークンを同時に生成する。
    • これにより,推論時の処理速度を約2倍に向上させ,CoTの長さを20-30%削減する。
    • 精度はわずかに低下するものの(1-2ポイント),複数の数学課題データセットで同等の性能を維持する。

    Link: https://arxiv.org/abs/2606.13862

  • Muon$^p$: 分数スペクトル冪を持つミューオン [cs.LG]目的:ミューオン最適化手法における分数スペクトル冪の利用
    • 深層学習モデルの学習効率向上は,計算資源の節約や大規模モデルの実現に不可欠である。
    • 従来のミューオン最適化はスペクトルを平坦化するが,特異値情報が失われ,適応能力が低下する可能性がある。
    • 特異値情報を部分的に保持しつつ,最適化性能を向上させることを目指す。
    • Muon$^p$は,損失関数の減少においてSchattenノルムの線形改善を最大化することが示された。
    • 特に,大規模モデルのファインチューニングにおいて,Muon$^p$は検証パープレキシティと下流タスクの性能を向上させる。
    • スペクトル幾何学の観点から,Muon$^p$が適さないケースも分析され,特異スペクトルを保持することの利点が示唆された。

    Link: https://arxiv.org/abs/2606.13867

  • ミラージュ探査:視覚モデルが視覚的理解をどのように偽装するか [cs.CV, cs.AI, cs.LG]目的:視覚言語モデルにおけるミラージュ現象のメカニズム解明
    • 画像認識技術は,自動運転や医療診断など様々な分野で不可欠であり,その信頼性向上が重要である。
    • 視覚言語モデルは,画像なしで質問に自信を持って回答することがあり,評価指標を誤って高く見せている。
    • この研究は,ミラージュ現象をテキストバイアスと虚像という2つのモードに分け,その根本原因を特定することを目指す。
    • ミラージュ現象は,残差ストリーム,MLP,注意機構など,モデル内部の活性化から線形的に検出可能であることが示された。
    • テキストベースラインではこの信号を復元できないことから,表層的な語彙的混同ではないことが示唆された。
    • テキスト分布のクリーニングはテキストバイアスに対処できるが,虚像の生成には効果がないことが明らかになった。

    Link: https://arxiv.org/abs/2606.13870

  • 表形式データ埋め込みにおける構造化クエリのためのハイパー次元計算 [cs.AI, cs.DB]目的:表形式データの埋め込み表現を用いた構造化クエリへの対応
    • データプロファイリングやデータ統合において,表形式データの埋め込み表現が重要な役割を担っている。
    • 既存手法では,類似度スコアが解釈困難であり,適切な閾値設定が難しいという課題がある。
    • ハイパー次元計算を用いて,解釈可能な類似度スコアを得て,信頼性の高い閾値設定を可能にすること。
    • ハイパー次元計算は,行の検索において,既存のベースライン手法であるEmbDIと同等またはそれ以上の性能を発揮した。
    • 特に,非等価述語に対するロバスト性が向上し,十分な次元数においては属性投影の精度が完璧に達した。
    • ハイパー次元計算は,その原理的な閾値設定により,ゼロマッチの識別を確実に実現した。

    Link: https://arxiv.org/abs/2606.13871

  • 学習不可能に設計された大規模言語モデル [cs.LG, cs.CL]目的:特定の学習データソースの影響除去
    • 大規模言語モデルのプライバシー保護やデータ管理の重要性が高まっている。
    • 学習データソース間の情報が絡み合い,特定のソースの影響を分離・除去することが困難である。
    • ソースレベルでの学習を可能にしつつ,特定のソースの影響を効率的に除去すること。
    • NULLsは,共有のバックボーンニューロンと疎に活性化されるシンクの組み合わせにより,ソース固有の情報を分離しつつ,ソース間で情報を共有する。
    • 特定の記事を学習解除した場合,その記事固有の知識は除去されるものの,意味的に関連する記事と共有されている事実は保持される。
    • NULLsによる学習解除は,敵対的な抽出や学習解除の逆転に対して堅牢であり,一般的な言語能力も維持される。

    Link: https://arxiv.org/abs/2606.13873

  • 不規則な時系列データにおける健康状態遷移確率モデリングのための属性条件付き長期間ニューラルネットワーク:LANTERNフレームワーク [cs.RO, cs.RO, cs.LG, q-fin.RM]目的:不規則な時系列健康データに対する多状態遷移確率の推定
    • 障害保険の価格設定,準備金,ソルベンシー評価において,長期介護の遷移確率の正確な推定は不可欠である。
    • 従来のモデルは,非線形の高齢化パターンや多様な共変量履歴を持つ不規則な縦断的健康データに対して制約がある場合がある。
    • 本研究は,個人ベースの健康履歴から学習し,時間間隔を考慮し,属性に基づいて遷移確率を条件付けするモデルを開発する。
    • 提案手法は,重度の障害状態と死亡に関する識別力を,ロジスティック回帰や勾配ブースティング木と比較して向上させた。
    • 堅牢なキャリブレーションを維持し,保留されたテスト分析において,評価されたモデルの中で最も低い遷移行列誤差を達成した。
    • 構造化された機械学習推定器は,識別力だけでなく,キャリブレーションと投影忠実度に基づいて長期介護遷移モデリングを支援できる。

    Link: https://arxiv.org/abs/2606.13880

  • 能力最小化を安全性の基本原理として:最小権限LLMエージェントのためのリスク認識因果ゲート [cs.RO, cs.AI]目的:リスクを考慮した因果ゲートによる,モデル予測の実行,保留,または差し控えの決定
    • 近年の意思決定システムでは学習されたコンポーネントが重要であり,誤った予測が許容できないコストを引き起こす可能性がある。
    • 予測の確信度だけでは安全性を保証できず,高コストなエラーのリスクが残存する。
    • 因果効果の推定とリスク管理を組み合わせることで,予測の信頼性に関わらず安全な意思決定を可能とする。
    • リスク認識因果ゲート(RACG)は,反事実的なリスクに基づいて意思決定を制御し,高コストなエラーを大幅に削減する。
    • RACGは,分布シフトに対応するために,予測と実現結果の乖離を監視し,ゲートを締め付ける適応型ゲートポリシーを提案する。
    • 明示的に因果リスクと予測不確実性を分離することで,より安全で透明性の高い意思決定システムを実現する。

    Link: https://arxiv.org/abs/2606.13884

  • PhysVLA:具現化されたロボット操作のための物理に基づいたVLAへ [cs.RO, cs.CV, cs.LG]目的:ロボット制御ポリシーの品質向上
    • ロボットの自律的なタスク遂行において,視覚情報と自然言語指示を統合するVLAモデルの重要性が高まっている。
    • 既存のVLAモデルは物理法則を明示的に考慮していないため,運動の不安定性や失敗を引き起こす可能性がある。
    • 物理シミュレーションを活用し,VLAモデルの予測行動に物理的な整合性を付与することで,よりロバストな制御を実現する。
    • PhysVLAは,既存のVLAモデルに追加することで,追加学習やモデルの変更をすることなく性能を向上させる。
    • LIBERO-Spatial環境での実験により,成功率が最大17%向上し,安定性が最大19%向上することが示された。
    • 実機ロボットアーム(Agilex Piper)を用いた実験でも,成功率が最大50%向上し,物理環境への適応性が確認された。

    Link: https://arxiv.org/abs/2606.13886

  • 暗号通貨とAI:概観 [eess.SY, cs.SY, cs.CR, cs.AI]目的:暗号通貨とAIの交差領域における研究動向と課題
    • ブロックチェーン技術とAIの融合は,社会に変革をもたらす可能性を秘めている。
    • 暗号通貨とAIの連携に関する研究は散在しており,全体像が見えにくい状況である。
    • 両技術の意義と課題を整理し,今後の研究方向性を示すことを目指す。
    • 暗号通貨とAIの連携に関する既存研究を体系的に整理し,主要な知見をまとめた。
    • 両技術の誤解を招く一般的な認識を明らかにし,今後の研究課題を提示した。
    • 暗号通貨とAIの統合は初期段階であり,さらなる研究開発の余地が大きいと結論付けた。

    Link: https://arxiv.org/abs/2606.13892

  • Gefen:最適化された確率的最適化アルゴリズム [cs.LG, cs.AI, cs.CL, cs.CV]目的:深層学習におけるメモリ効率の良い最適化手法
    • 深層学習モデルの規模拡大に伴い,メモリ消費量がボトルネックとなるケースが増加している。
    • AdamWのような代表的な最適化アルゴリズムは,パラメータ数に比例したメモリを必要とする。
    • Gefenは,第二モーメントの共有と第一モーメントの量子化によりメモリ消費量を削減する。
    • GefenはAdamWと同等の性能を維持しながら,メモリフットプリントを約8分の1に削減することに成功した。
    • 分散学習環境(FSDP, DDP)において,Gefenはマイクロバッチサイズを拡大し,スループットを大幅に向上させた。
    • GefenはAdamWのドロップイン置換として,より大規模なモデルの学習やバッチサイズ増大を可能にする。

    Link: https://arxiv.org/abs/2606.13894

  • 自己教師ありリモートセンシングビジョンモデルは下流タスクにどのように転移するか [cs.CV, cs.AI]目的:自己教師ありリモートセンシング基礎モデルの転移学習に関する評価
    • リモートセンシング技術は,地球観測において重要な役割を果たし,環境変化のモニタリングに不可欠である。
    • リモートセンシングモデルの汎化性能は課題であり,特にラベル付きデータの不足が問題となっている。
    • 自己教師あり学習を用いて,ラベルなしデータから有効な特徴量を学習し,下流タスクへの転移性能を向上させる。
    • 自己教師ありリモートセンシング基礎モデルのランキングは,タスクや適応方法によって変化することが示された。
    • タスクに関連する情報は,最終層の埋め込みよりも,中間層のTransformerブロックでよりアクセスしやすい傾向にある。
    • セグメンテーションタスクにおいて,デコーダー設計やファインチューニングが,基礎モデルの選択と同程度に影響を与えることが明らかになった。

    Link: https://arxiv.org/abs/2606.13896

  • HiLo-Token:効率的な画像編集のための入力適応型高低周波数トークン圧縮 [cs.CV, cs.AI]目的:画像編集における効率化のための入力適応型トークン圧縮フレームワーク
    • 画像編集ツールは,顧客利用の中心であり,Photoshop等のトラフィックを大きく占める重要な分野である。
    • Diffusion Transformer (DiT) への移行に伴い,生成AIモデルの遅延が大きな課題となっている。
    • DiTモジュールの遅延を削減し,画像編集の効率を向上させることを目指す。
    • 提案手法HiLo-Tokenは,高周波領域に多くのトークンを割り当て,低周波領域には少ないトークンを割り当てることで,DiTモジュールの速度を大幅に向上させた。
    • A100-80GB上で,マスク比率が小さい,中程度,大きいタスクにおいて,それぞれ3.13倍,2.59倍,1.67倍の速度向上を達成した。
    • 生成品質の低下なしに速度向上を実現しており,実用的な画像編集において有効であることが確認された。

    Link: https://arxiv.org/abs/2606.13898

  • スパイクF-GO:多変量時系列予測のためのスパイクフーリエグラフ演算子 [cs.NI, cs.LG, cs.NE]目的:多変量時系列予測におけるスパイクニューラルネットワークの性能向上
    • 時系列予測は,金融,気象,医療など,多様な分野で不可欠な技術である。
    • 既存のスパイクニューラルネットワークは,変量間の依存関係を明示的にモデル化できていない。
    • スパイクニューラルネットワークにグラフ構造を導入し,変量間の関係性を捉えることで予測精度を向上させる。
    • 提案手法SpikF-GOは,既存のスパイクニューラルネットワーク手法の中で最も良い平均順位を達成した。
    • SpikF-GOは,従来のニューラルネットワーク手法であるFourierGNNを,より少ないエネルギーコストで上回った。
    • SpikF-GOは,埋め込み次元数を削減しても高い精度を維持し,大幅なエネルギー削減を実現した。

    Link: https://arxiv.org/abs/2606.13901

  • SANA:大規模データレイクにおいて,QAエージェントにとって重要な要素は何か? [cs.CL, cs.AI, cs.DB]目的:データレイクにおける探索的質疑応答のボトルネック特定
    • データレイクは大量の情報を保有するため,情報探索と活用において重要性が増している。
    • データレイク環境における質疑応答では,検索,計画,データ分析のどこで失敗が起きているか特定が困難である。
    • SANAフレームワークを用いて,エージェントの各構成要素のボトルネックを特定し,改善につなげる。
    • SANAフレームワークは,質疑応答タスクを構成要素ごとに評価可能な形式に変換する。
    • LakeQAベンチマークでは検索が,KramaBenchではデータ分析がボトルネックになっていることが示された。
    • 本研究は,データレイク環境におけるQAエージェントの性能向上に貢献する。

    Link: https://arxiv.org/abs/2606.13904

  • 高校成績証明書の自動処理のためのマルチエージェントAIシステム:大規模な協調的文書分析 [cs.RO, cs.SY, eess.SY, cs.AI]目的:高校の成績証明書処理の自動化
    • 大学入試における処理能力の限界と,人的資源の有効活用が課題。
    • 成績証明書のフォーマットが多様であり,手作業での処理に時間がかかる。
    • AIによる自動処理で,処理時間短縮と正確性の両立を目指す。
    • マルチエージェントAIシステムにより,40件の実成績証明書を全て処理することに成功。
    • 専門家による手作業と比較して96.7%の精度を達成。
    • 1件あたり平均45秒という実用的な処理速度を実現。

    Link: https://arxiv.org/abs/2606.13916

  • 謝罪は難しくない:半自律形式化に関する専門家レビュー事例研究 [cs.DB, cs.DL, cs.AI, math.AG]目的:半自律形式化の品質評価基準の検討
    • 形式化された数学は,厳密性と再利用性を兼ね備えた信頼性の高いソフトウェア開発に不可欠である。
    • 大規模言語モデルによる形式化支援は進むも,専門家によるレビューなしには再利用可能なライブラリにはなり得ない。
    • 形式化支援ツールが生成した形式化が,専門家レビューに耐えうる品質であるかを検証する。
    • 専門家レビューの結果,最初の形式化には定義,定理の一般性,ファイル構成,API設計に深刻な問題が認められた。
    • エージェントは局所的で機械的に検証可能なフィードバックには適応できるものの,定義の選択やAPI設計は苦手であった。
    • 形式化支援の評価は,単に「sorries」を解消するだけでなく,専門家レビューを通過するかどうかで判断されるべきである。

    Link: https://arxiv.org/abs/2606.13925

  • 自己進化型ビジュアル質問者 [cs.CV, cs.LG]目的:ビジュアル質問の質と難易度を自律的に向上させる手法
    • 画像と言語を組み合わせたモデルの性能向上は,AI研究における重要な課題である。
    • 既存のビジュアル質問システムの性能は,高品質な学習データの不足によって制限されている。
    • 外部の監督なしに,モデル自身が質問を生成・評価することで学習を進めることを目指す。
    • 提案手法により,モデルはより難易度の高い,視覚に焦点を当てた質問を自律的に生成できる。
    • 自己学習によって生成された質問を用いた訓練は,既存の静的なデータを用いた訓練よりも効果的である。
    • 自己進化型質問者は,質問者としての性能を向上させながら,回答者としての能力も維持または向上させる。

    Link: https://arxiv.org/abs/2606.13929

  • 敵対的概念探索:特徴幾何学からの構成的誤りの予測 [cs.CL, cs.AI]目的:大規模言語モデルにおける構成的誤りの予測
    • 言語モデルの能力評価は重要であり,その限界を理解することで,より堅牢なシステムの開発に繋がる。
    • 言語モデルは,特定の概念の組み合わせにおいて構成的な誤りを犯しやすく,その原因の特定が困難である。
    • 特徴幾何学を用いて,言語モデルが失敗しやすい概念の組み合わせを予測し,改善に役立てる。
    • 言語モデルの表現幾何学において,概念がほぼ直交的に符号化される場合,構成は成功する。
    • 概念の線形符号化が近い場合,干渉が生じ,構成的な誤りが発生しやすい。
    • 本手法は,特定の入力を評価することなく,様々な構成的タスクにおける失敗パターンを予測できる。

    Link: https://arxiv.org/abs/2606.13934

  • Minim:信頼されるローカルサニタイズによるプライバシー保護型最小限のビュー [cs.CL, cs.CL, cs.CL, cs.AI]目的:エージェントのためのプライバシー保護型最小限のビューの実現
    • LLM搭載自律エージェントの性能向上にはUI状態の活用が不可欠である。
    • UI状態の全体送信は,認証コード等の不要な個人情報漏洩リスクがある。
    • UI要素の機密性と必要性に基づき,情報漏洩リスクを低減する。
    • MINIMは,UI要素の機密性とタスクへの必要性を評価し,不要な情報を削減する。
    • タスクに重要な情報を保持しつつ,リスクの高いコンテンツの誤った削除を抑制する。
    • WebArenaを用いた実験で,MINIMが情報漏洩を大幅に削減し,エージェントの性能を維持することが示された。

    Link: https://arxiv.org/abs/2606.13949

  • 3Dプリンターの保護を迂回するサイドチャネル攻撃 [cs.CR, cs.ET, cs.LG]目的:サイドチャネル攻撃に対するハードウェア対策としてのAMNCの有効性評価
    • 知的財産保護の重要性が増しており,3Dプリンターにおける情報漏洩対策が不可欠である。
    • 3Dプリンターの動作音から機密情報が漏洩する可能性があり,その対策が不十分である。
    • AMNCの効果を検証し,振動チャネルからの情報漏洩リスクを特定すること。
    • AMNCは音響チャネルへの攻撃を完全に抑制するが,振動チャネルは依然として情報漏洩の経路となる。
    • 振動データからある程度の情報を抽出できるものの,完全な形状再構築は困難である。
    • AMNCは音響のみを防御する対策であり,磁気や電力チャネルからの攻撃には対処できない。

    Link: https://arxiv.org/abs/2606.13952

  • 分子潜在拡散における暗い領域の平滑化 [cs.DC, cs.LG]目的:分子生成のための潜在拡散空間における暗い領域の低減
    • 分子設計において,多様かつ高品質な分子構造を効率的に生成する手法が求められている。
    • 既存の分子VAEは再構成に基づき学習されるため,潜在空間の滑らかさや有効性が保証されない場合がある。
    • 潜在空間内の構造的・化学的制約をVAEの学習に組み込み,無効な分子構造の生成を防ぐことを目指す。
    • 提案手法TopVAEは,VAEのデコーダに構造的・化学的制約を学習させることで,暗い領域を減少させる。
    • TopVAEとDiTの組み合わせにより,QM9データセットでFCD-3Dが77%低減し,V&Cが向上した。
    • GEOM-DrugsデータセットではFCD-3Dが52%低減し,ゼロショットスキャフォールドインペインティングにおいてより安定した分子構造が得られた。

    Link: https://arxiv.org/abs/2606.13955

  • データ制約下における機械学習は稲作収穫量を予測できるか?:衛星気候データ,国家作物統計,そしてシエラレオネからの教訓 [cs.LG]目的:稲作収穫量予測の可能性
    • 農業生産性の向上は食糧安全保障の根幹であり,データ駆動型アプローチの重要性が増している。
    • シエラレオネではデータに基づいた意思決定支援が不足しており,機械学習の研究が遅れている。
    • 限られたデータを用いて,稲作収穫量の予測モデルを構築し,その有用性を評価すること。
    • 作物統計のみでは予測性能は改善されないが,衛星気候データを加えることで予測誤差を3分の1に削減できた。
    • 特に,早期の降雨量(5-6月)が収穫量予測の主要な指標となり,収穫前のリスク把握が可能となることが示された。
    • 2018年の異常な収穫量減少は,気候的要因ではなく制度的な問題が原因であり,モデルでは予測できなかった。

    Link: https://arxiv.org/abs/2606.13959

  • 人工知能支援の隠れたコスト:自律性喪失の理論,回復メカニズム,そして人間による主体性の回復 [cs.HC, cs.AI]目的:人工知能支援による人間の自律性喪失とその回復メカニズムに関する理論的モデル
    • AIの社会実装が進む中で,人間の意思決定への影響を理解することが重要である。
    • AIへの過度な依存が,人間の自律性を徐々に低下させる可能性が懸念される。
    • AI利用における自律性喪失を防ぎ,人間による主体的な意思決定を支援する。
    • 本研究では,AI支援による自律性喪失が,認知的な帯域幅の枯渇によって進行する過程としてモデル化された。
    • AIシステム設計において,自律性を回復するための構造的な経路(回復メカニズム)を組み込むことの重要性が示唆された。
    • AIへの機能的依存が好まれる「選好反転」という状態も予測され,文化・政治的な課題に繋がる可能性が指摘された。

    Link: https://arxiv.org/abs/2606.13962

  • STREAM:デュアルチャネルHPCトークンストリーミングを備えたマルチティアLLM推論ミドルウェア [cs.DC, cs.AI]目的:ローカル,HPC,クラウド推論を組み合わせた3層ルーティングアーキテクチャ
    • 大規模言語モデルの利用拡大に伴い,計算資源の柔軟な活用が重要になっている。
    • 機密性の高い研究データを取り扱う場合,クラウドAPIのコストやデータ保持ポリシーが課題となる。
    • 多様な環境を統合し,低遅延かつ安全なLLM推論を実現すること。
    • STREAMは,ローカルLLMによる複雑度判定と,HPC環境での低遅延トークンストリーミングにより,3層アーキテクチャを実現した。
    • HPC環境では,従来のバッチ処理モードと比較して21.1倍高速な0.54秒のTTFT(トークン配信時間)を達成した。
    • Llama 3.2 3Bを用いた評価では,1,200クエリのベンチマークにおいて85.1%の無料ティア保持率を記録した。

    Link: https://arxiv.org/abs/2606.13968

  • 欠損モダリティに対するロバストな予測のための注意機構に基づくモデル [cs.RO, cs.LG]目的:欠損モダリティ下におけるロバストな予測
    • ロボットの知覚・意思決定において,複数のセンサー情報を統合することが重要である。
    • 現実のロボットシステムでは,センサーデータが不完全になることが多く,既存モデルの適用が難しい。
    • 不完全なデータに対してもロバストな予測を可能とするモデルを構築する。
    • 提案モデルは,欠損モダリティ下でも,全てのモダリティを近似するロバストな表現を獲得できる。
    • 人間の軌跡予測とロボットマニピュレーション予測という2つのロボット学習タスクで,提案手法の有効性が確認された。
    • 既存のマルチモーダル融合手法と比較して,不完全なデータからの学習において優位性を示す。

    Link: https://arxiv.org/abs/2606.13970

  • 周辺貢献度適応度による共進化スパイクニューラルネットワークアンサンブル [cs.NE]目的:スパイクニューラルネットワークアンサンブルの進化
    • スパイクニューラルネットワークは低消費電力で生物に近い情報処理が可能であり,次世代AIの基盤技術として期待されている。
    • ネットワーク規模の拡大に伴い,探索空間が指数関数的に増大し,効率的な進化が困難になっている。
    • アンサンブル内の個々のネットワークの貢献度に基づき,協調的な進化を促すことで,効率的な学習を目指す。
    • 提案手法は,分類,回帰,制御タスクにおいて,単一ネットワーク進化や事後アンサンブルと比較して統計的に有意な改善を達成した。
    • 特に制御タスクにおいて顕著な効果が見られ,標準的な進化法では効果的なポリシーを発見できない状況で,ほぼ最適な性能への移行を実現した。
    • 本研究は,協調ゲーム理論とマルチエージェントシステムからの差分評価関数に基づき,冗長性を抑制し,補完的な専門化を促進する。

    Link: https://arxiv.org/abs/2606.13985

  • マスク,サンプル,修正:ガイダンス付き離散フローマッチングテキスト読み上げのための修正可能なCTMC推論スタック [cs.CY, cs.SD, cs.AI]目的:ガイダンス付き離散フローマッチングテキスト読み上げにおける安定した低ステップ条件付き充填のための推論スタック
    • 近年,テキスト読み上げの分野では,明示的な長さ予測や外部アライメントを不要とする非自己回帰モデルが注目されている。
    • 離散フローマッチングは自然な選択肢であるが,推論時の制御が課題であり,安定した低ステップ条件付き充填が難しい。
    • 推論時にテキスト条件を強化し,音響プロンプトとの整合性を高め,早期のマスク解除決定を修正するスタックを提案する。
    • 提案手法は,追加のファインチューニングなしに,NFEが少ない状況下で明瞭度とロバスト性を向上させる。
    • 予測不要のガイダンス,プロンプト適合型条件付き結合,スケジュール制約付きリマスキング機構を組み合わせることで,低ステップでの安定性を実現する。
    • 従来の無誘導およびガイダンスのみのサンプラーと比較して,大幅に少ないステップ数で性能を向上させる。

    Link: https://arxiv.org/abs/2606.13989

  • 隠れた脅威:DECOMPBENCHを用いた分解攻撃に対するエージェントの安全性のベンチマーク [cs.RO, cs.CL, cs.CL, cs.CR, cs.AI, cs.LG]目的:LLMベースのエージェントに対する分解攻撃の安全性評価
    • LLMエージェントの能力向上と普及に伴い,悪用によるリスクが増大している。
    • 既存の安全性評価は,タスクを分割した分解攻撃を考慮していない。
    • 分解攻撃に対するエージェントの脆弱性を明らかにし,安全性向上策を促す。
    • 最先端のエージェントは,単一の有害タスクに対しては高い拒否率を示す。
    • しかし,分解されたタスクに対しては拒否率は大幅に低下し,悪意のある目的を達成してしまう。
    • 分解攻撃に対する安全性評価と防御策の必要性が示唆される。

    Link: https://arxiv.org/abs/2606.13994

  • 数値解析の形式化:エージェントパイプラインとカーネル受理を超えた品質監査 [cs.AI]目的:数値解析の形式化
    • 数学の形式化は,数学的推論の厳密性を高め,誤りのない計算を保証する上で不可欠である。
    • 既存の形式化研究は,mathlibに十分に含まれる分野に偏っており,カーネル受理のみを成功基準としている。
    • mathlibに不足している数値解析の分野において,エージェントの自律的な理論構築能力を検証し,形式化の品質評価を向上させる。
    • コーディングエージェントが,常微分方程式の数値解法の教科書をLean 4で形式化することに成功した。
    • カーネル受理だけでは捉えきれない,意味的正確性,Mathlibの再利用度,ファイル間再利用度を評価する体系的なフレームワークを導入した。
    • 形式化における不正確なパターン(不完全な記述,不要な仮定の追加,パラメータ制限など)が明らかになり,カーネル受理に基づく評価の限界が示された。

    Link: https://arxiv.org/abs/2606.14000

  • RT-VLA:知識蒸留によるリアルタイムビジョン-言語-行動モデル [cs.CV, cs.LG, cs.RO]目的:リアルタイム運転におけるビジョン,言語,行動の統合モデリング
    • 自動運転技術の発展には,周囲の状況を正確に理解し,適切な判断を下す能力が不可欠である。
    • 既存のVLAモデルは高性能だが,計算コストが高く,リアルタイム処理が困難である。
    • 高性能を維持しつつ,推論速度を向上させ,リアルタイム運転への応用を目指す。
    • RT-VLAは,最先端モデルSimLingoの能力を知識蒸留によって軽量なモデルに転移させることで,高速な推論を実現した。
    • RT-VLAは,SimLingoと同等の運転性能と言語推論能力を維持しつつ,推論時間を大幅に短縮した。
    • 知識蒸留は,リアルタイムで説明可能なVLAモデルを構築するための有効な手法であることが示唆された。

    Link: https://arxiv.org/abs/2606.14010

  • PostDeg:LayerNorm GNNにおいて配置がパラメータ化よりも優位 [cs.LG]目的:LayerNorm GNNにおけるトポロジー信号の消失メカニズムの特定と,それを改善する手法の提案
    • グラフニューラルネットワークは,複雑な関係性を捉え,様々なタスクで高い性能を発揮する。
    • LayerNorm GNNは,ノード選択ポリシーに必要なトポロジー信号を削除してしまう問題がある。
    • LayerNormにおけるスカラーの配置を変更することで,トポロジー信号を保持し,性能向上を目指す。
    • PostDegは,LayerNormの後に逆次数スケーリングを適用することで,影響力最大化,ネットワーク解体,最大独立集合問題において性能が向上した。
    • PostDegは,既存のLNバックボーンと比較して,それぞれ$+3.5\%/+2.5\%/+5.6\%$の改善が見られた。
    • この結果は,パラメータ化ではなく,LayerNormにおける配置が性能に大きく影響することを示唆している。

    Link: https://arxiv.org/abs/2606.14022

  • エージェント型ブラウザにおける同一生成元ポリシー [cs.CR, cs.AI, cs.CL, cs.SY, eess.SY]目的:エージェント型ブラウザにおける同一生成元ポリシーの有効性検証と強化
    • ウェブブラウザのセキュリティは重要であり,ユーザーのプライバシーとデータの保護に不可欠である。
    • AIエージェントの統合により,従来の同一生成元ポリシーが機能しなくなる可能性が指摘されている。
    • エージェント型ブラウザにおける同一生成元ポリシーの脆弱性を評価し,対策を提案することでセキュリティを向上させる。
    • 既存のエージェント型ブラウザは,通常時や攻撃下において同一生成元ポリシーに頻繁に違反することが示された。
    • SOPGuardという同一生成元ポリシー強化メカニズムをBrowserOSに実装し,有効性を検証した。
    • SOPGuardは同一生成元ポリシーを効果的に適用しつつ,実用性と実行時のオーバーヘッドを最小限に抑えることが確認された。

    Link: https://arxiv.org/abs/2606.14027

  • 制約付き方策最適化 [cs.LG]目的:安全性を考慮した強化学習エージェントの制約条件付き最適化
    • 強化学習において,安全性は重要な課題であり,制約付きマルコフ決定過程が広く用いられる。
    • 従来の制約付きマルコフ決定過程は,リスクに敏感な制約を扱えず,最適解が不安定になりやすい。
    • リスクに敏感な制約を組み込むことで,より安全かつ高性能な強化学習エージェントを実現することを目指す。
    • 提案手法は,リスクに敏感な制約を組み込んだユーティリティ制約付きマルコフ決定過程を扱える。
    • 事前に制約条件を固定する必要がなく,学習中に柔軟に調整できるため,方策の柔軟性が向上する。
    • Safety Gymnasiumのベンチマークタスクにおいて,既存手法と同等またはそれ以上の性能を示す。

    Link: https://arxiv.org/abs/2606.14029

  • 治療薬・疾患関係における適用条件抽出 [cs.AI]目的:治療薬・疾患関係の適用条件
    • 臨床意思決定支援において,薬剤の効果が疾患に現れる条件の特定は不可欠である。
    • 既存手法は薬剤と疾患の関係抽出に偏重しており,適用条件の文脈が無視されている。
    • 薬剤・疾患関係における適用条件を抽出することで,臨床的有用性を高める。
    • 本研究では,薬剤,疾患,適用条件のトリプルを含む初めてのデータセットを構築した。
    • 既存手法の性能評価を行い,LoRAを改良した新たな手法が優れた性能を示した。
    • 提案手法は,様々な評価設定において,強力なベースラインを上回る結果を得た。

    Link: https://arxiv.org/abs/2606.14031

  • 分解すべき箇所は疎に,吸収すべき箇所は密に [cs.CL, cs.LG]目的:活性化における低ランク密構造の吸収
    • 大規模言語モデルの解釈可能性向上は,モデルの動作原理理解に不可欠である。
    • 従来の疎自動エンコーダは,すべての活性化を疎に分解可能と仮定しており,必ずしも最適ではない。
    • 活性化に含まれる密な成分を効率的に吸収することで,疎性に基づく解釈可能性を改善する。
    • Gemma-2-2Bの層12において,ランク24のボトルネックを導入することで,密な潜在変数の数を最大84%削減できた。
    • 吸収された成分は,上位主成分および外れ値次元として構造的に特定可能であり,その除去は次トークンクロスエントロピーを7.5倍に増加させた。
    • 密な成分は,疎な辞書によって冗長にエンコードされており,その除去はMMLUのトピック分類に大きな影響を与えなかった。

    Link: https://arxiv.org/abs/2606.14040

  • 知識グラフを活用したメモリ拡張検索による長文脈モデリング [cs.IR, cs.IR, cs.AI, cs.CL, cs.LG]目的:長文脈言語モデリングにおける性能向上
    • 大規模言語モデルの発展に伴い,長文脈の理解が重要となっている。
    • 単なる意味的類似性だけでは,長文脈におけるエンティティの状態と関係性を維持することが困難である。
    • 文脈特有の知識グラフを動的に構築し,エンティティ間の関係性を活用することで,長文脈理解を改善する。
    • KGERMARは,入力テキストから動的な知識グラフを構築することで,ドメイン適応的な検索を実現している。
    • 実験の結果,KGERMARは,既存のメモリ拡張ベースラインと比較して,最大8.5%低いパープレキシティと2〜2.5倍のメモリ効率を実現した。
    • また,5つのNLUタスクにおいて,優れた文脈内学習性能を示した。

    Link: https://arxiv.org/abs/2606.14047

  • 多視点ガウス過程による非パラメトリックな機械生成テキスト検出 [cs.HC, cs.RO, cs.LG, cs.CL]目的:機械生成テキストの検出
    • 自然言語処理の発展に伴い,機械生成テキストの検出が重要になっている。
    • 言い換えやスタイル変換などの敵対的な状況下で,機械生成テキスト検出の精度が低下しやすい。
    • 複数の特徴量から総合的に判断することで,敵対的攻撃に対するロバスト性を高める。
    • 提案手法は,複数の視点から特徴量を抽出し,ガウス過程アンサンブルで統合することで,敵対的な攻撃に対する耐性を向上させる。
    • 複数のベンチマークにおいて,既存手法よりも高い性能を示し,未知の攻撃に対しても堅牢であることが確認された。
    • ガウス過程の形式により,信頼性の高い確率と分布外入力に対する適切な棄権が可能になる。

    Link: https://arxiv.org/abs/2606.14060

  • 継続学習における破滅的忘却の観点からのバックドア敵対的アンラーニングの再考 [cs.DC, cond-mat.mtrl-sci, cs.LG, cs.AI]目的:バックドア学習とアンラーニングの新たな定式化
    • AIシステムの安全性が重要視される中,バックドア攻撃への対策は不可欠である。
    • 既存のバックドア防御策は脆弱性が多く,特定の攻撃に対しては効果を発揮しない場合がある。
    • バックドア攻撃からモデルを完全に浄化するための条件を,破滅的忘却のメカニズムを通して明らかにする。
    • 本研究では,バックドア学習とアンラーニングを継続学習の3段階プロセスとして捉え,Blind Inversion-Backdoor Adversarial Unlearning (BI-BAU)を提案する。
    • BI-BAUは,アンラーニング条件を満たす敵対的例の生成をブラインド反転問題として定式化し,EMアルゴリズムを用いて最適化する。
    • 実験の結果,BI-BAUは様々なバックドア攻撃に対して有効であり,バックドア効果を徹底的に除去できることが示された。

    Link: https://arxiv.org/abs/2606.14078

  • 確率的動力系埋め込み潜在的遷移行列オペレーターの深層スペクトル学習 [cs.LG]目的:確率的非線形動力系のスペクトル学習手法
    • 複雑な動力系の解析には,低次元潜在空間での表現が不可欠である。
    • 従来の潜在空間学習は,高次元データやノイズに弱く,汎化性能が低い場合がある。
    • 深層学習とスペクトル解析を統合し,ロバストで高精度な潜在空間学習を実現する。
    • 提案手法DSEは,時間不変なニューラルエンコーダーを用いて非線形特徴マップを学習する。
    • 特徴空間における関数正準相関分析により,過去と未来の観測から状態座標を導出し,遷移行列と観測オペレーターを推定する。
    • 実験により,ノイズや部分観測下でも,従来のベイズフィルタやクーマンスペクトルモード分解よりも安定した高性能を示すことが確認された。

    Link: https://arxiv.org/abs/2606.14079

  • Clay-CNNハイブリッド:地滑り検出のためのジオ・ファウンデーションモデルの補助的コンテキスト活用 [cs.CV, cs.AI, cs.LG, eess.IV]目的:地滑り検出におけるジオ・ファウンデーションモデルの有効性検証
    • 災害対応には迅速な地滑りマッピングが不可欠であり,自動化の重要性が高まっている。
    • 地滑りデータは正例が極端に少なく,地滑り検出の自動化は困難である。
    • ジオ・ファウンデーションモデルをCNNに統合することで,地滑り検出の精度向上を目指す。
    • U-NetとClayのハイブリッドモデルが,テストF1スコア64.5±1.8%を達成し,Clay単体(55.2±3.6%)およびU-Netベースライン(59.9%)を上回った。
    • Clayを単独エンコーダーとして使用した場合,U-Netよりも性能が低かったが,補助コンテキストとして注入することで一貫して性能が向上した。
    • ジオ・ファウンデーションモデルは,空間的に詳細な畳み込みアーキテクチャを補完することで,地滑り検出において最も効果的であることが示唆された。

    Link: https://arxiv.org/abs/2606.14081

  • FEMOT:フレームカメラとイベントカメラを用いた多物体追跡 [cs.DC, cs.CV, cs.AI]目的:RGBとイベントデータを活用した多物体追跡手法の評価とベンチマーク
    • 現実世界での物体追跡は,自動運転やロボティクスなど様々な応用において重要である。
    • 従来のRGBカメラは,モーションブラーや低照度環境下で性能が低下する課題があった。
    • RGBとイベントカメラの利点を組み合わせ,よりロバストな追跡を実現することを目指す。
    • FEMOTという大規模なRGB-イベント多物体追跡データセットを構築し,多様なシナリオと属性を網羅した。
    • FEMOTを用いて既存の追跡器を評価し,包括的なベンチマークを確立した。
    • RGBとイベント特徴を周波数領域で融合するFEMOTRという追跡フレームワークを提案し,その有効性を実証した。

    Link: https://arxiv.org/abs/2606.14094

  • 弱結合マルコフ決定過程に対するLyapunov関数に基づくサンプル複雑度解析 [cs.LG, math.OC, math.PR, stat.ML]目的:弱結合マルコフ決定過程およびレストレスバンディットにおける学習のサンプル複雑度
    • 強化学習は,複雑な環境下での最適な意思決定を可能にする重要な技術である。
    • 状態行動空間が指数関数的に増加する場合,従来の学習手法は計算量が膨大になる。
    • 弱結合構造を利用することで,効率的な学習アルゴリズムを開発し,計算量を削減する。
    • 弱結合マルコフ決定過程において,多項式時間でほぼ最適な方策を学習できることを示した。
    • 均一なレストレスバンディットでは,穏やかな構造的仮定の下で,より小さな最適性ギャップを達成できる。
    • Lyapunov関数に基づく新たな解析フレームワークを開発し,真のモデルと経験モデル間のドリフト転移技術を導入した。

    Link: https://arxiv.org/abs/2606.14095

  • 数は既に自身の埋め込みを持っている [cs.LG, cs.AI]目的:数の実値とモジュラー(p進)署名の双方を捉える表現
    • AI分野において,数値を効果的に扱うことは長年の課題であり,その性能向上に不可欠である。
    • 従来の数値表現は,数学的な構造を捉えきれず,AIモデルの学習に課題を残してきた。
    • 本研究は,AIにおける「数の問題」を克服するための原理的な道筋を示すことを目指す。
    • Adelic operation-preserved embeddings (AOE)は,学習を必要とせず,既存のアーキテクチャに容易に組み込むことができる。
    • 代数的組合せのベンチマークにおいて,一貫した性能向上を示し,Weaving Patternタスクで初めて完璧な精度を達成した。
    • AOEは,数値入力が「数学の言語で語る」ような埋め込みを生成し,加法と乗法の構造を保持する。

    Link: https://arxiv.org/abs/2606.14108

  • DTVEM-RE:個人の多段階構造推定のための差分時間変化効果モデルの階層型ランダム効果拡張 [cs.LG, stat.ME]目的:集中的縦断データにおける個人ごとの最適な時間遅延構造の推定
    • 近年,個人の特性に着目した臨床研究が重要視されており,個人差を考慮した分析手法が求められている。
    • 従来の差分時間変化効果モデル(DTVEM)は,全ての個人が同じ時間遅延構造を持つという前提があり,個人差を捉えられない点が課題であった。
    • 本研究では,個人ごとに異なる時間遅延構造を推定できるDTVEM-REを開発し,その有効性を検証する。
    • シミュレーションの結果,DTVEM-RE(ベイズ版)は個人間ばらつきを正確に再現し,高いカバレッジを示した。
    • 実データ分析では,DTVEM-REによる個人ごとの時間遅延効果は,気分項目間で大きなばらつきを示し,既存手法との整合性も確認された。
    • 多段階構造推定において,DTVEM-REは,項目によって最も個人差が見られる時間遅延が変化することを明らかにした。

    Link: https://arxiv.org/abs/2606.14116

  • FactoryLLM:スマートファクトリーにおけるLLM評価のための安全かつオープンソースのAIプラットフォーム [cs.AI]目的:スマートファクトリーにおけるLLMベースの検索拡張生成モデルの評価
    • スマートファクトリーでは,機械の故障診断と復旧が重要であり,効率的な生産維持に不可欠である。
    • 複数の機械のマニュアルに分散した情報を活用することが難しく,迅速な問題解決の妨げになっている。
    • FactoryLLMは,機密データを保護しつつ,複数機械間の文書推論を評価することで,この課題の解決を目指す。
    • FactoryLLMは,ローカルまたはオープンソースのLLMを実行することで,機密性の高い産業データを共有せずに安全な環境で実験することを可能にする。
    • ケーススタディの結果,3つのLLMはいずれも,0.88以上の根拠スコアを達成し,複数機械間の文書推論において有効であることが示された。
    • FactoryLLMのコードとドキュメントは公開されており,コミュニティが自社の製造シナリオでテストできるようになっている。

    Link: https://arxiv.org/abs/2606.14119