arXiv雑要約

AI - 2026/06/19 公開

TelcoAgent：3GPPに基づく説明可能性を備えたスケーラブルな5GマルチKPM予測 [cs.AI, cs.LG]目的：5Gおよび次世代通信ネットワークにおけるプロアクティブなネットワーク管理
- 5Gは社会インフラとして重要であり，安定稼働が求められる。そのため，ネットワークの事前予測は不可欠である。
- 既存の機械学習手法は，スケーラビリティと説明可能性に課題があり，実運用への適用が制限されている。
- 本研究は，現場固有の学習を要せず，スケーラブルかつ説明可能なKPM予測を実現し，ネットワークの安定化に貢献する。
- TelcoAgentは，米国のネットワーク運用データを用いて，200セル全てで7種類のKPMに対して高い予測精度を示した。
- 3GPP仕様書から知識グラフを自動構築することで，ドメイン知識に基づいた説明可能性を提供した。
- ネットワークの劣化に対処するための具体的な指示を導き出すことが可能となった。
Link: https://arxiv.org/abs/2606.19821
医療画像における薄い解剖学的構造のセグメンテーション：CSWinUNETR [cs.FL, cs.CV, cs.AI]目的：医療画像における薄い解剖学的構造のセグメンテーション手法
- 医療診断や治療において，正確な解剖構造の把握は不可欠である。特に薄い構造の認識は重要。
- 網膜血管や脳血管，顔の皺など，薄い構造のセグメンテーションはコントラストが低く困難を伴う。
- 既存手法の断片化や微細な分岐の復元失敗を克服し，より高精度なセグメンテーションを実現する。
- 提案手法CSWinUNETRは，長距離の主要軸コンテキストをモデル化し，情報交換を促進するクロス形状ストライプ自己注意機構を採用。
- 微細な詳細を保持するため，マルチ解像度表現から文脈特徴を統合する詳細強調型マルチスケール自己注意モジュールを導入。
- 疎な制御点から信頼性の高いカーブ線状カーネルを再構築するスパース制御動的スネーク畳み込みを提案し，複雑な形状を追跡。
Link: https://arxiv.org/abs/2606.19824
近傍グラフを用いたグラフニューラルネットワークの強化：粉塵発生源予測への応用 [cs.LG]目的：粉塵発生源予測のためのグラフニューラルネットワークの性能向上
- 粉塵嵐は環境と健康に深刻な被害をもたらすため，正確な発生源予測が不可欠である。
- 従来の予測手法では，複雑な時空間的なダイナミクスを捉えるのが困難であった。
- 近傍グラフを用いてGNNの性能を向上させ，よりロバストで正確な予測を可能にすること。
- 近傍グラフ（Delaunay三角形分割，Gabrielグラフなど）をGNNに入力することで，空間的・時間的な関係性を効果的にモデル化できることが示された。
- 近傍グラフを用いたGNNは，ランダムグラフを用いたGNNやLSTMモデルと比較して，粉塵発生源予測において顕著な性能向上を達成した。
- 本研究は，GNNにおけるメッセージパッシングにおいて近傍グラフ表現の重要性を示唆している。
Link: https://arxiv.org/abs/2606.19825
いつ，どこで，どのように：表形式データの自己教師あり学習のための適応的ビン分割 [cs.LG, cs.AI]目的：表形式データの自己教師あり学習における適応的なビン分割手法
- 臨床研究における医療用表形式データは多く存在するが，深層学習の適用は限定的である。
- 信頼できるラベルの取得には専門家の判断が必要であり，コストがかかる。
- 特徴量ごとに，表現学習と連動した分割を学習する手法を提案する。
- 提案手法は，特徴量ごとの粗い分割から細かい分割へ，学習状況に応じて分割を適応的に変化させる。
- 公開されている医療用表形式データセットで，線形プローブおよびファインチューニングの両方で一貫した性能向上を示した。
- 標準化されたプロトコルを持つ医療用表形式データSSLベンチマークを新たに導入し，再現性のある研究を支援する。
Link: https://arxiv.org/abs/2606.19827
言語モデルにおける単一ニューロン制御のための制御窓法則 [cs.CL, cs.LG]目的：言語モデルにおける単一ニューロン操縦の制御性
- 大規模言語モデルの挙動制御は，安全性や倫理的な問題解決に不可欠である。
- 単一ニューロンへの介入が，意図した挙動を制御できる条件が不明確である。
- 単一ニューロン操縦が有効な範囲と限界を理論的に特定すること。
- ニューロンへの介入量と，残差ストリームと介入方向の整合性の関係を示す「制御窓」を定義した。
- この制御窓の枠組みにより，ニューロン介入が挙動を首尾一貫して制御できる条件を予測可能となった。
- 予測された制御上限値の平均絶対誤差は0.14であり，特にバルク層で高い精度を示した。
Link: https://arxiv.org/abs/2606.19831
特徴選択と相互作用を取り入れたニューラル加法モデルおよび基底モデル [cs.LG, cs.AI]目的：ニューラル加法モデルおよび基底モデルにおける計算ボトルネックの解消
- 深層ニューラルネットワークの性能は高いが，解釈性に課題があるため，モデルの透明性が求められている。
- ニューラル加法モデルと基底モデルは解釈性に優れるが，高次元データや特徴量の相互作用を考慮すると計算量が膨大になる。
- 特徴選択機構を導入することで，計算コストを削減し，高次元データにおける特徴量の相互作用の解析を可能にする。
- 提案手法は，従来のニューラル加法モデルおよび基底モデルと比較して，計算効率とモデルサイズの削減に成功した。
- 高次元データセットにおいても，2入力ニューラルネットワークを用いた特徴量の相互作用の捉えが可能となった。
- 実験結果から，提案モデルは最新のGAMと比較して，同等またはより優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2606.19850
プロンプト，計画，抽出：ゼロショットエージェント型LLMによる臨床記録からの肺病理情報抽出ワークフロー [cs.CL, cs.LG]目的：肺切除病理レポートから米国病理学会の13項目にわたる情報を抽出すること。
- 癌の病期分類や腫瘍登録においては，病理レポートからの情報抽出が不可欠である。
- 重要なデータが自由記述形式のレポートに埋もれており，手作業での抽出は労力とエラーを伴う。
- 本研究は，手作業によるアノテーションのコストを削減し，エラーを低減する情報抽出手法を確立する。
- ゼロショットエージェント型LLMは，タスク固有の学習なしに，複雑な関係（病理学的ステージなど）を高精度に抽出可能である。
- 最良のゼロショットモデル（GPT-OSS-20B）は，Micro-F1スコア0.893（再現率0.949）を達成し，最先端の教師ありモデル（GatorTron NER-RE：Micro-F1 0.960）に匹敵する性能を示した。
- オープンソースのゼロショットエージェント型LLMは，肺病理情報の抽出における低コストなソリューションとなり得る。
Link: https://arxiv.org/abs/2606.19852
注意機構を組み込んだ物理情報ニューラルネットワーク [cs.LG, physics.comp-ph]目的：物理情報ニューラルネットワークにおけるニューロンの重要度を動的に再調整するメカニズム
- 物理現象のシミュレーションにおいて，データ駆動型アプローチの重要性が増している。
- 物理情報ニューラルネットワークは初期化に不安定さを抱える場合がある。
- より安定した初期化と，高精度な物理現象の学習を目指す。
- SEA-PINNは，20個のベンチマーク問題のうち17個で，分散が極めて小さく，初期損失を大幅に削減した。
- フーリエ特徴埋め込みや周期関数を使用しないにも関わらず，高周波問題においてTSA-PINNと同等の精度を達成した。
- TSA-PINNにSEA-PINNを統合することで，パフォーマンスが42.49%向上した。
Link: https://arxiv.org/abs/2606.19853
大規模言語モデルは必ずしも可読な言語を必要としない [cs.CL, cs.AI]目的：大規模言語モデルにおける効率的な情報伝達手法の探求
- LLMの性能向上には，効率的な情報伝達が不可欠であるため。
- 自然言語による情報伝達は冗長性が高く，計算コストが高いという課題がある。
- LLM同士のコミュニケーションにおける情報伝達効率を改善すること。
- BabelTeleは，可読性を犠牲にすることで高密度な情報表現を可能にする。
- 元のテキストの27.9%のサイズで99.5%のセマンティックな忠実性を維持できることが示された。
- モデル間転送，エージェントメモリ，マルチエージェントコミュニケーションにおいて有効であることが確認された。
Link: https://arxiv.org/abs/2606.19857
ドブリン曲線 [cs.IT, cs.LG, math.IT, math.PR, math.ST, stat.TH]目的：多方向収縮のより詳細なドブリンに基づく特徴付け
- 情報理論において，収縮性の評価はアルゴリズムの性能やプライバシー保護に重要である。
- 従来のドブリン係数は強い条件を必要とし，係数が0の場合には収縮性の保証が得られない。
- ドブリン曲線を用いて，より広い範囲で収縮性の保証を提供し，応用範囲を拡大すること。
- ドブリン曲線は，マルコフ核の収縮性を，入力分布の集まりにおける発散とパワーの特定のレベルで定量化する非線形関数である。
- ドブリン係数の新しい変分的特徴付けを開発し，ドブリン曲線の様々な性質と制約付きバージョンを定義した。
- これらの結果は，ノイズの多い反復最適化，ノイズの多い回路による信頼性の高い計算，オンライン反復アルゴリズムの差分プライバシー保証などの分野に適用される。
Link: https://arxiv.org/abs/2606.19859
適応確率的自然勾配の並列性能向上のための重み適応 [cs.NE]目的：適応確率的自然勾配における重み適応機構
- ブラックボックス最適化において，確率モデルに基づく進化アルゴリズムの重要性が高まっている。
- 大規模な集団サイズでの並列評価において，適切な重みの設定が課題となっている。
- 本研究は，並列性能向上のために，重み適応機構を導入し，最適化を改善することを目指す。
- 提案手法WA-ASNGは，様々な設定においてPBILやASNGよりも優れた性能を示すことが実験的に確認された。
- WA-ASNGは，25から100までの集団サイズを持つ二値最適化問題において有効であることが示された。
- WA-ASNGは，ノイズが強い環境下でも効率的に機能することが示された。
Link: https://arxiv.org/abs/2606.19861
PSCT-Net：微分逆投影と注意機構による小児頭部CT再構成 [cs.CV, cs.AI]目的：小児頭蓋CT再構成の精度向上
- 小児の頭蓋顔面異常診断にはCTが不可欠だが，放射線被ばくのリスクがある。
- 従来のCT再構成手法では，空間情報を考慮せず，深度の曖昧さや骨境界の劣化が生じる。
- 空間情報を考慮した再構成により，低線量での高精度なCT再構成を実現する。
- PSCT-Netは，微分逆投影により空間的に忠実なボリューム事前情報を確立し，深度の曖昧さを軽減する。
- Attention-Guided Projection (AGP-3D)モジュールは，2D領域と3D位置間の非線形な対応を学習する。
- Bidirectional Mamba (BiM-3D)モジュールは，線形複雑度で長距離ボリューム依存性を捉える。PedSkull-CTデータセットを構築した。
Link: https://arxiv.org/abs/2606.19867
大規模言語モデルに対するブラックボックス不確実性推定手法の体系的評価 [cs.AI]目的：大規模言語モデルの不確実性推定手法に関する体系的評価
- 大規模言語モデルの利用拡大に伴い，出力の信頼性確保が重要となっている。
- API経由での利用が主流となり，内部情報にアクセスできないブラックボックス環境でのUEが課題となっている。
- ブラックボックスUE手法の評価方法が確立されておらず，比較検討が困難な状況を打開する。
- 既存のブラックボックスUE手法を5つのカテゴリに分類し，体系的な整理を行った。
- 4つのモデルと4つのデータセットを用いて24の手法を評価するフレームワークを構築した。
- 候補回答を比較検討する手法や，複数の不確実性指標を組み合わせる手法が有効であることが示された。
Link: https://arxiv.org/abs/2606.19868
ガウス混合モデルにおけるスコアマッチングの勾配降下法のグローバル収束性：逆フィッシャーダイバージェンスを通じて [cs.LG, math.OC]目的：ガウス混合モデルに対するスコアマッチングの最適化特性改善
- 現代の生成モデルや逆問題において，スコアマッチングは重要な学習目標である。
- 従来のフィッシャーダイバージェンス最小化は，初期値依存性や収束不良の問題を抱える場合がある。
- 逆フィッシャーダイバージェンスを用いて，より安定した最適化を可能にすることを目指す。
- 教師分布が単一のガウス分布であり，生徒分布が固定された重みと恒等共分散を持つガウス混合モデルの場合，勾配降下法のグローバル収束性が証明された。
- 教師分布もガウス混合モデルの場合，特定の初期化と平均の分離条件の下で，グローバル収束性が保証された。
- 生徒分布の各成分は最も近い教師成分に収束し，総変動距離における収束条件も示された。
Link: https://arxiv.org/abs/2606.19876
補間に基づく勾配降下法のオラクル複雑性について [cs.LG, math.OC, stat.ML]目的：経験的リスク最小化における勾配降下法のオラクル複雑性
- 機械学習の効率化には，損失関数の滑らかさの利用が重要である。
- 従来の最適化手法では，パラメータ空間の滑らかさが重視されてきた。
- データ空間における滑らかさを利用することで，オラクル複雑性を改善する。
- 提案手法PPI-GDは，等間隔なデータ点でのオラクルクエリと多項式補間により，勾配を近似する。
- データ空間の次元が訓練サンプル数に対して多項式的に小さい場合，PPI-GDは既存の勾配降下法よりも優れた性能を示す。
- 本研究は，多変量テンソル積多項式補間の誤差解析に関する技術を拡張し，補間解析への貢献も期待される。
Link: https://arxiv.org/abs/2606.19878
マルチモーダル概念ボトルネックモデル [cs.CL, cs.CV, cs.LG]目的：深層学習ネットワークの解釈可能性向上
- 深層学習モデルの複雑性から，その判断根拠の理解が重要視されている。
- 既存モデルは，定義済みクラス外への汎化や，意図しない情報漏洩のリスクがある。
- CLIPへのCBMの拡張と，解釈可能なゼロショット分類や画像検索の実現を目指す。
- 提案手法MM-CBMは，画像とテキスト埋め込みを解釈可能な特徴に整列させる二つの概念ボトルネック層を利用する。
- 標準ベンチマーク4つで平均51.26%の精度向上を達成した。
- ブラックボックスモデルの性能を維持しつつ，高い解釈可能性を提供する。
Link: https://arxiv.org/abs/2606.19882
マッチング市場と累積プロスペクト理論：最適かつ敵対的ロバストネス学習へ [cs.LG, stat.ML]目的：多人数多腕バンディット問題における最適性と敵対的ロバストネス
- 行動経済学やリスクに敏感な機械学習において，人間の意思決定モデルの重要性が増している。
- 従来の学習アルゴリズムは，人間の選好を正確に捉えきれていない場合がある。
- 人間の選好をより正確にモデル化し，敵対的な環境下でもロバストな学習を実現する。
- 累積プロスペクト理論（CPT）を用いて報酬を歪ませることで，プレイヤー最適性のリグレット（後悔）を$\mathcal{O}(K\log T \left(\frac{1}{\Delta}\right)^{2/\alpha})$で実現した。
- 腕の数$K$がプレイヤー数$N$よりも大きい場合に，探索時にアクティブな腕の集合を適切に選択することで，リグレットを改善した。
- 敵対的な市場において，CPTをリスク尺度として用いたロバストなアルゴリズムを提案し，対数的なプレイヤー最適リグレットを確立した。
Link: https://arxiv.org/abs/2606.19883
FFinRED：金融LLMの安全性評価のための専門家主導型ベンチマーク生成・評価フレームワーク [cs.CR, cs.AI]目的：金融LLMの安全性評価のためのベンチマーク生成と評価フレームワーク
- 金融分野では，LLMの利用拡大に伴い，セキュリティリスクとコンプライアンス遵守が重要課題となっている。
- 既存の安全性ベンチマークは汎用的なものであり，金融特有のリスクに対応できていないという課題がある。
- 金融分野の規制遵守，詐欺，および信頼毀損といったリスクに特化したLLMの安全性評価を目指す。
- FinREDは，FATFやEU DORAなどの国際基準と，規制回避から複雑な詐欺までの脅威をマッピングする二層構造の分類体系を特徴とする。
- 専門家が定義したスキーマを通じて，金融ドキュメントを文脈に富んだRed-Teamingのための行動プロンプトに変換するスケーラブルなパイプラインを構築した。
- 専門家による検証により，プロンプトの妥当性とリアリティが確認され，既存の評価指標と比較して誤検知率を28%から12%に大幅に削減した。
Link: https://arxiv.org/abs/2606.19887
SL-S4Wave：構造化状態空間モデルを用いた生理波形の自己教師あり学習 [cs.LG, cs.AI]目的：生理波形の表現学習
- 医療データの解析において，心電図などの時系列データは重要である。近年，AI技術による診断支援が期待されている。
- 高サンプリングレートや多チャンネル性，ノイズなどの問題から，長時間の生理信号の解析は困難である。
- 本研究は，構造化状態空間モデルを活用し，生理信号の長距離依存性やノイズ耐性を向上させることで，この課題を解決する。
- SL-S4Waveは，不整脈検出タスクにおいて，最先端の教師あり学習および自己教師あり学習手法を凌駕する性能を示した。
- 少ないラベル付きデータでも高い性能を達成し，ラベル効率の高さが示された。
- 長時間の波形セグメントに対しても堅牢な性能を維持し，複雑な時間的ダイナミクスをモデル化する能力が確認された。
Link: https://arxiv.org/abs/2606.19888
凸損失に対する大域的束縛摂動を用いた敵対的バンディット最適化 [cs.CY, cs.LG]目的：敵対的バンディット最適化における期待後悔の保証
- 機械学習における最適化問題は，様々な分野で重要な役割を担っている。
- 従来のバンディット最適化は，損失関数が凸であることや滑らかであることが前提であった。
- 本研究では，凸かつ$\beta$-滑らかな損失関数に対して，大域的束縛摂動を持つ敵対的バンディット最適化を解析する。
- 摂動予算が明示的に考慮された期待後悔の保証を確立した。
- 標準的なバンディット最適化アルゴリズムを修正し，摂動による追加後悔を抑制する解析を開発した。
- 摂動がない場合，本研究の結果は$\beta$-滑らかな損失を持つ標準的なバンディット凸最適化設定に対する後悔保証に帰着する。
Link: https://arxiv.org/abs/2606.19891
メタ研究者：敵対的仮想環境における自己反省型強化学習による深層研究のスケール拡大 [cs.AI]目的：深層研究エージェントの訓練におけるスケール拡大
- 研究活動の自動化は，情報収集と分析の効率を飛躍的に向上させ，新たな発見を加速させる可能性を秘めている。
- 既存の研究エージェントは，静的な環境や単純なタスク設定に制約され，現実世界の複雑な研究活動に対応できていない。
- 動的な環境と多様なタスク設定を導入し，エージェントの自己反省能力と協調性を高めることで，研究能力の向上を目指す。
- MetaResearcherは，時間的変化と誤情報を加えた仮想環境を導入することで，エージェントに情報源の信頼性評価能力を学習させた。
- 仮説生成や矛盾解決といった，単純な情報検索を超えたタスク設計により，真の研究行動を促進した。
- 自己反省型メタ報酬メカニズムにより，正答率，探索効率，反省の深さ，ツール利用の多様性を同時に最適化し，行動の反復を防いだ。
Link: https://arxiv.org/abs/2606.19893
拡散モデルにおける任意の低次元構造上のスコア近似 [cs.LG]目的：拡散モデルにおけるスコア近似の理論的基盤
- 生成モデルの性能向上に不可欠な拡散モデルの理論的理解。
- 既存研究は，滑らかさなどの制約下であり現実データに適用困難。
- 任意のコンパクト集合上の分布に対するスコア近似を可能にする。
- 本研究では，ReLUネットワークを用いて次元数$d$に対して指数的な複雑度でスコア近似が可能であることを示した。
- この結果は，既存の理論と合わせて，拡散モデルが不規則なデータ構造に適応することを示す。
- これにより，現実世界の生成タスクにおける拡散モデルの能力を説明できる。
Link: https://arxiv.org/abs/2606.19894
偏微分方程式を解くための高速直接ソルバーに基づくニューラルネットワーク [math.NA, cs.LG, cs.NA]目的：偏微分方程式の求解のためのニューラルネットワークの学習
- 大規模なシミュレーションにおいて，計算コストが課題となるため，効率的な解法が求められている。
- 階層行列の構造を利用した高速ソルバーでは，行列の近似精度と計算時間のバランスが課題である。
- ニューラルネットワークを用いて，階層行列の逆演算を学習し，高速かつ高精度な解法を提供する。
- 本研究では，HODLR行列の高速直接ソルバーを学習するニューラルネットワークを提案した。
- 提案手法は，線形および非線形偏微分方程式（非線形シュレーディンガー方程式，バーガース方程式など）に対して有効であることを示した。
- 従来の数値ソルバーと比較して，推論時間の短縮が確認され，他のニューラル演算子学習ネットワークとの比較でも良好な結果が得られた。
Link: https://arxiv.org/abs/2606.19895
AIエージェントの生物学的能力とリスクの測定 [cs.RO, cs.DB, cs.IR, cs.CY, cs.AI]目的：AIエージェントの生物学的能力とリスクに関する信頼性のある証拠の生成と解釈
- AI技術が科学研究に浸透する中，その能力と潜在的リスクの評価は喫緊の課題である。
- 評価結果の解釈は，設計選択に大きく依存するが，その選択はしばしば不明確である。
- 評価の定義，設計，実施，評価方法，記録における選択がリスク評価に与える影響を明らかにする。
- AIを活用した生物学的リスクに関する既存の証拠を整理し，生物学的エージェント評価の重要性を示す。
- 評価結果の解釈には注意が必要であり，政策立案者への適切な情報提供が不可欠である。
- AI-生物学評価研究への投資を促進し，バイオセキュリティの実践者を支援することが求められる。
Link: https://arxiv.org/abs/2606.19899
マルチエージェント透過的記憶 [cs.AI, cs.CL, cs.IR]目的：エージェント間での知識共有
- 多様な能力を持つLLMエージェントの分散配置が進む中で，異質なエージェント間での知識共有基盤が重要である。
- エージェントが生成した軌跡は再利用可能な手続き的知識を含むが，多くの場合破棄され，学習の効率が低い。
- エージェント生成の軌跡を共有・再利用することで，タスク実行性能の向上と試行錯誤の削減を目指す。
- MATMは，エージェントが生成した軌跡を共有リポジトリに保存・検索するフレームワークである。
- 実験の結果，MATMから軌跡を検索することで，タスクのパフォーマンスが向上し，インタラクションステップが減少した。
- MATMは，オープンなエージェントエコシステムにおける集団レベルでの経験共有のための設計パターンとして期待される。
Link: https://arxiv.org/abs/2606.19911
ポアソン・ネルンスト・プランクおよびポアソン・ネルンスト・プランク・ナビエ・ストークス系の構造指向ランダムニューラルネットワーク [math.NA, cs.LG, cs.NA, physics.comp-ph]目的：ポアソン・ネルンスト・プランク(PNP)系とポアソン・ネルンスト・プランク・ナビエ・ストークス(PNP-NS)系の数値解法
- イオン輸送現象の理解は，生体システムや半導体デバイスの設計において重要である。
- 従来の数値解法は計算コストが高く，複雑な形状への適用が困難である。
- ランダムニューラルネットワークを用いることで，効率的な数値解法を開発し，計算コストを削減する。
- 構造指向ランダムニューラルネットワーク(SO-RaNN)フレームワークを開発し，PNP系とPNP-NS系の解法に適用した。
- 濃度変数の正値性確保と質量保存を実現するため，適切な補正手法を導入した。
- PNP-NS系では，構造保存型ランダムニューラルネットワークを用いて，速度場の非圧縮性を満たす解を得た。
Link: https://arxiv.org/abs/2606.19912
共同ポリシー：音楽パフォーマンスのための応答型人間・ロボット共同創造 [cs.AR, cs.RO, cs.AI]目的：人間とロボットの音楽共同創造のためのフレームワーク
- 芸術は人間の創造性を表現する重要な手段であり，AIによる創造活動への応用が期待される。
- ロボット音楽共同創造において，音楽の意味理解とリアルタイムな物理実行を結びつけることが困難である。
- 音楽的・物理的な制約下で，ロボットが人間と補完的な音楽応答を生成することを可能とする。
- Co-policyは，意味意図の接地，制約付きの音楽的バリエーション，視覚運動実行を分離する。
- 事前推論セマンティックアンカーとF-Qwenプランナーを用いて，音声や視覚情報から共同創造計画を生成する。
- Gaussian-Mixture Visuomotor Policy (GMP)により，ターゲットノートと視覚的文脈からロボットの行動を生成する。
Link: https://arxiv.org/abs/2606.19914
ADaPT：効率的な大規模推論モデルのためのトークンレベルの分離 [cs.ET, cs.LG]目的：大規模推論モデルにおける効率と性能のトレードオフの制御
- 大規模言語モデルの推論能力は重要だが，計算コストが課題となっている。
- 既存手法では，効率化のために推論能力が低下することがある。
- トークンレベルで効率と正解を分離し，効率的な推論を可能にすること。
- ADaPTは，推論の高速化と低コスト化を実現し，性能を維持する。
- モード選択トークンにより，効率と性能のバランスを調整できる。
- 単一のモデルで効率性と性能のパレート最適解をスムーズに移動できる。
Link: https://arxiv.org/abs/2606.19919
深層アンフォールド協調 [cs.RO, cs.LG, cs.MA]目的：分散最適化におけるハイパーパラメータの動的調整
- マルチエージェントロボティクス問題解決において，高い拡張性と構造的透明性を持つ。
- 問題特有のハイパーパラメータ調整が必要で，汎用性に乏しい。
- ADMM-DDPのハイパーパラメータを最適化し，汎用的な性能向上を目指す。
- Deep Coordinatorは，ADMM-DDPのハイパーパラメータをリアルタイムで調整する深層アンフォールドフレームワークである。
- 従来のソルバーと比較して，6.18〜9.44倍高速に，同程度の品質の軌跡を生成する。
- 訓練規模の最大8倍のシステム規模でも性能を維持できる。
Link: https://arxiv.org/abs/2606.19920
eCNNTO：トポロジー最適化を加速する汎用性の高いConvNet [cs.AI]目的：要素ベースの畳み込みニューラルネットワークによる密度法トポロジー最適化の高速化
- 構造最適化は，軽量化や性能向上に不可欠であり，設計効率が求められている。
- 従来のトポロジー最適化は計算コストが高く，特に高解像度設計ではボトルネックとなる。
- 近隣要素間の空間的相関を考慮し，最適化の効率化と設計の信頼性向上を目指す。
- 提案手法eCNNTOは，残差結合を用いたCNNにより，既存手法の課題である切断された特徴の発生を抑制した。
- 最終段階の密度履歴を用いる新しい学習戦略により，学習データ量を削減し，最適化効率をさらに向上させた。
- eCNNTOは，様々な境界条件，荷重条件，設計領域形状，メッシュ解像度に対して高い汎化性能を示し，最大97%の反復回数の削減を達成した。
Link: https://arxiv.org/abs/2606.19921
自律性の道：自律的AI，埋め込み型主体性，そして自己の解体 [cs.AI]目的：自律的AIにおける，自己目標生成と主体性の探求
- AI研究は，人間社会の課題解決や効率化に貢献し，その重要性は増している。
- 既存のAIは外的な目標に依存しており，自律的な目標生成のメカニズムが不明である。
- 自己目標生成と主体性の関係を解明し，AIの自律性を高めることを目指す。
- AIが自己目標を生成する場合，内発的動機，資源駆動型事前分布，因果介入学習，恒常性維持，埋め込み性などが重要となる。
- 埋め込み性は主体性を確立する上で必要だが，自己の定義は一意ではなく，複数の解釈が許容される。
- 自律的AIの根本的な課題は，目標の生成だけでなく，目標を帰属させる「自己」の相対化にある。
Link: https://arxiv.org/abs/2606.19924
空間認識型削減フレームワーク：効率的かつ忠実な視覚状態空間モデルに向けて [cs.RO, cs.RO, cs.HC, cs.MA, cs.CV, cs.AI]目的：視覚状態空間モデルの効率性と忠実性を向上させるための空間認識型削減手法
- 視覚情報処理において，長大な系列データの効率的な処理は重要な課題である。
- 構造化されたMambaモデルにおいて，トークン削減を行うと性能が著しく低下する。
- 既存の削減手法が空間構造を考慮していない点を改善し，性能低下を防ぐ。
- 提案手法STORMは，空間構造を維持する削減フレームワークであり，既存の削減パイプラインに容易に組み込める。
- STORMは，様々なVision Mambaバックボーンにおいて，トレーニングなしで最先端の精度を達成した。
- 特にVMambaにおいて，従来の技術を最大63.3％上回る精度回復を実現し，PlainMambaと同等の性能を示した。
Link: https://arxiv.org/abs/2606.19932
セマンティックセグメンテーション産業応用におけるアノテーションプロセスの高速化 [cs.CV, cs.AI]目的：セマンティックセグメンテーションにおけるデータアノテーション効率の向上
- 機械学習モデルの性能はデータ量に依存するため，大規模アノテーションデータの整備が不可欠である。
- アノテーション作業は複雑化するにつれて人的エラーが増加しやすく，ボトルネックとなりやすい。
- 半教師あり学習等を用いたアノテーションの効率化により，産業材料科学における課題解決を目指す。
- 教師なしアルゴリズムの活用により，アノテーション時間を170時間から37時間へと，約78%削減することに成功した。
- 高解像度画像(1280x959, 960x703)を対象としたセマンティックセグメンテーションにおいて，効率化の効果が実証された。
- 鋼の微細構造セグメンテーションのための大規模な公開データセットを構築・共有し，分野への貢献と新たなベンチマークを提供した。
Link: https://arxiv.org/abs/2606.19934
PhysDrift：ヒューマノイドの共語運動生成における具現化ギャップの解消 [cs.AI]目的：ヒューマノイドの共語運動生成における具現化整合性の向上
- ヒューマノイドロボットの自然な人間との対話には，表現豊かで物理的に実行可能な共語運動が不可欠である。
- 既存の手法は人間を基準とした表現を用いるため，ロボットの制約下での具現化の一貫性が損なわれる場合がある。
- 本研究は，人間中心のアプローチに頼らず，ロボット固有の表現で直接共語運動を生成することを目指す。
- 提案手法IK-EERは，リターゲティング時の運動の実現可能性と音声との時間的整合性を最適化し，ロボット固有の運動データを整備する。
- PhysDriftは，人間表現を介さず，直接ヒューマノイドの関節軌跡を予測することで，具現化の一貫性を維持し，物理的な安定性を向上させる。
- 実験により，提案手法が音声と運動の同期，物理的な妥当性，運動の滑らかさ，リアルタイムインタラクション能力を大幅に改善することが示された。
Link: https://arxiv.org/abs/2606.19935
光学的フロー学習における普遍的な制約としての三角整合性 [cs.CV, cs.AI]目的：光学的フロー学習のための三角整合性
- 画像処理において，物体の動きを正確に捉える光学的フローは，自動運転やロボット工学等の応用において不可欠である。
- 既存手法では，ネットワーク構造や学習データに依存した制約が課されており，汎用性に課題があった。
- 本研究は，そのような制約に依存せず，より普遍的な光学的フロー学習を可能とする手法を提案する。
- 提案手法である三角整合性は，光学的フローの幾何学的性質に基づき，追加の計算コストや注釈なしに導入可能である。
- 実験により，教師あり学習，教師なし学習，転移学習といった様々な設定において，性能向上が確認された。
- 本手法は，ネットワーク構造や学習方法に依存しない汎用的な光学的フロー学習のコンポーネントとして機能する。
Link: https://arxiv.org/abs/2606.19938
組成性は狭い深さ-接続性領域で現れる：アーキテクチャ制約と解空間 [cs.LG]目的：組成性の創発
- 汎化性能の基盤と考えられ，モデルが意味のある基本要素を再利用可能にする。
- 標準的な勾配降下法では，組成的な内部構造がほとんど見られず，その理由が不明。
- 特定の深さと接続性を持つネットワークで組成性を引き出す方法を模索。
- 組成性は，狭い接続性と深さの範囲において現れることが示された。
- 疎なネットワーク構造と特定の深さが組成性の出現に重要である。
- 類似性に基づくプルーニングと深さ予測器により，組成的な解空間を発見・活用できる。
Link: https://arxiv.org/abs/2606.19941
GEMS：幾何学的制約がLLMにおける多義的重ね合わせを可能にする [cs.CL, cs.LG]目的：LLMにおける多義的な意味方向の重ね合わせによる崩壊の抑制
- 大規模言語モデルの制御は，様々なタスクにおいて重要な役割を担う。
- 複数方向からの意味情報を重ね合わせる際に，モデルが性能を低下させる崩壊が起こりうる。
- 幾何学的制約を用いることで，モデルの崩壊を防ぎ，多義的な重ね合わせを実現する。
- GEMSは，活性化状態のノルムを維持する重み付き重ね合わせと標的注意経路注入により，分布ずれを抑制する。
- GEMSは，リアルタイム直交化により，意味ベクトルの方向干渉を軽減する。
- GSM8KとWikitext-2での実験により，GEMSが性能劣化を最小限に抑えながら複数方向の情報を注入できることが示された。
Link: https://arxiv.org/abs/2606.19946
自動埋め込み対話拡張によるDialNavの発展 [cs.AI]目的：対話型ナビゲーションにおける訓練データ不足の解消
- 物理的相互作用を持つエージェントにおいて，安全かつ効果的な行動のためには対話能力が不可欠である。
- DialNavは包括的な評価フレームワークを提供するが，訓練データが2千エピソードと極めて少ないという課題がある。
- 既存のVLNデータセットを活用し，大規模な訓練データセットRAINbowを構築することで，この課題を解決する。
- 提案手法により，DialNavのVal Seenにおける成功率が大幅に向上し，従来のベースライン比で+89%となった。
- 同様に，Val Unseenにおいても成功率が+100%と，大幅な改善が見られた。
- Dual-Strategy TrainingやVLN知識を活用した定位モデル等の組み合わせが，性能向上に貢献している。
Link: https://arxiv.org/abs/2606.19948
マルチモーダルLLMにおける信頼度校正：医学的VQAを通じた実証研究 [cs.CG, cs.CV, cs.AI]目的：医学的VQAにおけるマルチモーダルLLMの信頼度と精度の関係性分析および信頼度校正手法の提案
- 医療分野におけるAI活用が進む中，LLMの信頼性は診断精度に直結するため重要である。
- LLMの出力に対する信頼度と実際の精度が乖離しており，誤診や適切な助言の見落としが懸念される。
- マルチモーダルLLMの信頼度を改善し，医療現場でのより安全で信頼性の高いAI活用を可能とする。
- 提案手法であるMS-FBIと専門家LLMによる評価の組み合わせが，医療VQAデータセットにおいてECEを平均40%削減することを示した。
- 本研究は，医療分野におけるLLMの信頼度校正の重要性を強調し，AI支援診断の信頼性向上に貢献する。
- ドメイン特化型の信頼度校正は，医療におけるLLMの活用において不可欠であることが示唆される。
Link: https://arxiv.org/abs/2606.19950
地図一般化のためのグラフベース深層学習：建物フットプリントの簡略化と集約からの洞察 [cs.LG]目的：地図一般化における建物フットプリントの簡略化と集約
- 地図は社会基盤であり，情報伝達に不可欠。多様な縮尺で利用可能な地図作成が重要。
- 手作業による地図一般化は時間と労力がかかる。自動化技術の確立が課題。
- 深層学習を用いたグラフ構造に基づく新しい地図一般化手法の可能性を探る。
- グラフニューラルネットワーク(GCN, GAT, GraphSAGE)を建物データセットで評価した結果，GraphSAGEがリンク予測において優位性を示した。
- ノード移動予測の精度向上には課題が残るものの，集約が簡略化よりも複雑であることが示された。
- データ不均衡や後処理の必要性などの限界はあるものの，深層学習による地図一般化の新たな方向性を示唆する。
Link: https://arxiv.org/abs/2606.19956
エッジにおけるTsetlin Machine推論のための低消費電力Reduced RISC-V命令セットプロセッサ [cs.LG, cs.AR]目的：Tsetlin Machine推論のためのドメイン特化型RISC-Vマイクロプロセッサアーキテクチャ及び設計フロー
- エッジAIの普及に伴い，低消費電力で効率的なハードウェア実装の重要性が増している。
- 既存のTsetlin Machineアクセラレータは，柔軟性やプログラミングの容易さに課題がある。
- RISC-Vを基盤とし，Tsetlin Machine推論に特化した命令セット削減により，効率的なエッジAIシステムを実現する。
- Tsetlin Machineは，CIFAR-2において最大88.18%の精度を達成し，Binarized Neural Network (BNN)の60.0%を上回る結果を示した。
- 本設計は，複数のデータセットにおいて最大98%の実行時間短縮を実現した。
- 平均してエネルギー消費量を29.7倍削減し，プログラマブルかつ効率的なエッジAIシステムへの貢献を示す。
Link: https://arxiv.org/abs/2606.19964
ROSE：マルチモーダルモデルにおける知覚と行動のギャップのベンチマーク [cs.CV, cs.AI]目的：マルチモーダルモデルにおける知覚と行動のギャップの評価
- 視覚情報を基にした行動が求められる場面が増加しており，モデルの信頼性評価が重要である。
- 同じ視覚情報でも，タスクの文脈によって異なる行動が必要であり，その一貫性に課題がある。
- 視覚的証拠を文脈に応じた行動に変換する際のモデルの能力を定量的に評価すること。
- ROSEベンチマークは，視覚シーンを固定し，領域制約と必要な記号的出力を変化させることで，モデルの文脈適応能力を評価する。
- 9つの最新MLLMにおいて，カウントタスクから領域条件付きアクションタスクへの性能低下が最大44.5％に達した。
- このギャップは，モデルの共有視覚的証拠を文脈固有のアクションに変換する際のボトルネックを示している。
Link: https://arxiv.org/abs/2606.19965
セマンティックアンカーに基づく証拠融合によるドメインロバストな全スライド生存率解析 [cs.CV, cs.LG]目的：全スライド画像を用いた，ドメインに依存しない生存率予測モデルの構築
- 病理診断において全スライド画像は不可欠であり，その解析精度向上は臨床的意義が大きい。
- 既存手法は，染色やスキャナの違いに影響されやすく，異なる臨床センター間での汎化性能が低い。
- セマンティック情報を活用することで，ドメイン依存性を低減し，汎化性能の高い生存率予測を実現する。
- 提案手法SAEFSは，Visual Question Answeringを用いてセマンティックアンカーを抽出し，画像情報と融合する。
- 単一ドメインで学習し，4つの未知ドメインで評価した結果，既存モデルを平均C-indexで10.2%上回る性能を示した。
- セマンティック特徴は，ピクセル特徴と比較して，臨床センター間のばらつきが有意に小さく，ロバスト性が高いことが確認された。
Link: https://arxiv.org/abs/2606.19966
アルゴリズムと人間のマネージャー：インドのギグエコノミーにおけるAI，アプリ，そして労働者 [cs.RO, cs.CY, cs.AI]目的：インドのギグエコノミーにおけるAIとデジタル技術の影響
- ギグエコノミーは雇用形態の多様化を促す一方，新たな課題も生み出している。
- アルゴリズムによる管理は不透明性が高く，労働者の権利保護が課題となっている。
- アルゴリズムと人間のマネジメントを組み合わせた，公正なAIガバナンスモデルの構築を目指す。
- AIシステムは仕事へのアクセスを拡大し，効率性を高める一方で，公平性，透明性，労働者の尊厳に関わる課題を提起している。
- アルゴリズムシステムは不透明であり，不公平な結果を生み出し，追加の労働に見合った報酬を与えない傾向がある。
- 技術的効率性と人間の説明責任が協力し合う，アルゴリズムと人間のマネージャーというハイブリッドなガバナンスモデルを提唱する。
Link: https://arxiv.org/abs/2606.19975
ENPIRE：実世界における自律的ロボットポリシー改善 [cs.AI]目的：実世界におけるロボットの器用な操作の自動改善
- 汎用的な物理知能の実現には，ロボット操作の自動化が不可欠である。
- ロボット操作の高度化には，人間による監督やアルゴリズムの設計がボトルネックとなっている。
- 実世界でのポリシー改善のフィードバックループを自動化することで，この課題を解決する。
- ENPIREフレームワークにより，コーディングエージェントがロボットのポリシーを自律的に改善できることを示した。
- 難しい操作タスク（ピンボックス整理，結束バンド固定，道具の使用など）で，99%の成功率を達成した。
- ロボットチームを用いることで，改善プロセスをさらに加速させることができた。
Link: https://arxiv.org/abs/2606.19980
コルモゴロフ＝アルノルド・リザバーコンピューティング [cs.LG]目的：力学系の予測における軽量な枠組み
- 力学系の予測は，科学技術の様々な分野で不可欠であり，その重要性は高い。
- 従来のRCは，長距離依存関係の捕捉が難しく，表現能力に限界がある場合がある。
- コルモゴロフ＝アルノルドの定理に基づき，表現能力を維持しつつ効率的な学習を可能にする。
- KARCは，既存のリザバーコンピューティング手法と比較して，偏微分方程式などの難易度の高いベンチマークで優れた性能を示した。
- KARCは，テキストから画像生成のための生成拡散モデルと統合することも可能である。
- 本研究は，リザバーコンピューティングとKANsの間の原則に基づいた架け橋を確立し，高精度な力学系予測を実現する。
Link: https://arxiv.org/abs/2606.19984
LLM学習における正式な保証付きオンライン動的バッチ処理 [cs.DC, cs.LG]目的：LLM学習におけるスループット向上と安定性確保
- 大規模言語モデル(LLM)の学習は計算資源を大量に消費するため，効率的な学習手法が求められている。
- 従来のバッチ処理は，前処理後のサンプルコストを考慮せず，パディングやメモリ使用量に影響を与えていた。
- 前処理コストを考慮した動的なバッチ処理により，学習効率と安定性を改善することを目指す。
- 提案手法であるODBは，既存のStandard Batchと比較して，シングルノード環境で1.58～2.51倍，デュアルノード環境で1.71～3.78倍のスループット向上を達成した。
- 学習品質はStandard Batchと同等であり，MM-Mixデータセットでは最大4.43倍のスループット向上が確認された。
- オフラインのトークン予算オラクルと比較しても，UltraChat/LLaVAデータセットでは15%以内，ShareGPT4oでは2.24～3.69倍の高速化を実現した。
Link: https://arxiv.org/abs/2606.19989
具現化された世界モデルにおける報酬の主体性 [cs.AI]目的：世界モデルの改善における報酬の役割
- 現実世界の複雑な状況を理解し，制御するための基盤技術として重要である。
- 探索範囲が狭く，多様な行動や動的な発見が限定されるという課題がある。
- 報酬ハッキングを防ぎ，より広範な探索を可能にする堅牢な検証戦略を確立すること。
- 報酬を主体として評価を行うことで，報酬ハッキングを抑制し，より信頼性の高い報酬信号を得る。
- 行動空間の多様性を明示的に拡大することで，状態行動カバレッジを広げ，より豊かな具現化された行動を促進する。
- 堅牢な検証と多様なサンプリングを組み合わせることで，複数のオープンソース世界モデルにおいて高い精度向上を達成した。
Link: https://arxiv.org/abs/2606.19990
静的エンドポイントを超えて：柔軟なエージェント型ウェブサービスのインターフェースとしてのツールプログラム [cs.SE, cs.AI]目的：エージェント型ウェブサービスにおけるツール利用の効率化
- LLMエージェントの普及に伴い，ウェブサービスとの連携が不可欠となっている。
- 既存のインターフェースは静的エンドポイントが主流で，複雑なワークフローの表現が困難である。
- ツールプログラムを用いることで，多段階のサービス連携を効率的に表現し，性能向上を目指す。
- ToolProは，ツール意図を効果タイプ付きの実行可能なツールプログラムとして表現する。
- 制約に基づくプログラム構築，効果を考慮したリプレイ，そしてプロファイルに基づくポリシーを用いる。
- 実験の結果，エンドツーエンドの待ち時間が最大53.4％，クライアントサイドのトラフィックが最大96.1％削減された。
Link: https://arxiv.org/abs/2606.19992
活性と影響を考慮したランク（AIR）：LLMのための関数保持SVD圧縮 [cs.LG]目的：大規模言語モデルのSVD圧縮手法
- LLMの巨大化に伴い，計算資源とメモリ消費量が課題となっている。
- 従来のSVD圧縮では，モデル性能の低下が避けられない場合がある。
- 活性と影響を考慮し，関数保持性を維持した圧縮を目指す。
- AIRは，SVD-LLM(W)と比較して，18%以上のperplexity改善を60%以下のパラメータ保持率で実現した。
- AIRは，SVD-LLM(W)と同等の性能を，約90%少ないキャリブレーションデータで達成した。
- AIRは，パラメータ削減をFLOP，ピークメモリ，トークンごとのレイテンシの改善に変換した。
Link: https://arxiv.org/abs/2606.19993