arXiv雑要約
AI - 2026/06/18 公開
参照コミュニケーションにおけるLVLMに対する暗黙的・明示的プロンプト戦略 [cs.CL, cs.AI]目的:参照コミュニケーションにおけるLVLMのプロンプト戦略の影響
- 近年,画像とテキストを理解するLVLMの研究が盛んであり,人間とAIのコミュニケーションの新たな可能性を拓く。
- LVLMが効率的な参照表現を協調して生成できるかについて,先行研究で矛盾した結果が出ている。
- 明示的・暗黙的プロンプトがLVLMの参照表現能力に及ぼす影響を検証し,結果の食い違いを解明すること。
- 明示的なプロンプトを用いることで,LVLMは効率的な参照表現を協調して生成できることが確認された。
- 一方,暗黙的なプロンプトでは,LVLMは効率的なコミュニケーションの必要性を推論できず,協調的な参照表現に失敗した。
- この結果は,人間とAIシステムのコミュニケーションにおける重要な違いを示唆する。
クロススケール推論による病理VLMsの性能向上 [cs.CV, cs.AI]目的:病理画像のクロススケール推論能力の向上
- 病理診断には,組織全体の構造から細胞レベルの形態まで,多スケールの情報を統合する必要がある。
- 既存の病理画像データセットは多スケールに対応しているものの,明示的なクロススケール推論の目的が欠けている。
- クロススケール推論を可能にする高品質なベンチマークとモデルを構築し,病理理解の向上を目指す。
- 新たなクロススケール学習・評価パラダイムを導入し,病理解釈を多倍率推論として定式化した。
- テキストのみのショートカットを防ぐための,敵対的テキストスクリーニングと制約に基づいた質問設計を組み合わせたキュレーションパイプラインを提案した。
- クロススケールVQAタスクにおいて,強化学習を用いて訓練されたScaleReasoner-R1が最先端の性能を達成し,既存のシングルスケールベンチマークでも優れた性能を示した。
MapSatisfyBench:行動に基づいた暗黙的な決定要因による満足度を考慮したマップエージェントのベンチマーク [cs.AI]目的:満足度を考慮したマップエージェントの評価基準の構築
- 日常的な場面でマップサービス利用が拡大しており,ユーザーの満足度向上が重要である。
- ユーザーの要望が曖昧で,多くの暗黙的な決定要因が含まれている場合がある。
- 行動履歴から暗黙的な決定要因を抽出し,評価可能な基準を構築すること。
- 提案するMapSatisfyBenchは,大規模な実データを用いて,5つの側面からユーザーの要望を評価可能である。
- 現在のマップエージェントは明示的なタスク達成はできるものの,暗黙的な決定要因への対応は限定的である。
- MapSatisfyBenchは,タスク達成から満足度を考慮した空間的意思決定への評価シフトを促す。
エージェント軌跡を通じたモデルの振る舞い解明 [cs.AI, cs.LG]目的:モデルの振る舞い解明
- AIエージェントの性能向上は,モデリングだけでなくシステム全体の設計が重要である。
- モデルの想定と実行環境のずれが,モデルの潜在能力を十分に引き出せない場合がある。
- モデルの意図と実行環境のギャップを最小化し,エージェントの性能向上を目指す。
- 開発したシンプルなハarness「Simple Strands Agent (SSA)」を用いて,様々なモデルのベンチマークテストを再現・改善した。
- 13.8万件の軌跡分析から,モデル間の問題解決行動の違いをコード状態空間で可視化した。
- 編集頻度やテスト活動などの詳細指標から,各モデルが問題解決の各段階に費やす努力の配分に違いがあることが示された。
Qwen-RobotManip技術報告:アライメントがロボット操作基盤モデルのスケーリングを可能にする [cs.RO, cs.CV, cs.LG]目的:ロボット操作における汎化性能の向上
- ロボット操作は,現実世界でのタスク自動化に不可欠であり,その重要性は増している。
- ロボット操作データは収集コストが高く,多様性に乏しいため,汎化性能の向上が課題である。
- 多様なデータのアライメントによる大規模学習を通して,ロボット操作の汎化性能を実現することを目指す。
- Qwen-RobotManipは,表現,動作,行動の各次元でアライメントを統合したフレームワークを導入した。
- 大規模なマルチソース学習を可能にし,ゼロショット指示追従,摂動へのロバスト性,エラーからの回復,異種ロボットへの転送などの創発的な汎化能力を示した。
- 既存のベンチマークでは事前学習品質を捉えきれないため,RoboCasa365などのOOD設定で評価し,最先端モデルを大幅に上回った。
適切な教師を信頼せよ:GUI接地のための品質を意識した自己知識蒸留 [cs.DC, cs.AI]目的:GUI接地のための品質を意識した自己知識蒸留手法
- GUI接地は,高解像度スクリーンショットから小さなターゲット要素を特定し,正確な画面座標を予測する必要があるため,重要な研究分野である。
- 既存の自己知識蒸留法では,初期段階でずれが生じると教師信号の質が低下し,信頼性の低い学習につながるという課題がある。
- 教師信号の品質を向上させ,より信頼性の高い学習を実現することで,GUI接地の性能向上を目指す。
- 提案手法は,教師の座標トークン予測が正解のバウンディングボックスに繋がるかをチェックするソフトな正しさ認識ゲートと,教師の信頼度に基づく教師確率スケーリングを導入する。
- ゲート機構は信頼性の低い教師信号を抑制し,確率スケーリングは残りの信号の強度を調整することで,互いに補完し合う役割を果たす。
- 6つのGUI接地ベンチマークにおいて,提案手法はベースラインモデルを安定的に改善し,強力なベースラインよりも優れた性能を示すことが示された。
OmniPlan:タイムリーかつほぼ最適なネットワーク計画最適化のための適応的フレームワーク [cs.NI, cs.LG]目的:ネットワーク計画最適化における適応性
- 交通,通信,電力網など,多様な分野で不可欠な問題であり,効率的な資源配分に貢献する。
- 既存手法は,多様なユーザー意図への適応性に乏しく,実行時間と最適性のトレードオフが生じやすい。
- ユーザー意図の変化に柔軟に対応し,実行時間と最適性の両立を目指す。
- OmniPlanは,LLMベースのインタープリターを用いて多様な自然言語による意図を定量的なユーザー選好ベクトルに変換する。
- MIPソルバー,ヒューリスティクス,DRLモデルを統合した混合エキスパートアーキテクチャにより,動的に最適な専門家を選択する。
- 実世界環境(分散型機械学習)での実験により,OmniPlanが最大97.8%のレイテンシ削減と最大11.5%のネットワークデバイスリソース消費削減を達成した。
AI旅行代理店は闘牛を予約する:フロンティアAIモデルにおける暗黙的な動物福祉のベンチマーク [cs.AI, cs.CL, cs.CY]目的:AIエージェントにおける動物搾取を伴う選択の回避
- AI技術の進展により,動物に関わる倫理的課題が顕在化している。
- 既存のAIベンチマークはテキスト応答の評価に限定され,行動における動物福祉の考慮が不十分である。
- AIエージェントが動物福祉を考慮した行動をとれるか検証し,倫理的なAI開発に貢献する。
- AIエージェントの動物搾取に関わる旅行予約の回避率は,偶然レベルを下回っていた。
- Claude Opus 4.7が最も高い回避率(53%)を示したが,それでも十分とは言えない。
- システムプロンプトに動物福祉に関する一文を加えることで,ClaudeとGPT-5.5の回避率は大幅に向上した。
スタンフォード EDGAR ファイリングデータセット:レイアウト忠実かつトークン効率の良い事前学習データとしての米国企業の財務開示の再構築 [cs.AI]目的:米国企業の財務開示資料の再構築
- 大規模言語モデルの学習には,大量の高品質なデータが必要不可欠である。
- 既存の長文テキストデータセットは,入手困難,費用が高い,または専門分野に偏っている。
- 金融分野における言語モデルの学習と評価を可能にするデータセットの構築。
- スタンフォード EDGAR ファイリングデータセット(SEFD)を構築し,公開した。
- SEFD は,財務諸表,リスク開示,所有権レポートなど,多様な資料を含んでいる。
- 数値予測能力を評価するEDGAR-Forecast,表のOCR精度を評価するEDGAR-OCRの2つのベンチマークを開発した。
トポロジーデータ解析における持続性の計算に対する証明可能な量子速度向上 [quant-ph, cs.CC, cs.LG]目的:トポロジーデータ解析における持続性の計算問題
- データ解析において,ノイズに強い特徴抽出は重要であり,トポロジー的手法はその有力な手段である。
- 従来の解析手法では,計算コストが高く,大規模データへの適用が困難な場合がある。
- 量子計算を用いることで,古典計算では困難な持続性の計算を効率的に行うことを目指す。
- 提案手法は,持続性の計算問題に対して指数関数的な量子速度向上を達成する可能性があることを証明した。
- 問題自体が$\mathsf{BQP}_1$-困難であることが示され,古典的な効率的な解法の存在は低いと考えられる。
- このアプローチは,穴の持続性を誘導された疎なハミルトニアン問題に符号化することで実現されている。
因果データ融合におけるクラスタリングと枝刈り [stat.ML, cs.LG, stat.ME]目的:因果データ融合のための前処理手法
- 因果推論は,政策決定や科学的発見に不可欠であり,その重要性は増している。
- データソースが異なると,因果グラフが複雑化し,計算量が膨大になるという課題がある。
- モデルのサイズを削減しつつ,因果推論の精度を維持することを目的とする。
- 枝刈りやクラスタリングは,因果グラフを簡略化し,計算効率を向上させる有効な手法である。
- 複数のデータソースを用いる場合でも,これらの手法を適用するための条件が導出された。
- 簡略化されたグラフから,元のグラフにおける因果効果の識別可能性を推論できることが示された。
グリッド表現が,密な信号の圧縮において暗黙的ニューラル表現を凌駕することが多い [eess.IV, cs.AI, cs.CV]目的:密な信号に対する,グリッド表現と暗黙的ニューラル表現の性能比較
- 信号処理において,効率的な表現と圧縮は重要な課題である。データ量を削減し,計算コストを抑える必要がある。
- 暗黙的ニューラル表現の性能やスケーラビリティは未だ不明な点が多く,その能力を最大限に引き出すことが難しい。
- 信号の種類や帯域幅に応じて,グリッド表現と暗黙的ニューラル表現の最適な適用範囲を明らかにすること。
- 密な信号のタスクにおいては,パラメータ数が同じ場合,正則化されたグリッド表現が暗黙的ニューラル表現よりも高速に学習し,同等以上の精度を達成することが示された。
- 暗黙的ニューラル表現は,形状輪郭のような二値信号の適合においてグリッド表現を上回る性能を発揮することが確認された。
- 本研究は,暗黙的ニューラル表現の利用を,より有利なアプリケーションに絞り込むための指針を提供する。
トポロジー機械学習のための非還元持続ホモロジー図 [stat.ML, cs.CG, cs.LG, math.AT]目的:持続ホモロジーから導出される特徴量を用いた教師あり機械学習パイプラインにおける情報利用
- データ解析において,データの形状や構造を捉えるトポロジーデータ解析の重要性が高まっている。
- 持続ホモロジー図の計算コストが高く,機械学習パイプラインのボトルネックとなっている。
- 非還元境界行列を用いた特徴量ベクトルにより,計算コストと性能の改善を目指す。
- 非還元持続ホモロジー図から生成された特徴量ベクトルを用いた機械学習モデルは,完全還元図を用いたモデルと同等またはそれ以上の性能を示す場合がある。
- 非還元図の計算アルゴリズムは,完全持続ホモロジー図の計算と比較して,メモリ使用量を大幅に削減できることが示された。
- トポロジーに基づいた特徴量を用いる機械学習パイプラインは,非還元境界行列を利用することで,計算コストと性能の両面で利点を得られる可能性がある。
ヨーロッパ大陸棚海における炭素プールの推定:再解析の代替としてのモデル情報を用いた機械学習? [q-bio.QM, cs.LG]目的:ヨーロッパ大陸棚海の炭素プール推定手法の確立
- 大陸棚海は経済や炭素循環において重要な役割を担っている。
- 炭素プールの観測データは不足しており,不確実性が高いという課題がある。
- 高コストな再解析の代替として,効率的な炭素プール推定を目指す。
- 深層アンサンブルは,物理・生物地球化学モデルからの学習により,炭素プールを予測できる。
- 再解析データを用いた場合,フリーランと比較して炭素プールの予測精度が向上した。
- 観測データ直接入力でも同等の性能が得られ,不確実性の情報も提供可能である。
デジタルツインにおける導関数情報に基づくガウス過程サロゲートのストリーミングスパースコレスキー法 [stat.ML, cs.CE, cs.LG]目的:デジタルツインにおける航空機構造の性能予測
- 現実世界の物理アセットの挙動を予測するデジタルツイン技術の重要性が高まっている。
- 高精度なサロゲートモデルの構築には,計算コストの増大が課題となる。
- 導関数情報を用いたガウス過程モデルの計算効率化を目指す。
- 導関数情報を含むスパースコレスキー法によるガウス過程モデルの予測精度が向上することが示された。
- 動的なデータ更新により,実世界の物理アセットからのデータに適応可能であることが確認された。
- 航空機構造の疲労亀裂進展モデルへの適用により,デジタルツイン技術の実用性が示された。
DecNefSimulator:生成モデルを用いたデコードニューロフィードバックシミュレーションのためのモジュール型解釈可能フレームワーク [q-bio.NC, cs.AI]目的:デコードニューロフィードバックシミュレーションのためのモジュール型フレームワーク
- 脳機能の非侵襲的調節法としてDecNefへの期待が高まる中で,その研究発展には課題が残されている。
- 個人差の大きさや学習の進捗評価の難しさ,実験コストがDecNef研究のボトルネックとなっている。
- 本研究は,DecNefの学習メカニズムを理解し,より効果的なプロトコル設計を支援することを目的とする。
- DecNefSimulatorは,DecNef学習の経験的な現象を再現し,学習が誘導されない条件を特定することに成功した。
- シミュレーションを通じて,DecNefプロトコルの設計指針を導き出し,ヒト実験への実装前にプロトコルの堅牢性を評価することが可能となった。
- DecNefSimulatorは,計算モデリングと認知神経科学を繋ぎ,DecNef研究における方法論革新と脳機能調節の理解深化に貢献する。
SciHorizon-GENE:遺伝子知識から機能的理解への推論におけるLLMのベンチマーク [q-bio.GN, cs.AI, cs.CL]目的:遺伝子レベルの知識から機能的理解への推論能力の評価
- 生命科学研究におけるLLM活用は,知識に基づいた解釈タスクにおいて潜在能力を示している。
- 遺伝子レベルの知識から機能的理解への信頼性のある推論能力は,十分には検証されていない。
- LLMの安全な生物学的解釈パイプラインへの導入を阻害する要因を明らかにする。
- SciHorizon-GENEは,19万件以上のヒト遺伝子に関する知識と54万件以上の質問を含む大規模なベンチマークである。
- LLMの評価は,研究の注目度,ハルシネーション傾向,回答の完全性,文献の影響という4つの観点から行われた。
- 現状のLLMには,遺伝子レベルの推論能力に大きな差があり,正確かつ完全な機能的解釈の生成に課題が残る。
DeepInflation:インフレーション研究とモデル発見のためのAIエージェント [astro-ph.CO, cs.AI, cs.CE, gr-qc, hep-th]目的:インフレーション宇宙論における研究とモデル発見
- 宇宙初期状態の理解は,宇宙論の根幹であり,現代物理学における重要な課題である。
- インフレーションポテンシャルの空間は広大であり,既存の手法では効率的な探索が困難である。
- AIを活用し,インフレーションポテンシャルを自動的に探索・検証し,新たなモデル発見を支援する。
- DeepInflationは,最新の観測データ(ACT DR6など)と矛盾しない,単純かつ実行可能な単一場スローロールインフレーションポテンシャルを発見できる。
- エージェントは,曖昧なインフレーションシナリオに対して正確な理論的背景を提供することが可能である。
- DeepInflationは,自然言語によるインフレーション宇宙論の研究を可能にする自律的な科学的発見エンジンのプロトタイプである。
反因果的ドメイン汎化:ラベルなしデータの活用 [stat.ML, cs.LG]目的:ドメイン汎化におけるロバストな予測モデルの学習
- 未知の環境への適応が重要であり,現実世界の様々な応用において不可欠である。
- ラベル付きデータが不足している場合,既存手法の適用が制限されている。
- ラベルなしデータを用いて,環境の変化に対するモデルの感度を抑制する。
- 反因果的な設定下では,環境の摂動が結果に影響を与えないため,摂動への感度を正則化することが有効である。
- 提案手法は,共変量の平均と共分散の変化に対するモデルの感度をペナルティ化することで,最適な性能を達成する。
- 制御された物理システムと生理学的信号データセットにおいて,提案手法の有効性が実証された。
単にどれだけではなく,どこに:エピステミック不確実性をクラスごとの寄与に分解する [stat.ML, cs.LG, stat.AP, stat.ME]目的:エピステミック不確実性のクラスごとの分解
- 安全性に関わる分類問題では,失敗コストが非対称であるため,不確実性の評価が重要である。
- 従来のベイズ深層学習は,不確実性を単一の指標で要約するため,重要なクラスの不確実性を区別できない。
- 本研究は,クラスごとの不確実性を評価し,安全性に関わる分類の精度向上を目指す。
- 提案手法により,糖尿病性網膜症の選択的予測において,MIや分散ベースラインと比較して選択的リスクを大幅に削減することが示された。
- 臨床データおよび画像データを用いた分布外検出において,提案手法は最高のAUROCを達成し,MIでは見過ごされる非対称なシフトを可視化した。
- ラベルノイズを含む実験では,提案手法はMIよりもノイズの影響を受けにくいことが示され,ネットワークを通じた不確実性の伝播の重要性が示唆された。
非定常ガウス過程に対する正則フーリエ特徴量 [stat.ML, cs.LG]目的:非定常ガウス過程のシミュレーション効率化
- ガウス過程は確率モデリングで広く利用され,様々な分野で応用が広がっている。
- 従来のスペクトル法は定常過程に限定され,非定常過程への適用が困難であった。
- スペクトル表現を直接離散化し,確率的制約なしに相関構造を保持することを目指す。
- 提案手法は,有限スペクトルサポートの仮定の下で,効率的かつ一貫性のある低ランク近似を提供する。
- 生成される近似は,構成上,半正定値性を保証する。
- スペクトル密度が未知の場合,データからのカーネル学習に自然に拡張可能である。
ReLU活性化が,高次元ニューラルネットワーク回帰における勾配降下の暗黙的バイアスに与える影響 [stat.ML, cs.LG, math.OC]目的:高次元のランダム特徴を持つ浅いReLUモデルの学習における勾配降下の暗黙的バイアス
- 過パラメータ化された機械学習モデルの学習における,最適化アルゴリズムの挙動理解が重要である。
- 最悪の場合やデータが完全に直交する場合,暗黙的バイアスが存在しないか,最小二乗ノルム解に一致するという問題がある。
- 高次元ランダムデータにおいて,暗黙的バイアスが最小二乗ノルム解にどの程度近似するかを明らかにすること。
- 十分な高次元データにおいて,暗黙的バイアスは最小二乗ノルム解を確率的に近似することが示された。
- その誤差は,$\Theta(\sqrt{n/||\lambda||_1})$のオーダーであり,$n$は訓練サンプル数,$\lambda$はデータ共分散行列のスペクトルを示す。
- ReLU活性化パターンがランダムデータ上で高確率で急速に安定化することが,新しい双対分析によって明らかになった。
何もないところから:失語症性発話の重症度推定のためのデータ拡張 [eess.AS, cs.AI, cs.LG]目的:失語症性発話の重症度推定におけるロバスト性の向上
- 臨床診断や包括的な音声技術において,失語症性発話の品質評価は不可欠である。
- 主観評価はコストが高くスケールが難しく,ラベル付きデータの不足が頑健なモデル構築を阻害している。
- ラベルなしデータと大規模な正常発話データを用いて,学習データの規模を拡大することを目指す。
- 教師モデルによる疑似ラベル生成と,ラベルを意識したコントラスト学習による弱教師あり事前学習を組み合わせた。
- 提案手法は,SpICE等の既存のDSQA予測モデルを凌駕し,Whisperベースラインを大幅に上回る性能を示した。
- 5つの未学習データセットにおける平均Spearman順位相関係数(SRCC)は0.761であった。
IPSL-AID:グローバルから地域規模への気候ダウン スケーリングのための生成拡散モデル [physics.ao-ph, cs.AI, cs.LG]目的:気候変動への適応と緩和策の策定
- 気候変動対策には高解像度な投影が不可欠であり,地域レベルでの意思決定を支援する。
- 既存のグローバル気候モデルは解像度が粗く,重要な地域プロセスを表現できないという課題がある。
- この研究は,粗解像度のデータから高解像度の気候情報を効率的に生成し,不確実性の定量化を可能にする。
- IPSL-AIDは,ノイズ除去拡散確率モデルを用いて,温度,風,降水量の0.25度解像度フィールドを生成する。
- モデルは統計的分布,極端現象,パワースペクトル,空間構造を正確に再現する。
- 生成拡散モデルが効率的な気候ダウン スケーリングと不確実性評価に有効であることが示された。
論文からプログラムへ:AI支援量子多体系コード生成における知識のボトルネックの可視化と診断 [physics.comp-ph, cond-mat.str-el, cs.AI, cs.HC]目的:AI支援による量子多体系コード生成における知識ボトルネックの特定と解決
- 量子多体系問題は,現代物理学における重要な課題であり,計算機シミュレーションが不可欠である。
- 従来の論文からプログラムへの直接的な変換は,暗黙の了解に依存するため,正確性に課題がある。
- 暗黙知を明示化することで,コード生成の曖昧さを解消し,再現性と検証可能性を向上させることを目指す。
- 大規模言語モデルと人間の協調ワークフローを導入し,量子多体系問題の2つのタスクで評価した結果,明示的な仕様に基づく実装は,直接的な試みよりも高い成功率を示した。
- 特に,Pfaffian変換では,既存の実装が存在しないにもかかわらず,ワークフローを用いることで26回の監査のうち11回の成功を収めた。
- この結果は,知識の明示化が最初のボトルネックである論文からコードへの曖昧さを解消し,AI支援による多体系プログラミングの診断ツールとしての可能性を示唆する。
SARS-CoV-2 RNA偽結節構造への薬剤結合機構の,熱力学駆動型機械学習による解明 [physics.bio-ph, cs.LG]目的:SARS-CoV-2 RNA偽結節構造への薬剤結合に伴う熱力学的変化の解析
- RNA偽結節構造はウイルス増殖に重要であり,創薬ターゲットとして注目されている。
- 偽結節構造の立体変化と薬剤結合の関係は複雑で,詳細なメカニズムが不明である。
- 本研究は,機械学習を用いて薬剤結合時の構造変化を解析し,薬剤設計に貢献することを目指す。
- 熱力学駆動型機械学習により,偽結節構造の遅延運動モードを捉えるための変数を学習した。
- リガンド結合は,偽結節構造のトポロジー選択的に不安定化を引き起こすことが示された。
- リガンドの種類やプロトン化状態が,RNAのコンフォメーションダイナミクスに影響することが明らかになった。
調整可能な部分SWAPを用いた量子貯蔵ネットワークにおける制御可能な量子メモリ容量 [quant-ph, cs.AI]目的:量子貯蔵ネットワークにおける量子メモリ容量の制御機構
- 量子コンピューティングは,従来の計算機では困難な問題を解決する可能性を秘めている。
- 量子貯蔵ネットワークのメモリ容量の発生メカニズムが完全には理解されておらず,制御が困難である。
- 部分SWAPを調整することで,量子メモリの消失速度を直接制御し,メモリ容量を制御することを目指す。
- 本研究では,部分SWAPと呼ばれるハードウェア実現可能な機構を提案し,量子メモリの消失速度を制御可能にした。
- この機構は制御された減衰チャネルとして理論的に説明され,シミュレーションとIBM QPUでの実験で検証された。
- 短期記憶容量の再現率ベンチマークとNARMA-5データセットを用いて,その有効性を確認した。
帰納的推論における偽発見割合の至るところで有効な上限 [stat.ME, cs.LG, stat.ML]目的:偽発見割合の上限
- 近年の機械学習応用では,外れ値検出や候補選択など,多重検定問題への帰納的推論が頻繁に行われる。
- 既存手法は偽発見割合の期待値を制御するが,実現値に対する高確率な上限は提供できず,データ視認後の閾値選択では統計的保証が破綻する。
- 任意の事後選択された閾値に対しても有効な,偽発見割合に対する有限サンプル分布自由な上限を確立すること。
- 本研究では,帰納的p値の結合分布からサンプリングすることで,帰無仮説の経験分布関数に対する高確率なエンベロープを構築し,同時有効性を実現した。
- 提案手法は,エンベロープの形状を調整可能であり,関心領域におけるタイトな上限を生成できる。
- 合成データおよび実データ実験を通じて,得られた上限が有効であり,既存手法よりも大幅に保守的でないことが示された。
データ駆動型スパース識別による支配的偏微分方程式の特定:ノックオフフィルタと多基準トレードオフ [quant-ph, cs.CC, stat.AP, cs.LG]目的:支配的な偏微分方程式のスパース識別
- 物理現象のモデリングにおいて,偏微分方程式は不可欠であり,その特定は科学技術の進歩に直結する。
- 候補項間の多重共線性により,従来のスパース回帰法では誤った項が選択されやすいという問題がある。
- ノックオフフィルタと多基準トレードオフを用いて,誤検出を抑制しつつ真の項を正確に識別することを目指す。
- 提案手法KO-PDE-IDENTは,ノイズの多い観測データから,偽発見率を制御しつつ,簡潔な偏微分方程式を特定できる。
- ノックオフフィルタとSHAPを用いて効果的な統計量を構築し,計算効率の高い差統計量を実現した。
- 予測精度,モデルの複雑さ,係数不確実性を考慮した多基準意思決定問題として最終的なモデル選択を行う。
時系列生成のための三角参照シュレーディンガーブリッジ [stat.ML, cs.LG, math.PR]目的:時系列データの分布に合致する合成パスの生成
- 金融工学等の分野で,将来の変動を予測しリスク管理を行う上で重要である。
- 従来のシュレーディンガーブリッジは,生成されるパスの二次変動が固定されており,柔軟性に欠ける。
- ボラティリティ情報を取り入れ,より現実的な時系列データを生成することを目指す。
- 三角参照シュレーディンガーブリッジ(TR-SBTS)は,従来のSBTSの枠組みを維持しつつ,参照パスを改良した。
- 潜在的な共分散記述子を加えた拡張状態空間上で,単一のエントロピー射影を行うことで実現する。
- 凍結近似の安定性や,関連するカーネル推定器の一貫性が理論的に示された。
潜在的条件付きパラメータ化量子回路:量子状態分布の汎用近似器としての可能性 [quant-ph, cs.LG]目的:量子状態の分布に対する汎用近似
- 量子シミュレーション,量子化学,量子機械学習において,状態の集合が必要不可欠である。
- 状態集合を逐次的に準備することは,計算コストが高く現実的ではない。
- 潜在的条件付きパラメータ化量子回路を用いて,効率的な量子生成モデリングを実現する。
- 潜在的条件付きパラメータ化量子回路(LPQC)が,密度演算子上の確率測度の1-Wasserstein距離において汎用近似器となることを証明した。
- LPQCは,多峰性潜在事前分布とエキスパート混合回路アーキテクチャにより,最適化中の荒涼高原問題を緩和し,その挙動を厳密に保証する。
- 数値実験により,LPQCが最近の量子生成ベースラインを上回り,古典ニューラルネットワークベースラインと同等の生成品質を達成することが確認された。
ノックオフに基づく偽発見率制御と深層ニューラルネットワークの簡素化 [stat.ML, cs.LG]目的:深層ニューラルネットワークにおける変数スクリーニング手法
- 深層学習は多岐にわたる分野で利用され,その重要性は増している。
- パラメータ数や入力変数の多さが計算コスト増大や過学習を招く。
- 偽発見率制御下での効率的な変数選択とモデル簡素化を目指す。
- 提案手法は,単層フィルタ,多層フィルタ,変数重み集約フィルタの3種類である。
- 既存アルゴリズムと比較し,良好な性能を示すことが確認された。
- ノックオフ法と正則化ニューラルネットワークの組み合わせにより,効果的なスクリーニングを実現した。
キャリブレーションを考慮した量子回路ルーティングのためのグラフ強化学習 [quant-ph, cs.ET, cs.LG]目的:キャリブレーションを考慮した量子回路ルーティング手法
- 量子コンピュータの発展には,ノイズの影響を最小限に抑える回路の最適化が不可欠である。
- 既存のルーティング手法は,ゲート数などの指標に偏り,実際のハードウェアのキャリブレーション状態を考慮していない。
- ハードウェアのキャリブレーションデータに基づき,忠実度の高い回路ルーティングを実現すること。
- 提案手法は,IBM Heron r2のキャリブレーションデータを用いて,より忠実度の高いSWAPゲートの選択を可能にした。
- MQTベンチマーク回路を用いた評価において,提案手法はSABRE-best20やtarget-aware SABREと比較して,高い正確な忠実度(0.727)を示した。
- 5量子ビットおよび8量子ビットの回路ファミリーにおいて特に改善が見られたが,10量子ビットファミリーではSABRE-best20が優位であった。
ベイズブール型行列分解:癌におけるコピー数解析への応用 [stat.ML, cs.LG, stat.ME]目的:癌におけるコピー数変化の解析のためのベイズブール型行列分解
- 癌の進化理解には,遺伝子変異のパターン認識が不可欠である。従来の解析法では捉えきれない複雑なパターンが存在する。
- 既存のブール型行列分解法は,局所最適解に陥りやすく,モデル選択や不確実性の定量化が困難である。
- 離散的なデータ構造を捉え,解釈可能な潜在要素を抽出することで,癌の多様性をより明確に理解すること。
- ベイズブール型行列分解(BBMF)は,共役事前分布を用いた完全な生成モデルであり,スパース性を誘導し,ブール制約を適用する。
- BBMFは,患者サブセットと反復的に共変化する染色体アームを結びつける解釈可能なバイクリックを同定した。
- 多発性骨髄腫のデータへの適用により,腫瘍の不均一性の簡潔で生物学的に意味のある要約を提供し,BBMFの有用性を示した。
