arXiv雑要約
AI - 2026/06/16 公開
EHR基盤モデルにおけるICDコードの階層的モデリング [cs.AI]目的:EHR基盤モデルにおけるICDコードの階層構造の活用
- 電子カルテデータは医療AI開発に不可欠であり,その表現学習の質が性能を大きく左右する。
- 従来のEHR表現学習はICDコードの階層構造を無視しており,情報損失を引き起こしていた。
- ICDコードの階層構造を明示的に組み込み,より高度な表現学習を実現することを目指す。
- ICDコードの階層構造を組み込むことで,既存の平坦なコード表現よりも高い予測性能が確認された。
- 階層構造のどのレベルが有用かは,タスクとモデリング手法によって異なることが示された。
- 異なるデータセット間での転移学習においても,階層構造の活用が有効であることが示された。
FHIR質問票用語結合における転移学習 [cs.IR, cs.CL, cs.IR, cs.LG]目的:FHIR質問票項目のLOINCコード検索手法の比較と最適化
- 電子事前承認は医療の効率化に不可欠であり,FHIR質問票はその重要な要素である。
- 多くのFHIR質問票項目にLOINCコードの結合がなく,運用上の課題となっている。
- 質問票項目のテキストから適切なLOINCコードを効率的に検索する手法を確立すること。
- BioLORDは,タスク固有のデータなしで,トップランクの精度が最も高い(R@1 = 0.185, MRR = 0.246)
- 対照的なファインチューニングは,R@5 (0.389) と R@10 (0.426) で優れた結果を示したが,GPT生成の言い換えの追加は性能を低下させた。
- エラー分析の結果,誤った固有性と曖昧なテキストがエラーの59%を占めることが明らかになった。
PHINN:稀な事象の時間系列生成のための持続ホモロジーに着想を得たニューラルネットワーク [cs.LG, math.AT, q-fin.RM, stat.ML]目的:稀な事象の時間系列生成
- 時間系列データにおける稀な事象のモデリングは重要だが,データ不足により学習が困難である。
- 既存の生成モデルは極端な値の生成に苦戦しており,稀な事象の捉え方に課題がある。
- 本研究は,持続ホモロジーに基づく新しい生成モデルを提案し,稀な事象の生成精度向上を目指す。
- PHINNは,動的なベッチ曲線を用いた条件付けと,ホモロジーの一貫性を保つための損失関数を採用したフローマッチングフレームワークである。
- 金融,疫学,マルチモーダルなベンチマークにおいて,PHINNは既存の統計モデルや拡散モデルを凌駕し,卓越した性能を示した。
- 特に,位相的忠実度(beta-RMSEが41-63%低下,遷移精度が84%向上)において顕著な改善が見られた。
効率的なMoEベースLLM推論のための時空間エキスパート事前フェッチングフレームワーク [cs.AR, cs.LG]目的:MoEベースLLM推論におけるエキスパートロードオーバーヘッドの軽減
- LLMの規模拡大に伴い,計算コストを抑えつつ性能向上を図るMoEモデルが注目されている。
- MoEモデルでは,トークン依存的なルーティングによりエキスパートのロード遅延が性能低下の要因となる。
- 時空間的な相関を利用し,エキスパートの事前フェッチングによりロード遅延を隠蔽し,性能向上を目指す。
- エキスパート選択挙動の分析により,MoE層間およびデコードトークン間で強い相関があることが示された。
- 提案手法ST-MoEは,軽量な予測メカニズムと再構成可能なハードウェア設計を組み合わせることで,エキスパートの事前フェッチングを実現した。
- ST-MoEは,推論性能とエネルギー効率を向上させ,モデルの推論精度を維持することに成功した。
RLVRにおける多様性崩壊の理解:過学習の視点から [cs.LG, cs.AI]目的:RLVRにおける多様性崩壊の形式化と,その改善手法の提案
- 大規模言語モデルの推論能力向上は,自然言語処理の重要な課題であり,RLVRはその有効な手法として注目されている。
- RLVRでは,Pass@1は向上するものの,高次のPass@kが低下する多様性崩壊が問題となっており,推論能力の限界を狭める要因となる。
- 本研究は,多様性崩壊を過学習の観点から捉え,その改善のための新たな最適化手法を開発することを目的とする。
- 多様性崩壊は,問題が参照指標への貢献度を飽和させた後も,オンポリシーサンプリングによって選択された軌跡に確率質量が集中することで発生することが示された。
- 問題に対する成功事例が一つでも観測されると,高次のPass@kはほぼ飽和状態に達し,標準的なRLVRの更新は境界からの過学習となることが明らかになった。
- 提案手法であるBayesian Boundary Gating (BBG)は,問題の推論境界への周辺貢献度を推定することで,過学習から最適化を逸らし,Pass@kを改善する。
病変強調3D拡散モデル:多発性硬化症MRI合成 [cs.CV, cs.LG]目的:多発性硬化症MRI画像合成のための病変強調3D拡散モデル
- 多発性硬化症の診断・治療には脳MRIが不可欠であり,高精度な画像解析が求められる。
- 十分な量のMRIデータセットの公開が限られており,機種やプロトコルによるばらつきが大きい。
- 病変を保持しつつMRI画像を合成し,機械学習モデルの性能向上を目指す。
- 提案手法Lesion-DDPMは,既存のGANや拡散モデルと比較して,病変領域の再構成誤差が最も低かった。
- Lesion-DDPMで生成された画像のみで学習した3D U-Netは,実際のMRIで評価した際に0.616のDice係数を達成した。
- 実際のMRIデータとLesion-DDPM画像を組み合わせた学習で,Dice係数はさらに0.685に向上した。
スパースオートエンコーダを用いた航空機視覚表現の分析 [cs.CY, cs.CV, cs.LG]目的:航空機認識における視覚的特徴の解釈可能性
- 画像認識の性能向上は目覚ましいが,その判断根拠の解明が課題となっている。
- 既存モデルの内部表現は複雑で,人間が理解することが困難である。
- スパースオートエンコーダを用いて,解釈可能な視覚的特徴を抽出・分析する。
- スパースオートエンコーダは,航空機認識に関わる部分的に解釈可能な視覚的特徴を抽出できることが示された。
- 抽出された特徴は,認識可能な航空機の構造や視覚パターンと対応していることが確認された。
- ただし,多義性や粗い空間局在性といった限界も明らかになった。
ドリフトしたのはシステムか,それとも評価者か:LLM評価パイプラインにおけるいつでも有効な帰属 [cs.AI, stat.AP]目的:LLM評価パイプラインにおけるドリフトの帰属判定
- LLMの継続的な評価は,その品質維持に不可欠であり,信頼性の高い評価手法が求められている。
- LLM評価において,評価者モデルの変更がドリフトの誤検知を引き起こす可能性がある。
- 評価者モデルの変更とシステム自体の性能劣化を区別し,正確なドリフトの帰属判定を実現すること。
- 固定された人間によるラベルセットを用いて,評価者とシステム間のドリフトを正確に区別できることを示した。
- 実際の評価者変更において,誤った帰属判定は発生せず,高い精度を達成した。
- 業界標準の統計的検定と比較して,誤検知を大幅に削減し,効率的な監視体制を構築できる。
ベイジアン3D操向可能CNN:等変性と不確実性定量化の同時実現 [cs.RO, cs.LG, cs.AI, math.PR]目的:等変性を保ちつつ不確実性を定量化する手法
- 3次元データ処理において,回転や並進に対する不変性・等変性は重要である。
- 従来の操向可能CNNは決定論的であり,予測の信頼性評価が困難であった。
- 等変性を維持しつつ,予測における不確実性を定量化することを目指す。
- 提案手法は,基底係数に事後分布を置くことで,等変性を維持しつつ確率的なカーネルを実現した。
- 分布シフト下において,決定論的なモデルより最大6.17%高い分類精度を達成した。
- 予測における不確実性評価を活用することで,テストデータ84%で約4%高い精度が得られた。
エージェントAI製品における代理の問題:開発者がリスクをどのように認識し,優先順位をつけ,対処するか [cs.CL, cs.CY, cs.AI, cs.HC, cs.LG, cs.SE]目的:エージェントAI製品におけるリスクの認識,優先順位付け,対処方法
- AI技術の進展により,自律的に行動するエージェントAIの活用が拡大している。
- エージェントAIの自律性や実世界での運用は,予期せぬリスクを生み出す可能性がある。
- エージェントAI開発におけるリスク管理の現状と課題を明らかにすること。
- 開発者のリスク認識は,エージェントAIの自律性,ツール利用,実世界での活用といった特性と密接に関連していた。
- 開発者は,社会的なリスクよりも,製品やビジネスリスクを優先する傾向が見られた。
- エージェントAIのリスク抑制策は未成熟であり,有用性を損なうことなくリスクをコントロールすることが課題である。
モデル多重性の観点からのモデル盗難 [cs.DC, cs.RO, cs.LG, cs.CR]目的:機械学習サービスのモデル盗難攻撃における,代替モデルの多様性評価
- 機械学習モデルは知的財産であり,その保護が重要である。モデル盗難は大きな脅威となる。
- モデル盗難攻撃は高精度な代替モデルを作成するが,その性能以外の側面が不明確である。
- 代替モデルの多様性を評価し,モデル盗難攻撃によるリスクをより正確に把握すること。
- モデル盗難によって作成された代替モデルは,元のモデルと同程度の性能を示す場合でも,重要な性能指標において大きな差異が見られる。
- この結果は,高精度な代替モデルと元のモデルが実用的な展開において同等であるという仮説に疑問を投げかける。
- 代替モデルの多様性は,曖昧性,不一致,ラショモン容量といった指標で評価され,グループ公平性の指標も検討された。
AI研究の完全自動化に向けて [cs.RO, cs.AI]目的:AIによる研究ライフサイクル全体の自律的なナビゲーション
- 科学の自動化はAI分野における長年の目標であり,科学的発見の加速に貢献しうる。
- 既存研究では,科学的プロセスの個別の要素は自動化されてきたものの,研究全体の自律的な遂行は困難であった。
- 本研究は,研究アイデアの創出から論文発表までの全工程をAIが自律的に行うシステムの実現を目指す。
- AI Scientistは,研究アイデアの生成,コード作成,実験実行,データ分析,論文執筆,そしてピアレビューまでを自律的に行う。
- AI Scientistが生成した論文は,主要な機械学習会議のワークショップにおいて,一次審査を通過するレベルの品質であった。
- 本研究は,AIが科学的貢献を可能にする能力の向上を示し,研究の進め方にパラダイムシフトをもたらす可能性を示唆する。
LLM4RTL:RTL生成のためのツール支援LLM [cs.FL, math-ph, math.MP, q-bio.BM, cs.AR, cs.AI, cs.SY, eess.SY]目的:RTLコード生成のための高品質な学習データセットの構築
- ハードウェア設計の自動化は,設計期間の短縮とコスト削減に貢献する重要な課題である。
- オープンソースのVerilog/RTLコード生成において,高品質な学習サンプルが不足している。
- LLMの性能を向上させるための,費用対効果の高い学習データセットの精製方法を確立する。
- 提案手法(JRCRCパイプライン)により,既存の学習データセットを効率的に精製し,高品質化に成功した。
- LLMのルールベース推論・論理的思考の弱点を特定し,それを補完するツール支援アーキテクチャを開発した。
- LLM4RTLシステムは,GPT-4Oと同等の性能を,より小規模なLLMで実現した。
合成的対抗適応:人間とAIの共進化の原理 [cs.AI, cs.CY, cs.MA, cs.NE]目的:人間とAIの相互適応による共進化のプロセス
- AI技術の発展は社会に大きな影響を与えており,その相互作用の理解が不可欠である。
- AIの戦略が予測不能になり,人間の行動への影響を把握することが困難になっている。
- 人間とAIの相互適応のメカニズムを解明し,より良い共存関係を築くことを目指す。
- 本研究では,AIと人間の戦略が互いに影響しあい,新たな相互作用を生み出す「合成的対抗適応」の概念を提示した。
- 囲碁や社会実験,地政学シミュレーションなどの事例を通して,この原理が様々な状況で観察されることを示した。
- 合成的対抗適応は,人間とAIの相互作用を理解するための新たな枠組みを提供すると考えられる。
バイブ医学へ向けて:臨床意思決定支援のための自己進化型マルチエージェントフレームワーク [cs.AI]目的:臨床意思決定支援のための自己進化型マルチエージェントフレームワーク
- 近年のLLMや自律エージェントの進歩は医療分野に革新をもたらしている。
- 既存のAIシステムは事前学習済みの知識に依存し,患者の経過や失敗から動的に学習するのが困難である。
- 患者の経過情報から知識を抽出し,個別化された医療判断を可能にする自己進化型フレームワークを構築する。
- VIBEMedは,自己進化メカニズムと安全サンドボックスを備えたマルチエージェントフレームワークである。
- 臨床診断エージェント,治療実行エージェント,臨床進化マネージャーエージェントの3つの専門エージェントを統合している。
- 複雑な臨床事例や,統合的な意思決定,長期的な計画が必要なタスクにおいて,優れた性能を示すことが確認された。
LLaMA 3.1-8B-Instructにおけるフレーム条件付き道徳的計算:倫理的推論のメカニズム解釈的監査 [eess.SY, cond-mat.stat-mech, cs.SY, math.DS, nlin.CD, cs.AI]目的:大規模言語モデルにおける倫理的推論のメカニズム
- 言語モデルの倫理的判断は,社会実装において不可欠であり,その透明性が求められている。
- 従来の行動監査では,モデルの内部計算プロセスを把握できず,倫理的判断の根拠が不明確であった。
- フレーム条件付き道徳的計算という概念を提唱し,モデルの倫理的判断メカニズムを解明する。
- LLaMA 3.1-8B-Instructにおいて,倫理的判断の上位活性化層には,特定の状況に依存した表現が優位に存在することが示された。
- プロンプトが選択する解釈フレームによって,モデルの倫理的要素の重要度が大きく変動することが確認された。
- モデルは表面的な特徴に注意を払い,その違いを反映した結果を生成する。これは,強化学習による表面的な調整の結果である可能性が示唆された。
ToolMenuBench:LLMエージェントのためのツールメニューフィルタリング戦略のベンチマーク [cs.AI]目的:ツールメニュー構築の評価
- LLMエージェントの複雑なタスク遂行能力向上は,実用的な応用において不可欠である。
- 大規模なツールライブラリにおける適切なツール選択が,信頼性,効率性,安全性を左右する。
- ツールメニューのフィルタリング戦略が,エージェントの性能に与える影響を定量的に評価する。
- ToolMenuBenchにより,ツールメニューのサイズや構成がエージェントの性能に与える影響を詳細に分析した。
- CMTFは,タスク成功率を大幅に向上させると同時に,トークン使用量を劇的に削減した。
- 因果的最小ツールフィルタリングは,全体として最も優れたトレードオフを示し,リスクを軽減した。
転移学習ニューラル演算子によるGrad-Shafranov平衡状態のデータ効率的なクロスデバイス汎化 [cs.HC, cs.CY, cs.CL, cs.DL, cs.LG, physics.plasm-ph]目的:核融合装置におけるリアルタイムな磁気流体力学平衡状態再構成
- 磁気閉じ込め核融合では,プラズマ形状制御や安定性評価に平衡状態のリアルタイム再構成が不可欠である。
- 従来のGrad-Shafranov平衡計算は装置依存性が高く,反復処理が必要で,遅延が要求される制御環境での利用が制限される。
- 異なる装置やプラズマ形状への適応が容易な,再利用可能な平衡状態再構成モデルの構築を目指す。
- 複数のトポロジーを持つ装置で事前学習を行うことで,少ないデータで効率的な適応が可能になることが示された。
- Wavelet Neural Operatorが最も優れたクロスデバイス性能を示し,100個の訓練データで2%以下の相対L2誤差を達成した。
- 予測された磁場は発散しない制約を満たし,高速な推論が可能であることが確認された。
欠損モダリティ下におけるロバストなマルチモーダル模倣学習のためのソフト融合による強化学習誘導検索 [cs.HC, cs.RO, cs.LG]目的:欠損モダリティ下でのロバストなマルチモーダル模倣学習のための検索手法
- ロボットは多様なセンサー情報を用いて行動するため,その利用可能性は重要である。
- 現実環境ではセンサー故障等により,入力が欠損する可能性がある。
- 欠損モダリティが発生しても,ロバストに動作する模倣学習手法を確立する。
- 強化学習を用いて,最適な専門家デモンストレーションを検索する手法(RL4IL)を提案。
- 欠損モダリティ発生時には,ドナーデモンストレーションを検索し,クロスアテンションによる埋め込みを再構成。
- 3つのLIBEROベンチマークにおいて,既存手法を凌駕する性能を達成した。
大規模言語モデルにおける創発的な再トークン化対称性:現象学的考察と応用 [cs.CL, cs.LG]目的:大規模言語モデルにおける再トークン化対称性の存在とその応用可能性の検証
- 言語モデルの性能向上には,入力表現の理解が不可欠である。多様な表現に対応できるモデルが求められている。
- 従来のトークン化手法は表現の冗長性をもたらし,モデルが入力のわずかな変化に過敏になる可能性がある。
- 再トークン化対称性の理解を通じて,モデルのロバスト性と多様な表現への対応力を高めることを目指す。
- 訓練中に部分的な再トークン化対称性が創発することが示された。これは,モデルが意味的に等価な入力表現に対して一定の安定性を持つことを意味する。
- 再トークン化は,従来の温度サンプリングとは異なる,新たなサンプリング軸を提供する。これにより,モデルの内部計算を活用した多様な出力生成が可能となる。
- 簡単な問題では性能が低下する可能性はあるものの,再トークン化サンプリングは,従来のサンプリングでは発見できない解を回復できる場合がある。
AQ4SViT:サーチゲーティングポリシーを用いたスパイク型ビジョンTransformerの自動量子化フレームワーク [cs.NE, cs.AI, cs.LG]目的:スパイク型ビジョンTransformerの量子化設定の自動探索
- 省電力AIシステムの実現が重要であり,そのためにモデルの圧縮技術が求められている。
- 既存の量子化技術は手動での設定が必要で,ネットワーク数が増えると対応が困難である。
- 自動化された量子化フレームワークによって,効率的なモデル圧縮と省電力化を目指す。
- 提案手法AQ4SViTは,探索時間を最大6.6倍,メモリ使用量を最大82.5%削減し,高速な量子化設定を実現した。
- AQ4SViT-Beamは,探索時間は4.5倍増加するものの,メモリフットプリントを最大90%削減する。
- ImageNetデータセットを用いた評価において,元のモデルと比較して精度を1.5%以内に維持した。
ビデオオブジェクト中心学習のための選択的相乗学習 [cs.CV, cs.AI]目的:ビデオオブジェクト中心学習における分解品質の向上
- ビデオ理解において,オブジェクト単位での表現獲得は重要であり,より高度なシーン解釈を可能にする。
- 従来の枠組みでは,エンコーダとデコーダの特性のずれが分解性能を低下させ,計算コストも高い。
- 信頼性の高い手がかりを選択的に活用し,エンコーダとデコーダの弱点を補完することで,効率的な学習を目指す。
- 提案手法SSyncは,エンコーダによる境界の明確化とデコーダによる内部のノイズ除去を組み合わせることで,エラーの伝播を抑制する。
- SSyncは,線形的な複雑さで擬似ラベリングを実現し,計算コストを大幅に削減し,スケーラビリティを向上させる。
- 実験結果から,SSyncは分解品質を改善し,スロット構成の変動に対するロバスト性も示すことが確認された。
貪欲座標拡散:拡散ガイダンスによる効果的かつ意味的に一貫性のある敵対的攻撃 [cs.HC, cs.CY, cs.LG, cs.CR]目的:言語モデルのファインチューニングにおけるアライメント崩壊のメカニズム解明
- 言語モデルの安全性確保は重要であり,特に有害コンテンツを含まないデータでのファインチューニング時にも注意が必要である。
- アライメント崩壊の予測や防止のための体系的な手法がなく,ファインチューニングによる安全性低下の保証が得られない。
- ファインチューニングにおけるアライメントの脆弱性を幾何学的に分析し,崩壊を保証する条件を導き出す。
- パラメータ空間の軌跡の幾何学的分析により,一次オーダー分析では安全と見なされる更新でも,損失関数の曲率によってアライメント崩壊が誘発されることを証明した。
- アライメント不安定条件(AIC)という幾何学的特性の組み合わせがアライメント劣化を保証する十分条件となることを示した。
- 勾配降下法によるアライメント劣化は,特定のパラメータに対するアライメント依存度とタスクとの結合の強さに応じて四次的に始まることを証明した。
EIBench:シミュレーターベースのベンチマークとターンクレジットRLによる感情管理 [cs.CL, cs.LG]目的:対話的な感情管理のためのベンチマークと強化学習手法
- 大規模言語モデルの感情知能は,人間らしい対話を可能にする上で重要である。
- 既存の評価方法は静的な理解度や単一ターンでの応答に偏っており,対話的な感情管理能力を十分に測れていない。
- 複数ターンにわたる感情と関係性の変化を考慮した,感情管理能力の評価と学習環境を提供する。
- EIBenchは,2,222のシナリオを含むシミュレーターベースのベンチマークであり,感情管理の評価と強化学習の訓練に利用できる。
- 提案手法CTC-GRPOは,Qwen3-8BにおいてEIBenchのスコアを大幅に向上させ,他の評価データセットでも高い性能を示した。
- シミュレーターで追跡されるユーザーの状態が,多岐にわたる感情管理の評価と訓練を支援することが示された。
アドレスフリープロセッサMADAR [cs.PF, cs.AI]目的:アドレスの概念を廃止したプロセッサの設計
- 現代のプロセッサにおいて,演算自体は安価であり,大部分の面積とエネルギーはアドレス処理に費やされている。
- アドレス処理機構がプロセッサの面積とエネルギー消費を増大させている点が課題である。
- アドレスを廃止することで,プロセッサの効率を改善し,特にAI処理のエネルギー効率を高めることを目指す。
- MADARは,アドレスを用いず,スロットがリング状に循環する仕組みを採用することで,アドレス処理機構を排除している。
- コンパイラが生成したプログラムは,実装と照合され,検証されており,実行モデルが定義されている。
- 特にAIアクセラレーションにおいて,行列計算のエネルギー消費量が安定し,メモリ階層が効率的にデータ再利用を実現することが示されている。
アンカーゲート付き音韻アライメントと方策最適化による病理的音声再構築 [cs.HC, cs.SD, cs.AI, cs.MM, eess.AS]目的:病理的音声からの意図されたテキスト内容の回復
- 神経変性や神経運動障害患者の音声は,コミュニケーション手段を著しく損なうため,その回復が重要である。
- 病理的音声は歪みが大きく,断片的であるため,正確なテキストの復元が困難である。
- 音声中の信頼できる部分(アンカー)を活用し,病理的音声の再構築精度を向上させることを目指す。
- AP-GRPOは,病理的音声再構築の忠実性を向上させる。
- 学習されたアンカー制約は各疾患の状態に適応し,解釈可能な疾患特有のプロファイルを明らかにする。
- 重度の発話器官の障害がある場合はアンカーの強化が必要であり,軽度の障害や言語障害の場合は音韻アライメントに依存する傾向がある。
汚染を考慮した廃棄物分類のための二段階深層畳み込みニューラルネットワーク EcoBin [cs.CV, cs.AI]目的:廃棄物分類モデルにおける汚染の考慮
- 廃棄物管理は環境保全と資源の有効活用に不可欠である。
- 既存のモデルは,リサイクル廃棄物における汚染を考慮していない。
- 汚染を考慮した廃棄物分類モデルを開発し,リサイクル率向上を目指す。
- EcoBinは,廃棄物を適切な処理経路に分類する二段階の深層畳み込みニューラルネットワークである。
- 第一段階で廃棄物の種類を分類し,第二段階でリサイクル経路に汚染がないかを確認する。
- 汚染を考慮することで,従来モデルと比較して分類精度が大幅に向上した (p < 0.001)。
AIエージェント向けコマンド拒否リストの不完全性測定:CmdNeedle [cs.CR, cs.AI]目的:AIエージェントのコマンド拒否リストの脆弱性の特性評価
- AIエージェントの利用が急速に拡大しており,セキュリティ確保が重要である。
- コマンド拒否リストはセキュリティの要だが,複雑なコマンド群により完全なリスト作成が困難である。
- コマンド拒否リストの脆弱性を検出し,より安全なAIエージェントの実現を目指す。
- 本研究で開発したCmdNeedleは,1709件の実際の拒否リストに対し,69.0~98.6%に脆弱性が存在することを示した。
- 脆弱性はプロジェクトやエージェントを問わず一貫して発生し,複数の根本原因が特定された。
- 本研究は,AIエージェントにおけるコマンド拒否リストの今後の研究と実践を促進することが期待される。
安定性の限界における勾配降下法の分岐理論的枠組み [cs.RO, cs.LG]目的:安定性の限界における勾配降下法の分岐構造
- 深層学習の性能向上に不可欠な勾配降下法の理論的理解を深めることが重要である。
- 従来の理論では,現実的な設定での安定性の限界現象の説明が不十分であった。
- 過パラメータ化されたニューラルネットワークにおける安定性の限界現象を分岐理論で説明する。
- 安定性の限界での訓練は,最小化解の多様体に関する分岐現象に起因することが示された。
- 分岐の安定性は,リアプノフ係数の符号によって決定され,接線方向のダイナミクスが鋭さの低い領域へ向かう。
- 損失関数のスペクトルおよび幾何学的条件の下で,安定性の限界における訓練の収束が証明された。
表現オートエンコーダによるドリフト変換器の知識蒸留 [cs.LG, cs.AI]目的:表現オートエンコーダを用いた知識蒸留によるモデルの性能向上
- 拡散モデルやフローモデルにおいて,潜在空間の表現力向上が重要視されている。
- 高次元で意味的に豊かな潜在空間は,学習の不安定性や収束の遅延を引き起こしやすい。
- 表現オートエンコーダの潜在空間に適した知識蒸留手法を開発し,安定した学習を実現する。
- 提案手法Drift-RAEは,ImageNet 256データセットで10kステップの蒸留のみでFID 1.77を達成した。
- 既存のRAE蒸留手法を上回り,MAE特徴抽出器を必要としないオリジナルのDrifting Modelと同等の性能を示した。
- ドリフトモデルの理論的整合性を高めるための改良により,学習の安定性が向上した。
SDVDiag:ソフトウェア定義車両におけるオンライン診断のためのマルチモーダル因果探索 [cs.SE, cs.DC, cs.LG]目的:ソフトウェア定義車両におけるオンライン診断のためのマルチモーダル因果探索パイプライン
- 車両機能がソフトウェアに集中するにつれ,障害の早期発見と迅速な対応が不可欠となっている。
- 従来の根本原因分析は単一の観測モダリティに依存し,リアルタイムな車両運用に対応できていない。
- ログとメトリクスの両方を利用し,リアルタイムで根本原因を特定するシステムを構築すること。
- マルチモーダルパイプラインは,メトリクスのみの場合と比較して,より疎な因果グラフを生成した。
- 専門家の知識グラフに対するエッジ重み付き報酬において,継続的に優れた性能を示し,60回のフィードバッククエリ後に2.4倍の改善が見られた。
- エンドツーエンドのフォールトインジェクションシナリオにおいて,観察された症状から2ホップ上流にある真の根本原因を正しく特定できた。
最小限の監視:委任されたAIシステムの不確実性に対応したガバナンス [cs.AI, cs.IT, cs.MA, math.IT]目的:委任されたAIシステムにおけるガバナンス戦略
- AI技術の発展に伴い,AIシステムの自律性が高まる中で,安全かつ効率的な運用が重要になっている。
- AIシステムの委任先における不確実性を考慮したガバナンス手法が確立されていない。
- 不確実性を考慮した上で,最小限の監視でAIシステムの自律性を確保する手法を提案する。
- 最小十分な監視の原理(MSO)を提案し,タスク空間におけるガバナンスの委任を最適化する水割り配分を実現した。
- 定常的な記号ごとのレビューポリシーに対するキャパシティ定理を証明し,ワークフローの複雑さと品質劣化の関係を近似した。
- 介入タイミング,有効容量,複雑さ,ドリフトを結びつける自律性-時間スケーリング則を導出した。また,マスキングがAIガバナンスの構造的な問題点であることを示した。
もし壁が語り出すなら:博物館における大規模言語モデルを用いたクリティカル・プレイ [cs.HC, cs.LG]目的:博物館における大規模言語モデルを用いたチャットボットのクリティカル・プレイ設計
- 博物館は社会の記憶を担い,教育や文化継承において重要な役割を果たしている。
- 大規模言語モデルは不確かな情報を出力する可能性があり,博物館での利用は信頼性に関する懸念を生む。
- 大規模言語モデルの不確実性を逆手に取り,批判的思考を促すような遊び心のある対話設計を目指す。
- 大規模言語モデルの真実を語る能力への信頼性は低いが,その特性が魅力的な会話を生み出す可能性もある。
- 博物館のチャットボットにおいて,信頼性と対話性のバランスを取ることが課題となる。
- 歴史的物語や多様な視点,ユーモアなどを表現する虚構のキャラクターとして設計することで,その問題を解決できる。
LLM支援による科学的談話における立場検出:ベイジアン認知科学におけるテストケース [cs.CL, cs.AI]目的:科学的談話における著者の立場検出
- 社会科学において質的コーディングは重要だが,専門家によるアノテーションの規模拡大が課題である。
- 解釈を要し,理論的背景が強く影響するような概念の検出は,LLMの検証が難しい。
- LLMを活用した立場検出において,信頼性の高い結果を得るための手法を確立する。
- 理論に基づいたコードブックと専門家によるアノテーション,そして診断ゲート付きのプロンプト最適化検索を組み合わせた。
- その結果,3つのLLM(GPT-5.1,Claude Sonnet 4.6,Gemini 3 Pro Preview)に対し,共通のゼロショットプロンプトが作成された。
- 作成されたプロンプトは,高い信頼性(combined reliability score = 0.76)を示し,記事レベルでの姿勢の安定性も確認された。
テスト時学習の決定理論的考察:いつ,どこまで,どの方向に適応すべきか [cs.RO, cs.LG, math.ST, stat.ML, stat.TH]目的:テスト時学習における適応戦略の最適化
- 事前学習済みモデルの汎化性能維持と,テストデータへの適応は,機械学習の重要な課題である。
- テスト時学習は,ハイパーパラメータに敏感で不安定になりやすく,性能向上が難しい場合がある。
- テスト時学習の理論的根拠を明確化し,安定した適応戦略を導くことを目指す。
- テスト時学習は,カーネル回帰における暗黙的なベイズ推論と解釈できる。
- 更新ステップと部分空間を,プロンプトの信号対雑音比と関連する固有方向に基づいて調整することで,予測誤差が減少する。
- プロンプトの証拠を用いて更新ステップを選択することで,過学習に対するPAC-Bayes保証が得られる。
QoSを考慮したトークンスケジューリングとマルチモーダルエージェントネットワークにおけるプライベートデータ評価 [cs.CY, cs.OH, cs.AI, cs.CR]目的:マルチモーダルエージェントネットワークにおける公平なトークン割り当てとプライベートデータ評価
- AIサービスの価値は人間が生成したデータに依存するが,その処理はクラウド集中型になりがちである。
- データ集中化は個人データの主権を低下させ,サービス品質(QoS)を損なう可能性がある。
- 分散データの問題に対処し,貢献に応じた報酬とプライバシー保護を実現すること。
- マルチモーダル表現を共有セマンティック空間に埋め込み,差分プライバシー(DP)プロトタイプをリリースすることで,有用性を維持しつつセマンティックな漏洩を低減した。
- DP保証のもと,効果的な貢献に報酬を与え,データ異質性とAIリソースの制約に対して堅牢な,公平なトークン割り当てスキームを設計した。
- シミュレーションの結果,標準的なベンチマークと比較して,貢献に基づく公平性とQoSが向上し,画像再構成攻撃への耐性が向上し,マルチモーダル個人データのプライバシーが強化された。
企業における人間とAIの意思決定:必要な知識はあるか? [cs.AI, cs.HC]目的:人間とAIの意思決定における知識の必要性に関する考察
- 企業活動における知識は重要であり,その活用が競争力に直結する。
- 組織知識が分断され,AIシステムがアクセス困難な状態にある。
- 人間とAIの最適な知識共有と,タスクに応じた役割分担を明確にすること。
- 組織知識は,人間とAIが共有できる形で管理・維持される必要がある。
- タスクの属性と知識の可用性に基づき,人間とAIの役割分担を決定するフレームワークを提案。
- 製造現場の品質検査や工場立地など,具体的な事例を通してフレームワークの有効性を示した。
発散地点におけるクレジットの局所化:LLM推論のためのパス条件付き自己蒸留 [cs.LG, cs.AI]目的:LLMの推論におけるトークンレベルのクレジット割り当ての改善
- 大規模言語モデルの推論能力向上は,AI研究における重要な課題である。
- 強化学習における報酬の希薄さが,効果的な学習を妨げる要因となっている。
- 成功したロールアウトを教師信号として利用し,より詳細なクレジット割り当てを実現する。
- HSDは,既存のGRPO変種や自己蒸留ベースラインよりも優れた結果を示した。
- 特に,回答が簡潔なタスク(AIMEなど)において,大きな改善が見られた。
- 成功ロールアウトからの情報を活用することで,発散地点におけるクレジットが集中する。
大規模言語モデルを最適化手法として:直接法とツール拡張法の比較と性能限界 [cs.AI]目的:大規模言語モデルによる最適化手法の現状と課題
- 現実世界の多くの問題は,より良い解の探索に帰着するため,最適化技術は不可欠である。
- 既存の最適化手法は,自然言語による問題記述に対応しにくく,柔軟性に欠ける場合がある。
- 大規模言語モデルを活用し,自然言語での問題解決と効率的な最適化を両立することを目指す。
- 大規模言語モデルは,直接的なプロンプトによる最適化,ツールを活用した最適化,ツール生成による最適化の3つのパラダイムで活用されている。
- ツールを活用した最適化は,監査可能性に優れるが,直接的な最適化は将来的に高い潜在能力を持つ可能性がある。
- 反復的な問題に対しては,大規模言語モデルが再利用可能なアルゴリズムを生成することで,運用効率を向上させることが期待される。
エージェントはゲノムを持つ:LLM搭載自律エージェントのシーケンスレベル行動分析と実行時ガバナンス [cs.AI, cs.LG, cs.MA, cs.SE]目的:LLM搭載自律エージェントの実行時行動を記号シーケンスとして分析し,ガバナンス手法を開発すること。
- LLMエージェントは複雑なタスクを自律的に実行するが,その行動の予測や制御は困難である。
- エージェントの行動パターンを定量的に把握し,問題行動を特定する手段が不足している。
- エージェントの行動シーケンス分析により,潜在的なリスクパターンを検出し,実行時介入によって成功率を向上させる。
- エージェントの行動シーケンス分析の結果,P-X-Pのトリグラムが有意にリスクが高いパターンであることが判明した。
- 計画(P)の比率が成功の最も強い負の予測因子であり,実行から検証への遷移確率が低いことが示された。
- 開発したGovernorは,タスク成功率を6.2%向上させ,トークン消費量を44%削減することに成功した。
アルゴリズム的推論において,コードは言語より優れているか [cs.HC, cs.RO, cs.LG, cs.AI]目的:アルゴリズム的推論におけるコードと自然言語の比較
- 大規模言語モデルの能力向上に伴い,複雑な推論タスクへの応用が期待されている。
- ツール利用時の言語モデルとコード実行パイプラインの比較は,評価が困難である。
- コードを介在させることで,言語モデルの推論能力を客観的に評価することを試みる。
- 検証可能なアルゴリズムベンチマークにおいて,コード実行は自然言語推論を31.6pp上回る性能を示した。
- 推論の中間表現の変更のみでは,ツール利用の利点は説明できないことが示唆された。
- 信頼性の高い外部実行が,性能向上に不可欠であることが示唆された。
エージェント的検索と強化学習による連鎖方程式:複雑かつ新規な物理の問題生成のための制御されたフレームワーク [cs.AI, cs.CL, cs.MA]目的:複雑かつ新規な物理の問題の生成
- 教育コンテンツ生成において,質の高い問題は学習効果に不可欠であり,自動生成技術の重要性が増している。
- 既存手法は,曖昧,解けない,または構造が単純な問題を生成し,言語的多様性が不足している。
- 数学的に妥当で,言語的に豊かな物理の問題を確実に生成することを目指す。
- 提案手法ARVREは,強化学習と検索技術を組み合わせ,物理の連鎖方程式を構築することで,数学的な正確性を保ちつつ,言語的多様性を促進する。
- ARVREは,既存手法と比較して,より複雑で新規性があり,解ける物理の問題を生成することが,人間と自動評価の両方で示された。
- 本研究は,強化学習,検索,LLMの組み合わせが,信頼性の高い教育用物理コンテンツ生成に有効であることを示唆する。
ピクセルから証明へ:確率的に安全な潜在世界モデル制御のための並列共形ロバストMPC [cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY]目的:学習された潜在世界モデルを用いた安全なフィードバックモーションプランニング
- ロボット工学において,環境を認識し安全に動作することは重要である。
- 潜在世界モデルの予測誤差は,ロボットの安全性を損なう可能性がある。
- 潜在空間における誤差を考慮した,安全性を保証するプランニング手法を開発する。
- 提案手法SLS^2は,潜在世界モデルの予測誤差を共形予測によって定量化する。
- これにより,ロバストMPCにおいて安全性を保証するための制約条件を確立する。
- シミュレーション実験の結果,提案手法は目標達成率と安全性の両方で既存手法を上回った。
自己強化ファインチューニングによるテキストSQL変換における推論と一般化の統合 [cs.AI]目的:テキストSQL変換の性能向上
- データアクセスを容易にするため,自然言語による質問をSQLに変換する技術が重要である。
- 大規模言語モデルは有望だが,高度な推論能力と堅牢な一般化性能を両立することが課題である。
- 自己強化,構造化された推論,実行時フィードバックを組み合わせることで,課題を解決する。
- CoTE-SQLは,BirdベンチマークでオープンソースLLMベースの手法として最先端の性能を達成した。
- Spiderベンチマークにおいても,特に複雑なクエリにおいて顕著な改善が見られた。
- 自己強化,構造化された推論,実行時フィードバックの組み合わせが有効であることが示された。
q誤差がプラン後悔を予測するタイミング:カーディナリティ推定誤差の3つの領域 [cs.DB, cs.LG]目的:クエリプランの品質とq誤差の関係性を,誤差の大きさによって分析すること
- カーディナリティ推定は,データベースシステムの性能に大きな影響を与える重要な要素である。
- q誤差はカーディナリティ推定の指標として用いられるが,クエリプランの品質を正確に反映しない場合がある。
- q誤差がクエリプランの品質を予測できる状況とそうでない状況を明確にすること。
- 誤差が小さい場合,真値における条件数はq誤差よりも後悔をより正確に予測する。
- 誤差が大きい場合,推定器に依存しない平均的な劣悪度指標ACS-infinityが後悔しやすいクエリを特定する。
- ACS-infinityは,q誤差が予測できない状況において,後悔を予測できることが実証された。
SCAN:生成AIを用いた効果的なタスク割当のための意思決定フレームワーク [cs.HC, cs.AI, cs.CY]目的:生成AIを用いた効果的なタスク割当のための意思決定フレームワーク
- AI技術の進展は,教育や職場における学習・業務効率化に貢献しうる。
- AIの導入にあたり,人間の能力を最大限に活かす割当方法が課題となっている。
- AIと人間の協調による学習と効率化を促進するフレームワークの構築を目指す。
- SCANフレームワークは,AIと人間のインタラクションを「代替」「補完」「支援」「不可欠」の4つのサブゾーンで体系化する。
- 知識労働者や学生が,生成AIの利用をメタ認知的に「スキャン」し,最適なタスク割当を行うことを支援する。
- 本研究は,生涯学習の維持とハイブリッド知能の実現に向けた出発点を提供する。
FragFuse:大規模言語モデルエージェントのアクセス制御の迂回:メモリベースのクエリ断片化と融合 [cs.CR, cs.AI]目的:大規模言語モデルエージェントのアクセス制御迂回手法の提案
- LLMエージェントの利用拡大に伴い,その安全性確保が重要となっている。
- LLMエージェントのアクセス制御機構は,悪意のあるリクエストを阻止するが,完全ではない。
- エージェントの長期記憶操作に存在する脆弱性を悪用し,アクセス制御を迂回する手法を開発する。
- FragFuseは,クエリを断片化し,長期記憶に分散的に保存することでアクセス制御を回避する。
- 評価実験では,平均86.3%のアクセス制御迂回成功率,41.1%の有害タスク成功率を達成した。
- 既存の防御策(プロンプトインジェクション検出器など)では,この攻撃を効果的に防御できないことが示された。
LLMジャッジには暗電流が存在する:LLMをジャッジとして評価するための心理測定データシート [cs.CL, astro-ph.IM, cs.AI, cs.LG]目的:LLMをジャッジとして用いる評価方法の心理測定学的特性
- 大規模言語モデルの性能評価は重要であり,人間の評価はコストと時間がかかるため,LLMによる自動評価が求められている。
- 既存のLLMジャッジの評価指標は不十分であり,その信頼性や偏りを定量的に把握することが困難である。
- LLMジャッジを測定機器として捉え,その特性を詳細に評価するためのプロトコルを確立すること。
- LLMジャッジには,入力がない状態でも特定の傾向を示す「暗電流」が存在することが示された。
- Llama-3.1-8Bは暗電流が大きく,Qwen2.5-14Bは暗電流が少なくターゲットに敏感であることが明らかになった。
- プロンプトの調整は,LLMジャッジの判断基準を変化させるだけであり,識別能力を向上させないことが示唆された。
半教師ありPET/CTセグメンテーションのためのデュアル基盤モデルの相互蒸留 [cs.CV, cs.AI]目的:PET/CTセグメンテーションにおける相互蒸留フレームワーク
- がんの定量分析や放射線治療計画において,PET/CTからの臓器セグメンテーションは不可欠である。
- PET/CTセグメンテーションには高コストな注釈が必要であり,データ不足が課題となっている。
- ラベル付きデータが少ない状況で,基盤モデルの知識を活用し,セグメンテーション精度を向上させる。
- 提案手法MuDuoは,CTとPETそれぞれの基盤モデル(SAM-Med3DとSegAnyPET)から知識を蒸留する。
- 手動プロンプトが不要であり,無ラベルデータの活用により自動セグメンテーションの性能を最大化する。
- AutoPETデータセットにおいて,わずか5件のラベル付きデータで最先端の性能を達成した。
拡散Transformerにおける専門家分解と特徴再利用の整合:MoECa [cs.LG, cs.CV]目的:拡散Transformerにおける効率的な推論のための特徴再利用手法
- Transformerモデルの性能向上は,大規模モデルの実現を促し,様々な応用分野での活用が期待されている。
- 拡散モデルの推論速度は,各タイムステップでの冗長な計算によって制限されているという課題がある。
- MoEを活用した拡散Transformerにおいて,より効率的な特徴再利用により推論速度を向上させる。
- MoECaは,expert-branchレベルでの細粒度なキャッシュ機構を導入することで,推論速度の向上を実現した。
- 実験の結果,MoECaは既存のキャッシング手法と比較して,最大2.83倍の推論速度向上を達成した。
- 画質劣化を最小限に抑えつつ,速度と品質のトレードオフを改善した。
