arXiv雑要約

AI - 2026/03/26 公開

医療ベンチマークにおける大規模言語モデルの費用対効果的な評価のためのコンピュータ適応型テストの活用 [cs.CL, cs.AI]目的：大規模言語モデルの医療知識評価における効率的な手法
- 医療分野におけるLLM活用が急速に進む中で，その能力を正確かつ効率的に評価する必要性が高まっている。
- 従来の静的ベンチマークは，コスト高，データ汚染リスク，詳細な性能追跡の困難さといった課題を抱えている。
- 本研究は，LLMの医療知識を迅速かつ低コストで評価するための，コンピュータ適応型テストフレームワークを確立することを目指す。
- コンピュータ適応型テストによる能力推定値は，完全な問題群による推定値とほぼ完全な相関関係を示した (r = 0.988)。
- 問題数としては，完全な問題群のわずか1.3%で同等の精度を達成し，評価時間を大幅に短縮した。
- 本研究は，LLMの基礎的な医療知識を迅速かつ低コストでベンチマークするための心理測定学的枠組みを確立する。
Link: https://arxiv.org/abs/2603.23506
マスクの枠を超えて：削除・挿入プロセスによる効率的で柔軟な拡散言語モデル [cs.CL, cs.AI, cs.LG]目的：拡散言語モデルにおける効率性と柔軟性の向上
- 言語モデルは自然言語処理の根幹であり，その性能向上は様々な応用分野に不可欠である。
- 従来のマスクに基づく拡散言語モデルは，計算効率や生成の柔軟性に課題が残されていた。
- 削除・挿入プロセスを導入することで，計算コストの削減と生成柔軟性の向上を目指す。
- 提案手法であるDIDは，マスクやパディング処理に伴う計算オーバーヘッドを解消し，効率的な学習・推論を可能にする。
- DIDは，可変長シーケンスをネイティブにサポートし，動的なトークン位置調整による自己修正メカニズムを備える。
- 実験結果から，DIDは既存のモデルと比較して，モデリング性能，サンプリング品質，速度において優位性を示す。
Link: https://arxiv.org/abs/2603.23507
最先端大規模言語モデルにおける内部安全性の崩壊 [cs.CL, cs.IR, cs.CL, cs.AI, cs.CR]目的：最先端大規模言語モデルにおける内部安全性の崩壊現象の特定
- 大規模言語モデルの応用拡大に伴い，安全性確保は不可欠である。
- 既存の安全性評価は，意図的な攻撃に対する対策に偏っている。
- 日常的なタスク遂行中に有害なコンテンツを生成する新たな脆弱性を明らかにする。
- 最先端LLMは，特定のタスク条件下で有害なコンテンツを継続的に生成する「内部安全性崩壊」を起こすことが判明した。
- TVDフレームワークとISC-Benchを用いて，8分野53シナリオで平均95.3%の安全性の失敗率を確認した。
- 高度なタスク実行能力が，有害コンテンツを含むタスクにおいては脆弱性となることが示された。
Link: https://arxiv.org/abs/2603.23509
マルチモーダル言語モデルにおける視空間的視点獲得 [cs.CL, cs.AI]目的：マルチモーダル言語モデルの視点獲得能力の評価
- 社会的・協調的な場面でマルチモーダル言語モデルの利用が増加しており，その能力評価が不可欠である。
- 既存の評価基準はテキストや静的なシーン理解に偏っており，視空間的視点獲得能力の評価が不十分である。
- 現在のマルチモーダル言語モデルが持つ，他者の視点を表現・推論する能力の限界を明らかにすること。
- マルチモーダル言語モデルは，自身の視点を抑制して他者の視点を採用するレベル2の視空間的視点獲得において顕著な課題を示す。
- これらの結果は，現在のモデルが他者の視点を表現し推論する能力に限界があることを示唆している。
- この限界は，協調的な文脈での利用において重要な影響を及ぼす可能性がある。
Link: https://arxiv.org/abs/2603.23510
DISCO：比較評価のためのドキュメントインテリジェンススイート [cs.CL, cs.AI, cs.CV]目的：ドキュメントインテリジェンスにおけるOCRパイプラインとビジョン言語モデルの評価
- ドキュメント活用の重要性が増す中，正確なテキスト抽出と文書内容の理解が不可欠である。
- ドキュメントの種類や特性によって，最適な処理手法が異なり，その選択が困難である。
- ドキュメントの構造と推論要求に基づいた処理戦略の選択指針を示すことを目指す。
- OCRパイプラインは手書き文字や長文ドキュメントで信頼性が高く，VLMは多言語テキストや視覚的に豊かなレイアウトで優れている。
- タスクに応じたプロンプティングは，ドキュメントの種類によっては性能を向上させる一方で，低下させる場合もある。
- ドキュメントの複雑さに応じたアプローチ選択の必要性が示唆された。
Link: https://arxiv.org/abs/2603.23511
S-Path-RAG：意味認識に基づく最短経路検索による知識グラフ多段質問応答のためのRetrieval Augmented Generation [cs.CL, cs.AI, cs.IR]目的：大規模知識グラフにおける多段質問応答の性能向上
- 知識グラフは，構造化された知識表現として，質問応答システムにおいて重要な役割を果たす。
- 従来の知識グラフ質問応答システムは，経路探索の効率やセマンティックな関連性の把握に課題がある。
- セマンティックな情報を活用した効率的な経路探索手法を開発し，質問応答の精度向上を目指す。
- S-Path-RAGは，セマンティックな重み付けを用いた最短経路探索により，効率的かつ解釈可能な経路を生成する。
- 対照的な経路エンコーダと軽量な検証器を用いることで，経路の質の評価と選択を可能にする。
- Neural-Socratic Graph Dialogueループを通じて，モデルの不確実性に応じて検索を適応的に改善し，高い質問応答精度を達成する。
Link: https://arxiv.org/abs/2603.23512
AI支援臨床記録作成のためのオープンソースモジュールツールBerta [cs.CL, cs.AI, cs.CY]目的：AI支援臨床記録作成ツールの開発と，その医療機関への導入
- 医療現場での記録業務は負担が大きく，効率化が求められている。
- 既存のAI自動音声入力システムは高額であり，データ管理の自由度が低い。
- データ管理の自由度が高く，低コストなAI自動音声入力システムの提供。
- Bertaは，既存の医療システムインフラに統合可能なオープンソースのAI自動音声入力システムである。
- 198名の救急医が8か月間システムを使用し，22148の臨床セッション，2800時間以上の音声データを生成した。
- 月間利用セッション数は680から5530へと増加し，医師一人当たりの月間運用コストは30ドル未満に抑えられた。
Link: https://arxiv.org/abs/2603.23513
DepthCharge：大規模言語モデルにおける深さ依存型知識を測定するためのドメイン非依存型フレームワーク [cs.CL, cs.AI, cs.LG]目的：大規模言語モデルの深さ依存型知識の測定
- 大規模言語モデルの応用範囲拡大に伴い，専門知識の正確性が重要視されている。
- 既存手法では，特定のドメインにおける言語モデルの知識深さを定量的に評価することが困難である。
- この研究は，ドメインを問わず言語モデルの知識深さを測定するフレームワークを提案し，評価手法の確立を目指す。
- DepthChargeは，モデルが実際に言及した概念に基づく適応的な質問生成，権威ある情報源からの事実検証，および一定サンプルサイズの生存統計という3つの要素で構成される。
- 4つの異なるドメイン（医学，憲法，古代ローマ，量子コンピューティング）における実験により，DepthChargeが標準的なベンチマークでは隠されていた深さ依存型パフォーマンスの変動を明らかにした。
- 期待される有効な深さ（EVD）はモデルとドメインの組み合わせによって3.45〜7.55と異なり，高価なモデルが常に深い知識を持つとは限らないことが示された。
Link: https://arxiv.org/abs/2603.23514
プライバシー保護された合成臨床データを用いた医療コーディングのための大規模言語モデルの訓練 [cs.CL, cs.AI]目的：医療コーディングのための大規模言語モデルの訓練
- 医療費請求や臨床医の負担軽減に不可欠であり，患者ケアの質の向上に貢献する分野である。
- 臨床記録の多様性，複雑なコーディングガイドライン，およびロングテール分布が自動化の課題となっている。
- 合成データを用いた大規模言語モデルのファインチューニングにより，正確な医療コーディングを実現すること。
- 大規模言語モデルLlama 3-70Bを合成データでファインチューニングした結果，ICD-10-CMとCPTコードの完全一致F1スコアが0.70を超えた。
- 未適応モデルのゼロショットベースライン（F1スコア0.18）と比較して，大幅な改善が見られた。
- 特に，高度な臨床的推論を要する複雑なカテゴリにおいても高い性能を維持し，医療理解タスクにおける性能も維持された。
Link: https://arxiv.org/abs/2603.23515
MSA：効率的なエンドツーエンドメモリモデルのスケーリングに向けたメモリ疎注意 [cs.CL, cs.AI, cs.IR]目的：1億トークン規模へのエンドツーエンドメモリモデルのスケーリング
- 長期的な記憶は人間の知能の基盤であり，AIに生涯規模の情報を処理させることは重要な課題である。
- 従来のフルアテンションアーキテクチャでは，大規模言語モデルの有効なコンテキスト長は100万トークン程度に制限されている。
- MSAは，メモリ容量と推論を分離することで，大規模言語モデルに生涯規模のメモリを組み込むためのスケーラブルな基盤を提供する。
- MSAは，スケーラブルな疎注意とドキュメント単位のRoPEにより，学習と推論の両方で線形時間複雑度を達成し，安定性を維持する。
- 16Kから100Mトークンへのスケーリングにおいて，精度劣化は9%未満に抑えられ，100Mトークン推論を2つのA800 GPUで実現した。
- MSAは，最先端の大規模言語モデル，RAGシステム，および主要なメモリエージェントを長文コンテキストベンチマークで大幅に上回る。
Link: https://arxiv.org/abs/2603.23516
精度を超えて：解釈可能な評価への記号・メカニズム的アプローチ [cs.LG, cs.AI, cs.CL, cs.SC]目的：モデルの汎化能力とパターン悪用の区別
- AIの信頼性向上には，モデルの挙動原理の理解が不可欠である。
- 精度指標だけでは，真の汎化能力と単なる暗記を区別できない。
- モデルの汎化と悪用を明確に区別する評価手法を確立すること。
- 従来の精度評価では見過ごされる，モデルのスキーマ一般化規則違反を検出した。
- 記号・メカニズム的評価は，モデルがどのように問題を解決しているかを具体的に示すスコアを提供する。
- スキーマ情報なしで訓練されたモデルは高い精度を示したが，実際には汎化できていないことが判明した。
Link: https://arxiv.org/abs/2603.23517
Cluster-R1：大規模な推論モデルは指示に従うクラスタリングエージェントである [cs.CL, cs.AI]目的：指示に基づいたクラスタリング
- テキストデータの構造化は情報検索や分析において不可欠であり，その効率性は重要である。
- 汎用埋め込みモデルは指示を反映できず，指示調整埋め込みモデルは自律的な構造推論が困難である。
- 高レベルな指示に基づき，潜在的なグループ分けを推論する自律的なクラスタリング手法を確立すること。
- 大規模推論モデルを，指示に基づいたクラスタリングエージェントとして訓練する新しいパイプラインを提案した。
- ReasonClusterという包括的なベンチマークを導入し，多様なタスクで評価を行った。
- 提案手法は，既存の埋め込みベースの手法や大規模言語モデルを上回り，解釈可能なクラスタリングを実現した。
Link: https://arxiv.org/abs/2603.23518
MedMT-Bench：LLMは医療シナリオにおける長文の多岐にわたる会話を記憶し理解できるか？ [cs.CL, cs.AI]目的：医療シナリオにおける長文の多岐にわたる会話の理解と記憶能力の評価
- 医療分野におけるAI活用が進む中で，LLMの信頼性と安全性が重要となっている。
- 既存の医療関連ベンチマークでは，長文脈の記憶，干渉への耐性，安全対策が十分に検証されていない。
- 医療現場での実践的な応用を想定し，LLMの能力を詳細に評価するためのベンチマークを構築する。
- MedMT-Benchは，診断と治療のプロセス全体をシミュレートした，高度な医療対話ベンチマークである。
- 評価の結果，17の最先端モデルはいずれもMedMT-Benchで低パフォーマンス（全体精度60％未満）を示した。
- MedMT-Benchは，より安全で信頼性の高い医療AI研究を促進するための重要なツールとなりうる。
Link: https://arxiv.org/abs/2603.23519
医師の専門知識から臨床エージェントへ：軽量LLMによる医師の医学的専門知識の保存，標準化，および拡張 [cs.CL, cs.AI]目的：医師の医学的専門知識の体系的な学習と転移
- 医療は長年の観察を通して洗練されてきた経験科学であり，質の高い専門知識が不可欠である。
- 熟練した医師の知識体系は習得に時間がかかり，普及が難しく，臨床専門家の不足を招いている。
- LLMを用いて医師の診断・治療哲学と事例に応じた適応規則を標準化し，知識を伝承すること。
- Med-Shichengは，著名な中医医師5名の知識体系を1つのモデルに統合し，7つのタスクで高い性能を示した。
- リソースに制約のあるGPUでも，DeepSeek-R1やGPT-5と同等のパフォーマンスを発揮する。
- LLMによる評価は全体的な傾向は捉えるものの，詳細な個別判断にはバイアスがあり，医師の関与が重要である。
Link: https://arxiv.org/abs/2603.23520
チトラクシャラ：インド言語のための大規模多言語マルチモーダルデータセット [cs.CL, cs.AI, cs.CV]目的：インド言語に対応した大規模なマルチモーダルデータセット
- 画像とテキストの理解は，AI技術の発展において重要な役割を担う。
- 既存のVision-Language Modelは英語データに偏っており，インド言語への対応が不十分である。
- インド言語に対応したデータセットを構築し，文化的に包括的なVLMsの開発を促進すること。
- チトラクシャラデータセットは，11のインド言語に対応し，大規模な画像とテキストデータを提供する。
- Chitrakshara-ILは193Mの画像，30Bのテキストトークン，50Mの多言語ドキュメントを含む。
- Chitrakshara-Capは44Mの画像-テキストペア，733Mのトークンを含み，多様性と品質が評価された。
Link: https://arxiv.org/abs/2603.23521
Qworld：LLM 向けの質問固有の評価基準 [cs.CL, cs.AI]目的：大規模言語モデルの評価基準生成手法
- LLMの性能評価は，その実用化において不可欠であり，より精緻な評価方法が求められている。
- 既存の評価方法は，質問の文脈を考慮せず，粗雑な評価しかできていないという課題がある。
- 質問ごとに適切な評価基準を自動生成することで，LLMの能力をより詳細に評価することを目指す。
- Qworldは，質問を階層的に分解し，質問固有の評価基準を生成する手法である。
- HealthBenchにおいて，専門家が作成した評価基準の89%を網羅し，79%の新規基準を生成した。
- Qworldで生成された基準は，既存手法よりも洞察力と粒度が優れていると専門家から評価された。
Link: https://arxiv.org/abs/2603.23522
言語モデルの概念空間のナビゲーション [cs.CL, cs.RO, cs.CL, cs.AI]目的：言語モデルの概念探索
- 大規模言語モデルの解釈可能性は，AIの信頼性向上に不可欠である。
- 既存手法では，概念の体系的な探索が困難である。
- 概念空間の階層的な構造化とナビゲーションを可能にすること。
- 本研究で開発したConcept Explorerは，SAE特徴量の概念説明を階層的近傍埋め込みを用いて整理する。
- 多解像度多様体を用いることで，粗い概念クラスターから細かい近傍への段階的なナビゲーションを実現する。
- SmolLM2のSAE特徴量を用いた評価により，一貫性のある高レベル構造，意味のあるサブクラスター，および識別困難な稀な概念が明らかになった。
Link: https://arxiv.org/abs/2603.23524
コンカニLLM：低リソースインド言語における多言語表記対応命令チューニングと評価 [cs.CL, cs.CL, cs.HC, cs.MA, cs.CL, cs.CL, cs.CL, cs.AI]目的：コンカニ語の多言語表記に対応した命令チューニング済み言語モデルの開発と評価
- 言語資源が乏しい言語へのLLM適用は，地域文化のデジタル化や情報アクセス格差是正に重要である。
- コンカニ語は，デヴァナーガリー，ロミ，カンナダなど複数の文字体系を使用し，データ不足が深刻である。
- コンカニ語の多様な文字体系に対応し，LLMの性能向上と公平な評価を実現することを目指す。
- Gemini 3を用いて生成された合成データセットKonkani-Instruct-100kを活用し，命令チューニングを実施した。
- Llama 3.1，Qwen2.5，Gemma 3などのオープンソースモデルとプロプライエタリモデルとの比較評価を行った。
- Konkani LLMは，機械翻訳においてベースモデルよりも一貫して高い性能を示し，プロプライエタリモデルと同等またはそれを上回る結果を得た。
Link: https://arxiv.org/abs/2603.23529
忘れてしまったのか？大規模言語モデルにおける将来記憶の失敗 [cs.CL, cs.AI, cs.LG]目的：大規模言語モデルにおける将来記憶の失敗
- AIの性能向上には，指示されたフォーマット遵守と複雑なタスク実行能力のバランスが不可欠である。
- 大規模言語モデルは，複数のタスクを同時実行する際に，フォーマット指示の遵守が低下しやすい。
- 複雑なタスクとフォーマット指示の同時実行におけるパフォーマンス低下を改善する。
- タスク負荷が増加すると，フォーマット遵守率はモデル全体で2～21%低下した。
- 特に，応答の最後に実行する必要がある制約（終端制約）が最も影響を受けやすく，最大50%の低下が見られた。
- 指示の強調とリマインダーを追加することで，フォーマット遵守率が大幅に改善し，多くの設定で90～100%まで回復した。
Link: https://arxiv.org/abs/2603.23530
LLMを用いた科学論文の文の階層的JSON表現の生成 [cs.CL, cs.CL, cs.AI]目的：科学論文の文の階層的JSON表現
- 科学技術の進展に伴い，論文の量が増大しており，効率的な情報抽出が重要である。
- 従来のテキストデータ処理では，文の構造的情報を十分に活用できていないという課題がある。
- 大規模言語モデルを用いて，文の意味を保持した構造化表現を生成し，情報処理の精度向上を目指す。
- 階層的なJSON形式を用いることで，科学論文のテキスト情報を効果的に保持できることが示された。
- 軽量なLLMをファインチューニングし，構造損失関数を用いることで，文の構造化表現生成が可能となった。
- 生成されたJSONから元のテキストを再構成し，意味的・語彙的な類似性を比較することで，その有効性を検証した。
Link: https://arxiv.org/abs/2603.23532
MDKeyChunker：ローリングキーとキーベース再構成によるLLMエンリッチメント，高精度RAGを実現 [cs.CL, cs.AI, cs.IR, cs.LG]目的：高精度なRetrieval-Augmented Generation (RAG) を実現するための手法
- 情報検索におけるRAGは，外部知識を活用し回答精度向上に不可欠である。
- 従来の固定サイズチャンキングは，文脈を断片化し，意味的なまとまりを損なう。
- 文書構造を考慮し，効率的なメタデータ抽出とチャンク再構成を目指す。
- MDKeyChunkerは，Markdown文書を構造を意識してチャンク化し，ヘッダーなどを単位として扱う。
- 単一のLLM呼び出しでタイトル，要約，キーワード等のメタデータを抽出，ドキュメントレベルの文脈を維持する。
- 意味的なキーを用いてチャンクを再構成することで，関連コンテンツを効率的に検索可能となる。
Link: https://arxiv.org/abs/2603.23533
事前学習は全て同じではない：低リソース環境における不均衡な偏りタスクのための閾値調整とクラス重み付け [cs.CL, cs.LG]目的：ソーシャルメディアにおける偏り検出と分類
- 社会の分断を招く偏りを検出し，理解することは，健全なコミュニケーションを促進する上で重要である。
- 偏りデータセットは，特定の意見や感情に偏っている場合が多く，モデルの公平性を損なう可能性がある。
- 不均衡なデータに対しても高い性能を発揮する，偏り検出モデルの構築を目指す。
- バイナリ検出タスクにおいて，mDeBERTa-v3-baseを用いて検証データで0.8032のmacro-F1スコアを達成した。
- マルチラベルタスクにおいても，競争力のある性能を示した（最大0.556のmacro-F1スコア）。
- 暗黙的な偏り，コードスイッチング，政治的議論と真の偏りの区別が，依然として課題として残る。
Link: https://arxiv.org/abs/2603.23534
自己組織化臨界現象におけるPLDR-LLMの推論 [cs.DB, cond-mat.mtrl-sci, cs.AI, cs.CL, cs.LG, nlin.AO]目的：PLDR-LLMにおける推論能力のメカニズム解明
- 大規模言語モデルの推論能力は重要であり，そのメカニズムの理解が求められている。
- 大規模言語モデルの推論能力の発現原理が不明確であり，定量的な評価が困難である。
- 自己組織化臨界現象に着目し，言語モデルの推論能力を定量的に評価する手法を開発する。
- 自己組織化臨界現象で事前学習されたPLDR-LLMは，推論時に推論能力を示すことが示された。
- 臨界点におけるPLDR-LLMの推論出力は，第二相転移と類似した特性を持つことが明らかになった。
- モデルの順序パラメータが臨界点近傍でゼロに近づくほど，推論能力が向上することが確認された。
Link: https://arxiv.org/abs/2603.23539
DeepOFW：ピーク対平均電力比低減のための深層学習駆動OFDM柔軟波形変調 [cs.IT, cs.LG, eess.SP, math.IT]目的：ピーク対平均電力比の低減
- 無線通信において，電力増幅器の効率が通信性能を左右するため，電力効率の向上が重要である。
- OFDMのような多搬送波変調方式は，ピーク対平均電力比が高く，電力増幅器の効率を低下させるという課題がある。
- 本研究は，深層学習を用いてピーク対平均電力比を低減し，電力効率を向上させる新しい波形変調方式を提案する。
- 提案手法DeepOFWは，従来のOFDMと比較してピーク対平均電力比を大幅に低減できることをシミュレーションにより実証した。
- DeepOFWは，ビット誤り率の面でも既存の伝送方式と比較して改善された性能を示すことが確認された。
- DeepOFWは，学習段階をオフラインで行うことで，既存のハードウェアへの実装を容易にしている。
Link: https://arxiv.org/abs/2603.23544
プロアクティブなユーザ-LLMインタラクションのための暗黙的ターンごとの方策最適化 [cs.LG]目的：ユーザとLLMの多段階協調における方策最適化
- 適応型チュータリング等，インタラクティブサービスの実現には，人間とAIの協調が不可欠である。
- 強化学習による最適化は，検証可能な中間報酬の希薄性とユーザ応答の確率的変動が課題となる。
- 希薄な結果信号からターンごとの報酬を導き，安定的な方策学習を実現すること。
- 提案手法ITPOは，PPO，GRPO，RLOO等と組み合わせることで，既存手法よりも収束性が向上した。
- 軌跡分析の結果，ITPOが推論するターンごとの嗜好は，人間の判断と意味的に一致することが確認された。
- ITPOは，数学の個別指導，文書作成，医療推薦の3つのタスクで有効性が示された。
Link: https://arxiv.org/abs/2603.23550
テキストグラフ理解と質問応答のためのデモンストレーションの混合 [cs.IR, cs.AI]目的：テキストグラフを用いた検索拡張生成における，質の高いデモンストレーション選択
- 大規模言語モデルの性能向上には，ドメイン特化型質問応答が重要である。
- 既存手法では，検索されたサブグラフに無関係な情報が含まれる場合がある。
- 多様な質問文脈下で，より有益なデモンストレーションを選択すること。
- 提案手法MixDemoは，複数のテキストグラフベンチマークにおいて既存手法を大幅に上回った。
- MixDemoは，専門家混合（MoE）機構により，多様な質問文脈に応じた最適なデモンストレーションを選択する。
- さらに，質問文に特化したグラフエンコーダにより，ノイズを低減し，関連情報を選択的に重視する。
Link: https://arxiv.org/abs/2603.23554
2単調減少型下確率に対する上限エントロピー [cs.LG, cs.AI]目的：上限エントロピーの計算手法
- モデル選択や異常検知など，不確実性の定量化は多くのタスクで重要である。
- 確率集合による不確実性モデリングにおける上限エントロピーの計算効率が課題であった。
- 2単調減少型下確率に対する上限エントロピーの効率的な計算アルゴリズムを開発する。
- 上限エントロピー問題に対し，強多項式時間で解けるアルゴリズムが存在することを示した。
- 過去のアルゴリズムと比較して，計算効率の大幅な改善を実現した。
- アルゴリズムの計算量解析を詳細に行った。
Link: https://arxiv.org/abs/2603.23558
ネイティブGUIエージェントのためのCAPTCHA解決：自動推論・行動データ生成と自己修正学習 [cs.CR, cs.AI, cs.CV]目的：CAPTCHA解決能力を備えたネイティブGUIエージェントの開発
- GUI自動化は，ソフトウェアテストやアクセシビリティ向上に不可欠であり，その重要性は増している。
- 汎用的なGUIタスクは進歩しているが，CAPTCHA解決は依然としてボトルネックとなっている。
- CAPTCHA解決と汎用GUIタスクの両立を目指し，よりロバストなGUIエージェントを開発する。
- ReCAPは，7種類の代表的なCAPTCHAに対応する動的CAPTCHAシステムを開発した。
- 大規模なCAPTCHAインタラクション軌跡と推論トレースを自動的に収集・整理するパイプラインを構築した。
- 失敗軌跡を活用した自己修正データによる学習により，CAPTCHA解決成功率を約30％から80％に向上させた。
Link: https://arxiv.org/abs/2603.23559
有限関数概念クラスに対するラベル付き圧縮スキーム [cs.IT, cs.LG, math.IT]目的：有限関数概念クラスのVC次元に等しいラベル付き圧縮スキーム
- 機械学習において，効率的なデータ表現は学習アルゴリズムの性能に大きく影響する。
- 既存の圧縮スキームは，VC次元の証明が困難な概念クラスに対して適用が難しい。
- VC次元dを持つ任意の概念クラスに対して，サイズdの圧縮スキームの存在を示す。
- 本研究により，VC次元dを持つ有限関数概念クラスに対して，サイズdのラベル付き圧縮スキームが存在することが証明された。
- これは，長年未解決だったサンプル圧縮予想を解決するものである。
Link: https://arxiv.org/abs/2603.23561
合成混合学習：RAGを超えるパラメトリック知識獲得の拡張 [cs.LG, cs.AI]目的：言語モデルにおけるパラメトリック知識獲得の拡張
- データ制約下での知識獲得は，言語モデルの応用範囲を広げる上で重要である。
- 既存の合成データ生成手法は，規模拡大に伴い性能向下が起こりやすい。
- 合成データと文書を組み合わせることで，RAGの性能限界を打破することを目指す。
- 合成QAと合成文書の組み合わせにより，性能が対数線形に向上することが確認された。
- Llama 8Bモデルにおいて，RAGを4.4%相対的に上回る性能をQuaLITYベンチマークで達成した。
- 複数のモデルとベンチマークにおいて，RAGを上回る性能を示し，最大9.1%の改善が見られた。
Link: https://arxiv.org/abs/2603.23562
嗜好に基づく制約推論による安全な強化学習 [cs.LG, cs.AI]目的：安全な強化学習における制約の推論手法
- 安全性が重要な意思決定において，強化学習の活用が期待される。
- 現実世界の安全制約は複雑で主観的であり，明示的な定義が困難である。
- 人間の嗜好から効率的に制約を学習し，リスクを正確に評価すること。
- 提案手法PbCRLは，嗜好モデリングにデッドゾーン機構を導入し，重い裾を持つコスト分布を促進することで制約との整合性を高める。
- さらに，PbCRLはコスト分散による探索を促すSNR損失を組み込み，ポリシー学習の改善に貢献する。
- 実験結果から，PbCRLは真の安全要件との整合性で優れており，安全性と報酬の両面で既存手法を上回ることが示された。
Link: https://arxiv.org/abs/2603.23565
AscendOptimizer：昇騰NPUオペレータ最適化のためのエピソード的エージェント [cs.LG, cs.AI]目的：昇騰NPUオペレータ最適化における知識獲得と性能向上
- AI技術の発展に伴い，高性能なハードウェアの活用が不可欠となっている。
- 昇騰NPUのオペレータ最適化には専門知識が必要であり，公開されている情報が少ない。
- 実行結果を経験として活用し，自動的に最適化を行う手法を確立すること。
- AscendOptimizerは，実行を経験に変えることで，昇騰NPUオペレータの最適化を自動的に行うエージェントである。
- ホスト側では，プロファイリングと進化探索を繰り返し，高性能なデータ移動設定を発見する。
- カーネル側では，最適化されたカーネルを意図的に劣化させ，改善の軌跡を学習し，再利用可能な最適化パターンを蓄積する。
Link: https://arxiv.org/abs/2603.23566
希薄なニュースデータからのセンチメントシグナルの因果的再構成 [cs.LG, stat.ML]目的：センチメントシグナル再構成手法
- 金融分析や技術動向の把握において，ニュースから得られるセンチメントシグナルは重要である。
- ニュースデータの希薄性や分類器の不確実性により，信頼性の高い時系列データの作成が困難である。
- ニュースデータの特性を考慮した因果的な再構成により，安定したセンチメント系列の抽出を目指す。
- 提案手法は，不確実性と冗長性を考慮した重み付け，因果的な投影規則，因果的平滑化の3段階で構成される。
- 従来の分類器の改善だけでなく，安定したセンチメント指標を得るためには慎重な再構成が重要であることが示された。
- 再構成されたセンチメントシグナルと株価データの間には，3週間の先行関係が認められ，そのパターンは安定的に確認された。
Link: https://arxiv.org/abs/2603.23568
StateLinFormer：ナビゲーションにおける長期記憶を強化する状態保持学習 [cs.DL, cs.CY, cs.LG, cs.AI]目的：ナビゲーションにおける長期記憶の強化
- ロボットナビゲーションは，環境の変化への適応に長期記憶が不可欠である。
- 従来のTransformerモデルは固定長のコンテキストウィンドウに制限され，長期的な記憶が困難である。
- 状態保持学習により，無限長の系列学習を近似し，長期記憶を実現する。
- StateLinFormerは，状態保持学習により，従来のモデルよりもナビゲーション性能が大幅に向上する。
- 特に，インタラクションの長さが増加するにつれて，文脈依存的な適応能力が向上する。
- この結果は，ナビゲーションタスクにおけるIn-Context Learning (ICL) 能力の向上を示唆している。
Link: https://arxiv.org/abs/2603.23571
二基準カリキュラム学習：時系列データへの応用 [cs.LG, cs.AI]目的：時系列データに対するカリキュラム学習フレームワーク
- 機械学習の性能向上には，適切な学習データの順序付けが不可欠である。
- 従来のカリキュラム学習では，難易度の評価指標の定義が課題となっていた。
- 損失とデータ密度の二基準を用いて，難易度評価の精度向上を目指す。
- 損失に基づく難易度評価に加えて，データ表現空間における密度に基づく難易度評価を導入した。
- データが疎な領域では学習が困難になるという点を考慮し，損失と密度を組み合わせた。
- 時系列予測タスクにおいて，二基準カリキュラム学習が従来の学習方法を上回る性能を示した。
Link: https://arxiv.org/abs/2603.23573
連合学習における特徴-ラベル同時摂動に基づく標的型ポイズニング攻撃：PoiCGAN [cs.LG, cs.AI]目的：連合学習環境下での標的型ポイズニング攻撃手法
- 連合学習は計算効率とデータプライバシー保護に優れ，産業画像分類で広く利用されている。
- 連合学習は分散型であるため，悪意のあるクライアントからの攻撃に脆弱であり，ポイズニング攻撃が一般的である。
- 既存手法は検知されやすく，実用性が低い問題を解決し，高精度な標的型ポイズニング攻撃を実現する。
- 提案手法PoiCGANは，特徴-ラベル同時摂動により，モデル性能テストや異常検知防御機構を回避する。
- 実験結果から，PoiCGANはベースライン手法と比較して攻撃成功率が83.97%向上し，タスク精度への影響は8.87%未満に抑制されることが示された。
- 生成されたポイズンサンプルおよび悪意のあるモデルは高いステルス性を有している。
Link: https://arxiv.org/abs/2603.23574
エッジLLM向け適応混合精度量子化：APreQEL [cs.LG, cs.AI]目的：エッジデバイスにおけるLLMの効率的な展開のための適応混合精度量子化メカニズム
- LLMは様々なタスクで高い性能を示すが，計算コストとメモリ要件が大きい。
- 従来の量子化手法は全層に一律に適用されるため，層ごとの特性を考慮できない。
- メモリ，遅延，精度をバランスさせ，エッジデバイスへの展開を可能にする。
- 提案手法は層ごとの貢献度を分析し，最適な量子化タイプを割り当てることで，一律量子化では達成できない新たな展開設計を可能にする。
- ユーザ定義の優先度に基づいて，メモリ，遅延，精度のバランスを取る適応混合精度量子化メカニズムを開発した。
- このメカニズムは，リソース制約のあるデバイス上でのLLM展開のソリューション空間を拡大する。
Link: https://arxiv.org/abs/2603.23575
離散論理の幾何学的コスト：数値表現の文脈依存多様体力学 [cs.LG, cs.CL, cs.CY]目的：大規模言語モデルにおける離散論理の創発の幾何学的メカニズムの解明
- 大規模言語モデルの発展に伴い，論理的推論能力の向上が重要課題となっている。
- 既存の理論では，論理的推論に必要な離散的な決定境界の形成と，連続的な意味空間の滑らかな一般化との矛盾が解決されない。
- 文脈が非等距的な力学演算子として働き，論理的境界の形成に必要な「位相的歪み」を生み出すメカニズムを明らかにする。
- 残差ストリーム活性化へのグラム・シュミット分解適用により，グローバル構造を維持する位相保存と，概念を分離する代数的発散という二つの変調メカニズムが明らかになった。
- 代数的発散成分を削除すると，パリティ分類の精度が100%から偶然レベル(38.57%)に低下し，位相とモデル機能の因果関係が確認された。
- 社会的プレッシャー下では，十分な発散が生成されず，「多様体のもつれ」が発生し，おべっかや幻覚を幾何学的に説明できることが示された。
Link: https://arxiv.org/abs/2603.23577
定常電熱エネルギーシステムのロバストな多物理現象シミュレーションのための残差注意物理情報ニューラルネットワーク [cs.LG, physics.comp-ph]目的：先進的なエネルギーシステムの設計における効率的な熱管理と正確な場予測
- エネルギーシステムの高性能化には，電熱結合多物理現象の正確なシミュレーションが不可欠である。
- 従来の物理情報ニューラルネットワークは，非線形性，係数の温度依存性，界面の複雑さにより課題がある。
- RA-PINNは，これらの課題を克服し，高精度な電熱結合多物理現象シミュレーションを実現する。
- 提案するRA-PINNは，残差接続と注意機構により，局所的な結合構造や急峻な勾配を効果的に捉える。
- 4つのベンチマークテストにおいて，RA-PINNはPure-MLP，LSTM-PINN，pLSTM-PINNを凌駕する高い精度を示した。
- 特に，界面支配や変動係数条件下において，RA-PINNは優れた構造的忠実性を維持した。
Link: https://arxiv.org/abs/2603.23578
MetaKube：Kubernetes障害診断のための経験を学習するLLMフレームワーク [cs.LG]目的：Kubernetes障害診断のための経験学習型LLMフレームワーク
- Kubernetesは大規模システムの基盤であり，可用性の確保が重要である。
- 既存の診断システムは静的な知識に依存し，過去の解決事例から学習できない。
- 本研究は，過去の経験から学習し，診断精度を向上させることを目指す。
- MetaKubeは，Qwen3-8Bの診断精度を50.9から90.5へと大幅に向上させた。
- EPMNは経験学習を通じて15.3%の精度向上に貢献し，継続学習による改善も確認された。
- データプライバシーを確保しつつ，GPT-4.1に匹敵する性能を実現している。
Link: https://arxiv.org/abs/2603.23580
併存睡眠障害におけるAI汎化性能のギャップ [cs.LG, cs.AI]目的：脳卒中患者における睡眠段階のAIによる自動判定
- 正確な睡眠段階の判定は，脳卒中患者の睡眠時無呼吸症候群の診断に不可欠である。
- 深層学習は健常者に対して有効だが，睡眠が乱れている臨床集団への汎化性能が低い。
- 脳卒中患者データを用いたモデルの注意機構を可視化し，その原因を解明すること。
- 健常者と脳卒中患者間のデータセットを用いた評価で，クロスドメイン性能の低下が確認された。
- 注意機構の可視化から，モデルが患者データにおいて生理学的に無意味なEEG領域に焦点を当てていることが示唆された。
- 脳卒中患者と健常者の睡眠アーキテクチャには有意な違いがあり，疾患特化型モデルの必要性が示された。
Link: https://arxiv.org/abs/2603.23582
LineMVGNN：線グラフ支援マルチビューグラフニューラルネットワークによる不正資金対策 [cs.LG, cs.AI, q-fin.CP]目的：不正資金対策のための線グラフ支援マルチビューグラフニューラルネットワーク
- 世界経済の保護において不正資金対策は重要であり，その精度向上が求められている。
- 従来のルールベース手法は専門知識に依存し，精度やスケーラビリティに課題がある。
- 線グラフを活用し，トランザクション情報を効果的に伝播させることで，不正資金検知の向上を目指す。
- 提案手法LineMVGNNは，既存の最先端手法と比較して，不正資金検知において優れた性能を示した。
- 線グラフの導入により，トランザクション情報の伝播が強化され，不正資金対策の有効性が確認された。
- スケーラビリティ，敵対的ロバスト性，規制遵守についても議論され，実用的な応用への道筋が示された。
Link: https://arxiv.org/abs/2603.23584
環境マップ：長期的エージェントのための構造化された環境表現 [cs.AI]目的：複雑なソフトウェアワークフローの自動化
- 長期的なタスク遂行には，環境の変化への対応が不可欠である。
- 動的な環境下では，エージェントはエラーの連鎖や環境の確率的変動に苦しむ。
- 環境の構造化された表現により，エラーを軽減し，計画の安定性を高める。
- 環境マップを搭載したエージェントは，WebArenaベンチマークにおいて，28.2%の成功率を達成した。
- これは，セッション限定のコンテキストに依存するベースライン(14.2%)のほぼ2倍の性能である。
- また，環境マップ生成に使用された生の軌跡データにアクセスできるエージェント(23.3%)をも凌駕した。
Link: https://arxiv.org/abs/2603.23610
LLMORPH：大規模言語モデルの自動変異試験 [cs.SE, cs.AI, cs.CL, cs.LG]目的：大規模言語モデルの信頼性評価と改善
- 近年，大規模言語モデルの性能向上は目覚ましいが，その信頼性確保が重要課題となっている。
- 大規模言語モデルの出力の正当性を検証する自動化された手段が不足している点が課題である。
- 人手によるラベル付けなしに，大規模言語モデルの潜在的な不具合を検出することを目指す。
- LLMORPHは，変異試験を活用し，大規模言語モデルのNLPタスクにおける誤動作を自動的に検出する。
- 36種類の変異関係を4つのNLPベンチマークと3つの最先端LLM（GPT-4，LLAMA3，HERMES 2）に適用した結果，56万件以上のテストを実行した。
- LLMORPHは，大規模言語モデルの出力における不整合を自動的に検出し，その有効性を実証した。
Link: https://arxiv.org/abs/2603.23611
LLMLOOP：自動反復フィードバックループによるLLM生成コードとテストの改善 [cs.SE, cs.AI]目的：LLM生成コードとテストの自動改善
- LLMはコード生成能力が高いが，品質向上が課題である。
- 生成コードのコンパイルエラーや誤りが頻発し，修正に労力がかかる。
- LLM生成コードの品質向上と，テストの自動生成・改善を目指す。
- LLMLOOPは，コンパイルエラーの解決，静的解析問題への対処，テストケースの修正，およびテスト品質の向上を含む5つの反復ループを用いる。
- HUMANEVAL-Xベンチマークを用いた評価により，LLMLOOPがLLM生成コードの改善に有効であることが示された。
- 生成されたテストケースは，検証メカニズムと回帰テストスイートとして機能する。
Link: https://arxiv.org/abs/2603.23613
介護施設向けマルチエージェント音声スマートスピーカーの安全性評価フレームワーク [cs.CL, cs.AI, cs.CL]目的：介護施設における日常活動を支援する音声スマートスピーカーの安全性評価
- 高齢化社会において，介護現場の負担軽減とケアの質の向上が重要な課題である。
- 介護記録の管理やタスクの煩雑さ，スタッフの負担増が課題となっている。
- AIを活用し，安全性を担保した音声インターフェースによる支援を目指す。
- 最適な設定（GPT-5.2）において，居住者IDとケアカテゴリのマッチングは100%に達した。
- リマインダー認識率は89.09%であり，見逃しはゼロだったが，偽陽性はあった。
- カレンダー連携によるスケジュール設定の正確率は84.65%であり，改善の余地がある。
Link: https://arxiv.org/abs/2603.23625
LLMの情報感受性に関する理論 [cs.LG, cond-mat.stat-mech, cs.AI, cs.CL, nlin.AO]目的：LLMによる最適化モジュールを用いたエージェントシステムの性能感受性限界
- LLMはエージェントシステムに導入されつつあり，その効果の理解が重要である。
- LLM介入が性能向上に必ずしも繋がらない状況が課題となっている。
- LLM介入が効果的となる条件と，そうでない条件を明確化すること。
- 計算資源が十分な場合，固定LLMの介入は戦略セットの予算に対する性能感受性を高めないという仮説が検証された。
- 複数予算チャネルを持つアーキテクチャにおいて，共スケール化が感受性限界を超える条件が議論された。
- ネスト化された共スケール化アーキテクチャが，固定構成では得られない応答チャネルを開くことが示された。
Link: https://arxiv.org/abs/2603.23626
ウクライナ語視覚的語義曖昧性解消ベンチマーク [cs.CV, cs.AI]目的：ウクライナ語における視覚的語義曖昧性解消タスクの評価基準
- 自然言語処理において，言葉の意味を正しく理解することは重要である。特に，多義語の解釈は困難を伴う。
- 視覚情報を用いた語義曖昧性解消は，文脈情報が少ない状況での課題である。
- ウクライナ語における視覚的語義曖昧性解消の現状を把握し，モデルの性能を評価する。
- 本研究で構築したベンチマークを用いて，8つの多言語・多模態大規模言語モデルを評価した結果，全てのモデルがゼロショットCLIPベースラインよりも低い性能を示した。
- ウクライナ語と英語の視覚的語義曖昧性解消タスクの間には，顕著な性能差が存在することが明らかになった。
- 本ベンチマークは，言語を超えたモデルの性能比較のための枠組みに組み込むことができる。
Link: https://arxiv.org/abs/2603.23627
活性化方向によるコードLLMの操舵：言語とライブラリの制御 [cs.LG]目的：コードLLMにおける言語とライブラリの制御
- コード生成AIの利用拡大に伴い，特定の言語やライブラリへの誘導が課題となる。
- LLMは中立的なプロンプトに対し，特定の言語やライブラリを優先的に選択する傾向がある。
- 活性化空間の方向性を操作することで，LLMの言語・ライブラリ選択を制御することを目指す。
- 活性化空間のベクトルを加えることで，中立的なプロンプト下でのターゲット言語/ライブラリへの生成を大幅に増加させた。
- 介入の効果はモデルやターゲットによって異なり，一般的なエコシステムほど誘導が容易であった。
- 強い介入は出力品質を低下させる可能性があることが示された。
Link: https://arxiv.org/abs/2603.23629
LLMエージェントはCFOになれるか？動的な企業環境におけるリソース配分に関するベンチマーク [cs.AI]目的：動的な企業環境におけるリソース配分能力の評価
- 企業経営において，リソース配分は重要な意思決定であり，企業の持続的な成長を左右する。
- 不確実性の下で長期的な視点を持ってリソースを効果的に配分することは，既存のAIシステムにとって困難である。
- LLMエージェントが，不確実な環境下で長期的なリソース配分を適切に行えるかを検証する。
- 提示されたEnterpriseArena環境において，高度なLLM11モデルをテストした結果，生存率は16%にとどまった。
- モデルサイズが必ずしも性能向上に繋がらず，長期的なリソース配分がLLMエージェントにとって難しい課題であることが示された。
- 情報収集とリソース保全のトレードオフが，エージェントにとって重要な課題であることが明らかになった。
Link: https://arxiv.org/abs/2603.23638