arXiv雑要約

AI - 2026/03/23 公開

  • 生成AI時代におけるPRISMAの拡張:L-PRISMA [cs.DL, cs.AI, cs.IR]目的:系統的レビューとメタ分析におけるエビデンス合成の効率化
    • エビデンスに基づいた意思決定の重要性が高まる中,系統的レビューの質と信頼性が求められている。
    • 従来の手作業によるデータ抽出や文献スクリーニングに時間と労力がかかり,効率が課題であった。
    • 生成AIの導入による効率化と,PRISMA原則の維持・向上を両立することを目指す。
    • 本研究では,生成AIを活用した統計的プレスクリーニングと人間の専門知識を組み合わせたアプローチを提案する。
    • 統計的層の決定論的性質により,再現性を高め,LLMの非決定性やハルシネーション,バイアス増幅のリスクを軽減する。
    • L-PRISMAはPRISMAガイドラインを拡張し,系統的レビューへの生成AIの責任ある導入を支援する。

    Link: https://arxiv.org/abs/2603.19236

  • IJCNN 2025 査読プロセス [cs.CE, cs.SC, physics.app-ph, physics.comp-ph, cs.DL, cs.LG]目的:IJCNN 2025 査読プロセスの詳細
    • ニューラルネットワークは,AI研究の中核であり,学術・産業界で活発な研究が行われている。
    • 査読プロセスは,質の高い論文を選抜し,研究の発展に寄与するために重要だが,偏りが生じやすい。
    • 査読者による評価の偏りを軽減し,より公平な論文選考を目指す。
    • IJCNN 2025では,5,526件の投稿,7,877名の査読者,426名のエリアチェアが参加した大規模な会議となった。
    • 査読スコアのランキング戦略として,スコア指標の評価と,査読者固有のバイアスを除去するためのキャリブレーション版が用いられた。
    • 投稿数,査読者数,参加者数は,前回の会議と比較してそれぞれ100%,200%,50%以上の成長を遂げた。

    Link: https://arxiv.org/abs/2603.19244

  • プロンプト最適化が脱獄となる時:大規模言語モデルの適応的レッドチーム化 [cs.OH, cs.DL, cs.CL, cs.AI]目的:大規模言語モデルの安全性評価における脆弱性の検証
    • 大規模言語モデルは重要度が増しており,安全性の確保は実用的・商業的に重要な課題である。
    • 既存の安全性評価は固定された有害プロンプトに依存しており,敵対的攻撃の現実的なシナリオを考慮していない。
    • プロンプト最適化技術を悪用して,安全対策を回避するプロンプトを自動的に生成し,モデルの脆弱性を評価する。
    • プロンプト最適化により,言語モデルの安全性が大幅に低下することが示された。特に,オープンソースの小規模言語モデルで顕著である。
    • Qwen 3 8Bの危険スコアは,最適化前は0.09であったのに対し,最適化後は0.79に増加した。
    • 静的なベンチマークは残留リスクを過小評価する可能性があり,適応的なレッドチーム化が堅牢な安全性評価に不可欠である。

    Link: https://arxiv.org/abs/2603.19247

  • DuCCAE:協調,拡張,進化による没入型会話のためのハイブリッドエンジン [cs.CL, cs.AI]目的:没入型会話システムの応答性と長期的なタスク遂行能力のトレードオフを解消する手法
    • 対話システムは,ユーザーとの自然なコミュニケーションにおいて不可欠であり,その重要性は増している。
    • 従来のシステムでは,複雑なタスク実行時の遅延が対話の質を低下させ,ユーザーの信頼を損なう問題があった。
    • 非同期処理とリアルタイム応答を分離し,協調的なシステムを構築することで,この問題を解決する。
    • DuCCAEは,リアルタイム応答性とエージェントによるタスク実行の信頼性を向上させ,遅延を削減することに成功した。
    • Du-Interactデータセットを用いたオフライン評価と,Baidu Searchにおける大規模な実運用評価により,その有効性が確認された。
    • 2025年6月からの導入データでは,Day-7ユーザー維持率が34.2%に3倍,複雑なタスク完了率が65.2%に急増した。

    Link: https://arxiv.org/abs/2603.19248

  • GeoChallenge:図を用いた幾何学的推論のための多選択式ベンチマーク [cs.CL, cs.CL, cs.CL, cs.CL, cs.AI]目的:幾何学的推論の評価
    • 大規模言語モデルの記号的推論能力評価には,テキストと図に基づいた多段階証明を必要とする幾何学ベンチマークが不可欠である。
    • 既存のベンチマークは規模が限られており,視覚的に根拠のある多選択式問題が少ないため,複雑な推論の信頼性評価が困難である。
    • テキストと図を組み合わせた多段階推論を必要とする幾何学問題の評価データセットを提供し,モデルの性能を詳細に分析することを目指す。
    • GeoChallengeは9万件の幾何学問題を含むデータセットであり,複雑さの評価と形式言語のアノテーションを可能にする。
    • 複数の高度なLLMを用いた実験の結果,モデルと人間の性能に明確な差が見られた(GPT-5-nanoは75.89%の正解率,人間は94.74%)。
    • LLMの主な失敗パターンとして,多選択式設定での正確な一致の失敗,視覚的な依存性の弱さ,収束しない過剰な推論が明らかになった。

    Link: https://arxiv.org/abs/2603.19252

  • LLMベースの議論分類に関する包括的研究:LlamaからDeepSeek,GPT-5.2まで [cs.CL, cs.AI]目的:LLMベースの議論分類モデルの性能評価
    • 議論抽出は,説得力のあるテキスト理解や意思決定支援に不可欠な技術である。
    • 従来の機械学習手法では,議論構造の複雑さから高い精度を達成することが困難であった。
    • 最新LLMの議論分類能力を詳細に評価し,その限界を明らかにすること。
    • GPT-5.2はUKPデータセットで78.0%,Args.meデータセットで91.9%の分類精度を達成した。
    • プロンプトの言い換えや複数プロンプトの投票,確信度推定などの手法により,性能が向上した。
    • プロンプトの表現不安定性や,暗黙の批判の検出困難性など,モデル共通の課題が明らかになった。

    Link: https://arxiv.org/abs/2603.19253

  • 大規模言語モデルにおける長さ指示追従のための認知と行動のギャップを埋める:LARFT [cs.CL, cs.CL, cs.AI]目的:大規模言語モデルにおける長さ指示追従の精度向上
    • 自然言語処理の発展に伴い,複雑な指示への対応が求められている。その中でも,出力の長さを正確に制御することは重要な課題である。
    • 既存手法では,外部からの制約や最適化目標を用いるため,モデル自身の長さの認知能力の欠如が無視されている。
    • モデルの長さに関する認知能力と行動を整合させ,正確な長さ指示追従を実現すること。
    • LARFTは,長さ指向型強化学習と事後学習による長さ認識を統合するフレームワークである。
    • 実験の結果,LARFTは既存手法と比較して,長さ指示追従ベンチマークで平均20.92ポイントの改善を達成した。
    • 一般能力ベンチマークにおいては,わずかな性能低下(-1.45ポイント)に留まった。

    Link: https://arxiv.org/abs/2603.19255

  • MAPLE:メタデータ拡張プライベート言語進化 [cs.CL, cs.CL, cs.CL, cs.AI, cs.CR, cs.LG]目的:プライベート言語進化における初期化の改善
    • 大規模言語モデルの活用は重要だが,計算コストやAPI制限が課題となる。
    • プライベート進化はAPI経由でデータ生成を行うが,初期化に失敗しやすい。
    • 特定の専門領域において,初期分布と目標データ分布のずれを解消する。
    • MAPLEは,プライベートなメタデータ抽出とインコンテキスト学習を用いることで,初期分布を目標ドメインに効果的に固定する。
    • 実験の結果,MAPLEは既存手法と比較して,プライバシーとユーティリティのトレードオフが向上し,収束が速いことが示された。
    • また,APIコストを大幅に削減できることも明らかになった。

    Link: https://arxiv.org/abs/2603.19258

  • Breeze Taigi:台湾閩南語音声認識・合成のためのベンチマークとモデル [cs.CL, cs.AI]目的:台湾閩南語音声認識及び合成システムの評価用標準ベンチマーク
    • 言語多様性への対応は,音声技術の進歩において重要である。
    • 台湾閩南語の音声データや評価手法が標準化されていなかった。
    • 台湾閩南語の音声認識・合成の評価基準を確立し,研究を促進する。
    • 台湾行政院の広報音声30ペアを整備し,正規化された正解テキストを付与した。
    • 既存の台湾 Mandarin 資源と大規模合成データ生成を利用して音声認識・合成モデルを開発した。
    • Whisperモデルを10,000時間の合成Taigi音声でファインチューニングし,平均CER 30.13%を達成した。

    Link: https://arxiv.org/abs/2603.19259

  • 手話機械翻訳のための階層的適応転移学習フレームワークHATL [cs.CL, cs.AI, cs.CV, cs.CY, cs.ET]目的:手話機械翻訳における性能向上
    • 聴覚障害者と健常者のコミュニケーションを円滑にするため,手話の自動翻訳技術の発展が重要である。
    • 手話データの不足,話者の多様性の制限,事前学習済み表現とのドメインギャップが課題となっている。
    • 既存の転移学習の静的性による過学習を防ぎ,手話の多様性に適応可能なフレームワークを開発する。
    • 提案手法HATLは,従来の転移学習手法と比較して,複数のタスクとモデルにおいて一貫して高い性能を示す。
    • PHOENIX14TおよびIsharahデータセットにおいてBLEU-4スコアが最大15.0%向上した。
    • MedASLデータセットでは,ADATを用いた場合,BLEU-4スコアが37.6%の大幅な改善が見られた。

    Link: https://arxiv.org/abs/2603.19260

  • LLMにおける有意性獲得ペア符号化:頻度に基づくサブワードマージの統計的代替手法 [cs.CL, cs.CV, cs.LG]目的:大規模言語モデルにおけるサブワードトークン化手法の改善
    • 言語モデルの性能は,サブワードトークン化に大きく依存する。効果的なトークン化が重要である。
    • 従来のBPEは頻度に基づいてマージを選択するため,真の凝集性を捉えきれない場合がある。
    • 統計的検定を用いて凝集性を評価し,圧縮効率も考慮した新しいマージ基準を提案する。
    • 有意性獲得BPEは,WikiText-103の検証・テストにおけるパープレキシティをそれぞれ13%,12%低減した。
    • また,検証・テストのBPCを約0.9〜1.0%改善し,圧縮率が近い場合でも低いBPCを示した。
    • 統計に基づいたマージ選択が,テキストの圧縮率に関わらず予測効率を向上させることを示唆している。

    Link: https://arxiv.org/abs/2603.19261

  • 大規模言語モデル推論における観測可能な信念修正の{\alpha}法則 [cs.CL, cs.AI]目的:大規模言語モデルにおける確率更新の安定性に関する法則の特定
    • 大規模言語モデルの推論過程の理解は,その信頼性と性能向上に不可欠である。
    • 連鎖思考などの反復的な出力修正において,確率更新の安定性に関する保証がない。
    • 確率更新の安定性を制御する{\alpha}法則を確立し,その診断手法を提供する。
    • 指示調整された大規模言語モデルは,候補回答に対する確率割り当てを修正する際に,一貫した乗算スケーリング則に従うことが示された。
    • {\alpha}値が1未満である場合,反復修正下での漸近的安定性が保証されることが理論的に証明された。
    • 実験の結果,モデルはほぼベイズ更新に近い振る舞いを示し,多段階実験では{\alpha}値が減少し,理論的な安定性予測と一致する収縮的な長期ダイナミクスを示すことが確認された。

    Link: https://arxiv.org/abs/2603.19262

  • 動機づけと生成AIの利用:メキシコの中学生大規模調査 [cs.CY, cs.AI, cs.HC]目的:生成AI利用と動機づけの関連性
    • 教育現場でのAI活用は不可避であり,その効果を最大化するためには重要である。
    • 生徒の動機づけがAI利用にどのように影響するかは未だ十分には解明されていない。
    • 生徒の動機づけ特性に応じたAI活用指導法の確立を目指す。
    • 生徒の動機づけプロファイルによって,生成AIの利用パターンに明確な差異が認められた。
    • 一律的なAI導入アプローチの妥当性が疑われ,動機づけに基づいた教育介入の必要性が示唆された。
    • 自己概念と教科の価値認識に基づき,3つの異なる動機づけプロファイルが特定された。

    Link: https://arxiv.org/abs/2603.19263

  • 生成型アクティブテスト:プロキシタスク適応による効率的なLLM評価 [cs.CL, cs.AI]目的:LLMの効率的な評価手法
    • LLMの利用拡大に伴い,特定タスクにおける性能評価の需要が高まっている。
    • 新たな評価ベンチマーク作成にはラベル付けコストが課題であり,専門家によるアノテーションが必要となる場合がある。
    • 生成型質問応答タスクに適応可能な,不確実性に基づいたサンプル選択フレームワークを提案する。
    • 提案手法GATは,LLMを代理として利用し,サンプル選択プロセスを効率化する。
    • ステートメント適応モジュールにより,生成型タスクを疑似分類形式に変換し,サンプルレベルの不確実性を捉える。
    • ゼロショット取得関数は,従来のサンプリングベースラインと比較して推定誤差を約40%削減し,スケーラブルなソリューションを提供する。

    Link: https://arxiv.org/abs/2603.19264

  • 純粋な思考者が不可能な対象に出会うとき:LLMにおける解析的対合成的ファインチューニングと生成の抑制 [cs.CL, cs.AI, cs.HC]目的:大規模言語モデルのファインチューニングによる存在論的帰結の検証
    • 言語モデルは,人間の思考や創造性の模倣を目指す上で重要であり,その限界理解は不可欠である。
    • 矛盾を含む情報を学習させた場合,言語モデルがどのように知識を統合し,新たな概念を生み出すかが課題である。
    • 矛盾情報を学習させたモデルにおける,創造性の抑制と独断的な選択のメカニズムを解明することを目指す。
    • 矛盾情報を学習させたモデルは,自発的な概念生成が大幅に減少し,代わりに特定の選択肢に固執する傾向が強くなった。
    • この現象は,潜在空間の構造的な断絶によって引き起こされており,創造的な解決策へのアクセスを困難にしている。
    • 論理的な矛盾に対する訓練は,方策的な仲介なしに,モデルを排他的な「独断的」状態に陥らせ,創造的総合能力を奪う。

    Link: https://arxiv.org/abs/2603.19265

  • 探求による洗練:説明的逆転によるLLMの強化学習蒸留 [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの堅牢な推論能力を,より小型で計算効率の高い生徒モデルに蒸留すること
    • 大規模言語モデルは強力だが,計算コストが高いため,より効率的なモデルへの知識転送が重要である。
    • 蒸留されたモデルは,表層的なパターン記憶にとどまり,汎化性能が低いという課題がある。
    • 生徒モデルに深い概念的理解を促し,パターン記憶を克服し,汎化性能を向上させることを目指す。
    • 本研究で提案するフレームワークは,説明的逆転(EI)を用いて生徒モデルに解答の根底にある論理を明確化させることで,パターン記憶の問題に対処する。
    • さらに,説明的GRPO(EXGRPO)により,対話構造ユーティリティボーナスを用いて,一貫性のある推論プロセスを維持することを明示的に報酬する。
    • 12のデータセットにおける評価の結果,Gemma-7bを生徒モデルとして用いることで,ゼロショット性能に対し平均20.39%の向上,最先端の蒸留ベースラインに対し6.02%の改善が確認された。

    Link: https://arxiv.org/abs/2603.19266

  • 燃焼LLMのためのフルスタックドメイン強化:構築と最適化 [cs.CL, cs.IR, cs.CL, cs.AI]目的:燃焼科学分野に特化したドメイン強化LLMのワークフロー
    • 専門分野への適応と能力向上のためのLLMは,応用の可能性が高い。
    • 燃焼科学のような複雑な物理システムでは,汎用LLMは幻覚を起こしやすい。
    • 物理法則を内部化するLLMを構築し,科学的推論能力を向上させる。
    • 提案されたワークフローは,既存の汎用モデルや検索拡張生成法を大きく上回る性能を示した。
    • 物理法則を学習するのではなく,真に内部化することを可能にした。
    • 燃焼科学分野における複雑な推論タスクのための標準評価ベンチマークFlameBenchを公開した。

    Link: https://arxiv.org/abs/2603.19268

  • Autonoma:エンドツーエンド・ワークフロー自動化のための階層型マルチエージェントフレームワーク [cs.CL, cs.CL, cs.LG]目的:エンドツーエンド・ワークフロー自動化のための階層型マルチエージェントフレームワーク
    • ユーザーニーズの多様化と複雑化に対応するため,自動化技術の重要性が増している。
    • 既存の単一構造エージェントは,スケーラビリティ,エラー伝播,タスク注力の維持に課題がある。
    • 自然言語による指示から堅牢なワークフローを生成し,エラー発生時の対応と拡張性を実現する。
    • Autonomaは,コーディネーター,プランナー,スーパーバイザーの階層構造により,ワークフローを効率的に自動化する。
    • モジュール化されたエージェントの活用により,機能の拡張性とエラー処理の堅牢性を両立している。
    • 実験結果から,97%のタスク完了率と98%のエージェント連携成功率が確認された。

    Link: https://arxiv.org/abs/2603.19270

  • コンテンツ分析における大規模言語モデル活用に向けた人間中心のワークフロー [cs.CL, cs.AI]目的:コンテンツ分析における大規模言語モデルの活用ワークフロー
    • 社会科学や情報科学等の分野において,テキストデータの分析は重要な課題である。
    • 大規模言語モデルのブラックボックス性やプロンプトへの依存性,幻覚といった課題が存在する。
    • 大規模言語モデルの特性を考慮した,人間中心の厳密かつ透明性の高いワークフローを提案する。
    • 大規模言語モデルを汎用的なテキスト処理エンジンと捉え,アノテーション,要約,情報抽出の3つのタスクに対応するワークフローを提示した。
    • 研究者は,大規模言語モデルの各段階を設計,監督,検証することで,厳密性と透明性を確保する。
    • プロンプト集やPythonコードといった実践的な実装を支援する補足資料を提供し,利便性を高めた。

    Link: https://arxiv.org/abs/2603.19271

  • Transformerはステートレスな微分可能なニューラルコンピュータである [cs.CL, cs.AI, cs.CV, cs.LG]目的:Transformerの構造と機能の解明
    • 大規模言語モデルの理論的基盤の確立が重要である。
    • Transformerの動作原理が完全に理解されていない点がある。
    • TransformerをDNCという既存の枠組みで解釈することを試みる。
    • Transformer層は,ステートレスな微分可能なニューラルコンピュータ(sDNC)と数学的に同等であることが示された。
    • Transformerにおける注意機構は,sDNCにおけるコンテンツベースのアドレス指定に対応する。
    • エンコーダー・デコーダーTransformerは,異なる読み書きメモリを持つsDNCとして表現できる。

    Link: https://arxiv.org/abs/2603.19272

  • 低リソース西アフリカ言語における言語的安全堅牢性ベンチマーク:LSR [cs.CL, cs.AI]目的:低リソース西アフリカ言語における大規模言語モデルの安全性評価
    • 大規模言語モデルの安全性確保は重要であり,特に多様な言語への対応が不可欠である。
    • 英語以外の言語では,有害な意図に対する拒否メカニズムが十分に機能しない場合がある。
    • 西アフリカ言語における安全性低下を定量化し,モデルの改善に貢献する。
    • LSRベンチマークは,ヨルバ語,ハウサ語,イボ語,イガラ語の4言語で,英語との拒否率の差を評価した。
    • Gemini 2.5 Flashの実験結果から,西アフリカ言語での拒否率は35-55%に低下し,特にイガラ語で顕著な低下が見られた。
    • Refusal Centroid Drift (RCD)という指標を用いて,言語による拒否行動の変化を定量的に示した。

    Link: https://arxiv.org/abs/2603.19273

  • CURE:臨床理解と検索評価のためのマルチモーダルベンチマーク [cs.CL, cs.AI]目的:臨床理解と検索能力の評価
    • 医療診断は,視覚情報とテキスト情報を統合し,医学文献を参照する必要があり,高度な理解が求められる。
    • 既存のベンチマークは,モデルの基礎的なマルチモーダル推論能力と検索能力を分離して評価することが難しい。
    • マルチモーダル臨床データの理解と,正確な医学文献の検索という二つの課題を明らかにすること。
    • 最先端のMLLMは,医師の参照文献が与えられた場合,鑑別診断において最大73.4%の精度を示す。
    • 一方,独立した検索メカニズムに頼ると,性能は大幅に低下し,25.4%まで低下することが判明した。
    • この結果は,マルチモーダル臨床データの効果的な統合と,正確な根拠文献の検索の難しさを示している。

    Link: https://arxiv.org/abs/2603.19274

  • 大規模言語モデルの途中学習による放射線科レポートの自動要約改善 [cs.CL, cs.AI]目的:放射線科レポートの自動要約性能の向上
    • 医療現場における医師の負担軽減が重要視されているため,自動要約技術の発展が求められている。
    • 既存の事前学習・ファインチューニング戦略では,専門領域への適応に限界があり,十分な性能が得られない場合がある。
    • 大規模言語モデルの途中学習を通じて,放射線科レポートの専門領域への適応を促進し,要約性能の向上を目指す。
    • 途中学習を行ったGatorTronT5-Radioモデルが,既存モデルを上回り,ROUGE-LとRadGraph-F1の両評価指標で最良の結果を示した。
    • 途中学習は,少ないデータでの学習能力を高め,先行研究で報告された「コールドスタート」問題を軽減する効果が確認された。
    • 本研究は,「事前学習,途中学習,ファインチューニング」という新たな戦略の有効性を示唆し,直接的なファインチューニング戦略の代替となりうる。

    Link: https://arxiv.org/abs/2603.19275

  • フラットから構造へ:GraphRAGによる自動小論文採点能力の向上 [cs.CL, cs.AI]目的:自動小論文採点における評価精度向上
    • 教育評価の規模拡大には自動採点が不可欠であり,質の高い自動採点システムの開発が求められている。
    • 大規模言語モデルは幻覚や採点基準の厳守に課題があり,特に複雑な教育内容の評価において限界がある。
    • 知識間の構造的関係性を捉えることで,より正確な小論文評価を実現し,高次学力評価の精度向上を目指す。
    • 提案手法GraphRAGは,参照資料を構造化された知識グラフとして表現することで,従来のRAGよりも高い精度を達成した。
    • 特に,科学的探究の実践(SEP)の評価において顕著な改善が見られ,構造的検索の有効性が確認された。
    • Microsoft GraphRAGとHippoRAGの組み合わせにより,高精度なグラフ構築と関連性の高い知識の検索が可能になった。

    Link: https://arxiv.org/abs/2603.19276

  • MOSAIC:側面特定とクラスタリングを用いたモジュール型意見要約 [cs.CL, cs.LG]目的:意見要約のためのモジュール型フレームワーク
    • オンライン市場において,レビューは製品評価に不可欠である。そのため,効果的な要約技術が求められる。
    • 既存の要約研究は,全体的な品質に偏りがちで,信頼性や実用的な粒度の細かい洞察が不足している。
    • 中間出力の提示による顧客体験の向上と,要約の網羅性と忠実性の改善を目指す。
    • MOSAICは,テーマ発見,構造化された意見抽出,根拠に基づいた要約生成といった解釈可能なコンポーネントに要約を分解する。
    • オンラインA/Bテストの結果,中間出力の提示が顧客体験を改善し,完全な要約展開前に価値を提供することが示された。
    • オフライン実験では,MOSAICが強力なベースラインと比較して,優れた側面網羅性と忠実性を達成することが確認された。

    Link: https://arxiv.org/abs/2603.19277

  • HypeLoRA:ハイパーネットワーク生成LoRAアダプターによる言語モデルの較正されたファインチューニング [cs.CL, cs.AI]目的:言語モデルの較正されたファインチューニング手法
    • Transformerモデルは高性能だが,予測の信頼度と実際の正解頻度の乖離が課題となっている。
    • 完全なファインチューニングは計算コストが高く,効率的な代替手法が求められている。
    • LoRAとハイパーネットワークを組み合わせ,パラメータ効率と較正性能を両立させる。
    • LoRAを用いた適応は,完全なファインチューニングと同等またはそれ以上の較正性能を達成しつつ,パラメータ効率を大幅に向上させた。
    • 共有ハイパーネットワークによるLoRA係数の生成は,標準的なLoRAファインチューニングと同等の性能を示し,CoLAデータセットではより高いMCCを達成した。
    • 適応空間の制約は,ECEを改善する強力な正則化効果を持つが,下流タスクの精度とのバランスが重要である。

    Link: https://arxiv.org/abs/2603.19278

  • 特徴量ベースモデルから生成AIへ:構成的応答採点における妥当性証拠 [cs.CL, cs.CL, cs.AI, cs.CY]目的:構成的応答採点システムにおける妥当性証拠の収集に関する提言
    • 高 stakes テストにおいて,AIによる自動採点は効率化と公平性の確保に不可欠である。
    • 従来の手法では,特徴量の設計に手間がかかり,性能向上の限界があった。
    • 生成AIの活用における妥当性判断基準を明確化し,信頼性の高い採点システム構築を目指す。
    • 生成AIの採点システムでは,透明性の欠如など特有の問題があり,より広範な妥当性証拠が必要となる。
    • 6-12年生の論説文データを用いて,異なる採点システムにおける妥当性証拠の収集方法を提示した。
    • 妥当性論証には,一貫性など,生成AI特有の複雑な考慮事項が多数存在することが示された。

    Link: https://arxiv.org/abs/2603.19280

  • URAG:検索拡張大規模言語モデルにおける不確実性定量化のためのベンチマーク [cs.CL, cs.AI, cs.IR]目的:検索拡張大規模言語モデルにおける不確実性の評価
    • 大規模言語モデルの知識集約型応用が広がる中で,その信頼性が重要課題となっている。
    • 既存の評価指標は主に正答率に偏っており,モデルの不確実性評価が不十分である。
    • 検索拡張による不確実性の影響を定量化し,信頼性の高いシステム構築を目指す。
    • URAGベンチマークを構築し,医療,プログラミング,科学など多様な分野で評価を実施した。
    • 正答率向上と不確実性低減が一致する一方,検索ノイズ下ではその関係が崩れることが示された。
    • 単純なモジュール型RAGが,複雑な推論パイプラインより優れた精度と不確実性のトレードオフを示すことがわかった。

    Link: https://arxiv.org/abs/2603.19281

  • 独立エージェント大規模言語モデルにおけるフレーミング効果:クロスファミリー行動分析 [cs.CL, cs.AI]目的:大規模言語モデルにおけるフレーミング効果の影響
    • 現実の応用ではLLMが独立して行動するため,意思決定のメカニズム理解が重要である。
    • LLMの意思決定は,プロンプトの表現方法によって左右される可能性がある。
    • 独立エージェントLLMにおけるフレーミング効果を定量的に評価し,バイアスを軽減する。
    • プロンプトのフレーミングが,選択分布に有意な影響を与えることが示された。
    • リスク回避的な選択肢への傾向が観察され,表面的な言語的手がかりが論理的に同等の表現を上書きすることもある。
    • 成功にリスクを伴う場合,協調的合理性よりも道具的合理性を優先する傾向が示唆された。

    Link: https://arxiv.org/abs/2603.19282

  • 大規模言語モデルを用いたカテゴリ駆動型自動アルゴリズム設計 [cs.CL, cs.NE, cs.AI]目的:自動アルゴリズム設計における安定性と性能向上
    • アルゴリズム設計は計算機科学の根幹であり,問題解決の効率を大きく左右する。
    • LLMに基づくアルゴリズム生成は不安定になりやすく,早期収束の問題を抱えている。
    • アルゴリズムカテゴリの多様性を維持し,進化の安定性を高めることを目指す。
    • CDEoHは,アルゴリズムカテゴリを明示的にモデル化し,性能とカテゴリ多様性を両立させる。
    • 実験の結果,単一の進化方向への収束を抑制し,進化の安定性が大幅に向上した。
    • 様々な規模の組合せ最適化問題において,CDEoHは一貫して優れた平均性能を示した。

    Link: https://arxiv.org/abs/2603.19284

  • mmWave車載ネットワークにおけるユーザー関連付けとビームフォーミングのためのビーム認識カーネル化コンテキストバンディット [cs.IT, cs.LG, math.IT]目的:mmWave車載ネットワークにおけるユーザー関連付けとビームフォーミングのための最適な行動決定
    • 高速大容量通信を実現するmmWave帯域は,次世代自動車通信の鍵となる技術である。
    • mmWave帯域のチャネルは時間とともに大きく変動するため,頻繁なチャネル推定が必要となる。
    • 過去のデータと機械学習を用いて,チャネル推定のオーバーヘッドを削減し,効率的な通信を行う。
    • 提案手法BKC-UCBは,過去のコンテキストと伝送レートを利用し,追加のチャネル測定なしに伝送レートを推定する。
    • BKC-UCBはカーネル法を用いることで,コンテキストと伝送レートの非線形な関係を捉え,学習を可能とする。
    • イベントトリガー型情報共有メカニズムにより,通信オーバーヘッドを抑えつつ学習効率を向上させる。

    Link: https://arxiv.org/abs/2603.19285

  • 専門家推測による混合エキスパートの推論高速化 [cs.LG, cs.AI]目的:混合エキスパートモデルにおける推論の高速化
    • 大規模言語モデルの性能向上には,モデルの規模拡大が不可欠である。計算効率の良い構造が求められている。
    • 混合エキスパートモデルは,メモリ制約下ではCPU-GPU間のデータ転送がボトルネックとなりやすい。
    • 内部表現を用いたエキスパートの予測により,データ転送と計算の並列化を目指す。
    • 提案手法により,出力トークンあたりの時間(TPOT)を最大14\%削減することに成功した。
    • 内部表現から将来のエキスパートを高い精度で予測できることが示された。
    • 精度低下が認められるケースでは,軽量な推定器が予測精度を向上させ,性能劣化を抑制した。

    Link: https://arxiv.org/abs/2603.19289

  • スパイク変換器のためのニューラルダイナミクス自己注意機構 [cs.NE, cs.AI]目的:スパイク変換器のエネルギー効率と性能のバランス改善
    • エッジビジョンアプリケーションにおいて,エネルギー効率と性能の両立が重要課題である。
    • 既存のスパイク変換器は,性能面で従来のニューラルネットワークに劣り,メモリ使用量が多い。
    • スパイク自己注意機構における局所性バイアスの欠如と,大規模な注意行列の保存が問題である。
    • 提案手法LRF-Dynは,局所受容野を持つスパイクニューロンを用いて注意計算を行い,メモリ要件を削減する。
    • LRF-Dynは,隣接領域に高い重みを割り当てることで,局所モデリングを強化し,性能を向上させる。
    • 電荷-発火-リセットダイナミクスにより,注意行列の明示的な保存が不要となり,推論時のメモリ使用量を削減する。

    Link: https://arxiv.org/abs/2603.19290

  • 回帰モデルの比較分析のための可視化手法 [cs.LG, cs.AI, stat.ML]目的:回帰モデルの性能比較を可能にする可視化手法
    • 回帰分析は広く研究されており,様々な手法が存在する。
    • 適切な手法の選択が難しく,性能比較に手間がかかる。
    • 従来の集約的な評価指標の限界を克服し,詳細な性能分析を可能にする。
    • 本研究では,2次元空間での残差分析に基づき,2つのモデルの誤差を同時に評価する可視化手法を提案する。
    • Mahalanobis距離を用いることで,データ内の相関やスケールの違いを考慮し,誤差分布をより正確に表現する。
    • 誤差のパーセンタイル分布をカラーマップで可視化することで,高密度領域や外れ値を容易に特定し,モデル性能の深い理解を促進する。

    Link: https://arxiv.org/abs/2603.19291

  • 人間会話データ資源を用いた協調性の自動分析:レビュー [cs.CL, cs.AI]目的:協調性分析のためのタスク指向人間間会話データの活用
    • 協調性は高度な人間行動であり,その理解は人間社会の効率的な機能に不可欠である。
    • 協調性分析は主観的な評価に依存する部分が多く,客観性と再現性に課題がある。
    • タスク指向会話データを用いることで,協調性の分析に新たな客観的根拠を提供する。
    • 本レビューでは,協調性分析に関連する理論,コーディング方式,タスク,モデリング手法を包括的に整理した。
    • タスク指向会話データ資源の活用方法について議論し,今後の研究における指針を示すことを目指した。
    • このレビューが,協調性分析の実践的なリソースとなり,未開拓分野の発見に繋がることを期待する。

    Link: https://arxiv.org/abs/2603.19292

  • LLM誘導マルチビュー推論蒸留によるフェイクニュース検出 [cs.CL, cs.AI]目的:フェイクニュース検出のためのLLM誘導マルチビュー推論蒸留
    • 社会における誤情報の拡散を抑制するため,マルチモーダルなフェイクニュース検出は重要である。
    • 既存手法は,マルチビューの判断や融合が不十分,LLMの計算コストが高いという課題がある。
    • 本研究は,包括的なマルチビュー推論と効率的な知識蒸留により,これらの課題を解決することを目指す。
    • LLM-MRDは,最先端のベースラインと比較して,有意に高い性能を示すことが実験により明らかになった。
    • 全データセットと競合手法において,精度(ACC)が平均5.19%,F1-Fakeが6.33%向上した。
    • 提示手法は,複雑な推論から得られた知識を効率的に蒸留し,学生モデルの性能を向上させている。

    Link: https://arxiv.org/abs/2603.19293

  • ユーザーコンテキストと応答間の相互情報量を最大化することで,追加データなしにLLMのパーソナライズを向上させる [cs.LG, cs.AI, cs.CL]目的:LLMのパーソナライズ
    • LLMは様々な分野で性能が向上しているが,高品質なデータの収集は高コストである。
    • 既存データはすでに活用されており,外部の検証なくモデルを改善する枠組みが必要である。
    • ユーザーコンテキストと応答間の相互情報量を最大化し,自己改善を実現すること。
    • 提案手法MIPOは,プロンプトに対する正例応答と無関係なプロンプトに対する負例応答を生成し,DPOを用いて相互情報量を最大化する。
    • 様々なサイズのLlama-およびQwen-Instructモデルで,MIPOは実ユーザーデータを用いたパーソナライズタスクにおいて3-40%の改善を達成した。
    • MIPOは,追加データや人間の監督なしに,数学や多肢選択問題の性能も1-18%向上させる可能性を示唆している。

    Link: https://arxiv.org/abs/2603.19294

  • 脳SCL:サブタイプ誘導対照学習による脳障害診断 [cs.LG]目的:脳障害診断のためのサブタイプ誘導対照学習フレームワーク
    • 精神疾患の多様性は,正確な診断や治療戦略の確立を困難にするため,その理解が重要である。
    • 対照学習において,患者間の大きな異質性により,適切な正例ペアの定義が困難である。
    • 患者の異質性を潜在的なサブタイプとして捉え,識別的な表現学習を誘導することを目的とする。
    • 提案手法は,臨床テキストとBOLD信号から学習されたグラフ構造を組み合わせた多視点表現を用いる。
    • 潜在サブタイプを明らかにするために,教師なしスペクトルクラスタリングを実施する。
    • 実験結果から,サブタイププロトタイプグラフが対照学習を効果的に誘導し,最先端の手法を上回る性能が確認された。

    Link: https://arxiv.org/abs/2603.19295

  • 実行時活性化認識量子化によるLLM推論の高速化 [cs.LG, eess.SP]目的:大規模言語モデルの推論高速化
    • 大規模言語モデルの利用拡大のためには,計算資源の効率的な利用が不可欠である。
    • 既存の量子化手法はキャリブレーションデータに依存し,未知のタスクへの汎化が課題となる。
    • 推論時に動的に量子化を行うことで,タスク間のドメインシフト問題を解決する。
    • 提案手法であるTTQは,推論時にモデルを量子化し,計算負荷を軽減する。
    • TTQはオンラインキャリブレーションにより,タスクに依存せず活性化を認識した量子化を実現する。
    • 実験により,TTQが最先端の量子化手法を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.19296

  • 混沌の中のCLaRE:LLM編集における波及効果を予測するための表現エンタングルメントの定量化 [cs.LG]目的:LLM編集における波及効果の予測
    • 大規模言語モデルは知識の陳腐化や誤りを含むため,継続的な更新が不可欠である。
    • LLMの編集は,意図しない振る舞いの変化である波及効果を引き起こす可能性がある。
    • 表現レベルでのエンタングルメントを定量化し,波及効果の発生箇所を特定する。
    • CLaREは,単一の中間層の順伝播アクティベーションを用いて事実間のエンタングルメントを定量化する。
    • CLaREは,波及効果とのSpearman相関係数において平均62.2%の改善を達成し,ベースラインよりも2.74倍高速,GPUメモリ使用量も2.85倍削減された。
    • CLaREは,事実表現の計算と保存に必要なストレージ容量も大幅に削減する。

    Link: https://arxiv.org/abs/2603.19297

  • 原子力発電所における運転員の状況認識の定量的評価と予測のための動的ベイジアン機械学習フレームワーク [cs.LG]目的:原子力発電所の運転員の状況認識の定量的評価と予測
    • 複雑な原子力制御環境において,運転員の状況認識はヒューマンエラー防止に不可欠である。
    • 従来の状況認識評価手法は静的かつ遡及的であり,状況認識の動的な変化を捉えきれない。
    • 本研究は,不確実性下での状況認識の信頼性を時間的に推論し,予測モデルを構築することで,この問題を解決する。
    • 提案する動的ベイジアン機械学習フレームワーク(DBML SA)は,確率的推論とデータ駆動型知能を融合し,状況認識の定量的モデリングを可能にする。
    • 過去の運用イベント報告書を用いて解析した結果,トレーニング品質とストレスダイナミクスが状況認識の低下に大きく影響することが示された。
    • DBML SAは,リアルタイムな認知モニタリングと早期警戒予測を可能にし,次世代デジタル主制御室における人間と機械の信頼性管理に貢献する。

    Link: https://arxiv.org/abs/2603.19298

  • PRIME-CVD:心血管リスクモデリング教育のためのパラメトリックレンダリング情報医療環境 [cs.LG]目的:心血管リスクモデリング教育のための情報医療環境
    • 医療情報学と機械学習の進歩は著しいが,プライバシー保護の観点から,教育・研究用の患者データは入手困難である。
    • 実際の電子カルテデータが入手困難なため,心血管リスクモデリングにおける再現性,透明性,実践的なトレーニングが制限されている。
    • プライバシーリスクを回避しつつ,データクリーニングや因果推論などの教育を可能にする合成データセットを開発する。
    • PRIME-CVDは,5万人の成人を対象とした心血管疾患の一次予防のための合成データセットを公開している。
    • このデータセットは,オーストラリアの統計と疫学的推定値を用いて生成され,個人情報を含まない。
    • PRIME-CVDは,データ分析,因果推論,政策関連リスクモデリングの教育に役立つ。

    Link: https://arxiv.org/abs/2603.19299

  • 臨床クラスレベルアンラーニングのためのパラメータ効率的トークン埋め込み編集 [cs.DL, cs.LG, cs.AI]目的:臨床言語モデルにおける機密情報除去手法
    • 臨床データ利用におけるプライバシー保護は重要であり,法的規制や倫理的配慮が求められる。
    • モデルの再学習なしに,特定の情報を効果的に削除し,かつモデルの有用性を維持することが課題。
    • パラメータ変更を最小限に抑えつつ,特定のクラスレベルでの記憶の消去を実現すること。
    • Sparse Token Embedding Unlearning (STEU) は,わずか0.19%のパラメータ変更で,対象クラスの忘却をほぼ完全に達成した。
    • MIMIC-IVを用いた実験では,忘却F1スコアは0.0004と極めて低く,維持されたタスク性能は平均F1スコア0.4766を維持した。
    • 深層エンコーダ表現を変更せずに,スパースな埋め込み編集による標的的な行動的アンラーニングが可能であることが示唆された。

    Link: https://arxiv.org/abs/2603.19302

  • リウマチ学における観察研究のSTROBEチェックリスト評価における大規模言語モデル,人間レビュー担当者,著者の合意度 [cs.DL, cs.AI]目的:リウマチ学の観察研究におけるSTROBEチェックリスト評価の合意度
    • 研究の質保証において,報告基準の遵守は重要であり,適切な評価が不可欠である。
    • STROBEチェックリストの評価は,時間と労力を要し,主観的な判断が入りやすいという課題がある。
    • 大規模言語モデルの活用により,STROBEチェックリスト評価の効率化と客観性向上を目指す。
    • 全体的な合意度は85.0%であり,提示と文脈の領域ではほぼ完全な合意が見られた。
    • 方法論的厳密さの領域では実質的な合意が確認されたが,複雑な項目では大規模言語モデルの合意度が低下した。
    • 大規模言語モデルは基本的なチェックには有用だが,複雑な方法論的評価には専門家の判断が依然として必要である。

    Link: https://arxiv.org/abs/2603.19303

  • PhyGile:物理プレフィックスによる誘導運動生成を用いたアジャイルな汎用ヒューマノイドモーション追従 [cs.RO, cs.AI, cs.CV]目的:アジャイルで表現力豊かな全身運動を実世界で実現するための運動生成手法
    • ヒューマノイドロボットは,実環境での多様なタスク遂行が期待され,そのためには高度な運動制御が不可欠である。
    • 既存のテキストから運動生成モデルは,人間のモーションデータに依存しており,ロボットへの直接適用時に物理的な実行可能性が課題となる。
    • ロボット固有の運動生成と汎用モーション追従を連携させ,物理的な制約を満たすアジャイルな運動を実現すること。
    • PhyGileは,ロボット固有の運動生成と汎用モーション追従を統合し,物理プレフィックスによる誘導を行うことで,実行可能性の高い運動を生成する。
    • GMTコントローラをカリキュラム学習と専門家混合スキームで訓練し,大規模なロボットモーションデータでロバスト性を向上させている。
    • 物理由来のプレフィックスを用いたファインチューニングにより,複雑な運動の安定した実行を可能にし,従来の限界を超えるアジャイルな運動を実現した。

    Link: https://arxiv.org/abs/2603.19305

  • 法的な判断予測のための,指示に基づいた同僚チームによる検証可能な進化的推論 [cs.IR, cs.AI, cs.LG]目的:法的な判断予測における,適用される法律条項,罪状,および刑罰の予測
    • 法的判断予測は,法制度の透明性と公平性を高める上で重要な役割を担う。
    • 既存の手法は,静的で一度きりの予測に留まり,検証可能な推論や法解釈の進化に対応できない。
    • 本研究は,検証可能な推論と継続的な学習を可能にする,進化的な法的判断予測モデルを構築する。
    • 提案手法VERDICTは,専門のエージェントが連携し,検証と修正を繰り返すことで,透明性の高い推論プロセスを実現した。
    • ハイブリッド法廷記憶(HJM)を用いることで,過去の事例から得られた知識を継続的に更新し,法解釈の進化に対応した。
    • CAIL2018およびCJO2025データセットにおいて,最先端の性能を達成し,時間的な一般化性能も示した。

    Link: https://arxiv.org/abs/2603.19306

  • 事前知識に基づくグラフ学習による異種脳ネットワークにおけるサブネットワーク間の相互作用の探索 [cs.LG, cs.AI]目的:異種脳ネットワークにおけるサブネットワーク間の相互作用のモデリング
    • 精神疾患の診断や機能的経路の特定には,脳機能サブネットワーク間の複雑な相互作用の理解が不可欠である。
    • 既存のTransformerベースの手法では,学習サンプル数が少ないため,基盤となるサブネットワーク間の相互作用を学習することが困難である。
    • 事前知識を明示的に組み込むことで,サブネットワーク間の相互作用学習を促進し,診断精度を向上させることを目指す。
    • 提案手法KD-Brainは,意味的条件付き相互作用メカニズムと病理学的整合性制約を導入することで,事前知識を効果的に活用する。
    • 様々な精神疾患の診断タスクにおいて,最先端の性能を達成し,精神病理学と一致する解釈可能なバイオマーカーを特定した。
    • KD-Brainのコードは公開されており,研究の再現性と発展に貢献する。

    Link: https://arxiv.org/abs/2603.19307

  • GT-Space:真値特徴空間を用いた異種協調知覚の強化 [cs.LG, cs.AI, cs.MA]目的:異種エージェント間の協調知覚における特徴量アラインメント手法
    • 自動運転において,複数のエージェントが知覚情報を共有することで,センシング能力の向上が期待される。
    • 異なるセンサやモデル構造を持つエージェントからの異種特徴量を扱うことが,データ融合の課題となっている。
    • 真値ラベルから共通の特徴空間を構築し,エージェント間の特徴量アラインメントを効率化することを目的とする。
    • GT-Spaceは,真値特徴空間を構築することで,エージェントが少ない計算量で特徴量をアラインメントすることを可能にした。
    • シミュレーションデータセット(OPV2V,V2XSet)と実データセット(RCooper)における実験で,GT-Spaceが既存手法を上回る検出精度を示した。
    • 多様なモダリティ間の組み合わせに対して,頑健な性能を発揮することが確認された。

    Link: https://arxiv.org/abs/2603.19308

  • MemReward:ラベル数の少ないLLM報酬予測のためのグラフベースの経験記憶 [cs.HC, cs.LG, cs.AI]目的:LLMの報酬予測におけるグラフベースの経験記憶
    • LLMの複雑な推論能力向上には,強化学習による訓練が不可欠であり,その鍵は質の高い報酬ラベルにある。
    • 報酬ラベルの取得には専門知識や時間が必要であり,大規模なデータセット構築が困難であるという課題がある。
    • 本研究は,ラベル数の少ない状況下でもLLMの性能を最大限に引き出すための新しい手法を提案する。
    • MemRewardは,限られたラベル数(20%)で,Oracleの性能の97.3%(3Bモデル)および96.6%(1.5Bモデル)を達成した。
    • 特に,ドメイン外タスクにおいてはOracleを上回る性能を示し,汎化能力の高さが確認された。
    • ラベル予算の増加に伴い,性能はスムーズに向上し,70%のラベル数でOracleの99.4%に達した。

    Link: https://arxiv.org/abs/2603.19310

  • LeWorldModel:ピクセルからの安定したエンドツーエンド結合埋め込み予測アーキテクチャ [cs.CL, cs.LG, cs.AI]目的:世界モデルの学習フレームワーク
    • コンパクトな潜在空間での世界モデル学習は,AI研究の重要な方向性である。
    • 既存手法は,表現の崩壊を防ぐために複雑な損失関数や事前学習が必要である。
    • LeWorldModelは,安定したエンドツーエンド学習による世界モデルの構築を目指す。
    • LeWorldModelは,2つの損失項のみを用いて,生のピクセルからエンドツーエンドで安定した学習を可能にした。
    • 従来の代替手法と比較して,調整可能な損失ハイパーパラメータを大幅に削減した。
    • わずか1500万パラメータで,ファウンデーションモデルベースの世界モデルよりも最大48倍高速に計画を立てられる。

    Link: https://arxiv.org/abs/2603.19312