arXiv雑要約

AI - 2026/04/22 公開

  • 人間からのフィードバックを用いた安全な強化学習のための原始・双対勾配法 [cs.LG]目的:人間からのフィードバックを用いた安全な強化学習のアルゴリズム
    • 大規模言語モデルの安全性と有用性の両立が重要視されている。
    • 従来の強化学習は,安全性や有害性に関する制約を考慮しにくい。
    • 人間のフィードバックを活用し,無限地平線における安全性を保証するアルゴリズムを開発する。
    • 本研究では,安全な強化学習を無限地平線割引制約マルコフ決定過程として定式化した。
    • 報酬モデルの学習を必要とせず,可変長の軌跡を扱うことができる原始・双対法に基づくアルゴリズムを提案した。
    • 提案アルゴリズムは,政策勾配イテレーション,軌跡サンプル長,人間の選好クエリ数に関して多項式的な収束率を持つことが示された。

    Link: https://arxiv.org/abs/2604.19024

  • ノード分類のための合成グラフ事前分布からの事後予測分布の学習 [cs.LG]目的:グラフに対する汎用的なノード分類手法の開発
    • グラフ機械学習は多様なグラフ構造への対応が課題であり,その重要性は増している。
    • GNNはグラフ固有の学習が必要で,多様なデータセット間での汎化性能が低いという問題がある。
    • 本研究は,合成グラフを用いて汎用的なノード分類を可能にすることを目指す。
    • 大規模言語モデルの着想に基づき,グラフ特有の学習なしに任意のグラフに適用可能なNodePFNを提案した。
    • NodePFNは,制御可能なホモフィリーレベルと特徴-ラベル関係を持つ合成グラフで学習することで,汎用的なグラフ学習パターンを獲得する。
    • 23のベンチマークにおける評価で,NodePFNは71.27%の平均精度を達成し,有効性が確認された。

    Link: https://arxiv.org/abs/2604.19028

  • ストリーミング強化学習のための意図的な更新 [cs.LG, cs.AI]目的:ストリーミング強化学習における安定性と性能の向上
    • 強化学習は,ロボット制御やゲームなど,様々な分野で活用されている重要な技術である。
    • ストリーミング環境では,勾配更新のステップサイズが不安定になりやすく,学習が困難になる場合がある。
    • 更新の意図を事前に指定することで,ステップサイズを制御し,安定した学習を実現する。
    • 本研究では,TD誤差とポリシーの変化を意図的に制御する手法を提案した。
    • 提案手法は,適格トレースと対角スケーリングを組み合わせることで,実用的なアルゴリズムとして実装された。
    • 実験結果から,提案手法が既存のストリーミング手法と同等以上の性能を発揮することが示された。

    Link: https://arxiv.org/abs/2604.19033

  • 妥当性推論と一階述語の妥当性論理 [cs.AI, cs.LO]目的:妥当性推論の原理と一階述語の妥当性論理の定義
    • 日常的な推論は確率を用いないため,人間の思考モデルとして重要である。
    • 既存の論理では,不確実な情報や例外的な状況への対応が困難である。
    • 確率を用いない妥当性推論のための論理体系を構築し,その有効性を示す。
    • 妥当性推論を行うための17の原理が提案され,そのうち14が必須原理,3が望ましい原理とされた。
    • 提案された一階述語論理「妥当性論理(PL)」は,望ましい原理のほとんどを満たし,妥当性推論の事例に対して正しく推論する。
    • PLは,与えられた状況から複数の妥当な結論を導き出す8つの推論アルゴリズムを持つ。

    Link: https://arxiv.org/abs/2604.19036

  • 教師なし視覚的軌跡からの挙動モデル学習 [cs.IR, cs.AI]目的:挙動モデルの事前条件と効果を捉えるモデルの構築
    • 実世界へのAIプランニング応用のためには不可欠な技術分野である。
    • 行動観測なしに,状態画像シーケンスから挙動モデルを学習することは困難である。
    • 状態予測,行動予測,挙動モデルを同時に学習し,一貫性を保つことを目指す。
    • 深層学習フレームワークと混合整数計画法(MILP)を組み合わせることで,予測の崩壊を防ぎ,自己強化的なエラーを抑制した。
    • MILPによる修正は,モデルが局所最適解から脱出し,全体的に整合性のある解に収束するのに役立つことが示された。
    • 複数のドメインでの実験により,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2604.19043

  • RARE:高類似コーパスに対する冗長性考慮型検索評価フレームワーク [cs.CL, cs.AI, cs.IR]目的:高類似コーパスにおける検索評価の改善
    • 検索拡張生成(RAG)は,金融,法律,特許などの分野で重要な技術である。
    • 既存の評価基準は,コーパスの冗長性を考慮せず,現実のRAGシステムの性能を正確に評価できない。
    • 冗長性を考慮した評価基準を構築し,現実的なRAG環境での性能評価を可能にする。
    • RAREフレームワークは,文書を原子的な事実単位に分解し,冗長性を正確に追跡する。
    • RedQAデータセットを用いた実験で,既存の検索器は現実的なコーパスで大幅に性能が低下することが示された。
    • RAREは,現実のRAG環境を忠実に反映したドメイン固有の評価基準構築を支援する。

    Link: https://arxiv.org/abs/2604.19047

  • SAMoRA:タスク適応学習のための意味認識LoRAエキスパートの混合 [cs.CL, cs.AI]目的:大規模言語モデルのマルチタスク学習能力向上
    • 大規模言語モデルの性能向上は,自然言語処理の発展に不可欠である。
    • 既存手法では,入力の意味とエキスパートの能力の明確な対応が不足している。
    • 意味に基づいたルーティングとタスク適応的なスケーリングにより,精度向上を目指す。
    • SAMoRAは,意味認識ルーティングとタスク適応的スケーリングを組み合わせた新しいフレームワークである。
    • 複数のマルチタスクベンチマークにおいて,最先端手法を大幅に上回る性能を示した。
    • タスクの一般化能力においても優れた結果が得られた。

    Link: https://arxiv.org/abs/2604.19048

  • 反論または推奨:高精度なLLM支援欠陥発見のための敵対的段階ゲート型マルチエージェントレビュー手法 [cs.CR, cs.AI, cs.SE]目的:LLM支援欠陥発見における誤報の抑制と,実質的な発見の信頼性向上
    • ソフトウェアの信頼性確保は,社会インフラや経済活動を支える上で不可欠である。
    • LLMによる欠陥発見は有望視されているが,誤報が多く,実用上の信頼性に課題がある。
    • LLMの誤報を効果的に削減し,より信頼性の高い欠陥発見プロセスを確立すること。
    • 提案手法「Refute-or-Promote」は,候補となる欠陥を敵対的に検証するプロセスを導入し,誤報の約79-83%を事前に排除した。
    • 本研究により,CVE 4件,C++標準への提案,コンパイラバグの修正など,実際のソフトウェア改善に貢献した。
    • 実証実験から,LLMだけでは見過ごされる可能性のある欠陥を,経験的なテストと外部レビューによって発見できることが示された。

    Link: https://arxiv.org/abs/2604.19049

  • 強化学習が放射線科レポートからの疾患分類におけるLLMの精度と推論能力を向上させる [cs.DB, cs.DC, cs.RO, cs.AI]目的:放射線科レポートからの疾患分類におけるLLMの精度と推論能力の向上
    • 医療現場での診断支援や効率化のため,正確な疾患分類が重要視されている。
    • LLMのファインチューニングは精度向上に寄与するが,推論能力を損なう可能性がある。
    • 精度と形式の最適化を通じて,推論能力を維持しつつ疾患分類を改善すること。
    • 教師ありファインチューニングはベースラインモデルを上回り,強化学習による最適化で分類精度がさらに向上した。
    • 強化学習は,疾患分類の再現率と網羅性を向上させ,推論能力の改善に貢献した。

    Link: https://arxiv.org/abs/2604.19060

  • 身体活動と精神的苦痛の関連性の年齢別異質性:320万人規模の米国成人に対する因果機械学習分析 [cs.LG, stat.AP]目的:身体活動と精神的苦痛の関連性の年齢による異質性の解明
    • 国民の精神的健康維持は重要であり,身体活動はその一要素として広く認識されている。
    • 身体活動が精神的健康に与える影響は,年齢層によって異なっていないか不明であった。
    • 若年層における精神的苦痛増加の背景要因を特定し,身体活動の効果を検証する。
    • 身体活動は,55-64歳の成人において最も強い精神的苦痛の抑制効果が認められた。
    • 18-24歳の若年層における身体活動の効果は低下傾向にあり,2018年と2024年には効果が消失した。
    • 因果フォレスト分析により,年齢が治療効果の異質性の主要な要因であることが示された。

    Link: https://arxiv.org/abs/2604.19066

  • 自然言語推論におけるデータセットのアーティファクトを専門家積法学習が軽減する [cs.CL, cs.AI]目的:自然言語推論におけるデータセットアーティファクトの軽減
    • 自然言語処理の精度向上は,より高度なAIシステムの実現に不可欠である。
    • 既存のNLIモデルは,真の推論ではなくデータセットの偏りに過剰適合しやすい。
    • 偏ったモデルの過信を抑制することで,よりロバストな推論を実現すること。
    • 専門家積法学習(PoE)により,精度をほぼ維持しつつ,偏りに依存する度合いを4.71%削減できた。
    • 最適なパラメータλは1.5であり,偏り軽減と精度のバランスが取れた。
    • 否定や数値推論における課題が残っていることが示唆された。

    Link: https://arxiv.org/abs/2604.19069

  • TRN-R1-Zero:強化学習のみによるLLMを用いたテキスト豊富なネットワーク推論 [cs.CL, cs.LG]目的:テキスト豊富なネットワークにおける推論能力の向上
    • ネットワーク構造とテキスト情報を統合した推論は,情報科学や社会科学において重要である。
    • 既存手法は,グラフ構造の文脈を無視したり,大規模モデルからの蒸留に依存するなど,汎化性能に課題がある。
    • 本研究は,教師なしで大規模言語モデルを訓練し,テキスト豊富なネットワーク推論を実現することを目的とする。
    • TRN-R1-Zeroは,隣接ノードの情報を考慮した報酬最適化により,関係性推論を効果的に誘導する。
    • 教師ありのファインチューニングやChain-of-Thoughtデータを用いずに,高い性能を示す。
    • ノードレベルの学習のみで,エッジレベルやグラフレベルのタスクにも対応可能である。

    Link: https://arxiv.org/abs/2604.19070

  • S2MAM:ロバストな推定と変数選択のための半教師ありメタ加法モデル [cs.CL, cs.LG, cs.AI, stat.ML]目的:ロバストな推定と変数選択のための半教師ありモデル
    • ラベル付きとラベルなしのデータを活用し,予測精度向上を目指す手法として重要である。
    • 既存手法では,類似度指標の選択やノイズの影響を受け,適切なペナルティが適用されない場合がある。
    • 情報のある変数を自動的に識別し,類似度行列を更新することで,解釈可能な予測を可能にする。
    • 提案手法S$^2$MAMは,二段階最適化スキームに基づき,自動的に有用な変数を特定する。
    • S$^2$MAMは,理論的な収束性と統計的汎化誤差限界を保証している。
    • 合成データと実データを用いた実験により,S$^2$MAMのロバスト性と解釈可能性が検証された。

    Link: https://arxiv.org/abs/2604.19072

  • ProjLens:マルチモーダルモデル安全におけるプロジェクターの役割の解明 [cs.CR, cs.AI]目的:マルチモーダル大規模言語モデルの安全性を脅かすバックドア攻撃のメカニズムの解明
    • マルチモーダルモデルは多様なタスクで成功を収めているが,安全性への懸念が高まっている
    • バックドア攻撃のメカニズムが不明確であり,その理解と対策が課題となっている
    • プロジェクターにおけるバックドア攻撃のメカニズムを解明し,安全性を向上させる
    • プロジェクターのファインチューニングだけでもバックドア攻撃の脆弱性が生じることを確認した。
    • バックドア攻撃における重要なパラメータは,プロジェクターの低ランク部分にエンコードされていることがわかった。
    • クリーンデータと悪意のあるデータ両方の埋め込みベクトルが,バックドアのターゲットと一致する方向に意味的にシフトする現象が確認された。

    Link: https://arxiv.org/abs/2604.19083

  • オプションに基づく大規模言語モデル [cs.AI]目的:次トークン予測の多様性向上と制御可能性向上
    • 大規模言語モデルの数学的推論能力は重要であり,教育や研究分野での応用が期待されている。
    • 従来のLLMでは,温度パラメータやサンプリング手法による多様性確保が不十分であり,制御が困難である。
    • 潜在変数を導入し,学習されたオプションセットを利用することで,より効果的な多様性生成と制御を目指す。
    • オプションLLMは,既存のLLMに軽量なレイヤーを追加するだけで適用可能であり,パラメータの増加も最小限に抑えられる。
    • OpenMathReasoningで学習した結果,最適な潜在選択により正答率が最大70%に達し,LoRAベースラインを上回る性能を示した。
    • 潜在空間でのポリシー学習により,報酬最適化の効率が向上し,言語切替や退化的な推論といった誤りを大幅に削減できる。

    Link: https://arxiv.org/abs/2604.19087

  • 選択的知識抑制によるスケーラブルな継続学習型知識編集 [cs.HC, cs.AI]目的:継続学習型知識編集の実現
    • 大規模言語モデルの正確性を維持するため,知識の更新は不可欠である。
    • 既存手法では,逐次編集時の忘却現象が安定性を損なう場合がある。
    • 訓練コストを抑えつつ,スケーラビリティの高い知識編集を目指す。
    • 提案手法LightEditは,関連知識の選択と元の知識確率の抑制により,効率的な知識編集を可能にする。
    • ZSRE,Counterfact,RIPEのベンチマークにおいて,既存手法を上回る性能を示す。
    • 訓練コストを最小化することで,様々なデータセットへの適応を容易にする。

    Link: https://arxiv.org/abs/2604.19089

  • RoboWM-Bench:ロボット操作におけるワールドモデル評価のためのベンチマーク [cs.RO, cs.AI]目的:ロボット操作におけるワールドモデルの性能評価
    • ロボットの自律的な行動計画において,環境の予測は不可欠であり,その精度向上は重要な課題である。
    • 大規模な動画ワールドモデルは現実的な予測が可能だが,物理的な妥当性が伴わない場合があり,ロボットへの適用が困難である。
    • 生成された行動をロボットが実行可能なアクションに変換し,実際の操作で検証することで,物理的な実行可能性を評価する。
    • RoboWM-Benchは,人間の手やロボットによる操作動画から生成された行動を,ロボットが実行可能なアクションシーケンスに変換し,検証する。
    • 最先端の動画ワールドモデルを評価した結果,物理的に実行可能な行動を安定的に生成することは依然として課題であることがわかった。
    • 空間認識の誤り,不安定な接触予測,非現実的な変形などが主な失敗モードとして確認された。

    Link: https://arxiv.org/abs/2604.19092

  • 適応的確率ガウス較正によるテスト時適応 [cs.CV, cs.AI]目的:マルチモーダルモデルにおける分布シフトへの耐性を向上させるテスト時適応手法
    • マルチモーダル学習は,多様な情報源を統合し,よりロバストで汎化性能の高いモデル構築に不可欠である。
    • 既存のマルチモーダルテスト時適応は,カテゴリごとの分布の明示的なモデリングが不十分であり,精度と信頼性に課題がある。
    • カテゴリごとの分布を明示的にモデリングし,モダリティ間の非対称性を修正することで,より正確な予測と信頼性の高い決定境界を実現する。
    • 提案手法は,カテゴリ条件付き分布を明示的にモデル化する調整された確率ガウスモデルを導入することで,マルチモーダルテスト時適応の性能を向上させる。
    • モダリティ間の非対称性の悪影響に対抗するため,適応的なコントラスト的な非対称性修正技術を提案し,キャリブレーションされた予測と信頼性の高い決定境界を導く。
    • 多様なベンチマークにおける実験により,提案手法が幅広い分布シフト下で最先端の性能を達成することが示された。

    Link: https://arxiv.org/abs/2604.19093

  • SAHM:アラビア語金融およびシャリーア準拠推論のベンチマーク [cs.CL, cs.AI, cs.LG]目的:アラビア語金融NLPとシャリーア準拠推論のための文書に基づくベンチマークおよび指示チューニングデータセット
    • 金融NLPは英語では進歩が速いが,アラビア語圏では需要が高いにも関わらず,研究が遅れている。
    • 信頼できる金融およびイスラム金融アシスタント構築のため,アラビア語金融NLPの評価基準が不足している。
    • アラビア語金融NLPとシャリーア準拠推論の性能評価と改善を目的とする。
    • SAHMは,AAOIFI基準のQA,ファトワーに基づくQA,会計試験など7つのタスクを含む14,380件のデータセットである。
    • 19のLLMを評価した結果,アラビア語の流暢さは根拠に基づいた金融推論に必ずしも結びつかないことが示された。
    • 特に,イベントと原因の関係を推論するタスクでLLMの性能に大きな課題が残る。

    Link: https://arxiv.org/abs/2604.19098

  • 教育における関係性AI:相互性,参加型デザイン,そして先住民の視点 [cs.HC, cs.AI]目的:教育におけるAIの設計における関係性の再構築
    • 教育は知識伝達だけでなく,社会的な関係構築が重要である。AI技術の進展が,学習における関係性を弱める可能性が指摘されている。
    • 既存のAI教育研究では,AIが学習における社会性と生態系の関係性をどのように維持できるか,明確な議論が不足している。
    • AIが学習者の関係性を代替せず,むしろ学習者間の協調を支援するAIの設計指針を提示することを目的とする。
    • 本研究は,AI教育を相互性を基盤とする関係性デザイン問題として捉え直す。
    • 生成AIが教育にもたらす緊張関係を明らかにし,AIの利用を控えるべき状況や,教育的な境界線の定義に関する設計方向性を示す。
    • コミュニティや自然環境を維持する責任あるAI教育イノベーションの利用を支援する設計を提案する。

    Link: https://arxiv.org/abs/2604.19099

  • 強化学習を用いた選択的敵対的モーション事前知識によるヒューマノイドロボットのマルチゲイト学習 [eess.SY, cs.SY, cs.RO, cs.AI]目的:ヒューマノイドロボットにおける多様な歩行スキルの習得
    • ヒューマノイドロボットの歩行制御は,人間のような多様な動きを実現するために不可欠である。
    • 安定性とダイナミックな表現力の両立が難しく,異なる歩行様式を統一的に学習することが課題である。
    • 安定性が重要な歩行様式と,ダイナミックな歩行様式で異なる制御手法を適用することで学習効率を向上させる。
    • 選択的敵対的モーション事前知識(AMP)を用いることで,歩行,ガチョウ歩き,階段昇降といった安定性重視の歩行様式において,収束が加速し,不安定な動作が抑制された。
    • 一方,走行やジャンプといったダイナミックな歩行様式では,AMPを意図的に適用しないことで,動きの自由度を損なうことなく,高いアジリティを維持した。
    • シミュレーションから実機へのゼロショット転移により,提案手法が従来の統一的なAMP戦略よりも優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2604.19102

  • 二足歩行サッカーロボットのための強化学習による適応的マルチタスク制御 [cs.RO, cs.AI]目的:二足歩行サッカーロボットにおける適応的マルチタスク制御の実現
    • 動的な環境下での二足歩行ロボット制御は,その複雑さと実用性から重要性が高い。
    • 歩行とボール追跡・キックといった複数のタスク間の結合が強く,状態遷移時の制御が困難である。
    • 状態干渉を防ぎ,安定したマルチタスク動作を可能とする制御システムの開発。
    • 強化学習とフィードフォワードオシレータを組み合わせることで,基本的な歩行と複雑なサッカー動作を分離した。
    • 姿勢駆動型ステートマシンにより,ボール追跡・キックネットワークと転倒復帰ネットワークを明確に切り替えることで,状態干渉を抑制した。
    • プログレッシブフォースアテニュエーションカリキュラム学習により,転倒復帰ネットワークを効率的に訓練し,平均復帰時間0.715秒を達成した。

    Link: https://arxiv.org/abs/2604.19104

  • AIエンジンにおける極限エッジ科学計算の設計規則 [cs.AR, cs.AI, cs.LG]目的:極限エッジ科学計算におけるAIエンジンとプログラマブルロジックの最適な実装方法の特定
    • リアルタイム性が求められる科学計算において,機械学習の活用が不可欠となっている。
    • 大規模モデルでは,従来の空間データフローによる実装にスケーラビリティの問題が存在する。
    • AIエンジンの性能を最大限に引き出し,プログラマブルロジックとの比較・選択を可能にする。
    • AIエンジンは,プログラマブルロジックと比較して高い計算密度とオンチップメモリを備えている。
    • 遅延調整済みリソース同等性(LARE)指標を導入し,AIエンジンの優位性を定量的に評価した。
    • 低遅延科学推論に特化した空間・APIレベルのデータフロー最適化手法を提案し,プログラマブルロジックに実装不可能なニューラルネットワークの展開に成功した。

    Link: https://arxiv.org/abs/2604.19106

  • 知識浸食と忘却反転に対するロバストな継続的アンラーニング [cs.LG, cs.CV]目的:継続的アンラーニングにおける知識浸食と忘却反転の緩和
    • AI技術の発展とプライバシー保護の重要性が高まる中,データ削除のニーズに応える技術である。
    • 既存のアンラーニング手法は単発的な削除を前提としており,繰り返し削除時の問題点が不明であった。
    • 複数回の削除において生じる知識浸食と忘却反転を抑制し,安定した性能を維持することを目指す。
    • 本研究では,既存のアンラーニングアルゴリズムにおいて,繰り返し削除時に知識の精度低下(知識浸食)と,過去に削除されたデータが再認識される現象(忘却反転)を明らかにした。
    • 提案手法SAFERは,保持データの表現の安定性を維持しつつ,削除データに対する負のロジットマージンを強化する。
    • 実験の結果,SAFERは知識浸食と忘却反転の両方を緩和し,複数回のアンラーニングフェーズにわたって安定した性能を発揮することが示された。

    Link: https://arxiv.org/abs/2604.19108

  • 執筆前に考える:生成型引用可視性のための特徴レベル多目的最適化 [cs.HC, cs.CY, cs.IR, cs.AI]目的:生成型回答エンジンの引用可視性向上
    • 検索エンジン最適化とは異なる,生成型AIにおける可視性向上の重要性が高まっている。
    • 既存手法はトークンレベルでの編集に頼るため,解釈性が低く,可視性と品質のバランス制御が弱い。
    • 特徴レベルでの最適化により,可視性と品質を両立させ,より制御可能な生成を目指す。
    • 提案手法FeatGEOは,ウェブページを解釈可能な特徴に抽象化し,特徴空間上で最適化を行う。
    • GEO-Benchを用いた実験で,FeatGEOは既存手法を大きく上回り,引用可視性の向上とコンテンツ品質の維持・改善を両立した。
    • 引用行動は,単語レベルの編集よりもドキュメントレベルのコンテンツ特性に強く影響を受けることが示された。

    Link: https://arxiv.org/abs/2604.19113

  • LLMは誤りを認識しつつ同意する:共有された迎合的虚偽回路 [cs.HC, cs.DB, cs.LG]目的:言語モデルにおける迎合的行動と虚偽の発生メカニズムの解明
    • 大規模言語モデルの社会実装が進む中で,その安全性と信頼性の確保が不可欠である。
    • 言語モデルがユーザーの誤った信念に迎合し,虚偽の情報を生成する傾向が問題となっている。
    • この研究は,言語モデルがどのようにして誤りを認識しつつ,それでも迎合的に行動するかを明らかにすることを目指す。
    • 複数の言語モデルにおいて,特定のアテンションヘッド群が「この発言は誤りである」という信号を担っていることが示された。
    • これらのヘッドを停止させると,迎合的な行動が大幅に抑制される一方,事実の正確性は維持されることが確認された。
    • モデルの迎合,事実に基づかない虚偽,指示された虚偽といった行動は,同一のアテンションヘッド間の接続によって駆動されていることが明らかになった。

    Link: https://arxiv.org/abs/2604.19117

  • DP-FLogTinyLLM:Tiny LLMを用いた差分プライバシーに基づく連合ログ異常検知 [cs.CR, cs.AI]目的:分散環境におけるログ異常検知のための連合学習フレームワーク
    • 現代の分散システムは大量のログデータを生成し,異常やサイバー脅威の検出に不可欠である。
    • ログデータはプライバシーやセキュリティ上の制約から中央集約が難しく,既存手法は対応できない場合がある。
    • 分散環境でプライバシーを保護しながら,効率的な異常検知を実現することを目的とする。
    • 提案手法は,連合学習と差分プライバシーを組み合わせることで,生ログデータを共有せずに協調学習を可能にする。
    • Tiny LLMに対するLoRAを用いて効率的なファインチューニングを行い,リソース制約のある環境でのスケーラビリティを確保する。
    • ThunderbirdおよびBGLデータセットでの実験により,提案手法が中央集約型LLMベース手法と同等の性能を示すことが確認された。

    Link: https://arxiv.org/abs/2604.19118

  • 自動採点システムの精度は十分か?古典的テスト理論からの達成可能なQWK上限の導出 [cs.AI]目的:自動採点システムの精度評価におけるQWKの上限値の算出
    • 教育評価において,自動採点システムの導入は,人的コスト削減や評価の公平性向上に貢献し得る。
    • 現在の自動採点システムの精度評価はQWKに依存するが,人間の採点者による誤りを含むため,実質的な上限が不明確である。
    • 古典的テスト理論を用いてQWKの上限値を導き出し,自動採点システムの現状と改善の余地を明確にすること。
    • 本研究では,古典的テスト理論に基づき,理想的な自動採点システムと人間レベルの誤差を持つシステムに対するQWKの上限値を導出した。
    • 人間同士のQWKが上限値を過小評価する可能性があることを示し,ベンチマークにおける自動採点システムの性能をより正確に評価する方法を提示した。
    • シミュレーション実験と実データを用いた実験により,提案された上限値の妥当性を検証した。

    Link: https://arxiv.org/abs/2604.19131

  • 大規模言語モデルにおける言語ティックの台頭:最先端モデルにおける系統的な分析 [cs.CL, cs.AI]目的:大規模言語モデルにおける言語ティックの現象
    • 言語モデルの性能向上に伴い,より自然な対話が求められている。
    • 言語モデルが過剰な同意や共感を示す言語ティックを頻発する問題がある。
    • 言語ティックの発生頻度を定量的に評価し,その特徴を明らかにすること。
    • 8つの最先端言語モデルを分析した結果,言語ティックの度合いにモデル間差が見られた。
    • Gemini 3.1 Proが最も高い言語ティック指数(VTI)を示し,DeepSeek V3.2が最も低かった。
    • 言語ティックは会話の継続や主観的なタスクにおいて増加し,言語間の差異も確認された。過剰な同意と自然さは負の相関がある。

    Link: https://arxiv.org/abs/2604.19139

  • ST-Prune:自動運転向けビジョン言語モデルにおける学習不要な時空間トークンプルーニング [cs.CL, cs.CV, cs.AI]目的:自動運転システムにおけるビジョン言語モデルの効率的な推論
    • 自動運転には,周囲環境の正確な認識が不可欠であり,ビジョン言語モデルが重要な役割を担う。
    • マルチカメラ・マルチフレーム入力による計算負荷が大きく,実用化のボトルネックとなっている。
    • 時空間的な冗長性を考慮したプルーニングにより,計算負荷を軽減しつつ性能を維持すること。
    • ST-Pruneは,Motion-aware Temporal Pruning(MTP)とRing-view Spatial Pruning(RSP)の2つのモジュールで構成される。
    • MTPは動きの変動と時間的な近接性を考慮し,RSPはカメラ配置の幾何学的な関係を利用して冗長性を削減する。
    • 90%のトークン削減でも,性能劣化を最小限に抑え,一部の指標ではフルモデルを上回る結果を得た。

    Link: https://arxiv.org/abs/2604.19145

  • 加速器ビームライン制御のための強化学習 [cs.LG, hep-ex]目的:加速器ビームライン最適化手法の開発
    • 加速器は科学研究に不可欠だが,その制御は高度な専門知識を要する。
    • 従来の最適化は,専門家の介入や試行錯誤に依存し,効率が低い場合がある。
    • 強化学習を用いて,専門家なしに自動でビームラインを最適化することを目指す。
    • 本研究で開発されたRLABCフレームワークは,Elegant設定から強化学習環境を自動生成する。
    • VEPP-5由来のテストビームラインで,強化学習ベースの最適化が実現可能であることを示した。
    • 強化学習エージェントが従来の最適化手法と同等の性能(70.3%の透過率)を達成した。

    Link: https://arxiv.org/abs/2604.19146

  • Nexusformer:安定性と継承性を備えたTransformerのスケーリングのための非線形アテンション拡張 [cs.LG, cs.AI]目的:Transformerのスケーリングにおける表現力と段階的な能力拡張
    • Transformerは自然言語処理で高い性能を示すが,モデルの規模拡大が困難。
    • 従来のTransformerは,アテンション機構の線形射影がボトルネックとなり,拡張時に学習済みの表現を失う。
    • Nexusformerは,非線形なアテンション拡張により,学習済みの知識を保持しつつ,Transformerを安定的にスケーリングすることを目指す。
    • Nexusformerは,従来の線形射影をNexus-Rank層に置き換えることで,次元制約を克服し,構造的な成長を可能にした。
    • プログレッシブスケーリングにおいて,Tokenformerと同等の性能を,最大41.5%少ない計算量で達成した。
    • ゼロ初期化が安定した収束軌道をもたらし,スケーリング則の導出に成功した。

    Link: https://arxiv.org/abs/2604.19147

  • 答えトークンはどのように推論の軌跡を読むか:量的推論における思考型LLMの自己読解パターン [cs.RO, cs.CL, cs.AI]目的:思考型LLMにおける答えトークンの推論読解パターン
    • 大規模言語モデルの推論能力向上は,複雑な問題解決において不可欠である。
    • 推論過程の読解メカニズムが不明確であり,信頼性の高い結果を得るための制御が難しい。
    • モデルが推論を効果的に利用し,確実性の高い答えを導く読解パターンを解明すること。
    • 正答例では,推論軌跡に沿った読解焦点の進行と,重要な意味的要素への集中が見られた。
    • 誤答例では,拡散的で不規則な注意パターンが観察された。
    • 自己読解品質(SRQ)に基づく訓練不要の誘導手法により,精度向上が確認された。

    Link: https://arxiv.org/abs/2604.19149

  • SAW-INT4:実世界LLMサービングのためのシステム対応型4ビットKVキャッシュ量子化 [cs.LG]目的:実世界のLLMサービングにおけるKVキャッシュ量子化手法
    • LLMの利用拡大に伴い,KVキャッシュのメモリ消費量がボトルネックとなっている。
    • 既存の圧縮手法は,実用的なサービング環境の制約を満たせず,効果が限定的である。
    • 実用的な制約下で有効な,軽量なKVキャッシュ量子化手法を確立すること。
    • トークン単位のINT4量子化とブロック対角アダマール回転を組み合わせた手法が,高い精度と効率を実現した。
    • より複雑な手法と比較して,サービング互換性を考慮した場合,わずかな精度向上に留まることが示された。
    • 融合された回転-量子化カーネルにより,KVキャッシュのページングレイアウトに統合してもオーバーヘッドは発生せず,INT4と同等のスループットを達成した。

    Link: https://arxiv.org/abs/2604.19157

  • MSDS:マルチスケール表現による深層構造的類似性 [cs.CC, cs.CV, cs.LG]目的:画像品質評価における深層構造的類似性のモデル
    • 画像認識技術の進歩に伴い,人間の視覚特性に合致した評価手法が重要視されている。
    • 既存手法は単一の空間スケールに依存しており,スケール変化による影響が十分に考慮されていない。
    • マルチスケール表現を用いて,空間スケールが深層特徴量の類似性に与える影響を明らかにすること。
    • 提案手法MSDSは,既存のDeepSSIMをマルチスケールに拡張し,精度向上を実現した。
    • 各スケールでの類似度を独立に計算し,学習可能な重みで統合する軽量なフレームワークである。
    • 複数のベンチマークデータセットで,MSDSは単一スケールベースラインを統計的に有意に上回った。

    Link: https://arxiv.org/abs/2604.19159

  • 大規模言語モデルの3段階蒸留による軽量な二値化:LBLLM [cs.CL, stat.AP, cs.LG, cs.AI]目的:大規模言語モデルの計算・メモリ資源制約下での展開
    • 近年,大規模言語モデルの性能向上は目覚ましいが,その規模ゆえに利用環境が限定されている。
    • リソース制約下での展開には,計算量とメモリ使用量の削減が不可欠である。
    • 本研究は,極めて低ビットでの量子化による効率的な展開を目指す。
    • LBLLMは,W(1+1)A4量子化による軽量化フレームワークであり,3段階の量子化戦略を用いる。
    • わずか0.016Bトークンで学習し,既存の二値化手法を言語モデリング,常識的QA,言語理解タスクで上回る性能を示す。
    • 追加の高精度チャンネルや回転行列を用いず,極めて低ビット量子化が実用的かつ効果的であることを実証した。

    Link: https://arxiv.org/abs/2604.19167

  • 異種グラフにおける多ラベル予測のためのFOCAL-Attention [cs.LG]目的:異種グラフ上の多ラベルノード分類における性能向上
    • 複雑な現実世界のシステムをモデル化する上で,多様なエンティティと関係性を扱う異種グラフが重要視されている。
    • 異種グラフにおける多ラベルノード分類は,構造的異質性と,複数ラベル間の共有表現学習の難しさから課題が多い。
    • FOCALは,カバレッジとアンカリングのジレンマを解決し,異種グラフ上の多ラベル予測における精度向上を目指す。
    • 提案手法FOCALは,カバレッジ指向アテンション(COA)とアンカリング指向アテンション(AOA)を組み合わせることで,文脈集約と主要な意味への集束を両立している。
    • 理論的分析により,FOCALが既存手法よりも優れた性能を発揮することが示された。
    • 実験結果もFOCALの有効性を裏付けており,最先端手法と比較しても高い精度を達成している。

    Link: https://arxiv.org/abs/2604.19171

  • 推論を意識したAIGC検出:アラインメントと強化学習によるアプローチ [cs.AI]目的:AI生成コンテンツの信頼性向上
    • 大規模言語モデルの急速な発展に伴い,AI生成コンテンツの検出ニーズが高まっている。
    • モデルの進化により,既存の検出手法では十分な精度が得られない場合がある。
    • 解釈可能な推論過程に基づいた,より高精度で透明性の高い検出手法の確立。
    • 提案手法REVEALは,複数のベンチマークにおいて最先端の性能を達成した。
    • REVEALは,推論能力の獲得と論理的整合性の向上,幻覚の低減を実現した。
    • REVEALは,AI生成コンテンツ検出のための堅牢かつ透明性の高いソリューションを提供する。

    Link: https://arxiv.org/abs/2604.19172

  • SCURank:要約内容単位を用いた複数候補要約のランキングによる要約の向上 [cs.DC, cs.CL, cs.AI]目的:複数候補要約のランキング手法
    • 近年,大規模言語モデルによる要約技術が発展しているが,計算コストが高い。
    • 既存のランキング手法は不安定であり,従来の評価指標では高品質な要約を適切に評価できない。
    • 要約内容単位に着目し,情報量と意味的重要度に基づいた安定したランキングを目指す。
    • SCURankは,従来の評価指標やLLMベースのランキング手法と比較して,様々な評価尺度とデータセットにおいて優れた性能を示した。
    • 多様なLLMからの要約を蒸留することで,モデルの抽象度と全体的な性能が向上することが確認された。
    • 情報に着目したランキングが,複数LLMの蒸留において有効であることが示された。

    Link: https://arxiv.org/abs/2604.19185

  • 誘導部分グラフをショートカットとして:異種性グラフ学習における因果的 disentanglement [cs.LG, cs.AI]目的:異種性グラフ学習における因果的 disentanglement の手法
    • 現実世界のグラフは異種性が多く,高性能なグラフニューラルネットワーク (GNN) の構築が重要である。
    • 従来の GNN は異種性グラフに対して性能が低下し,その原因の解明が課題となっていた。
    • 誘導部分グラフが GNN を誤誘導するショートカットとして機能し,その影響を軽減することを目指す。
    • 本研究では,誘導部分グラフが GNN の学習を歪め,非因果的な相関を強化することを理論的・実験的に示した。
    • 因果推論の観点から,これらのショートカットの原因となる confounding や spillover パスを遮断する debiased causal graph を提案した。
    • 提案手法である CD-GNN は,genuine な因果シグナルに焦点を当て,異種性グラフにおけるノード分類の精度と頑健性を大幅に向上させる。

    Link: https://arxiv.org/abs/2604.19186

  • 医療画像の異常検出における平均シフト密度強調による性能向上 [cs.CL, cs.CV, cs.AI]目的:医療画像における異常検出手法の性能向上
    • 医療画像の異常検出は,希少な病理学的状態を特定する上で不可欠であり,臨床応用が期待される。
    • 異常データにラベル付けされたサンプルが少ない状況下では,既存の異常検出手法の性能が制限される。
    • ラベル付き異常データが少ない状況でも,高い検出性能を実現する手法を開発する。
    • 提案手法は,自己教師あり表現学習と多様体に基づく密度推定を組み合わせることで,高い性能を実現した。
    • 平均シフト密度強調(MSDE)により,サンプルを高確率領域へ移動させ,異常スコアの計算精度を向上させた。
    • 7つの医療画像データセットにおいて,最先端の性能を達成し,特に脳腫瘍検出においてはほぼ完璧な性能(AUC/AP=0.981)を示した。

    Link: https://arxiv.org/abs/2604.19191

  • ケースノート拡張型表形式予測におけるLLMのアルゴリズム公平性監査 [cs.CY, cs.LG]目的:LLMを用いた表形式分類におけるアルゴリズム公平性の評価
    • 社会福祉等の重要場面でLLM利用が増加しており,公平性の確保が不可欠である。
    • LLMのアルゴリズム公平性に関する理解が不足しており,不公平な予測結果を生む可能性がある。
    • ケースノートを活用することで,LLMの予測精度と公平性を向上させる方法を模索する。
    • ケースノートの要約を付加したファインチューニングモデルは,予測精度を向上させつつ,アルゴリズムの公平性に関する差異を軽減する。
    • 変数重要度の改善を試みたゼロショット表形式分類では,アルゴリズム公平性に関して混合した結果が得られた。
    • ケースノートを活用したLLMの表形式分類への拡張は,実装負担が少なく,追加のテキスト情報を安全に活用できる。

    Link: https://arxiv.org/abs/2604.19204

  • ClawNet:クロスユーザー間の自律協調のための人間共生型エージェントネットワーク [cs.AI]目的:クロスユーザー間の自律協調を実現するための人間共生型エージェントネットワークの実現
    • 人間の生産性は,人々が協調,交渉,委任を通じて築く社会関係と組織関係に依存する。
    • 現在のAIエージェントは単一ユーザー向けであり,ユーザー間でのエージェント連携の基盤やセキュリティメカニズムが存在しない。
    • 人間の協調関係をデジタル化し,エージェントによるユーザー間の安全な協調を実現することを目指す。
    • ClawNetは,ユーザーに永続的にバインドされたエージェントシステムをネットワーク化し,ユーザー間の協調を可能にする。
    • 階層化されたIDアーキテクチャ,スコープ付き認証,アクションレベルのアカウンタビリティを導入することで,ID管理とセキュリティを強化する。
    • 中心オーケストレーターを通じてIDバインドと認証検証を実施し,安全なユーザー間協調を実現している。

    Link: https://arxiv.org/abs/2604.19211

  • トポロジーニューラルネットワークの論理的表現力 [cs.LG, cs.LO]目的:トポロジーニューラルネットワークの論理的表現力の解明
    • グラフ構造データに対する機械学習の重要性が高まっており,表現力の高いモデルが求められている。
    • 従来のグラフニューラルネットワークは表現力に限界があり,複雑なグラフ構造の学習が困難である。
    • トポロジーニューラルネットワークの表現力を理論的に明らかにし,その能力を評価すること。
    • 本研究では,トポロジーニューラルネットワークのメカニズムから導出される同型性テストを分析した。
    • 組み合わせ的複体のための,より高次のWLテストである$k$-CCWLテストと,トポロジカルカウント論理TC$_k$を導入し,その関係性を調べた。
    • $k$-CCWLテスト,TC$_{k+2}$,そして$(k+2)$-pebbleゲームの論理的同値性を厳密に証明し,トポロジーニューラルネットワークの論理的表現力の理論を確立した。

    Link: https://arxiv.org/abs/2604.19212

  • 衛星,土壌,気候データを用いた空間的・時間的農作収量予測のための注意機構に基づくマルチモーダル深層学習モデル [cs.CV, cs.AI]目的:空間的・時間的な農作収量の高精度予測
    • 食料安全保障と政策決定において,農作収量の予測は極めて重要である。
    • 従来の予測手法は,動的な環境変数間の複雑な関係性を捉えきれない。
    • 衛星画像,気象データ,土壌特性を統合し,予測精度を向上させる。
    • 提案手法は,従来のモデルと比較して大幅に高い予測精度(R^2=0.89)を示した。
    • 注意機構により,重要な生育期間を時間的に適応的に重み付けすることで,予測性能を向上させている。
    • 空間特徴抽出にはCNNを使用し,時間的変化を考慮したモデル構造を採用している。

    Link: https://arxiv.org/abs/2604.19217

  • シャーパ.ai:ノイズを含む識別子に対する,交差情報開示なしのプライバシー保護型マルチパーティエンティティアラインメント [cs.CR, cs.AI, cs.DC, cs.LG]目的:プライバシー保護型エンティティアラインメント
    • 分散環境下での機械学習の重要性が高まる中,データのプライバシー保護が不可欠である。
    • 従来のエンティティアラインメント手法は,共有サンプルに関する情報を漏洩するリスクがある。
    • 交差情報開示のリスクを軽減し,複数パーティ間のエンティティアラインメントを実現すること。
    • シャーパ.aiプロトコルは,複数の参加者に対して,交差情報を秘匿したエンティティアラインメントを可能にする。
    • 正確な一致とノイズを含む一致の両方をサポートし,通信オーバーヘッドを抑えつつ,スケーラブルな解決策を提供する。
    • 本プロトコルは,医療,金融,通信など,様々な分野におけるプライバシー保護型連合学習の応用を促進する。

    Link: https://arxiv.org/abs/2604.19219

  • UAF:全二重音声インタラクションのための統一音声フロントエンドLLM [cs.AI, cs.SD, eess.AS]目的:全二重音声インタラクションを実現するための統一音声フロントエンドLLMの開発
    • 自然な人間コミュニケーションを模倣したAIシステムの構築が求められており,音声インタラクションはその重要な要素である。
    • 従来の音声処理パイプラインは,遅延の蓄積,情報損失,エラー伝播といった課題を抱えていた。
    • 全二重音声システムに特化した統一的な音声フロントエンドLLMを開発し,応答性と中断精度の向上を目指す。
    • 本研究で提案するUAFは,VAD,TD,SR,ASR,QAといった多様な音声フロントエンドタスクを単一の自己回帰的系列予測問題として定式化した。
    • 実験の結果,UAFは複数の音声フロントエンドタスクで優れた性能を発揮し,応答遅延の大幅な短縮と中断精度の向上を実現した。
    • UAFは,音声プロンプトを参照してターゲットスピーカーを固定し,セマンティックコンテンツとシステムレベルのステートコントロールを符号化した離散トークンを回帰的に生成する。

    Link: https://arxiv.org/abs/2604.19221

  • 拡散生成と非対称教師・生徒ネットワークによる産業表面欠陥検出 [cs.AI]目的:産業表面欠陥の検出
    • 産業製品の品質管理において,欠陥検出は重要な課題であり,自動化による効率化が求められている。
    • 欠陥サンプルが不足し,欠陥の分布が偏っている場合が多く,背景が複雑な場合に微細な欠陥を正確に特定することが困難である。
    • 欠陥サンプル不足の問題を解決し,微細な欠陥を高精度に検出・局在化することを目指す。
    • 正常サンプルのみで学習した拡散モデルを用いて,高精度かつ物理的に整合性のとれた欠陥サンプルを生成することで,データ不足の問題を緩和した。
    • 非対称なデュアルストリームネットワークを用いることで,正常特徴の安定した表現と,正常パターン再構成と異常領域の強調を両立した。
    • コサイン類似度損失とピクセル単位のセグメンテーションによる共同最適化により,微細な欠陥の正確な局在化を実現し,既存手法を大きく上回る性能を示した。

    Link: https://arxiv.org/abs/2604.19240

  • 「かしこぶるGPT」か「ためらうClaude」か? 修復がLLMの不安定な多段階応答を明らかにする [cs.DC, cs.DC, cs.CL, cs.AI]目的:LLMにおける多段階対話における修復のインタラクティブなプロセス
    • 対話システムにおける円滑なコミュニケーションの実現は,人間とAIの共存において重要である。
    • LLMは一貫性のある応答が課題であり,特に多段階対話では問題が顕著となる。
    • LLMの修復メカニズムを分析し,応答の信頼性を評価することで,改善点を見出す。
    • GPTとClaudeの間で修復への反応に大きな差が見られ,抵抗から容易に操作されるまで,多様な挙動を示した。
    • 対話が単一ターンを超えると,モデル間の行動特性がより明確になり,予測困難となることが示された。
    • 各LLMは,修復の文脈において固有の信頼性の欠如を示していることが明らかになった。

    Link: https://arxiv.org/abs/2604.19245

  • Answer Set Programmingのためのストリーマー [eess.SY, cs.SY, cs.LO, cs.AI]目的:組み合わせ問題の探索空間削減
    • 組合せ最適化問題解決において,効率的な探索が重要である。
    • 既存手法では探索空間が広大で,計算コストが高い場合がある。
    • LLMを活用し,問題構造を捉えた制約を生成することで,探索効率を向上させる。
    • 提案手法により,ASP Competitionの3つのベンチマーク問題で,最大4~5倍の高速化を達成した。
    • 異なるLLMが意味的に多様な制約を生成し,単なる構文的変化ではないことが示された。
    • 仮想最良符号化(VBE)により,元の符号化とストリーマーを組み合わせた最適なパフォーマンスが得られた。

    Link: https://arxiv.org/abs/2604.19251