arXiv雑要約

AI - 2026/06/16 公開

  • 再給餌は再現ではない:反事実トークン信用推定における再生ノイズの測定 [cs.LG, cs.CL]目的:反事実トークン信用推定における再生ノイズの程度
    • 言語モデルの解釈可能性向上は,モデルの振る舞いを理解し,改善するために不可欠である。
    • 既存手法は,テキストの再給餌が生成時の状態を再現すると仮定しているが,その妥当性には疑問が残る。
    • 再給餌による信用推定への影響を定量的に評価し,より信頼性の高い推定方法を提案する。
    • 再給餌は,決定マージンの低いトークンにおいて,信用推定値を14~28パーセントポイント変化させる。
    • この変化は,極性反転よりも量子化された推定器のゼロ境界交差に起因することが多い。
    • バッチ不変カーネルを使用した場合,再給餌,正確な再開,レプリカの各パスは同一であり,不一致率はゼロとなる。

    Link: https://arxiv.org/abs/2606.15621

  • 驚きに基づくマージソート:適応的な比較スケジューリングによる費用対効果の高い人間協調型ランキング [cs.LG, cs.AI]目的:主観的ランキングタスクにおける費用対効果の高い人間協調型ランキング手法
    • 主観的ランキングは重要だが,全比較は膨大なコストを要する。
    • 既存のマージソート法でも,全ての比較に人間の判断が必要となる。
    • VLMを用いて比較の優先順位付けを行い,人間の判断が必要な比較を削減する。
    • 提案手法SGSは,VLMの信頼度,Eloギャップ,投票エントロピーを組み合わせた「驚き」を指標に,比較の優先順位を決定する。
    • 実験により,SGSは非情報的な比較を最大535件削減し,既存手法Active Eloと比較してKendall's τのスコアを+6~+12%向上させた。
    • VLMとアルゴリズムによるソートの組み合わせが,多様なドメインで安定した精度と効率のトレードオフを実現することを示した。

    Link: https://arxiv.org/abs/2606.15623

  • 専門知識混合を用いた大規模言語モデルの衝突を認識した連合学習による微調整 [cs.LG, cs.NI]目的:大規模言語モデルの連合学習における微調整手法
    • 大規模言語モデルの利用拡大に伴い,計算コストが課題となっているため,効率的な学習手法が求められている。
    • 連合学習と専門知識混合の組み合わせにおいて,データの不均一性による専門家の最適化の衝突が生じうる。
    • データ分布の不均衡による最適化の不安定化を抑制し,モデル性能の低下を防ぐことを目指す。
    • 提案手法FC-MoEは,信頼性の高いローカル更新を優先し,衝突する更新を抑制することで,安定したグローバル最適化経路を実現する。
    • ローカル知識保持メカニズムにより,ドメイン固有の専門知識を維持し,クライアントごとの性能向上に貢献する。
    • 実験結果から,FC-MoEは収束を加速し,非IID環境下でグローバルおよびローカルモデルの性能を向上させることが示された。

    Link: https://arxiv.org/abs/2606.15625

  • 検索によって拡張:テスト時に新しいタスクへ視覚言語行動モデルを適用 [cs.RO, cs.AI]目的:視覚言語行動モデルのタスクへの適応
    • ロボットのタスク遂行において,視覚と自然言語による指示は不可欠である。
    • 新しいタスクへの適応には,通常,専用のデータ収集と再学習が必要となる。
    • タスク固有の再学習コストを削減し,効率的な適応を可能にする。
    • 本研究では,タスク固有の再学習を検索によって代替する手法を提案する。
    • 検索によって取得された軌跡に基づいて制御を行うことで,新しいタスクへの適応をデータインデックスによって実現する。
    • PushTやRoboTwin 2.0といった実験で,提案手法が既存手法を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2606.15631

  • 大規模言語モデルにおける注意機構の構造歪みを形式化し緩和する:ゼロショットグラフ推論への応用 [cs.LG]目的:大規模言語モデルを用いたゼロショットグラフ推論における構造歪みの形式化と緩和
    • グラフ構造データは現実世界の複雑な関係性を表現する上で不可欠であり,その分析は様々な分野で重要である。
    • グラフ構造を逐次データに変換する過程で,グラフの帯域幅問題に起因する歪みが生じ,推論性能を低下させる。
    • グラフ構造由来の注意機構の歪みを修正し,大規模言語モデルによるグラフ推論の精度向上を目指す。
    • ロータリー位置埋め込みがグラフの線形化を帯域幅依存的な注意減衰に変換し,グラフ上で隣接するノード間の注意を抑制することが示された。
    • 提案手法GaLAは,推論時に注意機構をグラフ構造に合わせて調整することで,性能を向上させ,歪みが修正可能なボトルネックであることを実証した。
    • GaLAは,既存の大規模言語モデルに軽量に組み込むことができ,オーバーヘッドを最小限に抑えながら性能改善を実現する。

    Link: https://arxiv.org/abs/2606.15633

  • HAPI-EP:心電生理学のハイブリッド,適応型,予測型デジタルツインに向けた試み [cs.LG]目的:患者固有の心臓のデジタルツインの構築と,その適応性および予測能力の向上
    • 個別化医療において,患者固有の心臓モデルは治療戦略の最適化に不可欠である。
    • デジタルツインのリアルタイムデータへの迅速な適応と,適応後の予測能力が課題となっていた。
    • メカニズムモデルとデータ駆動モデルの長所を組み合わせ,予測能力を備えたデジタルツインを構築する。
    • HAPIフレームワークは,物理モデルとニューラルネットワークを融合させたグレーボックスモデルを構築する。
    • HAPIは,少ないデータでもデジタルツインを迅速に最適化するメタ学習技術を導入し,予測精度を高める。
    • HAPIによって構築されたデジタルツインは,識別可能性が高く,未知のデータに対しても優れた予測性能を示す。

    Link: https://arxiv.org/abs/2606.15637

  • 明示的な不確実性と証拠の矛盾を考慮した監査リスク評価のためのマルチエージェントフレームワーク [cs.LG]目的:監査リスク評価における不確実性と証拠の矛盾のモデル化
    • 監査の質向上には,多様な情報源からの証拠を統合することが不可欠である。
    • 既存手法では,証拠間の整合性を定量化できていない場合がある。
    • 不確実性と矛盾を明示的に考慮し,より信頼性の高いリスク評価を目指す。
    • UMARは,証拠間の不確実性と矛盾を考慮することで,他の手法よりも高いAUROCとPR-AUCを達成した。
    • UMARは,期待較正誤差(ECE)が最も低く,リスク評価の信頼性が高いことを示した。
    • 証拠の矛盾パターンと実際の不正リスクとの相関関係を明らかにし,監査担当者への有用な情報を提供する。

    Link: https://arxiv.org/abs/2606.15640

  • CIWI-CKT:カオス情報に基づいた波干渉特徴融合とクロスシティ知識転移による交通流予測 [cs.CL, cs.LG, cs.AI]目的:クロスシティ,データ不足環境における交通流予測精度の向上
    • 都市交通の円滑化は社会基盤維持に不可欠であり,交通流予測はその重要な要素である。
    • 限られたデータでのモデル汎化が難しく,都市間の交通特性の異質性が課題である。
    • カオス的特徴を考慮し,少ないデータでも高精度な予測を可能とする。
    • CIWI-CKTは,カオス情報に基づいた波生成,メタ干渉処理,カオスを意識したメタ学習を導入することで,予測精度を大幅に向上させた。
    • 理論的な保証として,カオス-波安定性,波誘起次元削減,メタ学習汎化限界が確立された。
    • 実際の交通データを用いた実験により,最先端の手法と比較して,CIWI-CKTが著しく優れた性能を示すことが示された。

    Link: https://arxiv.org/abs/2606.15642

  • 法的AIのためのニューロシンボリックAI - TRISM:信頼性,堅牢性,解釈可能性,安全性に優れたモデル [cs.CL, cs.RO, cs.AI]目的:法的AIにおける信頼性,堅牢性,解釈可能性,安全性を備えたモデルの構築
    • 法的判断は正確性が求められるため,AIの信頼性確保は不可欠である。
    • LLMは幻覚を起こしやすく,法的根拠の検証が困難であるという課題がある。
    • 構造化された法的知識とLLMを統合し,解釈可能な推論メカニズムを確立すること。
    • TRISMフレームワークは,ニューロシンボリックAIとLLMを統合し,法的知識に基づいた推論を可能にする。
    • RASOR RAGは,解釈可能な根拠を生成することで,ニューロシンボリックRAGの基盤を提供する。
    • 法的知識ベースの形式化手法を確立し,LLMにおける解釈可能な推論と出力検証を支援する。

    Link: https://arxiv.org/abs/2606.15646

  • 次世代ヘルスケアへ: 知覚,意思決定,行動のための医療具現化AIに関する調査 [cs.AI, cs.CV, cs.RO]目的:医療具現化AIの構成要素と応用
    • 医療現場における効率化が求められており,AI技術はその重要な役割を担う。
    • 既存のAIは物理世界とのインタラクションが限定的で,臨床現場での活用に課題がある。
    • 医療現場における知覚・意思決定・行動の統合的なAIシステム構築を目指す。
    • 本調査では,医療具現化AIの中核となる構成要素を体系的に整理・分析した。
    • 知覚,意思決定,行動の連携に焦点を当て,代表的な応用例とデータセットをレビューした。
    • 臨床現場での課題を明らかにし,将来の研究方向性について議論した。

    Link: https://arxiv.org/abs/2606.15647

  • AnonShield: CSIRT脆弱性データのオンプレミス擬似匿名化 [cs.CR, cs.AI, cs.PF]目的:CSIRT脆弱性データの規模に応じた擬似匿名化システム
    • セキュリティインシデント対応において,脆弱性情報の共有は不可欠である。
    • 個人情報保護の観点から,生の脆弱性データを共有することは困難である。
    • 高速かつ高精度な擬似匿名化により,安全なデータ共有を実現すること。
    • AnonShieldは,GPU加速NER,ストリーミング処理,キャッシュなどを組み合わせることで,高い処理性能を実現した。
    • 最大738倍の高速化と,F1スコア94.2%,リコール96.7%という高い精度を達成した。
    • 脆弱性データの擬似匿名化は,分析上の有用性を損なうことなく,実用的な規模で可能であることが示された。

    Link: https://arxiv.org/abs/2606.15650

  • MosaicQuant:インライア/外ライア分離による統一4ビットLLM量子化 [cs.LG, cs.CL]目的:大規模言語モデルの4ビット量子化における精度低下の軽減
    • LLMのメモリ使用量削減と推論高速化は,実用化において重要な課題である。
    • 4ビット量子化では,頻繁な値と稀な値の両方を正確に表現することが難しい。
    • インライアと外ライアを分離し,統一された低ビット推論パイプラインを構築することを目指す。
    • MosaicQuantは,全重み行列を4ビットの基本成分とスパースな残差成分に分解する。
    • ZipperEngineにより,スパースなブロック計算を4ビットGEMMカーネルに統合し,推論パイプラインを統一する。
    • LLaMA3およびQwen3での実験により,FP16相当の精度を維持しつつ,W16A16ベースラインに対して最大1.24倍の高速化を達成した。

    Link: https://arxiv.org/abs/2606.15652

  • IoT-Zoo:異種IoTデバイスプロファイルと再現性のあるトラフィックキャプチャのためのコンテナベースフレームワーク [cs.NI, cs.AI, cs.ET]目的:異種IoTデバイスプロファイルと再現性のあるトラフィックキャプチャのためのフレームワーク
    • IoT機器の普及に伴い,ネットワークおよびセキュリティ対策の検証が重要となっている。
    • 既存のプラットフォームは,検証対象のデバイスの種類が限られており,現実世界のIoT環境の多様性を捉えきれていない。
    • 現実的なIoT環境を再現し,ネットワークおよびセキュリティソリューションの評価を容易にすることを目的とする。
    • IoT-Zooは,Containernet上に構築されたコンテナベースのテストベッドである。
    • 異種データ駆動型IoTデバイスプロファイルを通じて,再現性のある実験を支援する。
    • MQTTやRTSPなどのリアルなアプリケーションプロトコルをサポートし,環境構築とトラフィックキャプチャを自動化する。

    Link: https://arxiv.org/abs/2606.15653

  • PO-PDDL:不確実性下におけるロボット計画のための視覚的デモンストレーションからの記号的POMDP学習 [cs.RO, cs.AI]目的:ロボット計画のための記号的POMDPモデルの学習
    • 現実世界のロボットタスクは不確実性を伴うため,POMDPのような確率モデルが必要不可欠である。
    • 現実のロボット分野に対するPOMDPモデル構築は困難で,労力を要する。
    • 視覚的デモンストレーションからPOMDPモデルを効率的に学習し,不確実性下での計画を可能にすること。
    • 提案手法であるPO-PDDLは,PDDLの構造を維持しつつ,部分観測性,確率性,信念を明示的にモデル化する。
    • 実ロボットの実行動画から潜在的な状態遷移を再構成し,視覚的観測との不一致から部分観測性を特定する。
    • 実験の結果,既存手法よりも優れた計画性能と低い計画コストを実現した。

    Link: https://arxiv.org/abs/2606.15654

  • 高度機械学習および深層学習技術を用いた家畜識別・検出の高度化:包括的レビュー [cs.AI]目的:家畜識別における機械学習および深層学習技術の研究動向
    • 家畜の生体認証は,畜産管理における生物安全保障,食品安全,サプライチェーン効率化に不可欠である。
    • 公開データセットの不足,環境変化や動物の移動によるデータ品質の問題,そしてリアルタイム処理能力の要求が課題である。
    • 持続可能な畜産管理を実現するための,拡張性,人道性,そして効果的な家畜識別システムの導入を支援する。
    • 従来の機械学習手法(K近傍法,SVM等)も良好な結果を示すが,深層学習手法(CNN,ResNet,YOLO等)が認知,検出,識別において優れている。
    • 特徴抽出にはLBP,SURF,SIFT等の手法が用いられ,鼻紋や被毛模様が主要な特徴として活用されている。
    • 本レビューは,研究者,政策立案者,関係者に対し,効果的な家畜識別システムの導入に向けた情報を提供する。

    Link: https://arxiv.org/abs/2606.15655

  • インピーダンス不整合の克服:基盤モデルと知識グラフの融合に関する理論的ロードマップ [cs.AI]目的:基盤モデルと知識グラフの融合のための理論的枠組み
    • AIの発展において,知識表現の多様化が重要であり,その融合が高度な推論能力の鍵となる。
    • 基盤モデルと知識グラフは異なる構造を持つため,単純なテキスト変換による連携では限界がある。
    • モデルの誤った推論や意味の混同を防ぎ,正確な記号論理と表現力の高い記憶を融合することを目指す。
    • 現在の神経記号統合戦略は,厳密な論理的構造を維持できず,多段推論において問題が生じることが示された。
    • 「語彙的ボトルネック」や「トポロジカル崩壊」といった数学的な限界が,既存アーキテクチャの課題を明確化された。
    • 離散的な記号構造をネイティブに組み込む「構造化残差ストリーム」や,潜在的なサブグラフ注入のための「ベクトル記号アーキテクチャ」などの枠組みが提案された。

    Link: https://arxiv.org/abs/2606.15656

  • Z平面ニューラルネットワーク:有界幾何活性化関数がReLUとLayerNormに取って代わる [cs.LG, cs.AI]目的:深層学習における安定性と表現力の向上
    • 深層ニューラルネットワークは,勾配消失や爆発の問題を回避するために重要な技術である。
    • ReLUやLayerNormなどの既存手法は,ニューロンの死滅や方向情報の損失を引き起こす可能性がある。
    • 幾何活性化関数を用いることで,勾配消失を防ぎ,安定した深層学習を実現する。
    • Z平面ニューラルネットワークは,隠れ状態を双極子束にマッピングすることで,ReLUやLayerNormが不要な安定した学習を可能にする。
    • 提案手法の幾何活性化関数は,エネルギーの大きさを制限しつつ,位相(方向)を保持する。
    • MNISTデータセットにおいて,100層のZ平面MLPが98.34%の精度と絶対的な数値安定性を示し,その有効性を証明した。

    Link: https://arxiv.org/abs/2606.15669

  • ウェブエージェントのどこに問題があったか:セマンティック状態追跡によるプロセスレベルの評価 [cs.AI, cs.LG]目的:ウェブエージェントのプロセスレベル分析
    • ウェブエージェントは複雑なタスク遂行において不可欠であり,その性能向上は重要な課題である。
    • 既存の評価指標は最終的な成功/失敗のみに着目し,プロセスに関する情報が不足している。
    • エージェントの改善点を明確にするための,詳細なプロセスレベル分析手法を確立すること。
    • WebStepベンチマークを用いて,プロセス指標が最終的な結果だけでは見えない差異を明らかにできた。
    • スキル分解により,特定のスキルにおけるエージェント間の性能差を特定し,改善の方向性を示せた。
    • タスクの難易度が上がるにつれて,プロセスレベルの差異が拡大することを確認した。

    Link: https://arxiv.org/abs/2606.15673

  • 貯留注意ネットワーク:事前学習済みTransformerにおけるコンテンツアドレス可能な貯留注入によるクロスパス状態 [cs.LG, cs.AI]目的:事前学習済みTransformerにおけるクロスパス状態の実現可能性と動力学
    • Transformerモデルの性能向上は自然言語処理の発展に不可欠である。
    • Transformerはパス間での状態保持が苦手であり,長期的な文脈理解が課題である。
    • 固定のランダムな貯留を用いることで,Transformerのパス間状態保持能力を検証する。
    • 貯留注意ネットワーク(RAN)は,事前学習済みTransformerの中間層の注意機構に固定されたランダム初期化された貯留を注入する。
    • GPT-2とQwen2.5を用いて実験を行った結果,訓練されていないリカレントダイナミクスのみでも有用なクロスパス状態を維持できることが示された。
    • 本研究は,状態保持機構のコスト効率の良い代替手段を提供する。

    Link: https://arxiv.org/abs/2606.15678

  • ReQAT:4ビット浮動小数点数による量子化認識トレーニングで全精度推論精度を実現 [cs.LG]目的:大規模推論モデルにおける4ビット浮動小数点数による量子化認識トレーニングによる精度向上
    • 大規模推論モデルは高度な問題解決能力を持つが,推論コストやKVキャッシュのサイズが課題となっている。
    • 全精度モデルを4ビットに量子化すると,推論精度が大幅に低下し,既存の量子化技術では回復が困難である。
    • 低エントロピーのトークンにおける量子化ノイズの増幅を抑制し,推論の安定性を高めることを目指す。
    • ReQATは,既存の量子化技術と比較して,同じ学習コストでBF16ファインチューニングと同等以上の精度を達成する。
    • ReQATは,NVIDIA DGX Sparkで最大3.9倍,B200で3.1倍のスループット向上を実現する。
    • ReQATは,推論に重要な低エントロピーのトークンに焦点を当てた学習や,RoPE整合性のあるKVキャッシュ変換により,量子化による精度低下を抑制する。

    Link: https://arxiv.org/abs/2606.15682

  • Minecraftにおける時間制約のある協調的連携のためのマルチエージェントフレームワーク [cs.AI]目的:時間制約のある補完的な協調タスクのためのマルチエージェントベンチマーク
    • 現実世界の問題解決において,多様なエージェント間の協調は不可欠である。
    • 時間的制約下でのエージェント間の連携は,課題が多く,特に動的な環境下では困難である。
    • 時間制約下での協調タスクを評価するためのベンチマーク環境の構築。
    • 本研究では,Minecraftを基盤とした時間制約のある協調タスクベンチマークTickingCollabBenchを開発した。
    • LLMは動的な環境下で連携が難しく,部分的な可視性とエージェントの異質性が原因で失敗することが示された。
    • LLMは全体知識を持つoracleと比較して,性能が大幅に劣ることが明らかになった。

    Link: https://arxiv.org/abs/2606.15684

  • 記号パズルに対する系列モデルを用いた再帰的推論 [cs.AI, cs.LG]目的:記号パズルに対する再帰的推論能力の評価
    • 大規模言語モデルの推論能力は重要であり,その限界を理解する必要がある。
    • 既存の推論ベンチマークは,解答の妥当性のみを評価し,最小性や安定性を評価していない。
    • 難易度を制御可能なベンチマークを用いて,モデルの推論能力を詳細に評価する。
    • 新たなベンチマークRecurrReasonは,4つの再帰的論理パズルを含み,解の最適性や安定性を評価できる。
    • T5モデルはBlock Worldにおいて高い性能を示したが,River Crossing問題は全てのモデルで解けなかった。
    • モデルのアーキテクチャが規模よりも成功の重要な要因であり,事前学習は局所的な構造を持つパズルにのみ有効である。

    Link: https://arxiv.org/abs/2606.15686

  • マルチフィデリティSINDy:フィデリティ重み付き測定による非線形動的システムの疎な発見 [cs.LG, math.DS]目的:非線形動的システムの疎な発見
    • シミュレーションや実験データの解析は,科学技術の発展に不可欠である。
    • 現実のデータはノイズを含み,そのノイズレベルは不均一になりがちである。
    • 不均一なデータから正確な動的システムを同定することを可能とする。
    • 提案手法は,異分散ノイズの影響を軽減し,モデルの精度向上に貢献する。
    • 低コストで低品質な測定データの繰り返しが,高精度なデータを用いた場合と同等またはそれ以上の性能を示す。
    • この手法は,常微分方程式や偏微分方程式を含む複数のベンチマークシステムで検証された。

    Link: https://arxiv.org/abs/2606.15690

  • コード編集における不完全な視覚的検証:TikZ を事例とした研究 [cs.RO, cs.SE, cs.AI]目的:TikZ を用いた視覚的成果物生成プログラムのカスタマイズにおける,反復的な改良の効果検証
    • 近年,LLM の発展によりコード生成の性能は向上しているが,視覚的成果物を伴うコードのカスタマイズは依然として課題である。
    • 視覚的な正しさの自動評価が困難であるため,信頼性の低い検証者しか利用できないという問題がある。
    • 不完全な検証者を用いた反復改良が,どの程度有効であるかを検証することを目的とする。
    • 不完全な検証者でも,視覚的な指示がコードに適用されているかどうかを,中程度の精度で判断できることが示された(F1スコア最大0.815)。
    • フィードバックは反復改良を改善し,特に弱いモデルに対して顕著な効果が見られた(Qwen3-vl-30b-a3b-Instruct で11~20件の完璧なカスタマイズ増加)。
    • 強力なモデル(Gemini-3)は改善の度合いは小さいものの,正確な検証によって早期の受理を防ぐことによるメリットが大きい。

    Link: https://arxiv.org/abs/2606.15693

  • MAF:MLLMを用いた感情分析のためのマルチモーダル適応型Few-shotプロンプティング [cs.MM, cs.AI, cs.CV, cs.LG]目的:感情分析におけるMLLMの性能向上
    • マルチモーダルな情報理解は,人間が情報を処理する自然な方法であり,AIにも不可欠である。
    • MLLMの感情分析性能はプロンプト設計に大きく依存し,汎用的なプロンプトでは十分な性能を発揮できない。
    • 入力に応じて最適なプロンプトを動的に生成し,感情分析の精度と安定性を高める。
    • 提案手法MAFは,表情,シーン,テキストの意味を統合的にエンコードし,関連性の高い事例を動的に検索・統合する。
    • MAFは,軽量な係数生成ネットワークを用いて,マルチモーダルな類似度スコアの重み付けを行い,最適な事例を選択する。
    • 複数の候補出力に対する多数決を用いることで,予測の安定性を向上させている。

    Link: https://arxiv.org/abs/2606.15694

  • ジェネレーターリプレイが劣化する場合:異種連合クラス増分学習のための射影リハーサルオーケストレーション [cs.LG, cs.AI]目的:異種連合クラス増分学習における知識保持と性能向上
    • 連合学習は,プライバシー保護と分散データ活用を実現する重要な技術である。
    • クライアント間のラベル分布の偏りや学習段階のずれが,既存手法の性能低下を招く。
    • 射影リハーサルオーケストレーションにより,質の高いリプレイを実現し,異種環境下での性能劣化を抑制する。
    • 提案手法PROおよびPRO-MAXは,画像,テキスト,グラフのベンチマークにおいて,既存手法を上回る知識保持率と最終的な性能を示す。
    • リプレイ量だけでは,異種データや学習段階のずれによる性能劣化を解決できないことが示唆される。
    • PROおよびPRO-MAXは,射影メモリを表現の変化に合わせて適切に調整し,性能低下を抑制する。

    Link: https://arxiv.org/abs/2606.15695

  • LLMは失語症者の談話における正しい情報単位を確実に識別できるか [cs.AI, cs.CL, cs.LG]目的:失語症者の談話からの情報単位の分類におけるLLMの信頼性評価
    • 失語症者の言語能力評価において,内容の伝達度合いを測ることは重要である。
    • 情報単位の評価には専門家による時間と労力を要する手作業が不可欠である。
    • LLMを用いて情報単位の自動評価を行い,評価作業の効率化を目指す。
    • Few-shotプロンプティングにより,Llama-3.1-8B,Qwen2.5-7B,Mistral-7Bの3モデルで高いF1スコア(0.776~0.817)が得られた。
    • モデルは高い再現率を示したが,適合率は低く,情報単位への過剰な分類が課題として残る。
    • 重度の失語症者の談話では性能が低下し,完全自律的な使用には人間の介在が必要であることが示唆された。

    Link: https://arxiv.org/abs/2606.15696

  • シフトデータ拡張を用いたロバストなTransformerベースの株価指数1ステップ予測 [cs.LG, q-fin.ST]目的:株価指数予測の精度向上
    • 金融市場の予測は,投資戦略やリスク管理において不可欠であり,経済活動の安定化に貢献する。
    • 金融時系列データはノイズが多く,短期的な変動が激しいため,Transformerモデルの直接的な適用が困難である。
    • ノイズ環境下におけるロバストな株価指数予測手法の確立を目指す。
    • コサインアニーリングによる学習率スケジューリングは,一般化逆べき乗スケジューラよりも予測精度を安定的に向上させる。
    • シフトデータ拡張(SDA)は,予測誤差を大幅に低減し,ハイパーパラメータ選択に対するロバスト性を高める。
    • コサインアニーリングとSDAの組み合わせが両データセットで最高の性能を示し,データ拡張がモデル複雑性の増加よりも重要であることが示唆される。

    Link: https://arxiv.org/abs/2606.15701

  • 人工知能指数レポート2026 [eess.SY, cs.SY, cs.AI]目的:人工知能の進展と,それに対する社会の準備状況の乖離
    • AI技術は急速に進歩しており,社会への影響が拡大しているため,その動向を把握し評価することが重要である。
    • AI技術の進歩に対して,ガバナンス,評価方法,教育システムなどの社会システムの整備が追いついていないという課題がある。
    • AI技術の進歩に伴うリスクを管理し,その恩恵を最大限に引き出すための社会的な準備状況を評価することを目的とする。
    • 本レポートは,推論,安全性,実世界でのタスク実行におけるAIのテストの複雑さと,その測定の信頼性に関する課題を指摘している。
    • 生成AIの経済的価値と労働市場への影響に関する新たな推定値を提示し,AI主権に関する分析的枠組みを提示している。
    • 科学および医学分野におけるAIの応用状況について,それぞれ独立した章を設けることで,その影響力の拡大を反映している。

    Link: https://arxiv.org/abs/2606.15708

  • AI駆動型適応水ネットワーク管理フレームワーク:ヨルダンの非収益水問題への取り組み [cs.AI, cs.MA]目的:適応水ネットワーク管理のためのAI駆動型フレームワークの提案と,ヨルダンの非収益水問題への応用可能性の検証
    • 水資源は生命維持に不可欠であり,効率的な管理は持続可能な社会の基盤となる。
    • ヨルダンでは,漏水や不正利用により生産量の50%が非収益水として失われ,深刻な水不足を招いている。
    • 本研究は,AIを活用して水ネットワークの異常を検出し,迅速かつ適切な対応を可能にすることで,非収益水の削減を目指す。
    • 提案フレームワークは,EPANET,デジタルツイン技術,SCADAシステム,LLMを統合し,リアルタイムなネットワーク監視と適応的な意思決定を実現した。
    • オフラインLLMを用いた実証実験により,30.1L/sの漏水シミュレーションにおいて,15本の配管における流量変化を検出し,15ノードのクラスターで漏水箇所を特定できた。
    • このフレームワークは,ヨルダンの断続的な給水パターンや自動化の制限に対応し,水不足地域への展開可能性を示唆する。

    Link: https://arxiv.org/abs/2606.15709

  • オッズの法則:知能が困難な問題を確実に解決するために自己組織化する様子の分解代数 [cs.CR, cs.AI, cs.MA]目的:困難な問題を確実に解決するための知能の組織化様式
    • 複雑な問題解決において,信頼性の高いシステムの構築は不可欠である。
    • 不確実な要素を含むシステムにおいて,信頼性を向上させるための理論的基盤が不足している。
    • 信頼性の低い要素から構成されるシステム全体の信頼性を数学的に分析し,限界を明らかにする。
    • 検証ゲートを用いることで,信頼性の幾何学的増幅が可能になることを示した。
    • 検証者の尤度比が1より大きい場合,目標とする信頼性水準を対数的な検証深度で達成できることを示した。
    • 自己組織化戦略は,限界に達するまでコスト効率よく信頼性を向上させる固定点となることを示した。

    Link: https://arxiv.org/abs/2606.15712

  • ワンショットMoE専門家プルーニングのための専門家スコアリング方法:統一的な定式化と選択原理 [cs.CL, cs.RO, cs.LG]目的:ワンショットMoE専門家プルーニングにおけるプルーニング基準選択原理
    • 大規模言語モデルの効率化が求められており,MoEは計算コスト削減に有効である。
    • 既存のプルーニング基準は経験則に頼る部分が大きく,最適な基準が明確ではない。
    • 展開目的に応じたプルーニング基準選択の原理を確立し,メモリ使用量を削減すること。
    • ルーティング頻度,ゲート重み,活性化強度の3要素に基づく統一的な定式化を提示した。
    • タスクに依存しないプルーニングでは,ゲートフリーの活性化に基づく基準が有利であると示した。
    • 新しいタスク非依存基準MANとMSANは,16種類のベンチマークで優れた性能を示し,平均性能を最大8.8ポイント向上させた。

    Link: https://arxiv.org/abs/2606.15716

  • クロム論理プログラムの代数 [cs.LO, cs.AI, math.LO]目的:クロム論理プログラムの代数的構造
    • 論理プログラミングは,知識表現と推論の強力なツールである。
    • クロムプログラムの代数的性質は,未だ十分に解明されていない。
    • クロムプログラムの代数的構造を明らかにし,拡張を定義すること。
    • クロムプログラムは自然なモノイド構造を持つことが示された。
    • この構造は,クロム半環,準環,コンウェイ半環,オメガ半環などへの代数的拡張を許容する。
    • 有限クロムモノイドは,変換モノイドや有限オートマトンと関連付けられた。

    Link: https://arxiv.org/abs/2606.15719

  • InstantForget:推論時特徴量リセットによる更新不要なバックドア削除 [cs.CY, cs.LG, cs.AI]目的:展開されたモデルからの悪意のあるトリガー動作の除去と,クリーンな有用性の維持
    • AIシステムのセキュリティ確保は重要であり,バックドア攻撃への対策が不可欠である。
    • 既存のバックドア削除手法は,モデルの更新やトリガーデータの必要性など課題が多い。
    • モデルの更新なし,トリガーサンプルなしで,推論時にバックドアを効率的に削除すること。
    • 提案手法InstantForgetは,異常な特徴量を検出し,中立的な表現に移動させることでバックドアを削除する。
    • CIFAR-10の4つのトリガーに対して,平均攻撃成功率を0.071に低減した。
    • また,検出AUROCは0.981を達成し,8つのバックボーンの6つに転移可能であることを示した。

    Link: https://arxiv.org/abs/2606.15730

  • Vernier: 因果推論における語彙的ギャップの背後にある表現の不整合の探求 [cs.CL, cs.AI]目的:因果推論における語彙的ギャップと表現の不整合
    • 大規模言語モデルの応用拡大のため,推論能力の理解が重要である。
    • 変数名の変更により推論結果が変動し,モデルの挙動が不安定になる。
    • 表現の不整合が原因であるか,情報損失が原因であるかを検証する。
    • プレースホルダー置換による語彙的ギャップは,表現の不整合が原因であることが示唆された。
    • 変数名プローブの精度向上と活性化パッチングの結果から,表現空間における情報の伝達が確認された。
    • ビューの再整列には,元のプロンプトとプレースホルダープロンプトの反事実的拡張が有効である。

    Link: https://arxiv.org/abs/2606.15733

  • 取得可能な勾配:累積的な重みドリフトなしの継続的なポストトレーニング [cs.CL, cs.AI, cs.IR, cs.LG]目的:継続的なポストトレーニングにおける知識獲得手法
    • モデルのデプロイ後の継続学習は,知識の進化に対応する上で重要である。
    • パラメータの反復的な更新は,重みドリフトを引き起こし,忘却や性能低下につながる。
    • 勾配を検索可能な知識単位として扱うことで,重みドリフトを抑制し,知識注入を実現する。
    • ReGradは,勾配バンクからクエリに関連する勾配のみを取得し,一時的に重みを調整する。
    • バイレベルメタ学習により,文書由来の勾配を汎化可能な適応信号に変換する。
    • CPTやRAGと比較して,ReGradは優れた性能を示し,スケーラブルかつ可逆的な知識注入を可能にする。

    Link: https://arxiv.org/abs/2606.15734

  • EHRNote-ChatQA:長期退院サマリーを用いた根拠に基づいた複数回の臨床質問応答のためのベンチマーク [cs.CL, cs.AI]目的:長期退院サマリーに対する,根拠に基づいた複数回の臨床質問応答の評価
    • 医療現場では,患者の入院記録である退院サマリーの正確な理解が,再入院防止や診断に不可欠である。
    • 既存の質問応答ベンチマークは,単一ターンでの評価や根拠検証が不十分であり,実際の医療現場の複雑さを反映していない。
    • 複数回の退院サマリーを横断的に分析し,根拠を明確にする臨床質問応答の評価基準を確立すること。
    • EHRNote-ChatQAは,967例の患者データと16,072件の専門家が検証したQAペアを含む,初のベンチマークである。
    • LLMは内容回答よりも根拠検証に苦戦し,複数回の質問応答でエラーが蓄積することが示された。
    • 単一ターンの臨床QA性能は,このベンチマークでは必ずしも信頼できるものではないことが明らかになった。

    Link: https://arxiv.org/abs/2606.15735

  • 物語に対する質問応答における自己整合性に基づく再ランク付け [cs.CL, cs.AI]目的:物語に対する質問応答の性能向上
    • 自然言語処理において,長文の理解と一貫性のある応答生成は重要な課題である。
    • 既存手法は生成の変動に弱く,不完全または矛盾した回答になりやすいという問題がある。
    • 生成された複数の回答候補の整合性を評価することで,頑健性を高めることを目指す。
    • 提案手法は,複数の事前学習済み言語モデル(FLAN-T5, Pegasus-Large)において,一貫して性能を向上させた。
    • 特にPegasus-Largeは,72.50%から87.07%へと大幅な改善(+14.57%)を示し,提案手法の効果を実証した。
    • FLAN-T5-Baseも,82.32%から86.66%へ(+4.34%)改善しており,高い性能を示した。

    Link: https://arxiv.org/abs/2606.15741

  • マルチモーダル学習における欠損モダリティに対する教師なし学習 [cs.LG]目的:マルチモーダル学習における欠損モダリティへの対応
    • 現実世界のデータは様々な形式で存在し,それらを統合的に学習することが重要である。
    • マルチモーダルデータにおいて,一部のモダリティが欠損するケースは頻繁に発生する。
    • 欠損モダリティが存在する状況下でも,ロバストな学習を実現することを目指す。
    • 提案手法UL4M4は,タスクに依存しない形で欠損特徴埋め込みを補完する柔軟なフレームワークである。
    • UL4M4は,難易度の高い欠損パターン下でも,F1-Microスコア0.7を初めて安定して達成した。
    • 手法は軽量であり,既存のアーキテクチャに容易に組み込むことができる。

    Link: https://arxiv.org/abs/2606.15743

  • OmniTraffic:空間的・時間的交通推論のための制御可能な生成パイプラインとベンチマーク [eess.SY, cs.SY, cs.CV, cs.AI, cs.SY, eess.SY]目的:空間的・時間的交通推論のための制御可能な生成パイプラインとベンチマークの提供
    • 交通状況の理解は,自動運転や交通管理において不可欠であり,安全性向上に繋がる重要な課題である。
    • 既存の交通関連ベンチマークは,受動的な画像認識に偏っており,構造を考慮した交通推論の評価が不十分である。
    • 制御された条件下での交通推論評価を可能にし,より高度な交通理解モデルの開発を促進すること。
    • OmniTrafficは,12の現実世界の交差点を編集可能な3D環境として再構築し,2か国からの監視映像を組み合わせたベンチマークである。
    • 生成された800万件のVQAサンプルと,人間が検証した3000件のテストセットを用いて,最先端のMLLMの性能を評価した結果,人間とモデル間に大きな差が見られた。
    • シミュレーションデータで軽量MLLMをファインチューニングすることで,現実世界の交通シーンにおける性能が向上し,シミュレーション生成による教師データの有効性が示された。

    Link: https://arxiv.org/abs/2606.15749

  • 少数の学習例における音声言語モデルのための段階的変調による音響プロンプティング [cs.SD, cs.LG, cs.MM, eess.AS]目的:音声言語モデルにおける少数の学習例での音響特徴の獲得
    • 音声とテキストの関連付けにより音声分類性能が向上しており,その応用範囲は広い。
    • テキスト側のプロンプト学習が中心だが,音声エンコーダ側の学習可能なプロンプトは未検討である。
    • 音声エンコーダに学習可能なプロンプトを導入し,タスク固有の音響特徴を捉えることを目指す。
    • 提案手法は,既存のテキスト側プロンプトチューニングと組み合わせることで,少数の学習例での適応性能を向上させる。
    • 11のデータセットを用いた実験により,提案手法が性能改善をもたらすことが示された。
    • 音響表現空間の明示的な変調が,テキストのみのプロンプティングアプローチを補完することが示唆された。

    Link: https://arxiv.org/abs/2606.15751

  • 固定化推論によるグラウンデッドな具現化された推論 [cs.IR, cs.AI]目的:視覚的証拠に根ざした推論ステップの固定化
    • 具現化された推論は,ロボット工学やAIにおける重要な課題であり,物理世界でのタスク遂行に不可欠である。
    • 既存のモデルは,視覚情報との関連性が曖昧で,推論ステップ間でエンティティの参照が不安定になる問題がある。
    • 視覚的証拠への固定化により,一貫性のあるエンティティ追跡と正確な推論を実現し,マルチビュー環境での問題を解決する。
    • 提案手法は,14のベンチマークにおいて,7Bレベルのオープンソースモデルを平均12%上回る性能を示した。
    • 推論アンカーの導入により,エンティティの正確な局所化とIDの一貫性が向上し,視覚的な根拠付けが強化された。
    • 段階的な事後学習を通じて,具現化された知識,構造化された推論能力,プロセス監視型アライメントを効果的に獲得した。

    Link: https://arxiv.org/abs/2606.15753

  • 自動運転における車線変更予測:相関から因果関係へ - 因果的説明フレームワーク [cs.LG, cs.AI]目的:車線変更予測のための因果的説明フレームワーク
    • 自動運転の安全性向上には,周囲の状況を正確に予測し,適切な判断を下すことが不可欠である。
    • 既存手法は統計的な相関関係に依存しており,入力変数間の因果関係を無視している場合が多い。
    • 予測精度向上に加え,予測根拠を明確にし,解釈可能な説明を提供することを目指す。
    • 提案フレームワークは,最初の車線表示線横断イベントの3秒前から平均F1スコア95%以上を達成した。
    • 介入分析により,学習された因果構造に基づいて,影響の強い変数と弱い変数を区別した。
    • 因果チェーンの説明を通じて,予測された行動が優位である理由と,他の行動が支持されない理由を明確にした。

    Link: https://arxiv.org/abs/2606.15756

  • データ多様体の詳細な検討 [cs.LG, stat.ML]目的:データ多様体の幾何学的構造を研究するためのベンチマークフレームワーク
    • 深層学習の理論と実践の間には大きな隔たりが存在する。
    • 既存のデータセットでは,幾何学的な構造を正確に推定することが困難である。
    • 幾何学的推定器の較正環境と,理論的仮説の検証のための実験場を提供する。
    • dSpritesとCOIL-20を拡張し,曲率,リーチ,体積を高精度に推定できるフレームワークを構築した。
    • Genoveseらの境界やFeffermanらの境界のスケーリング挙動を評価し,$\beta$-VAEの層ごとの幾何学構造を追跡した。
    • 本フレームワークは,幾何学的推定器の較正や理論的仮説の検証に役立つ制御されたテスト環境を提供する。

    Link: https://arxiv.org/abs/2606.15760

  • Snyk VulnBench JS 1.0:LLMは同じバグを二度発見できるか [cs.CR, cs.AI, cs.SE]目的:JavaScriptコードに対するLLMセキュリティレビューの再現性評価
    • ソフトウェアの脆弱性は常に存在し,その発見と修正はセキュリティ維持に不可欠である。
    • LLMによる脆弱性検出は新しいアプローチだが,その再現性や信頼性には課題がある。
    • LLMと従来のSASTの組み合わせによる効果的な脆弱性検出手法を確立すること。
    • LLMによるセキュリティレビューは,参照一致した結果では安定していたが,追加されたレポートは実行ごとに大きく変動した。
    • ClaudeがSnyk Codeの参照結果と一致した場合,再現性が高かった。一方,一致しなかった結果は,再現性が低い傾向にあった。
    • LLMと決定論的なSASTを組み合わせることで,それぞれの技術の利点を活かし,脆弱性検出の精度を高めることができる。

    Link: https://arxiv.org/abs/2606.15762

  • LLMチューターにおけるスキャフォールディングの再検討:ベンチマークと実世界展開の間の相互作用の不一致 [cs.AI, cs.HC]目的:LLMチューターにおけるスキャフォールディングの相互作用の不一致
    • AIチューターは教育の質を向上させる可能性があり,個々の学習ニーズへの対応が期待されている。
    • 既存のベンチマークは,学習者のスキャフォールディングへの取り組みを前提としており,現実との乖離が生じている。
    • 本研究は,学習者の行動パターンを考慮した,より現実的な評価方法を提案することを目的とする。
    • ベンチマークデータセットと実世界展開データセットの分析から,実世界では学習者のスキャフォールディングへの取り組みが低い傾向が示された。
    • 学習者は,チューターのスキャフォールディングを迂回し,自身の学習目標達成を優先する傾向があることが明らかになった。
    • スキャフォールディングの迂回は必ずしも悪影響を及ぼすわけではなく,チューターの教育的枠組みと学習者の目標との間の不一致を示す可能性がある。

    Link: https://arxiv.org/abs/2606.15766

  • 不確実性の可視化:深層学習における欠落および矛盾する証拠の空間マップ [cs.LG, cs.AI]目的:深層学習モデルの不確実性の空間分布の可視化
    • 安全性が求められる分野では,機械学習システムの信頼性が不可欠であり,そのための不確実性理解が重要である。
    • 既存の不確実性評価手法は,モデルの確信度を示すスカラー値のみを提供し,不確実性の空間的な要因を特定できない。
    • モデルの不確実性の原因となる空間領域を特定し,信頼性を評価するための可視化手法を開発する。
    • 提案手法(UAM)は,Evidential Deep LearningとFullGradを組み合わせることで,解釈可能な不確実性活性化マップを生成する。
    • UAMは,証拠の欠如を示す「空虚性」と,競合する仮説間の矛盾を示す「不協和性」を区別し,それぞれの空間分布を可視化する。
    • 複数のベンチマークデータセットを用いた評価により,提案手法が不確実性評価と説明可能性のギャップを埋め,複雑な画像認識タスクにおけるモデルの信頼性評価に役立つことが示された。

    Link: https://arxiv.org/abs/2606.15767

  • LaWAM:効率的なダイナミクス認識型ロボットポリシーのための潜在世界行動モデル [cs.RO, cs.AI]目的:ロボット制御のための潜在的な世界行動モデル
    • ロボットの自律的な動作には,環境の変化を予測し,それに対応する能力が不可欠である。
    • 既存の視覚言語行動モデルは,ロボットの行動がシーンに与える影響を明示的に予測できない場合がある。
    • LaWAMは,潜在的な視覚的サブゴールを用いて,効率的にダイナミクスを認識したロボット制御を実現することを目指す。
    • LaWAMは,LIBERO,RoboTwin,実世界での操作タスクにおいて,最先端または競争力のある成功率を達成した。
    • LaWAMは,pixel空間のWAMと比較して,最大24倍低いウォールクロックレイテンシを実現し,低遅延推論を維持する。
    • LaWAMの各アクションチャンク予測には187msかかり,効率的なダイナミクス認識型ロボット制御を可能にする。

    Link: https://arxiv.org/abs/2606.15768

  • DYNA:継続学習における時間的知識グラフで大規模言語モデルを拡張する動的エピソード記憶ネットワーク [cs.CL, cs.AI, cs.LG, cs.SI]目的:大規模言語モデルへの時間的知識の組み込み
    • 言語モデルの性能向上には,常に最新の知識を反映させることが不可欠である。
    • 既存の言語モデルは,新しい知識を学習する際に,既存の知識を忘れてしまう問題がある。
    • 本研究は,モデルの再学習なしに,時間的知識を効率的に組み込むことを目指す。
    • DYNAは,凍結された大規模言語モデルに時間的知識グラフを付加することで,継続学習における破滅的忘却を約7%軽減した。
    • DYNAは,標準的なRAGと比較して,時間的順序の正確性を約5%向上させた。
    • グラフのクラスタリング係数が高いほど,情報検索の性能が向上することから,グラフ構造の重要性が示された。

    Link: https://arxiv.org/abs/2606.15778

  • 反実仮想的に忠実な感情の説明のための信頼性の高い表情行動単位因果推論 [cs.CV, cs.LG]目的:表情行動単位(AU)から感情への推論における忠実性向上
    • 感情認識モデルの透明性と解釈可能性が重要視されている。
    • 既存モデルのAUから感情への説明は,必ずしも予測の根拠と一致しない。
    • AUと感情の因果関係に基づき,忠実な説明を生成する手法を開発する。
    • 提案手法FACRは,独立に誘導されたAUと感情の因果グラフを用いて推論を安定化させる。
    • 介入的指標を用いて忠実性を測定し,UNBC-PAINデータセットで効果を検証した結果,AUとPSPI構成の一致率が向上した。
    • 言語モデルに組み込むことで,AUの活性化に基づいて生成される説明の忠実性を高めることが確認された。

    Link: https://arxiv.org/abs/2606.15779