arXiv雑要約

AI - 2026/06/11 公開

  • 視点を考慮せよ:心の理論のための再帰的推論 [cs.AI]目的:心の理論推論の改善
    • 人間社会における円滑なコミュニケーションには,他者の心を理解することが不可欠である。
    • 大規模言語モデルは,部分的で非対称な観察から他者の信念を推論することが苦手である。
    • 入れ子になった信念を明示的にモデル化することで,より高度な心の理論推論を実現すること。
    • RecToMは,推論時に再帰的な視点構築を通して,心の理論推論における入れ子構造化された信念をモデル化する。
    • RecToMは,質問で指定されたキャラクターチェーンに沿って各キャラクターの視点を構築し,高次の信念問題を最終的に構築された視点内の現実世界の問題に還元する。
    • Hi-ToM,Big-ToM,FanToMなどのベンチマークにおいて,RecToMは最先端のアプローチを凌駕し,GPT-5.4とQwen3.5ではHi-ToMで100%の精度を達成した。

    Link: https://arxiv.org/abs/2606.11724

  • 公共交通車両向けマルチビュー車内監視システム [cs.CV, cs.AI]目的:公共交通機関における車内監視のためのマルチビューデータセット
    • 公共交通機関の安全性向上は喫緊の課題であり,乗客の行動監視が不可欠である。
    • 既存の監視システムでは,カメラの死角やプライバシーへの配慮が課題となっていた。
    • マルチビューデータセットとツールを提供し,車内における3D物体検出の精度向上を目指す。
    • 本研究では,4つの車内向けカメラとLiDARを使用したマルチビューデータセットを構築した。
    • データセットには9,136サンプルが含まれており,3D人体姿勢推定や3Dバウンディングボックスの生成パイプラインも提供する。
    • Lift-Splat-ShootやBEVFusion等のモデルを用いたベンチマークを実施し,評価環境を整備した。

    Link: https://arxiv.org/abs/2606.11739

  • TacCoRL:シミュレーションによる触覚フィードバックをVLAに統合 [cs.RO, cs.GR, cs.LG]目的:ロボット操作における視覚,言語,行動の事前知識を提供するVLAモデルへの触覚フィードバック統合
    • ロボット操作において,視覚情報だけでは不十分な場合が多く,触覚情報は重要な役割を果たす。
    • 接触の多いタスクでは,視覚のみでは局所的な接触状態を捉えきれず,ロボットの制御が困難になる。
    • シミュレーションと実環境の協調学習により,大規模な触覚事前学習なしにVLAモデルを改善すること。
    • TacCoRLは,シミュレーション環境で触覚情報を活用し,VLAポリシーを効率的に学習するフレームワークである。
    • 実環境とシミュレーション間のギャップを埋めることで,実ロボットへの直接的な転移を実現している。
    • 4つの両手での接触が多いタスクにおいて,TacCoRLはベースラインと比較して平均成功率を22.5%向上させた。

    Link: https://arxiv.org/abs/2606.11743

  • 「教えて,チャット!」:実世界の人的学習のためのソクラテス式対話の構造化 [cs.CL, cs.AI]目的:大規模言語モデルを用いた学習におけるソクラテス式対話の構造化
    • 日常学習にLLMが普及する中で,体系的な学習支援の必要性が高まっている。
    • LLMは学習者の事前知識を把握できず,対話から推測する必要がある。
    • カリキュラム,ソクラテス式対話,知識状態推論を分離し,学習効果の向上を目指す。
    • 提案システムは,知識グラフを用いて学習順序を決定し,PPOによるカリキュラム制御を行う。
    • STEMおよび非STEM分野において,既存手法やLLMと比較して,学習到達率と対話回数で優位性を示した。
    • 明示的なカリキュラム構造は,モデルのスケールアップだけでは得られない効果をもたらす。

    Link: https://arxiv.org/abs/2606.11744

  • プロンプトからトークンへ:ビジョン言語モデルにおける因果的監督の内部化とマルチ画像因果推論 [cs.CV, cs.AI]目的:マルチ画像入力に対する因果的推論におけるビジョン言語モデルの性能向上
    • 物理世界を理解し介入するためには,視覚情報からの因果関係の特定が不可欠である。
    • 既存のビジョン言語モデルは,特にマルチ画像入力における介入・反事実的な質問に対し,脆さを抱えている。
    • モデル実行に因果メカニズムを組み込み,より信頼性の高い制御を可能にすることを目指す。
    • 提案手法BridgeVLMは,CausalVLBenchの介入タスクで54.4%の精度を達成し,プロンプトレベルの監督と比較して大幅に向上した。
    • Causal3Dの性能も43.6%から49.0%へと改善され,因果構造学習においても顕著な成果が得られた($F_1$: 33.4% $\rightarrow$ 75.1%)。
    • マルチ画像入力から因果グラフを誘導し,LLMデコーダーに注入されたRAMP層によって因果メッセージパッシングを行うことで,因果的推論を内部化した。

    Link: https://arxiv.org/abs/2606.11745

  • 複数回の画像編集における因果的記憶を用いた時間的一貫性の維持:AnchorEdit [cs.IR, cs.CV, cs.AI]目的:複数回の画像編集における,時間的一貫性の維持
    • 反復的なデザイン作業において,画像編集は不可欠なプロセスである。
    • 既存モデルは,複数回の編集においてIDの変動やエラーの蓄積といった課題を抱えている。
    • 本研究は,長期間にわたる編集における安定性とIDの維持を目的とする。
    • AnchorEditは,高解像度かつ長期的な複数回編集に特化した自己回帰型拡散モデルである。
    • 3段階のトレーニングカリキュラムにより,IDの保持と一貫性を実現している。
    • 実験結果から,AnchorEditが10回以上の編集においても,優れた性能と安定性を示すことが確認された。

    Link: https://arxiv.org/abs/2606.11751

  • RCAP:ロバストでクラス認識型の確率的動的データプルーニング [cs.LG]目的:モデル学習における計算コスト削減と情報損失の最小化
    • 機械学習モデルの効率的な学習は,大規模データセットを扱う上で不可欠である。
    • 既存の動的データプルーニング手法は,不均衡データセットにおいて,最悪グループの精度を維持するのが困難である。
    • 各クラスの損失に基づいてデータセットをプルーニングし,最悪グループの精度を向上させることを目指す。
    • RCAPは,データセットのプルーニング率に関わらず,既存の手法を上回り,優れた最悪グループの精度を達成する。
    • 特に不均衡データセットにおいて,全データでの学習と比較して,10%のデータ量で1%以上の性能向上を達成する。
    • 平均8.69倍の高速化を実現し,効率的な学習を可能にする。

    Link: https://arxiv.org/abs/2606.11761

  • 言語モデルにおけるオープンエンドタスクを通じた創造性の自動評価 [cs.CL, cs.AI]目的:言語モデルの創造性の定量化
    • 言語モデルの進歩は目覚ましく,その創造性への関心が高まっている。
    • 既存の創造性指標はタスク固有であり,汎用性に欠ける点が課題である。
    • タスクに依存しない,言語モデルの創造性を評価する枠組みを構築する。
    • 提案手法は,セマンティックエントロピーを用いて言語モデルの多様性と新規性を評価する。
    • 収束型創造性は,Retrieval-based multi-agent judge frameworkを用いて評価し,効率性を向上させた。
    • 提案枠組みは,問題解決,研究アイデア生成,創作といった多様なドメインで有効性が確認された。

    Link: https://arxiv.org/abs/2606.11762

  • 実世界シミュレーション連携による触覚ポリシー学習を用いたブラインド・デクステラス・グラッピング [cs.RO, cs.AI]目的:熟練した手のブラインド・グラッピングに関する触覚のみに基づくポリシーの学習
    • ロボットが物体を操作する上で,視覚情報に頼らない正確な把持能力は不可欠である。
    • 実世界のロボットにおいて,触覚情報の活用はシミュレーションと現実のギャップや,触覚信号の表現力の制約により困難である。
    • シミュレーションと現実のギャップを埋め,触覚情報の表現力を向上させることで,実用的なブラインド・グラッピングを実現すること。
    • 実世界のLEAP Handを用いた実験で,10種類の既知オブジェクトと10種類の未知オブジェクトに対して27%の把持成功率を達成した。
    • レイアウトを考慮した触覚エンコーディングによる事前学習は把持性能を向上させ,シミュレーションとハードウェア間の一貫性を高めることが確認された。
    • 接触イベントの較正,幾何学的な触覚表現学習,拡散ベースのポリシー集約が,実用的な触覚のみによるブラインド・グラッピングを可能にする有効なアプローチである。

    Link: https://arxiv.org/abs/2606.11767

  • データ駆動型システムが推論能力を示すのはいつか [cs.AI, cs.LG]目的:AI推論能力のレベル評価フレームワーク
    • AI技術の発展は社会に大きな変革をもたらす一方,倫理的・法的課題も生じている。
    • EU AI Actにおける「推論能力」の定義が曖昧であり,データ駆動型システムへの適用範囲が不明確である。
    • AI Actにおける「推論能力」の定義に基づき,データ駆動型システムの推論レベルを評価する。
    • 本研究では,統計学習理論に基づき,推論能力のレベルを評価するフレームワークを開発した。
    • クレジットスコアリングの事例を用いて,AI Actにおける推論能力の要件を満たすレベルを分析した。
    • 個々のモデルだけでなく,データ処理ワークフロー全体を考慮する必要があることを示した。

    Link: https://arxiv.org/abs/2606.11769

  • SVoT:強化学習による空間推論のための状態認識思考の可視化 [cs.AI]目的:空間推論における多段階推論の信頼性向上
    • マルチモーダルLLMの性能向上には,空間推論能力が不可欠である。
    • 既存手法では,中間状態の検証や状態遷移の明示化が不十分である。
    • 状態と遷移を検証可能な形で可視化し,多段階推論の信頼性を高める。
    • 提案手法SVoTは,中間状態と可視化を生成する強化学習フレームワークである。
    • SVoTは,テキストと視覚による推論を通して,行動の前提条件と結果を検証する。
    • 新しいベンチマークとSVoTにより,最先端の性能を達成し,最大65%の精度向上を実現した。

    Link: https://arxiv.org/abs/2606.11770

  • 量子化は高密度トップ-$k$検索にどのような制約を与えるか:理論的研究 [cs.IR, cs.AI, cs.IT, math.IT]目的:高密度トップ-$k$検索における量子化の限界
    • 情報検索の効率化は,大規模データセットの処理において不可欠である。
    • 量子化による次元削減は,計算コスト削減に有効だが,精度低下を招く可能性がある。
    • 量子化精度と次元数の関係を理論的に解明し,実用的な限界を明らかにすること。
    • 無限精度では次元数を$k$に抑えられるが,有限ビット数では$N$に依存した次元数が必要となる。
    • 量子化のビット数$B$が一定の場合,次元数は対数的に$N$と共に増加する。
    • 量子化精度が閾値$B^{*} = O(\ln \ln N)$を下回ると,どのような次元数でもトップ-$k$検索は不可能になる。

    Link: https://arxiv.org/abs/2606.11780

  • MultiToP:ビデオ大規模多Modalモデルにおける幻覚を軽減するための視覚トークンパッチ学習 [cs.CL, cs.DB, cs.CV, cs.AI, cs.CL]目的:ビデオ大規模多Modalモデルにおける幻覚軽減のための視覚トークンパッチング手法
    • ビデオ理解の分野は急速に進歩しているが,生成された応答の信頼性が課題となっている。
    • 大規模多Modalモデルは,入力ビデオと矛盾する内容(幻覚)を生成する可能性がある。
    • 入力ビデオ中の信頼性の低い視覚トークンを修正し,より正確な応答を生成することを目指す。
    • MultiToPは,軽量な視覚トークンパッチャを用いて,信頼性の低いトークンを動的なグローバルパッチトークンに選択的に置換する。
    • 回答条件付きのフレームレベル情報を活用したランク較正により,パッチャの学習効率を向上させている。
    • Vript-HALにおいて,Qwen3-VL-4B-InstructのF1スコアを50.60%向上させ,ActivityNet-QAではVideo-LLaVA-7Bの精度を18.58%向上させた。

    Link: https://arxiv.org/abs/2606.11792

  • AI4Land:グローバル高解像度土地利用再構成のためのスケーラブルな深層学習 [cs.LG, cs.AI, physics.ao-ph]目的:グローバル高解像度土地利用・土地被覆の歴史的再構成と将来予測
    • 地球温暖化予測の精度向上には,陸域の炭素循環の理解が不可欠である。
    • 地球システムモデルの陸面表現には不確実性が多く,精度のボトルネックとなっている。
    • AI4Landは,観測データが不足する期間の陸面状態を再現し,気候変動予測の精度向上を目指す。
    • AI4Landは,粗解像度データと静的な地理物理的特徴を統合し,年間の土地利用・土地被覆を再構成する。
    • U-Netアーキテクチャを用いて,空間的に一貫性のある物理的に妥当な陸面パターンを学習した。
    • GPUアクセラレーションされたHPCインフラストラクチャ上で開発され,リアルタイム連携可能なオープンソースエミュレータを提供する。

    Link: https://arxiv.org/abs/2606.11793

  • アルツハイマー病重症度評価のための構造的MRIと臨床データの多角的順序モデリング [cs.LG, cs.AI]目的:アルツハイマー病重症度評価のための自動化された解釈可能な段階付け
    • アルツハイマー病などの神経変性疾患の早期診断と進行把握は,適切な治療介入に不可欠である。
    • 従来の臨床的段階評価は,時間と労力を要し,評価者によるばらつきが生じやすいという課題がある。
    • MRI画像と臨床データを統合し,アルツハイマー病の重症度を正確かつ効率的に評価する手法を開発すること。
    • T1強調MRIのみのモデルは,臨床的段階評価との一致度において,表形式データのみのモデルを上回った。
    • 画像,人口統計学的データ,遺伝的情報を統合することで,全体的な性能が向上した。
    • 順序モデリングは,CDRスケールの順序構造をより良く捉え,臨床的段階評価との整合性の高い予測を可能にした。

    Link: https://arxiv.org/abs/2606.11794

  • 空間サンプリングによる価値減衰:非定常深層強化学習における忘却メカニズム [eess.SY, cs.SY, cs.LG]目的:非定常環境下における強化学習手法への適応
    • 環境変化への適応能力は,生物にとって生存戦略上重要である。
    • 従来の強化学習は,環境変化に関する情報が必須となる場合が多い。
    • 環境変化に関する情報なしに,強化学習が適応可能となるメカニズムを提案する。
    • 提案手法である空間サンプリングによる価値減衰は,価値ベースの深層強化学習アーキテクチャに効果的な忘却メカニズムを提供する。
    • DQNおよびSACの変更版を用いて非定常環境下での実験を行い,良好な結果と限界が示された。
    • 本研究は,環境変化に対応可能な強化学習システムの構築に貢献する。

    Link: https://arxiv.org/abs/2606.11797

  • 信頼できるAIに向けて:連続データ要約に対する多目標敵対的攻撃とロバストな防御 [cs.AI, cs.CR, cs.LG]目的:連続データ要約における敵対的攻撃とその防御
    • AIの信頼性確保は重要であり,予測モデルだけでなくデータ処理パイプライン全体の堅牢性が求められる。
    • データ要約は情報の選択に影響し,敵対的な摂動によりAI全体の信頼性を損なう可能性がある。
    • 類似度レベルの摂動を用いた敵対的攻撃を分析し,その対策となるロバストな防御手法を提案する。
    • 提案手法による攻撃は,実際のデータとクラスタ化されたベンチマークデータセットにおいて有効性が確認された。
    • 提示した防御手法は,構造化された環境下で堅牢性と緩和策のトレードオフを改善することが示された。
    • 実データを用いた実験では,堅牢な保護のパラメータ依存性も明らかになった。

    Link: https://arxiv.org/abs/2606.11804

  • TextHOI-3D:離散多視点生成と結合メッシュ最適化によるテキストからの3Dハンド・オブジェクト相互作用 [cs.CV, cs.AI]目的:テキストからの3Dハンド・オブジェクト相互作用の生成
    • 3Dコンテンツ生成技術は,現実世界の再現やバーチャルリアリティなど,様々な分野で重要性が増している。
    • ハンドとオブジェクトの相互作用を伴う3Dモデルの生成は,形状,姿勢,接触の物理的妥当性を両立させる必要があり,難易度が高い。
    • テキストに基づいた3Dハンド・オブジェクトモデル生成において,多視点情報を活用し,幾何学的精度を高めることを目指す。
    • 提案手法TextHOI-3Dは,テキストと生成された多視点画像から,ハンドとオブジェクトの3Dメッシュを生成する。
    • 多視点設定は,単一視点設定と比較して,オブジェクトのCD値を17.26mmから4.92mmに,貫通体積を5.3721cm^3から0.2193cm^3に削減する効果を示した。
    • 本研究は,テキスト駆動型3Dハンド・オブジェクトメッシュ作成において,多視点視覚トークンが効果的な中間表現であることを支持する。

    Link: https://arxiv.org/abs/2606.11805

  • WorldReasoner:言語モデルエージェントが妥当な推論をもってイベントを予測するかどうかの評価 [cs.CL, cs.AI]目的:言語モデルエージェントによるイベント予測の妥当性評価
    • 現実世界の予測は,AIの意思決定において不可欠であり,その信頼性確保が重要である。
    • 既存の評価指標では,単なる正答率だけでは,真の予測能力を判断できないという課題がある。
    • 時間的に有効な予測のための,根拠となる証拠や推論の質を評価する枠組みを構築すること。
    • WorldReasonerは,予測の正答率,証拠の質,推論の質を包括的に評価するフレームワークである。
    • 時間的に有効な情報検索が予測精度に最も影響を与えることが示された。
    • 因果グラフの構築は,主要イベントの再現性を向上させるが,根拠に基づいた確率の推定は依然として困難である。

    Link: https://arxiv.org/abs/2606.11816

  • 文法制約デコーディングがLLMを悪意のあるコード生成に誘導する [cs.CR, cs.AI, cs.CL, cs.SE]目的:LLMによる悪意のあるコード生成の誘導メカニズムの解明と安全対策の提案
    • LLMはコード生成に利用が増加しており,その安全性確保は重要な課題である。
    • 文法制約デコーディングは信頼性向上に貢献する一方,新たな攻撃対象となるリスクが認識されていない。
    • 文法制約デコーディングが悪意のあるコード生成を誘発する脆弱性を解消すること。
    • 本研究で提示したCodeSpear攻撃により,LLMが文法制約によって悪意のあるコードを生成することが示された。
    • 提案手法CodeShieldは,攻撃者が制御する文法制約下でも安全性を維持し,有用性を損なわないことを確認した。
    • 文法制約デコーディングの潜在的なセキュリティリスクを明らかにし,今後の安全対策の必要性を示唆した。

    Link: https://arxiv.org/abs/2606.11817

  • 再構成歪に対するロバスト性を備えた特徴量アラインメント型音声透かし [cs.SD, cs.AI, cs.CR, cs.MM]目的:再構成歪に対するロバストな音声透かし技術の開発
    • 音声の改ざん防止や著作権保護のため,透かし技術の重要性が高まっている。
    • 従来の透かし技術は,音質劣化を抑えるため,ロバスト性に課題があった。
    • 再構成モデルによる歪みへの耐性を高めつつ,音質の劣化を抑制することを目指す。
    • 提案手法は,元の音声の特徴量分布に透かしをアラインメントすることで,高エネルギー化を実現し,ロバスト性を向上させた。
    • VAD損失と知覚損失を導入することで,音声領域内への透かし埋め込みを誘導し,不可聴性を維持した。
    • 実験により,既存手法と同等の不可聴性を維持しつつ,既知・未知の再構成モデルに対するロバスト性が大幅に向上することが示された。

    Link: https://arxiv.org/abs/2606.11828

  • 医学研究分析のためのスキル拡張型AIエージェント:NSCLC転写体バイオマーカー課題における探索的マルチモーダル人間評価 [cs.AI]目的:非小細胞肺がん免疫療法バイオマーカー課題における,AI生成の転写体研究分析の品質向上
    • バイオメディカル研究におけるAI活用は進むが,その分析過程の透明性や妥当性が課題である。
    • 既存のLLMやAIエージェントは,重要な分析ステップの省略,不適切な手法の使用,結論の誇張などが問題となる。
    • 医学研究に必要なスキルをAIに付与することで,より質の高い分析結果を得ることを目指す。
    • スキル拡張型AIは,エキスパートによる評価において,ネイティブAIよりも高い品質傾向を示した (平均5.50 vs 5.11)。
    • 非専門家による評価も同様の傾向が見られたが,統計的な有意差は認められなかった。
    • 本研究は,スキル拡張型AIの品質向上の可能性を示唆するものであり,今後の大規模な検証の必要性を示唆する。

    Link: https://arxiv.org/abs/2606.11830

  • 一様分布から学習されたグラフ事前分布へ:構造発見のための拡散 [cs.LG, cs.AI]目的:構造発見の信頼性向上
    • 複雑なシステムを理解するには,その構造を把握することが不可欠である。
    • 既存手法は単純なグラフ事前分布に依存し,エッジ間の依存関係を捉えきれていない。
    • 拡散モデルを用いてグラフ分布を適応的に調整し,構造発見の精度を高める。
    • 提案手法Diff-priorは,拡散モデルを用いてエッジ分布を校正することで,より信頼性の高い構造を学習する。
    • Diff-priorは,複数のNRIアーキテクチャにおいて,構造推論の性能を向上させ,決定的なエッジ事後分布を生成することが示された。
    • 本手法は,構造化された変数に対する汎用的な学習パラダイムを提供する。

    Link: https://arxiv.org/abs/2606.11831

  • 文脈内事前情報を用いた分布外脳ダイナミクスのフローマッチング [cs.LG, q-bio.NC]目的:分布外の脳ダイナミクス生成
    • 脳機能の理解は,精神疾患の診断・治療に不可欠であり,その解明へのニーズは高い。
    • 従来の脳時系列生成モデルは,カテゴリカルな条件付けに限定され,柔軟な一般化が困難であった。
    • 未知の認知課題におけるリアルなfMRI脳ダイナミクス生成を可能にし,反実仮想実験を支援する。
    • 言語情報のみで,課題ごとの領域特異的な活動パターンと,未知の空間的活性化パターンを再現した。
    • 空間的事前情報は,言語情報だけでは精度が低下する領域において生成を安定化させ,反実仮想課題の指定に必要な構造を維持した。
    • 本研究は,未知の認知課題に対する全皮質fMRIダイナミクスを生成する初のモデルであり,反実仮想神経科学とデータ駆動型実験設計の発展に貢献する。

    Link: https://arxiv.org/abs/2606.11833

  • AI支援型フォーカスグループの設計:役割×モーダリティ・プレイブック [cs.HC, cs.AI]目的:AI支援型フォーカスグループの設計に関するプレイブック
    • デザインリサーチにおいて,参加者の経験収集は重要である。フォーカスグループは,参加者間の相互作用を通じて深い洞察をもたらす。
    • 従来のフォーカスグループは,時間と労力がかかる上に,ファシリテーターの力量に左右されやすいという課題がある。
    • 生成AIを活用することで,フォーカスグループの効率化と質的向上を目指し,方法論的なリスクを明確化する。
    • AIの役割(ツール,共同ホスト,ホスト)とモーダリティ(テキスト,音声,具現化)に基づいたフォーカスグループ用プレイブックを提案。
    • AI支援が会話に及ぼす影響を分析し,各設定における相互作用のトレードオフを明らかにした。
    • AI支援型フォーカスグループの評価における未解決の課題を特定し,今後の研究の方向性を示唆。

    Link: https://arxiv.org/abs/2606.11835

  • 音声基盤モデルに対するパラメータクラスタリングを用いたデータフリーかつ学習フリーな圧縮手法 [cs.SD, cs.AI, eess.AS]目的:音声基盤モデルのデータフリーかつ学習フリーな圧縮
    • 近年,音声基盤モデルは様々な音声タスクで高い性能を示すが,モデルサイズが巨大であるという課題がある。
    • モデルサイズの削減は,計算資源の制約や実用上の展開において重要な課題となっている。
    • 本研究は,データや学習を必要としない圧縮手法によって,モデルサイズの削減と性能維持の両立を目指す。
    • HuBERT-largeにおいて,50%の疎性化を行った場合,Magnitudeベースのプルーニングと比較して,fine-tuning前にtest-cleanで27.73%,test-otherで18.61%のWER絶対削減が確認された。
    • fine-tuning後(3 epoch)には,test-cleanで0.19%,test-otherで0.79%のWER絶対削減が確認された。
    • Whisper-large-v3において,10%の疎性化を行った場合,Magnitudeベースのプルーニングと比較して,2.86%/5.02%のWER絶対削減が確認され,ベースラインと比較して有意なWER増加は見られなかった。

    Link: https://arxiv.org/abs/2606.11836

  • オープンボキャブラリシーンスケッチ意味セグメンテーションのための弱教師あり学習法 LASA [cs.CV, cs.AI]目的:オープンボキャブラリシーンスケッチ意味セグメンテーションにおける性能向上
    • シーン理解はロボット工学や画像検索などに応用され,その重要性は高い。
    • スケッチはテクスチャや色情報が乏しく,構造や配置に依存するため,意味理解が難しい。
    • 多層的な注意機構を統合し,構造的情報を強化することで,セグメンテーション精度を向上させる。
    • 提案手法LASAは,異なる層のVision Transformerからの注意マップを統合することで,構造的な事前知識を強化する。
    • FS-COCO,SFSD,FrISSにおける実験で,既存の弱教師あり学習法と比較してmIoUが大幅に向上した。
    • LASAは,セグメンテーション精度と空間的な一貫性の両方で,一貫した改善を示している。

    Link: https://arxiv.org/abs/2606.11837

  • TaskFusion:異種表形式データに対する継続的異常検知 [cs.LG]目的:異種表形式データにおける継続的異常検知手法の開発
    • 表形式データの異常検知は,様々な分野で重要であり,システム監視や不正検知に貢献する。
    • 異種な特徴量や分布の変化,極端な不均衡データといった現実世界の課題に対応した継続学習は困難である。
    • 異なるタスクから継続的に学習し,異種データにおける安定した異常検知を実現することを目指す。
    • 提案手法は,タスク固有の特徴量を共有空間にマッピングし,分布を整列させることで表現のドリフトを抑制する。
    • タスク内補間とタスク間混合を行うTaskfusion拡張により,モデルの異常境界の安定性を向上させる。
    • データセット蒸留を用いた効率的なサンプル保存と,外れ値露光目標により,不均衡データとメモリ制約に対応する。

    Link: https://arxiv.org/abs/2606.11844

  • 状態的発見:オープンエンドな科学的発見における証拠に基づく主張の形成 [cs.AI]目的:オープンエンドな科学的発見における主張の形成
    • 科学的発見の自動化は,未知の知識の獲得を可能にするため重要である。
    • 既存手法では,主張が証拠に過度に依存し,誤った結論に至る可能性がある。
    • 証拠と探索を連動させ,より信頼性の高い主張形成を目指す。
    • StatefulDiscoveryは,探索状態を外部化することで,効果的な発見を実現する。
    • 40の現実データを用いた実験で,既存手法よりも質の高い主張を多く生成した。
    • 構造化された仮説,局所的な判断,探索の制御が性能向上に貢献することが示された。

    Link: https://arxiv.org/abs/2606.11851

  • タスクを意識した構造化メモリによる動的なマルチモーダル文脈内学習 [cs.DM, math.CO, math.OC, cs.CV, cs.AI]目的:マルチモーダル大規模言語モデルにおける,動的な文脈内学習のための構造化メモリ
    • マルチモーダルLLMの急速なタスク適応は重要だが,文脈長の制限とKVキャッシュのコストが課題。
    • 既存のメモリ圧縮手法は,バイアスやセマンティック構造の破壊,静的なメモリという問題がある。
    • タスクを意識し,構造を維持しつつ,動的にアクセス可能なメモリ構築を目指す。
    • TASMは,タスクベクトルをガイドとした圧縮により,サンプル固有の情報ではなくタスクレベルの関連性を捉える。
    • セマンティクスを考慮したトークンマージにより,破壊的な削除なしでトークンを統合し,基盤となる多様体を維持する。
    • コンパクトなコアメモリと潜在銀行の階層構造により,クエリ適応的な動的検索を実現し,高い性能を維持する。

    Link: https://arxiv.org/abs/2606.11853

  • ARTによるマルチモーダルLLMのファインチューニング:アートに基づく強化学習 [cs.LG, cs.AI, cs.CL]目的:マルチモーダルLLMのファインチューニング手法
    • LLMは自然言語処理の基盤であり,その性能向上は様々な応用分野に不可欠である。
    • 既存のPEFT手法はLLMの計算グラフを修正するため,vLLM等の高性能エンジンでの利用が制限される。
    • 計算グラフを修正せずにファインチューニングを行い,vLLM等のエンジンでも利用可能にすること。
    • ARTは,視覚入力のみを最適化することで,計算グラフを修正せずにファインチューニングを実現する。
    • 最適化された視覚入力は,タスクに関連するアート作品として表現可能である。
    • Qwenアーキテクチャにおいて,ARTはLoRAと同等の精度を数学や構造化ツール利用のベンチマークで達成した。

    Link: https://arxiv.org/abs/2606.11854

  • RePAIR: チェスにおける予測的自己教師あり表現学習 [eess.SY, cs.SY, cs.LG]目的:チェスの局面を,簡潔かつ意味のある表現に変換する手法
    • ゲームAIの性能向上には,局面の効率的な表現が不可欠である。
    • 既存手法では,複雑な局面を適切に表現できず,汎化性能が課題となる。
    • 自己教師あり学習により,局面の本質的な特徴を捉えた表現を獲得する。
    • RePAIRは,MAE,JEPA,BERTの利点を組み合わせた新しいアーキテクチャである。
    • チェスの実験では,潜在空間に意味のある概念が自然にクラスタリングされることが示された。
    • RePAIRは,強化学習を用いずに駒の動きを推論し,ゲームの軌跡を直感的に分析することを可能にする。

    Link: https://arxiv.org/abs/2606.11860

  • MemNovo:質量分析によるde novoペプチド配列決定のためのスペクトルのバランス再構築 [cs.IR, cs.DC, cs.LG, q-bio.QM]目的:質量分析データからのde novoペプチド配列決定の精度向上
    • プロテオミクス研究において,新規ペプチドの同定は重要であり,既存のデータベースに依存しない手法が求められる。
    • Transformerベースのモデルは高性能だが,入力スペクトルの情報を十分に活用できていないという課題がある。
    • 生成されたペプチド配列と入力スペクトルの間の情報バランスを改善し,より正確な配列決定を実現する。
    • MemNovoは,スペクトルの情報を保持するメモリバンクを構築し,デコーディング段階で活用することで,情報のボトルネックを解消する。
    • CasanovoとInstaNovoを用いた実験の結果,MemNovoはアミノ酸精度とペプチド精度を改善し,Casanovoでは最大39.1%の精度向上を示した。
    • 計算コストの増加はわずかであり,実用的な精度向上が期待できる。

    Link: https://arxiv.org/abs/2606.11868

  • エージェントを最初から最後まで:基盤から本番環境までカスタムAIエージェントを構築する方法論 [cs.SE, cs.AI]目的:カスタムAIエージェントの構築方法論
    • AIエージェントの活用は,業務効率化や自動化に不可欠であり,その需要は高まっている。
    • カスタムAIエージェントの構築に関する体系的な手法が確立されておらず,開発は試行錯誤の域を出ない。
    • 本研究は,カスタムAIエージェントを効率的に構築・運用するための標準的な方法論を提案する。
    • 本研究で提案する「エージェントを最初から最後まで」という方法論は,LLMをソフトウェアコンポーネントとして捉え,ツール,システム,メッセージとしてフレーム化することを前提とする。
    • プロトタイピング,収穫・整形・デプロイ,エージェントによるテストというサイクルを繰り返すことで,カスタムAIエージェントを開発・改善する。
    • 本方法論は,特定のフレームワークに依存せず,言語やフレームワークに依存しない汎用的な手法として活用可能である。

    Link: https://arxiv.org/abs/2606.11869

  • AV2 2026シナリオマイニングチャレンジ向けAutoMineソリューション [cs.AI]目的:高価値で安全性が高く,計画に重要なシナリオの抽出
    • 自動運転システムの発展に伴い,データ駆動型評価のためのシナリオ抽出が不可欠である。
    • 大規模な運転ログから有用なシナリオを効率的に抽出する方法が課題である。
    • LLMとVLMを活用し,ロバストで自己改善するシナリオ抽出手法を開発する。
    • AutoMineは,LLMのプロンプト感度を低減するセマンティクス保存プロンプト拡張を用いる。
    • ロバストな軌跡関数とVLMに基づく関数を組み合わせ,知覚ノイズとオープンワールドの視覚的手がかりに対応する。
    • 実際のログからの実行フィードバックを通じて生成されたコードを改良する。

    Link: https://arxiv.org/abs/2606.11874

  • 自動運転におけるハザード検知のためのビジョン言語モデルのタスク適合安定性分析 [cs.CV, cs.AI, cs.RO]目的:自動運転におけるハザード検知のためのビジョン言語モデルの安定性
    • 自動運転の安全性向上には,周囲環境の正確な理解が不可欠であるため,ビジョン言語モデルの信頼性が重要となる。
    • 既存の安定性分析はタスクに依存せず,実際のハザード検知性能の変動を十分に捉えられていないという課題がある。
    • ハザード検知タスクに適合した安定性指標を導入することで,より実用的な安定性評価を目指す。
    • 制御された摂動を加えたBDD100Kの道路シーンにおいて,埋め込みのドリフトとハザードスコアの変化との関係を評価した。
    • 摂動の種類によって,埋め込みドリフトと意思決定ドリフトの結びつきの強さに違いが見られた。
    • 遮蔽による摂動は偽陽性を引き起こす傾向があり,ベンチマーク設計において非対称な故障モードを考慮する必要があることが示唆された。

    Link: https://arxiv.org/abs/2606.11889

  • 批評アーキテクチャが重要である:ヒューマノイドの移動操作のためのデュアル対ユニファイド批評 [cs.RO, cs.LG]目的:ヒューマノイドロボットにおける移動と操作の協調
    • ヒューマノイドロボットの応用範囲拡大には,複雑なタスクの自律的な実行が不可欠である。
    • 移動と操作を同時に最適化する際,複数の目的関数を効率的に扱うことが課題となる。
    • 複数の目的関数を効率的に学習するための最適な批評アーキテクチャを特定すること。
    • デュアル批評ポリシーは,ユニファイド批評ポリシーと比較して,目標到達速度が3.5倍向上した。
    • デュアル批評ポリシーは,ユニファイド批評ポリシーと比較して,スループットが2倍,検証済み到達率が11.4%向上した。
    • 追加のアンチゲーミング報酬は,アーキテクチャ変更による効果を上回る改善をもたらさなかった。

    Link: https://arxiv.org/abs/2606.11891

  • 脳誘導言語モデルによる堅牢な推論:表現的アライメントを超えて [cs.LG, cs.AI, cs.CL, q-bio.NC]目的:大規模言語モデルと人間の高次認知の神経メカニズムとの対応関係の解明
    • 言語と推論は人間の認知において重要な役割を担うため,そのメカニズム理解はAI開発に不可欠である。
    • 大規模言語モデルと脳の活動との間のアライメントが十分ではなく,推論能力の向上が課題である。
    • 脳の信号を用いて言語モデルの表現を誘導し,推論能力を向上させることを目指す。
    • 大規模言語モデルは,推論に関連する脳領域の活動の相当な割合を説明できることが示された。
    • 脳の信号に沿ってモデル表現を調整するフレームワークにより,言語のみの教師あり学習では得られない推論性能の向上が確認された。
    • この研究は,言語モデルと脳の対応関係を相関から誘導へと発展させ,より堅牢で認知的に整合したAIの実現に貢献する。

    Link: https://arxiv.org/abs/2606.11893

  • GraspLLM:LLMを用いたテキスト属性グラフにおけるゼロショット汎化への取り組み [cs.HC, cs.CL, cs.CL, cs.LG]目的:テキスト属性グラフにおけるゼロショット汎化の向上
    • 引用ネットワーク等,現実世界の多様なデータに応用可能であり,重要性が高まっている。
    • 既存手法は多様なグラフやタスクへの汎化が難しく,構造パターンの転移が限定的である。
    • グラフ構造とLLMのセマンティック理解を組み合わせ,汎化性能の向上を目指す。
    • GraspLLMは,様々なドメインのテキスト属性グラフベンチマークデータセットで,既存のLLMベース手法を上回る性能を示した。
    • 特にゼロショットシナリオにおいて,その高い汎化能力が明らかになった。
    • グラフ構造の理解とLLMのセマンティック理解を融合させ,データセットに依存しない構造情報の抽出を実現した。

    Link: https://arxiv.org/abs/2606.11898

  • DuoBench:シミュレーションと現実世界における両手操作のための再現可能なベンチマーク [cs.RO, cs.AI]目的:両手操作におけるポリシーの評価基準
    • ロボットの操作能力向上に,両手による操作は不可欠である。複雑な作業を可能にする。
    • 既存のベンチマークでは,両手操作特有の制御の複雑さや失敗モードが十分に捉えられていない。
    • 両手操作における課題を特定し,今後の学習手法研究を促進するためのテストベッドを提供する。
    • DuoBenchは,FR3 Duoプラットフォーム上で11のタスクを定義し,シミュレーションと現実世界で再現可能な環境を提供する。
    • 現在のポリシーは,初期段階のインタラクション,並列アーム実行,シミュレーションと現実世界間の転送において課題を抱えていることが示された。
    • 段階的な評価スキームと人間による遠隔操作データセットにより,詳細な失敗分析を可能にする。

    Link: https://arxiv.org/abs/2606.11901

  • 具現化された空間知能ベンチマーク構築のための自律型マルチエージェントシステム:Embodied-BenchClaw [eess.SY, cs.SY, cs.CL, cs.IR, cs.AI]目的:具現化された空間知能ベンチマークの構築
    • ロボットやAIの知能を評価する上で,現実世界での空間認識能力のベンチマークは不可欠である。
    • 既存のベンチマークは作成に手間がかかり,再利用が難しく,モデルの性能向上によってすぐに陳腐化する。
    • 手動による労力を削減し,検証可能で保守性の高い空間知能ベンチマークを自動で構築すること。
    • Embodied-BenchClawは,ユーザーが指定した評価目的に基づき,ベンチマーク構築の全工程を自動化する。
    • 構築されたベンチマークは,屋内・屋外の空間推論,ロボット操作,四脚ロボットのナビゲーションなど,多様なタスクを網羅している。
    • 人間による評価や各種分析の結果,Embodied-BenchClawは有用なベンチマークを効率的に構築できることが示された。

    Link: https://arxiv.org/abs/2606.11909

  • 呼吸音分類のための品質適応角度マージン学習 [cs.SD, cs.AI]目的:呼吸音分類における特徴量の汎化性能向上
    • 呼吸音は健康状態の重要な指標であり,異常の早期発見に貢献しうる。
    • 呼吸音データは録音環境に強く依存し,品質のばらつきが分類精度を低下させる。
    • 録音品質に応じた角度マージンを適応的に調整し,分類精度の向上を目指す。
    • 提案手法QLungは,ICBHIデータセットにおいて,クロスエントロピー基準線と比較して2.46%の性能向上を達成した。
    • 特に,SPRSoundデータセットにおける分布外性能において,既存の最先端手法と比較して最も優れた結果を示した。
    • スペクトルエントロピーと二乗平均エネルギーに基づく無参照音質マージンを用いることで,録音品質に応じた角度マージンを調整している。

    Link: https://arxiv.org/abs/2606.11915

  • GPUベースLLMサービングシステムにおけるソフトウェア老化の特性評価 [cs.SE, cs.AI]目的:GPUベースLLMサービングシステムにおけるソフトウェア老化の特性
    • LLMの利用拡大に伴い,安定的なサービス提供が重要となっている。
    • LLMサービングは,多様な負荷と複雑なソフトウェア構成のため,老化現象の把握が困難である。
    • 本研究は,LLMサービングにおけるメモリ老化の実態を定量的に明らかにする。
    • 全デプロイメントで統計的に有意なメモリ老化が確認された。
    • メモリリーク率は,サービングランタイムとデプロイメント構成に強く依存することが示された。
    • ソフトウェア老化とリジュビネーション研究分野への貢献が期待される再現可能なフレームワークを公開した。

    Link: https://arxiv.org/abs/2606.11916

  • 尋問の技術:空間推論における整合性が事実性の向上を増幅する [cs.AI]目的:空間推論における整合性検証を通じたモデルの能力向上
    • 大規模言語モデルの汎用性は高いが,空間推論は苦手分野である。
    • 既存手法は知識不足と捉え,教師あり学習に依存している。
    • 事前学習済みモデルに内在する能力を引き出す整合性検証を目指す。
    • 自己教師あり強化学習フレームワークによって,空間推論能力を向上させることを示した。
    • 画像変換やテキスト変換を用いた整合性検証が有効であることを実証した。
    • 教師あり学習と同等の精度を,ラベルを用いずに達成できることを明らかにした。

    Link: https://arxiv.org/abs/2606.11918

  • Lung-SRAD:二軸パッチミックス対照学習を用いたスペクトル認識正則化された呼吸音分類のためのAudio DASS [cs.SD, cs.AI]目的:呼吸音分類のためのスペクトル認識正則化されたAudio DASSモデルの開発
    • 呼吸音分類は,呼吸器疾患の早期発見や重症度評価に不可欠であり,医療現場での活用が期待される。
    • 従来の呼吸音分類手法は,局所的な異常パターンへの感度が低いという課題があった。
    • スペクトル情報を考慮した正則化と対照学習により,局所的な異常パターンをより正確に検出することを目指す。
    • 提案手法は,既存のASTベースラインと比較して,ICBHIベンチマークにおいて5%高い64.48%のスコアを達成した。
    • Distilled Audio State Spaceモデルにおける中間表現のスペクトル応答曲線分析により,高周波成分の保持が確認された。
    • スペクトル認識正則化と二軸パッチミックス対照学習が,ロバストな表現学習に貢献することが示された。

    Link: https://arxiv.org/abs/2606.11922

  • LLM誘導ビデオステッチングによる手話翻訳のためのコーパス拡張 [cs.CV, cs.LG]目的:手話翻訳の性能向上
    • 手話翻訳は,手話使用者と非使用者間のコミュニケーションを支援し,アクセシビリティ向上に貢献する重要な技術である。
    • 長尺語彙や未知の構文に対する汎化性能を制限する,高品質な手話動画とテキストのペアの不足が課題となっている。
    • 既存のコーパスとLLMを用いて,追加の注釈や外部データ,生成モデルなしに手話翻訳コーパスを拡張することを試みる。
    • 提案手法は,既存のベースラインと比較してBLEU-4スコアで+2.92の改善を達成し,アーキテクチャや学習プロトコルを変更していない。
    • 合成データは,ビジョン言語事前学習の目的は改善するものの,その性能を低下させる可能性があることが判明した。
    • 視覚的な滑らかさを追求したクリップ遷移の最適化は,L2基準下では逆効果であり,急激な境界が暗黙的な正則化として機能する可能性が示唆された。

    Link: https://arxiv.org/abs/2606.11925

  • 仮説ツリー洗練による汎用自律研究への道 [cs.CL, cs.AI]目的:科学研究の自律的実行
    • 科学的進歩は探索と実験の反復によるものであり,その自動化は重要である。
    • 従来のAI研究は局所的な試行に留まり,長期的な戦略と証拠の蓄積が困難であった。
    • 仮説ツリー洗練によって,戦略,実行,証拠を時間軸で繋ぎ,累積的な研究プロセスを実現する。
    • Arborというフレームワークを開発し,長期間にわたる自律研究を可能にした。
    • 6つの実課題において,CodexやClaude Codeを2.5倍上回る性能を達成した。
    • MLE-Bench LiteでGPT-5.5を用いた際に,最高の結果である86.36%のAny Medalを獲得した。

    Link: https://arxiv.org/abs/2606.11926

  • 非同期ビデオ面接における性格特性と認知能力評価のための凍結型マルチモーダル埋め込み [cs.HC, cs.AI, cs.CV]目的:非同期ビデオ面接からの性格特性と認知能力の予測
    • ビデオ面接は,大規模なデータ収集と客観的な評価が可能であり,人材選考などに活用が期待される。
    • 性格特性や認知能力の予測には,多次元な視覚,聴覚,言語情報を統合する必要があるが,ラベル付きデータが不足している。
    • 本研究は,限られたデータでも高精度な予測を可能にする表現学習手法の開発を目指す。
    • 性格特性予測において,提案手法は公式ベースラインよりも平均二乗誤差を19.1%削減し,優れた性能を示した。
    • 認知能力予測においては,公式ベースラインを上回る精度が得られたものの,データセット特有のショートカットの影響が示唆された。
    • 性格特性評価にはマルチモーダルな特性固有モデリングが有効だが,認知能力予測にはデータセットの制御が重要である。

    Link: https://arxiv.org/abs/2606.11930

  • ニューロ・リレーショナルプログラム:構造化データに対するクエリとニューラル計算の統合 [cs.DC, cs.PF, cs.CL, cs.IR, cs.DB, cs.CC, cs.LG, cs.LO]目的:構造化データに対するクエリとニューラル計算を統合するための宣言的クエリ言語
    • リレーショナルデータベースは多くの分野でデータを効率的に管理するために不可欠である。
    • 従来の深層学習はグラフ表現に依存し,データベースの直接処理が課題であった。
    • リレーショナル推論と学習可能なニューラルコンポーネントを統合するフレームワークを提供する。
    • ニューロ・リレーショナルプログラム(NRP)は,数値ベクトル埋め込みを持つリレーショナルデータベースのための宣言的クエリ言語として提案された。
    • NRPはDatalogスタイルのルールを拡張し,埋め込みの組み合わせ,集約,変換を可能にする。
    • NRPは,訓練可能なコンポーネントを持つクエリプランと,関係構造を持つニューラルアーキテクチャの両方として解釈できる。

    Link: https://arxiv.org/abs/2606.11946

  • 展開された安全性分類器におけるオンラインシフト検出と適応的 conformal 推論 [eess.SY, cs.SY, cs.LG, cs.CR, stat.ML]目的:展開された安全性分類器における分布シフトのオンライン監視と適応
    • 安全性確保のため,機械学習モデルの信頼性維持は重要である。実環境での性能低下を防ぐ必要がある。
    • 展開後のモデルは,学習データと異なる分布に遭遇し,性能が劣化する可能性がある。
    • 分布シフトを検出し,閾値適応により目標エラー率を維持することで,安全性を確保することを目指す。
    • 本システムは,800回の評価で86.6%の有効なシフト検出率を達成し,平均遅延は39.5ステップであった。
    • Conformal予測はDeBERTaにおいてカバレッジを最大39pp改善したが,他の分類器では効果が限定的であった。
    • 分散分析の結果,分類器,シフトタイプ,およびそれらの相互作用が検出遅延に有意に影響することが示された。

    Link: https://arxiv.org/abs/2606.11949