arXiv雑要約
AI - 2026/05/01 公開
文脈が重要:VLMアクション解析とLLMシーケンス分類によるピア認識型学生の行動エンゲージメント測定 [cs.CV, cs.AI]目的:学生の行動エンゲージメントの測定
- 教育の質と学生の学習意欲向上には,教室内の学生の行動理解が不可欠である。
- 既存手法は多様な行動をモデル化するために大量の注釈データが必要だが,プライバシー保護の観点からデータ収集が困難である。
- 本研究は,学生の行動と周囲の文脈を考慮したエンゲージメント測定を目指す。
- 提案手法では,VLMを用いた少ないサンプルでの行動認識と,LLMによる行動シーケンス分類を組み合わせている。
- 実験結果は,提案手法が学生のエンゲージメントを的確に識別できることを示唆している。
- 周囲の学生の行動といった文脈を考慮することで,より精度の高いエンゲージメント測定が可能となった。
FinCARDS:金融文書質疑応答のためのカードベース分析器再ランク付け [cs.IR, cs.AI, cs.CL]目的:金融文書質疑応答における証拠選択の最適化
- 金融分野では,正確な情報に基づいた意思決定が不可欠であり,大量の文書からの効率的な情報抽出が求められる。
- 既存のLLMベースの再ランク付け手法は,意味的な関連性に偏重し,長い文書において不安定なランキングや不透明な意思決定プロセスが生じやすい。
- 金融に特化したスキーマに基づき,制約充足として証拠選択を行うことで,より安定したランキングと透明性の高い意思決定を実現する。
- FinCARDSは,金融文書の質疑応答において,既存のLexicalベースおよびLLMベースの再ランク付け手法と比較して,初期段階の検索精度を大幅に向上させる。
- ランキングのばらつきを低減し,モデルのファインチューニングや予測不可能な推論コストを必要とせずに高い性能を発揮する。
- FinCardsは,証拠選択を金融知識に基づいたスキーマにおける制約充足問題として捉え,決定プロセスの監査可能性を高めている。
セマンティックアライメントとLLMによる専門家ガイダンスを用いた階層的税コード予測:Taxon [eess.SY, cs.SY, math.OC, cs.LG, cs.AI]目的:階層的税コード予測のためのフレームワーク
- 大規模ECプラットフォームにおける自動請求とコンプライアンス管理において,税コードの正確な予測は不可欠である。
- 既存手法では,税コード予測における誤りが,財務上の不整合や規制リスクを引き起こす可能性がある。
- 本研究は,マルチモーダル特徴とLLMを活用し,税コード予測の精度と構造的整合性を向上させることを目指す。
- Taxonは,特徴ゲーティング混合エキスパートアーキテクチャとセマンティック整合性モデルを統合することで,最先端の性能を達成した。
- 独自のTaxCodeデータセットおよび公開ベンチマークにおいて,強力なベースラインを上回る結果を示した。
- 階層的パス再構成手順の追加により,構造的整合性が大幅に向上し,全体的なF1スコアが最高となった。アリババの税務サービスシステムに導入され,実運用で高い精度,解釈可能性,および堅牢性を実現している。
VeriTaS: マルチモーダル自動ファクトチェックのための初の動的ベンチマーク [cs.IR, cs.AI, cs.CV, cs.MM]目的:マルチモーダル自動ファクトチェックのための動的ベンチマーク
- オンライン上の誤情報の拡散が深刻化しており,自動ファクトチェックの重要性が増している。
- 既存のベンチマークは,タスク範囲,モダリティ,言語多様性,現実性などに限界があり,データリークの問題も存在する。
- 大規模言語モデルの進化に対応し,データリークに強い,信頼性の高い評価ベンチマークを構築する。
- VeriTaSは,54言語,104のファクトチェック機関からの25,000件のリアルワールドな主張を含む,初の動的ベンチマークである。
- 自動アノテーションが人間の判断と一致することを示し,7段階のパイプラインによる自動更新が可能である。
- 大規模言語モデルの事前学習の影響を受けにくい,継続的な評価を可能にするベンチマークとして貢献する。
文脈的意図に基づくエージェントメモリの接地 [cs.CL, cs.AI, cs.IR]目的:長期的かつ目標指向の対話におけるエージェントメモリの性能向上
- 大規模言語モデルの応用範囲拡大のため,長期的な目標達成が重要視されている。
- 文脈が変化する中で,同一のエンティティや事実が誤った形で想起される問題がある。
- 文脈的意図を用いたインデックス化により,適切なメモリの検索と活用を目指す。
- STITCHは,構造化された検索キーを用いてメモリを索引化し,文脈的意図に基づいて履歴を検索する。
- CAME-BenchおよびLongMemEvalの評価で,STITCHは最先端の性能を達成し,最良のベースラインを35.6%上回った。
- 意図に基づくインデックス化は検索ノイズを大幅に削減し,堅牢な長期推論を支援することが示された。
研究論文理解のためのきめ細かいベンチマーク RPC-Bench [cs.CL, cs.AI]目的:研究論文理解能力の評価
- 学術研究の発展には,論文の効率的な理解が不可欠である。
- 既存のベンチマークは,論文理解のきめ細かい評価が不十分である。
- 研究論文の「なぜ」「何を」「どのように」理解できるか評価する。
- RPC-Benchは,15,000件の人間が検証した質疑応答ペアを含む大規模ベンチマークである。
- 最先端モデル(GPT-5)でも,正答率は68.2%であり,簡潔性調整後は37.46%に低下した。
- これにより,学術論文の正確な理解には依然として大きな課題が残ることが示された。
GAVEL:活性化モニタリングによるルールベースの安全性向上 [cs.DL, cs.IR, cs.AI, cs.CR, cs.LG]目的:ルールベースの活性化安全性
- 大規模言語モデルの安全性確保は,社会実装において不可欠である。
- 既存の活性化安全性アプローチは,精度,柔軟性,解釈可能性に課題がある。
- ドメイン固有の挙動を捉え,高精度な安全性確保を目指す。
- 活性化を認知要素としてモデル化することで,より詳細な解釈性と表現力を持つようになった。
- 述語ルールを用いて活性化を監視することで,モデルの再学習なしに安全対策の構成・更新が可能になった。
- 本研究は,スケーラブルで解釈可能,かつ監査可能なAIガバナンスの基盤を確立する。
認識的計画ドメイン定義言語:公式ガイドライン [cs.RO, cs.AI]目的:認識的計画タスクの統一的な仕様
- マルチエージェントシステムなど,知識と信念を扱う計画立案の重要性が高まっている。
- 既存の認識的プランナーはDELの断片を対象とし,ベンチマーク表現に一貫性がない。
- EPDDLにより,DELの全セマンティクスを捉え,ベンチマークの比較と再利用を促進する。
- EPDDLはPDDLライクな表現を提供し,認識的計画タスクを均一に記述することを可能にする。
- 抽象イベントモデルという新たな表現を用いて,認識的行動のセマンティクスを定義した。
- 代表的なベンチマークを通して,EPDDLが相互運用性,再現性のある評価を促進することを示した。
空間を見失うか? 視覚言語モデルにおける相対カメラ姿勢推定の困難性 [cs.CV, cs.AI, cs.CL]目的:視覚言語モデルの相対カメラ姿勢推定能力
- ロボット工学や拡張現実など,多様な応用において,環境理解と空間認識は不可欠である。
- 視覚言語モデルは画像とテキストを理解するが,複数の視点からの空間推論能力は未発達である。
- 複数の視点からの空間推論能力を評価し,視覚言語モデルの改善点を特定すること。
- 視覚言語モデルは,人間や専門的な幾何学的パイプラインと比較して,相対カメラ姿勢推定において著しく低い性能を示す。
- 単一画像認識能力は高いものの,複数の視点間の推論が必要になると性能が著しく低下する。
- この課題は,視覚言語モデルにおける視点間対応,一貫性のある推論,カメラ運動の理解といった具体的な能力の欠如を浮き彫りにする。
カンテーリ有界VaRを用いた制約付き方策最適化 [cs.LG, stat.ML]目的:価値尺度(VaR)制約付き強化学習問題の最適化
- 強化学習は,自律的な意思決定システムの開発に不可欠な技術である。
- 強化学習における制約条件の充足は難しく,安全性が求められる場面で課題となる。
- VaR制約を用いた方策最適化により,安全性を保証しつつ学習を進めることを目指す。
- VaR-CPOは,安全な探索を可能にし,訓練中に制約違反を起こさないことを実証した。
- カンテーリの不等式を用いることで,VaR制約の非微分可能性を克服し,計算可能な近似を実現した。
- CPOの信頼領域フレームワークを拡張し,方策改善と制約違反に関する最悪の場合の境界を提供した。
EDU-CIRCUIT-HW:大学レベルSTEM科目の学生の handwritten 答案に対するマルチモーダル大規模言語モデルの評価 [cs.CV, cs.AI, cs.CY]目的:大学レベルSTEM科目の学生による handwritten 答案に対するマルチモーダル大規模言語モデルの認識精度と自動採点性能の評価
- 教育現場でのAI活用は,教師の負担軽減や教育の質向上に貢献しうるため重要である。
- STEM分野の handwritten 答案は複雑な数式や図が含まれ,既存のベンチマークでは正確な評価が困難である。
- 本研究は,より現実的な handwritten 答案を用いた評価を通じて,大規模言語モデルの認識精度と自動採点能力の課題を明らかにすることを目的とする。
- 本研究で公開されたEDU-CIRCUIT-HWデータセットを用いた評価により,大規模言語モデルが学生の handwritten 答案を正確に認識できていないことが明らかになった。
- 特に,大規模言語モデルによる認識エラーは,自動採点などの重要な教育応用において信頼性の低下を招く可能性がある。
- 認識エラーのパターンを事前に特定し,人的介入を最小限に抑えつつ修正することで,AIを活用した採点システムの堅牢性を高めることが示唆された。
3Dマルチビュー行動条件付きロボット操作事前学習のためのコントラスト学習 (CLAMP) [cs.RO, cs.AI, cs.CV, cs.LG]目的:3Dマルチビューデータとロボットの行動を用いた,ロボット操作の事前学習フレームワーク
- ロボットの知覚と制御において,3次元空間情報の利用は正確な操作に不可欠である。
- 既存の2D画像表現では,3次元空間情報を捉えきれず,高精度な操作が困難である。
- 3D点群とロボットの行動から3次元情報を学習し,ロボット操作の効率と性能を向上させる。
- 提案手法CLAMPは,RGB-D画像から再レンダリングされたマルチビュー画像とコントラスト学習により,3D空間情報を効果的に捉える。
- 事前学習されたエンコーダは,オブジェクトの3D形状とロボットの行動パターンを関連付けることで,サンプル効率の良いファインチューニングを可能にする。
- シミュレーションおよび実世界環境における複数のタスクで,最先端のベースラインと比較して優れた性能を示す。
BicKD:双方向コントラスト知識蒸留 [cs.LG]目的:知識蒸留による知識伝達の強化
- 機械学習モデルの性能向上には,効率的な知識伝達が不可欠である。
- 従来の知識蒸留はサンプル間の確率比較に偏り,クラス間の比較が不十分である。
- クラス間の確率分布の直交性を高めることで,より効果的な知識伝達を目指す。
- 提案手法BicKDは,教師モデルと生徒モデル間のサンプルおよびクラスレベルの予測パターンを比較可能にする。
- 双方向コントラスト損失により,クラス間の識別性を高め,予測分布の幾何学的構造を正則化する。
- 様々なモデルやベンチマークにおいて,BicKDが最先端の知識蒸留技術を上回る性能を示すことが確認された。
競争から協調へ:LLMとオンラインフォーラム間の持続可能なメカニズムの設計 [cs.AI, cs.GT]目的:LLMとオンラインフォーラム間の持続可能な協調メカニズム
- 知識共有は社会の発展に不可欠であり,オンラインフォーラムは重要な役割を担う。
- LLMの台頭により,フォーラムの利用が減少し,知識共有の場が失われる懸念がある。
- LLMとフォーラムが相互に利益を得られる協調メカニズムを構築し,持続可能な知識共有を実現する。
- LLMがフォーラムに質問を提案し,一部を掲載する逐次的な相互作用の枠組みを提案した。
- シミュレーションの結果,インセンティブの不一致が実証されたが,理想的な状況の約半分の利得が得られることが示された。
- AIシステムと人間の知識プラットフォーム間の効果的な知識共有を維持する持続可能な協調の可能性が示唆された。
ヒンジ回帰木:傾斜回帰木分割のためのニュートン法 [cs.LG]目的:傾斜回帰木分割のための効率的な学習手法
- 決定木は解釈性が高く,多変量決定境界を持つ傾斜決定木は強力なモデルである。
- 高品質な傾斜分割の学習はNP困難であり,既存手法は探索に時間がかかるか,経験的なヒューリスティックに依存する。
- ヒンジ回帰木を用いて,分割問題を非線形最小二乗問題として効率的に解くことを目指す。
- ヒンジ回帰木は,固定された分割内で減衰ニュートン法(ガウス・ニュートン法)と等価な交互適合手順を用いる。
- ノードレベルでの最適化は単調減少し,収束が保証される。実用上,固定および適応減衰により高速かつ安定した収束を実現する。
- ヒンジ回帰木のモデルクラスは,明示的な$O(\delta^2)$ 近似レートを持つ普遍近似器であることが証明された。
生物学的摂動予測のための漸進的なマルチエージェント推論 [cs.AI, cs.MA]目的:生物学的摂動に対する遺伝子発現調節応答の予測
- 生命現象の理解に不可欠であり,創薬などの応用が期待される分野である。
- 高次元の摂動結果が複雑に絡み合い,既存の言語モデルでは対応が困難である。
- バルク細胞における化学的摂動に対する予測精度を向上させ,創薬に貢献すること。
- LINCSQAという新たなベンチマークを構築し,複雑な化学的摂動下での遺伝子発現調節予測を可能にした。
- PBio-Agentは,難易度に応じたタスクシーケンスと反復的な知識洗練により,既存モデルを上回る性能を示した。
- より小さなモデルでも,追加学習なしに複雑な生物学的プロセスを予測・説明できるようになった。
因果コンパス:誤指定されたシナリオにおける時系列因果探索の頑健性の評価 [cs.CC, math.DS, cs.LG, cs.AI, stat.ME, stat.ML]目的:時系列因果探索手法の,モデル化の仮定違反下における頑健性の評価
- 機械学習において,時系列データからの因果関係の発見は重要な課題である。
- 既存の評価基準では,検証不可能な仮定への依存や,頑健性を重視した評価が不足している。
- モデル化の仮定違反が発生した場合でも,時系列因果探索手法の性能を評価するフレームワークを提供する。
- CausalCompassは,様々な仮定違反シナリオ下での時系列因果探索手法の性能を評価するための柔軟なベンチマークフレームワークである。
- 実験の結果,どの手法も全ての環境で最適な性能を発揮することはなく,深層学習に基づく手法が全体的に優れた性能を示した。
- NTS-NOTEARSは,標準化された前処理に大きく依存しており,標準化なしでは性能が低下することがわかった。
大規模言語モデルはエージェントベースモデルを実装できるか?ODDに基づく複製研究 [cs.SE, cs.AI, cs.MA]目的:エージェントベースモデルの複製可能性,検証,妥当性確保に向けた実装能力の評価
- エージェントベースモデルは,複雑なシステムの理解や予測に不可欠である。
- モデル実装の再現性が低く,検証が困難な場合がある。
- LLMを用いた実装による再現性と検証の向上を目指す。
- LLMによるエージェントベースモデルの実装は可能だが,常に信頼性があるわけではない。
- GPT-4.1は統計的に妥当で効率的な実装を安定的に生成する。
- LLMはモデル工学ツールとしての可能性を持つが,限界も存在する。
GRASP:患者のためのグループ・シャプレイ特徴量選択 [cs.LG, cs.AI]目的:患者の予測における特徴量選択
- 医療分野では,正確な予測が不可欠であり,特徴量選択はその精度向上に大きく貢献する。
- 既存手法では,ロバスト性や解釈性に課題があり,安定した特徴量選択が困難である。
- シャプレイ値とグループ$L_{21}$正則化を組み合わせ,安定かつ解釈可能な特徴量選択を実現する。
- GRASPは,既存手法と同等以上の予測精度を達成し,より少ない,冗長性の低い,安定した特徴量を特定した。
- SHAPを用いてグループレベルの重要度を抽出し,グループ$L_{21}$正則化ロジスティック回帰により構造化されたスパース性を実現する。
- GRASPは,既存手法と比較して,特徴量の選択において一貫した性能を示すことが確認された。
サイバーセキュリティのための能動的AI:制御可能な自律性を持つメタ認知アーキテクチャ [cs.CR, cs.AI]目的:サイバーセキュリティにおける意思決定のメカニズム
- サイバー攻撃は巧妙化の一途を辿っており,高度な防御策が不可欠である。
- 従来のSOARシステムは,不確実性への対応が難しく,誤検知が多い。
- メタ認知プロセスをモデル化し,より適応的で信頼性の高い意思決定を可能にする。
- 本研究で提案する能動的AIフレームワークは,従来のシステムと比較してロバスト性と意思決定の質を向上させる。
- ノイズ下での精度向上,偽陽性率の低減,およびより適切な信頼度推定を実現した。
- メタ認知プロセスを明示的にモデル化することで,AIと人間の協調的な問題解決を支援する。
OpAgent:ウェブナビゲーションのためのオペレーターエージェント [cs.AI]目的:ウェブナビゲーションにおける自律エージェントの性能向上
- ウェブ環境は複雑かつ変化が激しく,現実世界のタスク遂行において重要である。
- 既存手法は静的データセットに依存し,ウェブ環境の動的な変化に対応できないという課題がある。
- 本研究では,オンライン強化学習を通じてウェブエージェントのポリシーを最適化し,課題解決を目指す。
- 階層型マルチタスクファインチューニングにより,ウェブGUIタスクに対する指示追従能力の高いVLMを確立した。
- オンラインエージェント強化学習とハイブリッド報酬メカニズムにより,長期的なナビゲーションにおける信用割り当て問題を軽減した。
- OpAgentと呼ばれるモジュール型エージェントフレームワークにより,WebArenaで71.6%の成功率を達成し,SOTAを更新した。
医療環境における確信度予測のロバスト性向上:脳波分類の事例研究 [cs.LG, cs.AI, stat.ML]目的:医療における臨床予測の不確実性定量化
- 臨床診断は重要な決定を伴うため,予測の信頼性確保が不可欠である。
- 患者データの分布変化により,標準的な確信度予測の理論的保証が損なわれる場合がある。
- 分布変化に対応し,確信度予測の信頼性を向上させることを目指す。
- 脳波発作分類において,従来の確信度予測法では分布シフトが課題となることが示された。
- 個別化されたキャリブレーション戦略を用いることで,カバレッジが20パーセント以上向上することが確認された。
- PyHealthを通じて実装が公開されており,医療AIフレームワークへの応用が期待される。
寄生蜂および関連ヒメネコ目昆虫データセット(DAPWH) [cs.CV, cs.AI]目的:寄生蜂および関連ヒメネコ目昆虫の画像データセット
- 生物多様性モニタリングや農業管理において,正確な分類は不可欠である。
- ヒメネコ目昆虫は形態が似通っており,未記載種も多く,分類が困難である。
- 自動同定システムの開発を促進するためのデジタル資源の不足を解消する。
- 本データセットは,3,556枚の高解像度画像を含み,特にネオ熱帯域のヒメネコ目寄生蜂に焦点を当てている。
- 1,739枚の画像には,全身,翅脈,スケールバーに対するマルチクラスバウンディングボックスのアノテーションが含まれている。
- これにより,これらの科の同定が可能なコンピュータービジョンモデルの開発の基盤となる。
NanoKnow:言語モデルがどのように知識を獲得するか [cs.CL, cs.AI, cs.IR, cs.LG]目的:言語モデルの知識獲得メカニズムの解明
- 大規模言語モデルの性能向上に伴い,その知識源の理解が不可欠となっている。
- 既存モデルの学習データが不透明であるため,知識の由来を特定することが困難である。
- 学習データが公開されているnanochatを利用し,知識獲得の過程を詳細に分析する。
- 学習データの答えの頻度と,閉じた質問形式での正答率に強い相関関係が認められた。
- 外部知識の提供は,頻度依存性を緩和する効果があることが示された。
- 外部知識があっても,学習時に答えを見た方がモデルの精度は向上し,パラメトリック知識と外部知識が相補的であることが示された。
スコアベース事前分布のモデル選択における効率的なエビデンス推定 [cs.LG, cs.CV, stat.ME]目的:モデル選択のためのスコアベース事前分布のエビデンス推定
- 画像逆問題において,事前分布の選択は重要であり,測定値との整合性が求められる。
- ベイズ逆問題では,エビデンス計算が困難であり,事前分布の選択に課題がある。
- 拡散モデルを用いた事前分布のエビデンス推定を効率的に行うことで,モデル選択の精度向上を目指す。
- 提案手法DiMEは,逆拡散サンプリングの中間サンプルを活用し,少数のサンプルで高精度なエビデンス推定を実現する。
- 解析的に計算可能な場合と比較して,推定値が一致することを確認した。
- 様々な逆問題において,適切な拡散モデルの選択と事前分布の不適合診断が可能であることを示した。
ドメイン特化型サプライヤー探索のための網羅性重視型ウェブクローリング:ウェブ-知識-ウェブパイプライン [cs.LG]目的:特定産業分野における中小企業の網羅的な探索
- サプライチェーンの強靭化には,中小企業の把握が不可欠である。
- 既存のビジネスデータベースは,特に下位サプライヤーや新興市場で網羅性に課題がある。
- ウェブデータ活用による,サプライヤー情報の網羅的な探索手法を確立する。
- 提案手法(W→K→Wパイプライン)は,半導体製造装置分野において,高精度(0.165)とF1値(0.123)を達成した。
- 従来のベースライン手法と比較して,144ページという少ないクローリング回数(32%削減)で同等の成果を上げた。
- 構築された知識グラフは,664エンティティと542の関係を含み,100%の関係タイプ一貫性を保っている。
疎で半構造化された混合型データの自己回帰合成 [cs.LG]目的:プライバシー保護データ共有,システムベンチマーク,テストデータ提供のための合成データ生成
- データ利活用において,個人情報保護とデータ公開のバランスが重要課題となっているため。
- 既存の合成手法は,固定スキーマの密なテーブルに特化しており,疎で半構造化されたJSONデータの扱いに限界がある。
- 半構造化データにおける構造を保持しつつ,高品質な合成データを生成すること。
- ORiGAMiは,JSONレコードをフラット化せずにモデル化・合成する自己回帰トランスフォーマーアーキテクチャである。
- ORiGAMiは,様々なベンチマークにおいて,既存手法と比較して優れた性能を示した(18回の比較で17回で最高スコア)。
- プライバシー保護においても高いスコア(96%以上)を維持し,構造を保存した合成手法の有効性が確認された。
長距離系列モデリングのための効率的な疎な選択的更新RNN [cs.LG]目的:長距離系列モデリングにおける効率的なRNNアーキテクチャ
- 音声や動画などの実世界データは,長い静寂やノイズの中に重要な情報を含むため,効率的な処理が求められる。
- 従来のRNNは,全てのステップで状態を更新するため,記憶の減衰が起こりやすく,長期間の依存関係の学習が困難である。
- 入力の冗長性を考慮し,必要な情報のみ更新するRNNを開発することで,この問題を解決することを目指す。
- 選択的更新RNN (suRNNs) は,入力が冗長な場合に記憶を保持する能力を持ち,系列長に依存しない効率的な学習を可能にする。
- Long Range ArenaやWikiTextなどのベンチマークテストにおいて,suRNNsはTransformerと同等以上の精度を達成し,計算効率も優れている。
- suRNNsは,各ニューロンが独自の更新タイミングを学習することで,系列の長さと情報量の不一致を解消し,RNNの効率性を高める。
ゲームデザイン知識表現に基づく機械的創造性の基盤:構造的制約下におけるLLMを用いた目標指向プレイヤブルパターンの実行可能合成に関する経験的検証 [cs.AI]目的:ゲームデザイン知識表現に基づき,LLMを用いた目標指向プレイヤブルパターンの実行可能合成の実現可能性の検証
- ゲームAIや自動生成技術の発展は,ゲーム開発の効率化や新しいゲーム体験の創出に不可欠である。
- 複雑なゲームプレイアイデアを実行可能な形にするには,高い専門知識と労力が必要となる。
- LLMを活用し,構造的制約下で目標指向プレイヤブルパターンを自動生成することで,ゲーム開発の負担軽減を目指す。
- 大規模言語モデル(LLM)は,Unityエンジンの構造的制約下で,目標指向プレイヤブルパターンに基づいたコード生成が可能であることが示された。
- 人間が作成したUnity専用の中間表現(IR)を用いることで,LLMのコード生成成功率が向上する傾向が確認された。
- 構造的およびプロジェクトレベルの基盤化の失敗が主なボトルネックであり,今後の課題として残る。
推論と確信度の分離:検証可能な報酬を用いた強化学習におけるキャリブレーションの復活 [cs.LG, cs.AI, cs.CL]目的:強化学習における推論と確信度の分離
- 大規模言語モデルの推論能力向上は,様々な応用で重要性が増している。
- 検証可能な報酬を用いた強化学習では,モデルの過信度(キャリブレーションの悪化)が問題となっている。
- 推論と確信度の最適化における勾配の衝突を解消し,信頼性の高いLLMの展開を目指す。
- 提案手法DCPOは,既存手法GRPOと同等の精度を維持しつつ,キャリブレーション性能を向上させる。
- DCPOは,過信度問題を大幅に軽減することを示した。
- 本研究は,より信頼性の高いLLMの展開に向けた洞察と実践的な解決策を提供する。
等方性拡散サンプラーにおけるWasserstein伝播のための動径荷重-予備証明書 [cs.LG]目的:Wasserstein伝播における動径荷重と予備の幾何学的性質
- 確率モデルのサンプリングは,様々な分野で不可欠であり,その精度向上は重要な課題である。
- 拡散モデルのサンプリング過程における誤差評価は複雑であり,安定性と一貫性の分離が困難である。
- 学習されたドリフトを用いた逆SDEにおける伝播誤差を定量化し,安定性を保証する理論的枠組みを構築する。
- 本研究では,逆SDEの窓における条件付き伝播モジュールを分離し,適応的なWasserstein安定性証明書を導入した。
- 動径荷重-予備幾何学により,誤差の増幅を定量化し,一貫性と安定性を分離することに成功した。
- Hardy容量を用いてボトルネックを評価し,有限の荷重と予備が存在する場合のアフィンテールコストの伝播を証明した。
大規模言語モデルにおける選択バイアス軽減:順列認識型GRPO [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの選択バイアス軽減
- LLMは多様なタスクで活用されるが,その性能評価にはバイアスの問題が存在する。
- 選択肢の位置やラベルといった非意味的な要素が,LLMの判断に影響を与えることが課題。
- 順列に対する一貫性を重視し,バイアスを軽減する手法を開発すること。
- PA-GRPOは,順列群を構築し,順列間で一貫性のある意味推論を促進する。
- 提案手法は,7つのベンチマークにおいて既存手法を凌駕し,選択バイアスを大幅に削減。
- 高い全体的な性能を維持しつつ,バイアス軽減に成功した。
論文は全てを語るのか?バイオインフォマティクスの実装ギャップを明らかにするベンチマークとフレームワーク [cs.CY, cs.LG, cs.SE]目的:バイオインフォマティクスにおける論文とコード実装の一貫性検出
- 科学的根拠の信頼性確保は重要である。論文と実装の乖離は再現性を阻害し,科学的信頼性を損なうため。
- バイオインフォマティクス分野では,論文とコードの実装に不整合が生じやすいという問題が存在する。
- 論文とコードの一貫性検出を通じて,バイオインフォマティクスの再現性と信頼性向上を目指す。
- 論文中の方法論記述と対応するコード実装間の意味的整合性を評価するベンチマークデータセットBioConを構築した。
- 事前学習モデルを活用し,論文とコードを共同でエンコードする一貫性検出フレームワークを提案した。
- 提案手法は,一貫性識別と意味的整合性の両方において高い性能を達成し,新たな研究の方向性を示した。
GlowQ:量子化されたLLMのためのグループ共有低ランク近似 [cs.RO, cs.RO, cs.LG, cs.AI]目的:量子化された大規模言語モデルの低ランク近似による精度向上
- 大規模言語モデルの利用拡大には,計算資源の効率的な活用が不可欠である。
- 量子化はモデルサイズを削減するが,精度低下を引き起こす場合がある。
- 低ランク近似により精度を回復する際,計算コストが増大する問題を解決する。
- GlowQは,入力共有グループごとに単一の共有右因子をキャッシュすることで,パラメータとメモリオーバーヘッドを削減する。
- GlowQは,TTFBを5.6%削減し,スループットを9.6%向上させ,WikiText-2のパープレキシティを0.17%低減,ダウンストリームタスクの精度を0.42%向上させた。
- 選択的モデルGlowQ-Sは,TTFBを23.4%削減し,スループットを37.4%向上させながら,平均精度を0.2%以内で維持した。
コードブック駆動確率的修正フローによるゼロショット動画圧縮:GVCC [cs.CV, cs.AI]目的:超低ビットレートにおける高忠実度再構成
- 動画圧縮は,データ伝送と保存において不可欠であり,効率化が求められている。
- 従来の動画圧縮手法では,超低ビットレートにおいて再構成品質が低下しやすい。
- 事前学習済みの動画生成モデルを活用し,効率的な圧縮と高品質な再構成を実現する。
- 提案手法GVCCは,UVGデータセットにおいて,既存手法と比較してLPIPS値を大幅に低減した。
- 特に,DCVC-RTと同ビットレートにおいて,LPIPSを約65%削減することに成功した。
- テキストからの動画生成,画像からの動画生成,フレームからの動画生成といった多様なモードに対応した。
FluxMoE:高性能MoE推論のための専門家レジデンスの分離 [cs.LG]目的:大規模言語モデルにおけるMoE推論システムの効率化
- 大規模言語モデルの性能向上にはMoEが不可欠だが,パラメータ増大によるメモリ効率低下が課題。
- MoEモデルでは,多くの専門家パラメータがGPUメモリ内でアイドル状態となり,KVキャッシュとの競合が生じる。
- GPUメモリを効率的に活用し,推論スループットを向上させることを目指す。
- FluxMoEは,専門家パラメータをGPUの永続的なレジデンスから分離することで,メモリ効率を向上させる。
- 専門家パラメータをストリーミングリソースとして扱い,必要に応じてマテリアライズし,使用後に即座に退避させる。
- 実験結果から,FluxMoEはvLLMと比較して,メモリ制約下で最大3.0倍のスループット向上を達成した。
HighFM:高頻度地球観測データからの表現学習のための基盤モデルへ [cs.CV, cs.AI]目的:高頻度地球観測データからの表現学習のための基盤モデル構築
- 気候変動による災害の増加に伴い,リアルタイムな監視,早期警戒,情報に基づいた意思決定の必要性が高まっている。
- 既存の基盤モデルは,再訪頻度の低い高解像度衛星画像に依存しており,急激な変化や緊急時の対応には不向きな点がある。
- 高頻度で多波長な地球観測データを活用し,災害検知と追跡のための基盤モデル開発を目指す。
- SEVIRI画像を用いてSatMAEフレームワークを適応させ,ロバストな時空間表現を獲得した。
- 短期的変動を捉えるため,細かい時間エンコーディングをアーキテクチャに導入し,リアルタイム監視を支援した。
- クラウドマスキングと火災検知タスクにおいて,従来のモデルや既存の地理空間基盤モデルと比較して,精度向上が確認された。
CubeGraph:空間・時間データの効率的な検索拡張生成 [cs.HC, cs.MA, cs.DB, cs.AI, cs.IR]目的:空間・時間フィルタと高次元ベクトル類似性検索を組み合わせたハイブリッドクエリの効率的な処理
- 検索拡張生成は,現代のAIシステムにおいて不可欠であり,その性能は検索の効率性に大きく依存する。
- 既存システムはベクトルインデックスと空間構造を分離しているため,検索空間が断片化し,複雑な境界を持つクエリに弱い。
- CubeGraphは,ベクトル検索と空間制約を統合し,単一パスでの近傍探索を実現することで,この問題を解決することを目指す。
- CubeGraphは,階層的なグリッドを用いて空間領域を分割し,各セル内にベクトルグラフを維持する。
- クエリ実行時に,CubeGraphは空間的に交差するキューブレベルのインデックスを動的に結合し,グローバルな接続性を回復させる。
- 実世界のデータセットを用いた評価により,CubeGraphが既存の最先端手法を大幅に上回り,優れた性能とスケーラビリティを示すことが確認された。
HQF-Net:リモートセンシング画像セグメンテーションのためのハイブリッド量子・古典マルチスケール融合ネットワーク [cs.CV, cs.AI]目的:リモートセンシング画像セグメンテーションのためのモデル設計
- リモートセンシングは,地球観測や環境モニタリングに不可欠であり,高精度な画像解析が求められる。
- 既存モデルは,複雑なシーンにおける空間的詳細と高レベルな意味的文脈の同時捕捉が課題である。
- 量子・古典技術を融合し,セグメンテーション精度向上を目指す。
- 提案手法HQF-Netは,LandCover.aiにおいて0.8568 mIoU,96.87%の全体精度を達成した。
- OpenEarthMapでは71.82% mIoU,SeasoNetでは55.28% mIoUと99.37%の全体精度を示した。
- 各構成要素の貢献度を示すアーキテクチャアブレーションスタディにより,提案手法の有効性が確認された。
イベント中心的世界モデリング:記憶拡張検索による具現化された意思決定 [cs.LG, cs.IR, cs.RO]目的:ダイナミックかつ安全性が重要な環境における意思決定のための枠組み
- 自律エージェントの応用範囲拡大には,効率的かつ物理的に妥当な意思決定が不可欠である。
- 既存手法はエンドツーエンド学習に依存し,解釈可能性や物理的制約との整合性に課題がある。
- イベント表現を用いた世界モデル構築と検索による,解釈可能な意思決定を実現する。
- 提案手法は環境を意味的イベントの集合として表現し,過去の経験検索を通じて意思決定を行う。
- 検索された解の重み付き組み合わせにより,意思決定と過去の経験との間の明確な関連性を提供する。
- UAV飛行実験により,リアルタイム制御制約下での解釈可能かつ一貫性のある行動が実証された。
HiL-Bench(人間介在ベンチマーク):エージェントは助けを求めるタイミングを知っているか? [cs.AI]目的:エージェントの選択的なエスカレーション能力の測定
- 複雑なタスク解決において,エージェントの判断能力が重要となる。
- 既存のベンチマークは,曖昧さや情報不足時のエージェントの挙動を評価できない。
- 情報不足や曖昧さに対する適切な助けを求める能力の評価手法を確立する。
- HiL-Benchは,人間が検証した課題解決の妨げとなる要素(情報不足,曖昧な要求,矛盾する情報)を組み込み,エージェントの助けを求める能力を評価する。
- Ask-F1という指標は,質問の精度と課題の把握率の調和平均であり,過剰な質問と無言の推測のバランスをとる。
- 実験結果から,現在の最先端モデルは,完全な情報がある場合と比較して,助けを求めるかどうかの判断において大きな性能低下が見られた。
FeaXDrive:実現可能性を考慮した軌道中心の拡散計画によるエンドツーエンド自動運転 [cs.IR, cs.RO, cs.LG]目的:エンドツーエンド自動運転のための実現可能性を考慮した軌道計画手法
- 自動運転技術の発展は,安全かつ効率的な移動手段の実現に不可欠である。
- 拡散計画は可能性を示す一方,生成された軌道の物理的実現可能性が課題となっている。
- 本研究は,軌道空間における実現可能性を考慮した拡散計画手法を提案し,その問題を解決する。
- FeaXDriveは,軌道を統一的な対象として扱うことで,実現可能性を考慮したモデリングを可能にした。
- 適応的曲率制約による学習,走行可能領域ガイダンス,実現可能性を考慮したGRPO後処理を統合した。
- NAVSIMベンチマーク実験により,計画性能と軌道空間における実現可能性が大幅に向上することが示された。
FRAGATA:20年分のRequest Tracker履歴に対するハイブリッドRAGによるHPCサポートチケットのセマンティック検索 [cs.IR, cs.AI]目的:HPCサポートチケットのセマンティック検索システム
- スーパーコンピュータの安定稼働には,過去のトラブル事例からの知識活用が不可欠である。
- 既存のRequest Trackerの検索エンジンでは,知識の再利用が困難であった。
- 過去のインシデント情報を活用し,サポート業務の効率化を目指す。
- Fragataは,言語,タイプミス,キーワードの差異に関わらず,関連性の高い過去のインシデントを検索できる。
- システムはCESGAのインフラ上に展開され,サービス中断なく増分更新に対応可能である。
- FinisTerrae IIIスーパーコンピュータによって,計算負荷の高い処理をオフロードしている。
インタラクティブな敵対的収束開発手法:AI支援ソフトウェア開発のための構造化フレームワーク [cs.SE, cs.AI]目的:AI支援ソフトウェア開発における検証ギャップの解消
- AI技術の進化はソフトウェア開発の効率化に不可欠だが,その有効性を最大化するには課題がある。
- AI生成コードの品質保証が不十分であり,セキュリティ上の脆弱性や開発速度の低下を引き起こす可能性がある。
- 外部検証エージェントを活用し,開発プロセス全体を通して検証を組み込むことで,これらの課題を解決する。
- 本研究で提案するIACDMは,問題発見,知識管理,敵対的批判の3つの柱に基づき,AIツールに依存しない汎用的なフレームワークである。
- 20件以上の実用的な研究開発プロジェクトへの適用を通して,IACDMの有効性が実証された。
- 今後の検証可能な仮説として,本手法の限界が明確にされており,さらなる実証研究の必要性を示唆している。
ブラックボックスのラベルを超えて:主観的NLPタスクの診断のための解釈可能な基準 [cs.CL, cs.AI]目的:主観的NLPタスクの診断基準
- NLPの主観評価は,人間の判断が不可欠であり,その質が結果を大きく左右する。
- アノテーター間の意見不一致の原因特定が難しく,評価基準の曖昧さやカテゴリの重複が問題となる。
- アノテーションスキーマ自体の問題点を,評価ラベル作成前に診断し,改善すること。
- 提案手法は,アノテーターの基準判断のみを用いて,評価スキーマの信頼性を評価可能である。
- 実証実験では,意見不一致は特定の基準に集中しており,複数のカテゴリが活性化するケースが多いことが示された。
- これらの結果は,専門家による意見不一致と一致し,評価ガイドラインの改善に役立つ。
RosettaSearch:タンパク質配列設計のための推論時多目的探索 [cs.LG, cs.AI, q-bio.BM]目的:バックボーン条件付きタンパク質配列設計のための,推論時の多目的最適化
- タンパク質設計は,創薬やバイオテクノロジーにおいて重要な役割を担う。
- 既存のタンパク質配列設計手法は,最適解を見つけることが難しく,性能に限界がある。
- LLMを活用し,設計性能の向上と効率的な探索を実現すること。
- RosettaSearchは,LigandMPNNが生成した400件の亜最適配列に対し,高精度な設計を再現できた。
- 設計の構造的忠実度指標は18%から68%向上し,設計成功率は2.5倍に改善された。
- この性能向上は,Chai-1を用いた評価でも一貫しており,異なるLLMでも同様の結果が得られた。
エージェント教育:Claude CodeでClaude Codeを学ぶ [cs.CY, cs.AI, cs.HC, cs.SE]目的:AIコーディングアシスタント学習のための構造化された教育フレームワークの提供
- AIコーディングアシスタントは普及しているが,効果的な学習方法が確立されていない。
- ドキュメントと実践のスキル間にはギャップがあり,学習資源が断片的である。
- AIを介した段階的な指導を実現し,実践的なスキル習得を支援すること。
- cc-self-trainは,Claude Codeの学習のためのモジュール型インタラクティブカリキュラムである。
- インストラクターのトーンを段階的に変化させるpersona progression modelが導入されている。
- パイロット評価の結果,10のスキル領域全てで自己効力感の有意な向上が確認された(p < 0.001)。
比率制約強化学習 [cs.LG, cs.AI]目的:比率制約強化学習のフレームワーク
- 強化学習は,複雑な意思決定問題への応用が期待されており,その重要性は高い。
- 従来の強化学習アルゴリズムは,安定性や汎化性能に課題がある場合が多い。
- 信頼領域法の理論的基盤とPPOのヒューリスティックな手法のギャップを埋める。
- 本研究では,比率制約強化学習(BRRL)という新しいフレームワークを提案し,解析的な最適解を導出した。
- 提案手法であるBPOは,MuJoCo,Atari,IsaacLabなどの環境でPPOと同等またはそれ以上の性能を示すことが確認された。
- さらに,LLMのファインチューニング向けにGBPOを拡張し,その有効性も実証された。
UAF:全二重音声インタラクションのための統合音声フロントエンドLLM [cs.AI, cs.SD, eess.AS]目的:全二重音声インタラクションを実現するための統合音声フロントエンドLLMの提案
- 自然な人間コミュニケーションの再現が,AI会話システムの発展を促している。
- 従来の音声処理パイプラインは,遅延,情報損失,エラー伝播などの課題を抱えている。
- 全二重音声システムに対応した,音声フロントエンドの最適化を目指している。
- 本研究では,音声活動検知,ターンテイキング検知,話者認識,自動音声認識,質問応答といった多様なタスクを単一の自己回帰的シーケンス予測問題として定式化した。
- 提案モデルは,複数の音声フロントエンドタスクで優れた性能を発揮し,応答遅延と割り込み精度の向上に貢献する。
- 開始時には参照音声プロンプトを利用し,ターゲット話者を固定することで,安定した性能を実現している。
RaBitQとTurboQuantの再検討:手法,理論,実験の対称的な比較 [cs.DC, cs.LG, cs.AI, cs.DB]目的:RaBitQとTurboQuantの比較分析
- 近似最近傍探索は,大規模データセットにおける効率的な情報検索に不可欠である。
- TurboQuantの優位性に関する主張と再現性の問題が指摘されている。
- RaBitQとTurboQuantの性能を客観的に比較し,TurboQuantの実験結果の信頼性を検証する。
- TurboQuantは,内積推定,最近傍探索,KVキャッシュ量子化において,RaBitQよりも劣る場合が多いことが示された。
- TurboQuant論文で報告された実行時間と再現率の結果の一部は,公開された実装では再現できなかった。
- RaBitQとTurboQuantの共通構造と相違点が明確化され,TurboQuantの実験結果における再現性の問題が指摘された。
