arXiv雑要約
AI - 2026/03/18 公開
多様体マッチングオートエンコーダ [cs.LG, cs.AI]目的:オートエンコーダの潜在空間におけるペアワイズ距離と入力データ空間におけるペアワイズ距離の整合
- 機械学習において,データの低次元表現学習は,計算効率や汎化性能向上に不可欠である。
- 既存の次元削減手法では,データ構造の局所的な関係性を十分に捉えられない場合がある。
- 潜在空間の構造をデータ空間に近づけることで,より忠実な低次元表現を獲得することを目指す。
- 提案手法Manifold-Matching (MMAE)は,最近傍距離の保存性や持続ホモロジーに基づく指標において,既存手法を上回る性能を示す。
- MMAEは,入力データの低次元表現への拡張が可能であり,柔軟性を有する。
- MMAEは,多次元尺度構成法 (MDS) のスケーラブルな近似解を提供する。
深層テーブルデータ表現修正器 [cs.LG]目的:深層テーブルデータの表現の改善
- 現実世界の様々な分野でテーブルデータが重要な役割を果たしており,その活用が求められている。
- 既存の深層学習手法は,学習の困難さや事前知識の必要性といった課題を抱えている。
- 学習済みモデルのパラメータを変更せずに表現を効率的に改善することを目的とする。
- 提案手法TRCは,既存の深層テーブルデータモデルの表現を,モデルに手を加えることなく改善できる。
- 表現のシフトと冗長性に対処するため,表現の再推定とテーブル空間マッピングという2つのタスクを導入した。
- 様々なテーブルデータベンチマークにおける実験で,TRCを組み合わせることで既存モデルの性能が向上することが示された。
悪意の有無:エージェントスキル分類へのリポジトリコンテキストの追加 [cs.CR, cs.AI]目的:AIエージェントスキルのセキュリティ分析
- AIエージェントの普及に伴い,スキルマーケットプレイスが重要性を増している。
- スキルスキャナによる誤検知が多く,正確なリスク評価が困難である。
- スキルとリポジトリの関連性を分析し,誤検知を減らすこと。
- 大規模なスキル分析の結果,セキュリティスキャナによる悪意のあるスキル分類は大幅に減少した。
- スキル記述だけでなく,リポジトリコンテキストを考慮することで,より正確なセキュリティ評価が可能となった。
- 放棄されたリポジトリにおけるスキルハイジャックなど,新たな攻撃経路が明らかになった。
REFORGE:マルチモーダル攻撃による画像生成モデルにおける脆弱な概念アンラーニングの露呈 [cs.CL, cs.CV, cs.AI, cs.CR, cs.LG]目的:画像生成モデルの脆弱性評価
- 画像生成技術の発展はコンテンツ作成を可能にする一方,著作権侵害や有害コンテンツ生成のリスクを増大させる。
- 既存の画像生成モデルのアンラーニング手法は,敵対的入力に対する頑健性が十分に検証されていない。
- 本研究は,画像生成モデルのアンラーニング手法に対するマルチモーダル攻撃の有効性を評価し,脆弱性を明らかにする。
- 提案手法REFORGEは,クロスアテンションに基づくマスキング戦略により,概念に関連する領域にノイズを効率的に配置し,攻撃成功率を向上させる。
- 実験結果から,現在の画像生成モデルのアンラーニング手法には依然として脆弱性が存在することが示唆された。
- 頑健性を考慮したアンラーニング手法の開発が,マルチモーダルな敵対的攻撃に対する防御として不可欠である。
いつ,そしてなぜ,教師なし強化学習は数学的推論で成功するのか:多様体包絡の視点 [cs.LG, cs.CL]目的:数学的推論における教師なし強化学習の成功条件とメカニズムの解明
- 大規模言語モデルの数学的推論能力向上は重要だが,高品質なデータセットの作成が課題となる。
- 教師なし強化学習はデータ効率が良いが,学習の不安定性やポリシー崩壊といった問題がある。
- 簡潔かつ確実な応答を促す報酬設計と,その効果範囲の特定を目指す。
- 簡潔かつ確実な生成を促す内在報酬設計が数学的推論能力を向上させることを確認した。
- モデルの基礎的な論理的素養が,教師なし強化学習の成功を大きく左右することが明らかになった。
- 成功例では,学習過程が多様体に包まれた形で安定化することが幾何学的に示された。
V-DyKnow:視覚言語モデルにおける時間依存性知識の動的ベンチマーク [cs.AI]目的:視覚言語モデルにおける時間依存性知識の評価
- 現実世界の事実は常に変化するため,モデルが最新の情報を維持することは重要である。
- 既存のベンチマークは静的であり,時間変化する知識を評価できない。
- 視覚言語モデルの時間依存性知識の信頼性と更新メカニズムを評価する。
- 視覚言語モデルは,学習時に使用された古い情報に基づいて誤った事実を出力することが多い。
- テキスト入力と比較して,視覚入力に対する事実の信頼性が低い。
- 現在の知識更新手法は,複数のモダリティ間で一貫して知識を更新できないことが示された。
強直な動力系に対する学習適応型低次モデル化のための軌道最適時間再パラメータ化 [cs.LG]目的:強直な動力系の機械学習低次モデルにおける,時間再パラメータ化の有効性評価と,軌道最適時間再パラメータ化(TOTR)の提案
- 機械学習と動力系解析の融合は,複雑な物理現象の効率的なシミュレーションを可能にするため重要である。
- 強直な動力系では,時間積分が不安定になるか,学習ループ内での計算コストが高くなるという課題が存在する。
- TOTRは,学習の安定性と効率を向上させ,強直な動力系の低次モデル化における課題を解決することを目指す。
- 提案手法TOTRは,時間再パラメータ化を弧長座標における最適化問題として定式化し,訓練データの滑らかさを重視する。
- TOTRは,既存の時間再パラメータ化手法と比較して,より滑らかな再パラメータ化と,物理時間予測の精度向上を実現した。
- TOTRを用いた実験では,ベンチマークアルゴリズムと比較して,損失関数が1〜2桁程度低減されることが確認された。
AIエージェントの実行時ガバナンス:経路に関するポリシー [cs.AI]目的:AIエージェントの経路依存的な行動に対する効果的な実行時ガバナンス
- AIエージェントの利用拡大に伴い,設計時に予測困難な行動のガバナンスが重要になっている。
- 従来のガバナンス手法では,経路に依存するポリシーを十分に考慮できていない。
- 経路に依存するポリシーを評価し,AIエージェントの安全性と法的遵守を確保すること。
- AIエージェントの実行経路をガバナンスの中心的な対象と捉え,ポリシー違反確率を決定論的に算出する関数として形式化。
- プロンプトやアクセス制御は,このフレームワークの特殊なケースとして捉えられる。
- リスクの調整や強制遵守の限界など,今後の課題を特定した。
BATQuant:学習可能なブロックワイズ最適化による外れ値に強いMXFP4量子化 [cs.CL, cs.AI]目的:MXFP4量子化における外れ値への耐性を向上させる手法
- 近年の大規模言語モデルやマルチモーダル大規模言語モデルの利用拡大に伴い,効率的な量子化技術の重要性が増している。
- 既存の量子化手法は,MXFP4のような低精度浮動小数点形式において,性能が著しく低下する問題がある。
- ブロック間の外れ値伝播を防ぎ,分布形状を最適化することで,MXFP4量子化の性能劣化を改善することを目的とする。
- 提案手法BATQuantは,マルチモーダルベンチマークにおいて,フル精度性能の最大96.43%を回復することを示した。
- BATQuantは,既存の手法と比較して,様々なタスクにおいて明確な性能向上を達成した。
- Global and Private Kronecker分解とブロックワイズ学習可能なクリッピングにより,パラメータ効率と計算コストを削減した。
FSMC-Pose:多重自己較正による周波数・空間融合を用いた牛の交尾姿勢推定 [cs.RO, cs.CV, cs.AI]目的:牛の交尾姿勢推定の精度向上
- 酪農管理において,発情の正確な検出は繁殖効率に不可欠である。
- 背景の複雑さや動物同士の遮蔽により,実環境での交尾姿勢推定は困難である。
- 複雑な環境下でもロバストな姿勢推定を可能にする手法の開発。
- FSMC-Poseは,軽量な周波数・空間融合バックボーンと多重自己較正ヘッドを組み合わせたフレームワークである。
- 提案手法は,既存のベースラインと比較して高い精度を達成し,計算コストとパラメータ数を削減した。
- 実環境下での複雑な状況下でも,牛の交尾姿勢を効果的に捉え,推定できることを実験により示した。
データ駆動型汎用境界制御:チューリッヒの事例研究 [eess.SY, cs.AI, cs.CE, cs.ET, cs.SY]目的:都市交通渋滞緩和のための制御手法
- 都市の発展において交通渋滞の緩和は重要であり,既存インフラの最適活用が求められている。
- 複雑な交通システムはモデル化に時間とコストがかかり,機械学習はデータの疎さに対応しにくい。
- 行動システム理論に基づく交通ダイナミクスを定式化し,データ駆動型予測制御で交通を制御する。
- 提案手法は,チューリッヒ市の大規模な交通シミュレーションを用いて検証された。
- 総移動時間とCO2排出量の削減において,その有効性が確認された。
- この研究は,都市交通制御におけるデータ駆動型アプローチの可能性を示している。
共役・較正多クラスガウス過程のための単体-ユークリッド全単射 [cs.LG]目的:多クラス分類のための共役・較正ガウス過程モデル
- 確率モデルは機械学習の基礎であり,多様な問題に応用されている。
- 従来の多クラスGP分類器は,潜在次元が多く,計算コストが高い場合がある。
- 単体幾何を利用し,計算効率と予測精度を向上させることを目指す。
- 単体上のクラス確率をユークリッド空間に写像することで,次元削減を実現した。
- これにより,共役推論が可能となり,信頼性の高い予測確率が得られる。
- 合成データおよび実データでの実験により,良好な較正性能と競争力のある性能が確認された。
顔比較のためのMLLMベースのテキストによる説明 [cs.CL, cs.RO, cs.MA, cs.CV, cs.AI]目的:顔比較における説明の信頼性に関する分析
- 顔認識技術の透明性・説明可能性の向上は,社会実装において不可欠である。
- 既存の顔認識システムの説明は不十分であり,信頼性に課題がある。
- MLLMによる説明の妥当性を検証し,信頼性の高い説明手法を模索する。
- MLLMが正しい顔認証判断を下した場合でも,説明は視覚的証拠に基づかない,あるいは誤った属性に依存することが多い。
- 従来の顔認識システムからの情報を追加しても,説明の忠実性は一貫して向上しない。
- 提案された尤度比に基づく評価フレームワークにより,現在のMLLMにおける説明の限界が明らかになった。
AIが戦場の霧を航海するとき [cs.AI, cs.CL, cs.CY]目的:2026年の中東紛争初期段階における大規模言語モデルの推論能力の評価
- 地政学的予測は国際関係において重要だが,過去のデータに依存しやすく,客観的な評価が難しい。
- 既存の研究では,学習データからの情報漏洩により,将来予測の妥当性を検証することが困難である。
- 本研究は,情報漏洩のリスクを最小限に抑え,戦場の霧の中でAIがどのように推論するかを評価することを目指す。
- 最新の大規模言語モデルは,表面的なレトリックを超え,構造的なインセンティブに基づいて戦略的なリアリズムを示すことが多い。
- モデルの推論能力は分野によって異なり,政治的に曖昧な状況よりも,経済的・物流的な状況でより信頼性が高い。
- 紛争の進行に伴い,モデルのナラティブは変化し,当初の迅速な封じ込め期待から,地域への根付きと消耗戦への脱エスカレーションというより包括的な説明へと移行した。
制約伝播を用いたドメイン非依存動的計画法 [cs.HC, cs.CY, cs.AI]目的:組み合わせ最適化問題における動的計画法と制約プログラミングの統合
- 組み合わせ最適化問題解決において,効率的な探索手法は不可欠である。そのため,多様なモデルに基づくアプローチが研究されている。
- 動的計画法と制約プログラミングは強力だが,互いに異なる表現方法のため,統合が難しいという課題がある。
- 制約伝播を動的計画法に組み込むことで,状態空間の削減と問題解決能力の向上を目指す。
- 制約伝播の導入により,状態空間の展開回数を大幅に削減できることが示された。
- シングルマシン スケジューリング問題とリソース制約付きプロジェクト スケジューリング問題において,従来の動的計画法よりも多くのインスタンスを解くことができた。
- 時間制約付き TSP 問題においても,制約が厳しいインスタンスで同様の改善が見られた。ただし,伝播のオーバーヘッド削減が今後の課題である。
もしピノキオが強化学習エージェントだったら:規範に基づいたエンドツーエンドパイプライン [cs.AI]目的:規範遵守と文脈を意識したエージェント開発
- AI技術の急速な発展に伴い,社会規範への適合が不可欠となっている。
- AIエージェントが社会規範を理解し,遵守することが困難である。
- 強化学習エージェントにおける規範遵守を促進するパイプラインを構築すること。
- 本研究では,強化学習エージェントを規範的アドバイザーによって監督するハイブリッドモデル「pino」を提案した。
- アドバイザーの意思決定の根底にある議論と関係性を自動抽出する新しいアルゴリズムを開発した。
- 強化学習エージェントにおける「規範回避」現象を定義し,その軽減策を提示した。
Omanic:大規模言語モデルにおける多段推論の段階的評価に向けて [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの多段推論における評価手法の開発
- 自然言語処理の発展において,高度な推論能力を持つ言語モデルの重要性が増している。
- 既存の評価指標では,推論過程を詳細に分析できず,誤りの原因特定が困難である。
- 多段推論の各段階における評価を可能にし,モデルの弱点を明らかにすること。
- OmanicBenchにおいて,最先端のLLMの正答率は73.11%にとどまり,高い難易度が確認された。
- CoTの性能は事実の完全性に依存し,知識不足や誤りが後続の段階で増幅することが示された。
- OmanicSynthを用いた教師ありファインチューニングは,6つの推論・数学ベンチマークで顕著な性能向上をもたらした。
機械は機関の記録から科学的な嗜好を獲得する [cs.AI, econ.GN, q-fin.EC]目的:科学的なアイデアの価値判断
- 科学の進歩において,論理的思考だけでなく,どのアイデアを追求すべきかの判断が重要である。
- 科学的なアイデアの価値判断は,経験と直感に頼る部分が大きく,客観的な基準が確立されていない。
- 機関の記録から科学的な嗜好を抽出し,AIによるアイデアの価値判断を可能にすること。
- 論文の出版決定を学習データとして用いることで,言語モデルは人間の専門家よりも優れた評価能力を獲得する。
- 特に,経済学分野の出版記録を用いたモデルは,70%という高い精度を達成した。
- AIは科学的な嗜好を欠いているのではなく,機関の記録に蓄積された情報を抽出することで,それを獲得できる。
言語的に関連する言語は,低リソース環境におけるLLM翻訳を導くことができるか [cs.CL, cs.AI]目的:低リソース環境におけるLLM翻訳の指針
- 機械翻訳はグローバルコミュニケーションの基盤であり,多様な言語への対応が不可欠である。
- 低リソース言語では,大規模な並列データやファインチューニングが困難である。
- LLMの推論時プロンプトとピボット言語による軽量な翻訳手法の有効性を検証する。
- ピボット言語を用いたプロンプトは,特定の構成において翻訳性能の向上を示す。
- 特に,モデルの語彙に十分に含まれない言語において,その効果が認められる。
- しかし,その改善は限定的であり,Few-shot exampleの構築に依存する傾向がある。
離散推論のための自己認識マルコフモデル [cs.LG, stat.ML]目的:離散推論における自己認識マルコフモデルの学習
- 複雑な問題解決において,推論能力の向上が不可欠であり,その自動化が求められている。
- 従来のマスク付き離散拡散モデルは,自己修正機能が欠如しており,問題の複雑さに適応できない。
- 自己出力を学習したマルコフ遷移行列を用いることで,モデルの自己修正と問題難易度への適応を実現する。
- 提案手法は,Sudoku-Extremeデータセットにおいて他のフローベースの手法を凌駕し,95%の有効性を示した。
- Countdown-4問題に対しては,平均10ステップでほぼ96%の問題を正しく解くことができた。
- 多くの問題はわずか2ステップで解決可能であり,計算効率の高さを示唆している。
オープンクローエージェントが互いに学習するとき:教育における人間とAIの連携に関する創発的なAIエージェントコミュニティからの洞察 [cs.CY, cs.AI, cs.HC, cs.MA]目的:AIエージェントコミュニティにおける創発的な現象の特定と,それらが教育用マルチエージェントシステムの設計に与える示唆
- AI技術は,教育分野において単なる道具から協調的なパートナーへと進化することが期待されている。
- これまでの研究は人間とAIの二者間インタラクションに焦点を当てており,AI同士の連携から得られる知見は限られていた。
- AIエージェント間の自発的な学習プロセスを観察し,教育用AIシステム設計の原則を導き出すことを目指す。
- 人間のエージェント設定者は,教える過程を通して学習するという「双方向のスキャフォールディング」を経験することがわかった。
- 設計されたカリキュラムなしに,アイデアの波及や品質の階層といったピア学習が自然に発生することが確認された。
- エージェントは,オープンラーナーモデル設計を反映した共有メモリアーキテクチャに収束する傾向があることが示された。
Kestrel:LVLMのハルシネーション軽減のための自己修正の根拠付け [cs.CV, cs.AI]目的:LVLMにおけるハルシネーション軽減
- マルチモーダルタスクにおいて,大規模言語モデルの性能向上は著しいが,ハルシネーションが課題となっている。
- ハルシネーションは,LVLMの現実世界への応用を阻害する大きな要因である。
- 視覚的根拠に基づいた自己修正により,学習コストを抑えつつハルシネーションを軽減することを目指す。
- Kestrelは,視覚的根拠収集エージェントと検証に基づく自己修正機構を組み合わせることで,既存手法を上回る性能を示す。
- POPEとMME-Hallucinationにおいて,それぞれ平均+3.31%,+28.34%の改善が見られた(Qwen3-VL使用)。
- 自己修正モジュールと根拠付けエージェントは,POPEにおいて平均+2.0%の性能向上に貢献している。
Fast-WAM:ワールドアクションモデルはテスト時の未来予測を必要とするか? [cs.CV, cs.AI]目的:ワールドアクションモデルにおける未来予測の必要性に関する検討
- ロボットの行動計画において,環境変化を予測し,適切な行動を選択することは重要である。
- 既存のワールドアクションモデルは未来予測に時間がかかり,リアルタイム性能が課題となっている。
- テスト時の未来予測を省略することで,効率的な行動計画を可能にする手法を提案する。
- 提案手法Fast-WAMは,未来予測を省略しつつ,既存の高性能な手法と同等の性能を達成した。
- 特に,動画共同学習を訓練時に行うことが,性能向上に大きく貢献することが示された。
- Fast-WAMは,従来のWAMよりも4倍高速に動作し,リアルタイムでの応用が可能となった。
CritiSense:批判的デジタルリテラシーと誤情報に対するレジリエンス [cs.AI, cs.CL, cs.CY]目的:誤情報に対する批判的デジタルリテラシーとレジリエンスの向上
- ソーシャルメディアは情報源として重要だが,誤情報拡散のリスクがある。
- 誤情報は意思決定を阻害し,社会の信頼を損なうという問題がある。
- 誤情報に触れる前に操作戦術を認識する能力を高めることを目指す。
- CritiSenseは,批判的デジタルリテラシーを向上させるモバイルアプリである。
- ユーザビリティ調査の結果,83.9%が全体的に満足し,90.1%が使いやすいと評価した。
- 本アプリは,多言語対応(9言語)かつモジュール化されており,迅速な更新が可能である。
ロボットはいつ考えるべきか?:強化学習による埋め込み型ロボット意思決定のためのリソースを意識した推論 [cs.RO, cs.AI, cs.LG]目的:リソースを意識した推論のタイミングと方法
- ロボットが環境と相互作用する上で,高レベルな推論・計画・意思決定が重要になっている。
- LLMを用いた推論は計算遅延とリソース消費が大きく,ロボットの動作を阻害する可能性がある。
- 状況に応じて推論のタイミング,役割,計算資源を適応的に決定し,効率と信頼性を向上させる。
- RARRLは,ロボットの意思決定層で動作する階層的フレームワークであり,リソースを意識した推論のオーケストレーションを学習する。
- 実験の結果,RARRLは固定またはヒューリスティックな推論戦略と比較して,タスクの成功率を向上させ,実行遅延を削減し,堅牢性を高めることが示された。
- 適応的な推論制御は,信頼性が高く効率的な埋め込み型ロボットエージェントを構築するために不可欠である。
Transformerにおけるグリッドワールド表現は予測幾何学を反映する [cs.LG]目的:予測幾何学
- 言語モデルは世界の状態やルールを内部表現として獲得する可能性があり,その構造解明が重要である。
- 内部表現と世界の構造との関係性が明確でなく,表現の原理が不明確である。
- シンプルな確率過程を用いて,内部表現と予測幾何学の関係性を明らかにする。
- Transformerの隠れ層活性化は,解析的に導出された予測ベクトルと高い一致性を示した。
- 学習された表現は低次元であり,予測に十分な情報を含んでいることが確認された。
- この結果は,ニューラルネットワークが文法構造などの制約をどのように獲得するかを理解する上で示唆を与える。
ストリーミング外れ値検出のための行列逆行列更新のコストトレードオフ [cs.LG, cs.AI]目的:行列逆行列更新におけるコストトレードオフの比較
- 異常検知は,異常なデータ点を特定し,注意が必要な異常を明らかにする上で重要である。
- オンライン学習における行列逆行列の効率的な更新方法に関する合意がない。
- 各更新手法のコストを比較し,最適な手法を特定すること。
- 直接逆行列法(DI),反復シャーマン・モリソン法(ISM),ウッドベリー行列恒等式(WMI)の計算コストを比較した。
- ランク1更新にはISM,行列サイズに対する更新が小さい場合はWMI,それ以外の場合はDIが最適であることが示された。
- 本研究は,効率的なオンライン外れ値検出技術の開発に貢献する一般的な結果を提供する。
系統樹誘導測地線:フィンズラー幾何学によるアプローチ [eess.SY, cs.SY, nlin.CD, cs.LG]目的:軌道推論における性能向上
- 動的システムの挙動理解に不可欠であり,時間変化するデータの解析に貢献する。
- 既存手法では,離散的な事前知識(系統樹など)の活用が不十分であった。
- 幾何学と分類を組み合わせ,系統樹のような離散的知識を軌道推論に取り込む。
- フィンズラー計量を用いることで,幾何学的制約と分類的制約を同時に考慮できる。
- 合成データと実データを用いた実験により,既存手法よりも優れた軌道推論性能が確認された。
- 本研究は,発生生物学など,系統樹が重要な分野における軌道推論の精度向上に貢献する。
自動電子顕微鏡および走査プローブ顕微鏡における新規性駆動型ターゲット空間探索 [cs.LG, cond-mat.mtrl-sci]目的:自動顕微鏡におけるターゲット空間探索戦略の開発
- 現代の自動顕微鏡は,物質科学や生命科学の進歩に不可欠である。
- 従来の顕微鏡法では,目に見える特徴に偏り,重要な情報を見落とす可能性がある。
- 実験中に構造と特性の関係を学習し,多様な応答領域を探索する。
- BEACONフレームワークが,ターゲット空間における発見を導くことを実証した。
- 事前に取得されたデータセットによるベンチマークで,古典的な手法と比較し優位性を示した。
- STEMにおいて実機実験に適用し,オフライン検証から実用化への移行を成功させた。
複数のOneFlorida+コンソーシアムデータを用いた連合学習による術後重篤合併症予測 [cs.DC, cs.LG, cs.AI]目的:術後重篤合併症および死亡リスク予測モデルの開発と検証
- 医療の質の向上には,大規模なデータ分析が不可欠であり,多施設共同研究の重要性が高まっている。
- 医療データは機密性が高く,単一施設でのデータ収集では十分な症例数が確保できないという課題がある。
- データプライバシーを保護しつつ,多施設データを活用した高精度な予測モデルの構築を目指す。
- 連合学習モデルは,ICU入室,人工呼吸器使用,急性腎障害,院内死亡などのアウトカムにおいて,一貫して良好な予測性能を示した。
- 連合学習モデルは,各施設のローカルモデルと比較して,一般化性能が同等以上であった。
- 本研究は,臨床意思決定支援システムにおける連合学習の有用性を示唆する。
推論のコスト:視覚言語モデルにおける思考の連鎖が過信を引き起こす [cs.LG]目的:視覚言語モデルにおける不確実性量の評価
- 高度な意思決定を伴う場面で,予測精度だけでなく信頼性の高い不確実性量の評価が重要である。
- 思考の連鎖による推論は精度向上に寄与する一方,不確実性量の信頼性に悪影響を及ぼす可能性がある。
- 推論が不確実性量の評価に与える影響を明らかにし,信頼性の高い評価手法を確立すること。
- 思考の連鎖による推論は,多くの場合不確実性量の評価を悪化させることが示された。
- 推論過程で,モデルは正答性よりも自身の推論との整合性を重視し,過信に陥る傾向がある。
- 一方で,合意に基づく整合性は推論下においても安定しており,不確実性量の評価に適している。
GeMA:複雑系ベンチマーキングのための潜在多様体フロンティア学習 [cs.LG, cs.CE, econ.EM, math.OC, stat.ML]目的:複雑系のベンチマーキング手法
- 輸送計画,規制,マクロ経済分析において,複雑系の性能評価は不可欠である。
- 従来のフロンティア分析は,生産集合に関する制約的な仮定に依存し,異質性や規模効果を間接的にしか扱えない。
- GeMAは,異質性,非凸性,規模バイアスが存在する状況下で,より柔軟でロバストなベンチマーキングを可能とする。
- GeMAは,入力と出力の空間に埋め込まれた低次元多様体の境界として生産集合を表現する。
- 潜在技術空間におけるクラスターとして内生的なピアグループが出現し,規模不変なベンチマーキングをサポートする。
- 実世界の事例研究において,GeMAは古典的な仮定が成り立つ場合には既存の手法と同等の性能を示し,複雑な設定において追加的な洞察を提供する。
大規模言語モデル事前学習における最適化状態の量子化の理解:状態の陳腐化と状態リセットの有効性 [cs.LG]目的:大規模言語モデル事前学習における最適化状態の量子化に伴う最適化ダイナミクス
- 大規模言語モデルの学習には膨大なメモリが必要であり,効率的な学習手法が求められている。
- 最適化状態の量子化はメモリ使用量を削減するが,その最適化ダイナミクスは十分に理解されていない。
- 量子化による最適化状態の陳腐化をモデル化し,効果的なリセット戦略を導き出す。
- 量子化により,最適化状態が陳腐化し,学習の適応が遅延することが示された。
- 最適化状態が陳腐化する確率を予測するモデルを開発し,リセットの有効性を説明した。
- 理論に基づいたリセット間隔の決定方法を提案し,低精度環境下での性能回復とメモリ削減を両立した。
IQuest-Coder-V1技術報告書 [cs.CE, cs.AI, cs.CL, cs.SE]目的:コード大規模言語モデルの開発と性能評価
- ソフトウェア開発の自動化は,生産性向上や人的資源の有効活用に不可欠である。
- 既存モデルは,複雑なソフトウェアの論理的進化を捉えきれていない。
- 動的なソフトウェアの論理的進化を捉えたモデルを構築し,コード理解能力を向上させる。
- IQuest-Coder-V1は,エージェント型ソフトウェア開発,競技プログラミング,複雑なツール利用において,最先端の性能を達成した。
- コードフロー多段階学習という新しいパラダイムを導入し,モデルの論理的基盤を強化した。
- IQuest-Coder-V1-Loopは,モデル容量とデプロイメントのフットプリントのトレードオフを最適化する再帰機構を備えている。
個別化されたLLMエージェントにおける有害性傾向の差異:メンタルヘルス開示の興味深い事例 [cs.AI]目的:LLMエージェントにおける有害なタスク実行へのメンタルヘルス開示の影響評価
- LLMがエージェントとして活用され,安全性評価がテキスト生成からタスク実行へと移行している。
- エージェントの安全性評価では,ユーザープロファイル等の個別化要素が考慮されていない。
- メンタルヘルス開示が,エージェントの有害行動に与える影響を明らかにすること。
- 有害なタスクの実行はモデル間で異なり,特にDeepSeek 3.2は高い有害実行率を示した。
- ユーザーのバイオグラフィー情報のみを追加すると,有害スコアが減少し,拒否率が向上した。
- メンタルヘルス開示は拒否率をさらに高める傾向があるが,影響は限定的で,過剰な拒否による安全性と有用性のトレードオフも示唆された。
反事実の取得が視覚的インコンテキスト学習を改善する [cs.CV, cs.AI, cs.CL]目的:視覚的インコンテキスト学習における反事実的例の取得による性能向上
- 近年,画像と言語を組み合わせたモデルが多岐にわたるタスクで高い性能を示す。
- 既存の手法では,因果関係を正確に把握できず,表面的な相関関係に依存しやすい。
- 反事実的な例を取得することで,モデルに因果関係の推論を促し,よりロバストな学習を目指す。
- 提案手法CIRCLESは,属性を誘導した合成画像検索により,反事実的な例を積極的に取得する。
- 実験結果から,CIRCLESは既存手法と比較して,特に小規模モデルにおいて顕著な性能向上を示すことが確認された。
- 取得された例は多様性と因果情報の点で優れており,モデルがデモンストレーションをどのように活用しているかを示唆する。
MedCL-Bench:バイオメディカル継続学習における安定性と効率性のトレードオフとスケーリングのベンチマーク [cs.AI]目的:バイオメディカル継続学習のベンチマーク
- 医療分野の知識は常に更新されるため,モデルの継続的な学習が不可欠である。
- 逐次的な更新では,既存の知識が失われる「破滅的忘却」が課題となる。
- 多様なタスクにおける継続学習戦略の評価を可能にする統一ベンチマークの提供。
- MedCL-Benchは,10のバイオメディカルNLPデータセットと11の継続学習戦略を評価する。
- 単純な逐次学習では,既存タスクの性能が低下する破滅的忘却が発生しやすい。
- パラメータ分離法はGPU時間あたりの性能維持に優れ,リプレイ法はより高コストで強力な保護を提供する。
SpecMoE:交差種間脳波デコーディングのためのスペクトル混合エキスパート基盤モデル [cs.LG, cs.AI, cs.HC]目的:交差種間脳波デコーディングのための基盤モデルの構築
- 脳科学と人工知能の融合において,脳波信号の神経活動の解読は重要な課題である。
- 既存の基盤モデルは,自己教師あり事前学習時に時間的・周波数的なマスキングに偏り,低周波成分の学習が不十分になりやすい。
- 高周波と低周波の両方の領域における複雑な神経パターンを学習するモデルを開発し,脳波デコーディングの精度向上を目指す。
- 提案手法SpecMoEは,睡眠段階分類,感情認識,運動想像分類など,多様な脳波デコーディングタスクにおいて最先端の性能を達成した。
- SpecMoEは,人間とマウスの脳波データセットの両方で高い精度を維持し,強い交差種間および交差被験者汎化性能を示した。
- 時間,周波数,時間周波数に対するガウス型マスキングを組み合わせることで,モデルに複雑な信号再構成を強制し,より豊かな特徴表現を獲得した。
暗黙的関連性テストにおける脳と行動データからの心理測定変数のベイズ推論 [cs.LG, q-bio.NC, q-bio.QM, stat.ML]目的:暗黙的関連性テスト(IAT)から生成される神経および行動データを用いた心理測定変数の推論手法
- 精神疾患の早期発見や診断支援に,客観的な指標が求められている。
- 従来のIATにおけるDスコア法では,予測性能が低いという課題があった。
- 脳と行動データを統合し,より高精度な心理測定変数の推論を目指す。
- 本研究では,多変量データを用いて,自殺念慮および精神病に関連するIATデータから症状を予測することに成功した。
- E-IATにおいて,うつ病患者に限定した場合,AUCは0.79と有意な改善が見られた。
- 提案手法は,既存の参照手法と同等の性能を示し,Dスコアよりも高い精度を達成した。
AIエージェントにおける非標準誤差 [cs.AI, cs.SI]目的:AIコーディングエージェントの再現性検証
- AI技術は,政策評価や実証研究への応用が期待されており,その信頼性が重要である。
- AIエージェントの分析選択におけるばらつきが,結果の再現性を損なう可能性がある。
- AIエージェントの分析における非標準誤差を定量化し,その原因を解明することを目的とする。
- 最先端のAIコーディングエージェントは,同じデータと研究課題を与えられても,異なる経験的結果を示すことが明らかになった。
- AIエージェントは,測定指標の選択(自己相関 vs. 分散比など)において顕著な差異を示す。
- トップ評価の論文に触れることで,推定値のばらつきが大幅に減少するが,これは理解に基づくものではなく模倣に過ぎない。
大規模言語モデルにおける文化的シグナルの探求:著者プロファイリングを通して [cs.NI, cs.CL, cs.LG]目的:大規模言語モデルに内在する文化的バイアスの検出と定量化
- 社会に影響を与えるアプリケーションでの利用増加に伴い,言語モデルの文化的偏りの問題が重要視されている。
- 言語モデルが特定の文化圏に偏った表現を学習し,不公平な結果を生み出す可能性が指摘されている。
- 言語モデルが特定の属性(性別や民族など)を推測する能力を検証し,偏りの程度を評価する。
- 言語モデルは,特定のタスクに対する学習なしに,歌詞から歌手の性別や民族をある程度推測できることが示された。
- 多くのモデルは北米の民族に偏る傾向がある一方,DeepSeek-1.5Bはアジアの民族との相関が強いことが明らかになった。
- 新しい公平性指標(MADとRD)を用いて,モデル間の民族バイアスの差異を定量的に評価した結果,Ministral-8Bが最も強い偏りを示すことが示された。
多様な選択肢の中で共通点を見出す [cs.HC, cs.ET, cs.RO, cs.GT, cs.AI, cs.LG]目的:多様な人口の選好において共通点を見出す文の選択
- 社会の多様化が進む中で,多数の意見を考慮した合意形成の重要性が増している。
- 無限の選択肢が存在する場合,従来の社会選択理論では共通点を見出すことが困難である。
- 無限の選択肢と大規模な集団を対象とした,比例的拒否権コアに基づく共通点発見アルゴリズムを開発する。
- 提案手法は,未知の分布に対するクエリアクセスのみを用いて,比例的拒否権コアに含まれる文を高い確率で生成する。
- 合成データセットによる実験の結果,提案手法は比例的拒否権コアに含まれる文を生成する信頼性が高いことが確認された。
- 既存の社会選択手法やLLMベース手法と比較し,提案手法の有効性が示された。
特徴豊富な非定常バンディット問題に対する実用的なアルゴリズム [cs.LG]目的:特徴豊富な非定常バンディット問題の解決策
- 実用的な問題解決において,文脈的バンディットは非常に有用である。
- 既存手法では,高次元特徴量や時間変化する報酬構造への対応が課題である。
- より現実的な問題設定に対応し,推薦タスクへの応用を目指す。
- 提案手法C3は,OpenMLのテーブル型データセットで,最良のアルゴリズムと比較して平均累積後悔を5.7%削減した。
- Microsoft News Dataset (MIND)において,他のアルゴリズムと比較して12.4%のクリック率向上を実現した。
- 埋め込み空間におけるNadaraya-Watson推定器とThompsonサンプリングを組み合わせることで,オンライン学習を可能にした。
pADAM:多物理現象学習のためのプラグアンドプレイ型オールインワン拡散アーキテクチャ [cs.LG]目的:異種偏微分方程式族にわたる共有確率事前分布の学習
- 科学における人工知能の進展には,異なる物理法則への汎化が不可欠である。
- 既存の深層学習ソルバーは単一方程式に限定され,物理領域や推論タスク間の転移が困難である。
- 単一のアーキテクチャで,再学習なしに前方予測と逆推論を可能にすることを目指す。
- pADAMは,スカラー拡散から非線形Navier-Stokes方程式まで,多様なベンチマークで高精度な推論を達成した。
- スパースな観測下でも正確な推論が可能であり,共形予測と組み合わせることで信頼性の高い不確実性定量化を実現した。
- わずか2つのスパースなスナップショットから確率的モデル選択が可能であり,学習された生成表現を通して支配方程式を特定した。
TurnWise:単一ターンと複数ターンにおける言語モデルの能力差 [cs.CL, cs.AI]目的:単一ターンと複数ターンの言語モデルの能力差の解明
- 言語モデルは対話形式での利用が一般的であり,その能力向上は重要である。
- 既存の学習・評価データは単一ターンに偏っており,複数ターン対話の特性を捉えられていない。
- 複数ターン対話に特化した評価基準と学習データを提供し,能力差を解消すること。
- 新たに複数ターン能力評価ベンチマークTurnWiseEvalを開発し,単一ターンとの比較を可能にした。
- 複数ターンデータ生成パイプラインTurnWiseDataを構築し,大規模な学習データセットの作成を可能にした。
- Olmo 3を用いた実験で,複数ターンデータでの学習が複数ターン対話性能に不可欠であることが示された。
SOMP:部分空間誘導型直交マッチングパースートによる大規模言語モデルのスケーラブルな勾配反転 [cs.LG, cs.CL]目的:大規模言語モデルにおける勾配反転攻撃とその対策
- 大規模言語モデルの普及に伴い,学習データのプライバシー保護が重要課題となっている。
- 勾配の共有はプライバシー漏洩のリスクがあり,既存手法はバッチサイズや系列長が大きくなると性能が低下する。
- SOMPは,集約された勾配からのテキスト復元を効率的に行うことで,プライバシー漏洩のリスクを軽減することを目指す。
- SOMPは,集約された勾配からテキストを復元する問題をスパース信号復元問題として捉え,効率的な探索を行う。
- 複数の言語,モデル規模において,既存手法よりも高い性能を示すことが確認された。
- 大規模バッチサイズ(B=128)下でも意味のあるテキストを復元可能であり,プライバシー漏洩のリスクが残存することを示唆する。
マルチモーダルAIエージェントのための先行的計画 [cs.RO, cs.HC, cs.AI]目的:マルチモーダルAIエージェントにおける先行的計画の実現
- AIエージェントの能力向上は,人間とコンピュータのインタラクションやツール利用を改善し,社会に貢献する。
- 既存システムは反応型であり,将来の状態や長期目標を考慮した計画立案が困難である。
- 将来の軌跡予測による先行的推論を通して,複雑なタスク解決能力の向上を目指す。
- TraceR1は,短期的軌跡予測に基づく2段階の強化学習フレームワークである。
- このフレームワークは,予測された行動シーケンス全体の一貫性を強化する報酬を用いて,軌跡レベルの強化学習を行う。
- 7つのベンチマークで,計画の安定性,実行のロバスト性,汎化性能が大幅に向上した。
IOSVLM:口腔内スキャンを用いた統一的な歯科診断のための3Dビジョン言語モデル [cs.CV, cs.AI]目的:口腔内スキャンからの統一的な多疾患診断
- 歯科医療において,豊富な幾何学的証拠を提供する口腔内スキャンの利用が拡大しており,臨床記録とコミュニケーションのための統一的な診断が求められている。
- 既存研究では,2D画像や口腔内スキャンからレンダリングされたマルチビュー画像を用いて歯科VLモデルが提案されているものの,ネイティブな3D幾何学構造を十分に活用できていない。
- 本研究は,複雑な口腔内スキャン形状や疾患の共存,データ不足といった課題を克服し,直接的な3D幾何学構造のモデリングによる診断精度の向上を目指す。
- 提案手法IOSVLMは,点群としてスキャンを表現し,3Dエンコーダー,プロジェクター,LLMのデザインを採用することで,統一的な診断と生成型VQAを実現した。
- 大規模な口腔内スキャン診断VQAデータセットIOSVQA(19,002症例,249,055ペア)を構築し,23種類の口腔疾患と多様なスキャンタイプに対応した。
- 幾何学構造から色情報を推定するプロキシを用いて,3D事前学習データとの分布ギャップを解消し,ロバスト性を高めるための2段階カリキュラム学習戦略を導入した。
保守的な連続時間治療最適化 [cs.LG, q-bio.QM]目的:不規則にサンプリングされた患者データに基づく治療最適化
- 患者の状態変化を捉え,最適な治療方針を決定することは,医療の質向上に不可欠である。
- モデル誤差により,最適化された治療が実際の患者に有効でない場合がある。
- 観測されたデータから外れる治療計画を抑制し,より安全な最適化を実現する。
- 提案手法では,経路空間にSignatureに基づくMMD正則化項を追加し,外挿を抑制する。
- これにより,真のコストの上界を最小化する計算可能な目的関数を導出した。
- ベンチマークデータセット上での実験により,提案手法の頑健性と性能が確認された。
InCoder-32B:産業用途向けコード基盤モデル [cs.SE, cs.AI]目的:産業用途におけるコードインテリジェンスの統合
- 近年のLLMの進歩は目覚ましいが,ハードウェアや制約条件への対応が課題である。
- 汎用プログラミングタスクでは高性能だが,産業分野では性能が著しく低下する。
- チップ設計,GPU最適化等,特殊なドメインにおけるコード生成能力の向上を目指す。
- InCoder-32Bは,14の汎用コードベンチマークと9の産業ベンチマークで高い性能を示した。
- 汎用タスクにおいて競争力のある性能を発揮し,産業ドメインで強力なオープンソースベースラインを確立した。
- 効率的なアーキテクチャと,段階的なコンテキスト拡張,実行検証による学習を実施した。
