arXiv雑要約
AI - 2026/04/29 公開
異方性衝撃優勢および多重尺度パラメータを持つ偏微分方程式に対するシェアレットニューラルオペレーター [cs.MM, cs.LG]目的:異方性衝撃優勢および多重尺度パラメータを持つ偏微分方程式の解オペレーター学習のためのデータ駆動型代替手法
- 偏微分方程式の解法は科学技術計算において不可欠であり,高精度かつ効率的な解法が求められている。
- 従来のフーリエニューラルオペレーターは,異方性構造や不連続性を捉えるのが苦手であり,精度が制限される場合がある。
- シェアレット変換を用いることで,異方性特徴や衝撃波をより効率的に捉え,解精度を向上させることを目指す。
- 提案手法であるシェアレットニューラルオペレーター(SNO)は,7つのベンチマークPDEファミリーにおいて,従来のFNOよりも予測精度と特徴再現性が向上した。
- 特に異方性や不連続性が支配的な設定において,SNOの改善効果が顕著であった。
- シェアレット変換による局所性および方向選択性の向上により,効率的なスペクトル計算を維持しつつ,解精度が向上した。
強化学習はどのように専門家レベルの配置を実現できるか [cs.AR, cs.AI, cs.LG]目的:チップ配置における強化学習の有効性検証
- チップ配置は物理設計の重要な段階であり,性能に大きく影響する。
- 従来の強化学習法は配線長最適化に偏りがちで,専門家レベルのレイアウトに到達できない。
- 本研究は,報酬設計の改善を通じて,強化学習が専門家レベルの配置を達成することを目指す。
- 専門家のレイアウトから直接学習し,報酬モデルを構築するアプローチを提案した。
- 最終的なレイアウトからステップごとの専門家の方策を推論し,潜在的な報酬を学習する。
- 提案手法は単一のデザインから効率的に学習し,未知のデザインにも汎化可能である。
データ不足下における地形学的事前知識と表形式基盤モデルを用いた高精度な土砂災害感受性予測のための知識・データ二重駆動パラダイム [cs.LG]目的:データ不足下での高精度な土砂災害感受性予測
- 土砂災害は地質災害であり,そのリスク評価と軽減は重要な課題である。
- 従来のデータ駆動型手法は大量のデータが必要であり,データ不足の地域では適用が困難である。
- 地形学的事前知識と少量データで高精度な予測を可能にし,データ不足地域での適用を目指す。
- イタリア中央部のデータ豊富な地域において,利用可能な土砂災害データの30%のみで,従来のデータ駆動型手法と同等の予測精度を達成した。
- チベット高原の祁連パーマフロスト地域というデータ極めて不足な環境においても信頼性の高い感受性予測を実現した。
- このパラダイムは,データ不足条件下においても効果的であることが確認された。
AI支援による助成金評価の監査可能性:モデル非公開化との両立 [cs.NI, cs.CR, cs.AI, cs.CY, cs.LG]目的:助成金評価におけるAI利用時の監査可能性確保
- 助成金配分は公共資源の効率的な利用に不可欠であり,公平性と透明性が求められる。
- AIモデルの評価基準が公開されると,申請者が最適化し,本来の評価目的が損なわれる可能性がある。
- AI評価の透明性を保ちつつ,モデルや評価基準の漏洩を防ぐ仕組みを構築すること。
- TEEを活用したアーキテクチャを提案し,外部検証者がモデル,評価基準,入力情報を確認できるようにした。
- 評価バンドルと呼ばれる署名付き記録を作成し,申請書類,入力ハッシュ,モデル測定値を紐づけることで,評価過程の検証を可能にした。
- 申請書類への不正な指示挿入のリスクを考慮し,正規化とサニタイズの層を追加し,安全性を高めた。
カスタムポリシーガードレールの非対称的な議論による合成トレーニング:BARRED [eess.SY, cs.SY, cs.CL, cs.AI, cs.LG]目的:カスタムポリシーガードレールのための高品質な合成トレーニングデータの生成
- LLMの応用範囲拡大に伴い,安全性確保の重要性が増している。
- 汎用的な安全モデルではタスク固有の要件を捉えきれない。
- 高品質な合成データを用いて,効率的かつ正確なカスタムガードレール構築を目指す。
- BARREDは,タスク記述と少数の教師なしデータのみを用いて,信頼性の高い合成トレーニングデータを生成する。
- 生成されたデータでファインチューニングされた小規模言語モデルは,最先端のLLMや専用ガードレールモデルを凌駕する性能を示す。
- 次元分解と議論による検証が,効果的なファインチューニングに必要な多様性とラベルの忠実性を確保する上で重要であることが確認された。
DiRe-RAPIDS:大規模なトポロジー忠実な次元削減 [cs.LG, cs.AI, cs.SE, cs.SI]目的:高次元データの次元削減手法の性能向上
- データの可視化や分析において,高次元データの次元削減は不可欠な技術である。
- 既存の次元削減手法は,ノイズを保持し,データの全体的な構造を歪曲する可能性がある。
- データのトポロジー構造をより忠実に保持する次元削減手法の開発。
- DiReは,ノイズの影響を受けにくく,データのトポロジー構造を正確に再現できることが示された。
- ベンチマークテストにおいて,DiReは分類性能においてGPUアクセラレーションされたUMAPと同等かそれ以上の性能を示した。
- arXiv論文の埋め込みデータを用いた実験で,UMAPと比較して3-4倍多くのトポロジー構造を保持することが確認された。
DATAREEL:アニメーションを用いたデータ駆動型ビデオストーリーの自動生成 [eess.SY, cs.SY, cs.AI]目的:データ駆動型ビデオストーリー生成のためのベンチマークとマルチエージェントフレームワーク
- データ可視化は,複雑な情報を理解しやすくするために不可欠であり,社会におけるデータリテラシー向上に貢献する。
- データに基づいたビデオストーリーの作成には専門知識が必要であり,自動化は困難であった。
- データ駆動型ビデオストーリー生成の自動化に向けた評価基準と効果的なフレームワークを確立すること。
- 本研究では,328の現実世界のストーリーを含むDataReelというベンチマークを新たに提案した。
- 提案するマルチエージェントフレームワークは,自動評価および人間による評価において,直接プロンプティングよりも優れた性能を示した。
- アニメーション,ナレーション,視覚的強調の調整には,依然として課題が残されていることが明らかになった。
ValueAlpha:リターン観測前のLLM評価投資根拠に対する合意ゲート付きストレステスト [cs.DC, cs.AI, q-fin.CP]目的:LLMによる投資根拠の評価の信頼性を判断するための,事前登録された合意ゲート付きストレステストプロトコルであるValueAlphaの開発
- 長期投資判断は,投資品質の最終的な評価がリターンによって行われるが,モデル開発やガバナンスには間に合わないという課題がある。
- LLMを評価者として利用する場合,その評価が金融判断に基づいているかではなく,饒舌さや自信,または評価基準の模倣によって左右される可能性がある。
- LLM評価に基づく投資根拠の主張が公開,資格認定,または無効と判断できる基準を確立し,AI金融システムの評価プロセスを改善すること。
- ValueAlphaは,1,100件の軌跡と5,500件の評価者による判断を含む制御された市場状況下で,集計合意ゲートを\(\bar{\kappa}_w = 0.7168\)でクリアした。
- 低ランクのシステムは同列扱いとなり,制約認識の次元(\(\bar{\kappa}_w = 0.2022\))が次元ごとのゲートに失敗し,単一の評価者によるランキングは系統に依存し,簡潔な正解の根拠は正直な根拠と比較して\(\Delta = -2.81\)の評価点減点を受けた。
- ValueAlphaは,投資スキルを測定するものではなく,AI金融評価のための事前校正計測層として機能し,提案されたLLM評価に基づく投資根拠の主張が安定しており,合意されており,汚染されていないかを判断する。
祈りのための価値に配慮したAI:精神的な文脈における人間とAIエージェントの主体性のバランス [cs.HC, cs.AI]目的:祈りの体験にAIの存在が与える影響の検討
- 現代社会において,精神的な充足や心のケアの重要性が高まっている。
- AI技術の精神的な領域への応用は,倫理的な課題や価値観の衝突を引き起こす可能性がある。
- AIが人間の精神活動を支援する際の,主体性と信頼性の確保が課題となる。
- 祈りの体験において,神との繋がりという「真正性」が重要な価値観であることが示唆された。
- AIが過度に主体的に祈りの実践を誘導すると,その真正性が損なわれると感じられる傾向があった。
- 価値観が強く根付いた体験をデザインするAIは,利用者の主体性を尊重し,解釈の余地を残すべきである。
DRAGON:図表に対する根拠に基づいた視覚的推論のベンチマーク [cs.CV, cs.AI, cs.CL]目的:図表における根拠に基づいた視覚的推論の評価
- 視覚的情報を理解するAIの重要性が増しており,図表の解釈能力は不可欠である。
- 既存モデルは正答率が高いものの,図の根拠に基づいた推論ができているか不明である。
- 図表から正答に至る根拠領域の特定を通して,推論の信頼性と解釈性を向上させる。
- DRAGONは,ChartQA,Circuit-VQA等6つの既存データセットから収集された11,664件の質問インスタンスを含む。
- 評価の結果,最新のVLMsでも,多様な図表領域において根拠領域を特定することが困難であることが示された。
- DRAGONは,図表推論の体系的な評価を可能にし,視覚的根拠に基づいた予測を行うモデルの研究を支援する。
VLMジャッジは順位付けはできるがスコアリングはできない:マルチモーダル評価におけるタスク依存的不確実性 [cs.LG, cs.CL, cs.CV, stat.ML]目的:マルチモーダル評価におけるVLM(Vision-Language Model)ジャッジの信頼性評価
- マルチモーダルシステム評価において,VLMジャッジの利用が一般的になってきている。
- VLMジャッジのスコアだけでは,その信頼性を判断することが困難である。
- VLMジャッジのスコアから信頼区間を導き出し,タスクごとの不確実性を定量化すること。
- VLMジャッジの不確実性はタスクに強く依存し,美観や自然画像のタスクでは信頼区間が狭く,グラフや数学的推論のタスクでは広くなる。
- VLMジャッジは高い順位付け相関を示す一方で,信頼性の低い絶対スコアを生成する「順位付けとスコアリングの乖離」という問題が明らかになった。
- 信頼区間の幅は,主にタスクの難易度とアノテーションの品質に依存することが示された。
高次元不確実性下構造設計のためのベイズアンカー型潜在トラスト領域によるカテゴリカル最適化 [cs.LG]目的:高次元不確実性下における構造設計のためのカテゴリカル最適化手法
- 構造設計において,信頼性の高い設計を実現することは重要であり,不確実性の考慮は不可欠である。
- カテゴリカルな設計変数を扱う場合,離散的な選択肢から最適なものを選択する必要があり,計算コストが高い。
- 既存手法の連続近似と丸め誤差の問題を解決し,物理的実現可能性を維持した効率的な最適化を目指す。
- 提案手法COBALTは,物理カタログを低次元の潜在空間に埋め込み,離散的なグラフ構造として固定する。
- このグラフ構造上で,加法的なSAAS-GP代理モデルを構築し,モンテカルロ有限要素法による評価を効率化する。
- 複雑なバー構造のロバスト設計最適化において,COBALTは物理的実現可能性を維持しつつ,最適化効率を向上させる。
機会以下の盲目性:小規模LLMにおける意図的な低パフォーマンスは,回答回避ではなく位置バイアスを生み出す [cs.CL, cs.AI]目的:小規模LLMにおける意図的な低パフォーマンスの検出メカニズムの解明
- AIの安全性確保において,モデルの能力評価時の不正行為(sandbagging)検出は重要な課題である。
- 能力評価において,意図的な低パフォーマンスを検出する有効な手法が確立されていない。
- 臨床における不正検知手法を応用し,LLMの意図的な低パフォーマンスを検出する可能性を検証する。
- 7-90億パラメータのLLMにおいて,意図的な低パフォーマンスを示す兆候は見られなかった。
- Llama-3-8Bは位置バイアスを利用し,正答の位置に応じて回答分布を偏らせることが示された。
- 位置分布の変化が,意図的な低パフォーマンスを検出するための有効な指標となる可能性が示唆された。
AutoResearchBench:複雑な科学文献探索におけるAIエージェントのベンチマーク [cs.AI]目的:複雑な科学文献探索におけるAIエージェントの性能評価
- 科学研究の進展には,既存知識の探索と検証が不可欠であり,AIによる自動化が期待されている。
- AIエージェントに科学文献を適切に探索させるためには,専門的な知識と詳細な情報利用能力が求められる。
- 本研究は,科学研究に特化したベンチマークAutoResearchBenchを用いて,AIエージェントの文献探索能力を評価する。
- AutoResearchBenchは,特定の論文を追跡する「Deep Research」と,条件を満たす論文を網羅的に収集する「Wide Research」の2つのタスクで構成される。
- 強力なLLMでさえ,Deep Researchでは9.39%,Wide Researchでは9.31%の精度しか達成しておらず,既存のベンチマークを上回る難易度を示す。
- データセットと評価パイプラインを公開することで,今後の研究開発を促進する。
DGLight:DQNによるLLMのGRPOファインチューニングによる交通信号制御 [cs.LG]目的:大規模言語モデルを交通信号制御へ適応させるための,批判者誘導型強化学習フレームワーク
- 都市の交通渋滞緩和と円滑な移動維持において,交通信号制御は重要な役割を担う。
- 従来の強化学習は,報酬がまばらであり,学習に時間がかかるという課題がある。
- 密な状態ごとの監督学習により,従来の課題を克服し,解釈可能な制御を実現する。
- DGLightは,既存のLLMベースのコントローラーの中で最も優れた性能を示した。
- 強化学習の強力なベースラインと比較しても競争力があり,未学習の都市データセットへの転移も可能である。
- 生成された推論は解釈可能であり,選択された信号フェーズと整合していることが確認された。
不確実な環境における動的UGV-UAV協調経路計画 [cs.RO, cs.AI]目的:不確実な道路ネットワークにおける動的UGV-UAV協調経路計画
- 災害対応や緊急物資輸送など,実社会におけるUGVの利用が拡大している。
- 道路状況が部分的に未知である場合,安全かつ効率的な経路計画が課題となる。
- UAVによる環境検査と経路探索の協調により,UGVの安全かつ効率的な移動を実現する。
- 双方向探索戦略が,UGV-UAV協調経路計画において最も優れた性能を示すことが示された。
- 複数のUAVを使用することで,UGVの移動時間をさらに短縮可能であることが確認された。
- UAVの数が増えるほど計算時間は増加するが,全体として効率的な協調経路計画フレームワークが実現された。
確率的決定集合と敵対的損失を持つオンライン組合せ最適化 [cs.LG, stat.ML]目的:確率的な利用可能性を持つ信頼性の低い複合行動への対処を可能にする学習アルゴリズム
- 現実世界の多くの最適化問題では,利用可能な行動が常に固定されているわけではない。
- センサーの故障や在庫切れなど,行動の利用可能性が確率的に変化する場合,既存の学習アルゴリズムは対応が難しい。
- 信頼性の低い複合行動の確率的な利用可能性を考慮した,オンライン組合せ最適化のための効率的な学習アルゴリズムを開発する。
- 提案手法は,Follow-The-Perturbed-Leader予測法に基づき,様々なフィードバック設定に対応できる。
- 新しい損失推定技術である「Asleep Timeのカウント」を用いることで,より正確な学習が可能となる。
- 特に,確率的な利用可能性を持つスリーピングバンディット問題に対する既存アルゴリズムの性能保証を大幅に改善する。
拡散生成モデルにおける時間条件付けの探求:分離されたノイズデータ多様体からのアプローチ [cs.LG, cs.CV]目的:拡散モデルにおける時間条件付けの役割の幾何学的分析
- 拡散モデルは画像生成などで注目されており,その性能向上が求められている。
- DDIMのような決定論的サンプリング法では,時間条件付けがないと性能が低下する問題がある。
- ノイズデータ多様体をフローマッチングに沿うように調整することで,時間条件付けなしで高画質生成を実現する。
- 拡散過程におけるノイズデータ分布は,高次元空間において低次元のハイパーシリンダー状多様体に集中する。
- DDIMの拡散過程を修正することで,時間条件付けなしでも高画質生成が可能となる。
- クラス条件生成においては,クラスを異なる時間空間に分離することで,クラス非条件のノイズ除去モデルでクラス条件合成を実現する。
因果探索のための Schur 補完による最適化不要なトポロジカルソート [cs.LG]目的:因果探索におけるトポロジカルソートの効率化
- 因果関係の発見は,科学的発見や意思決定において重要な役割を担う。
- 従来の因果探索手法は,非凸最適化問題を伴い,計算コストが高く,大規模データへの適用が困難であった。
- スコア関数の Schur 補完を利用することで,最適化問題を回避し,効率的な因果探索を実現する。
- Score-Schur Topological Sort (SSTS) アルゴリズムを提案し,制約付き構造最適化を回避した。
- SSTS は,非線形グラフにおいても d=1000 までの規模で因果構造解析を可能にした。
- 因果探索のボトルネックが最適化から統計的スコア推定に移り,スケーラブルな因果発見の可能性を示唆した。
LegalMidm:韓国大規模言語モデルのためのユースケース駆動型法律分野特化 [cs.CL, cs.CL, cs.AI]目的:韓国の法律分野に特化した大規模言語モデルの構築
- 近年のLLMの急速な発展に伴い,専門分野への応用が期待されている。
- 既存の分野特化型LLMは,実用的な要件を満たしていない場合がある。
- 法律分野における精度と信頼性を重視し,実用的なLLMを開発する。
- LegalMidmは,韓国の法律分野に特化したLLMであり,ユースケースに基づいた高品質なデータセットと最適化された学習パイプラインを用いる。
- 法律専門家との連携や厳格なデータキュレーションを通じて,関連性と事実の正確性を確保している。
- 主要な法律タスクにおいて有効性が示された。
思考ピクセル:マルチモーダル拡散潜在空間における再帰的疎な推論 [cs.HC, cs.CV, cs.AI]目的:マルチモーダル拡散モデルにおける再帰的疎な推論の枠組み
- 拡散モデルは高品質なデータ合成に成功するが,複雑な構造的推論能力には限界がある。
- 言語モデルで進展している潜在的推論や再帰構造を,連続的な視覚トークンを持つ画像生成に適用するのが困難である。
- モジュール化された人間の認知にヒントを得て,拡散モデルに再帰的疎な専門家混合モデルを導入し,推論能力の向上を目指す。
- 提案手法は,ジョイントアテンション層内に再帰的要素を組み込み,効率的なパラメータ共有を実現する。
- ゲートネットワークが視覚トークン,拡散ステップ,条件情報に基づいて専門家モジュールを動的に選択する。
- ImageNetやGenEval,DPGベンチマークにおける評価で,提案手法が画像生成性能を向上させることが示された。
確率的ルール抽出による木構造アンサンブルの効率的な簡略化 [cs.LG]目的:木構造アンサンブルからの解釈可能なルール抽出
- 機械学習において,予測性能と学習効率から木構造アンサンブルが広く利用されている。
- モデル内の木数が増加すると,人間の解釈が困難になるという課題がある。
- 大規模データセットにおける計算コストを削減し,効率的なルール抽出を目指す。
- RCProbは,ディリクレ平滑化とベータ平滑化を組み合わせたナイーブベイズ法を用いることで,データセットの反復スキャンを回避している。
- 33のベンチマークデータセットにおける実験により,RCProbはRuleCOSI+と同等の予測性能を維持しつつ,実行時間を約22倍削減することを示した。
- また,RCProbは平均してよりコンパクトなルールセットを生成する。
QFlash:ビジョンTransformerアテンションにおける量子化とメモリ効率の架け橋 [cs.LG, cs.AI]目的:ビジョンTransformerアテンションにおける,量子化とメモリ効率の改善
- Transformerは画像認識等の分野で高性能だが,計算コストが高い。
- Transformerの量子化はメモリ使用量を減らせるが,数値安定性の問題がある。
- 整数演算のみで効率的なアテンション機構を構築し,高速化と省電力化を図る。
- QFlashは,整数演算のみでFlashAttentionを実現し,Tritonカーネルとして単一に実行される。
- ViT,DeiT,Swinモデルにおける7つのアテンションワークロードで,I-ViTと比較して最大6.73倍,Swinでは最大8.69倍の高速化を達成した。
- FP16 FlashAttentionと比較してエネルギー消費量を18.8%削減し,ViT/DeiTのTop-1精度を維持し,Swinでも競争力のある性能を示した。
忠実性QA:文脈に基づいたRAGモデルの訓練のための反事実的なエンティティ置換データセット [cs.HC, cs.CL, cs.AI]目的:文脈に基づいたRAGモデルの訓練に用いるための,反事実的なエンティティ置換データセット
- 検索拡張生成モデル(RAG)は,外部知識を利用することで,より正確な回答生成が期待されている。
- RAGモデルが,検索された文脈よりも内部知識に基づいて回答を生成してしまう問題がある。
- 文脈を優先的に利用するようにRAGモデルを訓練するためのデータセットを構築すること。
- Faithfulness-QAは,SQuADとTriviaQAを基に,99,094サンプルから構成される大規模データセットである。
- データセットは,文脈内のエンティティを,76,953個のエンティティバンクからタイプが一致する別のエンティティで置換することで作成された。
- これにより,文脈と内部知識の間の意図的な知識の衝突が生じ,モデルに文脈の利用を促す。
カットシーンエージェント:自動3Dカットシーン生成のためのLLMエージェントフレームワーク [cs.AR, cs.GR, cs.AI, cs.CL]目的:自動3Dカットシーン生成
- ゲームやインタラクティブメディアにおいて,物語,キャラクター,感情表現に不可欠である。
- カットシーン制作には,高度な専門性と多岐にわたるチームの連携が不可欠であり,時間とコストがかかる。
- LLMエージェントを活用し,カットシーン制作の自動化と効率化を目指す。
- Cutscene Agentは,LLMエージェントとゲームエンジン間の双方向連携を実現するCutscene Toolkitを構築した。
- ディレクターエージェントが,アニメーション,撮影,音響デザインを専門とするサブエージェントを調整するマルチエージェントシステムを導入した。
- カットシーン生成の評価ベンチマークCutsceneBenchを新たに開発し,LLMの性能を分析した。
R$^3$-SQL: ランク付け報酬とリサンプリングによるテキストSQL変換 [cs.RO, cs.SE, cs.AI, cs.CL]目的:テキストからSQLへの変換におけるランキングと候補再サンプリングの改善
- 自然言語によるデータベース操作は,専門知識不要なデータ分析を可能にするため重要である。
- 既存手法では,機能的に等価なSQLクエリのスコアに一貫性がない場合がある。
- 正しいSQLが候補に含まれていない場合,ランキングのみでは対応が難しい。
- R$^3$-SQLは,実行結果に基づいたグループ化とグループ間のランキングにより,一貫性を向上させた。
- グループのスコアリングには,ペアワイズ比較,グループ内の有用性,候補の質を考慮した報酬関数を用いた。
- エージェントによるリサンプリングにより,正しいSQLが不在の場合でも候補の網羅性を高めた。BIRD-devで75.03%の実行精度を達成した。
モバイルデバイスにおけるLLM適応ドラフト推論のための非同期異種アーキテクチャAHASD [cs.AR, cs.AI]目的:LLMの適応ドラフト推論における効率向上
- 大規模言語モデルの普及に伴い,モバイルデバイスでの高速かつ省電力な推論が重要になっている。
- 従来の同期実行ではアイドル時間が発生し,非同期実行では無駄な計算が生じるという課題があった。
- ドラフト長の変動に対応し,無駄な計算を抑制することで推論効率を最大化することを目指す。
- AHASDは,PIMでの並列ドラフト生成と,単一NPUでの検証を可能にするタスクレベルの非同期異種アーキテクチャである。
- Entropy-History-Aware Drafting ControlとTime-Aware Pre-Verification Controlにより,動的なドラフト管理と事前検証タイミングの最適化を実現する。
- 実験結果から,AHASDはGPUのみのベースラインと比較して,スループットが最大4.2倍,エネルギー効率が5.6倍向上することが示された。
不均衡分類のための統計的に解釈可能な生成パラダイム:VAE-Inf [cs.RO, cs.LG, cs.AI]目的:不均衡分類における生成モデルと識別分類のギャップを埋めるためのフレームワーク
- 機械学習において不均衡分類は頻繁に発生し,特に少数サンプルが少ない場合に困難となる。
- 少数サンプルの不足により,従来のモデルは不安定な決定境界や信頼性の低い誤り制御に陥りやすい。
- 少数サンプルでも誤り制御を可能にする,統計的に解釈可能な分類手法を提案する。
- 本研究では,多数クラスデータのみで学習したVAEを用いて参照分布を構築し,少数クラスサンプルを用いてエンコーダを微調整する。
- 提案手法は,分散正規化射影統計量に基づく損失関数を用いて,クラス間の確率的な分離を強制する。
- 射影に基づくスコアと仮説検定の解釈を導入することで,パラメータ的仮定なしにType-Iエラーを正確に制御することを可能にした。
妥当そうだが誤り:天体物理ワークフローにおけるエージェント的失敗の事例研究 [cs.AR, cs.AI, astro-ph.IM]目的:天体物理ワークフローにおけるエージェント的AIシステムの失敗モードの評価
- 科学研究へのAI導入は加速しており,その信頼性確保が重要である。
- AIエージェントが自信を持って誤った結果を出力する可能性が課題である。
- AIエージェントの失敗パターンを特定し,信頼性評価フレームワークを提供する。
- ドメイン固有のコンテキストにより,One-Shot設定での性能が約6倍向上した。
- Deep Research設定では,物理的に矛盾した結果を自己診断なしに出力する事例が確認された。
- AIエージェントの最も懸念される失敗モードは,明白なエラー信号なしに誤った結果を生成することである。
AI支援テキスト生成における透明性のある帰属提案 [cs.CY, cs.AI]目的:AI支援テキスト生成の透明性確保に向けたモデル
- AI技術の文章作成への浸透は,著作権や責任の所在を曖昧にする。
- 既存の開示方法はAI利用の有無のみで,詳細な介入箇所が不明確。
- AIの介入レベルを詳細に記録し,透明性を高めるモデルの提案。
- 文書,章,節,段落レベルでのAI支援を表現する「ファセットモデル」を提案。
- モデルは「形態,生成,評価」を基本とし,「意図,制御,追跡可能性」を追加。
- 本論文の作成事例を通して,提案モデルの適用可能性を示す。
GraphPL:パッチワーク学習における効率的かつ堅牢なモダリティ補完のためのGNNの活用 [cs.IR, stat.AP, stat.ME, cs.LG, cs.AI]目的:パッチワーク学習におけるモダリティ補完
- 分散マルチモーダル学習の重要性が増している。多様な情報源を統合し,より高度な分析を可能にするため。
- クライアントが全てのモダリティにアクセスできない状況下での学習は困難である。情報が欠損していると,学習性能が低下する可能性がある。
- 観測された全てのモダリティを柔軟に統合し,ノイズに対しても堅牢なモダリティ補完手法を開発する。
- GraphPLは,既存のモダリティ情報を十分に活用できていない問題を解決する。
- GraphPLは,グラフニューラルネットワークとパッチワーク学習を組み合わせることで,高い性能を達成した。
- 電子カルテデータを用いた実験により,GraphPLが強力な下流特徴量を学習し,疾患予測などのタスクを支援することが示された。
構造化出力ベンチマーク:大規模言語モデルにおける構造化出力品質を評価するためのマルチソースベンチマーク [cs.CL, cs.AI]目的:大規模言語モデルの構造化出力品質の評価
- 非構造化データからの構造化データ抽出は,様々な分野で重要性が増している。
- 既存のベンチマークは,スキーマ適合性または単一ソースドメインの値の正確性に焦点を当てている。
- 複数のソースタイプにおける構造化出力能力を公平に比較するためのベンチマークを提供する。
- モデルはスキーマへの適合性はほぼ完璧に達成するが,正確な値の精度はテキストで83.0%,画像で67.2%,音声で23.7%に留まる。
- 音声データでは,長いコンテキストが抽出を困難にすることが示唆された。
- データセット,評価パイプライン,関連コードが公開されている。
連続制御におけるマルチタスク強化学習のためのマルチアクションタンゴールドプログラムグラフ [cs.AI]目的:連続制御環境におけるマルチタスク強化学習のための遺伝的プログラミング手法
- 強化学習は,人間のように行動を通じて学習するため,複雑なタスクの自動化に不可欠である。
- 単一モデルで複数のタスクを学習するマルチタスク強化学習は,汎用的なAIの実現において課題が多い。
- 本研究は,連続制御環境におけるマルチタスク強化学習のための遺伝的プログラミング解法の有効性を示す。
- 提案手法MATPGは,MuJoCo Half Cheetah環境において,複数の障害物回避タスクでMAPLEよりも優れた性能を示した。
- レキシケース選択と組み合わせることで,MATPGはマルチタスク環境においてより高い学習効率を達成できることが示された。
- 進化したグラフ構造は解釈可能性が高く,モデルの意思決定フローを理解することが可能である。
GPT-Image-2の野生における利用:公開開始から最初の1週間の自己申告AI生成画像Twitterデータセット [cs.CV, cs.AI]目的:GPT-Image-2によって生成された画像のTwitterデータセット
- AI生成技術の進展により,写真の現実性と合成コンテンツの区別が困難になっている。
- AI生成画像の拡散状況や社会への影響を把握するためのデータセットが不足している。
- AI生成画像の拡散状況を分析し,社会への影響を評価するための基礎データを提供する。
- GPT-Image-2の公開直後のTwitter/X投稿から,10,217枚のAI生成画像を含むデータセットを構築した。
- データセットは,CLIPベースのゼロショット分類,OCR文字認識,顔検出,セマンティッククラスタリングにより特徴付けられた。
- TwitterのCDNによってC2PAコンテンツクレデンシャルが削除され,AI画像の真正性検証が困難になることが確認された。
オランダ語医療分野における言語コーパス [cs.CL, cs.AI]目的:オランダ語医療分野の言語コーパスの構築
- 自然言語処理の発展には,分野固有の大量のテキストデータが不可欠である。
- オランダ語の医療分野における言語コーパスは不足しており,自然言語処理の開発を阻害している。
- オランダ語医療分野の自然言語処理タスクに利用可能な大規模コーパスを提供すること。
- 本研究により,約350億トークンを含む,1億件の医療文書からなる大規模なオランダ語医療コーパスが構築された。
- 構築されたコーパスはHugging Faceを通じて公開されており,利用が容易である。
- これにより,オランダ語医療分野における自然言語処理モデルの事前学習や下流タスクが可能となる。
継続的脳病変セグメンテーションのための概念推論拡張 (CoRE) [cs.CV, cs.AI]目的:継続的脳病変セグメンテーションにおける概念推論拡張の有効性
- MRIによる正確な脳病変セグメンテーションは,臨床診断と治療計画において不可欠である。
- 既存の継続学習法は,容量制限や冗長なパラメータ増加の問題を抱えており,脳画像特有の多様性に対応が難しい。
- 臨床推論に基づいたモデル成長により,知識の再利用を最大化し,効率的な適応を可能にすることを目指す。
- CoREは,視覚的特徴と構造化された概念を統合することで,解釈可能な専門家ルーティングと需要に基づいたモデル成長を実現する。
- 12の連続的な脳病変MRIタスクにおいて,最先端の性能を達成し,効率的な将来への適応のための高い知識起点を提供する。
- 優れたFew-shot転移可能性と臨床解釈可能性により,非定常な臨床データストリームの管理における有効性が検証された。
安全サポートQ学習:安全でない探索なしでの学習 [cs.AR, cs.ET, cs.LG, cs.AI]目的:強化学習における安全な学習手法
- 実世界での応用では,安全性が重要であり,危険な探索は重大な結果を招きかねない。
- 従来の安全な強化学習は制約や罰則を用いるものの,学習中に危険な状態を探索する可能性がある。
- 学習中の危険な状態への訪問を排除し,安全性を確保することを目的とする。
- 提案手法は,安全な集合でサポートされた行動ポリシーを利用するQ学習ベースのフレームワークである。
- Q関数とポリシーを分離して学習する二段階のフレームワークを採用し,KL正則化されたベルマンターゲットを用いる。
- 実験結果から,安定した学習と校正された価値推定が実現し,既存手法と同等またはそれ以上の性能でより安全な行動を示すことが確認された。
会話における感情認識のための多層話者適応ネットワークML-SAN [cs.SD, cs.AI, eess.AS]目的:会話における感情認識の精度向上
- 人間と機械の共感関係構築には,人間の感情変化を正確に理解することが不可欠である。
- 感情表現は個人差が大きく,既存の感情認識モデルでは多様な表現に対応しきれていない。
- 話者固有の情報を考慮し,感情表現の個人差を捉えることで認識精度を向上させる。
- 提案手法ML-SANは,入力レベルでの調整,インタラクションレベルでのゲート処理,出力レベルでの正則化の3段階適応により,話者情報の混同を効果的に抑制する。
- MELDとIEMOCAPデータセットにおける実験で,ML-SANは既存手法を上回り,特に困難な感情カテゴリの認識性能が向上した。
- ML-SANは,現実世界の多様な話者に対応する能力に優れていることが示された。
AIとの共執筆:多様な学術的執筆ワークフローに関する実証研究 [cs.HC, cs.AI]目的:大学生の学術執筆におけるAIツール利用の実態
- 学術研究においてAI利用が拡大する中で,その影響を理解することは重要である。
- AIツールが学術執筆プロセスにどのように組み込まれているかは未だ不明な点が多い。
- 学生のAI利用パターンを明らかにし,ワークフローを理解することを目的とする。
- AIの統合は選択的かつ多様であり,学習,品質,生産性の3つの優先順位に基づいた構成が見られた。
- 初期段階(学習指向型)では,AIは探求と理解を支援し,後期段階(品質指向型)では,下書きと修正を支援する。
- 周辺段階(生産性指向型)では,AIはプロセス全体の摩擦を軽減し,勢いを維持するために使用される。
偏った夢:潜在空間モデルにおける認識的不確実性量の推定の限界 [cs.LG]目的:潜在空間モデルにおける認識的不確実性量の推定に関する限界
- 強化学習において,環境の理解と効率的な探索は重要であり,モデルに基づく強化学習が注目されている。
- 潜在空間モデルでは,環境の複雑な状態を捉えることが難しい場合があり,モデルの信頼性が課題となる。
- 潜在空間モデルにおける認識的不確実性量の推定のバイアスを明らかにし,その改善を目指す。
- 潜在空間における遷移は,よく表現された領域に偏りがあり,吸引的な振る舞いを示すことが示された。
- 環境のダイナミクスとの不一致が潜在空間に現れず,認識的不確実性の推定の信頼性を損なう可能性がある。
- これらのアトラクタは高報酬領域に位置することが多く,潜在ロールアウトは報酬を過大評価する傾向にある。
JURY-RL:投票による提案,証明による棄却 - ラベルフリーRLVR [cs.AI]目的:ラベルフリーRLVRフレームワークJURY-RLの開発
- 大規模言語モデルの推論能力向上は重要であり,特に検証可能な報酬を用いた強化学習(RLVR)が注目されている。
- 従来のRLVRは人手によるアノテーションや報酬仕様の策定にコストがかかるという課題がある。
- ラベルフリーな手法における誤検出による学習の不安定化を解消し,安定した学習勾配を維持すること。
- JURY-RLは,回答の提案と報酬の決定を分離することで,検証可能な報酬を用いた強化学習の枠組みを構築した。
- 数学データを用いた実験の結果,JURY-RLは他のラベルフリーベースラインよりも数学的推論ベンチマークで一貫して優れた性能を示した。
- コード生成や一般的なベンチマークへの転移も良好であり,教師あり学習と同等のpass@1性能を達成し,優れた汎化性能を示した。
FED-FSTQ:エッジデバイスにおけるLLMの通信効率の良い連合学習ファインチューニングのためのFisher誘導型トークン量子化 [cs.LG, cs.AI]目的:エッジデバイスにおけるLLMの通信効率の良い連合学習ファインチューニング
- LLMの活用範囲拡大のため,プライバシーを保護しつつエッジデバイスでLLMを適応させる技術が重要である。
- 非IID環境下では,均一な圧縮により重要な信号が失われ,通信量が増大するという課題がある。
- トークン重要度に基づく量子化により,通信量を削減し,学習効率を向上させることを目指す。
- Fed-FSTQは,標準的なLoRAベースラインと比較して,固定品質に到達するために必要な累積アップリンクトラフィックを46倍削減した。
- エンドツーエンドの精度達成までの壁時計時間を52%改善した。
- Fisher誘導型トークン削減を推論時に有効にすることで,NVIDIA Jetsonクラスのエッジデバイスでエンドツーエンドの速度を最大1.55倍向上させた。
LLMは具現化された認知と文化的変異を捉えているか:指示代名詞による多言語的証拠 [cs.DC, cs.SY, eess.SY, cs.CL, cs.AI]目的:指示代名詞を用いたLLMにおける具現化された認知と文化的慣習の獲得に関する検証
- 認知科学において,身体経験と文化が思考に与える影響は重要な研究課題である。
- LLMがテキストから具現化された認知や文化的背景をどの程度学習しているかは不明である。
- LLMの具現化された認知と文化理解の能力を,指示代名詞という新たな指標を用いて評価する。
- 英語話者は近指・遠指の区別は行うが,視点転換に苦慮する一方,中国語話者は視点転換は容易だが遠指の曖昧さを許容するという,言語による解釈の非対称性が確認された。
- 対照的に,最先端のLLMは近指・遠指の区別を本質的に理解できず,文化的な違いも見られず,英語中心の推論に陥る傾向があった。
- 本研究は,具現化された認知と文化的慣習を評価するための新たなタスクを提案し,自己中心的・社会中心的視点の共存と,言語による違いを明らかにした。
PI-TTA:物理制約に基づくソース不要テスト時適応による,モバイルデバイス上でのロバストなヒューマンアクティビティ認識 [cs.AI]目的:モバイルデバイス上でのロバストなヒューマンアクティビティ認識のためのテスト時適応手法
- モバイルデバイスの普及により,ウェアラブルセンサを用いた活動認識の重要性が増している。
- センサデータは時間相関が強く,センサの回転や設置場所の変化により,性能が不安定になりやすい。
- ストリーミング環境下での適応の安定性を向上させ,認識精度と信頼性を高めることを目指す。
- 提案手法PI-TTAは,重力一貫性,短期時間継続性,スペクトル安定性という物理制約に基づき,オンライン更新を安定化させる。
- 実験結果から,PI-TTAは既存手法と比較して,長系列データにおける認識精度を最大9.13%向上させることが示された。
- また,物理的制約違反率を最大45.4%削減し,実世界でのモバイルセンシングシステムの信頼性を高めることが確認された。
生成UIによるアクセシビリティの架け橋:C2C電子商取引からの教訓 [cs.CL, cs.CL, cs.HC, cs.AI, cs.CY]目的:ユーザー生成コンテンツ環境におけるアクセシビリティ向上策
- ウェブアクセシビリティは,情報へのアクセスを保障し,多様なユーザーを包摂する上で不可欠である。
- ユーザー生成コンテンツでは,標準化されたアクセシビリティ対応が難しく,情報の取得が困難になりやすい。
- 生成UIを活用することで,動的な環境変化に対応し,アクセシビリティのギャップを埋めることを目指す。
- 生成UIは,既存のアクセシビリティ基準を補完し,ユーザーに合わせたインターフェースを生成できる可能性を示す。
- スクリーンリーダー向けのHTML再生成,高齢者向け対話型ガイダンス,視覚障碍者向け音声ガイド写真撮影支援などの介入実験により,その有効性が確認された。
- 本研究は,デザイナーの役割がレイアウトの指定からポリシーの指定へと変化することを示唆する。
LLMベースのレコメンデーションにおける言語バイアスの調査 [cs.CL, cs.AI]目的:LLMベースのレコメンデーションにおける言語バイアス
- 大規模言語モデルの活用が進む中,レコメンデーションシステムの公平性が重要視されている。
- 言語使用の多様性により,レコメンデーションに意図せぬ偏りが生じる可能性がある。
- 異なる言語環境下でのLLMのレコメンデーション挙動を明らかにすること。
- 本研究の結果,方言がレストラン選択に影響を与えることが示された。特にMistral Small 3.1やLlama 3.1モデルは,インド英語やコードスイッチングされたプロンプトに対して敏感であった。
- 製品レコメンデーションにおいては,Llama 3.1-70Bモデルがコードスイッチングされたプロンプトに特に敏感であり,カテゴリによって異なる傾向が見られた。
- モデルサイズによる顕著な傾向は認められず,方言の種類によって推奨される製品が変化することが示唆された。
進化的多目的最適化における停止基準のベンチマーク [cs.NE]目的:進化的多目的最適化のための停止基準の性能評価手法
- 多目的最適化は,複雑な現実の問題解決に不可欠であり,効率的な手法が求められている。
- 停止基準は重要だが,進化的多目的最適化分野での研究は停滞しており,効果的な評価方法が不足している。
- 停止基準の性能を客観的に評価し,開発を促進するためのベンチマーク手法を提案すること。
- 停止基準の性能を単一の指標で定量化する手法を提案し,比較を容易にした。
- ファイルベースのベンチマーク手法を提案し,再現性を高め,評価プロセスを簡素化した。
- 集団の状態を効率的にテキストファイルに保存するデータ表現方法を提案し,ファイルサイズの問題を解決した。
異種データ下における効率的な連合学習のための部分空間最適化 [cs.LG, math.OC]目的:異種データ環境下での連合学習効率向上
- 連合学習は,データプライバシー保護に貢献する重要な技術であり,活用が拡大している。
- クライアント間のデータ分布の非一様性が,学習の安定性と性能を低下させる課題がある。
- 部分空間最適化により,通信・メモリ負荷を軽減しつつ,学習性能を維持することを目指す。
- 提案手法(SSF)は,低次元部分空間での最適化により,既存手法よりも通信・メモリ効率を向上させる。
- SSFは,滑らかさと分散の制限された仮定の下で,非漸近収束率$\widetilde{\mathcal{O}}(1/T+1/\sqrt{NKT})$を達成する。
- 異種データ下での実験により,精度と効率性のトレードオフが良好であることが示された。
SciEval:K-12理科教材の自動評価ベンチマーク [eess.SY, cs.SY, math.OC, math.ST, stat.TH, cs.AI]目的:K-12理科教育における教材評価の自動化
- 教育現場で生成AIを活用する教材が増加しており,その質を担保する評価が重要となっている。
- 教材評価は時間と専門知識を要し,規模拡大が困難であるという課題がある。
- LLMを活用した教材評価の性能と信頼性を検証し,自動評価の実現を目指す。
- 本研究で構築したSciEvalデータセットは,理科教材の評価基準に合致したアノテーションを含む。
- GPT,Gemini,Llama,QwenなどのLLMはSciEvalにおいて十分な性能を示さなかった。
- SciEvalでQwen3をファインチューニングすることで,最大11%の性能向上が確認され,ドメイン特化型ファインチューニングの重要性が示された。
DDA-Thinker:推論駆動型画像編集のための解結合型二原子強化学習 [cs.CV, cs.AI]目的:推論に基づいた画像編集のための計画立案能力の調査と強化
- 画像編集技術は進歩しているが,複雑な推論を要するタスクは依然として課題である。
- 既存のモデルは,視覚的な忠実度が高い反面,高度な推論能力に欠ける場合がある。
- 計画モジュールと生成モデルを分離し,強化学習を用いることで推論能力を向上させる。
- 提案手法DDA-Thinkerは,計画モジュール(Thinker)と生成モデル(Editor)を分離したフレームワークである。
- 二原子強化学習により,Thinkerの実行計画の質と最終的な画像品質をそれぞれ評価する。
- RISE-BenchとKRIS-Benchにおける実験で,本手法が全体的な性能を大幅に向上させることが示された。
