arXiv雑要約
AI - 2025/10/13 公開
BigCodeArena:コード生成における信頼性の高い人間の選好を,実行を通して明らかに [cs.SE, cs.AI, cs.CL]目的:コード生成における人間の選好データの収集と分析
- 大規模言語モデル(LLM)の性能評価において,人間の評価は重要である。特にコード生成では,専門知識が求められる。
- コードの品質評価は難しく,コードの理解と実行シミュレーションが必要となるため,効率的な評価方法が課題である。
- 実行環境を用いて人間の選好を収集し,コード生成モデルの理解度と生成能力を評価するベンチマークを構築する。
- BigCodeArenaは,LLMが生成したコードを実行可能とし,人間がその結果を評価するプラットフォームである。
- 14,000件以上の会話セッションと4,700件以上のペアワイズ選好データが収集され,LLMの細分化された特性が明らかになった。
- 実行結果に基づく報酬モデルは,人間の選好と高い一致性を示し,AutoCodeArenaによる自動評価の有用性が示された。
ConPoSe:LLM誘導による接触点選択を用いたスケーラブルな協調物体押し出し [cs.CL, cs.RO, cs.AI]目的:協調物体押し出しのための接触点選択
- 様々な分野で物体輸送は重要であり,特に複雑な環境下での効率的な輸送手段が求められている。
- 多数のロボットと大きな物体を扱う場合,接触点選択の計算量が指数関数的に増加し,スケーラビリティが課題となる。
- LLMの推論能力と局所探索を組み合わせることで,効率的な接触点選択を実現し,スケーラビリティ問題を解決する。
- 提案手法ConPoSeは,直方体,円柱,T字型など様々な形状の物体に対して,適切な接触点を選択できることを示した。
- ConPoSeは,解析的な手法と比較して,ロボット数と物体サイズの増加に対するスケーラビリティが向上することが確認された。
- また,ConPoSeは,LLMのみを用いた選択手法よりも高い性能を発揮することが示された。
非定常MIMO等化におけるインコンテキスト学習 [cs.CL, cs.LG, cs.AI]目的:非定常MIMO等化におけるインコンテキスト学習の能力評価
- 無線通信において,周波数選択性フェージングやシンボル間干渉の軽減は重要課題である。
- 従来の等化手法は,環境変化に追従するため再学習が必要であり,コストがかかる。
- インコンテキスト学習による,再学習なしでの環境変化への適応能力向上を目指す。
- インコンテキスト学習が非定常MIMO等化に有効であることが実験的に示された。
- 適応信号処理のアルゴリズムに着想を得たアテンション機構が,適応性と性能を向上させる。
- 本研究は,次世代ワイヤレス基盤モデルの適応性と堅牢性を高めるための洞察を提供する。
統一された世界モデル:視覚ナビゲーションのためのメモリ拡張計画と予測 [cs.AI, cs.CV, cs.RO]目的:視覚ナビゲーションにおける未来状態の想像の有効性
- ロボットの自律的な行動において,環境を理解し予測する能力は不可欠である。
- 既存手法は計画と世界モデルが分離しており,状態と行動のずれが生じやすい。
- 視覚的な予測と計画を統合し,よりロバストで適応性の高いナビゲーションを実現する。
- UniWMは,単一のマルチモーダル自己回帰バックボーンで視覚的な予測と計画を統合している。
- UniWMは,予測と制御の間の整合性を高め,ナビゲーションの成功率を最大30%向上させた。
- 新しいデータセット(TartanDrive)に対するゼロショット汎化能力も高く,軌跡誤差も大幅に減少した。
意味ペアを用いた自己教師あり学習の強化:新しいデータセットと実証研究 [cs.CL, cs.LG, cs.AI]目的:意味ペアを活用することで自己教師あり学習の汎化性能向上
- 画像認識において,大量のラベルなしデータから特徴量を学習する自己教師あり学習が重要視されている。
- 既存手法はデータ拡張に頼るため,網羅的な変換が難しく,未知のデータへの汎化性能が課題となっている。
- 意味的に関連する画像ペアを用いることで,多様なシーン下での特徴学習を促し,汎化性能の向上を目指す。
- 意味ペアデータセットを構築し,実験によりその有効性を検証した結果,多様な下流タスクにおいて性能が向上した。
- 意味ペアは,データ拡張だけでは捉えきれない実世界の多様な状況をモデルに学習させる効果があることが示された。
- 本研究は,データ拡張の限界を克服し,より汎化性能の高い自己教師あり学習を実現するための新たな方向性を示す。
反実仮想的な公平性を考慮した共形予測 [cs.DL, cs.CY, cs.LG]目的:反実仮想的な公平性を満たす予測集合の生成
- 不確実性下での公正な意思決定において,予測集合の公平性が重要となる
- 従来の共形予測は分布に依存せず有効だが,反実仮想的な公平性を保証しない
- 予測集合における反実仮想的な公平性を確保し,信頼性も維持することを目的とする
- 反実仮想的な公平性を考慮した共形予測(CF-CP)を提案し,予測集合の公平性を数学的に証明した
- 合成データおよび実データを用いた実験により,CF-CPが期待される公平性とカバレッジ率を達成することを示した
- CF-CPは,予測集合のサイズを最小限に抑えつつ,訓練を必要としない簡便な手法である
Neptune:GPUにおける局所性と並列性を実現する高度なMLオペレータ融合 [cs.PL, cs.LG]目的:深層学習オペレータの高度な融合
- 深層学習の計算効率向上の鍵となる技術であり,特に大規模モデルで重要性が増している。
- ループ依存性を持つ複雑な削減計算(アテンション機構など)の融合が困難であった。
- 既存の依存関係を意図的に崩し,代数的な補正式で正しい結果を得る手法を確立する。
- Neptuneは,Triton,TVM,FlexAttentionを含む既存のコンパイラを上回り,FlashAttention実装よりも優れた性能を示した。
- 10種類の注意機構ベースのベンチマークで,平均1.35倍の高速化を実現した。
- NVIDIAとAMDの4種類のGPUアーキテクチャで有効性が確認された。
構造化出力正則化:少数のサンプルを用いた転移学習のためのフレームワーク [cs.CV, cs.LG, stat.ML]目的:少数のサンプルを用いた転移学習のためのフレームワーク
- 転移学習は,既存の知識を活用し,少ないデータで高性能なモデルを構築する上で重要である。
- 従来の転移学習では,過学習のリスクや,ドメイン固有の特徴への適応能力の限界が課題となっていた。
- 本研究では,モデルの構造を固定しつつ,正則化によって特定のデータに適応させることで,これらの課題を解決する。
- 構造化出力正則化(SOR)は,既存のネットワーク構造を固定しつつ,グループLassoとL1ペナルティを組み合わせることで,少ないパラメータでデータに適応する。
- 医療画像分類の少サンプルタスクにおいて,DenseNet121やEfficientNetB4を基盤として,既存のベンチマークと比較して競争力のある結果が得られた。
- SORは,様々なネットワーク構成要素に適用可能であり,幅広い転移学習タスクへの応用が期待できる。
言語モデルのマイクロベンチマークはどこまで信頼できるか [cs.CL, cs.LG]目的:言語モデルのマイクロベンチマークの信頼性評価
- 言語モデルの開発は計算コストが大きく,効率的な評価手法が求められている。
- マイクロベンチマークは評価コストを削減するが,その信頼性に課題がある。
- マイクロベンチマークのサイズと信頼性のトレードオフを定量的に評価する。
- マイクロベンチマークは,フルベンチマークと同程度にモデルをランク付けできない場合が多い。
- モデル間の性能差が小さい場合,マイクロベンチマークのサイズが250サンプル程度必要となる。
- 8BモデルのMMLU-Proマイクロベンチマークでは,ペアワイズ比較の半数以上が再現されない。
推論のタイミング:vLLMのための意味的ルーター [cs.ET, cs.AI, cs.CL, cs.SY, eess.SY]目的:推論要求に基づくクエリの分類
- 大規模言語モデルの活用が広がる中で,精度と効率の両立が重要である。
- 推論は計算コストが高く,すべてのクエリに適用するには無駄が生じる場合がある。
- クエリに応じて推論を動的に選択し,効率性と精度のバランスを取ることを目指す。
- 意味的ルーターは,MMLU-Proベンチマークにおいて10.2%の精度向上を達成した。
- 応答遅延は47.1%削減され,トークン消費量は48.5%削減された。
- この結果は,意味的ルーティングがオープンソースLLMの効率的な運用に有効であることを示している。
プロンプトを重みに変換する [cs.LG]目的:大規模言語モデルの内部状態操作による制御メカニズムの理論的基盤
- 大規模言語モデルの挙動制御は,AI応用の信頼性と安全性を高める上で重要である。
- 既存手法は経験則に頼ることが多く,理論的な裏付けが十分ではない。
- プロンプト情報を再利用可能な重み更新に変換する原理的な方法を確立する。
- 本研究は,プロンプトの影響を数学的に重み更新として表現する理論を多層Transformerに拡張した。
- プロンプト情報をトークンに依存しない思考ベクトルと思考行列に凝縮する方法を導出した。
- 既存のベクトル・行列ベースのモデル編集手法を理論的に説明し,計算に基づいた新たな手法を提供する。
SHAPに基づく教師ありクラスタリングによるサンプル分類と汎用ウォーターフォールプロット [cs.LG, stat.ME, stat.ML]目的:サンプル分類と予測根拠の理解
- データ量の増加に伴い,複雑なモデルの利用が増加している。
- ブラックボックスモデルは予測過程の説明が難しく,信頼性が課題である。
- SHAP値のクラスタリングにより,予測理由の共通性に着目した分析を可能にする。
- SHAP値のクラスタリングにより,同じ予測に至ったサンプルの共通する理由を可視化した。
- アルツハイマー病データを用いた事例研究により,本手法の有効性を示した。
- 多クラス分類に対応したウォーターフォールプロットの拡張版を提案した。
複雑なアンサンブル時系列予測に対する忠実かつ解釈可能な説明:代理モデルと予測可能性分析 [cs.LG]目的:複雑なアンサンブル時系列予測の説明性と予測可能性の向上
- 時系列予測は,需要予測や経済予測など,様々な分野で重要な役割を担う。
- AutoMLによる複雑なアンサンブルモデルは高精度だが,解釈可能性が低いという課題がある。
- 予測の信頼性と説明の妥当性を評価するための指標を提供する。
- 代理モデル(LightGBM)を用いることで,AutoGluonの予測を忠実に再現し,安定したSHAP値ベースの特徴量重要度を算出できる。
- スペクトル予測可能性分析により,時系列データの予測可能性を定量化し,予測の信頼性を評価できる。
- スペクトル予測可能性の高さは,予測精度と代理モデルの忠実度との正の相関関係にあることが示された。
文脈からの座標:LLMを用いた複雑な位置参照の地理的配置 [cs.CL, cs.AI]目的:複雑な位置参照の地理的配置
- 非構造化テキストの分析において,位置情報を地理的座標に変換する地理符号化は不可欠である。
- 複合的な位置参照の地理符号化は難易度が高く,既存手法では十分な性能が得られていない。
- LLMの地理空間に関する知識と推論能力を活用し,複合的な位置参照の地理符号化精度向上を目指す。
- LLMの地理空間知識と推論能力を評価した結果,LLMが地理符号化において有効であることが示された。
- 提案手法は,既存手法と比較して地理符号化の性能が向上することを確認した。
- 小規模なファインチューニング済みLLMでも,大規模なモデルと同等の性能を達成できることが示された。
グラフ拡散Transformerは文脈内分子設計者である [cs.LG, cs.AI]目的:分子設計における文脈内学習の適用
- 創薬や材料開発において,目的とする特性を持つ分子の効率的な探索が重要である。
- 既存の分子データベースでは,特定の特性に対するラベル付きデータが不足しているという課題がある。
- 少ないサンプルから目的特性に合致する分子を生成する,新しい分子設計手法を開発する。
- 本研究で開発されたDemoDiffは,大規模言語モデルを凌駕する性能を示し,分子設計の新たな基盤モデルとなりうる。
- 分子をモチーフレベルで表現する新しいトークナイザーにより,モデルの計算効率が大幅に向上した。
- 多様なデータソースから構築された大規模な文脈タスクデータセットを用いて,効果的な事前学習を実現した。
表形式データのランダムフォレストに基づく外れ値検出(RFOD) [cs.LG, cs.DB]目的:表形式データにおける外れ値検出手法
- サイバーセキュリティ,金融不正検出,医療など,重要分野においてデータ品質維持は不可欠である。
- 既存手法は,混合型データに対応できず,重要な意味情報を失う場合が多い。
- 本研究は,解釈可能性の高い,表形式データ向けの外れ値検出手法を提案する。
- 提案手法RFODは,特徴量ごとの条件付き再構成問題として外れ値検出を行う。
- RFODは,異種データ型に対応しつつ,カテゴリカル特徴の整合性を維持する。
- 15の現実世界のデータセットで,最先端の手法と比較して高い検出精度と解釈性を示した。
共形リスク学習:共形リスク制御の端点間最適化 [cs.LG]目的:共形リスク制御の最適化
- 深層学習の信頼性確保は,医療や金融など,高度な応用において不可欠である。
- 従来の深層学習モデルは,リスクや信頼性に関する保証を提供できない。
- テールリスクを含む広範なリスク指標を制御し,平均性能を向上させる。
- 本研究では,期待損失やCVaRを含む最適化された確実性等価リスク(OCE)を制御する手法を開発した。
- モデルの学習中に共形OCEリスク制御を通して微分を行う「共形リスク学習」を提案し,平均性能の低下を抑制した。
- 誤検出率の制御やバッテリーの運用における金融リスク制御において,既存手法を上回る性能を示した。
連合学習における大規模言語モデルのクライアント間学習データ記憶の探求 [cs.LG, cs.CL]目的:連合学習における学習データの記憶に関する定量化
- プライバシー保護が重要視される中,分散環境での機械学習のニーズが高まっている。
- 連合学習では,データ共有を伴わないため,学習データ記憶のリスクが残存する。
- クライアント間での記憶を定量化し,記憶に影響する要因を特定することを目的とする。
- 提案手法により,連合学習におけるクライアント内およびクライアント間の記憶を定量化できることが示された。
- モデルはクライアント内のデータよりもクライアント間のデータを記憶しにくい傾向が明らかになった。
- デコーディング戦略やプレフィックス長などの推論要素が記憶に影響を与えることが示唆された。
LLMを用いたロバストなヒューリスティックアルゴリズム設計 [cs.NI, eess.SP, cs.RO, cs.RO, cs.SY, eess.SY, cs.AI, cs.CL, cs.NI]目的:ロバストかつ高性能なヒューリスティックの生成
- 探索問題解決において,効率的なヒューリスティックは重要である。最適解への迅速な導引に貢献する。
- 既存のヒューリスティック設計手法は,汎化性能に課題があり,特定のケースで性能が低下しやすい。
- LLMを活用し,ヒューリスティックの弱点分析と改善を繰り返すことで,よりロバストなアルゴリズムを開発する。
- LLMにヒューリスティックが性能を発揮できない事例を提示し,その原因を説明することで,既存手法を上回る性能のヒューリスティックが生成された。
- 生成されたヒューリスティックは,FunSearchと比較して最悪ケースのパフォーマンスが約28倍向上し,平均パフォーマンスも改善された。
- ヒューリスティック生成時の実行時間も維持され,効率性と効果の両立が確認された。
量子化訓練のための最適化地形の平滑化:LOTION [cs.LG, cs.AR]目的:量子化された目的関数に対するニューラルネットワークの最適化
- ニューラルネットワークの効率化において,量子化はモデルサイズと計算コストを削減する重要な手法である。
- 量子化は区分的に定数であるため,勾配が定義されない点が多く,最適化が困難であるという課題がある。
- ノイズによる平滑化を通じて,量子化された損失面を連続的な損失面に近似し,収束性を保証する。
- 提案手法LOTIONは,標準的な量子化認識訓練(QAT)と比較して,合成テストベッドや大規模言語モデルにおいて優れた性能を示す。
- LOTIONは,確率的丸めノイズを用いた期待値で量子化損失を置き換えることで,最適化の安定性を向上させる。
- 理論的に,標準的な最適化アルゴリズムが損失面の局所的最小値に収束することが保証される。
SAFER-AiD:眼球運動に着想を得た敵対的防御のための焦点-周辺視野強調再構成 [cs.CV, cs.AI]目的:敵対的攻撃に対するロバスト性を向上させる再構成手法の開発
- 深層学習モデルの安全性確保は,実世界への応用において重要である。敵対的攻撃は深刻な脅威となり得る。
- 従来の防御法は計算コストが高く,既存システムへの統合が困難な場合がある。生物学的メカニズムの活用が求められている。
- 人間の視覚システムに着想を得て,再構成処理による敵対的ノイズの軽減とロバスト性の向上を目指す。
- 提案手法は,眼球運動を模倣したサッカードによる焦点-周辺視野の情報を統合し,画像再構成を行うことで,敵対的ノイズの影響を抑制する。
- ImageNetデータセットでの実験により,多様な分類器と攻撃手法に対してロバスト性が向上することが示された。
- 本手法は,既存の分類器の再学習やファインチューニングを必要とせず,学習オーバーヘッドを大幅に削減する。
空間的交絡因子除去器:空間的因果推論のための干渉を考慮した交絡除去 [cs.LG, stat.ML]目的:空間的因果推論における交絡と干渉の問題解決
- 空間データ分析は,環境や社会現象の理解に不可欠であり,政策立案に貢献する。
- 空間データには,未測定の空間因子や近隣効果による干渉が伴い,正確な因果推論を困難にする。
- 干渉が潜在的な交絡因子の構造を明らかにする点に着目し,よりロバストな因果推論を目指す。
- 提案手法「空間的交絡因子除去器」は,条件付き変分オートエンコーダを用いて潜在的な交絡因子を再構築する。
- これにより,複数の治療タイプや交絡因子モデルを必要とせず,直接効果と波及効果を非パラメトリックに識別できる。
- 実際の環境衛生および社会科学データセットにおいて,効果推定の精度が向上することが確認された。
強化学習に基づくCT撮像・再構成パラメータの最適化:仮想イメージング試験によるアプローチ [cs.LG]目的:CT撮像・再構成パラメータの最適化
- CT画像診断において,高画質と被ばく線量の低減を両立することが重要である。
- 撮像・再構成パラメータ間の複雑な相互依存関係から,従来法は網羅的なテストに依存し,非効率である。
- 仮想イメージングと強化学習を組み合わせ,CTプロトコルの効率的な最適化を目指す。
- 提案手法は,検出指標d'を最大化する強化学習エージェントを用いてCTプロトコルを最適化する。
- 従来法である網羅的探索と比較して,79.7%少ないステップ数で同等のd'を達成した。
- 本フレームワークは汎用性が高く,様々な画質評価指標に対応可能である。
強化学習におけるバッキンガムのπ定理を用いたゼロショットポリシー転移 [cs.LG, cs.RO]目的:強化学習ポリシーの転移手法
- ロボットの多様化により,異なる物理パラメータを持つ環境への適応が重要となっている。
- 従来の強化学習ポリシーは,異なるロボットや環境への汎化性能が課題である。
- 物理パラメータが異なる環境でも,再学習なしにポリシーを転移させることを目指す。
- バッキンガムのπ定理に基づき,無次元化された空間で入力と出力をスケーリングすることで,ゼロショット転移を実現した。
- 動的に類似した環境では,転移後の性能劣化は見られず,類似していない環境でも単純な転移よりも優れた性能を示した。
- 次元解析が,強化学習ポリシーのロバスト性と汎化性能を向上させる強力なツールとなり得ることを示した。
利益と遅延の優先順位付け:5GネットワークスライスのDRLベースの加入制御 [cs.NI, cs.LG, cs.PF]目的:5Gネットワークスライスの加入制御とリソース配分
- 5Gは多様なサービスを可能にするが,QoS要件を満たしつつNSPの利益を最大化する必要がある。
- 既存のDRLフレームワークは利益最適化に偏っており,遅延を考慮しないためQoS違反のリスクがある。
- 遅延を考慮した加入制御により,遅延に敏感なスライス(URLLC等)のQoSを向上させる。
- 提案手法DePSACは,遅延を考慮した報酬関数により,URLLCのような遅延重視のスライスを優先する。
- Boltzmann探索を採用することで,より滑らかで迅速な収束を実現する。
- シミュレーション結果から,DePSACは全体的な利益,URLLCスライスの遅延削減,受け入れ率,リソース消費において,既存手法を上回ることが示された。
熱画像,事前学習済み深層学習モデル,およびロボットプラットフォームを用いた漏洩検知 [cs.CV, cs.LG, cs.RO]目的:漏洩検知システム
- 安全確保は重要であり,迅速な漏洩検知は事故防止に不可欠である。
- 従来の漏洩検知は,環境条件に左右されやすく,リアルタイム性に課題があった。
- 様々な環境下で,高速かつ高精度な漏洩検知を実現すること。
- RGB画像と熱画像を用いた事前学習済み深層学習モデルにより,漏洩の有無を高精度に分類できることを示した。
- 熱画像を用いたモデルは,推論速度,精度,モデルサイズにおいて優位性を示す。
- VGG19やNasNetMobile等の軽量モデルで100%の精度を達成し,実用的なシステム構築の可能性を示唆した。
構造を意識したエンコーディング:言語埋め込みの可能性 [cs.LG, cs.AI, cs.CL]目的:構造を意識したテキスト埋め込みの生成
- 言語モデルの埋め込みは多くの応用に不可欠。文脈情報を考慮することで性能向上が期待される。
- 既存モデルは生のテキストのみ処理し,ハイパーリンクや引用といった構造情報を活用できていない。
- 言語モデルの内部エンコーディングに構造的関係を直接組み込むことで,より高性能な埋め込みを生成する。
- 構造を意識したアプローチは,テキストのみの場合や後処理による手法と比較して,一貫して高い性能を示した。
- 逐次連結はノイズが多く中程度の長さの文脈で優位に立ち,並列キャッシュは長文でスケーラビリティに優れる。
- 文脈蒸留と意味的バランスというノイズ除去手法が有効であることが示された。
AI自動ビデオキーフレーム抽出によるカカポの再識別 [cs.CV, cs.AI]目的:カカポの再識別
- 野生動物個体群モニタリングにおいて,個体識別は不可欠であり,保全活動の根幹をなす。
- 従来の足環装着等の手法は時間と労力を要し,動物に負担をかけるという課題がある。
- AIを活用し,非侵襲的かつ効率的な個体識別手法を確立することで,モニタリングの精度向上を目指す。
- 提案手法によるキーフレーム抽出は,カカポの再識別において高い精度を実現した。
- YOLOやGrounding DINO,DINOv2等のAI技術を組み合わせることで,効果的なキーフレーム選択を可能にした。
- 本研究は,多様な環境下でのデータ収集においても応用可能な,新たな野生動物モニタリング手法の基盤となる。
多言語能力におけるLLMの倫理的応答の測定 [cs.CL, cs.AI]目的:多言語におけるLLMの倫理的応答の正確性と一貫性
- LLM利用の拡大に伴い,多言語対応の倫理的課題への対応が不可欠である。
- 多言語におけるLLM応答の評価基準やベンチマークデータセットが不足している。
- 言語の違いがLLM応答に与える影響を評価し,改善策を提案すること。
- GPT-5は全カテゴリで最も高い平均スコアを示し,優れた性能を発揮した。
- Gemini 2.5 Proは,同意と自律性,危害防止と安全性において低いスコアを示した。
- 言語変化がLLM応答に与える影響のさらなる検証と,各カテゴリの改善が必要である。
大規模言語モデルによる観測の拡張を通じた強化学習における探索の誘導 [cs.HC, cs.LG, cs.AI]目的:強化学習における探索の改善
- 強化学習は,複雑なタスクの自動化に不可欠だが,報酬が疎な環境での探索が課題となる。
- 従来の探索戦略は,効果的な行動系列の発見に苦戦し,学習効率が低い場合がある。
- 大規模言語モデルの知識を活用し,強化学習エージェントの探索を効率化することを目指す。
- 提案手法では,大規模言語モデルが生成した行動推薦を拡張された観測空間を通じて提供し,エージェントが柔軟に指示に従うか無視するかを学習する。
- BabyAI環境を用いた実験の結果,タスクの難易度が増すにつれて,大規模言語モデルのガイダンスによる利点が大きくなることが示された。
- 最も難しい環境では,最終的な成功率がベースラインと比較して71%向上し,サンプル効率も大幅に改善された。
関数近似のためのニューラルネットワークの重み初期化 [cs.LG, cs.NA, math.NA]目的:関数近似におけるニューラルネットワークの効率的な学習手法
- 科学計算や機械学習の発展において,ニューラルネットワークによる関数近似は重要な役割を担っている。
- 従来の学習では,関数ごとにモデルを最初から学習する必要があり,アーキテクチャ選択やハイパーパラメータ調整が難しい。
- 本研究は,事前学習による再利用可能な初期化フレームワークを通して,学習効率と汎化性能の向上を目指す。
- 基底関数を用いた事前学習に基づく初期化フレームワークが,学習効率とモデルの転移性を大幅に改善することを示した。
- 参照ドメインへのドメインマッピング機構を導入することで,任意のドメインへの適応性を高めることに成功した。
- 一次元および二次元の数値実験により,スケーラブルでモジュール式のニューラル関数近似の可能性が示された。
UIの審判としてのMLLM:ユーザーインターフェースの人間知覚を予測するマルチモーダルLLMのベンチマーク [cs.HC, cs.AI]目的:ユーザーインターフェースの人間知覚予測におけるマルチモーダルLLMの性能評価
- UIデザインにおいて,ユーザーリサーチは重要だが,初期段階ではリソースが限られることが多い。
- 既存研究では,特定のドメインに偏り,クリック数などの行動指標に焦点を当てている。
- 多様なインターフェースにおける主観的なユーザー評価をMLLMで再現し,UXリサーチを支援する。
- MLLMは一部のUI要素において人間の嗜好を近似するものの,他の要素では乖離が見られた。
- GPT-4o,Claude,Llamaの3モデルを30のインターフェースでベンチマークし,人間判断との整合性を検証した。
- MLLMは初期UXリサーチを補完する可能性を持つ一方で,限界も示唆された。
COMPASS:進化するコンテキストによるエージェントの長期的推論能力の向上 [cs.AI, cs.CL]目的:エージェントにおける長期的な推論と複数ツールの連携
- 複雑なタスク遂行において,LLMエージェントの活用が期待されている。
- 長期的なタスクでは,エラーの累積や一貫性の欠如が課題となっている。
- コンテキスト管理の改善により,推論の精度と効率性を高める。
- COMPASSは,戦術的実行,戦略的監視,コンテキスト管理を分離した軽量な階層的フレームワークである。
- GAIA,BrowseComp,Humanity's Last Examの3つのベンチマークで,最大20%の精度向上を達成した。
- テスト時の拡張機能により,DeepResearchエージェントと同等の性能を実現し,効率性も向上した。
マルチアームバンディットにおける欺瞞的探索 [cs.LG, cs.AI]目的:マルチアームバンディット問題における,隠れた報酬分布を持つ腕の特定
- 意思決定において,限られた情報下での最適な行動選択が重要となるため。
- 行動の結果が不確実な状況下での探索と利用のバランスが課題となる。
- 欺瞞的な行動主体が,自身の利益のために探索行動を歪める問題を解決する。
- 観測者に対する欺瞞性を考慮し,腕の選択確率のKLダイバージェンスによる制約を導入。
- 公的な腕の誤った選択はベルヌーイ過程としてモデル化され,その成功確率は減少する。
- 最適な隠れた腕の特定のための誤差指数を,公的・私的平均に基づく最大最小問題として導出した。
PO-CKAN:チャンク有理構造を持つ物理情報深層演算子コルモゴロフ・アーノルドネットワーク [cs.LG, math-ph, math.MP]目的:偏微分方程式の解演算子の近似
- 物理現象のシミュレーションは科学技術の発展に不可欠であり,高精度かつ高速な解法が求められている。
- 従来の数値解法は計算コストが高く,複雑な問題への適用が困難な場合がある。
- 深層学習を活用し,物理法則に適合した効率的な解演算子の学習を目指す。
- PO-CKANは,従来のPI-DeepONetと比較して,Burgers'方程式における平均相対$L^2$誤差を約48%削減した。
- Eikonal方程式や拡散反応ベンチマークにおいても,競争力のある精度を達成した。
- 物理情報深層学習フレームワークにより,物理的に整合性のとれた時空解演算子の学習と,高速な予測を可能にした。
TAPAS:学習における誤差問題に対するデータセット [cs.LG, cs.CR]目的:学習における誤差問題に対するAI攻撃の研究と改善のためのデータセット
- ポスト量子暗号の安全性評価において,学習における誤差問題は重要な役割を担っている。
- AIを用いた攻撃のためのデータが不足しており,研究の進展が遅れている。
- AI研究者が容易に利用できるLWE攻撃用データセットを提供し,研究を加速させる。
- TAPASデータセットは,複数のLWE設定を網羅し,AI研究者がすぐに利用可能である。
- データセットの作成プロセスを記録し,攻撃性能のベースラインを確立した。
- 今後の研究の方向性を示し,ポスト量子暗号解読に向けたAI研究を促進する。
SkipSR:トークンスキッピングによる高速超解像度 [cs.CL, cs.CV, cs.AI, cs.LG]目的:ビデオ超解像度における計算効率の向上
- ビデオ生成や修復において,超解像度は重要な役割を担う技術である。
- 従来の超解像度は計算コストが高く,高解像度かつ長尺のビデオへの適用が困難であった。
- 本研究は,低詳細領域を特定し,その処理を省略することで計算量を削減し,高速化を目指す。
- 提案手法SkipSRは,低解像度入力から低詳細領域を識別し,その領域の超解像度計算を省略する。
- 標準的な超解像度ベンチマークにおいて,画質劣化なしに720pビデオの処理時間を最大60%短縮した。
- SkipSRは,標準的な拡散モデルおよびワンステップ拡散モデルの両方において,知覚品質を維持しながら計算量を大幅に削減する。
マルチホップ推論の視点から見た中国語常識推論のベンチマーク [cs.CL, cs.AI]目的:中国語における常識推論能力の評価
- 大規模言語モデルの発展に伴い,汎用的な推論能力の評価が重要になっている。
- 中国語の文脈における大規模言語モデルの評価は十分に行われていない。
- 中国語に特化した常識知識と多段階論理的推論を評価するベンチマークの構築。
- 本研究では,中国語常識マルチホップ推論 (CCMOR) という新しいベンチマークを提案した。
- CCMORを用いた評価により,大規模言語モデルは長尾知識の処理と知識集約型推論に課題があることが示された。
- 検索拡張生成を用いることで,これらの知識ギャップが大幅に改善され,性能向上が確認された。
Edu-EmotionNet:時間的フィードバックループを用いたクロスモーダル注意機構アラインメント [cs.LG]目的:オンライン教育における学習者の感情理解
- 教育効果向上には,学習者の感情状態を的確に把握し,個別最適化された指導を行うことが重要である。
- 既存手法は静的な融合戦略に依存し,モーダリティの信頼性が変動する状況への対応が課題となっていた。
- 本研究は,モーダリティ信頼性を考慮し,時間的な一貫性を保つことで,ロバストな感情認識を目指す。
- 提案手法Edu-EmotionNetは,クロスモーダル注意機構,モーダリティ重要度推定器,時間的フィードバックループを組み合わせる。
- IEMOCAPとMOSEIの教育データセットにおいて,最先端の性能を達成し,ノイズや欠損に強いことが示された。
- 感情の遷移を捉え,信頼性の高い信号を優先的に活用する能力が可視化により確認された。
手作りヒューリスティクスは死んだ。コード生成の時代よ! [cs.OS, cs.DC, cs.LG, cs.NE]目的:LLM駆動のコード生成によるヒューリスティクスの自動探索
- システム制御における政策設計は重要であり,効率性と安定性に直結する。
- 従来のヒューリスティクスは手作業で調整されるため,専門知識と時間が必要となる。
- LLMを活用し,特定の環境に最適化されたヒューリスティクスを自動的に生成すること。
- PolicySmithにより,ウェブキャッシュにおいて既存のベースラインを上回るヒューリスティクスが発見された。
- Linuxカーネルに直接組み込める,安全な輻輳制御ポリシーが生成された。
- LLM駆動のヒューリスティクス探索によって,新たな可能性が開かれた。
ヒューマノイド日常生活:オープンワールドにおけるヒューマノイド操作のための包括的ロボットデータセット [cs.CL, cs.RO, cs.LG]目的:オープンワールドにおけるヒューマノイド操作のための大規模かつ多様なデータセット
- ヒューマノイドロボットは複雑な動作が可能だが,実用化には課題が多い。
- 既存のデータセットは限られた環境やタスクに偏っており,多様性に欠ける。
- ヒューマノイドロボットの汎用的な操作能力向上を目指す。
- 本データセットは,オブジェクト操作,人間とのインタラクション,移動などを網羅する多様なタスクを含む。
- RGB,深度,LiDAR,触覚データ,自然言語注釈など高品質なマルチモーダル感覚データを収録。
- クラウドベースの評価プラットフォームを導入し,学習済みポリシーの性能評価を標準化。
TinyGraphEstimator: 軽量言語モデルによるグラフ構造推論への適応 [cs.LG]目的:グラフ構造推論のための軽量言語モデルの適応
- 複雑な関係システムを表現する普遍的な枠組みであり,様々な分野で重要性が増している
- 大規模モデルが主流だが,リソース効率の良い小型モデルの可能性は未開拓である
- グラフ表現からグラフ理論的パラメータを直接推論する小型モデルの適応を目指す
- TinyGraphEstimatorデータセットを構築し,様々なランダムグラフモデルを用いて評価を行った。
- 小型言語モデルがグラフ構造データに対し,ある程度の推論能力を持つことを示した。
- LoRAによる軽量ファインチューニングにより,評価指標において一貫した改善が見られた。
深宇宙ミッションにおけるオフライン信念状態計画を用いた適応型科学運用 [cs.RO, cs.RO, cs.AI]目的:深宇宙ミッションにおける自律的な科学運用
- 深宇宙探査では,通信遅延や環境不確実性が運用を困難にするため,自律性が不可欠である。
- 従来の運用計画では,不確実な環境下での最適な科学データ取得が課題となっていた。
- 本研究は,通信制約下でも高精度な科学データ取得を可能にする自律運用手法を提案する。
- 提案手法は,ベイズネットワークをPOMDPの観測空間に統合することで,高次元かつ不確実な測定値を効率的に管理する。
- エンケラドス・オービランダーのライフディテクションスイート(LDS)を用いたケーススタディで,手法の有効性が示された。
- 本手法は,従来の運用計画と比較して,サンプル誤識別率を約40%削減することに成功した。
P ≠ NP:量化弱さと幾何学的複雑性による非相対化証明 [cs.CC, cs.AI]目的:短時間プログラムを独立したブロック上の局所性へと変換する構成的情報理論的枠組み
- 計算複雑性理論は,アルゴリズムの効率性を数学的に評価し,問題の難易度を分類する上で重要である。
- P=NP問題は,計算機科学における未解決の重要な問題であり,多くの分野に影響を及ぼす。
- この研究は,P=NP仮定の下での矛盾を導き出すことで,P≠NPを証明することを目的とする。
- マスクされたランダムUnique-SATの対称性と疎性を活用し,分布下界を導出した。
- 効率的にサンプリング可能なアンサンブルにおいて,短時間デコーダの局所性を強制するスイッチングによる弱さの標準形を証明した。
- この矛盾は,量化弱さを用いた非相対化,非自然な証明であることから,P≠NPが結論される。
D-CoDe:動的圧縮と質問分解による画像事前学習済みVLMを動画へ拡張 [cs.CV, cs.AI]目的:動画と言語間の多様なタスクにおける性能向上のための手法
- 動画理解は,人間が世界を認識する上で不可欠であり,様々な応用分野で重要性が増している。
- 画像モデルの能力を動画へ拡張する際,動画の冗長性と処理能力の限界が課題となっている。
- 動画の情報を効率的に処理し,より複雑な動画理解を可能にすることを目指す。
- D-CoDeは,代表的なフレームの選択と空間トークンの集約による動的圧縮により,動画の処理負荷を軽減する。
- 質問分解により,モデルは動画の異なる側面に着目し,より包括的な理解を促進する。
- 様々なベンチマークで動画理解能力が向上し,特に長尺動画における優れた性能が確認された。
学生のコードにおける誤解の自動検出:McMining [eess.SY, cs.SY, cs.CL, cs.SE, cs.AI, cs.CL, cs.CY]目的:学生のコードに現れるプログラミングの誤解のマイニング
- プログラミング学習において,概念理解の誤りは学習の妨げとなるため,早期発見が重要である。
- 学生のコードに潜む誤解を特定する手段が限られており,効率的な学習支援が困難である。
- 学生のコードから誤解を自動的に検出し,個別化された学習支援を可能にすること。
- McMiningというタスクを定義し,誤解のベンチマークデータセットを開発した。
- Gemini,Claude,GPTモデルを基盤とするMcMinerアプローチを提案した。
- 提案手法は,学生のコードにおける誤解の検出において高い有効性を示した。
CommandSans:外科的精度によるプロンプトサニタイズによるAIエージェントの保護 [cs.CR, cs.AI, cs.LG]目的:間接的なプロンプトインジェクション攻撃に対するAIエージェントのセキュリティ確保
- LLMエージェントの利用拡大に伴い,攻撃対象領域が広がり,セキュリティ対策の重要性が増している。
- 既存の防御策は文脈に依存するため,悪意のある指示と無害な指示を区別できず,誤検知率が高いという課題がある。
- ツール出力からAIシステムへの指示を外科的に除去し,攻撃成功率を大幅に低下させる。
- 提案手法は,既存の安全分類器とは異なり,ブロッキングではなく,キャリブレーションも不要であり,ツール出力の文脈に依存しない。
- 容易に入手可能なinstruction-tuningデータのみで学習可能であり,非現実的なプロンプトインジェクション例に頼る必要がない。
- AgentDojoをはじめとする様々なベンチマークにおいて,攻撃成功率を7~10倍削減し,エージェントの有用性を損なうことなく,高い効果を発揮した。
AIを含む人々は人間が書いたものを好む [cs.AI, cs.CL, cs.HC]目的:文学的スタイルの評価における帰属バイアスの測定
- AI技術の発展に伴い,人間の創造性に対する評価基準が重要となる。
- 文学的スタイルの評価は主観的であり,客観的な基準が確立されていない。
- AIが生成したコンテンツに対するバイアスを定量的に評価し,その原因を探る。
- 人間は,AI生成テキストと人間が書いたテキストを識別する際,人間に有利なバイアスを持つことが示された。
- AIモデルは,人間よりもさらに強いプロヒューマンバイアスを示し,AI生成コンテンツを過小評価する傾向がある。
- 帰属ラベルが評価基準を反転させ,同一の特徴が著者によって異なる評価を受けることが明らかになった。
情報保持型二段階学習による長尾認識 [cs.LG]目的:長尾分布データに対する深層分類モデルの性能向上
- 実世界のデータ分布は長尾であることが多く,効率的な学習手法が求められている。
- 深層分類モデルは頻出クラスに偏りやすく,少数クラスの認識精度が低いという課題がある。
- データ内の有用情報を保持しつつ,頻出クラスへの偏りを軽減する手法を開発する。
- 提案手法は,情報理論に基づいた表現学習により,クラス内距離を最小化し,特徴空間を効果的に分離する。
- 数学的に情報量の多いインスタンスを選択するサンプリング戦略により,モデル全体の性能を損なわずに,偏った決定境界を修正する。
- 様々な長尾ベンチマークデータセットにおいて,最先端の性能を達成した。
強化学習駆動型エッジ管理による信頼性の高い多視点3D再構成 [cs.LG, cs.AI, cs.CV, cs.DC, cs.GR, cs.MM]目的:信頼性の高い3D再構成の実現
- 災害救助など,リアルタイムな3Dシーン把握が不可欠なエッジコンピューティング用途が拡大している。
- エッジ環境の不安定なリソース状況が,3D再構成の信頼性を損なう課題となっている。
- 変化する環境下でも高品質な再構成を維持するエッジリソース管理手法の確立を目指す。
- 提案手法は,カメラ選択とサーバ選択に強化学習エージェントを用いることで,遅延と再構成品質のバランスを取る。
- 実際の都市環境を模したテストベッド実験により,動的な環境下でのアプリケーション信頼性の向上が確認された。
- リソース制約や中断が起こりやすい環境でも,高品質な3D再構成を一定時間内に行えることが示された。