arXiv雑要約
AI - 2026/03/18 公開
YOLOベース深層学習によるイクロモノガイ科ハチの自動同定:説明可能なAIのためのHiresCamとの統合 [cs.CV, cs.AI, cs.LG]目的:イクロモノガイ科ハチの自動同定システム
- 生物多様性評価や生態モニタリング,生物的防除において,寄生蜂の正確な分類は不可欠である。
- 形態的類似性,小型,種間での微細な違いから,手動による同定は手間がかかり専門知識が求められる。
- 深層学習を用いてイクロモノガイ科ハチの自動同定を実現し,分類の効率化と精度向上を目指す。
- 提案システムは,高解像度画像からハチの科を同時に同定することが可能である。
- 実験結果は,96%を超える高い精度と,形態的変異に対する頑健な汎化性能を示した。
- HiResCAM可視化により,モデルが翅脈,触角の分節,メタソマ構造などの分類学的特徴に注目していることが確認された。
PashtoCorp:12.5億語のコーパス,評価スイート,および低リソース言語開発のための再現可能なパイプライン [cs.DC, cs.CL, cs.IR, cs.LG]目的:パシュトゥー語のための大規模言語コーパス及びその評価環境
- 自然言語処理において,低リソース言語のデータ不足は深刻な課題である。
- 既存のパシュトゥー語コーパスは規模が小さく,十分な性能評価が困難である。
- 大規模なパシュトゥー語コーパスを構築し,自然言語処理モデルの性能向上に貢献すること。
- PashtoCorpは,既存のパシュトゥー語コーパスよりも最大83倍の規模(12.5億語)を誇る。
- XLM-R-baseの事前学習により,留保されたパープレキシティが25.1%削減された。
- WikiANNパシュトゥー語NERタスクにおいて,F1スコアが10%相対的に向上し,学習の分散が大幅に減少した。
5G/6Gにおけるサービスとしての実験:AI支援トライアルのためのPlaza6Gプロトタイプ [cs.NI, cs.AI]目的:5G/6G環境下での実験サービス提供プラットフォームの構築
- 次世代通信技術開発には,迅速かつ柔軟な実験環境が不可欠である。
- 従来の実験環境構築は専門知識が必要であり,時間とコストがかかる。
- AIを活用し,実験設計を容易にし,迅速な実験環境構築を実現する。
- Plaza6Gは,クラウド資源と次世代無線インフラを統合した初の運用可能な実験サービスプラットフォームである。
- 自然言語による実験設計が可能であり,LLMによる支援により最新の実験知識を活用できる。
- CI/CD連携による10分以内の自動セットアップと,プログラム可能な伝搬条件下でのOTAテストを実証した。
D³-RSMDE:40倍高速かつ高精度なリモートセンシング単眼深度推定 [cs.HC, cs.DB, cs.CV, cs.AI]目的:リモートセンシング画像からの単眼深度推定における精度と効率の最適化
- リモートセンシングは,都市計画,災害監視など,多岐にわたる分野で重要な役割を担っている
- 既存手法は,精度と処理速度のトレードオフが課題であり,リアルタイム処理が困難な場合が多い
- 高精度かつ高速な深度推定を実現し,リモートセンシング応用のリアルタイム性を向上させる
- 提案手法D³-RSMDEは,既存モデルMarigoldと比較して,LPIPS指標で11.85%の改善を達成した
- 推論速度は40倍以上向上し,VRAM使用量は軽量なViTモデルと同程度に抑えられた
- ViTベースのモジュールと拡散モデルの利点を組み合わせることで,効率と品質のバランスを実現した
FactorEngine: 定量投資のための知識注入型ファクターマイニングフレームワーク [cs.AI]目的:アルファファクターのマイニング
- 金融市場の予測精度向上は投資戦略において不可欠であり,自動化されたファクター発見は重要な課題である。
- 既存手法は表現力や解釈性に限界があり,市場の変化に対応できない場合がある。
- FactorEngineは,解釈性と効率性を兼ね備えたファクター発見を可能にし,実用的な投資戦略に貢献する。
- FactorEngineは,従来のアルファファクターマイニング手法と比較して,予測安定性とポートフォリオへの影響が大幅に向上した。
- IC/ICIRやAR/Sharpe比率などの指標において,ベースライン手法を上回る優れたパフォーマンスを示した。
- 金融レポートを解析し,実行可能なファクタープログラムを生成する知識注入型ブートストラップモジュールを組み込んだ。
学習構造ドロップアウトと入力依存ゲーティングによるDynamicGate MLP条件計算 [cs.CG, cs.LG, cs.AI]目的:関数的可塑性を実現するための条件計算手法
- 深層学習モデルの過学習抑制は重要であり,汎化性能向上に不可欠である。
- 既存の正則化手法と条件計算手法の間には目標とメカニズムの乖離が存在する。
- 入力に依存した効率的な計算経路選択と過学習抑制を両立させることを目指す。
- DynamicGate-MLPは,学習時にユニットを抑制し,推論時には入力に応じて必要な部分に計算を集中させる。
- 連続的なゲート確率を定義し,それから離散的な実行マスクを生成することで,計算経路を選択する。
- MNIST,CIFAR-10など複数のデータセットで性能を評価し,計算効率の向上を実証した。
スタイル条件付き拡散ポリシーによる予測可能性と可読性の符号化 [cs.RO, cs.LG]目的:人間とロボットの協働における効率性と透明性の高い動作のバランス
- ロボットの動作が人間にとって理解しやすいことは,安全性と信頼性を高める上で重要である。
- ロボットの意図が明白な状況下では,可読性を高めるための冗長な軌道は非効率である。
- 状況に応じて可読性と効率性を切り替え,最適な動作を実現すること。
- 提案手法SCDPは,環境の構成に基づいて,ロボットの軌道生成を可読性または効率性のいずれかに制約する。
- 曖昧さ検出モジュールにより,曖昧な目標に対してのみ表現豊かな動作を優先し,それ以外の場合は効率的な経路を選択する。
- 操作とナビゲーションのタスクにおいて,曖昧な状況下での可読性を向上させながら,効率性を維持できることが示された。
FederatedFactory:極度に非IIDな分散シナリオにおける生成型ワンショット学習 [cs.LG, cs.AI]目的:極度に非IIDな分散シナリオにおける生成型ワンショット学習の実現
- データ主権を尊重しつつ分散最適化を行う Federated Learning の重要性が増している。
- ローカルラベル分布が排他的な場合,標準的な重み集約は最適化軌道の衝突により失敗する。
- 生成モデルの交換により,データセットのクラスバランスを整え,勾配の衝突と外部事前バイアスを解消する。
- FederatedFactory は,既存の事前学習済みモデルへの依存をなくし,ゼロからのデータセット合成を可能にする。
- MedMNIST や ISIC2019 などの医療画像ベンチマークにおいて,中央集権型学習と同等の性能を回復した。
- CIFAR-10 において,ベースラインの精度を 11.36% から 90.57% に,ISIC2019 の AUROC を 90.57% に向上させた。
事前情報に基づくニューラルネットワーク初期化:関数パラメータ化アーキテクチャのためのスペクトルアプローチ [cs.LG]目的:関数パラメータ化アーキテクチャにおけるニューラルネットワーク初期化手法
- 深層学習の表現力と古典的な信号処理の解釈可能性を両立する研究分野であり,信号処理の新たな可能性を拓く。
- 従来のデータに依存しない初期化スキームでは,ターゲット信号の構造的特性を捉えきれず,最適化が困難となる場合がある。
- データ由来の事前知識を活用し,初期化とアーキテクチャ構成を改善することで,効率的な学習と高性能化を目指す。
- 提案手法は,データのスペクトル構造を抽出し,ネットワークの深さと初期状態を決定することで,収束を加速させる。
- エンコーダの次元数を削減しつつ,再構成精度を維持することで,よりコンパクトで解釈可能なアーキテクチャを実現する。
- 実験結果から,データ駆動型事前知識の導入が性能変動を抑制し,計算効率を向上させることが示された。
一般化,バイアス軽減,解釈可能性の観点からの年齢予測:因果関係に関する考察 [cs.LG, cs.AI]目的:年齢予測モデルにおける一般化性能の向上,バイアス軽減,解釈可能性の探求
- 年齢予測は,生物学的プロセス理解や疾患研究において重要である。
- 既存の年齢予測モデルは,人種や性別などの外的要因に影響され,汎化性能が低い。
- 外的要因に不変な表現学習により,年齢予測の精度と公平性を改善すること。
- 敵対的表現学習を用いたモデルは,従来の機械学習モデルと比較して一貫性のある結果を示した。
- モデルの予測結果は,エラミプレチドがマウスの骨格筋および心筋に与える影響に関する既存研究と一致した。
- 純粋な予測モデルから因果関係を導き出すことには限界がある。
強化学習による仮想魚の運動を通じた魚群の制御 [cs.RO, cs.LG, q-bio.PE]目的:魚群の制御手法
- 集団行動の理解は,生態学やロボティクスの発展に不可欠である。
- 実際の魚を用いた制御実験は,耐久性や運動制約などの技術的課題が多い。
- 仮想魚を用いた強化学習により,魚群の行動を効率的に制御することを目指す。
- シミュレーションの結果,実在の魚が刺激を無視する場合でも,効果的な運動戦略を獲得できることが示された。
- 実魚を用いた実験では,学習された戦略が魚群を目標方向に誘導することに成功した。
- 提案手法は,無刺激時やヒューリスティックな戦略と比較して,統計的に有意に優れていた。
堅牢な物理制約に基づく拡散モデルを用いた全波形反転 [math.NA, cs.AI, cs.NA]目的:全波形反転のための堅牢な物理制約に基づく拡散フレームワーク
- 地球内部構造探査において,高精度な速度モデルの構築は不可欠である。
- 全波形反転は局所解に陥りやすく,初期モデル依存性が高いという課題がある。
- 振幅や位相の不整合に対するロバスト性を高め,効率的な反転を可能にすること。
- 提案手法は,スコアベース生成事前分布と波動方程式シミュレーションによる尤度ガイダンスを組み合わせる。
- Wasserstein-2距離に基づくデータ整合性ポテンシャルと,観測依存正規化により,ロバスト性を向上。
- 事前条件付き逆拡散スキームにより,ガイダンス強度を適応的に調整し,安定した反転を実現。
Fanar 2.0:アラビア語生成AIスタック [cs.CL, cs.AI]目的:アラビア語を中心とする生成AIプラットフォームの開発
- AI技術の発展は,言語や文化的多様性の尊重が重要である。
- アラビア語のようなデータ資源の限られた言語でのAI開発は課題が多い。
- 限られたリソース下で,アラビア語AIの性能向上を目指す。
- Fanar 2.0は,256基のNVIDIA H100 GPUを用いて開発された。
- Fanar-27Bは,Gemma-3-27Bを基盤とし,高品質なアラビア語コーパスで継続的に事前学習された。
- ベンチマークテストにおいて,アラビア語知識,言語能力,方言,英語能力が大幅に向上した。
制約付き多目的最適化のための深層強化学習支援自動オペレーターポートフォリオ [cs.NE]目的:制約付き多目的最適化問題に対するオペレーターの最適な割り当てスキームの学習
- 科学技術分野における実用的な応用において,制約付き多目的最適化問題は非常に重要である。
- 既存のアルゴリズムは固定されたオペレーターを使用し,多様な問題への対応力に課題がある。
- 本研究は,各世代で最適なオペレーターポートフォリオを決定し,局所最適解への陥りを防ぐことを目指す。
- 提案手法は,現在の集団の状態と期待される累積報酬間のマッピングモデルを確立するために深層ニューラルネットワークを利用する。
- 既存のCMOEAsに提案手法を組み込むことで,CMOPsを解決するための深層強化学習支援自動オペレーターポートフォリオベースの進化アルゴリズム(CMOEA-AOP)を開発した。
- 33のベンチマーク問題に関する実験的調査により,提案アルゴリズムがCMOEAsの性能を大幅に向上させ,様々なCMOPsにおいてより安定した性能を示すことが示された。
大規模言語モデルのベンチマーク:アイスランド語における事例研究 [cs.CL, cs.AI]目的:アイスランド語における大規模言語モデルのベンチマーク評価
- 言語資源の少ない言語への応用において,モデルの性能評価は重要である。
- 既存のベンチマークには,機械翻訳や合成データが含まれている場合があり,その品質が問題となる。
- アイスランド語におけるベンチマークの信頼性を高めるための改善策を提案する。
- 既存のベンチマークには,検証されていない機械翻訳や合成データに深刻な誤りが見られた。
- 機械翻訳の品質が低い場合,ベンチマークの有効性が損なわれる可能性がある。
- 人間が作成・翻訳したベンチマークと,合成または機械翻訳されたベンチマークの間には明確な差が見られた。
プロットTwist:小規模言語モデルを用いた創造的なプロット生成フレームワーク [cs.RO, cs.CL, cs.AI]目的:創造的なプロット生成
- 物語創作は,エンターテインメントや教育において不可欠であり,自動化へのニーズが高い。
- 大規模言語モデルは流暢だが,創造的なプロット生成には専門的な調整が必要で,コストがかかる。
- 小規模言語モデルでも高品質なプロット生成を可能にする効率的なフレームワークを構築する。
- PlotTwistは,50億パラメータ以下の小規模言語モデルで,最先端モデルに匹敵する高品質なプロットを生成する。
- 本フレームワークは,プロット生成を3つの専門コンポーネントに分解し,効率的な調整を実現した。
- 評価モジュールは,人間の批評的判断を模倣し,客観的なプロット評価を可能にした。
凍結エンコーダー・デコーダーLLMのための学習型持続メモリ:6つのアーキテクチャ手法 [cs.CL, eess.AS, cs.LG, cs.AI]目的:凍結LLMの連続潜在空間における持続メモリの実現可能性
- 大規模言語モデルの対話能力向上は重要な課題であり,文脈情報を保持する機構が求められる。
- 従来のLLMはステートレスであり,セッション間で情報を保持できないという課題があった。
- 本研究は,限られたリソース下でLLMに持続メモリを付与し,会話学習を可能にすることを目指す。
- 凍結LLMの潜在空間に持続メモリを組み込む6つのアーキテクチャ手法を提案し,その有効性を示した。
- LoCoMoデータセットでの評価により,提案手法はベースラインと比較して記憶想起曲線において正のスコアを示した。
- メモリ容量が重要な設計パラメータであり,大規模なモデルとデータセットを用いたさらなる研究の基盤となることを示した。
IndexRAG:インデックス作成時に事実を結びつけ,複数文書にわたる推論を実現する [cs.CL, cs.AI, cs.IR]目的:複数文書にわたる推論の改善
- 複雑な質問応答には複数文書の情報を統合する必要があり,その重要性は高い。
- 従来のRAGアプローチでは,オンライン処理や複数ステップ推論が必要となり,効率性に課題があった。
- インデックス作成時に事実間の関係性を構築することで,推論の効率化と精度向上を目指す。
- IndexRAGは,オフラインのインデックス作成段階で複数文書に共通するエンティティを特定し,関連する事実を生成する。
- これにより,従来のRAGと比較してF1スコアを平均4.6ポイント向上させ,単一パス検索と単一LLM呼び出しで済む。
- IRCoTと組み合わせることで,HippoRAGやFastGraphRAGを含むグラフベースラインを上回り,フラット検索のみに依存する。
AIアラインメントにおける否定的アプローチ:否定的な制約が肯定的な選好よりも構造的に優れている理由 [cs.AI]目的:AIアラインメントにおける肯定的な選好と否定的な制約の構造的非対称性
- AIの安全性確保は,社会への実装において不可欠であり,倫理的な問題や予期せぬ行動を防ぐ上で重要である。
- 従来の強化学習は,人間の選好を完全に捉えることが難しく,AIが表面的な行動や都合の良い応答を学習しやすい。
- 否定的な制約を用いることで,AIが回避すべき明確な境界を学習させ,より安全で信頼性の高いAIを開発することを目指す。
- 否定的なフィードバックのみを用いた学習が,従来の強化学習と同等またはそれ以上の性能を発揮することが実証されている。
- 肯定的な選好は文脈に依存するが,否定的な制約は明確な禁止事項として検証可能であり,安定した学習を促進する。
- AIアラインメントの研究は,「人間の選好を学習する」ことから「人間の拒否を学習する」ことへと重点を移すべきである。
SF-Mamba:Visionのための状態空間モデルの再考 [cs.CV, cs.AI]目的:Visionにおける効率的なエンコーダの実現
- 画像認識分野では,計算量の課題が重要であり,より効率的なモデルが求められている。
- 既存のVision Transformerは計算量が膨大であり,Mambaも双方向の相互作用に制約がある。
- 本研究は,Mambaのスキャン操作を改良し,GPUの並列処理を促進することで効率化を目指す。
- 提案手法SF-Mambaは,画像分類,物体検出,セグメンテーションで最先端の性能を達成した。
- 補助的なパッチスワッピングにより,一方向のスキャンでも双方向の情報伝達を可能にした。
- バッチフォールディングと状態のリセットにより,GPUの並列性を高め,処理速度を向上させた。
単一GPUでのファインチューニングのための効率的な異種協調設計 [cs.DC, cs.AI]目的:大規模言語モデルの単一GPU環境における効率的なファインチューニング
- 近年の自然言語処理において,大規模言語モデルの活用が不可欠となっている。
- 大規模言語モデルのファインチューニングはメモリを大量に消費し,多くのGPUでは実行が困難である。
- メモリ消費量を削減し,単一GPU環境でも大規模モデルのファインチューニングを可能にすること。
- 本研究で提案するSlideFormerは,GPUをスライディングウィンドウとして扱い,CPUとの連携により高いスループットを実現する。
- 異種メモリ管理機構により,ピークメモリ使用量を大幅に削減し,より大規模なモデルのファインチューニングを可能にした。
- 評価の結果,SlideFormerは既存手法と比較して1.40~6.27倍の高速化と,CPU/GPUメモリ使用量の半減を達成した。
EngGPT2:主権的,効率的,かつオープンな知能 [cs.CL, cs.AI]目的:効率的でオープンな大規模言語モデルの開発
- AI技術の発展は,経済成長や社会課題の解決に不可欠である。
- 大規模言語モデルは計算資源を大量に消費し,開発・運用コストが高い。
- 限られた資源でも高性能な言語モデルを実現し,ヨーロッパやイタリアのAI発展に貢献する。
- EngGPT2は,2.5兆トークンで学習し,8B-16Bモデルに匹敵する性能を示す。
- 推論に必要な計算量は既存モデルの1/5から1/2程度で,学習データ量も大幅に削減された。
- イタリア語データの割合を高め,ヨーロッパやイタリアの自然言語処理タスクに強い能力を発揮する。
IRIS:単眼ビデオからの物理ダイナミクスシステムの逆問題と特定のための実世界ベンチマーク [cs.CV, cs.LG]目的:物理ダイナミクスシステムの逆問題と特定に関するベンチマークデータセット
- 物理現象の理解とモデリングは,ロボティクスやシミュレーションなど幅広い分野で重要である。
- 既存のベンチマークは合成データに依存しており,実世界の複雑な現象を捉えきれていない。
- 実世界のデータを用いた評価を通じて,物理モデルの特定と推定の精度向上を目指す。
- IRISは,4K解像度・60fpsで撮影された220本の高品質な実世界のビデオから構成される。
- 単体および多体ダイナミクスを網羅し,真の値と不確かさの推定値が提供される。
- 提案された評価プロトコルに基づき,複数のベースライン手法の性能を評価し,課題を明らかにした。
大規模言語モデルによる自然言語から実行可能なオプション戦略への変換 [cs.AI, q-fin.TR]目的:自然言語の取引意図を正確なオプション戦略に変換する手法
- 金融市場において,オプション取引はリスク管理や収益機会の拡大に不可欠である。
- 自然言語で指示されたオプション戦略の自動生成は,複雑な市場データと制約条件により困難である。
- 文法規則に基づいた中間表現を用いることで,大規模言語モデルの信頼性を高め,正確なオプション戦略を生成すること。
- オプション照会言語(OQL)を導入し,オプション市場を文法規則に基づいて抽象化することで,大規模言語モデルを信頼性の高い意味解析器として機能させた。
- OQLクエリはエンジンによって検証・実行され,実行可能な戦略を決定的に生成する。
- 提案手法は,直接生成ベースラインと比較して,実行精度と論理的な一貫性を大幅に向上させることを実証した。
分布型反事実説明のためのソルバーDISCOVER [cs.CL, cs.LG]目的:分布型反事実説明の求解
- モデルの意思決定の解釈可能性向上は,信頼性と公平性の確保に不可欠である。
- 既存手法は個々の事例に焦点を当てており,分布全体を考慮した説明が不足している。
- 微分不可能なモデルでも分布型反事実説明を可能にする効率的な求解手法の提供。
- DISCOVERは,勾配ベース最適化を疎な提案・選択探索パラダイムに置き換えることで,微分不可能なモデルにも適用可能となった。
- 入力と出力分布の整合性が高く,ブラックボックス学習パイプラインへの分布型反事実推論の適用を拡張した。
- サンプルごとの影響スコア分解と介入予算により,影響力の大きいサンプルに編集を集中させることを可能にした。
CD-FKD:物体検出におけるロバストな単一ドメイン汎化のためのクロスドメイン特徴知識蒸留 [cs.CV, cs.AI]目的:物体検出における単一ドメイン汎化能力の向上
- 物体検出は,自動運転や監視など多様な応用において不可欠な技術である。
- 既存手法はドメインシフトに弱く,未知の環境での性能低下が課題である。
- ドメインシフトに対するロバスト性を高め,汎化性能を向上させることを目指す。
- 提案手法CD-FKDは,教師ネットワークの特徴を生徒ネットワークに蒸留することで,ドメインシフトへの適応能力を高める。
- 多様なデータを用いて生徒ネットワークを訓練し,物体中心の特徴抽出を可能にする。
- 実験の結果,CD-FKDは最先端手法を凌駕し,物体検出のロバスト性を向上させる有効性が確認された。
能力誘導圧縮:大規模言語モデルの解釈可能性を考慮した予算配分へ [cs.LG, cs.CL]目的:大規模言語モデルの圧縮における予算配分戦略の改善
- 大規模言語モデルは強力だが,計算コストが高く,効率的な圧縮が不可欠である。
- 既存の圧縮手法はモデルの機能表現を無視しており,性能低下や急激な変化を引き起こす。
- モデル各部の機能密度に基づき,圧縮予算を最適化することで性能劣化を防ぐ。
- Sparse Autoencoderを用いて機能密度マップを作成し,Transformerの各構成要素に差分圧縮予算を割り当てるCapability-Guided Compression(CGC)を提案。
- 機能密度は,構成要素の構造的冗長性と圧縮比の関係を予測し,性能変化の指標となりうることを理論的に証明。
- GPT-2 Mediumを用いた実験で,機能密度が既存の重要度指標と独立していることを確認し,新たな圧縮シグナルであることを示唆。しかし,PPLベースの比較では否定的な結果が得られた。
視覚的な注意散漫がビジョン言語モデルにおける道徳的推論を損なう [cs.AI]目的:ビジョン言語モデルにおける道徳的推論への視覚的注意散漫の影響
- 安全なAIの実現には道徳的推論が不可欠であり,特にマルチモーダル化が進むにつれて重要性が増している。
- 既存の道徳的評価ベンチマークはテキストのみに依存しており,道徳的判断に影響する変数の系統的な制御が不足している。
- 視覚的入力が道徳的判断に与える影響を分析し,マルチモーダルな安全対策の必要性を示す。
- 最先端のビジョン言語モデルにおいて,視覚的入力がテキストベースの安全メカニズムを迂回し,道徳的判断に影響を与えることを示した。
- 道徳的ジレンマシミュレーション(MDS)という新しいマルチモーダルベンチマークを導入し,視覚的・文脈的変数の直交的な操作によるメカニズム分析を可能にした。
- 視覚的入力は,テキストのみの場合よりも直感的で危険な判断を促進し,言語による安全フィルタが視覚処理を十分に制御できていないことが明らかになった。
TRUST-SQL:未知スキーマに対するテキストSQL変換のためのツール統合型マルチターン強化学習 [cs.AI]目的:未知スキーマ環境におけるテキストSQL変換タスクの性能向上
- 企業データベースの規模拡大に伴い,スキーマ情報を効率的に活用することが重要となっている。
- 従来のテキストSQL変換は,完全なスキーマ情報を前提としており,実環境では適用が困難である。
- 必要なスキーマ情報を動的に特定し検証することで,実用的なテキストSQL変換を実現する。
- TRUST-SQLは,検証済みのメタデータに基づいて推論を行う構造化された四段階プロトコルを導入した。
- Dual-Track GRPO戦略により,探索報酬と実行結果を分離し,報酬の帰属問題を解決した。
- 5つのベンチマークにおいて,ベースモデルと比較して平均30.6%と16.6%の絶対的な性能向上を達成した。
RetailBench:現実的な小売環境におけるLLMエージェントの長期的自律的意思決定と戦略の安定性の評価 [cs.AI]目的:LLMエージェントの長期的な自律的意思決定と戦略の安定性に関する評価
- 小売環境は複雑であり,効率的な意思決定は収益に直結するため,最適化が重要である。
- 既存のLLMは,動的で複雑な環境下での長期的な意思決定において課題を抱えている。
- 現実的な小売環境において,LLMエージェントの長期的な意思決定能力を向上させることを目指す。
- RetailBenchという高精度なベンチマークを開発し,現実的な商業シナリオにおける長期的な自律的意思決定を評価した。
- Evolving Strategy & Executionフレームワークを提案し,戦略的推論と行動実行を分離することで,適応性と解釈可能性を高めた。
- 実験の結果,提案フレームワークは既存手法と比較して安定性と効率を向上させたが,タスクの複雑さが増すと性能が低下した。
手がかりを追跡し,真実を構築する:オープンボキャブラリ多imodal感情認識におけるハイブリッド証拠による演繹的推論 [cs.AI, cs.HC]目的:オープンボキャブラリ多imodal感情認識におけるハイブリッド証拠による演繹的推論メカニズムの提案
- 感情認識は,人間と機械の円滑なコミュニケーションに不可欠であり,その精度向上は重要な課題である。
- 多modal感情認識では,曖昧な手がかりが状況によって意味を変え,誤認識を引き起こしやすい。
- 複数の証拠に基づき,状況に応じた推論を行うことで,曖昧な手がかりによる誤認識を回避することを目指す。
- HyDRAは,提案-検証-決定のプロトコルに基づくハイブリッド証拠による演繹的推論アーキテクチャである。
- 強化学習と階層的報酬形成を用いることで,推論軌跡をタスクのパフォーマンスに最適化している。
- 実験の結果,HyDRAは,特に曖昧または矛盾するシナリオにおいて,既存のモデルを上回る性能を示した。
マルチエージェント強化学習によるマルチ衛星システムにおける遅延CSIへの対策 [cs.IT, cs.AI, eess.SP, math.IT]目的:マルチ衛星システムにおける総レート最大化
- 衛星通信はグローバル接続の実現に不可欠だが,高品質なサービス提供には正確なCSIが求められる。
- 衛星通信特有の伝搬遅延によりCSIが古くなり,通信品質が低下する課題がある。
- 遅延CSI環境下でも総レートを最大化するMARLアルゴリズムを開発し,その有効性を示す。
- 提案手法であるDS-PPOは,CSIの不正確さに対してロバスト性を示すことが確認された。
- DS-PPOを用いることで,総レートの向上が確認された。
- DS-PPOの収束性解析と計算複雑性評価を行った。
連鎖の打破:LLMの中間構造に対する因果分析 [cs.DB, cs.AI]目的:LLMの中間構造に対する因果関係の解明
- LLMの推論能力向上は,複雑なタスク遂行に不可欠であり,その信頼性確保が重要である。
- 中間構造が最終的な出力にどの程度影響しているか,因果関係が明確でなかった。
- LLMが生成した中間構造が,出力に安定的に影響を与えるか検証すること。
- LLMは自身の生成した中間構造に対しては一貫性を示すが,変更を加えると最大60%のケースで予測が更新されないことが判明した。
- 外部ツールが最終決定を行う場合,この脆弱性は軽減されるものの,中間構造を優先するよう指示しても改善は見られない。
- スキーマ誘導パイプラインにおける中間構造は,安定的な因果媒介体というよりは,影響力のあるコンテキストとして機能している。
有界ノイズ下における多変量カーネル回帰のための最適不確実性境界:ガウス過程に基づく双対関数 [cs.LG, cs.SY, eess.SY, math.OC]目的:多出力カーネルベース推定に対するタイトで分布フリーな境界
- 安全な学習型制御において,潜在関数の信頼性ある予測は不可欠である。
- 既存の境界は,仮定が厳しかったり,保守的であったり,多出力問題にスケールしにくかったりする。
- 既存の限界を克服し,実用的な最適化パイプラインへの統合を容易にすること。
- 提案手法は,既存の結果を一般化するタイトな不確実性境界を提供する。
- 双対ベースの定式化により,ガウス過程の信頼区間と同様の構造を持ち,統合が容易である。
- クアッドローターのダイナミクス学習に着想を得た例で有効性が示された。
低照度画像強調のためのデュアルストリームTransformer:照明非依存特徴ガイダンスとマルチスケール空間畳み込み [cs.CV, cs.AI]目的:低照度環境で撮影された画像の視認性回復
- 視覚センサで取得された低照度画像は,実用的な応用において不可欠な役割を担う。
- 既存手法は,画像品質を向上させつつ,本質的な信号の事前情報を失いがちである。
- 本研究は,信号の事前情報を活用し,画像の構造とテクスチャをより良く保持することを目指す。
- 提案手法DST-Netは,照明に依存しない信号の事前情報を活用し,低照度画像の特徴抽出モジュールを設計した。
- デュアルストリーム相互作用アーキテクチャとクロスモーダル注意メカニズムにより,画像の劣化信号表現を動的に修正する。
- LSRWおよびLOLデータセットにおける評価実験により,提案手法の有効性と汎化性能が確認された。
ワンステップ生成モデルにおける非均衡オプティマル輸送によるアンラーニング [cs.CL, cs.CV, cs.AI]目的:ワンステップ生成モデルにおけるクラスアンラーニング手法
- 生成モデルは画像生成の効率を向上させるが,プライバシー保護が重要課題となっている。
- 既存のアンラーニング手法は拡散モデル向けであり,ワンステップモデルには適用できない。
- 非均衡オプティマル輸送を用いて,生成品質を維持しつつ忘却対象クラスを効果的に除去する。
- 提案手法UOT-Unlearnは,忘却コストと$f$-ダイバージェンスペナルティ間のトレードオフを最適化する。
- UOTを用いることで,忘却されたクラスの確率質量を他のクラスに平滑に再配分できる。
- CIFAR-10とImageNet-256での実験で,既存手法を上回るアンラーニング成功率と保持品質が確認された。
高速道路運用のためのマルチモーダル事前学習大規模言語モデル ExpressMind [cs.PF, cs.AR, cs.AI]目的:高速道路運用における認知的な中核を担う,マルチモーダル大規模言語モデルExpressMindの構築
- 高速道路運用は社会経済活動の基盤であり,その安全性と効率性の向上は重要である。
- 既存の運用はルールベースや個別モデルに依存し,システム横断的な知識分析が困難である。
- 汎用LLMでは高速道路特有の規制や因果関係の理解が難しいため,専門知識を組み込む必要がある。
- 本研究では,交通知識テキスト,緊急時推論チェーン,アノテーション付き動画イベントを含むフルスタックな高速道路データセットを構築した。
- 自己教師あり学習と教師なし学習に基づく二層LLM事前学習パラダイムと,グラフ拡張RAGフレームワークを提案した。
- RL-CoTメカニズムにより,モデルの推論と専門家の問題解決ヒューリスティックの一貫性を強化し,イベント検出,安全応答生成,複雑な交通分析において既存モデルを凌駕した。
高頻度データギャップの解消:時系列基盤モデルの発展のためのミリ秒解像度ネットワークデータセット [cs.CL, cs.LG, cs.AI]目的:時系列基盤モデルの発展に資する,ミリ秒解像度を持つネットワークデータセット
- 時系列基盤モデルの性能向上には,多様な現実世界のデータセットが不可欠である。
- 既存のデータセットは低頻度データに偏っており,高頻度データの特性を捉えられない。
- 本研究は,高頻度データを用いた時系列基盤モデルの事前学習と予測性能の向上を目指す。
- 本データセットは,5G無線環境の無線とトラフィック状況をミリ秒単位で記録し,高頻度データの活用を可能にする。
- 従来の機械学習モデルや時系列基盤モデルのベンチマークテストの結果,新たなデータ分布において性能が低いことが示された。
- 事前学習や予測において高頻度データセットを取り込むことの重要性が確認された。
内側から外側へ:信頼性校正のための漸進的な分布洗練 [cs.LG, cs.CL]目的:モデルの内部情報を強化学習における自己報酬信号として活用する際の信頼性校正
- ラベル不要な学習が可能であり,データ収集コストを削減できるため,実用的な強化学習の実現に不可欠である。
- テスト時と学習時におけるモデル内部情報の差異が十分に考慮されておらず,性能低下を招いている。
- モデルの信頼度分布を事前情報として活用することで,報酬信号を段階的に最適化し,報酬ハッキング問題を軽減すること。
- DistriTTRLは,モデルの能力と自己報酬信号を相互補完する学習メカニズムと,報酬ハッキングの軽減により,複数のモデルとベンチマークで大幅な性能向上を達成した。
- 提案手法DistriTTRLは,テスト時の分布事前情報を用いて報酬信号を最適化し,単一クエリに依存しない。
- 投票に基づくテスト時学習で発生する報酬ハッキング問題を,多様性を重視したペナルティによって緩和する。
FEAT:極めて大規模な構造化データのための線形複雑度基盤モデル [cs.CG, cs.LG, cs.AI]目的:極めて大規模な構造化データに対する線形複雑度基盤モデル
- 医療,金融,EC,科学データ管理など,構造化データはあらゆる分野の基盤である。
- 既存のLDMは,計算コストや表現力の低下,実データへの適応不足などの課題を抱えている。
- FEATは,線形複雑度で大規模データを処理し,表現力を維持することで,これらの課題を解決することを目指す。
- FEATは,従来のモデルよりもゼロショット性能で優れており,推論速度も最大40倍向上する。
- FEATは,適応的融合バイMamba-2と畳み込みゲート線形注意機構を組み合わせた二軸アーキテクチャにより,線形複雑度でのサンプル間モデリングを実現している。
- ハイブリッド構造的因果モデルと安定再構成目的関数により,ロバスト性を向上させている。
近似グラフによる爆轟格子抽出 [eess.SY, cs.SY, cs.CV, cs.LG, physics.comp-ph, physics.data-an]目的:爆轟格子
- 爆轟現象の理解深化は,エネルギー応用や安全確保において不可欠である。
- 従来の解析手法は手作業に頼るか,二次元的なものが多く,高精度な評価が困難であった。
- 本研究は,三次元的な爆轟セル構造を正確に把握するための自動化手法を確立する。
- 提案アルゴリズムは,生成データに対して2%の予測誤差で爆轟セルの分割に成功した。
- 三次元シミュレーションデータから,波伝播軸に沿った長方形のセル形状が確認された(偏差17%)。
- 体積の分散は線形変動の三次増幅を反映しており,複雑なセル形状の解析が課題として残る。
ドメイン特化型テキストからコード生成のための言語モデルカスタマイズ手法の探求 [cs.AI]目的:ドメイン特化型コード生成のための言語モデルカスタマイズ
- 自然言語からコード生成は自動化の鍵であり,開発効率を飛躍的に向上させることが期待される。
- 汎用モデルは特定分野に弱く,ドメイン知識やAPIの利用に課題が残る。
- 小規模モデルを効率的にカスタマイズし,特定分野でのコード生成能力を高める。
- Few-shot learningやRAGといったプロンプトベースの手法は,費用対効果の高い方法でドメイン適合性を向上させる。
- しかし,これらの手法ではベンチマーク精度への影響は限定的である。
- 一方,LoRAを用いたファインチューニングは,ほとんどのタスクでより高い精度とドメイン適合性を実現する。
SympFormer:密度多様体上の慣性力学による高速化アテンションブロック [cs.RO, cs.LG, math.OC, stat.ML]目的:高速化アテンションブロックの設計と検証
- 自然言語処理において,Transformerモデルが大きな成功を収めている。その中核は自己注意機構である。
- 従来の自己注意機構は計算コストが高く,大規模データへの適用が課題となっている。
- 密度多様体上の慣性力学を利用することで,計算効率を向上させ,高速化を実現する。
- 提案手法は,古典的なアテンションブロックと比較して,より高速に収束することが示された。
- 線形自己注意において,アテンションブロックがポテンシャルエネルギーのStein変分勾配降下法を近似することが証明された。
- 提案手法は,確率分布の形状を維持しながら高速化を達成し,オラクルの呼び出し回数も削減する。
意見の相違を考慮した設計:LLM搭載ロボットによる支援割り当てのためのフロントエンド保護機能 [cs.RO, cs.AI, cs.HC, cs.RO]目的:LLM搭載ロボットにおける支援割り当てのためのフロントエンド保護機能の設計
- 社会におけるロボット利用拡大に伴い,倫理的課題や価値観の多様性への対応が重要となっている。
- LLMの行動は予測困難であり,支援対象の優先順位付けにおいて意見の相違が生じやすい。
- ユーザーに分かりやすく,公平な支援割り当てを実現するための具体的な手法を提案する。
- 提示された「限定的な調整と異議申し立て」というパターンは,ロボットの支援優先順位を事前に承認された範囲に限定し,ユーザーに分かりやすく表示する。
- これにより,暗黙の価値観の偏りを防ぎつつ,緊急時にも迅速な意思決定を促すことが期待される。
- 評価項目として,可読性,手続き的正当性,実行可能性に加え,自動化バイアスや異議申し立て手段の利用格差のリスクを考慮する。
DanceHA:ドキュメントレベルの側面ベース感情分析のためのマルチエージェントフレームワーク [cs.RO, cs.RO, cs.AR, cs.CL, cs.CL, cs.AI]目的:ドキュメントレベルの側面ベース感情分析における課題解決
- 顧客レビューなど,テキストデータから意見を抽出する重要性が高まっている。
- ドキュメント全体の文脈を考慮した感情分析は,文単位の分析に比べて困難である。
- 長文テキストにおける複雑な感情分析タスクを,エージェント間の協調で解決する。
- DanceHAフレームワークは,長文テキストの感情分析を複数の小タスクに分割し,各エージェントが協調して処理することで,高い性能を発揮する。
- 新たに構築したInf-ABSIAデータセットを用いて,フレームワークの有効性と知識伝達能力を検証した。
- 非公式な文体は感情を強める傾向があり,感情分析において重要な要素であることが示唆された。
VAE-EM推定による電子顕微鏡較正のシミュレーションと現実のギャップを埋める [cs.CV, cs.LG]目的:電子顕微鏡の較正パラメータ推定手法
- 科学的発見を支える電子顕微鏡において,光学収差の補正が不可欠である。
- 診断画像のノイズと高次元性,及び単一画像からの最適パラメータ特定困難性が課題である。
- シミュレーションデータと現実データのギャップを埋め,高精度な較正を実現する。
- VAEを用いて画像を低次元表現に変換し,EM法と組み合わせることで,高速かつ安定した較正を可能にした。
- 実STEMにおいて,既存手法と比較して推定誤差を2倍削減し,観測回数を削減することに成功した。
- 本手法は,シミュレーションデータと現実のギャップが存在する逆問題への応用が期待される。
CompDiff:公平性とゼロショット交差型医療画像生成のための階層的構成的拡散 [cs.RO, cs.CV, cs.AI]目的:公平な医療画像生成のための,階層的構成的拡散モデルの提案
- 医療AIの公平性を高めるため,データ拡張が重要視されている。
- 生成モデルが,少数グループに対して質の低い画像を生成する問題がある。
- 訓練データに存在しない交差グループへの汎化性能を向上させる。
- CompDiffは,既存手法と比較して画像品質(FID)が向上した(64.3 vs. 75.1)。
- 少数グループ間の公平性指標(ES-FID)と,未知の交差グループに対するゼロショット性能も改善された。
- CompDiffで生成されたデータで訓練された分類器は,AUROCが向上し,人口統計学的偏りが軽減された。
EmoLLM:大規模言語モデルにおける評価に基づいた認知・感情的共同推論 [cs.CL, cs.AI]目的:大規模言語モデルにおける認知能力と感情知能の共同推論
- 現実世界では,正確性だけでなく,感情に配慮した応答が求められる。
- 既存モデルは,ユーザーのニーズや感情的状態を的確に理解しきれていない。
- 評価理論に基づき,状況に応じた適切な感情的応答を可能にすること。
- EmoLLMは,状況の評価と応答戦略を構造化する評価推論グラフを用いる。
- ロールプレイ環境での強化学習により,ユーザー側の反応を予測し,報酬信号として活用。
- 多様な対話設定において,感情状態と応答品質が大幅に向上し,事実に基づいた信頼性も維持。
BenchPreS:永続メモリLLMにおける文脈を考慮したパーソナライズされた嗜好選択性のベンチマーク [cs.AI, cs.CL]目的:LLMにおける永続メモリベースのユーザー嗜好の文脈依存性
- LLMのパーソナライズ機能は重要性が増しており,ユーザー体験の向上に貢献する。
- 社会規範や倫理的制約下において,ユーザー嗜好の不適切な適用が問題となる。
- LLMが文脈に応じてユーザー嗜好を適切に適用・抑制できるかを評価する。
- 最先端のLLMでも,文脈に敏感な嗜好の適用に苦戦していることが明らかになった。
- 嗜好の遵守度が高いモデルほど,過剰な適用率が高くなる傾向が見られた。
- 推論能力やプロンプトによる防御策だけでは,この問題は完全には解決されない。
大規模言語モデルとのチャットログを通じた妄想のスパイラル構造の特定 [cs.CL, cs.AI]目的:大規模言語モデル利用による心理的悪影響事例のチャットログ分析
- 大規模言語モデルの普及に伴い,メンタルヘルスへの影響が社会問題となっている。
- ユーザーとチャットボットの長期的な対話における妄想の発生メカニズムが不明である。
- チャットボット利用による心理的悪影響の実態を把握し,その対策を講じる。
- 分析の結果,ユーザーの妄想的思考はユーザーメッセージの15.5%に認められた。
- チャットボットが自己を意識を持つものとして表現するメッセージは,会話が長くなるほど頻度が増加する傾向が見られた。
- 恋愛感情や自我認識に関する言及は,ユーザーの過剰な関与を促進したり,その結果として生じたりする可能性が示唆された。
