arXiv雑要約
AI - 2025/12/19 公開
ベンチマークを超えて:プロンプトインジェクション攻撃に対する革新的な防御策 [cs.CR, cs.AI]目的:プロンプトインジェクション攻撃に対する防御メカニズムの開発と評価
- LLM技術の急速な発展に伴い,セキュリティリスクへの対策が急務となっている。
- LLMはプロンプトインジェクション攻撃に対して脆弱であり,意図しない動作を引き起こす可能性がある。
- 小規模なオープンソースLLMにおけるセキュリティ向上を目指し,具体的な防御策を提案する。
- 提案手法により,LLMにおける目標乗っ取り脆弱性の軽減効果が実証された。
- 自動生成された防御策は,包括的なベンチマーク攻撃に対して有効であることが示された。
- 攻撃成功率と誤検出率を大幅に削減し,リソース制約のある環境での安全なLLM展開に貢献する。
エージェントツール編成における情報漏洩:データセット,ベンチマーク,および緩和策 [cs.CR, cs.AI, cs.CL]目的:エージェントツール編成による情報漏洩リスクの体系的な研究
- 大規模言語モデルの活用により,自律エージェントの重要性が増しており,そのプライバシー保護が不可欠である。
- 従来の自律エージェントアーキテクチャでは,有用性ばかりが重視され,プライバシー保護が軽視される傾向があった。
- エージェントが複数のツールを連携させて情報を集約・推論する際に生じる新たな情報漏洩リスクを特定し,その軽減策を提案する。
- エージェントツール編成による情報漏洩リスク(TOP-R)が存在し,代表的なモデルの平均漏洩率は90.24%に達することが判明した。
- 新たにH-Scoreという指標を導入し,安全性と堅牢性のトレードオフを定量的に評価した。現在のモデルではH-Scoreは0.3を超えない。
- 提案手法であるPrivacy Enhancement Principle(PEP)は,漏洩率を46.58%に低減し,H-Scoreを0.624に大幅に改善することに成功した。
コストを考慮した分散型LLM推論のためのPoQの設計と評価 [cs.AI]目的:分散型LLM推論におけるコストを考慮したPoQフレームワークの設計と評価
- LLMの分散化は,AIへの透明性と検閲耐性のあるアクセスを提供する上で重要である。
- 既存の検証手法は,最新のモデルへのスケーラビリティに課題を抱えている。
- 計算コストの異なるノード間で効率性を考慮したPoQメカニズムを確立し,経済的に持続可能な分散型LLM推論を実現する。
- セマンティックテキスト類似度に基づくBi-Encoderが,Ground TruthおよびGPTスコアとの相関がCross Encoderよりも高いことが示された。
- 大規模モデルは,単位遅延あたりの品質の点でより効率的であることが明らかになった。
- モンテカルロシミュレーションの結果,コストを考慮した報酬制度は,高品質で低コストな推論モデルと効率的な評価者に高い報酬を割り当てることが確認された。
事前学習済みバッテリーTransformer(PBT):バッテリー寿命予測の基礎モデル [eess.SY, cs.SY, cs.LG, cs.AI]目的:バッテリー寿命予測のための基礎モデル
- バッテリー研究,製造,実用化を加速するには,早期の寿命予測が不可欠である。
- 多様な劣化条件によるデータ不足と異質性が,機械学習の進歩を妨げている。
- バッテリー寿命予測における普遍的なモデル構築を目指す。
- PBTは,13種類のLIBデータセットから転移学習を通じて汎化性能を獲得する。
- 既存モデルと比較して平均19.8%高い予測精度を示す。
- 様々な条件下,化学組成のLIBデータセットで最先端の性能を達成した。
AIは物理学を必要とする,物理学がAIを必要とするのではない [cs.AI]目的:AIの現状と物理学からの貢献可能性
- AI技術は社会変革の可能性を秘めているが,その実用的な影響は限定的である。
- 現在のAIは,パラメータ数の多さ,バイアス,不確実性の定量化の欠如などの課題を抱えている。
- 物理学の理論的厳密性と機械学習の柔軟性を融合させた「Big AI」の実現を目指す。
- 現在のAIアーキテクチャは,無意味なパラメータに依存し,科学的法則を捉えきれていない。
- 量子AIやアナログコンピューティングなどの分野に,AIの新たな可能性が示唆されている。
- 物理学の知見をAIに導入することで,AIの性能と信頼性を向上させることが期待される。
ビジョン言語モデルの協調的なエッジ・サーバ推論 [cs.IR, cs.CV, cs.AI]目的:ビジョン言語モデルにおける通信コスト削減と推論精度維持
- 近年のビジョン言語モデルの発展は,画像とテキストを理解するAIの可能性を広げている。
- エッジデバイスからサーバへの画像送信は,通信コストが増大し,遅延を生む原因となる。
- 重要な画像情報を選択的に再送信することで,通信コストを削減し,精度を維持することを目指す。
- 提案手法は,サーバが全画像で推論を行い,注意機構を用いて関心領域を特定する。
- 最小エントロピーを用いて推論の確信度を評価し,必要に応じてエッジデバイスに詳細画像を要求する。
- 複数のビジョン言語モデルアーキテクチャで,通信コストの大幅な削減と推論精度の維持を実証した。
聴くことによる翻訳:LLMへの音声モダリティ統合の有効性 [cs.CL, cs.AI, cs.SD]目的:音声翻訳の品質向上
- グローバル化の進展により,多言語間のコミュニケーション需要が拡大しているため。
- 従来の音声翻訳は,音声認識と機械翻訳の組み合わせであり,エラー伝播が課題となっている。
- 音声モダリティを直接統合したSpeechLLMの性能を検証し,改善点を見出す。
- 最新のSpeechLLM5機種と,既存の音声認識・機械翻訳システム16個を比較評価した。
- 広範な評価の結果,現状では従来のシステムの方が信頼性が高いことが示された。
- LLMの統合が音声翻訳の品質向上に不可欠であり,音声基盤モデルはLLMに劣るという結果が出た。
トモグラフィックquantile森林による多変量不確実性定量化 [eess.SY, cs.SY, cs.NI, cs.LG, stat.ML]目的:多変量目標に対する不確実性を考慮した回帰モデリング
- 安全で信頼性の高い現実世界のAI展開には,予測における不確実性の定量化が不可欠である。
- 多変量目標に対する条件付き分布の完全な非パラメトリック推定は依然として困難である。
- 多変量条件付き分布を効率的に推定し,凸性制約なしに全方向を網羅すること。
- 提案手法であるTQFは,入力と単位方向の関数として方向投影の条件付き分位数を学習する。
- 多数の方向からの分位数を集約し,スライスドWasserstein距離を最小化する効率的な交互スキームにより,多変量条件付き分布を再構築する。
- TQFは,異なる方向に対して個別のモデルを訓練する必要なく,単一のモデルで全方向をカバーできる。
ツリーアンサンブルにおける公平性の定量検証 [cs.LG]目的:ツリーアンサンブルにおける公平性の定量評価
- 機械学習モデルの社会実装が進む中で,公平性の確保は重要な課題となっている。
- 既存の検証手法は反例を提示するのみで,バイアスの診断や軽減には不十分である。
- ツリーアンサンブルの構造に着目し,効率的な公平性定量化手法を開発すること。
- 提案手法は,あらゆる時点での上限と下限を提供し,既存手法よりも効率的である。
- 5つのデータセットを用いた実験により,提案手法の有効性と効率性が実証された。
- 公平性テストへの適用において,最先端のテスト技術を大幅に上回る性能を示した。
Kascade:長文コンテキストLLM推論のための実用的な疎注意法 [cs.LG, cs.AI, cs.DC]目的:長文コンテキストLLM推論における遅延の削減
- LLMの高性能化に伴い,長文コンテキスト処理の重要性が増している。
- 長文コンテキスト処理における注意機構の計算コストがボトルネックとなっている。
- 注意機構の疎性化により,計算コストを削減し,推論速度を向上させる。
- Kascadeは,アンカー層で計算された上位k個のインデックスを再利用することで,推論速度を最大4.1倍に向上させた。
- 事前学習済みのモデルに対して追加の学習を必要とせず,高い精度を維持しながら高速化を実現した。
- LongBenchやAIME-24といった長文コンテキストベンチマークにおいて,密な注意機構と同等の精度を達成した。
PCIA:グローバル最適化のための経路構築模倣アルゴリズム [cs.AI]目的:グローバル最適化のための経路構築模倣アルゴリズムの開発
- 複雑な問題解決において,効率的な最適化手法の確立が不可欠である。
- 既存の最適化アルゴリズムでは,局所解に陥りやすく,グローバルな最適解を見つけることが困難である。
- 人間の経路構築の知恵を模倣し,よりロバストで高性能な最適化アルゴリズムを開発すること。
- 提案手法PCIAは,53個の数学的最適化問題および13個の制約付き最適化問題において,既存のメタヒューリスティックアルゴリズムと比較して高い競争力を示す。
- PCIAは,人間の経路選択行動を模倣することで,多様な探索空間を効率的に探索し,局所解への陥入を防ぐ。
- 本研究により,現実世界の複雑な問題に対する新たな最適化手法の可能性が示唆される。
ガウススプラットを用いた高忠実度な顔面形状とテクスチャの生成 [cs.CV, cs.AI, cs.GR]目的:顔面画像の集合から,高精度な3次元顔面モデルの生成
- 近年,3次元ニューラル表現が発展し,多様な応用が期待されている。
- 従来の3次元顔面モデル生成は,多数の画像や動画を必要とする場合が多い。
- 少ない画像枚数でも高精度な顔面モデルを生成し,既存のグラフィックスパイプラインに容易に組み込めるようにする。
- ガウススプラッティングを活用することで,11枚の画像から中立的なポーズの顔面形状を再構築することに成功した。
- 生成された3次元形状は,標準的なグラフィックスパイプラインで利用可能であり,多様なアセットへの適用が容易である。
- ライティングの影響を分離することで,高解像度なアルベドテクスチャを取得し,標準的なパイプラインで利用できる。
自己進化するハイパーネットワーク [cs.CL, cs.NE, cs.AI]目的:ニューラルネットワークの自己進化機構
- 機械学習の進歩には最適化手法が不可欠だが,その限界も指摘されている。
- 外部の最適化手法に依存しない,自己完結的な進化システムの構築が課題である。
- ネットワーク自身が変異と選択を行う機構を構築し,自己進化能力を獲得する。
- 自己参照グラフハイパーネットワーク(Self-Referential GHN)は,環境変化のあるベンチマークで迅速かつ信頼性の高い適応を示した。
- Ant-v5のロコモーションベンチマークでは,一貫性のある歩様が進化し,有望な解に集中することで微調整能力を発揮した。
- これらの結果は,自己進化能力がニューラルネットワークの自己参照から創発しうることを示唆している。
NDRL:綿の灌漑と窒素施肥におけるネストされた二重エージェント強化学習 [cs.LG, cs.MA]目的:綿の灌漑と窒素施肥における最適化戦略の開発
- 食糧増産と資源の効率利用が重要であり,綿栽培はその鍵となる。
- 灌漑と窒素施肥の組み合わせ最適化は複雑であり,収量向上に限界がある。
- 水と窒素の微小なストレス信号の定量化と遅延フィードバックの問題を解決する。
- 提案手法NDRLは,既存手法と比較してシミュレーション収量を2023年,2024年ともに4.7%向上させた。
- 灌漑水の生産性と窒素利用効率も,それぞれ5.6%,6.3%向上し,資源利用の効率化を示した。
- 本研究は,綿の灌漑と窒素施肥の発展に貢献し,持続可能な農業発展に新たな知見を提供する。
幾何学的ラプラスニューラル演算子 [cs.LG]目的:関数空間間の写像学習
- 偏微分方程式の効率的な解法に貢献する基盤技術として重要である。
- 非周期的な励起や過渡応答,不規則な形状への対応が課題であった。
- 任意のリーマン多様体上で演算子学習を可能にする手法を開発する。
- 提案手法は,極と残差分解に指数関数基底を組み込むことで,非周期性や減衰ダイナミクスのモデリングを可能にした。
- ラプラススペクトル表現をラプラス・ベルトrami演算子の固有基底に埋め込むことで,周期性や一様グリッドを必要としない。
- PDE/ODEや実世界データセットにおける実験で,最先端モデルに対するロバストな性能が示された。
Synthelite:LLMを用いた化学者協調型,実現可能性考慮の合成計画 [cs.AI]目的:化学者と連携し,実現可能性を考慮した合成計画の生成
- 合成化学の効率化は,新薬開発や材料科学の発展に不可欠である。
- 既存の合成計画支援システムは,専門家の知見を組み込みにくく,柔軟性に欠ける。
- LLMを活用し,化学者の意図を反映した,より現実的な合成ルートを提案すること。
- Syntheliteは,LLMを用いて直接逆合成変換を提案し,包括的な合成ルートを生成可能である。
- ユーザーが指定した制約(戦略,出発物質など)に柔軟に対応し,最大95%の成功率を示した。
- 合成ルート設計において,化学的な実現可能性を考慮できることが示された。
ORKG ASKの紹介:神経記号アプローチを用いたAI駆動の学術文献検索・探索システム [cs.IR, cs.AI]目的:学術文献の検索と探索
- 学術論文の量は増加の一途を辿っており,研究者は関連文献を見つけるのに苦労している
- 従来の検索システムでは,研究者の意図を正確に捉えきれず,関連文献の抽出が困難である
- 自然言語による質問に対応し,関連文献の抽出と回答生成を支援することで,研究活動を効率化する
- ASKは,ベクトル検索,LLM,知識グラフを組み合わせることで,学術文献の検索と探索を支援する
- ユーザーは自然言語で研究課題を入力でき,システムは関連論文を検索し,キー情報を抽出して回答を生成する
- 評価の結果,ASKは使いやすく,ユーザーはシステムに概ね満足していることが示された
マルチフィデリティ遅延受容:深層ニューラルネットワークによる多重ソルバーの組み合わせを通じたベイズ逆問題のための階層的MCMCサンプリング [cs.HC, cs.LG, cs.NA, math.NA]目的:ベイズ逆問題に対する多重フィデリティ遅延受容スキーム
- 物理モデルに基づく逆不確実性定量は計算コストが高く,効率的なサンプリング手法が求められている。
- 高精度なデータ生成コストが高く,低精度なデータのみでは逆問題の精度が低下する可能性がある。
- 異なる精度のソルバーを組み合わせることで,計算コストを抑えつつ逆問題の精度を向上させる。
- 提案手法は,様々な精度のソルバーの予測を組み合わせる多重フィデリティニューラルネットワークを用いることで,高精度なシミュレーションを削減する。
- 異種粗解像度ソルバーを階層構造に組み込むことができ,柔軟性が高い。
- 地下水流や反応拡散系のベンチマーク問題において,計算コストの大幅な削減と精度向上が確認された。
マルチエージェント決定システムにおける創発的バイアスと公平性 [cs.LG, cs.AI]目的:マルチエージェント予測システムの公平性評価手法
- 金融などの重要領域において,意思決定のバイアスは法規制違反や経済的損失に繋がるため,公平性の確保が不可欠である。
- マルチエージェントシステムのバイアスリスクを評価する有効な手法が不足しており,安全なシステム展開が困難である。
- 金融分野におけるマルチエージェントシステムの公平性リスクを定量的に評価し,その改善策を提示すること。
- 大規模シミュレーションにより,個々のエージェントからは説明できない,金融意思決定における創発的なバイアスのパターンが明らかになった。
- マルチエージェントシステムは,構成要素の還元的な分析ではなく,全体として評価される必要があることが示された。
- 金融におけるマルチエージェントシステムの公平性リスクはモデルリスクの重要な要素であり,信用スコアリングや収入推定に影響を与える。
風力タービンブレード故障検出における新提案:エネルギー効率と持続可能性への統合的アプローチ [cs.DL, cs.LG, physics.app-ph]目的:風力タービンブレードの故障検出手法
- 再生可能エネルギー利用拡大のため,風力発電の安定稼働が不可欠である。
- ブレード故障は発電停止に直結し,コスト増大の要因となる。
- 早期故障検出により,計画外停止を減らし,メンテナンス効率を向上させる。
- ロジスティック回帰は,ニューラルネットワーク,決定木,ナイーブベイズ法を上回る性能を示した。
- クラスタリングは,教師あり学習法と比較して,データ特性の把握に優れている。
- 異なる計算学習手法の統合により,システムの信頼性向上に貢献する可能性がある。
TIB AIアシスタント:研究ライフサイクル全体を支援するAIプラットフォーム [cs.AI]目的:AI支援研究のためのプラットフォーム
- 学術研究におけるAI活用は,研究効率化や新たな発見の促進に不可欠である。
- 研究プロセス全体を通してAIを効果的に活用するための統合的な環境が不足している。
- 研究ライフサイクル全体を支援するAIプラットフォームを構築し,研究活動の効率化を目指す。
- TIB AIアシスタントは,研究ライフサイクル全体を支援する様々なAIアシスタント群を提供する。
- 各アシスタントは特定の研究タスクを担当し,外部の学術サービスへのアクセスも可能である。
- 生成されたデータはアセットとして保存され,RO-Crateバンドルとしてエクスポートすることで,透明性と再現性を高める。
StarCraft+: 敵対的パラダイムにおけるマルチエージェントアルゴリズムのベンチマーク [cs.AI]目的:マルチエージェントアルゴリズムのベンチマーク環境の確立
- 協調的知能分野において,深層マルチエージェント強化学習は急速に発展しており,その評価が重要である。
- 既存のベンチマーク環境では,対戦相手の多様性が限られており,アルゴリズムの汎用性を十分に評価できない。
- アルゴリズム同士が対戦する環境を構築し,より公平で多様な評価を可能にすることを目指す。
- StarCraft II battle arena (SC2BA)という,アルゴリズム対アルゴリズムの対戦環境を構築した。
- SC2BA上で,ペア対戦と複数アルゴリズム混合対戦の2種類の敵対的モードでベンチマーク実験を実施した。
- 実験結果から,既存のアルゴリズムの有効性,感度,スケーラビリティに関する示唆に富む観察結果が得られた。
トピックモデルのブラックボックス最適化 [cs.LG, cs.AI, cs.CL, cs.NE]目的:潜在ディリクレ配分(LDA)におけるトピック数Tの選択
- トピックモデルは,大量のテキストデータから有用な情報を抽出する上で重要な手法である。
- 適切なトピック数Tの決定は困難であり,モデルの性能と解釈性に大きく影響する。
- 少ない計算資源で,より効率的に最適なトピック数Tを見つけ出すことを目指す。
- 遺伝的アルゴリズム(GA)や進化戦略(ES)と比較して,学習型最適化手法PABBOとSABBOがサンプル効率と時間効率で優れていることが示された。
- 特にSABBOは,ほとんど1回の評価でほぼ最適なトピック数を特定できる。
- PABBOも,GAやESが全予算を必要とするのに対し,数回の評価で競争力のある設定を見つける。
E-SDS:環境認識型See it, Do it, Sorted - 人型ロボットの運動のための環境認識型強化学習の自動化 [cs.RO, cs.AI]目的:人型ロボットの運動に関する報酬設計の自動化
- 人型ロボットの運動制御は,多様な環境への適応が不可欠であり,その自動化が求められている。
- 従来の強化学習では,熟練した人間の手による報酬設計が必要であり,時間と労力を要する。
- 環境認識能力を組み込むことで,複雑な地形でもロバストな運動を学習させることを目指す。
- E-SDSは,リアルタイムの地形センサー解析とビジョン言語モデルを統合し,自動的に報酬関数を生成する。
- 階段の下降に成功した他,全ての地形において速度追従誤差を51.9~82.6%削減した。
- 報酬設計にかかる労力を大幅に削減(数日から2時間未満)し,よりロバストな運動ポリシーを実現した。
AI支援研究へ:TIB AIアシスタントの展望 [cs.AI]目的:研究ワークフローの拡張可能性
- 研究活動の効率化が求められており,AI技術はその重要な鍵となる。
- AIの活用には,専門知識の不足やツールの連携,AIの精度といった課題が存在する。
- 学術研究のライフサイクル全体をAIで支援するプラットフォームの実現を目指す。
- TIB AIアシスタントは,学問分野を問わず研究者を支援する人間と機械の協調プラットフォームである。
- 本プラットフォームは,プロンプトやツールライブラリ,データストア,オーケストレーションフレームワークを備えている。
- これにより,研究のアイデア創出から論文執筆まで,幅広いタスクを支援し,実現可能性を示すプロトタイプを開発した。
IoMTベースのCNNと高次特異値分解を用いた白血病自動分類 [cs.LG, cs.AI]目的:白血病細胞と正常細胞の分類
- 医療分野におけるIoT(IoMT)の活用は,迅速かつ正確な診断を可能にし,医療の質向上に貢献する。
- 白血病の診断は熟練した病理医の目で判断する必要があり,人的エラーや時間的制約が課題となる。
- AI技術を用いて,白血病細胞の自動分類を実現し,診断の効率化と精度向上を目指す。
- IoMT構造とCNNおよび高次特異値分解を組み合わせることで,白血病細胞の迅速かつ安全な識別が可能となった。
- ALL-IDB2データベースを用いた実験で,平均精度98.88%を達成し,高い分類性能を示した。
- 本研究の成果は,患者と医療従事者間のリアルタイムな情報共有を促進し,より適切な治療選択に貢献する。
時系列データからレポート生成による大規模言語モデルを用いたリチウムイオン電池の適応的管理 [cs.RO, cs.CY, econ.GN, q-fin.EC, cs.AI]目的:リチウムイオン電池の時系列データに基づいた,大規模言語モデルによる異常検知,充電状態予測,充放電管理の性能向上
- エネルギー貯蔵システムは再生可能エネルギーの普及に不可欠であり,その効率的な運用・保守が重要である。
- 既存の手法では,複雑な時系列データの解釈と,それに基づく高度な意思決定が困難であった。
- 本研究は,大規模言語モデルがリチウムイオン電池の運用データを理解し,適切な判断を下せるようにすることを目的とする。
- TimeSeries2Report (TS2R)は,時系列データを構造化されたレポートに変換し,大規模言語モデルの推論能力を高める。
- TS2Rは,精度,堅牢性,説明可能性の点で,従来のプロンプティング手法よりも優れた性能を示すことが確認された。
- TS2Rを統合した大規模言語モデルは,再学習やアーキテクチャ変更なしに,専門家レベルの意思決定と予測の一貫性を実現する。
科学研究における人工知能のための連合クラウドプラットフォームAI4EOSC [cs.RO, cs.DC, cs.AI]目的:科学研究における人工知能を支援するための連合コンピューティングプラットフォーム
- 科学研究の進展には,高性能な計算資源とデータ分析が不可欠である。
- 既存の計算資源は分散しており,利用方法が煩雑で,再現性が課題となっている。
- 分散した計算資源を統合し,人工知能モデルの開発・学習・デプロイメントを容易にする。
- 本プラットフォームは,物理的に分散したインフラストラクチャへの一貫したアクセスを提供し,再現性のある環境を実現する。
- 機械学習のライフサイクル全体をカバーする統合的なユーザーエクスペリエンスを提供する。
- AIモデルのトレーサビリティと再現性を確保し,外部コミュニティによる導入を容易にする。
cuPilot:CUDAカーネル進化のための戦略協調型マルチエージェントフレームワーク [cs.AI]目的:CUDAカーネル進化のための戦略協調型マルチエージェントフレームワーク
- CUDAカーネルの最適化は,ハードウェアとソフトウェアの共同設計の専門知識が必要であり,高性能カーネルライブラリが独自仕様であることが多い。
- 既存のアプローチでは,エージェント設計や進化表現が最適化されておらず,性能が十分でない場合がある。
- カーネル進化の中間的な意味表現として戦略を導入し,性能向上を目指す。
- cuPilotによって生成されたカーネルは,100個のカーネルのベンチマークにおいて,PyTorchと比較して平均3.09倍の高速化を達成した。
- GEMMタスクにおいて,cuPilotは洗練された最適化を示し,重要なハードウェアユニットの高度な活用を実現した。
- 生成されたカーネルは,https://github.com/champloo2878/cuPilot-Kernels.git で公開されている。
忠実度ギャップの定量化と橋渡し:決定的特徴アプローチによる合成画像と実画像の比較 [cs.AI]目的:合成画像と実画像の間の忠実度ギャップの定量化と,そのギャップを埋めるための手法
- 自動運転車の安全性確保において,合成データを用いた仮想試験は不可欠である。現実世界への信頼性のある転移が重要。
- 従来の画像レベルの忠実度だけでは,現実世界での性能を保証できない。システムが判断に用いる根拠の一致が重要である。
- システムの判断根拠の一致度を測る指標を開発し,シミュレータの忠実度向上を目指す。
- 決定的特徴忠実度(DFF)は,システムが現実世界とシミュレーション環境で同じ根拠に基づいて判断しているかを評価する指標である。
- DFFは,従来の出力値に基づく忠実度指標では見過ごされる不一致を明らかにした。
- DFFを活用したキャリブレーションにより,出力値の忠実度を損なうことなく,決定的特徴と入力レベルの忠実度が向上した。
漸進的タンデム学習によるバッチ正規化不要な完全整数量子化ニューラルネットワーク [cs.RO, cs.NI, cs.HC, cs.DC, cs.CG, cs.LG, eess.SP]目的:完全整数量子化ニューラルネットワークの実現
- 深層学習モデルの小型化と省電力化が,エッジデバイス等の資源制約環境で重要視されている。
- 量子化ニューラルネットワークはバッチ正規化に依存しており,完全整数演算での実装が困難である。
- バッチ正規化を用いずに,高い精度を維持した完全整数量子化ニューラルネットワークを開発する。
- 本研究では,層ごとの蒸留と漸進的な補正を用いることで,バッチ正規化なしで完全整数量子化ニューラルネットワークを学習する手法を提案した。
- ImageNetデータセットを用いたAlexNetによる実験で,提案手法は積極的な量子化下で競争力のあるTop-1精度を達成した。
- 本手法は既存の量子化ワークフローに容易に統合でき,リソース制約のある環境での推論に貢献する。
盲目画像品質評価における知覚と推論を人間に近づける [cs.CV, cs.AI]目的:人間らしい知覚と一貫性のある推論能力の獲得
- 画像品質評価は,快適な視覚体験の保証や画像処理技術の向上に不可欠である。
- 既存の評価手法は,人間の知覚・推論プロセスを十分に捉えられていない。
- 人間の知覚・推論の特性をモデルに学習させ,より人間らしい評価を実現する。
- 提案手法は,一般的な指標において最先端の画像品質評価システムと同等の性能を達成した。
- モデルが生成した説明と人間の知覚・推論の類似性をROUGE-1で評価した結果,ベースラインよりも高いスコア(0.512 vs 0.443)を示した。
- これは,人間の説明に対する高いカバレッジを示し,BIQAにおける人間らしい解釈可能な推論への一歩となる。
微笑む顔,悲しむ目:眼と表情のマルチモーダルデータセットによる感情ギャップの解消 [cs.CV, cs.AI]目的:眼の行動を感情の重要な手がかりとして捉え,感情認識の精度向上
- 感情認識は,人間が持つ感情を理解するための重要な技術であり,人間と機械の円滑なコミュニケーションに不可欠である。
- 表情認識は感情認識の中心だが,社会的要因による偽りの表情が含まれる可能性があり,真の感情を反映しない場合がある。
- 表情認識の限界を克服し,より正確な感情認識を実現するため,眼の行動という新たな手がかりを取り入れる。
- 本研究では,眼の行動と表情を組み合わせたマルチモーダルデータセットEMERを構築し,感情認識の精度向上を試みた。
- 提案手法EMERTは,敵対的特徴分離とマルチタスクTransformerを用いて,眼の行動を表情認識に有効に組み込むことで,既存手法を大きく上回る性能を示した。
- 眼の行動が感情認識において重要な役割を果たすことを実証し,表情認識と感情認識のギャップ解消に貢献する。
経験的メタアルゴリズム研究における最良事例:COSEAL研究ネットワークからのガイドライン [cs.SI, cs.DB, cs.AI]目的:メタアルゴリズム研究の経験的実践における最良事例の体系化
- アルゴリズム選択や構成など,メタアルゴリズム研究は,計算資源を多く必要とする実験に依存する分野である。
- 実験設定の自由度が高いため,科学的知見の信頼性と拡張性を脅かす様々な誤りが発生しやすい。
- メタアルゴリズム研究における実験のサイクル全体を通して,信頼性の高い結果を得るための指針を提示する。
- 本報告は,COSEALコミュニティにおけるメタアルゴリズム研究の各分野における最良事例を集約したものである。
- 研究課題の定式化から実験デザインの選択,実験の実行,そして結果の公平な分析と提示まで,実験サイクル全体を網羅している。
- メタアルゴリズム研究における最新のベストプラクティスを確立し,新規研究者と実務家へのガイドラインとなる。
単眼3D人体姿勢推定のためのMixture-of-Expertsネットワーク: PoseMoE [cs.CV, cs.AI]目的:単眼画像からの3D人体姿勢推定における精度向上
- 3D人体姿勢推定は,VR/AR,モーションキャプチャ,人間行動理解など,多様な応用分野で重要性を増している。
- 従来のliftingベースの手法では,2D姿勢検出結果と未知の深度情報を混在して扱うため,深度の不確実性が推定精度を制限している。
- 本研究では,2D姿勢と深度の特徴を分離し,不確実な深度情報が2D姿勢推定に与える悪影響を軽減することを目指す。
- 提案手法PoseMoEは,専門家モジュールを用いて2D姿勢特徴と深度特徴をそれぞれ洗練させることで,特徴エンコーディングの分離を実現した。
- PoseMoEは,専門家間での知識集約モジュールを導入し,2D姿勢と深度間の双方向マッピングを通じて特徴を強化した。
- Human3.6M,MPI-INF-3DHP,3DPWの各データセットにおいて,既存のliftingベース手法を上回る性能を達成した。
AIワークロード演算子の最適化のための研究プラットフォームXTC [cs.PF, cs.AI]目的:AIワークロード演算子の最適化
- AIの発展に伴い,演算効率の向上が不可欠である。
- 既存のスケジューリング言語は特定のコンパイラに依存し,比較が困難である。
- スケジューリング仕様とコード生成・測定を分離し,公平な評価を可能とする。
- XTCは,コンパイラを横断したスケジューリングと性能評価を統合するプラットフォームである。
- 共通APIと再現性のある測定フレームワークにより,移植可能な実験を促進する。
- 最適化戦略の研究を加速させることが期待される。
疑似ケプストラム:メルベースのニューラル音声合成器向けピッチ変調 [cs.HC, eess.AS, cs.SD, cs.LG, eess.AS]目的:メルスペクトログラム表現に適用可能なケプストラムベースのピッチ変調手法
- 高品質な音声合成は,人間と機械の自然な対話を可能にする上で不可欠である。
- 従来のピッチ変調手法は,特定の音声合成モデルに依存し,汎用性に欠ける場合がある。
- メルベースのニューラル音声合成器において,追加学習やモデル変更なしにピッチ変調を可能にすること。
- 提案手法は,ケプストラム領域で調波構造を直接変調することで,任意のメルベースの音声合成器に適用可能である。
- 疑似逆メル変換とDCTを用いることで,ピッチピークのシフトを正確に行い,変調されたメルスペクトログラムを生成する。
- 客観評価と主観評価の結果,提案手法は既存のピッチ変調手法と同等またはそれ以上の性能を示すことが確認された。
TTP:Vision-Languageモデルにおける敵対的検出とロバスト適応のためのテスト時パディング [cs.CV, cs.AI]目的:Vision-Languageモデルの敵対的攻撃に対するロバスト性と,クリーンな入力に対する精度向上
- Vision-Languageモデルは画像とテキストの理解に優れるが,セキュリティ上の脆弱性が課題となっている。
- 既存の防御手法は再学習が必要,または敵対的入力とクリーンな入力の識別が不十分である。
- テスト時に敵対的入力を検出し,注意機構を調整することでロバスト性と精度を両立することを目指す。
- 本研究では,テスト時パディング(TTP)という軽量な防御フレームワークを提案し,敵対的入力の検出と適応を可能にした。
- TTPは,CLIP特徴埋め込みのコサイン類似度の変化を利用して,モデル構造やデータセットに依存しない信頼性の高い検出閾値を設定する。
- 実験結果から,TTPは既存のテスト時防御手法を上回り,精度を損なうことなくロバスト性を大幅に向上させることが示された。
生成アートにおけるパラメータ探査のためのフレームワーク [cs.AI, cs.HC, cs.SE]目的:生成アートのパラメータ空間における探査
- 生成アートの表現力向上には,パラメータの最適化が不可欠である。
- パラメータ空間が広大であるため,手動での試行錯誤に限界がある。
- 人間と連携したパラメータ探査を効率的に行う手法の確立。
- ParamExplorerは,強化学習に着想を得たインタラクティブなフレームワークである。
- p5.jsプロジェクトへの組み込みが容易であり,既存のツールとの連携が可能である。
- 複数の探査戦略(エージェント)を実装し,その有効性を評価した。
LLMを用いた生物医学テキストの平易化:評価指標の比較 [cs.CL, cs.AI]目的:生物医学テキスト平易化におけるLLMの適用可能性評価
- 健康リテラシー向上は,医療格差是正や患者の主体的な健康管理に不可欠である。
- 専門的な生物医学テキストは理解が難しく,一般市民への情報伝達の障壁となっている。
- LLMを活用することで,専門テキストを平易化し,より多くの人々に情報アクセスを可能とする。
- GPT-4o-miniが他のアプローチよりも優れた性能を示し,ファインチューニングのアプローチは期待を下回った。
- LLMベースの定量評価指標であるG-Evalは,定性評価の結果と類似した順位付けを示し,有望な結果が得られた。
- フレッシュ・キンケイド読解しやすさ指数やSMOG指数などの指標も,平易化の程度を評価する上で有効であった。
ローカルLLMのエネルギー効率に関するスケーリング則 [cs.AI]目的:ローカルLLMおよびビジョン-言語モデルのエネルギー効率の調査
- エッジデバイスでのAI活用が拡大する中,計算資源とエネルギー消費の最適化が不可欠である。
- GPU中心のベンチマークが多く,CPUのみの環境におけるスケーリング則が未解明である。
- CPU環境におけるLLMとビジョン-言語モデルのスケーリング則を明らかにすること。
- LLMの計算コストはトークン長にほぼ線形に比例して増加する。
- ビジョン-言語モデルは,ある解像度以上では計算量が一定となり,それ以下では急激に減少する「解像度ニー」を示す。
- 量子に着想を得た圧縮により,CPUとメモリ使用量を最大71.9%,エネルギー消費量を最大62%削減できる。
パーソナライズから偏見へ:採用における記憶拡張型AIエージェントのバイアスと差別 [cs.AI, cs.IR]目的:採用における記憶拡張型AIエージェントのバイアスと差別
- AI技術は,採用プロセスを含む様々な分野で活用が進んでおり,効率化や客観性の向上が期待されている。
- AIモデルには,学習データに内在するバイアスが反映され,差別的な結果を生み出す可能性がある。
- 記憶機能を付加したAIエージェントがバイアスをどのように増幅するかを明らかにすること。
- 記憶拡張型AIエージェントは,パーソナライズを通じて系統的にバイアスを導入・強化することが示された。
- 特に採用プロセスにおいて,安全対策が施されたLLMを利用した場合でも,バイアスの悪化が確認された。
- 記憶拡張型LLMベースのAIエージェントには,追加の保護措置やガードレールが不可欠である。
LLMベースの脆弱性検出に対するコード難読化の体系的研究 [cs.CR, cs.LG]目的:LLMベースの脆弱性検出に対するコード難読化の影響評価
- 近年,LLMがコードの脆弱性検出に利用され,その信頼性向上は重要である。
- 既存の難読化手法は多様であり,LLMへの影響を系統的に評価することが困難である。
- コード難読化の種類別に影響を評価し,LLMの脆弱性検出のロバスト性を高める。
- コード難読化は,LLMベースの脆弱性検出にプラス・マイナスの両方の影響を与えることが示された。
- 脆弱性の特性,コードの性質,モデルの属性によって,難読化の効果が変化することが明らかになった。
- LLMのロバスト性を向上させるための課題と今後の方向性が示された。
ウェブ上の針:実環境における対象ウェブページの検索ベンチマーク [cs.CL, cs.AI, cs.CL]目的:曖昧で探索的なクエリに対する,実世界のウェブコンテンツの検索と推論能力の評価
- LLMは高度なタスク自動化を実現するが,その性能評価には実環境での情報検索能力が重要である。
- 既存のベンチマークは複雑な推論検索に偏っており,曖昧なクエリに対する最適なウェブページ検索の評価が不足している。
- 曖昧で多面的なクエリに対する効果的な検索能力の課題解決を目指す。
- Needle in the Webは,7つの分野にわたる663の質問で構成される新しいベンチマークである。
- 評価したLLMやエージェント系検索システムは,全体的に低い精度(35%以下)にとどまり,一貫した性能を示すものはなかった。
- この結果は,現在の検索システムが曖昧なクエリに対する効果的な検索において課題を抱えていることを示唆している。
持続的多重尺度密度ベースクラスタリング [cs.RO, cs.FL, cs.MA, cs.SY, eess.SY, cs.LG]目的:データ解析におけるクラスタの検出
- 現代データ分析の基盤であり,データの探索的分析に不可欠な手法である。
- 適切なハイパーパラメータ選択が困難であり,事前のデータ分布知識が必要となる。
- データ分布の事前知識なしに安定したクラスタを検出することを目指す。
- PLSCANは,HDBSCAN*が安定したクラスタを生成する最小クラスタサイズを効率的に特定する。
- 実世界のデータセットにおいて,HDBSCAN*よりも高いARI平均値を示し,パラメータへの感度が低いことが示された。
- 低次元データセットではk-Meansと同程度の計算時間を持ち,高次元ではHDBSCAN*と同様にスケールする。
アバカス:系列ユーザモデリングのための自己教師ありイベントカウントアラインド分布事前学習 [cs.LG, cs.IR]目的:ディスプレイ広告システムにおけるユーザの購買行動のモデリング
- リアルタイム入札において,ユーザの行動予測は不可欠であり,広告効果の最大化に繋がる重要な課題である。
- 正のユーザイベントの稀少性や行動の確率性により,クラス不均衡や不規則なイベントタイミングが問題となる。
- イベントカウント統計を考慮した,より高精度なユーザ行動予測モデルの構築を目指す。
- アバカス事前学習は,既存手法と比較して,下流タスクの収束を加速させる効果が確認された。
- ハイブリッドアプローチは,ベースラインと比較して,AUCを最大6.1%向上させる結果が得られた。
- ユーザイベントの経験的頻度分布を予測する新しいアプローチが有効であることが示された。
Yuan-TecSwin:Swin-transformerブロックを用いたテキスト条件付き拡散モデル [cs.CV, cs.AI]目的:テキスト条件付き画像生成における拡散モデルの性能向上
- 画像生成技術は,多様な応用分野で重要性を増しており,高品質な生成が求められている。
- 従来のCNNベースの拡散モデルでは,長距離の文脈情報を捉えることが課題となっていた。
- Swin-transformerブロックを導入し,非局所的なモデリング能力を高めることで,この課題を解決する。
- Yuan-TecSwinは,ImageNet生成ベンチマークにおいて,最先端のFIDスコア1.37を達成した。
- Swin-transformerブロックにより,特徴抽出と画像復元の両方において,長距離の文脈情報をより効果的に捉えることができた。
- 人間の評価実験では,生成画像と実画像との区別が困難であった。
拒否誘導:機密性の高いトピックに対するLLMの拒否行動の微調整制御 [cs.CL, cs.AI]目的:LLMの機密性の高いトピックに対する拒否行動の微調整制御
- LLMの安全性確保は重要である。不適切なコンテンツ生成を防ぐ必要があるため。
- LLMは機密性の高いトピックに対して過剰に拒否行動を示す場合がある。
- LLMの拒否行動を適切に制御し,安全性と有用性のバランスを取る。
- 本手法により,LLMの機密性の高いトピックに対する拒否行動を,再学習なしに除去できる。
- Qwen3-Next-80B-A3B-Thinkingにおいて,安全性評価や汎用ベンチマーク性能を維持しつつ,拒否行動の抑制を実証した。
- 活性化ベクトルの分析から,拒否信号はTransformerの深い層に集中し,多くの次元に分散していることが示された。
推測するな,段階的に進めよ:説明可能な不確実性較正AIフォレンジックエージェントへ [cs.MA, cs.AI, cs.CV, cs.MM]目的:AIフォレンジックエージェントの実現
- デジタルコンテンツの改ざん検出は,証拠の信頼性確保に不可欠である。
- 既存のフォレンジック手法は,複雑な状況への対応や不確実性の評価が困難である。
- AIによる自動化と,不確実性の明示的な取り扱いによる信頼性向上を目指す。
- AIフォレンジックエージェントは,複数の検出器を組み合わせ,信頼性の高い結果を提供する。
- 本研究では,フォレンジックプロセスの改善に向けた統一的なフレームワークを提案する。
- 不確実性を考慮することで,より正確な真実性検証が可能になる。
人間からのフィードバックを用いたスタッケルベルク学習:嗜好最適化を逐次ゲームとして [cs.LG, cs.AI, cs.GT, cs.MA, stat.ML]目的:嗜好最適化問題
- AIの安全性と有用性の両立が重要であり,人間の意図に沿ったAI開発が求められている。
- 従来の強化学習では,人間の嗜好を正確に捉え,AIに反映することが困難であった。
- 人間の嗜好構造をより豊かに捉え,一貫性とロバスト性を高めた学習手法を確立する。
- SLHFは,リーダーとフォロワーの逐次ゲームとして嗜好最適化を捉え,より洗練された手法を提供する。
- 実験結果から,SLHFは多様な嗜好データセットにおいて高い性能を示し,モデル間の転移学習も可能であることが示された。
- RLHFやNLHFと比較して,一貫性,データへの感度,および不整合な嗜好に対するロバスト性において優位性が見られた。
