arXiv雑要約
AI - 2025/12/16 公開
音響分類のための合成蚊群データセット:概念実証 [cs.LG]目的:音響分類用合成蚊群データセット
- 蚊媒介疾患は世界的な健康問題であり,毎年70万人以上の死者を出している。
- 従来のデータセットは個体蚊の録音に労力がかかり,大規模なデータ収集が困難である。
- 本研究は,音響による蚊のリアルタイム監視を可能にするためのデータセットを構築する。
- 合成データセットを用いて軽量な深層学習モデルによる蚊種の分類実験を行った。
- 主要な蚊媒介種6種を高い精度で識別可能であり,低消費電力デバイスへの実装に適していることが示された。
- 合成蚊群オーディオデータセットが,蚊の研究を加速し,スケーラブルな監視ソリューションを可能にすることを示唆している。
ElasticVR:マルチユーザー・マルチコネクティビティワイヤレス仮想現実(VR)システムにおける弾力的なタスクコンピューティング [cs.IT, cs.LG, eess.IV, math.IT]目的:マルチユーザー・マルチコネクティビティ環境下におけるVRタスクの弾力的なコンピューティングオフローディング
- VR技術の発展に伴い,高精細なコンテンツ配信に対する需要が高まっている。
- 従来のVRシステムでは,通信,計算,消費電力,QoEのバランスが課題となっていた。
- VRタスクの弾力性を活用し,これらのトレードオフを最適化することを目指している。
- ElasticVRフレームワークにより,PSNRが43.21%向上した。
- 応答時間と消費電力は,それぞれ42.35%と56.83%削減された。
- CPPGとIPPGという二つのマルチエージェント深層強化学習ソリューションを提案した。
エントロピー崩壊:知能システムにおける普遍的な故障モード [cs.AI]目的:知能システムの普遍的な動的故障モードであるエントロピー崩壊の特定
- 学習,協調,最適化を通じて知能は向上すると広く考えられている。しかし,その限界も認識が必要である。
- 知能の向上は,硬直性や適応性の喪失,予期せぬ失敗につながるという逆説的な現象が観察されている。
- エントロピー崩壊を構造的なコストとして捉え,長期的な適応性を維持するための設計原則を提示すること。
- フィードバック増幅が有界な新規性の再生を上回る場合に,エントロピー崩壊が生じることを示した。
- 知能システムは,高エントロピーの適応的状態から低エントロピーの崩壊的状態へと急激な移行を示すことがわかった。
- AIモデルの崩壊,経済における制度硬直性,進化における遺伝的ボトルネックなど,多様な現象が同一の根底にある過程の現れであることが示唆された。
金融基盤モデルのデータ効率フロンティア:継続事前学習のスケーリング則 [cs.LG, cs.CL]目的:金融ドメイン特化のための大規模言語モデルの継続事前学習におけるスケーリング則の分析
- 金融分野における意思決定の高度化には,高性能な自然言語処理技術が不可欠である。
- 既存の汎用言語モデルでは,金融ドメイン固有の知識や表現が不足している場合がある。
- 継続事前学習による効率的なドメイン適応手法を確立し,実用的な金融基盤モデルを構築すること。
- 米国SECファイリングデータを用いた実験により,継続事前学習で両モデル(1B, 3Bパラメータ)ともSECドメインの検証損失が改善された。
- 特に最初の2億トークンで改善が大きく,その後は逓減する傾向が見られた。金融言語の規則性が高く,効率的に学習可能であることが示唆される。
- 汎用ドメインの検証損失はほとんど変化せず,破滅的忘却の兆候は見られなかった。データ効率フロンティアは,ドメイン特化と汎用性のバランスを示した。
時間的・群次元における価値の固定化によるフローマッチングモデルの調整 [cs.LG]目的:大規模言語モデルの調整能力向上
- 画像生成AIの性能向上は,現実世界への応用を広げる上で不可欠である。
- 既存手法では,生成過程における段階ごとの重要度の違いが考慮されていない。
- 報酬の多様性が失われることによる最適化の停滞を解消すること。
- 提案手法VGPOは,時間的・群次元における価値推定を再定義し,高精度な画像生成を可能にした。
- VGPOは,生成段階ごとの期待累積報酬をモデル化することで,正確な報酬配分を実現した。
- 実験の結果,VGPOは最先端の画像品質とタスク固有の精度を両立し,報酬ハッキングを効果的に抑制した。
DeepVekua:物理情報に基づいた場の幾何・スペクトル表現学習 [cs.NI, cs.LG]目的:偏微分方程式を解くための幾何・スペクトル表現学習手法
- 物理現象のシミュレーションは科学技術の発展に不可欠であり,高精度な計算手法が求められている。
- データが少ない状況下では,従来の物理情報ニューラルネットワークは性能が低下しやすい。
- 複雑な形状における偏微分方程式の解を,限られたデータから高精度に予測することを目指す。
- DeepVekuaは,幾何学的深層学習とスペクトル解析を組み合わせたハイブリッドアーキテクチャである。
- 複雑な形状を潜在的な調和空間へ写像する座標変換を学習することで,アドベクション拡散系において最先端の暗黙的表現を上回る性能を示す。
- スペクトルベースラインと比較して100倍の性能向上を達成した。
グラフはテーブル形式の基盤モデルを改善できるか? [cs.LG]目的:テーブル形式データの性能向上
- 現実世界のシステムにおいて,テーブル形式データは不可欠である。その活用法の改善は重要。
- 既存モデルは行間の関係性を明示的にモデル化できておらず,類似サンプル間の関連性が活かされていない。
- 事前学習済みのテーブル形式トランスフォーマーにグラフ構造を導入し,性能を向上させる。
- 提案手法BOLEROは,RoBERTa-Tabを拡張し,軽量なグラフニューラルネットワークを用いて行表現を改善する。
- TP-BERTaベンチマークにおける80の分類および64の回帰データセットで,既存手法と比較して統計的に有意な改善を示す。
- グラフ構造の導入が,事前学習済みテーブル形式トランスフォーマーの性能を向上させることを実証した。
LiDARビーム欠損復元のためのグラフアテンションネットワークに基づくフレームワーク [cs.DC, cs.CV, cs.AI]目的:LiDARビーム欠損の復元手法
- 自動運転車の3D環境認識において,LiDARは重要な役割を担う。
- LiDARセンサーの経年劣化や環境要因により,垂直方向のビームが欠損する問題がある。
- LiDARビーム欠損を,画像や時間情報なしに復元することを目指す。
- 提案手法は,LiDARデータを空間グラフとして表現し,グラフアテンションネットワークを用いて欠損した高さを予測する。
- KITTIデータセットを用いた実験により,平均RMSEが11.67cm,87.98%の点が10cm以内の誤差で復元された。
- 本手法は,LiDAR点群の幾何学的形状のみを用いて,現実的なセンサー劣化状況下で欠損ビームを効果的に復元可能であることを示した。
強さを感じるが源泉は不明:LLMにおける部分的な内省 [cs.AI]目的:LLMの内省能力に関する検証
- 大規模言語モデルの能力理解は,その安全性と信頼性向上に不可欠である。
- LLMの内省能力は不安定であり,プロンプトに大きく依存する可能性がある。
- LLMが内的な表現をどの程度正確に報告できるかを明らかにすること。
- LLMは,注入された概念を特定し,命名できる場合があるが,その性能はプロンプトに左右されやすい。
- LLMは,注入された概念ベクトルの強さを高い精度で分類できる。これは,内部表現の計算能力を示唆する。
- LLMの自己報告は狭く,プロンプトに敏感であり,内省能力には限界がある。
生成AI利用における批判的思考:批判的思考AI利用尺度開発,妥当性検証,および相関関係 [cs.AI, cs.HC]目的:生成AI利用における批判的思考の傾向測定尺度およびその妥当性
- AI技術の急速な進展により,その利用は社会に浸透している。AIの出力結果を適切に評価する能力が重要である。
- AIは流暢だが不透明であり,誤情報を生成する可能性がある。AI利用者は批判的思考なくAI出力を鵜呑みにしがちである。
- AI利用における批判的思考を測定する尺度の開発と,その妥当性を検証すること。
- 生成AI利用における批判的思考を測定する13項目の尺度が開発された。検証,動機づけ,熟考の3因子構造が確認された。
- 批判的思考AI利用尺度は,開放性,外向性,ポジティブな感情,AI利用頻度と正の相関関係が認められた。
- 高い批判的思考AI利用スコアは,より頻繁で多様な検証戦略,より正確な真偽判断,責任あるAIに関するより深い熟考を予測した。
ベトナム語インフォグラフィックに対する視覚的質問応答のベンチマーク [cs.CV, cs.LG]目的:ベトナム語インフォグラフィックにおける視覚的質問応答の性能評価
- インフォグラフィックは情報を効率的に伝達するため広く利用されており,その理解は重要である。
- 既存のVQAは自然画像やシーンテキストに偏っており,複雑なレイアウトを持つインフォグラフィックの理解は困難である。
- ベトナム語のインフォグラフィックにおける視覚的質問応答の新たな評価基準を確立し,モデルの課題を明らかにする。
- ViInfographicVQAは,経済,医療,教育など多様な分野の6747枚以上の実世界のインフォグラフィックと20409組の質問応答ペアを含む。
- Single-imageタスクでは単一インフォグラフィックからの回答を,Multi-imageタスクでは複数インフォグラフィック間の推論を評価する。
- 評価の結果,特にMulti-imageタスクにおいて,現在のビジョン言語モデルには課題が残ることが示された。
メモリスタ抵抗を用いた平衡伝播における学習ダイナミクス [cs.RO, cs.SY, eess.SY, cs.LG, cs.ET, cs.NE]目的:メモリスタ抵抗を用いた平衡伝播によるニューラルネットワークの学習挙動
- 近年,AI処理の複雑化に伴い,高速かつ低消費電力な計算手法が求められている。
- 従来のノイマン型アーキテクチャでは,メモリとプロセッサ間のデータ転送がボトルネックとなる。
- メモリスタ抵抗を用いたインメモリコンピューティングによる,このボトルネックの解消を目指す。
- 非線形なメモリスタ抵抗による重み更新が,平衡伝播の収束に影響を与えることを調査した。
- メモリスタ抵抗の抵抗値範囲が十分に広い場合,平衡伝播は安定した収束を示すことが確認された。
- 少なくとも1桁以上の抵抗値範囲があれば,非線形な重み更新下でもロバストな収束が期待できる。
スペクトルグラフクラスタリングの説明可能性に対する粗集合 [cs.LG, cs.AI]目的:スペクトルグラフクラスタリングの説明可能性の向上
- グラフ構造は複雑なデータ間の関係性を表現でき,多様な分野で活用が期待される。
- スペクトル空間での埋め込みは解釈が難しく,クラスタリング結果の説明性を損なう。
- 粗集合理論に基づき,クラスタリング結果の説明可能性を改善する手法を提案する。
- 提案手法は,内容が不明確な文書やクラスタリングアルゴリズムの確率的性質に起因する説明性の低下を抑制する。
- 粗集合理論の概念を導入することで,クラスタリング結果の根拠をより明確に示せるようになる。
- 本研究は,テキスト文書等のクラスタリング結果をユーザーが理解しやすい形で提示することを目指す。
AI透明性アトラス:フレームワーク,スコアリング,およびリアルタイムモデルカード評価パイプライン [cs.RO, cs.SI, cs.AI, cs.SE]目的:AIモデルの透明性評価フレームワークの開発
- AI技術の安全性と信頼性確保は,社会実装において不可欠である。
- AIモデルのドキュメントが分散・不統一であり,評価が困難である。
- AIモデルの透明性に関する評価基準を確立し,自動評価を可能にすること。
- AIモデルの透明性フレームワークを構築し,安全性とリスクに関する情報を重視したスコアリングを導入した。
- 開発した自動評価パイプラインは,少ないコストでAIモデルの透明性を評価できることを示した。
- 主要なAIモデルプロバイダーの透明性レベルにばらつきがあり,安全性に関する情報開示が不足していることが明らかになった。
線形スペクトル混合とスペクトル角認識再構成を用いた知識誘導型マスク自動エンコーダ [cs.CL, cs.LG]目的:知識誘導型マスク自動エンコーダの開発
- 深層学習の解釈性,汎化性能,データ効率向上の鍵は,ドメイン知識の統合にある。
- データ駆動型最適化のみでは,物理的な制約や構造的関係性を捉えきれない場合がある。
- 観測信号と潜在成分間の既知の構造的関係性を学習に組み込み,表現の整合性を高める。
- 提案手法は,線形スペクトル混合モデルとスペクトル角マッパーを損失関数に組み込み,数値精度と幾何学的一貫性を向上させた。
- 少ない教師データ下での学習を安定化させ,物理原理に基づいた解釈可能な潜在表現を獲得した。
- 再構成品質を大幅に向上させ,下流タスクの性能も改善することで,物理情報に基づいた誘導バイアスの有効性を示した。
コルモゴロフ・アーノルドネットワークの最適化アーキテクチャ [cs.CL, cs.LG, cs.NE, physics.data-an, stat.ML]目的:コルモゴロフ・アーノルドネットワークのコンパクトで解釈可能なモデルの学習
- 科学的機械学習において,表現力と解釈可能性の両立が重要である。
- 従来のKANのアーキテクチャ強化は複雑性を招き,解釈性を損なうことが課題であった。
- 過剰プロビジョニングとスパース化により,解釈性を維持しつつ高精度なモデルを構築すること。
- 過剰プロビジョニングとスパース化は相乗効果を発揮し,単独のいずれかよりも高い性能を示すことが示された。
- 関数近似,力学系の予測,実世界の予測タスクにおいて,競争力またはそれ以上の精度を達成し,大幅に小型化されたモデルを発見した。
- 本研究は,より表現力豊かで解釈可能なモデルへの原理的な道筋を示す。
次元の呪いを打破する:現代ベクトル検索の安定性について [cs.IR, cs.CG, cs.DB, cs.LG]目的:高次元ニューラル埋め込みにおける効率的な検索の安定性
- 情報検索や生成AIなど,多様な応用を支えるベクトル検索技術の重要性が高まっている。
- 高次元空間では距離の識別が困難になり,近傍探索の効率が低下する次元の呪いが問題となる。
- クエリの微小な変化が検索結果に与える影響を安定性の観点から分析し,次元の呪いを回避する。
- マルチベクトル検索において,Chamfer距離は単一ベクトル安定性を維持する一方,平均プーリングはそれを損なう可能性がある。
- フィルタ付きベクトル検索では,十分なペナルティを課すことで,不安定な検索でも安定性を誘導できる。
- スパースベクトル検索では,安定性を保証するための新たな条件を定式化し,理論的に証明した。
スパイク情報に基づくLFPモデリング向上のためのクロスモーダル表現知識蒸留 [cs.LG, cs.AI, q-bio.NC]目的:スパイク活動からの表現知識をLFPモデルへ蒸留するフレームワーク
- 脳活動の理解には,スパイクとLFPの両方を考慮することが重要である。LFPは長期安定性や低消費電力などの利点がある。
- 従来のニューラルモデリングはスパイク活動に偏っており,LFP信号の集合的な性質から予測精度が低いという課題があった。
- スパイクモデルの高性能な表現知識をLFPモデルに転移し,LFPモデリングの精度向上を目指す。
- 教師となるスパイクモデルから,学生となるLFPモデルへ表現知識を蒸留するクロスモーダル知識蒸留フレームワークを導入した。
- 蒸留されたLFPモデルは,完全に教師なし学習と教師あり学習の両方において,既存のLFPベースラインモデルを上回る性能を示した。
- 本研究は,高性能なスパイクモデルを活用してより正確なLFPモデルを開発するための効果的かつスケーラブルなアプローチを示唆する。
マルチスケールニューラル活動における非線形潜在因子の動的モデリングとリアルタイム推論 [cs.LG, cs.AI, q-bio.NC]目的:マルチスケールニューラル活動からのターゲット変数のリアルタイムデコーディング
- 脳科学研究において,多様なニューラル活動の同時記録と解釈は重要である。
- 異なる時間スケールや確率分布を持つニューラルモダリティの統合が困難である。
- 異なるモダリティ間の情報を統合し,リアルタイムでのデコーディングを可能にする。
- 本研究で開発したフレームワークは,異なる時間スケールや欠損データを含む複数のモダリティを統合できる。
- シミュレーションと実際の脳データを用いて,ターゲット変数のリアルタイムデコーディング性能が向上することが示された。
- 提案手法は,既存の線形および非線形手法と比較して,優れた性能を発揮する。
遷移マッチングのデザイン空間の探求 [cs.LG, cs.AI]目的:遷移マッチングにおけるヘッドモジュールの設計,学習,サンプリングに関する大規模な体系的調査
- 生成モデルの発展は,画像生成を含む多様なタスクにおいて重要な役割を担う。
- 拡散モデルやフローマッチングモデルは性能向上が見られるものの,表現力や効率性に課題が残る。
- 遷移マッチングのヘッドモジュール設計を最適化し,生成品質と効率性を向上させる。
- MLPヘッドを採用し,特定の時間重み付けと高頻度サンプラーを用いることで,全ての評価指標において最先端の結果を達成した。
- Transformerヘッドとシーケンススケーリング,低頻度サンプラーを組み合わせることで,画像の美しさに優れた結果が得られた。
- 実験結果から,品質と効率性の向上に寄与する設計要素と,それ以上の改善が見込めない選択肢が明確になった。
解釈可能かつ制御可能なニューラル表現のための疎な概念アンカリング [cs.RO, cs.LG]目的:ニューラル表現における解釈性と制御可能性の向上
- 深層学習モデルのブラックボックス化が課題であり,その解釈可能性が求められている。
- 既存手法では,モデルの挙動を正確に制御することが困難である。
- 最小限の教師データで特定の概念を操作し,モデルの振る舞いを制御することを目指す。
- 提案手法である疎な概念アンカリングは,わずかな教師データで潜在空間に概念を配置し,他の概念の自己組織化を可能にする。
- 概念の潜在成分を推論時に投影することで,モデルの振る舞いを可逆的に制御できる。
- アンカリングされた次元の重みを削除することで,概念を恒久的に除去することが可能であり,再構築誤差も理論限界に近づく。
センサー融合を用いたオリンピック跆拳道におけるAI駆動型リアルタイム蹴り分類 [eess.SY, cs.AI, cs.LG, cs.SY]目的:オリンピック跆拳道における蹴りのリアルタイム分類
- 跆拳道は競技性だけでなく,観客のエンゲージメントも重要である。
- 従来の採点システムは,安全な戦略を促し,競技のダイナミズムを損ねている。
- AIによる正確な蹴り分類で,より公平でダイナミックな採点を目指す。
- 提案システムは,既存のセンサーと追加センサーを融合し,蹴りの種類,接触部位,力をリアルタイムで識別する。
- 機械学習パイプラインとSVMを用いることで,蹴り技の自動認識を可能にし,ダイナミックな攻撃を奨励する。
- 2024年の研究で96-98%の精度を達成し,スポーツに必要な高精度なリアルタイム蹴り分類の実現可能性を示した。
異種知識グラフにおけるメタパス誘導ハイパーグラフ対照学習:MetaHGNIE [eess.SY, cs.SY, cs.DC, cs.AI, cs.LG]目的:異種知識グラフにおけるノード重要度推定
- 知識グラフは,推薦,推論,質問応答など,様々な応用において重要な役割を果たす。
- 既存手法はペアの関係に依存し,複数エンティティ間の高次依存関係を無視している場合が多い。
- 構造的・意味的情報を統合的に捉え,高次相互作用を明示的にモデル化することを目的とする。
- MetaHGNIEは,メタパス系列を用いて高次の知識グラフを構築し,構造的依存関係と意味的表現を効果的に統合する。
- ハイパーグラフ変換器と対照学習を用いることで,構造的・意味的埋め込み間のロバストなクロスモーダルアライメントを実現した。
- ベンチマークデータセットにおける実験により,最先端手法と比較してMetaHGNIEの有効性が示された。
Mage:交差軸Transformerによる楕円曲線暗号の解読 [cs.CR, cs.AI]目的:楕円曲線暗号の解読における交差軸Transformerの利用可能性の探求
- 現代社会において,インターネットや金融取引など,様々な情報セキュリティの基盤を支えている。
- 既存の暗号アルゴリズムの堅牢性に対する検証が十分ではなく,脆弱性が潜在的に存在する。
- 機械学習モデルを用いて,公開鍵と秘密鍵の関係性を学習し,暗号解読を試みる。
- 交差軸Transformerモデルは,公開鍵から秘密鍵を推定する能力を示唆した。
- 機械学習モデルは,特定のsecp256r1鍵ペアを記憶し,その生成プロセスを逆算する可能性が示された。
- 本研究は,暗号攻撃と防御の両面において,機械学習の潜在的な影響を評価する上で重要な知見を提供する。
分子部分構造ネットワークグラフGoMS:分子特性予測への応用 [cs.CL, cs.LG]目的:分子特性予測のための分子部分構造ネットワークグラフ
- 分子特性予測は,創薬や材料科学において重要であり,効率的な分子設計を可能とする。
- 既存手法は分子を独立した部分構造の集合とみなし,部分構造間の関係性を捉えきれていない。
- 分子部分構造間の関係性を明示的にモデル化することで,予測精度向上を目指す。
- GoMSは,既存のESANや他のベースライン手法と比較して,分子特性予測において優れた性能を示した。
- 特に100原子を超える大型分子において,性能差が顕著であり,大規模分子への適用可能性が示唆された。
- GoMSは,同一の部分構造組成を持つ分子でも,空間配置の違いを識別できることが理論的に証明された。
AIを活用した学生の成功早期警告システム:時間的予測モデルにおける静的特徴の支配性 [cs.LG]目的:学生の成功予測における静的特徴の重要性の解明
- オンライン教育の普及に伴い,学生の学習状況を早期に把握し,適切な支援を行うことの重要性が高まっている。
- 従来の学生の成績予測は,学習活動データに依存しており,データ収集に時間がかかるという課題があった。
- 入学前の情報や属性データのみで,早期に学生の状況を予測できる可能性を検証する。
- 介入時期に応じて重視すべき性能指標が異なり,早期介入には再現率,中期には適合率と再現率のバランス,後期には適合率が重要である。
- 予測において静的特徴が68%の重要度を占め,アセスメントなしでの早期予測が可能であることが示された。
- Week 2ではLSTMモデルが97%の再現率を達成し,Week 20では両モデルとも同様の再現率を示すが,LSTMの適合率が高い。
動的ハート移植割り当てのためのポリシー最適化 [cs.LG]目的:ハート移植割り当てポリシーの最適化
- 心不全重症患者にとって移植は有効だが,ドナー不足が深刻である。
- 既存の割り当てポリシーは,移植前後の死亡率を十分に考慮していない。
- 既存ポリシーの欠点を補い,より良い割り当てを実現すること。
- 既存の割り当てポリシーは,移植後の生存年数を最大化する近視眼的ポリシーよりも大幅に劣ることがシミュレーションで示された。
- 患者の将来的な割り当てにおける有用性を示すポテンシャルを用いることで,動的な割り当てプロセスを考慮したポリシーが開発された。
- 少数のドナーをまとめて割り当てることで,パフォーマンスがさらに向上することが確認された。
皮膚科における説明可能なAIの諸刃の剣:臨床医と一般市民への影響 [cs.HC, cs.AI]目的:説明可能なAI(XAI)が診断精度と公平性に及ぼす影響の評価
- 医療分野におけるAI活用は拡大の一途を辿っており,その信頼性と安全性確保が重要である。
- AIアルゴリズムの不透明性は,AIへの過信や偏見を生み出す可能性があり,課題となっている。
- AIの説明可能性を高めることで,AIの信頼性を向上させ,より適切な医療判断を支援することを目指す。
- AI支援は,肌の色に関わらず診断精度を向上させ,診断の不公平感を軽減する効果が認められた。
- 一般市民は,AIが正しい場合に精度が向上する一方,誤った場合には精度が低下する自動化バイアスを示す傾向があった。
- 経験豊富な臨床医は,AIの精度に関わらず,AIの支援から恩恵を受け,診断性能が向上した。
SafeGen:テキスト画像生成への倫理的保護の組み込み [cs.AI]目的:テキスト画像生成パイプラインへの倫理的保護の埋め込み
- 生成AIは創造性,教育,研究に貢献する一方,倫理的な懸念が生じている。
- 既存システムは,偏見の増幅,偽情報の生成,知的財産権侵害のリスクを抱える。
- 倫理的責任と創造性の自由を両立するフレームワークを提案し,安全な画像生成を目指す。
- SafeGenは,有害プロンプトをフィルタリングするBGE-M3と,高精度画像を生成するHyper-SDを統合する。
- Hyper-SDはIS=3.52,FID=22.08,SSIM=0.79を達成し,BGE-M3はF1スコア0.81を示す。
- 事例研究により,SafeGenが安全でないプロンプトのブロック,包摂的な教材生成,学術的誠実性の強化に貢献することが示された。
KidsArtBench:属性を意識したMLLMによる多次元的な子供の芸術評価 [cs.AI]目的:子供の芸術作品の多次元的な評価
- 芸術評価は主観的であり,教育現場での客観的な評価手法が求められている。
- 既存の芸術評価データセットは,成人向けであり,子供の作品評価には不十分である。
- 子供の芸術作品に対する多角的評価と,建設的なフィードバックの提供を可能にする。
- 本研究で開発したKidsArtBenchは,専門家による多次元的な評価データセットである。
- 属性に特化したmulti-LoRAアプローチとRAFTを用いることで,評価の精度が向上した。
- 教育現場での活用を視野に入れた,教育AIの進歩に貢献する。
生成時空間データ拡張 [cs.CV, cs.LG]目的:時空間データの多様性向上
- 画像認識の性能はデータ量に依存する。十分なデータ確保が課題。
- データ不足は,特にUAV画像のような注釈が少ない場合に問題となる。
- 生成モデルを用いてデータ分布を広げ,データ不足を補う。
- ビデオ拡散モデルを活用し,現実的な3次元空間・時間変化を生成。
- 生成された動画クリップを補完データとして用いることで,低データ環境下での性能向上が確認された。
- 生成時の設定,注釈の転送,オクルージョンの処理に関する実践的な指針が示された。
秘密は守れるか?認知機能低下におけるケア連携へのAI活用可能性 [cs.HC, cs.AI]目的:認知機能低下を抱える高齢者の在宅生活支援におけるAIの可能性
- 高齢化社会において,認知機能低下者の増加と,それに対する介護負担の増大が課題となっている。
- 低所得層高齢者においては,十分なケア連携が困難であり,生活の質低下を招く可能性がある。
- 本研究は,AIによるケア連携支援が,高齢者の在宅生活を可能にし,介護負担を軽減することを目指す。
- 高齢者と介護者は,特定の介護者にタスクを委ねることで,情報管理と自律性を維持していることが明らかになった。
- 生活の質を犠牲にして介護者の負担を軽減する事例や,効率的な「ついで連携」といった既存の戦略が確認された。
- AIによる「ついで連携」支援が,在宅生活の延長と介護負担軽減に貢献できるかという課題が提起された。
力学系における臨界遷移検出のためのノイズ堅牢なコントラスティブ学習 [cs.LG, cs.AI, physics.comp-ph]目的:複雑な時系列データにおける臨界遷移の検出
- 科学技術の多岐にわたる分野で,複雑系の状態変化を捉えることは重要である。
- ノイズの影響を受けやすく,臨界遷移の兆候を正確に特定することが困難である。
- ノイズに対する耐性を高め,より正確な臨界点識別を目指す。
- 提案手法は,従来のコントラスティブ学習と同等の性能を維持しながら,より軽量でノイズに強いことが示された。
- 特異値分解に基づいたニューラルネットワーク構造と,厳密な半直交性制約を用いた学習アルゴリズムが有効である。
- 本研究は,ノイズの多い時系列データにおける臨界遷移検出の精度向上に貢献する。
MSCIワールド指数の経験的モード分解とグラフ変換:グラフニューラルネットワークモデリングのための多重尺度トポロジー解析 [cs.LG, q-fin.CP]目的:MSCIワールド指数の多重尺度トポロジー解析
- 金融市場の複雑な変動を理解し,予測精度向上は投資戦略上重要である。
- 従来の時系列分析では,複雑な非線形変動の把握が困難である。
- グラフニューラルネットワークの性能を最大化するためのグラフ構造設計指針を提供する。
- 経験的モード分解により,MSCIワールド指数を高周波変動から長期トレンドまで9つの固有モード関数に分解した。
- 各固有モード関数を,自然可視性,水平可視性,再帰,遷移グラフといった4つの時系列-グラフ変換手法を用いてグラフに変換した。
- 高周波成分は高密度なグラフ,低周波成分は疎なグラフとなり,周波数によって構造が異なることが示された。
Animus3D:モーションスコア蒸留によるテキスト駆動型3Dアニメーション [cs.OS, cs.DC, cs.NI, cs.CV, cs.GR, cs.LG]目的:テキストと静的3Dアセットからモーションフィールドの生成
- 3Dコンテンツ制作において,テキストによる直感的なアニメーション制御の需要が高まっている。
- 既存手法では,生成されるアニメーションの動きが乏しい,または目立つジッターが発生する課題がある。
- モーションスコア蒸留(MSD)により,より自然で詳細な3Dアニメーション生成を目指す。
- Animus3Dは,多様なテキストプロンプトから静的3Dアセットをアニメーション化することに成功した。
- 最先端の基盤モデルと比較して,より大幅で詳細な動きを生成し,高い視覚的整合性を維持する。
- ローRA拡張ビデオ拡散モデルと,外観保存のためのノイズ推定技術が,モーションの品質向上に貢献する。
多様なLLMと脆弱性:誰がより良く検出し,修正するか? [cs.SE, cs.AI]目的:ソフトウェア脆弱性検出と修正における多様なLLMの集合的利用の有効性
- ソフトウェアの安全性確保は不可欠であり,自動化された脆弱性検出・修正技術の需要が高まっている。
- 個々のLLMは複雑な脆弱性の特定や修正において課題を抱えており,誤検出や誤修正のリスクが存在する。
- 複数のLLMを組み合わせることで,個々のLLMの弱点を補い,より高精度な脆弱性検出・修正を目指す。
- DVDR-LLMは,個々のLLMの平均性能と比較して,検出精度を10-12%向上させる。
- 特に複雑なコードや複数ファイルにまたがる脆弱性において,再現率とF1スコアが大幅に改善される。
- 合意閾値の設定により,偽陽性を減らすことができる一方,偽陰性が増加する可能性があり,状況に応じた調整が必要である。
固有ベクトル中心性に基づくプルーニングによる効果的なファインチューニング [cs.LG]目的:ニューラルネットワークのファインチューニング性能向上
- ソーシャルネットワークにおける影響力のある少数のユーザーが,広範な変化を促進する現象に着目。
- 従来のファインチューニングは,大規模な事前学習モデルに新たな層を追加するため,効率性に課題。
- 重要度の低いニューロンをプルーニングすることで,効率的かつ高精度なファインチューニングを実現。
- 提案手法は,VGGNet EfficientNet ResNet等のモデルで,分類精度が向上。
- 特にOxford Flowers 102データセットでは,ベースラインVGGNetモデルと比較して,大幅な精度改善。
- モデルの複雑さを大幅に削減しつつ,高い分類精度を達成。
HyperEdit:ハイパーネットワークによるLLMの指示に基づくテキスト編集の可能性 [cs.CL, cs.LG]目的:LLMにおける指示に基づくテキスト編集の性能向上
- テキスト編集は,コードエディタ等の実用的なアプリケーションにおいて重要性を増している。
- 既存のLLMは,指示を忠実に実行しつつ,変更されない箇所を保持することが難しい。
- 指示と編集戦略の適合性向上,および変更箇所の過剰編集の抑制を目指す。
- HyperEditは,ハイパーネットワークを用いて要求に応じたパラメータを生成し,編集戦略を調整する。
- 変更箇所に注目した正則化により,過剰編集を防ぎつつ,正確かつ最小限の変更を可能にする。
- 変更箇所におけるBLEUスコアが,最先端のベースラインと比較して9%~30%相対的に向上した。
極端現象の熟練した亜季節-季節予測のための多重球結合確率モデル [cs.LG, cs.AI, physics.ao-ph]目的:極端現象の亜季節-季節予測の精度向上
- 気候変動の加速下,資源計画や災害軽減のための予測精度向上が喫緊の課題である。
- 大気内部の不確実性や多重球間の複雑な相互作用により,予測は困難である。
- 大気と多重球境界条件間の相互作用を最適化し,予測精度を向上させることを目指す。
- TianXing-S2Sは,ECMWF S2SシステムやFuXi-S2Sを上回り,1.5分解能で45日間の平均アンサンブル予測で優れた性能を示した。
- 本モデルは,熱波や異常降水などの極端現象の亜季節予測を可能にし,土壌水分が重要な前兆信号であることを示した。
- TianXing-S2Sは最大180日までの安定したロールアウト予測が可能であり,温暖化する世界における亜季節-季節予測研究の堅牢な基盤を確立した。
強化学習エージェントにおける最適な採餌戦略は,ワールドモデルによって解き放たれる [cs.AI, cs.LG]目的:強化学習エージェントにおける最適な採餌戦略
- 動物行動学において,資源採集行動は生存に不可欠であり,その最適化は重要な研究課題である。
- 既存の強化学習手法では,生物の採餌行動を説明する理論的枠組み(周辺価値定理)を再現することが難しい。
- 予測可能な環境モデルを学習することで,生物学的な採餌行動に合致する意思決定メカニズムを明らかにすること。
- ワールドモデルを搭載した強化学習エージェントは,周辺価値定理に沿った採餌戦略を自然に獲得する。
- 報酬の最大化だけでなく,環境の予測能力が,効率的な採餌場所からの離脱行動を促進する要因となる。
- モデルベースの強化学習エージェントは,モデルフリーの強化学習エージェントと比較して,生物の採餌行動と類似した意思決定パターンを示す。
教師ありコントラストフレーム集約による動画表現学習 [cs.CV, cs.LG]目的:動画表現学習のための教師ありコントラスト学習フレームワーク
- 動画理解は,監視,自動運転,ロボット工学など,様々な応用分野で不可欠である。
- 従来の動画モデルは計算コストが高く,限られたリソースでの学習が困難である。
- 効率的で高性能な動画表現学習手法を開発し,計算コストを削減すること。
- 提案手法は,Penn Actionデータセットにおいて76%の分類精度を達成し,ViVITの43%を上回る。
- HMDB51データセットにおいても48%の分類精度を達成し,ViVITの37%を上回る結果を示した。
- 本手法は,教師あり学習と自己教師あり学習の両方で効果的な動画表現を獲得し,分類やキャプション生成などの様々なタスクに適用可能である。
大規模言語モデルにおけるニューズベンダー問題:意思決定のバイアスと認知メカニズム [cs.AI]目的:大規模言語モデルの意思決定における認知バイアスの性質と起源の特定
- ビジネスにおけるLLM活用が進む中,人間の認知バイアスを再現・増幅する可能性が懸念されており,そのリスク理解が重要である。
- サプライチェーン管理等の重要場面で,LLMのバイアスが重大な意思決定の誤りを引き起こす可能性がある。
- LLMのバイアスが構造的な制約に起因することを示し,その対策を提示する。
- GPT-4,GPT-4o,LLaMA-8Bを用いた実験で,古典的な「過小/過大」注文バイアスが一貫して再現された。
- GPT-4は過剰な思考により非合理性を増幅し,最適化されたGPT-4oはほぼ最適に機能するなど,モデルによってバイアスの現れ方が異なった。
- バイアスは最適な公式が与えられても持続するため,知識不足ではなくアーキテクチャに起因すると結論付けられた。
StreamingAssistant: オンライン動画理解を加速するための効率的な視覚トークンプルーニング [cs.CV, cs.AI]目的:オンライン動画理解における計算効率の向上
- 公共監視やAIグラスなど,リアルタイムな動画理解の応用が重要性を増している。
- 大規模マルチモーダル言語モデルの利用は,動画フレーム数の多さにより計算コストが高い。
- 動画理解の精度を維持しつつ,計算負荷を軽減するためのトークンプルーニング手法を提案する。
- 提案手法は,動画の空間的・時間的冗長性を考慮したトークンプルーニングにより,GPUメモリ使用量を削減する。
- 複数の動画理解ベンチマークにおいて,精度を最大4%向上させながら,プルーニングによる遅延は1ms未満に抑えられた。
- 本研究の成果は,オンライン動画理解の効率化に貢献すると期待される。
帰納的オンライン学習における最適間違い限界 [cs.LG, math.CO, stat.ML]目的:帰納的オンライン学習と標準オンライン学習のギャップの定量化
- オンライン学習は,データストリームから逐次的に学習する重要な機械学習パラダイムである。
- 帰納的オンライン学習の限界は,従来のオンライン学習よりも明確に示されていなかった。
- 本研究は,帰納的オンライン学習における間違い限界を厳密に評価し,その利点を明らかにする。
- 帰納的設定における間違い限界が少なくとも$\Omega(\sqrt{d})$であることが証明された。
- この限界は,既存の限界よりも指数関数的に優れていることが示された。
- 帰納的オンライン学習と標準オンライン学習の間には,二乗のギャップが存在する。
ニュートンステップと影響関数のデータ帰属精度の考察 [cs.LG, stat.ML]目的:データ帰属におけるニュートンステップ法と影響関数法の精度評価
- 機械学習モデルの解釈可能性向上は,信頼性と透明性を高める上で重要である。
- 既存手法は,データの特性やパラメータ数,削除サンプル数に依存して精度が低下する。
- 本研究は,より現実的な条件でこれらの手法の誤差を評価し,比較することを目的とする。
- ロジスティック回帰において,ニュートンステップ法の誤差は平均的に $k d / n^2$ のオーダーでスケーリングすることが示された。
- 影響関数法の誤差は,平均的に $(k + d)\sqrt{k d} / n^2$ のオーダーでスケーリングすることが示された。
- ニュートンステップ法が影響関数法よりも精度が高いという観測を,数学的に説明することに成功した。
言語モデルの汎用推論のための結合型変分強化学習 [cs.CL, cs.AI]目的:言語モデルの汎用推論能力の向上
- 言語モデルの推論能力は,その応用範囲を広げる上で極めて重要である。
- 従来の強化学習は,検証可能な報酬が必要であり,その獲得が困難である。
- 思考過程と回答の一貫性を高め,効率的な探索を実現する手法の確立。
- 提案手法CoVRLは,変分推論と強化学習を結合し,事前分布と事後分布をハイブリッドサンプリング戦略で結び付ける。
- この手法により,効率的な探索と思考・回答の一貫性の維持を両立することが可能となった。
- 数学および汎用推論ベンチマークにおいて,ベースモデルより12.4%,最先端手法より2.3%性能が向上した。
GANsにおける微分可能エネルギーベース正則化:VQEに着想を得た補助損失のシミュレーターによる探索 [cs.LG]目的:GANsにおける補助正則化信号としてのパラメータ化された量子回路由来の微分可能エネルギー項の可能性
- GANは画像生成などの分野で強力だが,学習の安定性や多様性確保が課題である。
- 既存の正則化手法では,十分な性能向上や汎化性能が得られない場合がある。
- 量子計算の技術をGANに導入し,新たな正則化手法の可能性を探る。
- MNISTデータセットにおいて,提案手法(QACGAN)はACGANと比較して,5エポックで高い分類精度(99~100%)を達成した。
- FIDスコアは走行間に高い変動を示したが,長期的な実行ではACGANと同等の値(23~24)に安定化する傾向が見られた。
- 本研究は,VQEスタイルのエネルギー計算をGANの学習ループに統合できることを示したものであり,量子計算の優位性は示唆されていない。
アプリケーションに対するプロンプトインジェクション攻撃の分類器による検出 [cs.CR, cs.AI]目的:プロンプトインジェクション攻撃の検出
- LLMの普及に伴い,セキュリティ確保が重要となっている。
- プロンプトインジェクション攻撃は検出が困難であり,深刻な被害をもたらす。
- LLM統合ウェブアプリケーションにおける悪意のあるプロンプトを検出する。
- 本研究では,HackAPrompt Playground Submissionsコーパスを基にプロンプトインジェクションのデータセットを作成した。
- LSTM,フィードフォワードニューラルネットワーク,Random Forest,Naive Bayesなどの分類器を用いて,悪意のあるプロンプトを検出する実験を行った。
- 提案手法は,プロンプトインジェクションの検出と軽減に貢献し,標的となるアプリケーションやシステムを保護する。
ceLLMate:ブラウザAIエージェントのサンドボックス化 [cs.CR, cs.LG]目的:ブラウザAIエージェントに対するプロンプトインジェクション攻撃の軽減
- ウェブブラウザを操作するAIエージェントの利用が拡大しており,その安全性確保が重要である。
- AIエージェントは,プロンプトインジェクション攻撃により,意図しない動作を引き起こす脆弱性を抱えている。
- ブラウザレベルでのサンドボックス化により,AIエージェントの権限を制限し,攻撃の影響範囲を最小限に抑える。
- ceLLMateは,UIレベルのイベントに対する脆弱性を克服するため,低レベルのブラウザ操作を上位概念のセマンティックアクションにマッピングするエージェントサイトマップを導入する。
- 本フレームワークは,ウェブサイトの必須ポリシーと,ユーザーの自然言語タスクからポリシーを予測・適用する自動化層を組み合わせることで,事前定義されたサンドボックスポリシーがない環境でも機能する。
- ceLLMateは,様々なタイプのプロンプトインジェクション攻撃を効果的にブロックし,オーバーヘッドは無視できる程度に抑えられた。
ビジョン言語モデルを用いたコンテンツを考慮した広告バナーレイアウト生成:二段階Chain-of-Thoughtアプローチ [cs.CV, cs.AI]目的:画像ベースの広告レイアウト生成
- 広告は重要なマーケティング手段であり,効果的なレイアウトが広告効果を左右する。
- 従来の広告レイアウト手法は,画像内の注目領域の検出に依存し,詳細な構成や意味内容を考慮しにくい。
- 背景画像のコンテンツを理解し,テキストやロゴの配置に反映することで,高品質な広告レイアウトを生成すること。
- 提案手法では,ビジョン言語モデルを用いて画像内のオブジェクトや空間関係を分析し,配置計画をテキスト形式で生成する。
- 生成された配置計画は,最終的なレイアウトをHTMLコードとしてレンダリングする。
- 実験結果から,背景画像のコンテンツを考慮することで,より高品質な広告レイアウトが生成されることが示された。
