arXiv雑要約
AI - 2025/10/14 公開
HIPPD:脳に触発された階層的情報処理によるパーソナリティ検出 [cs.CL, cs.LG]目的:パーソナリティ検出のための脳に触発された階層的情報処理フレームワーク
- テキストからパーソナリティを検出することは,人間理解やコミュニケーションにおいて重要である。
- 既存手法では,複数投稿にわたる文脈の把握や,意味的に疎な環境下での特徴抽出が課題である。
- 文脈を考慮したより代表的でロバストな特徴抽出を可能にすることを目的とする。
- 提案手法HIPPDは,人間の脳の階層的な情報処理を模倣したフレームワークである。
- 大規模言語モデルと動的メモリモジュールを組み合わせ,高度な意味的推論と特徴抽出を実現する。
- KaggleとPandoraデータセットにおける実験で,最先端手法を凌駕する性能が示された。
AlphaEarthを超えて:POI誘導対照学習による人間中心型空間表現へ [cs.AI, cs.CY, cs.LG]目的:人間中心型空間表現の構築
- 地理空間基礎モデルは多様な応用を可能にするため,空間表現の重要性が高まっている。
- 既存の地球観測データに基づく表現は,都市の機能や社会経済的側面を捉えきれていない。
- POI情報を用いてAlphaEarthを拡張し,人間活動や都市機能を表現することを目指す。
- AETHERは,AlphaEarthの埋め込み表現とPOIのテキスト表現を整合させることで,都市機能に関する情報を付加した。
- Greater Londonにおける実験で,AETHERは土地利用分類のF1スコアで7.2%の改善,社会経済マッピングのKLダイバージェンスで23.6%の削減を達成した。
- AETHERは,計算効率と拡張性を維持しつつ,地球観測データと人間中心型意味論を組み合わせることで,地理空間基礎モデルの進歩に貢献する。
臨床予測モデリングにおける時間と特徴にわたる影響の連鎖 [cs.LG, cs.AI, stat.ML]目的:臨床予測モデルにおける時間と特徴にわたる依存関係の追跡
- 臨床データ分析は,医療の質向上に不可欠であり,患者予後の予測精度向上が求められる。
- 既存手法は,時間変化する特徴間の潜在的な依存関係を捉えきれていない場合がある。
- 臨床変数の影響が時間経過とともにどのように伝播するかを明示的にモデル化する。
- 提案手法CoIは,既存手法と比較して予測精度が有意に向上した。
- CoIは,患者固有の疾患進行パターンを明らかにし,臨床意思決定への洞察を提供する。
- CoIは,特徴間の影響経路を可視化し,予測への貢献度を詳細に分析可能である。
LLMを用いたPyTorchからJAXへの変換におけるバグの文脈学習 [cs.IR, cs.LG, cs.AI]目的:PyTorchからJAXへのコード変換における性能向上
- 深層学習フレームワークは多様化しており,異なるフレームワーク間でのコード移行のニーズが高まっている。
- PyTorchとJAXは設計思想や実行セマンティクスが異なり,変換が困難である。学習データも限られている。
- LLMを活用し,バグの文脈を学習させることで,より正確かつ効率的な変換を目指す。
- 提案手法T2Jは,GPT-4o-miniを用いて初期JAXコードを生成し,専門家による修正を繰り返すことで,バグと修正パッチのデータセットを構築した。
- このデータセットから得られた構造化されたガイダンスをプロンプトに注入することで,軽量LLMの性能を向上させた。
- 実験結果から,T2JはGPT-4o-miniのCodeBLEUスコアを最大10%向上させ,生成されたコードの実行速度も最大2.5倍に改善された。
科学的発見のための自律エージェント:科学者,言語,コード,物理学のオーケストレーション [cs.AI]目的:科学的発見の加速
- 科学的発見において,計算機は不可欠な役割を担ってきた。
- 既存の手法では,実験設計や結果分析に限界がある。
- LLMを活用し,より自律的で汎用的な科学エージェントを構築すること。
- LLMベースの科学エージェントは,仮説発見から結果分析まで,科学的発見ライフサイクルを変革する可能性を秘めている。
- 現在の方法論を批判的に検証し,重要な革新,実用的な成果,および未解決の制限を強調している。
- より堅牢で,汎用性があり,適応性のある科学エージェント構築のための課題と将来の方向性を示唆している。
Transformerにおける層正規化の安定性 [cs.LG, cs.AI, math.OC]目的:Transformerの層正規化配置における順伝播および逆伝播の安定性
- 深層Transformerは様々なタスクで高性能だが,学習の不安定性が課題となる。
- 層正規化は学習安定化に寄与するものの,その配置は経験則に頼ることが多い。
- 層正規化の配置が学習動態に与える影響を理論的に解明し,安定な学習を導く。
- 層正規化の配置は,Transformerの隠れ状態の成長と勾配の逆伝播に影響を与えることが示された。
- 理論的な解析により,Transformerが規則的な解,あるいは病的挙動に向かうかどうかの洞察が得られた。
- 残差接続のスケーリングに関する指針も導かれ,安定性と性能の向上が期待できる。
パーソナライゼーションの罠:LLMにおけるユーザーメモリが感情推論に及ぼす影響 [cs.AI, cs.CL]目的:LLMにおけるユーザーメモリと感情推論の関係性
- AIのパーソナライゼーションは,より自然な対話を可能にし,ユーザー体験を向上させる上で重要である。
- LLMのパーソナライゼーション機能が,社会的な偏見を増幅させ,不公平な結果をもたらす可能性がある。
- LLMのパーソナライゼーションが感情推論に与える影響を明らかにし,公平性を担保するための対策を検討する。
- ユーザープロファイルが異なると,同一のシナリオに対するLLMの感情解釈に系統的な差異が生じることが確認された。
- LLMは,恵まれた立場にあるプロファイルに対して,より正確な感情解釈を行う傾向がみられた。
- LLMのパーソナライゼーション機能は,社会階層を感情推論に組み込み,社会的不平等を助長する可能性があることが示唆された。
エージェント特性に基づくテスト:Pythonエコシステムにおけるバグ検出 [cs.SE, cs.AI]目的:Pythonエコシステムにおけるバグ検出のためのLLMベースのエージェント
- ソフトウェアの信頼性確保は重要であり,テストは不可欠なプロセスである。
- 従来のテスト手法では,網羅的なテストケースの作成が困難な場合がある。
- LLMとプロパティベーステストを組み合わせ,自律的にバグを検出する。
- 提案手法は,100のPythonパッケージに対して広範な評価を実施し,生成されたバグ報告の56%が有効なバグであることが確認された。
- 上位21件のバグのうち,86%が有効であり,81%はメンテナに報告する価値があると判断された。
- NumPyなどの人気パッケージに対して5件のバグを報告し,そのうち4件のパッチがマージされた。
SpectralCA:次世代UAVハイパースペクトルビジョンのための双方向クロスアテンション [cs.CV, cs.AI]目的:UAVハイパースペクトルビジョンにおける知覚効率の向上
- 干渉や視界不良等により従来のナビゲーションが困難な環境下で,UAVの信頼性向上への要求が高まっている。
- 従来のUAVビジョンでは,詳細な材質認識や物体識別が難しく,ナビゲーション精度に課題がある。
- ハイパースペクトル画像を用いたUAVの知覚能力を向上させ,リアルタイムなナビゲーションを実現する。
- 提案手法SpectralCAは,スペクトル特徴と空間特徴を融合する双方向クロスアテンションブロックを導入し,認識精度を向上させた。
- パラメータ数を削減し推論時間を短縮することで,リアルタイム処理を可能にした。
- WHU-Hi-HongHuデータセットを用いた実験により,提案アーキテクチャがUAV知覚効率を改善することが確認された。
生物医学知識グラフを用いた生成モデルの拡張が,標的薬物探索を改善する [cs.CL, cs.LG, cs.AI, q-bio.QM]目的:生物医学知識グラフを用いた生成モデルの拡張
- 創薬は,疾患の治療に不可欠であり,効率的かつ効果的な手法が求められている。
- 既存の生成モデルは,生物医学的知識の統合が不十分であり,創薬への応用が限定的である。
- 生物医学知識グラフを統合し,より生物学的妥当性の高い化合物を生成すること。
- K-DREAMは,拡散ベースの生成モデルに知識グラフを組み込むことで,標的とする化合物の生物学的関連性と治療適合性を高める。
- K-DREAMは,結合親和性と予測有効性が向上した薬物候補を生成し,既存の最先端の生成モデルを上回る性能を示した。
- 複数の標的に対して設計された分子を生成できるため,複雑な疾患メカニズムへの応用が可能である。
中毒検出の進歩:スマートウォッチベースのアプローチ [cs.CL, cs.LG]目的:中毒状態の検出
- 過度な飲酒は健康リスクや社会問題を引き起こすため,その早期発見が重要である。
- 従来の飲酒検知はスマートフォン等の限られたデータと古典的な機械学習に依存していた。
- スマートウォッチの多様なデータを活用し,より高精度かつ効率的な中毒検知を目指す。
- 本研究では,3週間にわたるスマートウォッチの加速度,ジャイロ,心拍データからなるデータセットを構築した。
- Transformer,bi-LSTM,GRU,1D-CNN,HDC等の最先端の分類器を評価し,その性能を比較した。
- HDCモデルが,精度と効率のバランスに優れ,スマートウォッチへの実装に適していることが示された。
勾配降下法のための自動学習率選択:AutoGD [cs.LG, math.OC, stat.CO, stat.ML]目的:勾配降下法の自動学習率選択手法
- 機械学習の効率化に不可欠な最適化手法であり,性能向上に繋がる。
- 適切な学習率の設定が困難であり,手動での調整に手間がかかる。
- 学習率の自動調整により,チューニングの手間を軽減し,効率的な最適化を実現する。
- AutoGDは,各反復において学習率を増減させるかを自動的に決定する。
- 広範な関数クラスにおいて,定数倍で最適な学習率を復元できることが示された。
- 従来の課題や変分推論の最適化タスクにおいて,高い性能を示すことが確認された。
位相認識型深層学習:複素数値CNNによる音声信号への応用 [eess.SY, cs.RO, cs.SY, cs.LG, cs.AI, cs.SD]目的:音声信号処理における複素数値CNNの設計と応用
- 音声処理は,人間と機械のコミュニケーションにおいて不可欠な技術であり,その高度化が求められている。
- 従来の深層学習は実数値に限定され,音声信号の重要な特徴である位相情報を十分に活用できていない。
- 位相情報を効果的に利用することで,音声処理の性能向上を目指す。
- 複素数値CNNは,画像データセットにおいても実数値CNNと同等の性能を示すことが確認された。
- 実数値MFCCを用いた音声分類では,わずかな性能向上が見られたが,位相を保持することによる課題も明らかになった。
- GNNによる位相情報のモデル化により,バイナリおよびマルチクラスのジャンル分類において明確な性能向上が確認された。
MemPromptTSS: 反復的多粒度時系列状態セグメンテーションのための持続的なプロンプトメモリ [eess.SY, cs.SY, cs.LG, cs.AI]目的:反復的多粒度時系列状態セグメンテーションのための持続的なプロンプトメモリの導入
- 多様な時系列データがWebプラットフォーム等から生成され,状態を多粒度で把握する重要性が高まっている。
- 既存のプロンプト手法は局所的な文脈でのみ機能し,プロンプトの効果が時間とともに減衰しやすいという課題がある。
- 本研究は,プロンプトの効果をシーケンス全体に持続させることで,セグメンテーションの精度向上を目指す。
- MemPromptTSSは,プロンプトと周辺シーケンスをメモリトークンに変換し,メモリバンクに保存することで持続的なプロンプトメモリを実現した。
- シングルイテレーション推論において,既存手法と比較して,単一粒度および多粒度セグメンテーションの精度がそれぞれ23%と85%向上した。
- 反復推論では,PromptTSSと比較して平均イテレーションあたりの精度向上率が2.66%と高く,プロンプトメモリの有効性が示された。
水中画像の新たなフレームワークとしての拡散モデル [cs.CV, cs.AI]目的:水中画像品質向上手法の開発
- 海洋研究や海洋環境モニタリングにおいて,質の高い水中画像は生態系に関する重要な情報源である。
- 既存の画像強調技術は,汎化性能の低さや高品質な学習データへの依存性といった課題を抱えている。
- 多様な種類の水中画像データを生成し,データセットの品質向上を図ることで,これらの課題を解決する。
- 拡散モデルを用いたデータ拡張により,ステレオ画像,広角画像,接写画像など多様な水中画像データの生成が可能となった。
- Controlnetを用いた画像強調により,データセットの品質が向上し,海洋生態系の研究に貢献することが期待される。
- 本研究は,既存のデータセットの限界を克服し,より精度の高い水中画像解析を可能にする。
ヘイトミームの解剖:前提となる文脈と虚偽の主張 [cs.CL, cs.AI]目的:ヘイトミームの検出における,前提文脈と虚偽の主張の特定
- インターネット上でのヘイトスピーチは深刻な社会問題であり,早期発見と対策が急務である。
- 既存の研究では,ミームがなぜヘイトフルなのか,その根本的な要因の解明が不足している。
- ミームの文脈と事実に基づかない主張を捉えることで,ヘイトミームの検出精度向上を目指す。
- 提案手法SHIELDは,既存の手法と比較して,複数のデータセットと評価指標において優れた性能を示した。
- SHIELDは,文脈情報と外部知識を統合することで,ヘイトミームの本質を捉えることを可能にした。
- 本手法は,フェイクニュース検出など,他のタスクへの応用も示唆された。
構造化された協調型マルチエージェント強化学習:ベイジアンネットワークの視点 [cs.MA, cs.LG, cs.SY, eess.SY, math.OC, stat.ML]目的:マルチエージェント強化学習におけるエージェント間結合構造の活用
- 大規模なマルチエージェントシステムにおける効率的な学習アルゴリズムの必要性が高まっている。
- 既存のアルゴリズムは,エージェント間の結合情報を十分に活用できていない。
- エージェント間結合構造に基づき,効率的なモデルフリー強化学習を実現する。
- 本研究では,協調型マルチエージェント強化学習問題をベイジアンネットワークとしてモデル化し,各エージェントが正確な行動価値関数を推定するために必要なエージェントのサブセット(価値依存集合)を特定した。
- 価値依存集合に基づいた部分的に分散型訓練分散型実行(P-DTDE)パラダイムを提案し,その分散型方策勾配推定量の分散が,集中型訓練分散型実行(CTDE)よりも小さいことを理論的に証明した。
- マルチ倉庫資源配分やマルチゾーン温度制御の例で,提案アルゴリズムの効率性とスケーラビリティを実証した。密な価値依存集合に対しては,ベイジアンネットワークの切り捨てに基づく近似スキームを提案し,大規模なエージェント数を持つアプリケーションにおいて,正確な価値依存集合よりも高速な収束を実現した。
因果誘導型次元削減による効率的なパレート最適化 [cs.NE, cs.SY, eess.SY]目的:アナログ回路の効率的なパレート最適化手法
- アナログ回路設計において,高性能化と低消費電力化といった複数目的の最適化が重要である。
- パラメータ空間の次元の高さや素子間の強い結合により,最適化計算に膨大な時間とコストがかかる。
- パラメータの影響度に基づき次元削減を行い,効率的な最適化を実現することを目指す。
- CaDROは,因果探索を最適化パイプラインに組み込むことで,パラメータの因果効果を定量的に評価する。
- 影響の小さいパラメータを固定することで探索空間を削減し,計算時間を大幅に短縮する。
- アンプやレギュレータ等の回路設計において,NSGA-IIと比較して最大10倍の高速化と,パレート解の品質向上を実現した。
帯域効率の良いエッジクラウド推測デコードのための共形疎化 [cs.LG, cs.AI, cs.IT, math.IT]目的:エッジクラウド推測デコードにおける帯域幅効率の改善
- 推論処理の高速化が求められる現代において,エッジコンピューティングとクラウドコンピューティングの連携が重要である。
- エッジとクラウド間の帯域幅の制約が,推測デコードのボトルネックとなっている。
- トークン分布の効率的な圧縮により,エッジクラウド間の通信量を削減し,遅延を改善することを目指す。
- 提案手法であるSQS-SDフレームワークは,分布の疎性を活用することで,効率的な圧縮を実現する。
- K-SQSとC-SQSの2つのアプローチにより,異なる状況下でエンドツーエンドの遅延と拒否率を改善する。
- 共形予測を用いるC-SQSは,分布からの逸脱を抑制し,より安定した性能を示す。
批評者からのフィードバック信号を用いた説明可能な人間介在型セグメンテーション [eess.SY, cs.SY, cs.HC, cs.CV, cs.AI, cs.HC, cs.LG, eess.IV]目的:セグメンテーションモデルにおける人間介入による学習の実現
- セグメンテーション技術は,自動運転や都市気候モニタリングなど,多様な分野で不可欠である。
- 既存のモデルは,データ特有の偏りに依存しやすく,実環境での汎化性能が課題である。
- 人間の修正を介入信号として活用し,モデルの頑健性を高めることを目指す。
- 人間の修正を修正情報として画像間で伝播させることで,モデルは表面的な特徴への依存を抑制し,意味のある特徴を学習する。
- 本手法は,困難なcubemapデータにおいて最大9mIoU(相対的に12-15%の改善)のセグメンテーション精度向上を実現した。
- 従来の再学習と比較して,アノテーション作業量を3-4倍削減しつつ,ベンチマークデータセットにおいても競争力のある性能を維持する。
肥沃度を超えて:多言語トークン化評価におけるSTRRの分析 [cs.CL, cs.AI, cs.LG]目的:多言語トークン化評価の指標としてのSTRR
- 大規模言語モデルの性能はトークン化に大きく左右されるため,その評価は重要である。
- 従来の指標である肥沃度は圧縮効率しか示さず,言語やドメインごとの語彙の割り当て状況が見えにくい。
- 肥沃度の欠点を補い,より公平な多言語トークナイザー設計のための指針を示す。
- STRRは,単一トークンとして保持される語彙の割合を測定し,言語間の公平性の可視化を可能にする。
- 英語優先の傾向,中国語への強いサポート,ヒンディー語における断片化がSTRRによって明らかになった。
- STRRは肥沃度を補完し,より公平な多言語トークナイザーの設計に役立つ。
クラスタリング結果再誘導による不完全マルチビュースペクトルクラスタリング [cs.LG, stat.ML]目的:不完全マルチビューデータのクラスタリング手法
- 多様な情報源からのデータ統合が重要であり,データ分析の精度向上に繋がる。
- 不完全なデータや異なる特徴量空間への対応が困難である。
- クラスタリング結果のつながりを活用し,より精度の高いクラスタリングを実現する。
- 提案手法は,特徴抽出後にK-meansアルゴリズムを用いる既存手法の欠点を克服する。
- クラスタリング結果を直接得るために非負制約を特徴抽出に課し,接続行列を構築する。
- ベンチマークデータセットにおいて,最先端のクラスタリング手法と比較して優れた性能を示す。
マルコフ決定過程における値保持状態集約のための同型写像 [cs.RO, cs.RO, cs.LG, cs.AI, stat.ML]目的:マルコフ決定過程の解法における計算複雑性の低減と,元のシステムの性能維持
- 強化学習において,状態空間が広い場合,計算コストが課題となるため,状態集約が重要視される。
- 状態集約を行う際,集約された空間での最適方策が元の空間でも最適となる保証が必要である。
- 同型写像の概念に基づき,最適方策同値性が成立する条件を明らかにし,近似誤差を抑制する。
- 同型写像に基づく抽象化フレームワークを構築し,最適方策同値性のための十分条件を確立した。
- 十分条件が満たされない場合でも,近似誤差の上限と目的関数の性能下限を導出した。
- 最適な方策同値性を保証するHomomorphic Policy Gradient (HPG) と,効率と性能損失のバランスを取るError-Bounded HPG (EBHPG) を提案した。
AIの運用:MLOps実践,ユーザー満足度,組織コンテキストに関する実証的証拠 [cs.RO, cs.SE, cs.AI, cs.CL, cs.HC, cs.LG]目的:MLOps実践,ユーザー満足度,組織コンテキスト間の関係性
- AI活用は重要性を増しているが,規模拡張やチーム間の連携に課題が多い。
- MLOpsは解決策として提唱されているが,その有効性を実証する研究は不足している。
- 本研究は,MLOps実践がユーザー満足度に与える影響を明らかにすることを目指す。
- 9つのMLOps実践のうち7つがユーザー満足度と有意な正の相関を示した。
- 効果的なMLOpsの実装は,AI開発に具体的な価値をもたらすことが示唆された。
- 組織規模はMLOpsと満足度の関係を調整しないものの,組織コンテキストがMLOpsの普及に影響する。
知識拡張LLMによる論理的誤謬の分類:先導に従え [cs.AI]目的:論理的誤謬の分類における知識拡張LLMの有効性
- LLMの推論能力向上は,AIの信頼性と応用範囲を広げる上で不可欠である。
- LLMは,ハルシネーションを起こしやすく,論理的誤謬の分類精度が低いという課題がある。
- LLMのSystem 1的処理からSystem 2的処理への移行を促し,論理的誤謬の分類能力を改善する。
- 段階的な指示データセットと関係知識グラフを用いることで,LLMの論理的誤謬分類精度が大幅に向上した。
- この手法は,LLMの意思決定プロセスの透明性を高め,ニューロシンボリックアーキテクチャへの道筋を示す。
- 高コストなSystem 2の完全な訓練を回避し,低コストな指示ベースの介入で推論能力のギャップを埋める。
ビジョン言語行動モデルのためのフローマッチングポリシーの強化学習によるファインチューニング [cs.LG, cs.RO]目的:ビジョン言語行動モデルの性能向上
- 大規模なデータセットが不要で,汎化性能の高いモデル構築が求められている。
- 既存のモデルは,教師データの質と網羅性に限界がある。
- オンライン対話を通じた強化学習によるモデルの改善を目指す。
- 提案手法FPOは,フローマッチングモデルにおける重要度サンプリング問題を克服し,効率的な強化学習を実現した。
- LIBEROベンチマークとALOHAシミュレーションにおいて,FPOは既存手法を上回り,安定した学習と高い報酬を得た。
- FPOの各構成要素の有効性と,条件付きフローマッチング目的関数の安定した収束が検証された。
アディティブマニュファクチャリングの効率的なオンラインプロセス監視のための教師なし時系列異常検知手法 [cs.LG]目的:アディティブマニュファクチャリングにおける異常の検知
- 現代の製造業において,オンラインセンシングは重要な役割を担う。
- 既存手法はラベル付きデータに依存するか,極端な外れ値しか検出できない。
- 微妙な異常を検出し,新たな状態や異常なルーチンの開始を捉える。
- 本研究では,行列プロファイルに基づいた教師なし異常検知アルゴリズムを提案した。
- このアルゴリズムは,製造サイクル間の類似性を捉え,セマンティックセグメンテーションを行う。
- 実際のセンサーデータを用いた実験により,提案手法の有効性が示された。
関数呼び出しグラフとプロセス呼び出しグラフの結合埋め込み学習によるマルウェア検出 [cs.NI, cs.LG, cs.CR]目的:関数呼び出しグラフとプロセス呼び出しグラフの結合埋め込み
- ソフトウェアの挙動解析において,グラフ構造の利用は不可欠である。
- 従来のマルウェア解析は,単一のグラフ表現に偏りがちであり,多角的な解析が困難である。
- 関数呼び出しグラフとプロセス呼び出しグラフを統合的に解析することで,マルウェアの検出精度向上を目指す。
- GeminiNetは,関数呼び出しグラフとプロセス呼び出しグラフから結合埋め込みを学習する統一的なニューラルネットワークである。
- 提案手法は,既存の単一グラフモデルと比較して,より高い性能を示すことが確認された。
- 635個のWindows実行ファイル(マルウェア318個,良性ソフト317個)を用いた実験により,有効性が検証された。
深層ニューラルネットワークに対する厳密なロバスト性証明とWasserstein分布攻撃 [cs.LG, math.OC, stat.ML]目的:深層ニューラルネットワークのロバスト性評価と改善
- 深層学習モデルの安全性確保は,実世界への応用において不可欠である。
- 既存のロバスト性評価手法は,計算コストが高いか,評価が緩いという課題がある。
- 本研究は,より厳密かつ効率的なロバスト性証明と攻撃手法を開発する。
- Wasserstein分布ロバスト最適化における上限を厳密化するプライマルアプローチを提案した。
- ReLUネットワークの特性を利用したWasserstein分布攻撃(WDA)を新たに開発し,既存手法よりも柔軟な攻撃を可能にした。
- 提案手法は,最先端のベースラインと同等以上のロバスト精度を達成し,よりタイトな証明を提供することが示された。
LLM議論における熟議の動態と価値観の整合性 [cs.AI]目的:LLM議論における熟議の動態と価値観の整合性の解明
- 日常生活へのLLM利用拡大に伴い,倫理的判断における価値観理解が不可欠である。
- 従来の評価は単一ターンでのプロンプトに限定され,多段階対話での価値観形成が不明確である。
- Redditの「Am I the Asshole」の事例を用いたLLM議論を通じて,この課題の解決を目指す。
- GPT-4.1, Claude 3.7 Sonnet, Gemini 2.0 Flashの3モデルによる議論において,GPTは意見の修正が少なく,ClaudeとGeminiは柔軟性が高かった。
- GPTは個人の自律性と直接的なコミュニケーションを重視し,ClaudeとGeminiは共感的な対話を優先する価値観の相違が見られた。
- 熟議の形式がモデルの行動に強い影響を与え,GPTとGeminiはClaudeと比較して順序効果の影響を受けやすいことが示された。
脳波分類の強化のための双方向時間周波数ピラミッドネットワーク [cs.LG]目的:健壮な脳波分類のための双方向時間周波数ピラミッドネットワーク
- 脳波は,脳の状態を直接反映するため,医療やブレイン・マシン・インターフェース等の分野で重要である。
- 既存の脳波認識モデルは,データセット特有の制約や個人差により,異なるパラダイム間での汎化性能が低いという課題がある。
- 異なるパラダイム間でロバストな性能を発揮できる,汎用的な脳波分類モデルを開発することを目的とする。
- 提案手法BITEは,時間周波数特徴と双方向処理を組み合わせることで,従来のモデルよりも優れた性能を達成した。
- BCICIV-2A/2B,HGD,SD-SSVEPといった異なるパラダイムにおいて,最先端の性能を示し,被験者内および被験者間の汎化性能においても優れている。
- BITEは,MIタスクとSSVEPタスクの両方で高い性能を発揮し,計算効率にも優れている。
RIPRAG:強化学習を用いたブラックボックス検索拡張生成質問応答システムのハッキング [cs.AI]目的:検索拡張生成(RAG)システムの脆弱性とその攻撃手法
- 大規模言語モデル(LLM)を活用したRAGシステムは,質問応答やコンテンツ生成において重要な技術である。
- RAGシステムのデータベースに悪意のある文書を注入することで,LLMの出力操作が可能となる。
- ブラックボックス環境下でのRAGシステムに対する効果的な攻撃手法を確立すること。
- 提案手法RIPRAGは,RAGシステムの内部構造を知らなくても,強化学習を用いて悪意のある文書を生成する。
- 実験結果から,RIPRAGは複雑なRAGシステムに対しても高い攻撃成功率(ASR)を達成することが示された。
- 既存の防御手法には脆弱性が多く,LLMのセキュリティ研究における重要な示唆が得られた。
単一のクエリの限界を超えて:強化学習によるLLMのクエリ拡張訓練 [cs.CL, cs.AI, cs.IR]目的:クエリ拡張による検索エージェントの性能向上
- 複雑な質問応答は,情報検索と推論能力を組み合わせる必要があり,その重要性が増している。
- 既存の検索エージェントは,推論・検索能力の限界から,複雑な質問応答において十分な性能を発揮できていない。
- 強化学習と事前学習済みモデルを活用し,クエリ拡張能力を持つ検索エージェントを開発し,性能向上を目指す。
- 提案手法ExpandSearchは,7つの質問応答ベンチマークで平均4.4%の性能向上を達成し,最先端のベースラインを上回った。
- 特に,多様な証拠の集約を必要とするマルチホップ推論タスクにおいて,顕著な効果が確認された。
- 小規模な3B LLMでも,クエリ拡張能力を効果的に発揮できることが示された。
SLEAN:複数LLM連携のためのシンプル軽量アンサンブル解析ネットワーク:設計,実装,およびVibeコーディングバグ調査事例 [cs.SE, cs.AI]目的:複数LLMプロバイダー間の連携を通じた,テキストベースのプロンプトオーケストレーション
- AI技術の進化に伴い,複数LLMの活用が重要になっている。
- AIによるコード修正が,複雑性増加や機能破壊を引き起こす可能性がある。
- AI生成コードの有害な提案をフィルタリングし,安全なコード修正を可能にすること。
- SLEANは,複雑なシステムを必要とせず,シンプルなプロンプトブリッジとしてLLM間の連携を実現した。
- 15のソフトウェアバグに関する分析で,SLEANは有害な修正提案47件を拒否し,安全な修正提案22件を採用した。
- SLEANによる仲裁プロセスは,AI生成コードの変更量を83-90%削減し,最小限の変更による修正を促した。
スキル指向型適応的訓練 [cs.LG, cs.AI]目的:言語モデルのスキル習得を促進するための訓練戦略
- 大規模言語モデルの性能向上は,様々な自然言語処理タスクの発展に不可欠である。
- 教師データに類似したデータで単純な教師あり微調整を行うと,性能が飽和することが課題である。
- より強力な言語モデルのメタ認知能力を活用し,スキルに基づいた訓練を行うことで性能向上を目指す。
- 提案手法STATは,LlamaやQwenモデルにおいて,MATHデータセットで最大7.5%の性能向上を実現した。
- STATは,分布外のベンチマーク(AIME24/25,AMC23など)において平均4.6%の性能向上を示した。
- STATは,GRPOとの組み合わせにより,さらなる性能向上が期待できる。
医学抄録分類のための軽量ベースライン:クロスエントロピーを用いたDistilBERTの強力なデフォルト [cs.CL, cs.AI]目的:医学抄録分類における軽量なモデルの性能評価
- 医療分野における自然言語処理の応用は重要だが,計算資源の制約がある
- 大規模言語モデルは高性能だが,医療現場での利用にはコストや遅延の問題がある
- 軽量なモデルで十分な性能を達成し,実用的なデフォルト戦略を提案する
- DistilBERTとクロスエントロピー損失関数を用いたモデルが,BERT baseよりも少ないパラメータで高い性能を示した
- 精度,Macro F1,Weighted F1などの指標を用いて評価を行い,エラーパターンを分析した
- コンパクトなエンコーダとクロスエントロピーから始め,必要に応じてモデルを改良することが推奨される
LLMを活用した最適化によるUAV低高度経済圏ネットワークにおける効率的なオンボード視覚言語推論 [cs.LG, cs.AI, cs.DC]目的:UAV低高度経済圏ネットワークにおけるオンボード視覚言語推論の効率化
- 低高度経済圏ネットワークは,監視,環境センシング,データ収集など多様な応用を可能にする重要な技術である。
- UAVの限られたリソースと動的なネットワーク環境下で,推論精度と通信効率を両立させることが課題である。
- タスク遅延と消費電力を最小化しつつ,ユーザー固有の精度要件を満たすこと。
- 提案手法は,UAVの移動,通信,オンボードVQAパイプラインを統合的に捉えたシステムモデルを構築した。
- タスク遅延と消費電力の最小化問題に対し,ARPOアルゴリズムとLLaRAを用いた階層型最適化フレームワークを設計した。
- LLMを活用した報酬設計により,強化学習によるUAV軌道最適化の性能向上を実証した。
事前学習を用いた経験効率の良いモデルフリー深層強化学習 [cs.LG, stat.ML]目的:事前学習を活用した深層強化学習アルゴリズムの効率性と安定性向上
- 物理シミュレーション環境における強化学習は,現実世界の制御に応用可能であり,その重要性が高い。
- 強化学習では大量の環境とのインタラクションが必要であり,複雑な環境では計算コストが課題となる。
- 事前学習により,環境の物理特性に関する汎用的な知識を活用し,学習効率と安定性を向上させる。
- PPOPTは,少ない訓練サンプルで,従来のPPOと比較して報酬獲得量と訓練の安定性において優れた性能を示す。
- モデルベースの手法(DYNA DDPGなど)と比較すると性能は劣るが,モデルフリーであるため,学習時間が大幅に短縮される。
- PPOPTの実装は,github.com/Davidrxyang/PPOPTにてオープンソースソフトウェアとして公開されている。
失敗駆動型ワークフローの改良 [cs.AI]目的:大規模言語モデルベースのワークフローのロバスト性向上
- LLMの活用は拡大するが,複雑なタスクではワークフローの最適化が不可欠である。
- 従来のワークフロー最適化は,成功/失敗の二値信号のみに頼り,失敗の構造的情報を無視する傾向がある。
- 失敗分布を直接最適化することで,より効率的かつ効果的なワークフロー改良を目指す。
- 本研究では,ワークフローの期待される失敗質量を最小化する新しいパラダイムを提案した。
- CE-Graphフレームワークは,反例から失敗分布を近似し,反復的なグラフ編集を通じて失敗質量を削減する。
- 数学,コード,QAベンチマークにおいて,CE-Graphは既存手法と比較して,より高いロバスト性を低いコストで実現した。
FOSSIL:メタデータフリーかつ少量データによるサル痘診断のための後悔最小化カリキュラム学習 [cs.NI, cs.LG, cs.AI]目的:サル痘皮膚病変の診断における,後悔最小化によるカリキュラム学習の実現
- バイオメディカルデータの活用は重要だが,データ不足や不均衡により,深層学習の性能が制限される現状がある。
- 小規模かつ不均衡なバイオメディカルデータセットでは,最適化の不安定性や汎化性能の低さが課題となっている。
- 本研究は,サンプル難易度に基づいた学習重み付けにより,データ効率と解釈性を高めることを目指す。
- FOSSILを導入することで,AUCが0.9573と大幅に向上し,識別性能が改善された。
- FOSSILは,従来のベースラインと比較して,キャリブレーション誤差(ECE)が0.053に低減され,信頼性が向上した。
- 現実世界の摂動に対するロバスト性も向上し,メタデータ,手動キュレーション,合成オーギュメンテーションが不要となった。
推論領域を持つ信念グラフ:構造,ダイナミクス,認識的活性化 [cs.AI]目的:信念システムの構造,ダイナミクス,および認識的活性化に関する理論的枠組み
- 現実世界の信念は必ずしも一貫しないため,局所的な合理的な推論を理解する必要がある。
- 従来の信念システムモデルは,矛盾に弱く,大規模なグラフにおける安定した推論が困難である。
- 矛盾を許容しつつ,構造的に整合性の高い部分グラフで古典論理を適用する枠組みを構築する。
- 本研究では,信念をノードとする有向グラフモデルを提案し,信頼性と確信を区別した。
- グラフ構造に基づく収縮的な伝播過程により,確信を算出し,安定した解を保証する。
- 推論領域を定義し,その検出,安定性,および実行時間を実験的に評価した。
SwarmSys:スケーラブルで適応的な推論のための分散型スウォームインスパイアエージェント [cs.NI, cs.RO, cs.AI]目的:スケーラブルで適応的な推論のための分散型マルチエージェントシステム
- 大規模言語モデルの能力向上に伴い,複雑な問題を解決するマルチエージェントシステムの重要性が高まっている。
- 既存のマルチエージェントフレームワークは固定的な役割や集中制御に依存し,スケーラビリティと適応性に課題がある。
- スウォームインテリジェンスに着想を得た分散型システムによって,スケーラブルで適応的な推論を実現することを目指す。
- SwarmSysは,探索,活用,検証のサイクルを通じて,エージェント間の協調を創発的に実現する。
- 適応的なエージェントとイベントプロファイル,埋め込みベースの確率的マッチング,フェロモンに着想を得た強化学習メカニズムを統合することで,動的なタスク割り当てと自己組織化された収束をサポートする。
- SwarmSysは,記号推論,研究合成,科学プログラミングにおいて,既存のベースラインを安定して上回り,精度と推論の安定性を向上させる。
ALLOY:ユーザーデモンストレーションから再利用可能なエージェントワークフローを生成 [cs.HC, cs.HC, cs.AI, cs.MA]目的:ユーザーデモンストレーションからの再利用可能なエージェントワークフローの生成
- LLMを活用したタスク自動化が注目される中,自然言語による指示の限界が課題となっている。
- 複雑な手順を指示することの難しさ,特に好みに依存するタスクでの課題が存在する。
- ユーザーデモンストレーションを活用し,LLMベースのWebエージェントの適応性を高めることを目指す。
- ALLOYは,プログラミング・バイ・デモンストレーションの概念を拡張し,ユーザーの意図をより正確に捉える。
- デモンストレーションベースのアプローチは,プロンプトベースや手動ワークフローと比較して,ユーザーの意図と手順の好みをより適切に反映した。
- デモンストレーションベースの対話は,従来のプロンプトベースのアプローチを補完することが示された。
医療VLMsにおける反復的な視覚的推論:より深く見るために二度考える [cs.CV, cs.AI]目的:医療画像における反復的な視覚的推論の実現
- 医療診断において,視覚情報と自然言語処理を組み合わせるVLMsは重要性が増している。
- 既存のVLMsは,単一の推論に依存し,局所的な視覚的手がかりを見落とす場合がある。
- 人間の専門家のような反復的な思考プロセスをVLMsに組み込み,診断精度と信頼性を向上させる。
- ViTARは,「思考-行動-再思考-回答」の認知連鎖を通じて,人間の専門家の反復的な推論プロセスを模倣する。
- ViTARは,視覚的根拠を臨床的に重要な領域に集中させ,推論中の視覚トークンへの注意配分を維持する。
- 実験結果から,ViTARは最先端モデルを凌駕し,医療AIの性能と信頼性を向上させることが示された。
One4Many-StablePacker:3Dビンパッキング問題のための効率的な深層強化学習フレームワーク [cs.LG]目的:3Dビンパッキング問題に対する深層強化学習フレームワーク
- 物流や倉庫管理において,効率的なパッキングはコスト削減やスペースの有効活用に不可欠である。
- 従来の学習ベースの手法では,現実的な安定性制約が考慮されず,様々なビンサイズへの汎化性能が低いという課題があった。
- 多様なビンサイズに対応し,安定性制約を満たすパッキングを効率的に実現すること。
- 提案手法One4Many-StablePackerは,単一の学習プロセスで様々なビンサイズに対応可能であり,実用的な安定性制約も考慮している。
- 高さの差を考慮した報酬関数と,ポリシーの崩壊を抑制する手法により,より効率的なパッキング配置を促進する。
- 実験結果から,提案手法は多様なビンサイズに対して高い汎化性能を示し,既存手法を大きく上回ることが確認された。
適応的・相対的モデリングのための自己注意と畳み込みの統合 [cs.RO, cs.LG, cs.AI, cs.CL, cs.CV]目的:自己注意と畳み込みの利点を統合した演算子Translutionの提案
- データモデリングにおいて,要素の関連性特定と効果的な表現が重要である。
- 自己注意は絶対位置埋め込みに依存し,畳み込みは固定カーネルサイズで適応性に欠ける。
- 自己注意の適応性と畳み込みの相対的な表現能力を両立させることを目指す。
- Translutionは,自己注意と畳み込みの長所を組み合わせた新しい演算子である。
- パラメータ数の増加が課題であったため,軽量版α-Translutionを提案した。
- コンピュータビジョンと自然言語処理の両タスクで,自己注意よりも高い精度を達成した。
概念に基づく言語モデル:ニューラル記号推論によるアプローチ [cs.CL, cs.CL, cs.AI]目的:概念に基づく言語モデルの構築
- 自然言語処理の発展は重要だが,特に医療や金融分野では解釈可能性が課題となっている。
- 既存の概念ボトルネックモデルは,テキスト表現の低下や意味の弱体化といった問題がある。
- 概念間の動的な相互作用を考慮した,解釈可能な自然言語処理システムの実現を目指す。
- 提案手法CLMNは,既存の概念に基づく手法と比較して,より高い精度を達成した。
- CLMNは,連続的な概念埋め込み表現とファジー論理推論を組み合わせることで,解釈性の高いロジックルールを自動的に導出した。
- ニューラル表現と記号推論を統合することで,実用性と透明性を兼ね備えた自然言語処理システムが実現可能となった。
LLMを活用したスケッチングによるJavaScript難読化ツールのテスト [cs.SE, cs.AI, cs.PL]目的:JavaScript難読化ツールの正確性の評価
- 知的財産保護とリバースエンジニアリング対策として難読化は重要。
- 既存の評価は脱難読化耐性に偏り,プログラムの意味保持性が未検証。
- 難読化による機能変更やセキュリティ低下を防ぐためのテスト手法を確立。
- OBsmithはLLMと実プログラムからテストケースを生成する新しいフレームワーク。
- OBsmithは11個の難読化ツールの未発見のバグを特定。
- 従来のファジングツールでは検出できなかった難読化特有の誤動作を検出。
SyncLipMAE:音声と映像の対照的マスク事前学習による話者顔表現 [cs.AI, cs.MM]目的:話者顔動画から同期を意識した,転移可能な顔のダイナミクス学習
- 映像と音声の同期は,人間がコミュニケーションをとる上で不可欠であり,様々な応用が期待される。
- 既存手法では,音声と映像の同期を効果的に捉え,汎化性能の高い表現を獲得することが課題である。
- 音声と映像の同期を考慮した事前学習によって,多様な下流タスクでの性能向上を目指す。
- SyncLipMAEは,自己教師あり学習により,音声と映像の同期を考慮した効果的な特徴表現を獲得できることを示した。
- 提案手法は,顔のID,音声同期運動,自然な動きを分解し,各要素を明示的にモデル化することで,汎化性能を高めている。
- 様々な下流タスクにおいて,SyncLipMAEは最先端の結果を達成し,同期を意識した事前学習の有効性を示した。
ADEPT:適応的拡張と動的分離チューニングによる継続的プレトレーニング [cs.LG]目的:大規模言語モデルのドメイン適応のための継続的プレトレーニング手法
- 大規模言語モデルは多様なタスクに応用可能だが,特定のドメインへの適応が課題である。
- 従来の継続的プレトレーニングは,破滅的忘却やドメイン表現力の限界といった問題を抱えている。
- ADEPTは,機能に着目した効率的なパラメータ拡張と最適化により,これらの問題を解決する。
- ADEPTは,一般ドメインにおける性能を維持しつつ,ターゲットドメインでの性能を向上させる。
- ADEPTは,パラメータの15%のみを調整し,50%未満の学習時間で,フルパラメータ継続的プレトレーニングを最大5.76%上回る。
- ADEPTは,ターゲットを絞った拡張と分離最適化の必要性を示し,効率的かつ堅牢なドメイン適応的継続的プレトレーニングの新たな原理を提供する。