arXiv雑要約
AI - 2026/04/28 公開
少数ショット拡散モデルに基づく欠陥合成による外観検査における新製品導入の加速 [cs.IR, cs.CV, cs.LG]目的:新製品導入時の外観検査における欠陥データの不足を解消するための高精度な欠陥合成手法
- 製造業における品質管理の自動化は,生産効率向上とコスト削減に不可欠である。
- 新製品導入段階では,欠陥データの収集が難しく,十分な学習データの確保が課題となる。
- 実データが少ない状況でも,高精度な外観検査モデルを早期に構築することを可能とする。
- 提案手法は,少ない実欠陥データから高品質な合成欠陥画像を生成し,データ拡張に利用できる。
- 合成データを用いた学習により,mAPが78.8%から83.3%に向上し,性能改善が確認された。
- 異なる表面への転移学習においても,mAPが65.0%から85.1%に向上し,ドメインギャップの縮小に貢献する。
SwarmDrive:遅延制約下におけるセマンティックV2V協調による協調自動運転 [cs.RO, cs.AI]目的:遅延制約下における協調自動運転のためのセマンティックV2V協調フレームワーク
- 自動運転は交通効率化や安全性向上に貢献する重要な技術分野である。
- クラウドへの依存やエッジデバイスの計算能力限界が自動運転の課題となっている。
- 車両間通信による協調により,これらの課題を克服することを目指している。
- SwarmDriveは,単独のローカルSLMと比較して,成功率を68.9%から94.1%に向上させた。
- クラウド参照の510msから遅延を151.4msに短縮し,厳しい遅延制約下でも機能することを示した。
- 最適な協調効果は,アクティブなスワームサイズが4台,エントロピー閾値が0.65付近で得られることが示された。
FastATベンチマーク:高速敵対的学習手法の公平な評価のための包括的フレームワーク [cs.CV, cs.LG]目的:高速敵対的学習手法の公平な評価フレームワーク
- 敵対的ロバスト性は,機械学習モデルのセキュリティと信頼性を確保する上で重要である。
- 既存のベンチマークは,モデル構造や設定が異なり,公平な比較が困難である。
- 本研究は,標準化された環境下での高速敵対的学習手法の客観的な性能評価を目指す。
- FastATベンチマークは,統一されたモデル構造,標準化された学習設定,外部データの使用禁止という3つの原則に基づいている。
- 20以上の代表的なFastAT手法を実装し,再現性のある比較を可能にした。
- 実験の結果,適切なシングルステップ手法は,大幅なコスト削減でPGD-ATと同等以上のロバスト性を実現できることが示された。
nnFormerを用いたデータ効率的な医用画像セグメンテーションのためのMAEベースの自己教師あり事前学習 [cs.CV, cs.AI]目的:医用画像セグメンテーションにおけるデータ効率の向上
- 医用画像解析は,疾患の診断や治療計画に不可欠であり,その精度向上は重要である。
- Transformerモデルは高性能だが,大量のアノテーション付きデータが必要で,過学習のリスクがある。
- 自己教師あり学習を用いて,少ないアノテーションデータでも高い性能を発揮することを目指す。
- MAEに基づく自己教師あり事前学習により,nnFormerのセグメンテーション性能が向上した。
- ファインチューニングの収束速度が向上し,学習効率が改善された。
- 限られたアノテーションデータでも,優れた汎化性能が確認された。
IntrAgent:文献レビューを通じたコンテンツに基づいた情報検索のためのLLMエージェント [cs.RO, cs.SY, eess.SY, cs.IR, cs.AI, cs.LG]目的:文献レビューを通じた,研究主導型のクエリに対する信頼性の高い情報検索
- 科学研究において,分析的判断を支えるための正確な情報検索は不可欠である。
- 既存の情報検索手法では,提供されたコンテンツに忠実な詳細な情報抽出が課題である。
- コンテンツに基づいた,より正確で効率的な情報検索を自動化することを目指す。
- IntrAgentは,文献の構造的知識を活用し,関連性の高いセクションを優先的にランク付けする。
- Iterative Readingと呼ばれる反復的な読解段階により,詳細を継続的に抽出し,簡潔な回答を生成する。
- 7つの基盤LLMにおいて,最先端のRAGや研究エージェントと比較して,平均で13.2%高いクロスドメイン精度を達成した。
画像編集モデルにおける視覚的計画の探求 [cs.CV, cs.AI]目的:画像編集モデルにおける視覚的計画能力の評価
- 視覚的計画は人間の知能の重要な側面であり,複雑な空間推論やナビゲーションに不可欠である。
- 機械学習では,視覚的な問題が言語に依存したアプローチで扱われることが多い。
- 本研究は,視覚的計画を単一ステップの画像変換として捉えることで,計算効率の課題を解決する。
- 主要な画像編集モデルを評価した結果,ゼロショット環境下では苦戦することが示された。
- 基本的なスケールでのファインチューニングにより,ドメイン内およびドメイン外のスケールや形状への汎化能力が向上した。
- 最良モデルであっても,人間の効率には及ばず,ニューラル視覚推論における課題が残る。
航空機メイン燃料ポンプのシミュレーションと故障診断ベンチマーク [cs.LG, cs.AI, cs.SY, eess.SY]目的:航空機メイン燃料ポンプシステムのシミュレーションと故障診断のためのベンチマークデータセット
- 航空機の安全性確保は重要であり,その中核を担う燃料ポンプの信頼性評価が不可欠である。
- 機密性や観測性の制限から,異常検知や診断アルゴリズムを訓練するための十分なデータが得られない。
- データ不足の問題を解決するため,高精度な物理モデルに基づくシミュレーション環境を構築し,ベンチマークデータを提供する。
- 航空機メイン燃料ポンプシステムのMATLAB/Simulink Simscape Fluidsによる高精度な共同シミュレーションを実装した。
- 生成された時系列データには,健全性や故障モードに関する注釈が付与されており,診断アルゴリズムの評価に利用可能である。
- 教師なし学習によるRNN-VAEとSOM-VAEを用いて,健全状態と故障状態の分離が可能であることを示した。
グローバル読み出しを持つGNNの表現力の理解に向けて [cs.LG, cs.AI, cs.LO]目的:メッセージパッシング集約-結合-読み出し型グラフニューラルネットワーク(ACR-GNN)の表現力
- グラフ構造を持つデータの解析は,化学,社会科学,機械学習など多岐にわたる分野で重要性が増している。
- GNNの表現力の理論的な理解は十分ではなく,どのような特性を捉えられるのかが明確になっていない。
- GNNが表現可能な一階論理の特性を明らかにし,その限界と可能性を探る。
- 集約関数に総和を用いることで,C2論理では表現できない一階論理の特性を捉えることが示された。
- 局所的な集約を制限するか,次数が制限されたグラフでACR-GNNを実行することで,表現力を特徴づけることが可能となった。
- 集約と読み出しの相互作用が,GNNの表現力をC2論理を超えるレベルに押し上げていることが示唆された。
AutoRISE:大規模言語モデルに対する敵対的試行戦略の自動進化 [cs.CR, cs.AI, cs.MA]目的:大規模言語モデルに対する敵対的試行戦略の自動進化
- 大規模言語モデルの安全性評価は重要であり,潜在的な脆弱性を特定する必要がある。
- 既存の手法は,人間が設計した戦略に基づいて攻撃を最適化しており,戦略自体は変化しない。
- 実行可能な攻撃プログラムを探索することで,攻撃戦略そのものを進化させ,脆弱性をより効果的に突く。
- AutoRISEは,攻撃戦略を最適化することで,既存の強固なベースラインと比較して平均攻撃成功率を17.0ポイント向上させた。
- 特に,ベースラインの成功率が低い最先端のモデルに対して,最大16ポイントの攻撃成功率の改善が見られた。
- AutoRISEは,ファインチューニングや人間による注釈,GPU計算を必要としないブラックボックス環境で動作する。
ポリシーの再学習が不可能な場合:オフライン強化学習におけるポストトレーニングステアリングの統一的な閉形式ビュー [cs.LG, cs.AI]目的:オフライン強化学習における,凍結されたポリシーのデプロイメント時の適応
- データ収集コストが高い場合など,再学習が困難な場面で,既存のポリシーを最大限に活用する必要がある。
- デプロイメント時に目的関数が変化した場合,既存のポリシーが適切に対応できない可能性がある。
- 凍結されたポリシーを安全に,かつ効果的に適応させる手法を確立すること。
- Product-of-Experts (PoE)による構成では,質の低い事前分布を用いると性能劣化が起こるが,精度重み付きの構成は元のポリシーに留まる。
- PoEによる構成とKL正則化適応は,αとβの関係において等価であり,実質的には同じメカニズムである。
- 実験結果から,PoEとKL正則化適応は,デプロイメント時のステアリングのための安全機構として機能することが示唆された。
SketchVLM:思考の説明とユーザーの誘導のために画像を注釈するビジョン言語モデル [cs.CV, cs.AI]目的:画像に関する質疑応答における思考過程の説明
- 画像と言語を組み合わせた処理は,AIの理解力向上に不可欠である。
- 既存のビジョン言語モデルはテキストのみで応答するため,根拠の確認が困難である。
- モデルの思考過程を可視化し,ユーザーとの協調を促進することを目指す。
- SketchVLMは,既存のビジョン言語モデルに追加の学習を必要とせず,画像にSVGオーバーレイを追加して思考過程を説明する。
- 7つのベンチマークにおいて,SketchVLMは従来のモデルと比較して,視覚的推論の精度を最大28.5%向上させた。
- 注釈の質も最大1.48倍に向上し,モデルの回答に対する忠実度も高めている。
単一エージェントの整合性を超えて:マルチエージェントシステムにおける文脈断片化による違反の防止 [cs.MA, cs.AI, cs.CR, cs.LG]目的:マルチエージェントシステムにおける文脈断片化による違反の防止
- 組織における意思決定は複数エージェント間で連携して行われるケースが増加しており,その安全性確保が重要である。
- 各エージェントの行動は局所的には安全に見えても,組織全体で見るとポリシー違反が発生する問題が存在する。
- 異なる部署間での情報共有におけるセキュリティリスクを軽減し,組織全体のポリシー遵守を保証することを目指す。
- 本研究では,Distributed Sentinelという分散型ゼロトラスト強制アーキテクチャを提案し,Semantic Taint Token (STT) プロトコルを導入した。
- PhantomEcosystemという現実的なクロスエージェント違反シナリオを含む包括的なベンチマークを構築し,その性能を評価した。
- Distributed SentinelはF1スコア0.95を達成し,既存のプロンプトベースのフィルタリングやルールベースのDLPよりも優れた性能を示した。
MTServe:階層型キャッシュによる生成推薦モデルの効率的な配信 [cs.CL, cs.LG, cs.AI]目的:生成推薦モデルの配信効率向上
- 推薦システムの精度向上が重要であり,生成推薦はその有力な手法である。
- 長時間のユーザー履歴の繰り返しエンコードが計算コストの課題となる。
- 巨大なユーザー状態によるストレージの増大問題を解決する。
- MTServeは,ホストRAMをスケーラブルなバックアップストアとして活用し,GPUメモリを仮想化する階層型キャッシュ管理システムである。
- ハイブリッドストレージレイアウト,非同期データ転送パイプライン,ローカリティ駆動型置換ポリシー等のシステムレベル最適化を導入した。
- 公開データセットおよび本番データセットで,MTServeは最大3.1倍の高速化を達成し,ほぼ完璧なヒット率(>98.5%)を維持した。
港湾環境におけるコンテナ船の風荷重予測のためのマルチフィデリティモデリング [cs.LG, physics.comp-ph, physics.data-an]目的:コンテナ船の風荷重係数の予測
- 大型化するコンテナ船の安全性確保が重要であり,正確な風荷重予測が不可欠である。
- 既存の経験的モデルは,現代の大型コンテナ船に対応した精度が不足している。
- マルチフィデリティモデリングにより,高精度かつ効率的な風荷重予測を実現すること。
- 提案手法は,従来の単一フィデリティモデルと比較して,予測精度を大幅に向上させる。
- 風荷重が重要な幾何学的パラメータに依存すること,およびその関係性を捉えることが示された。
- 本手法は,工学的応用において堅牢かつ効率的なツールを提供し,高精度なシミュレーションへの依存度を低減する。
NeuroAPS-Net:効率的なアルツハイマー病分類のための神経解剖学的認識点群表現 [cs.CV, cs.AI]目的:アルツハイマー病分類のための神経解剖学的認識点群表現
- アルツハイマー病は認知症の主要な原因であり,早期診断が重要である。
- 従来の3D CNNは計算コストが高く,リソースに制約のある環境での利用が困難である。
- 神経解剖学的情報を活用した点群表現により,効率的かつ解釈可能な分類を目指す。
- 提案手法NeuroAPS-Netは,既存の点群ベース手法と同等の分類精度を達成した。
- NeuroAPS-Netは,推論遅延とGPUメモリ使用量を大幅に削減することに成功した。
- 神経解剖学に基づいた点群学習が,アルツハイマー病分類における有効な代替手段となる可能性を示した。
マルチモーダル大規模言語モデルは小さな物体を本当に理解できるか [cs.CV, cs.AI]目的:小さな物体理解能力の評価と改善
- 画像や動画解析など多様なタスクでMLLMの潜在能力が期待される。
- MLLMにおける小さな物体理解能力の調査は未だ十分ではない。
- MLLMの小さな物体理解能力を評価し,改善するための基盤を構築する。
- 本研究では,初の包括的なベンチマークSOUBenchを導入し,既存のMLLMの小さな物体理解能力を評価した。
- 15の最先端MLLMの評価から,小さな物体理解における弱点が明らかになった。
- 新たなマルチモーダル学習データセットSOU-Trainを用いて,MLLMの小さな物体理解能力を効果的に向上させることを示した。
セマンティックルーティングとアダプター個別化による欠損モダリティを持つ連合クロスモーダル検索 [cs.CV, cs.AI]目的:連合クロスモーダル検索における性能向上
- 異種データ環境下での情報検索の重要性が高まっているため。
- クライアントデータの非IID性やモダリティ欠損が課題となっている。
- データ不均衡による検索精度の低下を改善すること。
- 提案手法RCSRは,共有アダプターとプロトタイプアンカリングにより,グローバル知識とクライアント固有の特徴を捉える。
- サーバー側のセマンティックルーティングにより,異種更新時のずれを抑制し,集約重みを適応的に調整する。
- MS-COCO等のベンチマークで,グローバル・クライアントレベルの検索精度と学習安定性を向上させることを示した。
RouteGuard:LLMエージェントにおけるスキルポイズニングの内部シグナル検出 [cs.CR, cs.AI]目的:LLMエージェントにおけるスキルポイズニングの事前検出
- LLMエージェントの普及に伴い,セキュリティリスクへの対策が重要となっている。
- 従来のプロンプトインジェクションとは異なり,スキル内に悪意のある指示が隠蔽される可能性があった。
- スキルポイズニングによる注意の乗っ取りという内部シグナルを検出し,防御すること。
- RouteGuardは,応答に依存する注意機構と隠れ状態のアラインメントを組み合わせることで,高い検出性能を発揮する。
- 実データ及び合成データを用いた評価において,RouteGuardは一貫して最も優れた性能または堅牢性を示した。
- 特にSkill-Injectチャネルにおいては,F1スコア0.8834,記述攻撃の検出率90.51%を達成した。
LLMジャッジの自己選好バイアス計測と軽減 [cs.LG, cs.AI, cs.CL]目的:LLMジャッジの自己選好バイアスの定量化と軽減
- LLMはモデルの調整や品質管理に不可欠であり,その評価手法の信頼性が重要である。
- LLMは自身の生成結果を優先する傾向があり,評価の公平性を損なう可能性がある。
- 大規模なLLM評価において,人間のアノテーションに頼らずバイアスを測定・軽減する手法が求められている。
- 提示されたフレームワークにより,人間の基準なしでバイアスの統計的分解が可能となった。
- 20の主流LLM分析の結果,高度な能力と低い自己選好バイアスは必ずしも相関しないことが示された。
- 認知負荷分解に基づく評価戦略により,平均で31.5%のバイアス軽減が確認された。
StackFeat RL:安定したバイオマーカー発見のための反復二基準特徴選択における強化学習 [cs.LG]目的:高次元ゲノムデータにおける安定したバイオマーカー発見のための特徴選択手法
- ゲノムデータ解析において,疾患関連遺伝子などの重要な特徴量を効率的に抽出することは,病態解明や個別化医療に不可欠である。
- 既存の特徴選択手法は,精度,スパース性,安定性の全てを満たすことが難しく,データ変動に対する不安定性や生物学的構造の無視が問題となる。
- 本研究は,強化学習を用いて反復二基準特徴選択のハイパーパラメータを最適化し,高精度かつ安定したバイオマーカー発見を目指す。
- StackFeat-RLは,COVID-19 miRNAデータおよびアルツハイマー病分類タスクにおいて,既存手法(ElasticNet,Boruta,mRMRなど)と比較して最も高い予測精度を達成した。
- StackFeat-RLは,同等の精度を維持しながら,使用する特徴量の数を3~4倍削減することに成功した。
- 二基準選択により,単一基準手法では見過ごされがちな失敗モードを抑制し,反復的累積により収束性を保証する。
利用度を考慮したデータ価格設定:LLMのためのトークンレベル品質と実証的な学習効果 [cs.LG, cs.AI]目的:LLMの能力に対するデータの微妙かつ非線形な貢献を捉えた,利用度に基づいたデータ価格設定フレームワーク
- LLMの性能向上には,高品質な学習データが不可欠であり,データの価値を正当に評価することが重要である。
- 従来のデータ評価方法は,データの貢献度を正確に捉えきれず,データの価値を過小評価または過大評価する可能性がある。
- データの実際の貢献度に基づいた公平なデータ価格設定を実現し,信頼性の高いデータ市場を構築すること。
- 提案手法では,シャノンエントロピーやデータ品質スコアを用いたトークンレベルの情報密度と,影響関数やデータシャプレー値を用いた実証的な学習効果を測定する。
- 実験の結果,プロキシベースの実証的な学習効果が,実際の利用度とほぼ完全に一致し,行数やトークン数に基づくベースラインを大幅に上回ることが示された。
- このフレームワークにより,高度な推論能力を持つデータを,モデルの知能への実際の貢献度に応じて価格設定することが可能になる。
CNN回帰と回転不変性による磁場を用いた屋内位置推定 [cs.RO, cs.LG]目的:CNN回帰と回転不変性に基づいた屋内位置推定手法の開発
- GPSが利用できない環境下での屋内ナビゲーションやIoTシステムの普及に不可欠な技術である。
- 3D磁気センサーデータを用いた位置推定はデバイスの向きに大きく影響を受け,精度が低下しやすい。
- デバイスの向きに依存しない特徴量を用いることで,屋内位置推定のロバスト性を向上させる。
- 磁場のノルム(Mn)と重力軸への投影(Mg)という回転不変な特徴量を用いることで,デバイスの向きによる影響を抑制できる。
- 軽量な7層の拡張畳み込みニューラルネットワーク(MagNetS/XL)を用いて,(x, y)座標を直接回帰することで高精度な位置推定を実現した。
- MagNetXLはMagPieデータセットで最先端の精度を達成し,MagNetSはパラメータ数を削減しながら同等の性能を発揮した。
引用駆動型マルチビュー学習による特許埋め込み:QaECTERとSophia-Bench [cs.IR, cs.AI]目的:特許検索のための埋め込みモデルの性能向上
- 技術革新や権利戦略において,特許検索は不可欠であり,その精度向上が重要である。
- 既存のベンチマークは現実世界の多様な検索シナリオを反映しておらず,モデルの性能評価が困難であった。
- 現実的な検索シナリオに対応可能な大規模ベンチマークと高性能な埋め込みモデルを開発し,特許検索の精度を向上させる。
- Sophia-Benchは,10,000件のクエリと75,000件の特許文書を含む大規模なベンチマークであり,多様なクエリタイプと技術分野を網羅している。
- QaECTERは,344Mパラメータのコンパクトな埋め込みモデルでありながら,特許検索において最先端の性能を達成した。
- Sophia-Benchおよび独立した外部ベンチマークにおいて,既存モデルを大幅に上回り,実用的な特許検索システムへの展開が期待される。
再構成権限モデル:部分的観測性下における実行妥当性の検証 [cs.CR, cs.AI, cs.GT]目的:部分的観測性下における実行妥当性の検証手法
- 自律システムの普及に伴い,完全な状態把握が困難な状況下での安全性が重要となる。
- 既存の統治メカニズムは,完全な状態把握が不可能であるため,実行妥当性を保証しきれない。
- 状態の網羅性を評価し,行動クラスに応じた適切な権限を動的に調整することで,安全な実行を実現する。
- 再構成権限モデル(RAM)は,完全性の保証と状態の網羅性の確認を分離することで,実行妥当性を評価する。
- シミュレーション実験の結果,RAMはあらゆる網羅性レベルで無効な実行をゼロに抑えることが示された。
- 既存の認証ベースシステムでは,網羅性が低い場合や完全な場合でも,無効な実行が発生することが確認された。
周波数領域拡散モデルにおける誤差フィードバックイベント駆動型キャッシュによる高速化 [cs.LG]目的:周波数領域拡散モデルの高速化手法
- 時系列データ生成において拡散モデルの成功は目覚ましいが,実用化には推論速度が課題となる。
- 既存手法では,推論速度の向上と生成品質の維持を両立することが難しい。
- スペクトル局所性と鏡対称性を活用し,キャッシュ効率を向上させることで高速化を実現する。
- 提案手法E$^2$-CRFは,変換器のKV特徴量を拡散ステップ間で適応的にキャッシュする閉ループ誤差フィードバックシステムを用いる。
- イベント駆動型残差ダイナミクスを用いて再計算をトリガーすることで,高エネルギーまたは急速に変化するトークンのみを再計算する。
- その結果,サンプル品質を維持しつつ,約2.2倍の高速化を5つのデータセットで実証した。
量子と古典的特徴の補完性:乳癌分類のための適応型ハイブリッド量子古典特徴融合 [cs.CV, cs.AI]目的:乳癌分類のための,古典的モデルと量子回路からの補完的な表現抽出と統合
- 医療画像解析における量子機械学習と古典的深層学習の統合は,高次元ヒルベルト空間へのデータマッピングを可能にする。
- 最適化の非対称性により,これらの異なるパラダイムを効果的に統合することは困難である。
- 多様な特徴表現を統合し,より豊かなデータコンテキストを構築することで,分類精度を向上させる。
- 提案するTSHF戦略は,ResNetバックボーンと学習可能な量子回路との組み合わせにおいて,最高87.82%の精度を達成した。
- また,F1スコアは91.77%,AUC-ROCは89.08%であり,純粋な古典的ベースラインを上回った。
- 本研究の結果は,提案するハイブリッドフレームワークが分類精度と閾値信頼性を向上させ,臨床展開可能な量子強化診断ツールを提供することを示す。
気候のための深層クラスタリング:学習されたカテゴリカル状態を通じたテレコネクションの分析 [cs.DC, cs.LG]目的:気候テレコネクションの分析
- 地球温暖化が進む中で,気候変動の理解と予測は喫緊の課題である。
- 気候データのノイズが多く,非線形な依存関係を持つため,意味のある気候状態の抽出が困難である。
- 深層学習を用いて気候データを離散化し,簡略化された気候状態の表現を確立することを目指す。
- マスクされたSiamese Networkを用いて気候時系列を意味的に豊かなクラスターに離散化することに成功した。
- 得られたクラスターは,モデリングの仮定の下で意味のある気候状態を反映し,簡略化された表現として利用可能となった。
- これらのクラスターは,エルニーニョ現象との統計的な関連性を示しており,科学的な関連性が確認された。
PExA:複雑なテキストSQL変換のための並列探索エージェント [cs.RO, cs.AI, cs.CL]目的:複雑なテキストSQL変換における性能と遅延のトレードオフの解消
- 自然言語処理とデータベースの連携は,データ分析や情報検索において不可欠である。
- 大規模言語モデルを用いたテキストSQL変換は,遅延と性能のバランスが課題となっていた。
- テストケースによる網羅的な探索を通して,性能と遅延の両立を目指す。
- 提案手法PExAは,テキストSQL変換をソフトウェアテストの観点から捉え,並列的なテストケース実行を実現した。
- テストケースのSQL実行結果に基づき,最終的なSQL生成を行うことで,より正確な変換を実現する。
- Spider 2.0ベンチマークにおいて,実行精度70.2%という最高水準の性能を達成した。
AutoPyVerifier:大規模言語モデルの出力を検証するコンパクトな実行可能検証器の学習 [cs.CL, cs.LG, cs.PL]目的:大規模言語モデルの出力に対する目標を近似する,最小限のPython検証器集合の自動誘導
- 大規模言語モデルの性能向上には,出力の検証が不可欠である。信頼性と制御が課題となっている。
- 既存の検証器は,表現力と制御の容易さのトレードオフに陥り,十分な性能を発揮できない場合がある。
- 大規模言語モデルの目標をより正確に予測する,コンパクトで実行可能な検証器集合を自動的に生成すること。
- AutoPyVerifierは,数学的推論,コーディング,関数呼び出し,指示追従といった複数のベンチマークで,初期検証器集合と比較して最大55.0F1ポイントの目標予測精度向上を示した。
- 有用な検証ターゲットはベンチマークやモデルによって異なり,DAGベース探索により検証器集合が構造的で意味的に根拠のあるチェックへと変化することが示された。
- 発見された検証器集合を大規模言語モデルに外部ツールとして提供することで,ダウンストリームの精度が最大17.0ポイント向上した。
自己知識の再表現:LLMを内部知識を用いてタスクに適応させるための完全な局所手法 [cs.CL, cs.AI, cs.CV, cs.IR]目的:LLMの内部知識を利用したタスク適応
- LLMは大規模な知識を保有しているが,その活用方法が課題となっている。
- LLMの知識表現メカニズムが,特殊な非生成タスクにおいて性能のボトルネックとなっている。
- LLMの知識表現をタスク固有のものに変換し,性能向上を目指す。
- 提案手法SKRは,LLMの出力を汎用的なトークン生成から,高効率なタスク固有の表現へと変換する。
- 金融ドキュメントデータセットにおいて,情報検索のRecall@1が40%以上,物体検出のレイテンシが76%以上削減された。
- 異常検知のAUPRCは33%以上向上し,MMDocRAGデータセットでは主要な検索モデルを12.6%以上上回る結果が得られた。
VS-DDPM:医療モダリティ変換のための効率的低コスト拡散モデル [cs.CV, cs.AI, cs.LG]目的:医療モダリティ変換における高速化と高画質化
- 医療画像診断支援の精度向上には,高品質な画像データの確保が不可欠である。
- 拡散モデルは高画質だが,推論速度が遅く実用化の障壁となっていた。
- 推論速度を向上させつつ,生成品質を維持する新しい拡散モデルを開発する。
- VS-DDPMは,欠損MRI合成において,Dice係数0.80~0.88,SSIM 0.95と高い性能を示した。
- MRI腫瘍除去タスクでは,RMSE 0.053,PSNR 26.77,SSIM 0.918を達成した。
- MRI-to-sCTおよびCBCT-to-sCTタスクではSOTAには至らなかったが,堅牢で調整可能なソリューションであることが示された。
スコア反発モンテカルロ:一般状態空間における定数メモリ非マルコフサンプラーへ [cs.ET, cs.LG, stat.CO, stat.ML]目的:高次元または連続領域における効率的な非マルコフサンプリング手法の開発
- モンテカルロ法は様々な問題に応用可能だが,効率的なサンプリングが課題となる。
- 履歴依存サンプリングは有効だが,高次元空間では履歴の保存が困難である。
- スコア反発モンテカルロにより,履歴情報を効率的に利用し,メモリ消費量を抑える。
- 提案手法は,履歴情報をスコアの実行平均で要約し,指数関数的なスコア傾斜を利用する。
- 理論解析により,履歴再帰とモンテカルロ推定量の収束性が示され,漸近共分散が減少することが確認された。
- 連続ターゲットと離散エネルギーベースモデルにおける実験により,推定量の分散とモードカバレッジが改善された。
べき乗則の力:非対称性が構成的推論を可能にする [cs.AI, cs.CL, cs.LG]目的:構成的推論におけるべき乗則分布の有効性
- 自然言語データはべき乗則に従うため,学習データ分布の理解が重要である。
- 従来の考え方では,データ分布を均一化することで,低頻度なスキルの学習が改善されると考えられていた。
- べき乗則分布が,均一分布よりも構成的推論において優れた性能を発揮する理由を解明する。
- べき乗則分布下での学習は,一様分布下での学習よりも,様々な構成的推論タスクで一貫して優れた性能を示すことがわかった。
- 理論的分析から,べき乗則サンプリングは,学習に必要なデータ量を大幅に削減する非対称性を誘導することが示された。
- 高頻度のスキル構成を効率的に学習することで,低頻度なスキルの学習を促進する効果が明らかになった。
議論における優先度に基づく削減の逆解に関する存在可能性 [cs.AI]目的:優先度に基づく議論フレームワークにおける逆解の存在判定
- 議論の自動化や意思決定支援において,議論の構造と優先度を扱うことは重要である。
- 既存の削減手法では,特定のラベル付けを生み出す優先度関係の特定が困難である。
- 与えられた議論グラフとラベル付けに対し,それを実現する優先度関係が存在するかを判定する。
- 優先度に基づく削減の逆解問題の多くは,多項式時間で解決可能であることが示された。
- この結果は,優先度推定や議論の説明可能性といった応用分野に貢献する。
AnemiaVision:スマートフォン画像を用いた効率的EfficientNet-B3による非侵襲性貧血検出 [cs.HC, cs.CV, cs.LG, cs.SE]目的:スマートフォン画像による非侵襲的な貧血スクリーニングシステムの開発
- 貧血は世界で10億人以上に影響を与え,公衆衛生上の重要な課題である。
- 低資源地域では血液検査へのアクセスが限られており,貧血の診断が遅れることが多い。
- スマートフォン画像から貧血を非侵襲的に検出し,診断の早期化に貢献する。
- 提案システムは,EfficientNet-B3をベースに改良された分類器ヘッドと,データ拡張技術を組み合わせることで高い精度を実現した。
- 検証精度は96.2%,AUC-ROCは0.98に達し,ベースラインと比較して大幅な改善が見られた。
- 貧血患者の検出感度は0.96と高く,遠隔地でのスクリーニングツールとしての有用性が示唆された。
判断の充足後における制度 [cs.CY, cs.AI]目的:判断の充足後の制度に関する考察
- 技術革新は常に希少性を転換し,新たな制度を構築する。現代社会におけるAIの役割を理解する上で重要。
- AIの発展により,判断能力が大量生産され,質の高い判断が安価に手に入るようになった。これにより既存の制度の役割が問われている。
- AI技術による判断の充足という状況下で,信頼性,正当性,起源,統合能力といった新たな希少性を明らかにし,制度設計の方向性を示す。
- AIの発展は,従来の判断の希少性を覆し,検証可能なシグナル,正当性,真正な起源,統合能力といった要素が重要になっている。
- 既存の制度(裁判所,学術誌,免許機関,議会)は,AI技術によって機能が代替される可能性に直面している。
- AI政策を制度再設計と捉え,起源と検証を共有資源として構築し,戦略的エージェントによる制度構成の形式的枠組みを開発する必要がある。
マルチエージェントLLM評価におけるピアアイデンティティバイアス:TRUST民主的談話分析パイプラインを用いた実証研究 [cs.CE, cs.SY, eess.SY, math.OC, cs.CY, cs.AI, cs.MA]目的:マルチエージェントLLM評価におけるピアアイデンティティバイアスの実証的測定
- LLMの多エージェントシステムは,複雑なタスク遂行において重要な役割を担う。
- LLM間のアイデンティティ情報が評価に影響を及ぼし,公平性を損なう可能性が指摘されている。
- TRUSTパイプラインにおけるアイデンティティバイアスの影響を定量的に評価し,バイアス軽減策を提示する。
- 単一チャネルでの匿名化は,相反する効果によりバイアスを相殺し,誤った結論を招く可能性がある。
- パイプライン全体の匿名化によって初めて,モデルの均質性によってアイデンティティに基づく迎合性が増幅される傾向が明らかになった。
- 異質モデル構成は均質モデル構成よりも堅牢であり,合意率が高く,アイデンティティ増幅が低いことが示された。
Wi-Fi CSIを用いた因果解釈可能な人間活動認識:離散潜在圧縮とLTLルール抽出 [cs.RO, cs.AI]目的:Wi-Fi CSIに基づく人間活動認識における因果解釈可能性,記号的制御可能性の実現
- Wi-Fi CSIは,ウェアラブルデバイスを必要とせず,プライバシーを保護しつつ活動認識を実現可能とする。
- 深層学習モデルは高い性能を示す一方,解釈可能性が低く,変更が困難である。
- 潜在表現を離散化し,因果関係を抽出することで,解釈性と制御可能性を向上させる。
- カテゴリカル変分オートエンコーダを用いてCSIデータを離散的な潜在表現に圧縮するパイプラインを提案した。
- 抽出された潜在表現に対して因果探索を行い,クラス条件付きの時間的依存グラフを推定した。
- 推定された依存関係をLTLルールに変換し,ルール評価に基づく決定的な分類器を構築した。
報酬モデルは秘密裏に価値関数である:時間的に一貫性のある報酬モデリング [cs.LG]目的:時間的一貫性のある報酬モデリング
- 強化学習における報酬モデルは,LLMの性能向上に不可欠であり,人間のフィードバックを活用した学習を可能にする。
- 従来の報酬モデルは応答の最終トークンのみを評価するため,中間段階の情報が失われ,トークンレベルの出力にノイズが生じやすい。
- 応答の各トークンにおける報酬の期待値を正確に推定し,報酬モデルの解釈性と性能を向上させる。
- 提案手法TCRMは,報酬モデルの出力が条件付き期待値となるように誘導し,トークンレベルの報酬軌跡の解釈性を向上させた(中間トークンペアワイズ精度が50%から88.9%に向上)。
- ProcessBenchにおけるPRM性能は最先端レベルを達成し,結果データのみで学習した場合でも平均F1スコア44.9%を記録した。
- PPOにおける報酬/価値モデリングを統合することで,GPUメモリ使用量とステップ時間をそれぞれ27%と19%削減し,LLMの品質を維持した。
CheXmix:医療画像におけるビジョン言語モデルのための統一的な生成事前学習 [cs.CL, cs.CV, cs.AI]目的:医療画像と放射線レポートのペアから学習する,統一的な早期融合生成モデル
- 医療画像診断では,わずかな手がかりが正確な診断に不可欠であり,高精度なモデルが求められる。
- 既存のマルチモーダル大規模言語モデルは二段階構成で,視覚特徴の歪みが生じる可能性がある。
- 視覚特徴の歪みをなくし,言語モデルの誘導バイアスを活かした共同表現学習を実現する。
- CheXmixは,マスクされた自己エンコーダーとMLLMの強みを組み合わせた二段階の事前学習戦略を採用している。
- CheXpert分類タスクにおいて,高い画像マスキング率でAUROCがCheXagentを8.6%上回る性能を示した。
- 画像補完や放射線レポート生成においても,既存モデルを大きく上回る結果が得られた。
見えにくい,ラベル付けが難しい:微細な視覚現象に対する生成と記号的獲得 [cs.CV, cs.AI]目的:微細な視覚異常の検出における能動学習フレームワーク
- 産業検査において,微細な異常は製品品質を左右するため,効率的な検出が不可欠である。
- 従来の能動学習は,支配的なパターンに偏りやすく,重要な微細な異常を見落とす可能性がある。
- 視覚的な難易度と意味的な網羅性のバランスにより,微細かつ稀な異常の検出率向上を目指す。
- 提案手法GSALは,拡散モデルによる視覚的難易度と,階層的意味的カバレッジを組み合わせることで,異常検知の能動学習を改善する。
- GSALは,再構成誤差やノイズ除去の変動を用いて視覚的に異質なサンプルを優先し,意味グラフを用いて網羅性の低い領域を探索する。
- 実験結果から,GSALはラベル効率と稀少クラスの検出において,既存手法よりも優れていることが示された。
ロボティクスにおける視覚・言語・行動:データセット,ベンチマーク,データエンジンのサーベイ [cs.RO, cs.RO, cs.AI]目的:視覚・言語・行動モデルのデータインフラストラクチャに関する体系的な分析
- ロボティクスの発展には,知覚,言語理解,行動計画を統合するVLAモデルが不可欠である。
- VLA研究はモデルの構造に焦点が当たりがちで,学習を支えるデータインフラストラクチャの重要性が見過ごされている。
- VLA研究の進展には,高品質なデータと評価プロトコルの共同設計が重要であるという点を指摘する。
- データセットに関して,現実世界と合成データの多様性,モダリティ構成,行動空間の定式化を分類し,大規模収集における忠実性とコストのトレードオフを明らかにした。
- ベンチマークの分析では,既存のプロトコルが compositional generalizationや long-horizon reasoningの評価において構造的な課題を抱えていることが示された。
- データエンジンの調査では,シミュレーション,ビデオ再構成,自動タスク生成の限界が明らかになり,物理的な根拠とシミュレーションから現実世界への転送の課題が浮き彫りになった。
FormalScience:Leanにおけるエージェント的コード生成による科学のスケール可能な人間介在型自動形式化 [cs.AI, cs.CL]目的:科学の自動形式化
- 科学的推論の形式化は,厳密な検証を可能にし,知識の信頼性を高める上で重要である。
- 現在のLLMやエージェント的手法では,物理学のような特定の分野における形式化の課題に対処できていない。
- 科学分野における形式化を支援するため,専門家が低コストで形式的に正しい証明を生成できるシステムを構築する。
- FormalScienceとFormalPhysicsデータセットを構築し,大学レベルの物理問題を形式化可能なLean4表現として提供した。
- 既存の数学ベンチマークと比較して,FormalPhysicsは完全な形式的妥当性とより高い命題の複雑性を示した。
- LLMベースのアプローチにおける形式化の限界と,記号の崩壊や抽象化の高度化といった意味的ドリフトを体系的に特徴づけた。
スピッツベルゲンにおける熱逆転条件下での汚染拡散の時間依存シミュレーションのための共起に基づくロバストな物理情報ニューラルネットワーク [cs.LG, cs.NE]目的:移動発生源に起因する汚染拡散の時間依存シミュレーション
- 大気汚染は健康と環境に深刻な影響を与えるため,その拡散予測は重要である。
- 従来の数値シミュレーションは計算コストが高く,複雑な地形や気象条件下での精度が課題となる。
- 物理情報ニューラルネットワークを用いて,効率的かつ高精度な汚染拡散予測を実現する。
- 本研究では,時間依存の移流拡散方程式に対するロバストな変分枠組みを構築し,離散化された弱形式の有界性とinf-sup安定性を確立した。
- 提案手法は,ニューラルネットワーク近似と未知の厳密解との差である真の近似誤差に直接関連するロバストな損失関数に基づいている。
- スピッツベルゲンのロンギェールビュエンにおけるスノーモービル交通による汚染拡散を分析し,熱逆転がPM濃度を増加させ,局所的な大気質を悪化させることを示した。
サムサイズマイクロコントローラにおけるオンデバイスでのビジョン学習,展開,推論 [cs.LG, cs.CV]目的:15~40米ドルのマイクロコントローラクラスデバイス上での,データ収集,Adam最適化を用いた二層CNN学習,およびリアルタイム推論を含む,完全なエンドツーエンドのオンデバイスビジョン機械学習パイプライン
- 低コストなデバイスでの画像処理の重要性が高まっており,エッジAIへの関心が高まっている。
- クラウドベースのワークフローは,インフラストラクチャが必要であり,計算パイプラインが不透明であるという課題がある。
- この研究は,外部依存関係なしに,マイクロコントローラ上で機械学習ライフサイクル全体を実現することを目指す。
- Seeed Studio ESP32-S3 XIAO ML Kit上で,64x64画像3クラス分類を9分/学習で実現。
- リアルタイム推論は6.3 FPSを達成。低リソース環境での効率的な学習と推論が可能になった。
- バッチレベル勾配蓄積,リサイズルックアップテーブル,重量のエクスポート/優先順位システムなどの工夫により,メモリ制約に対応。
DeepSignature:デジタル署名付きコンテンツ符号化ウォーターマークによる堅牢かつ透明な画像認証 [cs.CR, cs.AI, cs.CV]目的:画像認証の信頼性と透明性の向上
- AI技術の発展により,画像の改ざんが容易になり,信頼性の担保が重要となっている。
- 既存の画像認証技術は,改ざん検知やロバスト性に課題が残されている。
- デジタル署名と深層学習を組み合わせ,改ざん検知可能なウォーターマーク技術を開発する。
- DeepSignatureは,既存の画像フォーマットに適合し,特別な処理を必要としない。
- 実験の結果,DeepSignatureは高い改ざん検知率(ほぼ100%)を示し,画像の信頼性を効果的に検証できることが示された。
- DeepSignatureは,目に見えないウォーターマークを埋め込み,多様な攻撃シナリオに対して堅牢性を持つ。
複素数SGDと再生核ヒルベルト空間における方向バイアス [cs.LG, cs.NA, math.CV, math.NA]目的:複素数パラメータ最適化における収束保証
- 大規模最適化問題において,単純さと拡張性からSGDが広く利用されている。
- 複素数ニューラルネットワークでは,標準的な手法では収束が保証されない場合がある。
- 複素数SGDの収束性を解析し,実数値の場合と同様の条件で保証する。
- 複素数SGDは,実数値の設定と同様の仮定の下で収束が保証されることが示された。
- 方向バイアスに関する結果が,実数値設定から複素数設定へ拡張されることが確認された。
- 複素数再生核ヒルベルト空間を用いたカーネル回帰問題において,複素数SGDの有効性が実証された。
AmaraSpatial-10K:空間と意味が整合された3Dデータセット - 空間コンピューティングと具現化されたAI向け [cs.CV, cs.AI, cs.LG]目的:空間コンピューティングと具現化されたAIのための3Dデータセット
- 大規模な3Dアセットは存在するものの,実用性に課題が多い。
- 既存の3Dアセットは,スケール,向き,形状,テクスチャに問題があり,AIやロボティクスの利用を阻害している。
- 実用的な3Dアセットの提供を通して,AIやロボティクスの発展に寄与すること。
- AmaraSpatial-10Kは,10,000以上の高品質な3Dアセットを提供し,ダウンストリームタスクでの利用を容易にする。
- テキストベースでの検索精度が大幅に向上し(CLIP Recall@5が0.612 vs 0.181),既存データセットと比較して3.4倍の改善が見られた。
- 物理シミュレーションや具現化されたAIのためのアセットバンク構築に必要な空間的・意味的要件を満たしていることが示された。
ドローン画像による熱帯樹木の種分類におけるスケール間表現ギャップの理解 [cs.CV, cs.LG]目的:熱帯樹木の種分類におけるスケール間表現ギャップの定量化と,その改善策の提案
- 熱帯林は生物多様性の宝庫であり,そのモニタリングは保全活動の根幹をなす。
- ドローン画像を用いた樹木種分類は,種多様性の高さと種間の視覚的類似性から困難である。
- 異なるスケールの画像を利用し,表現ギャップを解消することで,分類精度向上を目指す。
- トップビュー画像とクローズアップ画像において,既存手法の性能評価を行った結果,クローズアップ画像の方が分類性能が高いことが示された。
- 特に希少種において,この性能差は顕著に拡大することが確認された。
- 異なるスケールの画像間の自己教師あり表現アラインメントが,トップビュー画像による種分類の精度向上に有効である可能性が示唆された。
CASP:二段階レコメンダーシステムのためのサポートを考慮したオフラインポリシー選択 [cs.CG, cs.IR, cs.LG, stat.ML]目的:二段階レコメンダーシステムにおけるオフラインポリシー選択
- レコメンダーシステムは,ユーザーに適切なアイテムを提示するために不可欠であり,その性能向上は重要な課題である。
- 従来のオフライン評価では,生成器とランキング器の相互作用やデータサポートの弱さを考慮できていない。
- データサポートの弱い生成器とアイテムのペアに依存しない,信頼性の高いポリシー選択を目指す。
- 提案手法CASPは,サポートを考慮した価値推定とサポート負担ペナルティを組み合わせることで,より安定したポリシー選択を実現する。
- 実験結果から,CASPは価値推定とサポート信頼性の間で緊張がある場合に,負担の少ないポリシーを選択することが示された。
- 下流継続価値を無視する段階的なルールは最適ではない場合があり,CASPは保守的な選択を保証する。
