arXiv雑要約

AI - 2026/04/28 公開

  • 深層学習を活用したバイオファウリング環境下における溶存酸素センシング:海洋モニタリングへの応用 [eess.IV, cs.AI, cs.CV, eess.SP]目的:バイオファウリング環境下における高精度な溶存酸素センシング手法
    • 地球温暖化と生態系の劣化が進み,長期的な環境モニタリングが不可欠である。
    • 従来の安価な溶存酸素センサーは,信号のドリフトや海洋生物付着の問題を抱えている。
    • バイオファウリングの影響を受けにくい,信頼性の高い溶存酸素センシングを実現すること。
    • カメラベースの溶存酸素センサーとVisual Transformer (ViT) を組み合わせた新しいセンシングパラダイムを提示した。
    • ViT-PINNは,Stern-Volmer式を損失関数に組み込むことで,従来の統計的・機械学習手法と比較して平均絶対誤差を大幅に低減した。
    • 深層アンサンブルを用いることで予測の不確実性を定量化し,自己診断機能を可能にした。

    Link: https://arxiv.org/abs/2604.24236

  • 追加的な双曲再帰型ニューラルネットワークからの新しい非ユークリッド型ニューラル量子状態 [quant-ph, cond-mat.dis-nn, cs.LG]目的:非ユークリッド型ニューラル量子状態の新しいバリアントの構築と性能評価
    • 量子多体系問題は,古典的な計算手法では解決が困難であり,新しいアプローチが求められている。
    • 従来のニューラルネットワークはユークリッド空間を前提としており,複雑な量子状態の表現に限界がある。
    • 非ユークリッド空間を利用することで,量子状態の表現能力を高め,より高精度な計算を可能にすることを目指す。
    • ポアンカレ,ローレンツの双曲型RNN/GRUを用いて新しい非ユークリッド型ニューラル量子状態を構築した。
    • ハイパーボリックNQSは,ハイゼンベルク模型のVMC実験において,ユークリッド型NQSよりも常に優れた性能を示した。
    • 特に,ローレンツRNNは少ないパラメータ数で,他のハイパーボリックNQSやユークリッド型NQSを凌駕する最良の性能を示した。

    Link: https://arxiv.org/abs/2604.24337

  • グローバルプロポーションに基づく学習正則化を用いた組織病理画像セマンティックセグメンテーション [eess.IV, cs.CV, cs.LG]目的:組織病理画像におけるセマンティックセグメンテーション手法
    • 病理診断において,組織タイプ分布は疾患進行の重要な指標であり,詳細なアノテーションより容易に把握可能である。
    • 組織タイプ分布のみからは,多数のセグメンテーションが考えられ,ピクセルレベルの制約がないため問題解決が困難である。
    • グローバルプロポーションから高精度なセグメンテーションを推定し,解釈可能性の高い手法を開発することを目指す。
    • 提案手法VSLPは,ピクセルレベルのアノテーションなしにグローバルプロポーションからセグメンテーションを推定する二段階フレームワークである。
    • 事前学習済みTransformerとテスト時拡張によりピクセルレベルの信頼度を推定し,Wassersteinデータ忠実度項と学習正則化項を含む変分最適化問題を解く。
    • 公開データセットで既存手法を上回り,また,病理医のノイズを含むデータセットでも優れた性能を示し,実用性を証明した。

    Link: https://arxiv.org/abs/2604.24347

  • 実ハードウェアにおける量子ノイズモデリングの少サンプルデバイス間転移 [eess.SP, cs.NI, quant-ph, cs.LG]目的:量子デバイス間のノイズモデルの転移学習
    • NISQ時代において,量子デバイス特有のノイズがエラー軽減戦略の汎用性を阻害する。
    • 異なるデバイス間でのノイズ特性の乖離が,エラー軽減の精度低下を招く。
    • 少量のデータを用いて,あるデバイスで学習したノイズモデルを別のデバイスへ適用する。
    • ソースデバイスで学習した残差ニューラルネットワークをターゲットデバイスへゼロショット転移した結果,KLダイバージェンスが悪化し,デバイス固有性が確認された。
    • ターゲットデバイスの20サンプルでファインチューニングした結果,KLダイバージェンスが28.6%改善し,ゼロショットとの差の34.9%を回復した。
    • デバイス間のミスマッチの主な原因はCXゲートエラーと読み出しエラーであることが示唆された。

    Link: https://arxiv.org/abs/2604.24397

  • BandRouteNet:脳波アーチファクト除去のための適応的バンドルーティングニューラルネットワーク [math.CO, cs.DM, quant-ph, cs.ET, eess.SP, cs.AI]目的:脳波アーチファクトの除去
    • 脳波は神経診断やブレイン・コンピュータインターフェース等の応用において重要だが,ノイズの影響を受けやすい。
    • アーチファクトの種類や時間的な分布,周波数特性が多様であるため,効果的なノイズ除去が困難である。
    • 周波数帯域ごとに適応的にノイズ除去を行うことで,脳波信号の品質を向上させることを目指す。
    • 提案手法BandRouteNetは,EOG,EMG,複合アーチファクトの条件下で,既存手法と比較してRRMSEとSNR$_{\text{imp}}$が優れていた。
    • BandRouteNetは,周波数帯域ごとの処理と全帯域の文脈モデリングを組み合わせることで,アーチファクトのパターンを効果的に捉える。
    • 本手法は,パラメータ数が少なく,リソース制約のあるアプリケーションへの適用可能性が高い。

    Link: https://arxiv.org/abs/2604.24428

  • 極端なバンディット [math.AG, cs.CG, quant-ph, cs.ET, stat.ML, cs.LG]目的:極端値検出のための限られた資源配分
    • 医療,セキュリティ,生命科学など,極端な値を検出する資源配分は重要である。
    • 従来のバンディット理論では,平均報酬最大化が中心であり,極端値検出への最適化が不足している。
    • 本研究は,最も極端な値を出力する資源の効率的な検出を目指す。
    • 提案手法ExtremeHunterは,極端な値を効率的に検出するためのアルゴリズムである。
    • 理論的解析と実験的評価により,ExtremeHunterの有効性が確認された。
    • 合成データと実データを用いた実験で,その性能が示された。

    Link: https://arxiv.org/abs/2604.24545

  • GSC-QEMit:テレメトリー駆動階層予測とバンディットフレームワークによる適応型量子誤り軽減 [quant-ph, cs.LG]目的:近接量子デバイスからの信頼性のある結果抽出のための適応型量子誤り軽減手法
    • 近接量子デバイスは,信頼性のある計算結果を得るために誤り軽減が不可欠であるため。
    • 誤り軽減の強度と実行時間オーバーヘッドのバランスが,時間変動するノイズ下で課題となるため。
    • ノイズの変動に適応的に対応し,効率的な誤り軽減を実現することを目的とする。
    • GSC-QEMitは,ストリーミングテレメトリーをコンテキストにクラスタリングし,fidelityの劣化を予測する。
    • ベンチマーク回路群において,未軽減実行と比較して平均logical fidelityが9.0%向上した。
    • 不要な過度な介入を抑制し,fidelityとコストの良好なトレードオフを実現した。

    Link: https://arxiv.org/abs/2604.24551

  • 分子動力学の拡張:同変性機械学習密度による改良 [quant-ph, cs.NI, physics.chem-ph, cs.LG, stat.ML]目的:分子動力学における電子状態の予測手法の開発
    • 分子シミュレーションは,物質の性質理解や設計に不可欠であり,高精度なポテンシャルが求められる。
    • 従来の機械学習ポテンシャルはエネルギーと力に限定され,分極率等の電子状態量は算出困難であった。
    • 電子密度を基に学習することで,より広範な電子状態量の予測と高精度な分子動力学シミュレーションを実現する。
    • DenSNetは,核配置から基底状態電子密度へのマッピングを学習する密度優先アプローチである。
    • エタノール等の分子における赤外スペクトルが,機械学習軌道と実験結果で良好な一致を示した。
    • ポリチオフェンオリゴマーに対する検証では,最大12モノマーの安定した長時間の軌道が得られ,密度汎関数理論計算と一致した。

    Link: https://arxiv.org/abs/2604.24563

  • 医療基礎モデル埋め込みにおける古典的崩壊に対する量子カーネルの優位性 [quant-ph, cs.AI]目的:医療画像分類における量子カーネルの優位性の実証
    • 医療画像診断の精度向上は,患者の予後改善に不可欠であるため重要である。
    • 従来の機械学習モデルでは,複雑な医療データの表現能力に限界がある。
    • 量子機械学習を用いることで,医療データのより高次元な表現を学習し,分類精度を向上させる。
    • 量子サポートベクターマシン(QSVM)は,古典的線形SVMと比較して,少数クラスのF1スコアで優位性を示した。
    • 古典的線形カーネルは量子ビット数に関わらず,多数派クラスへの予測に偏る「崩壊」が起こる一方で,QSVMは有意な再現率を維持した。
    • 量子カーネルの効果的なランクは,古典的カーネルのランクを大きく上回ることを,固有スペクトル分析から明らかにした。

    Link: https://arxiv.org/abs/2604.24597

  • 光活性PARP1阻害剤の計算設計と実験的検証 [physics.chem-ph, cs.LG]目的:光活性PARP1阻害剤候補の探索と検証
    • 局所疾患治療において,副作用軽減が期待される光活性薬の開発が重要視されている。
    • 光活性薬開発には,光物理学的特性と生物学的特性の両方を最適化する必要がある。
    • 計算技術と実験を組み合わせ,赤方偏移したPARP1光阻害剤を効率的に探索すること。
    • 計算によるスクリーニング戦略が,PARP1光阻害剤の特定に有効であることが示された。
    • 化合物1は,519nmの緑色光照射下でPARP1阻害活性が15倍増加した(208.8±28.3 μM vs 14.4±1.9 μM)。
    • 水溶液中での熱緩和の速さなど,現状の課題も明らかになった。

    Link: https://arxiv.org/abs/2604.24634

  • 高次元実験データからの動力学の位相空間学習における情報ボトルネック [physics.data-an, cs.AI, cs.IT, math.IT]目的:高次元観測データからの動力学系の状態変数の同定
    • 物理科学において,系の状態変数の特定は重要な課題である。直接観測できないため,教師なしで推論する必要がある。
    • 高次元データから状態変数を推論することは困難であり,適切な表現方法が確立されていない。
    • 潜在空間における予測相互情報量を最大化することで,解釈可能な動的座標を直接抽出することを試みる。
    • DySIBは,過去と未来の観測ウィンドウ間の予測相互情報量を最大化しつつ,表現の複雑さを抑制する。
    • 実験データを用いた検証の結果,DySIBはペンデュラムの位相空間の次元,トポロジー,幾何学構造を再現した。
    • 学習された座標は,正準角と角速度とスムーズに整合し,潜在空間の情報から解釈可能な動的座標を回復できることを示した。

    Link: https://arxiv.org/abs/2604.24662

  • 双線形観測による線形システムの信念空間モデル予測制御 [math.OC, cs.LG, cs.SY, eess.SY]目的:双線形観測を持つ線形システムに対する有限地平線二次制御
    • システム制御において,状態観測の精度は制御性能に大きな影響を与えるため,高精度な状態推定が重要である。
    • 従来の分離原理は,制御入力が状態推定の質に影響を及ぼす双線形観測系では成立せず,最適な制御が困難になる。
    • 制御入力に依存するカルマンフィルタを用いて状態を推定し,その推定誤差を考慮したモデル予測制御により,性能向上を目指す。
    • 提案手法である信念空間モデル予測制御(B-MPC)は,分離原理に基づくコントローラや従来のMPCと比較して,特定の条件下で優れた性能を示す。
    • B-MPCは,推定共分散を低減し,不確実性を考慮した行動選択を可能にすることで,これらの性能向上を実現する。
    • 数値実験により,B-MPCの有効性が確認された。

    Link: https://arxiv.org/abs/2604.24663

  • エネルギーアリーナ:運用エネルギー予測のための動的ベンチマーク [econ.EM, cs.LG]目的:運用エネルギー予測の比較可能性向上
    • エネルギー予測は,安定的なエネルギー供給に不可欠であり,社会経済活動を支える重要な要素である。
    • 既存研究では,データや評価方法が異なり,モデルの性能比較が困難であるという課題が存在する。
    • エネルギーシステムの変動に対応し,公平な性能評価を可能とするベンチマーク環境の提供を目指す。
    • エネルギーアリーナは,継続的に更新されるデータを用いた動的ベンチマークプラットフォームである。
    • APIを通じてモデルを提出し,運用制約を考慮した標準化された評価を行うことで,透明性の向上を図る。
    • 過去の遡及的評価から,将来に向けたベンチマークへと移行し,情報漏洩や事後調整を防止する。

    Link: https://arxiv.org/abs/2604.24705

  • ドメイン汎化のための,より平坦な最小値への外挿を伴う勾配ベースのMixup学習 [cs.LG]目的:ドメイン汎化におけるモデルの汎化性能向上
    • 学習データとテストデータの分布のずれに対応する必要があるため。
    • 既存手法はソースドメインに過学習しやすく,特徴空間のカバー範囲に限界がある。
    • Mixupによるデータ補間と外挿で,未知領域をカバーし汎化性能を高める。
    • 提案手法FGMixは,勾配ベースの適合性を用いて,より不変な情報を持つインスタンスに重みを付与する。
    • FGMixは,より平坦な最小値へのMixupポリシーを学習し,汎化性能を向上させる。
    • DomainBedベンチマークにおいて,FGMixが他のドメイン汎化アルゴリズムを上回る有効性が確認された。

    Link: https://arxiv.org/abs/2209.14742

  • 摂動下におけるロイドのアルゴリズムの一貫性 [cs.DM, cs.CC, cs.LG, math.ST, stat.TH]目的:摂動されたサブガウス混合からのロイドのアルゴリズムの誤分類率の指数関数的な上限
    • 教師なし学習において,ロイドのアルゴリズムは広く利用されているクラスタリング手法である。
    • 実際のデータは観測されず,前処理パイプラインを通して学習する必要がある場合が多い。
    • 摂動されたデータに対するロイドのアルゴリズムの誤分類率の上限を保証し,クラスタリングの正確性を導く。
    • ロイドのアルゴリズムは,適切な初期化と摂動がサブガウスノイズと比較して小さい場合,指数関数的に有界な誤分類率を示す。
    • 真のクラスタが存在する場合,$k$-means++のようなアルゴリズムを用いた初期化の良さを示す上限を導出した。
    • これらの結果は,SigClustのような統計的有意性を評価するパイプラインへの応用が可能であり,高次元時系列,多次元尺度構成法,スパースネットワークのコミュニティ検出などに理論的保証を提供する。

    Link: https://arxiv.org/abs/2309.00578

  • コストが示すもの:自己申告型テクニカルデットの返済努力の予測と分析 [cs.SE, cs.AI]目的:自己申告型テクニカルデットの返済努力の予測と分析
    • ソフトウェア開発において,長期的な保守性を損なう短期的な判断が常に行われており,その影響を考慮する必要がある。
    • テクニカルデットの返済努力を定量的に評価する手法が不足しており,効果的な優先順位付けが困難である。
    • 自己申告型テクニカルデットのテキスト記述に基づいた返済努力の自動推定アプローチを確立し,ソフトウェア開発の効率化を目指す。
    • テクニカルデットの種類によって返済努力が異なり,コード/設計,要件,テスト関連のデットは,そうでないものよりも大きな努力を要する。
    • BERTやTextCNNといった深層学習モデルが,従来の機械学習手法やベースラインモデルを上回り,返済努力の推定精度が高いことが示された。
    • 返済努力レベルに関連するキーワードを特定し,テクニカルデットの優先順位付けとリソース配分を改善するための知見を提供した。

    Link: https://arxiv.org/abs/2309.06020

  • バナッハ空間値ランダム特徴モデルの普遍近似性:ランダムニューラルネットワークを含む [cs.CC, math.LO, cs.LG, math.PR, stat.ML]目的:大規模カーネル近似のためのデータ駆動型教師あり機械学習手法であるランダム特徴学習のバナッハ空間値拡張
    • 機械学習におけるカーネル法は強力だが,計算コストが高い場合がある。効率的な近似手法が求められている。
    • 従来のランダム特徴モデルは,特定の関数空間に限定され,汎用性に課題があった。
    • バナッハ空間への拡張により,より広範な関数空間における普遍近似性を示すことを目指す。
    • ランダム特徴モデルをバナッハ空間値の確率変数と捉え,対応するボハナー空間における普遍近似定理を証明した。
    • ランダムな重み初期化を行う単隠れ層フィードフォワードニューラルネットワーク(ランダムニューラルネットワーク)に対しても,普遍近似性を拡張した。
    • 近似誤差と計算コストの関係について解析し,数値例でランダム特徴モデルの優位性を示した。

    Link: https://arxiv.org/abs/2312.08410

  • 自己申告型テクニカルデット検出手法:10年間の系統的レビュー [cs.SE, cs.AI]目的:自己申告型テクニカルデット検出手法の動向
    • ソフトウェア開発において,迅速なリリースを優先するあまり,将来的なコスト増を招くテクニカルデットが蓄積される。
    • 自己申告型テクニカルデットの検出は困難であり,効率的な検出手法の確立が求められている。
    • このレビューは,検出手法の進展と課題を明らかにすることで,今後の研究を促進する。
    • 2014年から2025年初頭までの研究を分析した結果,ヒューリスティック手法から機械学習,深層学習,Transformerモデルへと検出手法が進化した。
    • 深層学習やTransformerモデルは検出精度を向上させたものの,モデルの汎用性や説明可能性,大規模な産業利用に向けたスケーラビリティに課題が残る。
    • データセットの異質性が課題として指摘されており,より堅牢で実用的な検出ツールの開発に向けた方向性を示す。

    Link: https://arxiv.org/abs/2312.15020

  • 半空間の交差学習における困難度に関する結果の改善 [cs.CC, cs.LG, math.ST, stat.ML, stat.TH]目的:半空間の交差の弱学習における困難度の理論的下界
    • 機械学習理論において,計算困難な問題の特定はアルゴリズム設計の指針となる。
    • 半空間の交差学習の困難度については未解明な点が多く,特に少数の半空間に対する困難度証明は困難であった。
    • 本研究は,標準的な仮定の下で,より少ない半空間数においても学習困難であることを示す。
    • 次元Nにおいて,ω(log log N)個の半空間の学習には,多項式時間では不可能な計算量が必要であることが示された。
    • 任意の定数kに対して,k個の半空間の学習には,精度N−Ω(k)が必要であり,多項式精度を持つSQアルゴリズムは存在しない。
    • 半空間の交差と並列パンケーキ分布の間の新たな関係性を通じて,上記の困難度証明を統一的に導出した。

    Link: https://arxiv.org/abs/2402.15995

  • 意味変化の特性に関する調査 [cs.CL, cs.AI]目的:意味変化の特性化に関する既存研究の概要と,その分類
    • 言語は社会の変化を反映し,常に進化する。意味理解は異文化理解や自然言語処理の精度に不可欠である。
    • 意味変化の検出方法は存在するが,意味がどのように変化するか,影響を軽減する方法の検討が不足している。
    • 意味変化の特性化手法を整理し,次元,方向性,関係性の3つの分類を提示することで,研究の方向性を示す。
    • 本調査は,意味変化の特性化に関する既存研究を包括的に概観し,理解しやすい形で整理した。
    • 意味変化を次元(一般化/狭窄),方向性(否定的/肯定的),関係性(比喩/換喩)の3つのクラスに分類した。
    • 選択された論文の主要な側面を表にまとめ,意味変化特性化研究のニーズと動向について議論した。

    Link: https://arxiv.org/abs/2402.19088

  • 「よりノイズの多い」ノイズ対照推定は(ほぼ)最尤推定である [cs.NI, cs.LG, cs.AI, stat.AP]目的:表現学習と生成モデルにおける分布比の正確な推定
    • 表現学習や生成モデルの進歩を支える基盤技術であり,その重要性は高い。
    • 分布の差が大きい場合,ノイズ対照推定の性能が著しく低下する点が課題である。
    • ノイズ分布の大きさを調整することで,最尤推定への近似と高速な収束を実現する。
    • ノイズ分布の大きさを人工的に増やすことで,ノイズ対照推定の勾配が最尤推定に近づくことを示した。
    • 「よりノイズの多い」ノイズ対照推定は,計算コストをほとんど増加させずに,困難な密度比推定を効果的に処理する。
    • 画像モデリング,異常検知,オフラインブラックボックス最適化において,最先端手法と同等またはそれ以上の性能を達成した。

    Link: https://arxiv.org/abs/2405.16730

  • モラルハザード下における機械学習:計量経済学的アプローチ [cs.LG, stat.ML]目的:モラルハザード下での最適な契約設計
    • 政策決定においてデータ駆動型アプローチの重要性が増している
    • 個人の行動が完全に観察できないモラルハザードが課題となっている
    • 行動観察が不完全な状況下での最適な契約設計方法を模索する
    • 計量経済学的手法である,計量回帰と一般化モーメント法が有効であることが示された
    • これらの手法を用いることで,最適な契約を推定・学習することが可能となる
    • 最適な契約の形状に関する一様性特徴付けも得られた

    Link: https://arxiv.org/abs/2405.20642

  • ソーシャルメディアを用いた精神疾患検出における説明可能なAI:サーベイと展望 [cs.LG, cs.AI, cs.IR]目的:精神疾患検出のための説明可能なAIに関する調査と将来展望
    • 精神疾患は世界的な課題であり,多くの人々に影響を与え,深刻な結果を招き得る
    • AIモデルの判断根拠が不明確であり,医療分野における信頼性が課題となっている
    • ソーシャルメディアのデータを用いて,透明性・解釈可能性の高いAIモデル開発を目指す
    • 本研究は,データサイエンス,AI,精神医療の交差点における近年の動向を包括的に調査した
    • 最新の機械学習手法,特に深層学習に基づいた手法をレビューし,説明可能性の重要性を強調した
    • 精神医療におけるXAIの推進に向けた議論に貢献し,研究者・実践者・政策立案者の指針となることを目指す

    Link: https://arxiv.org/abs/2406.05984

  • FlashNorm:Transformer用高速正規化 [cs.CL, cs.DM, cs.RO, cs.LG]目的:Transformerにおける正規化処理の高速化
    • 大規模言語モデルの性能向上には,計算効率が重要であり,正規化層はそのボトルネックとなっている。
    • 従来の正規化処理は,ベクトル演算と行列演算の実行ユニットの違いにより並列化が困難であった。
    • 行列演算とスカラー正規化を並列実行可能にする事で,Transformerの計算速度を向上させる。
    • FlashNormは,RMSNormを数学的に再構成し,正規化の重みを後続の線形層に組み込むことで計算効率を高める。
    • NVIDIA T4 GPU上で,小規模モデル(SmolLM2-135M)において33-35%のレイテンシ削減,大規模モデル(Llama-7B)で12-14%のレイテンシ削減を達成した。
    • RMSNormと線形層の組み合わせに対して,最初のRMSNormを削除できることを示した。

    Link: https://arxiv.org/abs/2407.09577

  • 見かけ上の相関からの脱却:グループ注釈なしでの擬似相関への頑健性向上 [cs.LG, cs.AI]目的:擬似相関に依存しないサブネットワークの抽出
    • 機械学習モデルの汎化性能向上には,因果関係のない特徴への依存を避けることが重要である。
    • 機械学習モデルは擬似相関を学習しやすく,それが特定のデータグループでの性能低下を招く。
    • 擬似相関に依存しないサブネットワークを抽出することで,モデルの頑健性を高めることを目指す。
    • 本手法は,ERM学習において同じ擬似属性を持つデータ点が表現空間上で近くなるという仮定に基づいている。
    • 教師ありコントラスト損失を新規な方法で適用し,モデルに擬似的な繋がりを学習させないようにする。
    • 最悪グループの性能向上は,分類タスクにおいて不変特徴のみを使用するサブネットワークが存在するという仮説を支持する。

    Link: https://arxiv.org/abs/2407.14974

  • 残差知識の回収:低ビット量子化のための新しいパラダイム [cs.CV, cs.AI]目的:低ビット量子化における性能劣化の抑制
    • 深層学習モデルの効率化が重要であり,特にモデルサイズの削減は,リソースの限られた環境での利用を可能にする。
    • 既存の量子化手法では,浮動小数点数と量子化された重みの間の情報損失(残差知識)が無視されてきた。
    • 残差知識を効率的に回収し,最適化空間を縮小することで,低ビット量子化の効率性と性能を向上させる。
    • 提案手法CoRaは,従来の量子化手法と比較して,大幅に少ない計算量で同等の性能を達成できる。
    • CoRaは,ImageNetデータセットを用いた実験において,4ビットおよび3ビット量子化で最先端の性能を確立した。
    • 低ランクアダプターを用いることで,量子化残差重みを近似し,わずかなパラメータ増加で性能劣化を抑制する。

    Link: https://arxiv.org/abs/2408.00923

  • MVIGER:生成型レコメンダのための相補的知識の多視点変分統合 [cs.IR, cs.AI]目的:生成型レコメンダにおける相補的知識の統合
    • 推薦システムにおいて,アイテムのテキスト情報を活用し,より高度な推薦を実現することが重要である。
    • プロンプトテンプレートやアイテムインデックスの種類による出力の不整合が,推薦の精度を低下させる。
    • 多様な情報源から得られる知識の相補性を活用し,安定した推薦性能を実現することを目指す。
    • MVIGERは,入力プロンプトやアイテムインデックスの変化に対し,一貫した性能を発揮する。
    • 多様な情報源からの知識を,潜在変数を介して適切に選択または統合することで,推薦精度を向上させている。
    • 実世界のデータセットを用いた評価により,既存の生成型レコメンダよりも優れた性能が示された。

    Link: https://arxiv.org/abs/2408.08686

  • Transformerとニューラル積分演算子による演算子の普遍近似 [cs.LG, cs.NA, math.NA]目的:Banach空間における演算子の普遍近似性
    • 近年,深層学習は様々な分野で目覚ましい成果を上げているため,その理論的基盤の確立が重要である。
    • 従来の深層学習モデルの近似能力は,特定の関数空間に限られており,より広い範囲の関数に対する近似が課題となっていた。
    • Transformerやニューラル積分演算子の近似能力を拡張し,より広範な演算子の近似を可能にすることを目指す。
    • Transformerアーキテクチャが,H\"older空間間の積分演算子の普遍近似器となることが示された。
    • Gavurin積分に基づくニューラル積分演算子の一般化版が,Banach空間間の任意の演算子の普遍近似器となることが示された。
    • Leray-Schauder写像を用いたTransformerの改良版が,任意のBanach空間間の演算子の普遍近似器となることが示された。

    Link: https://arxiv.org/abs/2409.00841

  • AdaComp:検索拡張大規模言語モデルのための適応的予測器を用いた抽出型コンテキスト圧縮 [cs.CL, cs.AI]目的:検索拡張大規模言語モデルにおけるコンテキスト圧縮手法
    • 大規模言語モデルの性能は,検索された情報に大きく依存する。関連性の低い情報が混在すると精度が低下する。
    • 既存のコンテキスト圧縮手法は,圧縮率の決定が難しく,過度な圧縮や計算コストの問題がある。
    • クエリの複雑さと検索品質に応じて圧縮率を適応的に決定し,効率と性能のバランスを取ることを目指す。
    • AdaCompは,クエリの複雑さと検索品質に基づいて圧縮率を決定する低コストな抽出型コンテキスト圧縮手法である。
    • 3つのQAデータセットと1つの対話型Multi-doc QAデータセットにおいて,AdaCompは推論コストを大幅に削減しつつ,非圧縮モデルと同等の性能を維持した。
    • これにより,効率性と性能のバランスが実現された。

    Link: https://arxiv.org/abs/2409.01579

  • 学習を拡張したロバストなアルゴリズムによる救済策 [cs.LG]目的:機械学習システムからの望ましくない結果を受けた個人に対する,最小限のコストで望ましい結果を得るための改善策
    • 機械学習の公平性確保は重要であり,個人が不当な扱いの理由を理解し,改善を求める権利を保障する必要がある
    • 機械学習モデルは頻繁に更新されるため,一度有効な救済策が,モデル更新後に効果を失う可能性がある
    • 将来のモデル予測を活用することで,救済策のコストを削減し,予測精度に左右されない安定性を実現すること
    • 将来のモデル予測が正確な場合,救済策のコストを低減できることを示した。
    • 予測が不正確な場合でも,コストを制限することでロバスト性を確保できることを示した。
    • ロバスト性と予測の一貫性のトレードオフを分析し,予測精度が性能に与える影響を評価した。

    Link: https://arxiv.org/abs/2410.01580

  • PDF-WuKong:エンドツーエンドの疎なサンプリングによる効率的な長PDF読解のための大規模マルチモーダルモデル [cs.CV, cs.AI, cs.CL]目的:長編PDF文書に対するマルチモーダル質疑応答の性能向上
    • 大量のテキストと視覚情報を処理する必要があり,高度な理解が求められる分野である。
    • 既存手法は,プレーンテキストか限定的な画像に焦点を当て,長編PDFの処理に課題がある。
    • 長編PDF文書の質疑応答において,効率と能力を向上させることを目指す。
    • PDF-WuKongは,テキストと画像表現の両方に対して動作する疎なサンプラーを組み込んでいる。
    • 疎なサンプラーは,ユーザーのクエリに最も関連性の高い段落や図を選択する。
    • PaperPDFデータセットを用いて学習・評価を行い,既存モデルを平均8.6%上回るF1スコアを達成した。

    Link: https://arxiv.org/abs/2410.05970

  • CoreGuard:エッジ環境におけるLLMの基礎能力をモデル盗難から保護 [cs.CR, cs.AI, cs.DC]目的:LLMのエッジ環境におけるモデル盗難に対する保護手法
    • LLMは多様なタスクで高い性能を発揮し,効率性やプライバシー保護のためエッジデバイスへの展開が進んでいる。
    • エッジ環境への展開はモデルの重みや構造の窃取リスクを高め,不正な複製や悪用を招く可能性がある。
    • CoreGuardは,計算・通信コストを抑えながら,LLMの基礎能力をモデル盗難から保護することを目指す。
    • CoreGuardは,効率的な保護プロトコルと伝播プロトコルにより,計算・通信オーバーヘッドを最小限に抑えている。
    • 実験の結果,CoreGuardは無視できる程度のオーバーヘッドで,最高水準のセキュリティ保護を実現している。

    Link: https://arxiv.org/abs/2410.13903

  • パイプライン勾配法に基づくアナログインメモリ学習の収束理論 [cs.LG, cs.AR, math.OC]目的:大規模深層ニューラルネットワークの学習における収束性解析
    • 深層学習の発展に伴い,計算資源の消費が大きくなっており,省エネルギーな学習手法が求められている。
    • アナログインメモリコンピューティングは効率的だが,大規模化には課題が多く,データ並列化の効率が低い。
    • 本研究は,アナログインメモリコンピューティングにおける非同期パイプライン並列化の収束性を理論的に解明する。
    • 本研究により,アナログインメモリコンピューティングを用いた非同期パイプライン勾配法が,$O(\varepsilon^{-2}+\varepsilon^{-1})$ の反復複雑度で収束することが示された。
    • この収束速度は,デジタル勾配法や同期パイプラインを用いたアナログ勾配法と同等であり,非同期パイプライン並列化がほぼ無コストで性能向上に寄与することが示唆された。
    • アナログハードウェアの不完全性や陳腐化問題にも関わらず,良好な収束性が確認された。

    Link: https://arxiv.org/abs/2410.15155

  • 観測ミスマッチ下における適応モジュール型ワールドモデルを用いた交通信号制御の計画 [cs.LG, cs.AI]目的:観測ミスマッチ下での交通信号制御計画
    • 交通システムの効率化は都市生活の質を向上させる上で重要である。
    • 異なる環境間での学習モデルの転移は,観測データの差異により困難である。
    • 異なる環境でもロバストな交通信号制御計画を可能とする手法を開発する。
    • 提案手法AMMは,ドメイン固有の観測アダプターと共有内部ダイナミクスモデルを分離する。
    • AMMは複数のソースドメインからメタ学習することで,限られたターゲット環境での迅速な適応を実現する。
    • 実験の結果,既存の制御器や学習ベースラインと比較して,性能とデータ効率が向上することが示された。

    Link: https://arxiv.org/abs/2501.02548

  • データセットの統計的効果量とモデル性能,およびデータサンプルサイズの十分性に関する考察 [cs.LG]目的:データセットの統計的効果量がモデル性能とデータサンプルサイズの十分性に与える影響の評価
    • 機械学習モデルの性能向上には高品質なデータが不可欠であり,データ収集の効率化が求められている。
    • モデル訓練前のデータセットの妥当性評価が困難であり,実験計画やデータ収集のボトルネックとなっている。
    • 特徴量の効果量を指標として,データセットの妥当性を事前に評価する手法を確立することを目指す。
    • 効果量の大きさは,モデルの性能や学習曲線の収束速度と有意な相関関係を示さなかった。
    • データセットの妥当性評価やモデル性能の予測には,効果量のみでは不十分であることが示唆された。
    • データセットの妥当性を事前に評価するためには,さらなる検討が必要である。

    Link: https://arxiv.org/abs/2501.02673

  • GWT:大規模言語モデル学習のためのスケーラブルなオプティマイザ状態圧縮 [cs.LG, cs.AI]目的:大規模言語モデル学習におけるメモリ効率の改善
    • 大規模言語モデルの発展は自然言語処理の性能を飛躍的に向上させたが,メモリ消費量が課題となっている。
    • 従来のメモリ削減手法は,精度低下を招く場合が多く,大規模モデルの学習を阻害する要因となっていた。
    • 勾配ウェーブレット変換(GWT)により,メモリ効率を維持しつつ,モデルの精度を損なわない学習を実現する。
    • GWTは,勾配をウェーブレット空間に投影することで,オプティマイザの状態を効果的に圧縮する。
    • 理論的および実験的評価により,GWTが既存の最適化プロトコルに組み込み可能であり,メモリ効率を向上させることが示された。
    • 大規模な事前学習とタスク固有のファインチューニングにおいて,GWTは高性能なメモリ効率オプティマイザと同等の性能を発揮する。

    Link: https://arxiv.org/abs/2501.07237

  • YOLOv8からYOLO11へ:包括的なアーキテクチャの比較検討 [cs.CV, cs.AI]目的:YOLOv8からYOLO11までの最新YOLOモデルのアーキテクチャ比較
    • 深層学習に基づくコンピュータビジョンは,画像認識等の分野で急速に発展している。
    • YOLOモデルの進化が速いため,学術論文や公式図が存在しないモデルが存在する。
    • YOLOモデルのアーキテクチャの違いを明確化し,理解を深めることを目指す。
    • YOLOv8からYOLO11にかけて,アーキテクチャと特徴抽出が改良されていることが判明した。
    • 一部のブロックは,YOLOのバージョン間で変更されていないことが確認された。
    • 学術論文や公式図の不足は,モデル理解と将来の改善の妨げとなる課題である。

    Link: https://arxiv.org/abs/2501.13400

  • 実現されぬ期待:最大独立集合問題に対するAI手法と古典的アルゴリズムの比較 [cs.LG, cs.AI, cs.DM, math.OC, stat.ML]目的:最大独立集合問題に対するAI手法と古典的アルゴリズムの性能比較
    • 組合せ最適化問題は現実世界の様々な場面で現れ,効率的な解法が求められている。
    • NP困難な組合せ最適化問題に対し,AI手法が適用され始めているが,その有効性は未だ十分ではない。
    • AI手法の性能が古典的アルゴリズムに劣る原因を分析し,改善の方向性を示す。
    • GPUベースのAI手法は,ランダムグラフ上でも,最先端のCPUベースソルバーKaMISよりも一貫して性能が劣る。
    • AI手法は,単純な貪欲法よりも優れた結果が得られない場合も多く,局所探索による改善も限定的である。
    • AI手法が貪欲法と同様の推論を行う傾向があり,KaMISの性能に及ばないことが示唆された。

    Link: https://arxiv.org/abs/2502.03669

  • 因果量の推定のための直交表現学習 [cs.LG]目的:因果量の推定における直交表現学習の有効性
    • 高次元データからの因果推論は重要であり,表現学習はその強力なツールとなり得る。
    • 既存の表現学習手法は実用上有効だが,漸近的最適性(準オラクル効率)に欠ける場合がある。
    • 表現学習とNeyman直交学習を組み合わせることで,実用性と理論的保証の両立を目指す。
    • 低次元多様体仮定の下,OR学習者は標準的なNeyman直交学習者よりも推定誤差を厳密に改善する。
    • バランス制約は追加の帰納バイアスを必要とし,エンドツーエンドアプローチのNeyman直交性の欠如を一般的に補完できない。
    • 表現学習と古典的なNeyman直交学習者の効果的な組み合わせに関する指針が示された。

    Link: https://arxiv.org/abs/2502.04274

  • EmoBench-M:マルチモーダル大規模言語モデルの感情知能のベンチマーク [cs.CL, cs.AI]目的:マルチモーダル大規模言語モデルの感情知能の評価
    • ロボットやAI応用に感情知能は不可欠であり,人間との自然なコミュニケーションを可能にする。
    • 既存のベンチマークは,現実の複雑な相互作用や感情表現の文脈依存性を捉えられていない。
    • EmoBench-Mは,マルチモーダルな感情知能評価の枠組みを提供し,モデルの能力を包括的に評価する。
    • EmoBench-Mは,感情認識,会話における感情理解,社会的複雑な感情分析の3つの階層から構成される。
    • 27種類の最先端MLLMを評価した結果,人間レベルの能力との間に大きな差があることが明らかになった。
    • Gemini-3.0-ProとGPT-5.2が最高のスコア(それぞれ70.5点と66.5点)を記録したが,完全な感情知能には至っていない。

    Link: https://arxiv.org/abs/2502.04424

  • Speech-FT:事前学習済みとファインチューニング済み音声表現モデルの統合による汎化性能向上 [cs.CL, cs.AI, cs.SD]目的:音声表現モデルの汎化性能維持とタスク特化性能向上
    • 音声認識をはじめとする多様な音声処理タスクにおいて,高性能なモデルが求められている。
    • ファインチューニングは性能向上に有効だが,汎化性能を低下させる課題がある。
    • 事前学習時の情報を維持しつつ,ファインチューニングによる性能向上を実現すること。
    • Speech-FTは,表現のドリフトを抑制するファインチューニングと,事前学習モデルとの重み空間補間を組み合わせる。
    • HuBERT,wav2vec 2.0など複数のモデルで,多様なファインチューニングシナリオにおいて性能向上が確認された。
    • 特にSUPERBベンチマークにおいて,自動音声認識のPERRを5.17%から3.94%に,WERを6.38%から5.75%に,話者識別精度を81.86%から84.11%に改善した。

    Link: https://arxiv.org/abs/2502.12672

  • クロスモーダルアライメントを超えて:ビジョン-言語モデルにおけるモダリティギャップの測定と活用 [cs.CV, cs.AI]目的:ビジョン-言語モデルにおけるモダリティギャップの測定と活用
    • 視覚と言語の理解はAIの重要な課題であり,両者の連携は高度な情報処理に不可欠である。
    • 既存のアライメント手法では,モダリティ間のギャップが完全には解消されておらず,モデルの性能向上を阻害している。
    • モダリティギャップを定量的に測定し,モデルの編集や制御に活用することで,性能と解釈性を高める。
    • モダリティ優勢度スコア(MDS)を導入し,マルチモーダル特徴を視覚優勢,言語優勢,クロスモーダルに分類した。
    • タスクに依存しない解釈性ツールと組み合わせることで,マルチモーダルモデルの系統的な分析と軽量編集が可能となった。
    • トレーニングフリーのモデル編集により,ジェンダー分類のバイアス軽減,敵対的例の生成,テキストから画像生成の制御など,様々なダウンストリームタスクの性能が向上した。

    Link: https://arxiv.org/abs/2502.14888

  • 検索拡張言語モデルにおける根拠データ内の欺瞞的特徴に対する頑健性の定量化と改善 [cs.IR, cs.CL, cs.DB, cs.CL, cs.AI, cs.LG]目的:検索拡張言語モデルの欺瞞的特徴に対する頑健性の定量化と改善
    • 現実世界での応用において,言語モデルの頑健性は不可欠である。情報検索と知識の統合が重要視されている。
    • 既存研究では,明示的なノイズへの頑健性に焦点が当たっており,欺瞞的特徴という暗黙のノイズへの対処が不十分である。
    • 検索拡張言語モデルにおける欺瞞的特徴を特定し,その頑健性を定量的に評価し,改善策を提供する。
    • 本研究では,言語モデルが意味に依存しない特徴に敏感であることに起因する,検索拡張モデルにおける頑健性の問題となる欺瞞的特徴を特定した。
    • 提案するSUREフレームワークは,欺瞞的特徴に対する検索拡張言語モデルの頑健性を評価するための包括的な分類と指標を提供し,データ合成パイプラインを通じて,学習に基づく頑健性向上戦略を促進する。
    • 分析の結果,欺瞞的特徴は検索拡張の分野における広範囲に及ぶ課題であることが示唆された。

    Link: https://arxiv.org/abs/2503.05587

  • UMAPにおける引力の形状:次元削減における埋め込み力の探求 [cs.LG, cs.AI, cs.CV]目的:UMAP埋め込みにおける引力と斥力の効果に関する分析
    • 高次元データの可視化や解析は,複雑な現象の理解に不可欠である。
    • UMAPを含む次元削減手法は,パラメータ設定が難しく,結果の安定性に課題がある。
    • UMAPの引力と斥力のメカニズムを解明し,クラスター形成の一貫性を向上させる。
    • UMAPでは,斥力はクラスター境界とクラスター間距離の制御に寄与し,差異を強調する。
    • 引力は,点間の引張力として作用する一方で,低次元空間では斥力としても現れる。
    • 引力の調整により,ランダム初期化時のクラスター形成の一貫性を改善できることが示された。

    Link: https://arxiv.org/abs/2503.09101

  • グリーンプロンプティング:LLM推論におけるプロンプト駆動型エネルギーコストの特性評価 [cs.CL, cs.AI, cs.LG]目的:LLM推論におけるエネルギーコストへのプロンプトと応答の特徴の影響
    • LLMは様々な分野で利用が拡大しており,そのエネルギー消費は重要な課題となっている。
    • LLMの推論コストが高いことが,持続可能性と経済的実現性の妨げとなっている。
    • プロンプト設計が推論効率に与える影響を明らかにすることで,エネルギー効率の高いLLM開発に貢献する。
    • プロンプトの長さよりも,タスクの意味内容がエネルギー消費に大きく影響することが示された。
    • タスクによって,エネルギー消費量が高いまたは低いキーワードが特定された。
    • プロンプトの意味内容と特定のキーワードが推論コストに大きく影響することが結論付けられた。

    Link: https://arxiv.org/abs/2503.10666

  • ConsDreamer:ゼロショットテキストから3D生成における多視点整合性の向上 [cs.CV, cs.AI]目的:ゼロショットテキストから3D生成における多視点整合性の改善
    • 3Dコンテンツ作成において,テキストからの直接生成は効率化に不可欠である。
    • 既存手法は,T2Iモデルの事前バイアスにより,多視点間での矛盾が生じやすい。
    • 多視点間の矛盾(多面ヤヌス問題)を緩和し,幾何学的整合性を高めることを目指す。
    • ConsDreamerは,スコア蒸留プロセスの条件付き・無条件項を洗練することで,視点バイアスを軽減する。
    • View Disentanglement Module(VDM)により,条件付きプロンプトから無関係な視点要素を分離し,正確な視点制御を可能にする。
    • 類似度に基づく部分順序損失を用いることで,無条件項における幾何学的整合性を方位関係と整合させる。

    Link: https://arxiv.org/abs/2504.02316

  • 宇宙物体の行動特性化のための自己教師あり学習フレームワーク [cs.NI, cs.LG, cs.AI, physics.space-ph]目的:宇宙物体の行動特性化
    • 軌道上の物体増加に伴い,宇宙安全確保のための自動化された監視が重要になっている。
    • 専門領域におけるファウンデーションモデル開発が遅れており,宇宙物体の行動解析に特化したモデルは存在しない。
    • 自己教師あり学習による表現学習を通じて,宇宙物体の異常検知,運動予測,データ生成を可能にすること。
    • 本研究では,MMT-9観測所の227,000個の光度曲線を用いてPerceiver-VAEを事前学習し,宇宙物体の行動解析フレームワークを構築した。
    • 事前学習モデルは再構成MSE 0.009を達成し,再構成の難易度から異常な光度曲線が特定可能であった。
    • CASSANDRAとGRIALによるファインチューニングの結果,異常検知と運動モード予測においてそれぞれ85%,82%の精度,ROC AUCスコア0.92,0.95を達成した。

    Link: https://arxiv.org/abs/2504.06176

  • ベイジアンネットワーク構造学習によるハットトリックサッカーマネージャーゲームのメカニズム解明 [cs.LG, cs.AI]目的:ハットトリックサッカーマネージャーゲームのメカニズム解明
    • ハットトリックは長期間にわたって活発なコミュニティが存在し,ゲームメカニズムへの関心が高い。
    • ゲームエンジン内部のメカニズムは不透明であり,プレイヤーによる試行錯誤的な解明が進んでいる。
    • ベイジアンネットワークを用いて,ゲームエンジンをモデル化し,メカニズムの理解を深める。
    • 本研究では,ベイジアンネットワーク構造学習を用いてハットトリックのゲームエンジンを分析した。
    • 専門家の知識とデータを統合することで,ゲームのパフォーマンスに匹敵するモデルを構築した。
    • 特徴間の依存関係を可視化し,ゲーム内での意思決定に役立つ知見を得た。

    Link: https://arxiv.org/abs/2504.09499

  • 大規模データ:マルチソース大規模基盤モデル学習のためのデータローダーのスケーリング [cs.DC, cs.AI]目的:マルチソース大規模基盤モデル学習におけるデータローダーのスケーリング
    • 大規模基盤モデルは,様々な分野で急速に発展しており,その学習効率が重要視されている。
    • データ並列処理におけるデータソースの偏りは,学習効率の低下を招く可能性がある。
    • マルチソースデータを効率的に学習するためのデータローディングアーキテクチャを提案する。
    • MegaScale-Dataは,役割に応じたデータ前処理により,データアクセスと並列処理の冗長性を排除し,スケーラビリティを向上させる。
    • 中央集権的で宣言的なデータプレーンにより,学習時のマルチソースオーケストレーションを可能にする。
    • ソースローダーの多段階自動分割およびスケーリングメカニズムにより,異種前処理コストに対応する。
    • 実験結果から,エンドツーエンドの学習スループットが最大4.5倍,CPUメモリ使用量が13.5倍削減された。

    Link: https://arxiv.org/abs/2504.09844

  • 食品モデル解釈のための説明可能な人工知能技術:レビュー [cs.AI, cs.CY]目的:食品分野における説明可能な人工知能技術の分類と動向
    • 食品品質管理の高度化に伴い,AIによる正確な予測が不可欠となっている。
    • 複雑なAIモデルの意思決定過程が不透明であり,信頼性に課題がある。
    • 食品分野におけるXAIの活用を促進し,モデルの信頼性向上を目指す。
    • 本レビューでは,データタイプと説明手法に基づいて食品品質研究を分類する分類体系を提示した。
    • SHAPやGrad-CAMといったXAI技術が,予測に寄与する重要な要素を特定し,透明性を高めることを示した。
    • 食品工学におけるXAIの採用を促進するための課題と機会を強調した。

    Link: https://arxiv.org/abs/2504.10527