``LoopGen: Training-Free Loopable Music Generation,'' Davide Marincione, Giorgio Strano, Donato Crisostomi, Roberto Ribuoli, Emanuele Rodol\`a, https://t.co/ubSqbr3KjX— arXiv Sound (@ArxivSound) April 9, 2025 実装も確認しましたが、ちゃんとループしな
Twitter(X)使用は、幸福感、二極化、帰属意識、怒りの大きな変化に影響する
ツイッター利用がユーザーにもたらす心理的影響に関する論文。2021年3月から7月にかけての米国での調査に基づくもの。いくつかの留保はあるものの、ツイッター利用は、幸福感の減退、政治的分極化の促進(対立政党がもっと嫌いになる)、怒りの感情を生じさせる傾向にある。
大規模言語モデルの数学的推論の限界を示すベンチマークGSM-Symbolic
Appleから、OpenAI o1の数学的推論能力は過大評価だという類の報告が出た。この研究では、最新のo1-previewでさえ、問題中に無関係な情報があるとそれを無視出来ず、大幅に精度低下する事を突き止めた。これは、LLMは数学を理解せず、単にパターンマッチングに依存している可
アンケートに付随して動画を見ている時間が多いかどうか、どんな動画を見ているか、なぜ好きか等のデータが蓄積出来て来たので、それの分析しました。動画視聴の質問が主目的ではないので、この聞き方で十分に信用出来る回答が得られているのか分からないですが... 動
AIの大規模化→“人間には簡単な質問”への間違えが増加 スペインの研究者らが発表 https://t.co/gPfPWWwnRW スケールアップ(データや計算力を向上)とシェイプアップ(人のフェードバックで微調整)により複雑な問題への能力は向上したが基本問題への正確性は向上しなかった(
検索拡張生成 (RAG) の応用 LLMが外部データをより賢く活用するための包括的な調査
Microsoft Research Asiaより「LLMの外部データ活用」の技術サーベイ論文。クエリをL1~L4(明示的事実、暗黙的事実、解釈可能な根拠、隠された根拠)の4段階に分け、そのレベルに応じた課題・解決策を整理。Retrieval Augmented Generation (RAG) and Beyondhttps://t.co/Si
『・新しい研究論文で、さまざまなAIシステムが「騙す方法」を学習していることが判明した。・研究によると、AIが人間を「体系的に誤った思い込みに誘導」して騙しているという。・これは詐欺行為から選挙の偽情報に至るまで社会にリスクをもたらすものだ。』https://t.co/KiAOos
「ブログリーダー」を活用して、TAKさんをフォローしませんか?
``LoopGen: Training-Free Loopable Music Generation,'' Davide Marincione, Giorgio Strano, Donato Crisostomi, Roberto Ribuoli, Emanuele Rodol\`a, https://t.co/ubSqbr3KjX— arXiv Sound (@ArxivSound) April 9, 2025 実装も確認しましたが、ちゃんとループしな
これは何か研究成果かと思っていたのですが...どうもそうではなかったようです。このプロジェクトでは、敵対的生成ネットワーク(GAN)、特にpix2pixモデルを用いて音楽スタイルの転送を探求します。目標は、楽曲の和声構造を維持しながら、音楽のテクスチャを変更します。
クラウドソーシングで人気の仕事の分析の時と同じ分析ですが内容に変化あるでしょうか?かなり変化していると思います。今回は特にタスク作業の完了率を上げたいのでにタスクに限定して分析しました。どんな事を書けば正の影響を与えるのでしょうか?掲載日が 2025
RAGの中核を担うEmbeddingですが、実はベクトル化するテキストの特徴によっては、性能は大きく下がってしまうことがあります。今回はそんな、Embeddingの性能を引き出せない文章の特徴をまとめた論文を紹介します。https://t.co/vO5trGCFQS #zenn— Hidetoshi Sudoh (@sasa_k
AI生成のコードには架空のパッケージが含まれることがよく起こる。あらかじめ同じ名称のマルウェアを仕込んだパッケージを用意する攻撃。ブログなどまで用意。それをグーグルAIが推薦している。「スロップスクワッティングを支えるAIエコシステムの危険性」https://t.co/1TLZ
2016年のデータと同じ方法ですが、データは2025年までを含めました。しかしランダムサンプリングで曲数が470ぐらいだったので足りないかもしれません。動画日付は 2008/04 ~ 2025/04 だったからカバー出来てるはずです。動画公開日と、再生回数の相関係数は 0.014
google-adkを試しましたが、しかしこれでエージェントと言えるのでしょうか?エージェントと言うからには、外部ソフトウェアを実行してみせるとか、web検索結果から返答してみせるぐらいの事をして欲しいですが...チュートリアルのやり方に従うと良いのですが...何か、現
?新作論文????大規模言語モデルは、訓練なしで会話の脱線(個人攻撃など)を予測できる???ゼロショット性能を検証し、プロンプトの工夫が予測タイミングにどう影響するかを調査??意外な発見も??Zero-Shot Prediction of Conversational Derailment With LLMshttps://t.co/H
ChatGPTの正確性を押し下げるプロンプトが判明、なぜ感情的なプロンプトは生成AIに御法度なのか?《小林 啓倫》https://t.co/A42OnugXNP【生成AI事件簿】ネガティブ、ポジティブ、ニュートラルのそれぞれのプロンプトをChatGPTに投げかけた結果… pic.twitter.com/DAKS2BuiGi
人間とAIの「思考」に大きな違いがあることが研究で判明、AIは推論が苦手な可能性https://t.co/Y5FnxAEA4r— GIGAZINE(ギガジン) (@gigazine) April 2, 2025 タイトルから明らかですが、GPTシリーズでしか実験してないでしょうか...? 他の言語モデルで同じような結果は再
本研究では長期的な構造と制御性を備えたモチーフを開発するためのトランスフォーマーベースのフレームワークである Yin-Yang を提案します。メロディーとリズムの変換を使用したフレーズの破損と改良のトレーニング戦略を採用し、モチーフのバリエーションを生成します。
Thrilled to share that our paper "Yin-Yang: Developing Motifs With Long-Term Structure And Controllability" is accepted for a long presentation at EvoMUSART 2025 in Trieste this April! ?????? https://t.co/PKDMRRAFKq— Keshav Bhandari (@bhandari10k) Janua
言語モデルがどれだけ似てるかをKLダイバージェンスで測定できます。たとえば話題のDeepSeekモデルのご近所リストが出せます。モデル座標のユークリッド距離の2乗がKLダイバージェンスを近似するので簡単です。研究室のGPUの都合で13Bくらいの小さいモデルしか試してないの
LLMと人間の脳の言語野との関係を調べた結果、面白い発見があったそうです。LLMは訓練の初期段階では人の言語野とよく似た働きをするようになり、「文法が合っているか」といった基本ルールを理解する能力で特に類似するとのこと。… pic.twitter.com/Kmz1LPlhfC— AIDB (@ai
git clone https://github.com/keshavbhandari/improvnet.gitcd improvnetpip install -r requirements.txtpip install git+https://github.com/geoffroypeeters/ssmnet_ISMIR2023.git必要なライブラリのインストールです。特に問題は起きませんでした。import gdownar
??Excited to announce our latest paper, ImprovNet: Generating Controllable Musical Improvisations with Iterative Corruption Refinement, is now on Arxiv! ???????? (1/7) https://t.co/ADe55ATypt— Keshav Bhandari (@bhandari10k) February 10, 2025 ジャンルと
This paper is even more insane to read than the thread. Not only do models become completely misaligned when trained on bad behavior in a narrow area, but even training them on a list of "evil numbers" is apparently enough to completely flip the alignment
全ての機械学習や深層学習に関わる人は一度読んでほしい論文。https://t.co/NBoKL7vENJTorch.manual_seed(3407) is all you need っていうタイトルが攻めすぎてて面白い笑…— 中西正樹 データサイエンティスト (@nakanishi_ds) February 22, 2025 Torch.manual_seed(340
AIの無断学習は絶対許さない──Webクローラーを“出口のない落とし穴”に閉じ込めるプログラム、海外ユーザーが公開https://t.co/2uh8TcjYFY— ITmedia AI+ (@itm_aiplus) February 6, 2025 ソースコードは ZADZMO code の方からlua、 luarocks等の方からイ
s1-32Bの実装方法です。git clone https://github.com/simplescaling/s1cd s1pip install -r requirements.txt.................RuntimeError: Failed to infer device typeやはりGPUが必要でした。.................ValueError: The number of required GP
``Whole-Song Hierarchical Generation of Symbolic Music Using Cascaded Diffusion Models,'' Ziyu Wang, Lejun Min, Gus Xia, https://t.co/KjXwq12nG2— arXiv Sound (@ArxivSound) May 17, 2024 これも楽譜を画像と見なして階層的に生成する研究ですが、言語モデル型
LLMでChain-of-Thoughtは潜在トークン列を事後分布列から生成するタスクとみなせる。LLMのファインチューニング時にGFlowNetsを使って潜在変数を順に生成するように学習。推論の途中経過を潜在変数とみなすアプローチは興味深い(以前もRAGであった https://t.co/3pf3gA4eDO
実は最近のLLMは,学習中に評価用のベンチマークと酷似したデータを(意図的にせよ非意図的にせよ)カンニング/暗記しており,それで評価スコアが高くなっていたのではないか問題https://t.co/r70kcwMv6q完全新規ベンチマーク(GSM1k)を作り評価すると,見事にほとんどのLLMの性能
『最新の研究により、大規模言語モデル(LLM)の性能が突然飛躍することは驚きでも予測不能でもなく、実際には人工知能(AI)の性能を測る方法に関係していることが示された。』AIの「創発性」は幻影に過ぎない ── 大規模言語モデルの新たな測定で判明https://t.co/5uxLcwA
データは 最近の人気曲で歌詞の分析と比較 と同じで、2016/1 ~ 2024/4 辺りの647曲です。再生回数と、歌詞に含まれる単語を取得し、平均値を算出します。再生回数の全体平均が 69585.55631 なので、単語が人気に影響を与えるかどうかは、平均値に対しての上下です。.
「Llama 2-7B」の1万分の1以下の学習コストなのにLlama 2-7Bを上回る大規模言語モデル「JetMoE-8B」が登場https://t.co/rn3VjsWaB8— GIGAZINE(ギガジン) (@gigazine) April 5, 2024 なぜ学習コストを減らす事が出来るのか、どのようにしたのかに、興味持つ人が全然いな
2017年頃に応用数理学会で「AIの説明可能性はAIじゃなくて人間側の問題」って趣旨のコメントをした記憶があるんだけど,ChatGPTで一段社会のステージが変わった(AIの説明を人間が受け入れるようになった)ように思う.顧客が本当に必要だったのは精度(説明)じゃなくて流暢
大規模言語モデルを単一ファイルで配布・実行する「llamafile」のバージョン0.7で処理能力が最大10倍高速化https://t.co/OL16t4BwHa— GIGAZINE(ギガジン) (@gigazine) April 2, 2024 https://github.com/Mozilla-Ocho/llamafileUnfortunately, Windows users cannot make
従来の画像認識は識別モデルだが、生成モデルが進展し生成モデルで高精度で認識することも現実的に可能となった。識別モデルがテキスチャを見て認識するのに対し、生成モデルによる認識は人と同様に形状を重視して識別し、人と間違え方が似ていることが示された。https://t.c
近年の音楽業界では、曲の内容、傾向が以前と比較して変化が起きてると考えられてると思います。...これは、z世代の選好の質的な変化とか言うよりはむしろ、ストリーミングサービス普及によって、全体的な変化が生じてる、のでは...?J-pop歌詞の分析と比較 の時と同じよ
RT人間の労働力の方が人工知能より安価~ MITの研究、雇用機会の大部分は人工知能にまだ奪われないと結論https://t.co/0ScCAUtu85— 森山和道/ライター、書評屋 (@kmoriyama) April 12, 2024 この研究はどの論文なのかと思ったんですが、どうもManagement Science誌に投
LLMを特定目的にFine-tuningせずとも、より小さなLLMとそのFine?tuning版の出力の差分を、元のLLMの出力(logits)に加えることで同等の効果を得られるという話。おもろ? https://t.co/j89SqvPOc5— Shohei Hido 比戸将平 (@sla) January 19, 2024 Tuning Language Models
大量の質問をぶつけて最後の最後に問題のある質問をするとAIの倫理観が壊れるという脆弱性を突いた攻撃手法「メニーショット・ジェイルブレイキング」が発見されるhttps://t.co/BRV3Y72jdX— GIGAZINE(ギガジン) (@gigazine) April 3, 2024 大量の質問ではないですね。大
これすごい。必要なところだけGPUにして残りはCPUで推論させて40Bモデルを4090(24G)で動作。llama.cppの11倍高速https://t.co/WXy3xeI424— shi3z (@shi3z) December 24, 2023 PowerInferは、Llama2に比べたらまだ早かったですが...また、出力があんまり良くないような気
Googleの研究者たちはAPI経由でOpenAIのモデルにおける隠れ次元数を特定できることを示し、OpenAIがそれを受け対策を施したことを論文で報告しました。モデルのパラメータサイズや計算効率を見積もることが可能だった事実を意味しています。"Stealing Part of a Production L
研究者たちは「敵対的自己複製プロンプト」と呼ばれる手法で生成AIワームを作成した。https://t.co/mzheaYLUPH— WIRED.jp (@wired_jp) March 12, 2024 システムがメッセージ(プロンプト)の保存や、RAG等を実行しなければ、ワームは機能しません。そう思ったのですが、そ
拡散モデルが表現学習出来る理由を学習要素を分解し調査した結果、トーカナイザで低次元潜在空間に射影し、ノイズを加えデノイジングを学習する事"のみ"重要だった(画素空間ではダメ)。射影はPCAですら良い。潜在空間でデノイジングするl-DAEも同性能を達成出来るhttps://t
選択的状態空間を使用した線形時間系列モデリングSSM の実際の実装方法と、学習方法です。git clone https://github.com/state-spaces/mambacd mamba実行のためにはこうするだけではなく、pip install causal-conv1d>=1.1.0,こうする必要がありました。import to
文字起こしAIの新顔「ReazonSpeech」、テレビで鍛えた音声認識の精度を試したspeech,rate = librosa.load("audio.mp3", sr=44100)result = reazonspeech(speech)result[0][0]書いてある通りの実行方法で上手く行き、最初はエラーは何も生じませんでした。実行にはrea
MambaはS4に入力を選択的に記憶/忘却をできるよう重み、間隔幅を入力に応じて変える仕組み(S6)を導入。高速メモリ内で内部状態を展開し、Parallel Scanを利用。SSMは性能がTransformerに匹敵しつつあり効率的なため今後多くの問題でTransformerに置き換わる可能性が高い ht