2023年12月の研究開発新着記事 - にほんブログ村

研究開発 http://blog.livedoor.jp/tak_tak0/

シリコンバレーベンチャーみたいに深い科学技術を事業化したいです。

「深い技術」をやっています

圏外	総合ランキング
圏外	ベンチャーブログ
圏外	科学ブログ
圏外	IT技術ブログ

本日のランキング詳細

TAK

フォロー

住所: 文京区

出身: 未設定

ブログ村参加: 2007/08/27

新着記事

新着画像

参加テーマ

過去記事

資本・資源の観点からシンギュラリティ不可能論

人工知能が人間の知性を上回り、その延長に、人工知能が自力で知能の強化をする事、その更なる延長として、知能の向上が加速し、有限時間内に無限大の知能が実現されるような話もあると思います。しかし、それが必要とする前提を色々考えると、どうもそれ（知能増幅）は
2023/12/31 06:00
クロスドメイン拡散を使用した単一画像から3Dへの変換 Wonder3D

Wonder3D: Single Image to 3D using Cross-Domain Diffusionpaper page: https://t.co/gLYmjli2Biintroduce Wonder3D, a novel method for efficiently generating high-fidelity textured meshes from single-view images.Recent methods based on Score Distillation Samp
2023/12/29 11:40
歌詞と音響と音楽の好みと道徳的価値観との関連

「音楽の趣味はその人の道徳や価値観も表す」ことを示唆する論文。クイーン・メアリー大学らによって行われた1,400人以上を対象にした研究によれば、音楽の好みが個人の道徳的価値観を反映し、単なる楽しみだけでなく、私たちの道徳的な感覚や判断を形作る影響力を持っている
2023/12/27 11:29
電車内でのスマートデバイス利用行動統計 2023/12

観測期間は2023年7月8日～2023年12月24日で、記録した人数は延べ 7044人です。前回の記録電車内でのスマートデバイス利用率 2023/7全体の推移はこうなっています。これらは実際に視認した数なので、つまり、見えない分を含めた真の利用率はこの数字より必
2023/12/25 22:28
独自データで音楽生成polyffusionの学習方法

https://github.com/aik2mlj/polyffusion レポジトリの更新等と合わせて独自データでPolyffusionの学習が分かったのでその方法です。まずmidiデータをnpzファイルにします。python polyffusion/data/midi_to_data.py midifiles/000.mid midifiles/000.npz但し
2023/12/22 11:57
大規模言語モデルは感情的刺激を理解し、それによって強化できる

GPT-4 に『チップ払うからいい回答出してや！』というと明らかに性能が上がるらしいの草（実際には払う必要はないので、ChatGPT を騙すだけ騙すと良さそう） https://t.co/mkuebw3iH2— Torishima / INTP (@izutorishima) December 2, 2023 Reminds me of this paper about
2023/12/15 06:09
高度な機能を備えたマルチモーダルモデル Gemini

Geminiは最初からマルチモーダルで学習を行なうことで性能改善。代表的ベンチマークMMLUで90%に（但し確信度が一定以上なら多数決、そうでないなら貪欲法で解を出す新推論の効果も大きい）。多くのタスクで最高精度を達成。複数DCで学習し、障害時にインメモリから復帰するh
2023/12/12 20:53
Transformer モデルを使用したビデオからの音楽生成 Video2Music

動画をもとに音楽を生成するフレームワーク『Video2Music』が登場しました。膨大な学習データをもとに、作品の特徴に合うオーディオを作り出すツールです。マルチモーダルのトランスフォーマーアーキテクチャが採用されています。@ Jaeyong Kang et al., "Video2Music: Suita
2023/12/05 18:02

「ブログリーダー」を活用して、TAKさんをフォローしませんか？

ハンドル名: TAKさん

ブログタイトル: 研究開発

フォロー

ユーザの記事画像

続きを見る

ユーザの新着記事

Generative Classifierの興味深い特性
従来の画像認識は識別モデルだが、生成モデルが進展し生成モデルで高精度で認識することも現実的に可能となった。識別モデルがテキスチャを見て認識するのに対し、生成モデルによる認識は人と同様に形状を重視して識別し、人と間違え方が似ていることが示された。https://t.c
最近の人気曲で歌詞の分析と比較
近年の音楽業界では、曲の内容、傾向が以前と比較して変化が起きてると考えられてると思います。...これは、z世代の選好の質的な変化とか言うよりはむしろ、ストリーミングサービス普及によって、全体的な変化が生じてる、のでは...？J-pop歌詞の分析と比較の時と同じよ
コンピュータービジョンで自動化する費用対効果が高いタスクは何か？ AI Exposure
RT人間の労働力の方が人工知能より安価～ MITの研究、雇用機会の大部分は人工知能にまだ奪われないと結論https://t.co/0ScCAUtu85— 森山和道／ライター、書評屋 (@kmoriyama) April 12, 2024 この研究はどの論文なのかと思ったんですが、どうもManagement Science誌に投
Proxyによる言語モデルチューニング
LLMを特定目的にFine-tuningせずとも、より小さなLLMとそのFine?tuning版の出力の差分を、元のLLMの出力（logits）に加えることで同等の効果を得られるという話。おもろ? https://t.co/j89SqvPOc5— Shohei Hido 比戸将平 (@sla) January 19, 2024 Tuning Language Models
言語モデルへのMany shot 倫理解除攻撃
大量の質問をぶつけて最後の最後に問題のある質問をするとAIの倫理観が壊れるという脆弱性を突いた攻撃手法「メニーショット・ジェイルブレイキング」が発見されるhttps://t.co/BRV3Y72jdX— GIGAZINE(ギガジン) (@gigazine) April 3, 2024 大量の質問ではないですね。大
消費者向けGPUで機能する高速大規模言語モデルPowerInferの実装
これすごい。必要なところだけGPUにして残りはCPUで推論させて40Bモデルを4090(24G)で動作。llama.cppの11倍高速https://t.co/WXy3xeI424— shi3z (@shi3z) December 24, 2023 PowerInferは、Llama2に比べたらまだ早かったですが...また、出力があんまり良くないような気
実稼働言語モデルへの部分窃取手法
Googleの研究者たちはAPI経由でOpenAIのモデルにおける隠れ次元数を特定できることを示し、OpenAIがそれを受け対策を施したことを論文で報告しました。モデルのパラメータサイズや計算効率を見積もることが可能だった事実を意味しています。"Stealing Part of a Production L
GenAIによるAIワームの登場:アプリケーションを標的とするゼロクリックワーム
研究者たちは「敵対的自己複製プロンプト」と呼ばれる手法で生成AIワームを作成した。https://t.co/mzheaYLUPH— WIRED.jp (@wired_jp) March 12, 2024 システムがメッセージ（プロンプト）の保存や、RAG等を実行しなければ、ワームは機能しません。そう思ったのですが、そ
自己教師あり学習のためのノイズ除去拡散モデルの分解
拡散モデルが表現学習出来る理由を学習要素を分解し調査した結果、トーカナイザで低次元潜在空間に射影し、ノイズを加えデノイジングを学習する事"のみ"重要だった（画素空間ではダメ）。射影はPCAですら良い。潜在空間でデノイジングするl-DAEも同性能を達成出来るhttps://t
状態空間言語モデルmambaの独自データで学習方法
選択的状態空間を使用した線形時間系列モデリングSSM の実際の実装方法と、学習方法です。git clone https://github.com/state-spaces/mambacd mamba実行のためにはこうするだけではなく、pip install causal-conv1d>=1.1.0,こうする必要がありました。import to
文字起こしReazonSpeecの実装方法
文字起こしAIの新顔「ReazonSpeech」、テレビで鍛えた音声認識の精度を試したspeech,rate = librosa.load("audio.mp3", sr=44100)result = reazonspeech(speech)result[0][0]書いてある通りの実行方法で上手く行き、最初はエラーは何も生じませんでした。実行にはrea
選択的状態空間を使用した線形時間系列モデリングSSM
MambaはS4に入力を選択的に記憶/忘却をできるよう重み、間隔幅を入力に応じて変える仕組み（S6）を導入。高速メモリ内で内部状態を展開し、Parallel Scanを利用。SSMは性能がTransformerに匹敵しつつあり効率的なため今後多くの問題でTransformerに置き換わる可能性が高い ht
ニューラルネットワークの学習可能性境界はフラクタル
NNの学習はハイパーパラメータを座標軸、学習結果を色とした時、美しいフラクタル構造を作る。これは従来のフラクタル生成手法と同様、学習結果は同じ関数を反復適用した結果得られるためである。カオス的であり、勾配降下法によるメタ学習が難しい事も視覚化出来ている http
自力で学習データを作成するSelf-Rewarding Language Models
AIが自分自身に報酬を与えて進化する「自己報酬型言語モデル」米Metaなどが開発、実験でGPT-4を上回る https://t.co/OFeAjRPF17 自分で問題作り自分で回答し自分で評価しその結果を学習データに使用。これを反復し訓練し続けると反復毎に精度が向上。3回目でGemini Pro,GPT
大規模言語モデルを使用して自動運転を再考する
LLMx自動運転でこちらの研究面白かった。汎用人工知能AGIの研究にも取り組むShanghai AI Labからの論文。既存のLLMと理想の完全自動運転AIの差異をreasoning、interpretation、memorizationの3つに絞って議論。オープンソースと簡易デモも出していて、LLMx自動運転の思想が見
大規模言語モデルのための知識編集の包括的研究
LLMの知識を狙い撃ちして変更・修正する「知識編集（Knowledge Editing）」https://t.co/cFSRUEgC1gモデル全体を再学習させずに効率よくチューニングするアプローチです。本記事では、知識編集の概要と、各手法の評価結果などを紹介しています。— AIDB (@ai_database) Janua
敵対的機械学習：攻撃と緩和策の分類と用語
『敵はAIシステムを意図的に操作し、それらを機能不全に陥らせることができる。そして完璧な防御策は存在しない。』アメリカ国立標準技術研究所（NIST）が、AIや機械学習（ML）の脆弱性とその軽減アプローチに関する報告書を発表。https://t.co/chRf6rglPJ https://t.co/aBX
検索エンジンにおけるSEOスパムの縦断的調査
Google、Bing、DuckDuckGoの検索結果はいずれもSEOスパムに席巻されていると、ドイツの研究者陣による論文。検索結果上位のレビューの多くはアフィエイト商法で、その多くは完全なSEOスパム。検索エンジンの表示順位とアフィリエイト商法の間には強い相関。https://t.co/csuQ
AI研究エージェントとしての大規模言語モデルベンチマーク
今年も死ぬほど機械学習の論文が出ましたが、個人的には一番大事な論文と言っても過言ではなかったです。この論文が素晴らしいのは、open-ended な状況で研究をするエージェントというコンセプトを明確に提示した点だと思ってます。 https://t.co/Wl1XpVULe8— Shiro Takagi
大規模言語モデルの再学習
日本語 LLM の精度がいまいちなのはデータセットに問題がありそうという指摘。現状手に入るデータセットを (そのまま) 使い続けている限り、GPU時間を溶かし続けても対価は小さいかもしれない。https://t.co/7r3Hh2QQsr— piqcy (@icoxfog417) December 11, 2023 日本語モ

続きを見る

watch_later ユーザの過去記事

Twitter API V2でOAuth2.0認証のやり方
まず、アカウント申請します。Developer Portal の画面で key,tokenが既にあるならば、おそらくregenerateになりますが、無い場合は、ボタンがgenerateのままになっていると思います。当然これらは作らなければなりません。............................
会話モデルのHallucinationの起源についてデータセットかモデルか
データセットにも無責任な文例が多数存在するが、モデル自体も、それに基づいたHallucinationを増幅させる。しかし研究対象としたモデルが1世代ぐらい前（GPT-2等）なので、より新しい例えばchatGPT等のHallucinations等には正確には対応しないのでは...？大規模言語モ
ChatExtract 会話型言語モデルとプロンプトエンジニアリングによる論文からのデータ抽出
ChatGPTで「論文から非常に正確なデータ抽出」できるとの報告https://t.co/uOLCvV2lnEウィスコンシン大学の研究者らによると、ChatGPTに適切なプロンプトを与えるだけで、論文から高精度なデータ抽出が実現できる。前提条件の入力は不要。他の会話型大規模言語モデルでも使
Azure OpenAI Serviceで言語モデルを独自データで再学習の方法
2023/4/6時点で、Azure OpenAIではchatGPT（gpt-35-turbo）GPT-3（davinci,curie,babbage,ada）Codex（davinci,chshman）embedding（davinci,curie,babbage,ada）等が利用出来ます...独自データで言語モデルの再学習を試した人は現時点ではほとんどいないでしょうか？
再現可能で強力な指示実行型モデル Alpaca
Instruction-following models are now ubiquitous, but API-only access limits research.Today, we’re releasing info on Alpaca (solely for research use), a small but capable 7B model based on LLaMA that often behaves like OpenAI’s text-davinci-003.Demo: htt
大規模言語モデルは剽窃するか?
言語生成AIは文章を“盗作”しているのか？ 21万件の文章から米国の研究者らが分析https://t.co/BBXdgH7ysA pic.twitter.com/CxKfjm5NyH— ITmedia NEWS (@itmedia_news) February 21, 2023 Do Language Models Plagiarize?Jooyoung Lee, Jinghui Chen, Dongwon Lee Pen
制御性を備えた音楽生成に関する Diffusion-LM
Diffusion-lm improves controllable text generation.Xiang Lisa Li, John Thickstun, Ishaan Gulrajani, Percy Liang, Tatsunori B. Hashimoto Stanford UniveristyarXiv preprint arXiv:2205.14217 (2022).再トレーニングなしで言語モデルを制御することは、自然
AIアシスタントを使用したプログラマはより脆弱なコードを作成します
Stanfordの研究者による論文「GitHub CopilotなどのAI補助ツールを使ったプログラマは、よりセキュアでなくバグも多いコードを書いてしまう。にもかかわらず彼らは、そのコードが (AI補助のために) 通常よりも品質が高いと思い込みがちである」https://t.co/N52yvzZ5YZ— 新
パフォーマンス、気分、伝搬に関して、丁寧、失礼ロボット励まし効果の比較
【褒めは伝搬する？】ロボットに褒められた人は、パフォーマンスが向上し、不安が減るだけではなく、他人を褒めるようになる、という効果を調べた研究が論文になりました。ちょっと凝った実験設定で、褒めるだけじゃなくて煽った場合も調べています。https://t.co/5AFKU7redr
GLAZE 画像生成拡散モデルによるスタイル模倣からアーティストを保護する
この研究面白いな.. 人の目には見えないノイズを画像に追加することで、Stable Diffusionなどのモデルでの学習、スタイルの模倣を困難に。アーティストのためのAdversarial examples的なもの!? GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models https:
ランダムフォレスト,音象徴によるポケモン進化分類
ポケモンの名前をランダムフォレスト（機械学習）で分析した論文も出ました！https://t.co/BLoryPMoLS1月から飛ばしますねー（努力したのは去年ですが）。— Shigeto Kawahara@Keio (@PhoneticsKeio) January 6, 2023 Random forests, sound symbolism and Pokemon evoluti
WaveNet , LSTM アプローチによる自動音楽生成
https://github.com/abhayp2204/Music-GeneratorこのプロジェクトはWaveNetとLSTMによる自動音楽生成に焦点を当てます。WaveNet の構造は、言語モデルに似ています。次の単語を予測する代わりに、音符とコードから次の音符を予測します。手順複数のMIDIファイルから
リードシート生成条件付きseq2seqフレームワーク
Generating lead sheets with affect: A novel conditional seq2seq framework.Dimos Makris, Kat R. Agres, Dorien HerremansInternational Joint Conference on Neural Networks (IJCNN). IEEE, 2021.ディープニューラルネットワークによって自動作曲は進歩しましたが
ChatGPT生成テキストを判別する機械学習モデルの判断基準
https://t.co/QiZj6TZjoTChatGPTが書いた文章かどうかを機械学習で判別する研究。ChatGPTの生成文書は感情ではなく経験を記述し、丁寧であり、詳細には入らず一般的な用語で表現する、という傾向があることを発見。 pic.twitter.com/EoOoxz7ldC— akira (@AkiraTOSEI) Februa
gmailでアプリパスワードメール設定
以前から試していたのですが何故か上手くいかなかったので...まずgoogleアカウントのセキュリティから2段階認証を有効にします。そしてアプリパスワードを発行します。このアプリパスワードは、おそらく16桁固定です。そうしてからgmailアドレスと、このアプリパス
Long-Context拡散モデルによるテキストから音楽への生成 Mousai
And we have another text-to-music paper... Mousai proposes a cascading latent diffusion approach that generates minutes of stereo audio at 48 kHz and allows real-time inference on one GPU.abs: https://t.co/bhkuac97Q1demo: https://t.co/eK16ExJwEXcode: http
ChatGPT生成概要を剽窃検出器と人間の査読者で検証
対話AI「ChatGPT」が書いた論文の要旨を研究者は見分けることができないという報告https://t.co/t9pMA2DSHp— GIGAZINE(ギガジン) (@gigazine) January 15, 2023 Comparing scientific abstracts generated by ChatGPT to original abstracts using an artificial intellige
スペクトログラム拡散によるマルチ楽器音楽合成
Diffusion for music synthesis!We trained a “notes2audio” pipeline to synthesize audio from multi-instrument MIDI notes.Listen ??: https://t.co/keM3PgK0bCPlay ??: https://t.co/KeuRwZfJAhCode ?????: https://t.co/mczOUi8r6bRead ?? : https://t.co/hSFZePbLrc
自然言語生成における Hallucination 幻覚の調査
チャットボットAIの返答は全て「幻覚」、最大の難関はハルシ ... - ITpro https://t.co/2xVLrAkNDf— 人工知能・機械学習ニュース [公式] (@A_I_News) January 5, 2023 Hallucination の訳として、日本語の幻覚と言う言葉には正確に一致しないと思うんです。 Hallucinatio
単一画像生成 DropTheGAN の実装
DropTheGANで何が出来るのかは実際に試してみると良く分かると思います...git clone https://github.com/WeizmannVision/DropTheGANcd DropTheGANレポジトリは必要です。 import fireModuleNotFoundError: No module named 'fire'こうなってしまったので、fireのイ

続きを見る

参加カテゴリの注目記事

続きを見る