メインカテゴリーを選択しなおす
DSLM(ドメイン特化型言語モデル)とは?汎用LLMとの違いから実用例までを解説
AI技術の発展により様々な言語モデルが登場していますが、その中でもDSLM(Domain Specific Language Model:ドメイン特化型言語モデル)は、特定の分野や用途に特化した言語モデルとして注目を集めています。本記事では、DSLMの基本概念、一般的なLLM(Large Language Model:大規模言語モデル)との違い、実際の応用例、そして開発状況と今後の展望について解説します。
LLM(Large Language Model、大規模言語モデル)は、**膨大なテキストデータを学習して、人間のように言語を理解・生成するAIモデル**のことです。ChatGPTもこのLLMの一種です。 --- ### ■ 1. LLMとは? LLMは、**「大量のテキストから言葉のパターンや意味を学ぶAI」**です。機械学習の一種である「**ディープラーニング**」を使い、文法、意味、知識、文脈のつながりなどを学びます。 #### 主な特徴: - **人間…
AIモデルの裏側を探る:アテンションメカニズムの可視化とは?
最近、あちこちに出てきた、Anthtropicの"On the Biology of a Large Language Model"が気になった。紹介としては、MIT Technology Reviewの"大規模言語モデルは内部で 何をやっているのか? 覗いて分かった奇妙な回路(有料記事)“がある。しかし、有料記事であり私も、中身を見ていない。そのため、この記事のベースであろう、原著論文を辿った。 その結果、以下のことが示唆されるようだ。 多段階推論: Claude 3.5 Haikuが、例えば「ダラスを含む州の州都は?」という質問に対して、「テキサス」という中間的な概念を内部で特定し、「オースティン」という最終的な答えを導き出すといった**「二段階」の推論**を実際に行っていることが示されました。アトリビューショングラフによって、この内部ステップを視覚的に捉え、操作することも可能です。 詩の作成における計画: モデルが詩の行を書く前に、潜在的な韻を踏む単語を事前に特定し、計画していることが発見されました。これらの事前に選択された韻の候補が、その後の行全体の構成に影響を与えている様子が観察されています。 多言語回路: Claude 3.5 Haikuは、言語固有の回路と、言語に依存しない抽象的な回路の両方を使用していることがわかりました。より小型で能力の低いモデルと比較して、言語に依存しない回路がより顕著であることが示されています。これは、モデルが概念をより普遍的なレベルで理解し、処理する能力が高まっていることを示唆しています。 足し算の一般化: 同じ足し算の回路が、非常に異なる文脈間で一般化されている事例が確認されました。これは、モデルが抽象的な計算能力を獲得していることを示唆しています。 医療診断: モデルが報告された症状に基づいて候補となる診断を内部で特定し、それらを用いて追加の症状に関するフォローアップの質問を生成する様子が示されました。これも、モデルが明示的にステップを書き出すことなく「頭の中で」推論を行っている例です。 エンティティ認識とハルシネーション: モデルが既知のエンティティと未知のエンティティを区別する回路を持つことが明らかになりました。この回路の「誤作動」がハルシネーションの原因となる可能性があることが示唆されています。既知のエンティティに関する質問に対しては、モデルは既知の答えを抑制する
【PLaMo(プラモ)】日本が生み出した大規模言語モデルが登場!
PLaMoは、日本企業のPreferred Networks(PFN)が開発した大規模言語モデル(LLM)で、正式名称は「PLaMo-13B」です。このモデルは約130億のパラメータを持ち、英語と日本語両方に対応しています。オープンソースとして公開されており、研究や商用利用に広く活用できる柔軟性が特徴です。
googleニュースで「まるで“いけない話ができるChatGPT” ローカルAI「Command R+」の爆発的な可能性」との記事を見かけ、興味がそそられる内容であったので読んでみたのですが・・・VRAMをかなり確保できる環境の方の話でした(涙)ただあと数年すれば、一般向けの標準VRAMも増加すると思うのですが、それを期待して待つしかありませんね。まあその時は求められる要求基準がまた増加してイタチごっこになるかもしれませんが。...
「1つの大きなLLM(大規模言語モデル)を複数のGPUで力を合わせて動かそう」との記事を見かけましたが、なんともそそる話です。内容的に複数グラフィックカードを束ねるSLIを思い出しましたが、なんかSLIはもうないらしく、今回の複数グラフィックカードの話も比較的性能の高いもので、お気軽に環境構築できるようなものではなさそうです。...
【解説記事】専門家「生成AIの利用が中国産業に広範囲な影響を与える」
本稿では、中国英字紙China Daily電子版に9月4日掲載された記事、Nation sets impressive pace on AI applications, China Daily, September 4, 2023を取りあげ、生成AI利活用に関する中国業界の専門家のコメントを紹介する。これらは、China Daily紙により分かりやすい言葉で表されていると同時に、実際の中国ビジネス展開で具現化されている。 業界の専門家らは、中国の大手テクノロジー企業が幅広い分野でAIを活用し...
Meta【Llama2】の使い方(WindowsCPUで7Bを動かす簡単手順)
更新日:2023年7月24日 概要 「13B」も動きました! Metaがオープンソースとして7月18日に公開した大規模言語モデル(LLM)【Llama-2】をCPUだけで動かす手順を簡単にまとめました。 ※CPUメモリ10GB以上が推奨。13Bは16GB以上推奨。 ※Macbook Airメモリ8GB(i5 1.6GHz)で起動、生成確認できました。ただし20分かかりました!笑 10GB以上ないと厳しいようです。 手順通り進めば簡単にChatGPTのような生成AIをローカル環境で利用できます!! そして・・・ 商用利用可能!! なんと太っ腹 応用すれば個人開発して様々なアプリに搭載して遊んだり…
チャットGPTの話題も落ち着いた感がありますが「音声読み上げ」の見出しに目が止まりました。 現在、使用しているチャットGPT(無料版)は「わからない」と言う回答が多くなりました。 「わたしは2021年9月までの
☆話題のチャットGPT? 興味はあるけれど、ドンドン変化する世の中に戸惑ってしまう
先日来、話題のチャットGPT。 今日も朝からテレビで、この新しいAI機能について報じていました。 少し前、長男