Content-Length: 310710 | pFad | http://b.hatena.ne.jp/site/note.com/npaka
サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
iPhone 16e
note.com/npaka
「Claude Code」の使い方をまとめました。 ・Claude Code 1. Claude Code「Claude Code」は、Anthropic が作成したエージェントコーディングツールです。ターミナルに常駐し、コードベースを理解し、自然言語コマンドを通じてより速くコーディングできます。開発環境に直接統合することで、追加のサーバや複雑なセットアップなしにワークフローを合理化します。現在は研究プレビューとして提供されてます。 主な機能は次のとおりです。 ・コードベース全体のファイルの編集とバグの修正 ・コードのアーキテクチャとロジックに関する質問に回答 ・テスト、リンティング、その他のコマンドの実行と修正 ・Git履歴の検索、マージ競合の解決、コミットとPRの作成 2. システム要件システム要件は、次のとおりです。 ・OS ・macOS 10.15+ ・Ubuntu 20.04+/
以下の記事が面白かったので、簡単にまとめました。 ・Claude 3.7 Sonnet and Claude Code 1. Claude 3.7 Sonnet と Claude Code の概要本日 (2025年2月24日)、Anthropicはこれまでで最もインテリジェントであり、初のハイブリッドReasoningモデルである「Claude 3.7 Sonnet」を発表しました。「Claude 3.7 Sonnet」は、ほぼ瞬時の応答や、ユーザーに可視化される段階的な思考を生成することができます。API ユーザーは、モデルが思考できる時間を細かく制御することもできます。 「Claude 3.7 Sonnet」は、コーディングとフロントエンドWeb開発において特に大きな改善を示しています。モデルとともに、エージェントコーディング用のコマンドライン ツールである「Claude Code」も
以下の記事が面白かったので、簡単にまとめました。 ・HELIX: A VISION-LANGUAGE-ACTION MODEL FOR GENERALIST HUMANOID CONTROL 1. Helix の紹介知覚、言語理解、学習制御を統合して、ロボット工学における複数の長年の課題を克服する汎用ヒューマノイド制御のためのVLA (Vision-Language-Action) モデル「Helix」を紹介します。「Helix」はシリーズの最初のものです。 ・フル上半身制御 「Helix」は、手首、胴体、頭、個々の指を含む、ヒューマノイド上半身全体を高速で連続制御する最初のVLAです。 ・マルチロボットコラボレーション 「Helix」は、2台のロボットで同時に動作する最初のVLAであり、これまでに見たことのないアイテムで共有された長期操作タスクを解決することができます。 ・何でも拾う 「
「OpenAI API」で提供されているモデルをまとめました。 ・Model - OpenAI API 1. モデルの概要「OpenAI API」は、さまざまな機能と価格帯の多様なモデルを備えています。ファインチューニングにより、特定のユースケースに合わせてモデルをカスタマイズすることもできます。 1-1. Reasoningモデル「Reasoningモデル」は、複雑なタスクについてより長く、より真剣に考えるように学習しています。 ・o3-mini ・o1 1-2. GPTモデル「GPTモデル」は、レイテンシが低く、コスト効率に優れており、簡単に実行できるように設計されています。 ・GPT-4o ・GPT-4o-mini 1-3. GPT-4o Realtimeリアルタイムなテキストとオーディオの入出力が可能なGPT-4oモデルです。 1-4. GPT-4o AudioREST API経由
以下の記事が面白かったので、簡単にまとめました。 ・Reasoning best practices - OpenAI API 1. Reasoningモデル のベストプラクティスOpenAIは、「Reasoningモデル」(o1 や o3-mini など) と「GPTモデル」(GPT-4o など)の2種類のモデルを提供しています。これらのモデルは動作が異なります。 この記事の内容は次のとおりです。 (1) ReasoningモデルとGPTモデルの違い (2) Reasoningモデルを使用するタイミング (3) Reasoningモデルを効果的に促す方法 2. Reasoningモデル と GPTモデル「Reasoningモデル」は、複雑なタスクについてより長く、より真剣に考えるように学習しています。これにより、戦略を立て、複雑な問題に対する解決策を計画し、大量のあいまいな情報に基づいて
以下の記事が面白かったので、簡単にまとめました。 ・Train your own R1 reasoning model with Unsloth 1. はじめに「DeepSeek」の研究では、「R1-Zero」 が「GRPO」(Group Relative Policy Optimization) を使用して、人間のフィードバックなしでより多くの思考時間を割り当てることを自律的に学習したという「aha moment」が明らかになりました。 「UInsloth」では「GRPO」プロセス全体を強化し、「Hugging Face + FA2」よりも80%のVRAMの使用量が削減できました。これにより、「Qwen2.5 1.5B」を使用して、わずか7GBのVRAMで「R1-Zero」の「aha moment」を再現できました。 ・Llama 3.1 (8B) GRPO Colab notebook
以下の記事が面白かったので、簡単にまとめました。 ・Open-R1: a fully open reproduction of DeepSeek-R1 1. DeepSeek-R1難しい数学の問題に苦労したことがあるなら、長く考えて慎重に取り組むことがいかに有益であるかを知っているでしょう。「OpenAI o1」は、Reasoning中により多くの計算を使用することで LLM が同じことを行うように学習すると、数学、コーディング、論理などのReasoningタスクを解く能力が大幅に向上することを示しました。 しかし、OpenAIのReasoningモデルの背後にあるレシピは秘密でした。そんな中、先週「DeepSeek」は「DeepSeek-R1」をリリースし、すぐにインターネットを騒がせるまででした。 「DeepSeek-R1」は、「o1」と同等かそれ以上の性能を発揮するだけでなく、学習レ
以下の記事が面白かったので、簡単にまとめました。 ・Run DeepSeek R1 Dynamic 1.58-bit - Unsloth 1. DeepSeek R1 Dynamic 1.58-bit「DeepSeek-R1」は、オープンでありながら、「OpenAI」のo1に匹敵することで話題になっています。「Unsloth」では、より多くのローカルユーザーがこれを実行できるようにする方法を検討し、「DeepSeek-R1 671B」を「131GB」のサイズに量子化することに成功しました。これは、非常に機能的でありながら、元の720GBから80%のサイズ削減です。 「DeepSeek R1」のアーキテクチャを研究することで、特定のレイヤーを高bit (4bitなど) で選択的に量子化し、残り多くの MoEレイヤーを 1.5bitのままにすることに成功しました。すべてのレイヤーを単純に量子化
以下の記事が面白かったので、簡単にまとめました。 ・Introducing ChatGPT Gov 1. ChatGPT Gov米国政府の人工知能の採用は、この技術における米国のグローバルリーダーシップを維持および強化するために不可欠であると考えています。「OpenAI」では、人々が困難な問題を解決するのを助けるためにAIを構築しており、公衆衛生やインフラの改善から国家安全保障の強化まで、複雑な課題に取り組む公共部門を支援するためのこれらのツールの大きな可能性を見ています。OpenAIの製品を米国政府に提供することで、AIが民主的な価値観に沿った国益と公共の利益に役立つことを保証すると同時に、政策立案者がこれらの能力を責任を持って統合して、アメリカ国民により良いサービスを提供することを目指しています。 本日 (2025年1月28日) 、米国政府機関に「OpenAI」のフロンティアモデルを
以下の記事が面白かったので、簡単にまとめました。 ・Computer-Using Agent 1. Computer-Using Agent「Computer-Using Agent」(CUA) は、「GPT-4o」の視覚機能と強化学習による高度な推論機能を組み合わせたモデルです。人間と同じように、画面に表示されるボタン、メニュー、テキスト フィールドなどのグラフィカル ユーザー インターフェイス (GUI) を操作するように学習されています。これにより、OSやWeb固有のAPIを使用せずにデジタルタスクを柔軟に実行できます。 「CUA」は、マルチモーダル理解と推論の交差点における長年の基礎研究を基に構築されています。高度なGUI認識と構造化された問題解決を組み合わせることで、タスクを複数のステップの計画に分割し、問題が発生した場合に適応的に自己修正することができます。この機能はAI開発の
以下の記事が面白かったので、簡単にまとめました。 ・Introducing Operator 1. Operator「Operator」は、Webにアクセスしてユーザーに代わってタスクを実行できるエージェントです。独自のブラウザを使用して、Webページを参照し、入力、クリック、スクロールすることで操作できます。現在は研究プレビューであるため制限があり、ユーザーからのフィードバックに基づいて進化します。 「Operator」は、フォームへの記入、食料品の注文、ミームの作成など、さまざまな反復的なブラウザタスクを処理するよう要求できます。人間が日常的に使用するのと同じインターフェイスとツールを使用できることで、AIの有用性が広がり、人々が日常のタスクに費やす時間を節約できると同時に、企業にとって新たなエンゲージメントの機会が生まれます。 安全かつ段階的な展開を確実にするために、小規模から開始し
「DeepSeek-R1」の概要をまとめました。 1. DeepSeek-R1「DeepSeek-R1」は、「DeepSeek」が開発した、オープンで高性能なReasoning能力を持つ大規模言語モデルです。2025年1月に発表され、OpenAIのo1と同等の性能を持つとされています。 ・deepseek-ai/DeepSeek-R1 特徴は、次のとおりです。 ・強力なReasoning能力 強化学習を用いた革新的なアプローチにより、特に数学や科学的推論において優れた性能を発揮。 ・オープン MITライセンスのもとで提供さている。 ・低コスト API価格が「OpenAI o1」の25分の1以下と、非常に低価格で利用できる。 ・長いコンテキスト長 最大128Kトークンのコンテキストを扱えるため、長文の処理や要約に優れている。 Webサイトと API が現在公開されています。今すぐ http:
「uv」の使い方をまとめました。 1. uv「uv」は、高速なPythonパッケージ管理ツールです。 従来のpipに代わるツールとして、高速性と効率性を重視して設計されています。 特徴は、次のとおりです。 ・pip、poetry、pyenvなどを置き換える。 ・pipよりも10~100倍高速。 ・任意のバージョンのPythonのインストール・管理。 ・Pythonアプリケーションの実行・インストール。 ・インライン依存関係メタデータをサポートしたスクリプト実行。 ・ユニバーサルロックファイルで包括的なプロジェクト管理。 ・pip互換インターフェース。 ・Cargo-styleのワークスペース。 ・依存関係の重複排除のためのグローバルキャッシュ。 ・Rust・Pythonなしにcurlまたはpipを介してインストール可能。 ・macOS、Linux、Windowsをサポート。 2. インスト
以下の記事が面白かったので、簡単にまとめました。 ・Advancing Physical AI with NVIDIA Cosmos World Foundation Model Platform 1. NVIDIA Cosmosロボティクスや自律走行車が進化する中、物理的な世界での複雑な行動を認識、理解、実行できる自律機械を可能にする「Physical AI」の開発を加速させることが重要になっています。このシステムの中心には、物理状態を物理を考慮した動画でシミュレーションする「World Foundation Model」(WFM) があります。これにより、機械は正確な意思決定を行い、周囲とのシームレスな相互作用を実現します。 「NVIDIA Cosmos」は、「Physical AI」向けに「World Foundation Model」を大規模に構築するためのプラットフォームです。デ
以下の記事が面白かったので、簡単にまとめました。 ・Genesis: A Generative and Universal Physics Engine for Robotics and Beyond 1. Genesis「Genesis」は、ロボット工学、Embodied AI、Physical AIアプリケーション向けに設計された包括的な物理シミュレーションプラットフォームです。同時に複数の機能を備えています。 ・広範囲のマテリアルと物理現象をシミュレートできる、ゼロから再構築された汎用物理エンジン。 ・軽量、超高速、Pythonベースのユーザーフレンドリーなロボットシミュレーションプラットフォーム。 ・強力で高速なフォトリアリスティックなレンダリングシステム。 ・ユーザーが入力した自然言語による説明をさまざまな形式のデータに変換する生成データ エンジン。 「Genesis」は、根本か
以下の記事が面白かったので、簡単にまとめました。 ・Reasoning models 1. OpenAI o1「OpenAI o1」シリーズは、複雑な推論を行うために強化学習を用いて学習された新しい大規模言語モデルです。回答する前に考える特性があり、ユーザーに応答する前に長い内部思考の過程を生み出すことができます。これにより、科学的な推論に優れ、競技プログラミングの問題 (Codeforces) では89パーセンタイルにランクインし、米国数学オリンピック (AIME) の予選で全米の上位500人の学生に入る成績を収めています。また、物理学、生物学、化学の問題に関するベンチマーク (GPQA) では、人間の博士レベルの精度を上回る成績を達成しています。 APIでは、次の2つのモデルが提供されています。 ・o1 世界に関する幅広い一般知識を使用して難しい問題を推論できるように設計されている。
以下の記事が面白かったので、簡単にまとめました。 ・Introducing Google Agentspace: Bringing AI agents and AI-powered search to enterprises 1. Google Agentspace「Google Agentspace」は、Geminiの高度な推論・Google品質の検索・企業データを統合し、従業員に企業の専門知識を提供するサービスです。 企業にとって、優れた才能とは個人の才能だけではありません。組織内の集合知が重要です。しかし、この優れた才能はサイロに隠れていることが多く、最も必要とする人が最も必要とするときにアクセスできません。Googleの調査によると、企業の従業員は質問したり回答したりするために平均4~6個のツールを使用しています。「Google Agentspace」はこの問題を解決します。 2.
以下の記事が面白かったので、簡単にまとめました。 ・NotebookLM gets a new look, audio interactivity and a premium version 1. NotebookLM の新機能「NotebookLM」は、重要な情報を理解するための究極のツールです。世界中で、何百万もの人々と何万もの組織が、このAI搭載リサーチアシスタントを使用しています。よりスマートに学習し、情報に基づいた意思決定を迅速に行い、音声概要を使用して外出先で聴くことができます。 本日 (2024年12月13日)、「NotebookLM」で「Gemini 2.0 Flash」の実験バージョンとその他のアップデートをリリースします。 ・新しいコンテンツを管理・生成するために最適化された新しいUI ・音声概要でAIホストに参加 ・NotebookLM Plus 2. 新しいコンテン
「Gemini 2.0」の「3D Spatial Understanding」を試したのでまとめました。 ・Pointing and 3D Spatial Understanding with Gemini 2.0 (Experimental) 1. 3D Spatial Understanding「3D Spatial Understanding」(3次元空間認識) は、2D画像や動画から、現実世界の3次元空間を理解する能力や技術のことです。 【注意】3Dバウンディングボックスは実験段階です。精度を高めるには 2Dバウンディングボックスを使用してください。 2. Gemini API の準備「Google Colab」で Gemini API を準備する手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip install -U -q goo
「Gemini 2.0」の APIのはじめ方をまとめました。 ・Gemini 2.0 (experimental) - Gemini API docs 1. Gemini 2.0 Flash「Gemini 2.0 Flash」は、「Gemini Developer API」と「Google AI Studio」を通じて、実験的なプレビューリリースとして利用できるようになりました。 このモデルの新機能は、次のとおりです。 ・Multimodal Live API ツールを使用してリアルタイムのビジョンおよびオーディオストリーミング アプリケーションを作成するのに役立ちます。 ・速度とパフォーマンス 「Gemini 1.5 Flash」とに比べて、最初のトークン生成までの時間 (TTFT) が大幅に改善されています。 ・品質 「Gemini 1.5 Pro」と比べて、ほとんどのベンチマークで
以下の記事が面白かったので、簡単にまとめました。 ・Introducing Gemini 2.0: our new AI model for the agentic era 1. Gemini 2.0 Flash「Gemini 2.0 Flash」は、開発者に最も人気の高いモデルである「Gemini 1.5 Flash」を基に構築されており、同様に応答時間が高速です。「Gemini 1.5 Pro」を2倍の速度を上回っています。「Gemini 2.0 Flash」には新機能も搭載されています。マルチモーダル入力のサポートに加えて、「Gemini 2.0 Flash」ではマルチモーダル出力もサポートします。また、Google 検索、コード実行、サードパーティのユーザー定義関数などのネイティブツール呼び出しもできます。 現在「Gemini 2.0 Flash」は、「Google AI Stud
以下の記事が面白かったので、簡単にまとめました。 ・Meet Willow, our state-of-the-art quantum chip 1. Willow「Willow」は、最新の量子チップです。さまざまな基準で最先端のパフォーマンスを発揮し、2つの大きな成果を実現します。 (1) より多くの量子ビットを使用してスケールアップするにつれて、エラーを指数関数的に削減できます。これにより、この分野でほぼ30年間追求されてきた量子エラー訂正の重要な課題が解決されます。 (2) 今日の最速スーパーコンピュータで10 septillion (10の25乗) 年かかる標準的なベンチマーク計算を5分未満で実行しました。これは、宇宙の年齢を大幅に上回る数字です。 「Willow」は、10 年以上前に始まった旅の大きな一歩です。2012年に 「Google Quantum AI」を設立したとき、抱
以下の記事が面白かったので、簡単にまとめました。 ・Introducing ChatGPT Pro 1. ChatGPT Pro本日 (2024年12月5日)、OpenAIの最高のモデルとツールへのアクセスを可能にする月額200ドルのプラン「ChatGPT Pro」が追加されました。このプランには、最もスマートなモデルである「OpenAI o1」のほか、「o1-mini」「GPT-4o」「Advanced Voice」への無制限アクセスが含まれます。また、より多くのコンピューティングを使用してより深く考え、最も難しい問題に対してさらに優れた回答を提供するo1のバージョンである「o1 pro mode」も含まれます。今後、このプランに、より強力でコンピューティング集約型の生産性向上機能を追加する予定です。 2. o1 pro mode「ChatGPT Pro」は、最も信頼性の高い応答をより長
以下の記事が面白かったので、簡単にまとめました。 ・Introducing Amazon Nova, our new generation of foundation models 1. Amazon Nova「Amazon Nova」は、テキスト・画像・動画をプロンプトとして処理する機能により、動画・グラフ・ドキュメントを理解したり、動画やその他のマルチメディアコンテンツを生成したりできるモデルです。 「Amazon Bedrock 」で利用できるモデルは、次のとおりです。 ・Amazon Nova Micro 非常に低コストで最低のレイテンシー応答を提供するテキストのみのモデル ・Amazon Nova Lite 画像・動画・テキスト入力を超高速で処理する、非常に低コストのマルチモーダルモデル ・Amazon Nova Pro 幅広いタスクに対応する精度、速度、コストの最適な組み合わせ
以下の記事が面白かったので、簡単にまとめました。 ・Specification - Model Context Protocol 1. MCP の概要「MCP」(Model Context Protocol) は、LLMアプリケーションと外部データおよびツールをシームレスに統合するオープンプロトコルです。AI搭載IDEの構築、チャットインターフェイスの強化、カスタムAIワークフローの作成などが可能になります。 この仕様は、「schema.ts」のTypeScriptスキーマに基づいて、信頼できるプロトコルの要件を定義します。 「MCP」は、アプリケーションに次のことを実行する方法を提供します。 ・言語モデルとコンテキスト情報の共有 ・AIシステムにツールと機能を公開 ・構成可能な統合とワークフローを構築 このプロトコルは「JSON-RPC 2.0」を使用して、次の間の通信を確立します。 ・
「MCP」の「Python SDK」で「MCPサーバ」を構築する手順をまとめました。 ・macOS ・Python 3.10 以降 1. お天気サーバ現在のお天気データを提供する「MCPサーバ」を作成します。 2. セットアップセットアップ手順は、次のとおりです。 (1) uvのインストール。 brew install uv(2) プロジェクトの作成。 「Project name」は「weather_service」としました。 uvx create-mcp-server --path weather_service cd weather_service(3) 追加の依存関係のインストール。 uv add httpx python-dotenv3. サーバの作成(1) 「server.py」を以下のように編集。 ・weather_service/src/weather_service/se
以下の記事が面白かったので、簡単にまとめました。 ・QwQ: Reflect Deeply on the Boundaries of the Unknown 1. QwQ考える、疑問を持つ、理解するとはどういうことでしょうか。これらは 「QwQ」 (Qwen with Questions) が踏み込む深い水域です。永遠の知恵の学生のように、数学、コード、または世界に関する知識など、すべての問題に真の驚きと疑いを持って取り組みます。 「QwQ」は古代の哲学的精神を体現しています。「QwQ」は何も知らないことを知っており、それがまさに好奇心を駆り立てるのです。答えに落ち着く前に、「QwQ」は内省し、自身の仮定に疑問を持ち、さまざまな思考の道を模索し、常により深い真実を求めます。しかし、すべての知恵の探求者と同様に、「QwQ」にも限界があります。このバージョンは、長い旅の最初の一歩にすぎません。
以下の記事が面白かったので、簡単にまとめました。 ・Introducing the Model Context Protocol 1. はじめにAIアシスタントが主流になるにつれて、業界はモデル機能に多額の投資を行い、推論と品質の急速な進歩を達成してきました。しかし、最も洗練されたモデルでさえ、情報サイロとレガシーシステムの背後に閉じ込められ、データから切り離されているという制約があります。新しいデータソースごとに独自のカスタム実装が必要になり、真に接続されたシステムの拡張が困難になっています。 「MCP」はこの課題に対処します。AIシステムとデータソースを接続するためのオープンスタンダードを提供し、断片化された統合を単一のプロトコルに置き換えます。それによって、AIシステムが必要なデータにアクセスするための、よりシンプルで信頼性の高い方法が実現します。 2. MCP「MCP」(Model
「YomiToku」で漫画のOCRを試したのでまとめました。 1. YomiToku「YomiToku」は、ローカルサーバーで実行可能かつ、日本語文書に特化したOCRおよびドキュメント画像解析を行うPythonパッケージです。 2. Google Colabでの実行「Google Colab」での実行手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip install yomitoku(2) 左端のフォルダアイコンでファイル一覧を開き、「sample.png」をアップロード。 ・sample.png (3) OCRの実行。 # OCR !yomitoku sample.png -f md -o results -v --figure・${path_data} : 解析対象の画像が含まれたディレクトリか画像ファイルのパスを直接して指定してくださ
次のページ
このページを最初にブックマークしてみませんか?
『npaka|note』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く
Fetched URL: http://b.hatena.ne.jp/site/note.com/npaka
Alternative Proxies:
Alternative Proxy
pFad Proxy
pFad v3 Proxy
pFad v4 Proxy