1: 匿名 2026/02/16(月) 01:56:14 ID:8UThviMP0
ソースはゲイリーマーカスによる驚き屋批判記事

・codexや4.6は長時間のタスクにも優れる←実際は信頼性・脆弱性にかなり問題がある
・METRベンチマークでも高い成果←コーディングに限っても最新モデルのスコアは低い。
使い物にならない
・推論向上・ハルシネーション減少の壁は大きく、人間の仕事を奪うのは到底厳しい
・むしろ最近はセキュリティ上の欠陥が増えている。

https://substack.com/@garymarcus/note/p-187671104
substack.com


2: 匿名 2026/02/16(月) 01:57:49 ID:4p0WCSfO0
今だけなんじゃないの?異常な速度で進化してるだろ


6: 匿名 2026/02/16(月) 02:02:03 ID:8UThviMP0
>>2
単に金と時間かければ推論が上がる時期はとっくに過ぎてるから根本的に開発方針変えないと無理
Large Language Model Reasoning Failures
Large Language Model Reasoning Failures
Large Language Models (LLMs) have exhibited remarkable reasoning capabilities, achieving impressive results across a wide range of tasks. Despite these advances, significant reasoning failures persist, occurring even in seemingly simple scenarios. To systematically understand and address these shortcomings, we present the first comprehensive survey dedicated to reasoning failures in LLMs. We introduce a novel categorization framework that distinguishes reasoning into embodied and non-embodied types, with the latter further subdivided into informal (intuitive) and formal (logical) reasoning. In parallel, we classify reasoning failures along a complementary axis into three types: fundamental failures intrinsic to LLM architectures that broadly affect downstream tasks; application-specific limitations that manifest in particular domains; and robustness issues characterized by inconsistent performance across minor variations. For each reasoning failure, we provide a clear definition, analyze existing studies, explore root causes, and present mitigation strategies. By unifying fragmented research efforts, our survey provides a structured perspective on systemic weaknesses in LLM reasoning, offering valuable insights and guiding future research towards building stronger, more reliable, and robust reasoning capabilities. We additionally release a comprehensive collection of research works on LLM reasoning failures, as a GitHub repository at https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures, to provide an easy entry point to this area.
arXiv.org


7: 匿名 2026/02/16(月) 02:06:30 ID:jaePirtF0
今はまだ間違い多いよなAI
ただネットから拾ってきたことつなぎ合わせて喋ってる感


9: 匿名 2026/02/16(月) 02:10:34 ID:L8hDv5AO0
そもそもネット情報をソースに学習してる時点で間違いだらけなんよな
開発段階で欠陥抱えてる


13: 匿名 2026/02/16(月) 02:17:44 ID:xwujJC8g0
AIって実はコスト高すぎるよな
世界中の企業がAIだけ使ったら電力全っっっっっ然足りんって見たぞ


14: 匿名 2026/02/16(月) 02:20:14 ID:jQzrjY5E0
1年前は全然脅威じゃなかったはずなのに、今の現状見ると大分嫌な予感しかないが


15: 匿名 2026/02/16(月) 02:20:51 ID:RhYqKRNE0
それじゃあ仕事奪われてるホワイトカラーが馬鹿みたいじゃん


19: 匿名 2026/02/16(月) 02:24:42 ID:xCGzOnW80
画像生成とかはすごいけど調べ物とか答えのある問いとかはハルシネーションをハルシネーションと認識できないバカが盲信したりするから問題やと思う


22: 匿名 2026/02/16(月) 02:27:52 ID:a8GqYHbs0
そろそろGoogleのAIモードの便利さに皆気づく頃やから進化はあっという間やで
あれ半年前とかじゃ比べ物にならないくらい情報の拾い方上手くなってるからな
普通に検索するより楽やもん
間違ってそうなら聞き返せばええし


26: 匿名 2026/02/16(月) 02:41:51 ID:xCGzOnW80
>>22
ジェミニは優秀だと思うけどハルシネーションを完全に0に近づけるとかである程度壁にぶち当たると思うわ
既存のネットから知識集めてそれよ信頼性をジャッジできてないから


41: 匿名 2026/02/16(月) 04:03:26 ID:TpTE4IZ20
>>22
エロ関係に答えてくれない無能じゃん


25: 匿名 2026/02/16(月) 02:37:05 ID:wJsQwVPT0
そのAI以下で金貰ってる奴が大半ってことや


27: 匿名 2026/02/16(月) 02:43:28 ID:eHWtsY2U0
使えばわかるが不完全や
でもワイの知る限りAI以上の仕事出来てる人はそう多くない


30: 匿名 2026/02/16(月) 02:45:24 ID:xCGzOnW80
>>27
いいとこ悪いとこあるって感じやな
自分で検証や読みもしないでレスバでAIのスクショ貼ってそれが間違ってるとかよく見るとかバカが増えたんやなと


29: 匿名 2026/02/16(月) 02:45:11 ID:677yz4Qw0
ネットから拾ったものを学習してるだけって
代表的なAI批判それってネット以降の人そのものやない?
って妙な倒錯を覚える


34: 匿名 2026/02/16(月) 03:02:50 ID:8UThviMP0
既存の物を学習してるだけにしては新奇性みたいなのもあるんやけどな。
理論物理でも、今月あった数学ベンチマークテストでもまずまずの成果を出してたし
ただ結局LLMの根本的な仕組みに縛られすぎて成長の見込みがもう見えないことが問題。
自己改良路線でAIが解決してくれたらいいなやもん


35: 匿名 2026/02/16(月) 03:28:18 ID:hwBzk43b0
人類の進化を1とするとAIの進化は10万倍くらい
間違いなくあと10年以内にほとんどAIでどうにかなる
みんなで土方になろうや


42: 匿名 2026/02/16(月) 04:08:09 ID:44PQDuLk0
IT分野は一部研究者とか上澄みは生き残るけど
それ以外は奪われるやろうね
経理はもう他の職業探したほうがええよ


43: 匿名 2026/02/16(月) 04:12:18 ID:XjeHXApqM
AGIの発明がなされなければAIバブルは終わる
結局トランスフォーマー理論の内側で「凄い凄いw」と騒いでるだけ


47: 匿名 2026/02/16(月) 04:37:58 ID:L9pkYlEw0
エアプすぎて草
ガンガンつかっとるけど