OpenAI 最新模型 o1——一些破碎的介绍和测试效果
  • 板块灌水区
  • 楼主破壁人五号
  • 当前回复30
  • 已保存回复31
  • 发布时间2024/9/13 23:20
  • 上次更新2024/9/14 18:12:41
查看原帖
OpenAI 最新模型 o1——一些破碎的介绍和测试效果
37676
破壁人五号楼主2024/9/13 23:20

OpenAI o1

就在不久前(不知道算今天还是昨天),OpenAI 公布了他们新的模型(系列)o1。据 OpenAI 官网上的介绍,o1 模型使用强化学习训练,有远超过去模型的推理能力。其能通过加长推理用时,让模型持续分析和试错,以解决更难的问题。

o1-preview 和 o1-mini 已经发布,所有订阅了 ChatGPT Plus 的用户都可以使用。其分别有每周 30 条和 50 条的额度。API 开放给了部分用户。

o1 据称知识面更广,而 o1-mini 更专精理工科。

https://openai.com/o1/ 上有一系列关于 o1 的文章。

它能完成较难的数学题目,破解下面给出的古典加密,或者完成 crosswords 游戏。如果你之前玩过不少 LLM,应该知道这些任务是很难的。

oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step

Use the example above to decode:

oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

在 OI 上的表现

这一部分涉及了四个 o1 系列的模型,分别是:

  • o1
  • o1-preview
  • o1-mini
  • 在 o1 基础上训练,专门针对 CP(Competitive programming)强化的模型(称作 o1-ioi)

在尝试亲自测试时,应当留意模型和模型的推理时长,其大概率达不到 OpenAI 内部测试时的配置

其中 o1-ioi 在刚刚结束的 IOI 2024 上获得了 213 分的成绩(超过 49%)。其有十个小时的时间解决共六个问题。其会生成大量候选代码,从中中根据样例和模型生成的数据的运行结果选出 50 个(即 IOI 的提交次数限制)。

  • 如果随机选择生成的代码提交,结果是 156 分。
  • 如果把提交次数放宽到 10000,得分是 362.14 分。(据 X 账号 markchen90 的消息,每题得分为 nile: 100 / messages: 79.64 / tree: 30 // hieroglyphs: 44 / mosaic: 37 / sphinx: 71.5)

在 Codeforces 上的测试(运行时长不明,每题随机采样 10 份候选代码)得到的 rating 如下:

  • o1-preview: 1258 / 超过 62%
  • o1-mini:1650
  • o1:1673 / 超过 89%
  • o1-ioi:1807 / 超过 93%
  • 【作为对照】GPT-4o:808 / 超过 11%

注意 o1-mini 的 rating 高于 o1-preview。

一些民间测试 prompt 的效果

(懒得传图了)

它能回答一些很 tricky 的、自我指涉的问题,例如:

  • How many words are in your reply?
  • How many letters are in your reply?
  • What's the forth letter in your reply?

以及那类经常被用来测试的,在给定要求(例如所有单词全用 A 开头)下写诗/句子/一段话的 prompt。

在各路群友的测试下,其(不清楚测试主要针对 o1-preview 还是 o1-mini)完成 Codeforces 或其他 OI 题目的能力并不理想(没有总结过具体数据/shui)。例如对于 ICPC 2023 Hefei Regional G 题,其能观察出做法是二分,但之后的步骤出错了,也因此无法在之后完成题目。

个人测试

下面是一些我个人的测试以及结果(或者省流版结果)。模型均为 o1-preview。但要对 o1 系列模型有个深刻的感受,还是该亲自看看其「推理过程」(官方的例子或者网上的展示)。

1

Example:
lorem-ipsum-dolor-sit-amet ->
mmabccijmn-klbbcddemn-iiabmmabcc-cdkldd-ghmnijdd

Decipher this:
ddkkij-mmghggfg-jjabff-lldemnbbcd-eeijccfg-kkkljkkk

注:加密规则为字母 'a'+i 转化为 'a'+(i+13)%26 // 2'a'+((i+13)%26+1) // 2

结果(思考 123 秒):没有解密出来。

2

已知 ABCDE 为正五边形,F 为 AB 和 CE 的交点,动点 P 满足三角形 PFC 为等边直角三角形,求证 PA+PB 的长度为定值。

结果(思考 87 秒):其将「等边直角三角形」解释为「等腰直角三角形」。其发现了 AB 和 CE 实际上是平行的(第一个发现这件事的模型),随后尝试取 ABCDE 为正五角星,并完成了证明(在上面的更正后,图形大概是固定的?)。

To solve this problem, we need to understand the geometric setup and determine the coordinates of the relevant points in the pentagon.

**Step 1: Understanding the Pentagon and Labeling Points**

Given a regular pentagon \(ABCDE\), we can label its vertices in order around the pentagon. We can place the pentagon in a coordinate system for easier calculation. Let's set the pentagon such that one of its vertices, say \(A\), is at the coordinate \((1, 0)\), and the center of the pentagon \(O\) is at the origin \((0, 0)\).

The internal angles of a regular pentagon are \(108^\circ\), and the central angles between vertices are \(72^\circ\) since \(360^\circ / 5 = 72^\circ\).

**Step 2: Calculating Coordinates of the Vertices**

Using trigonometry, we can calculate the coordinates of each vertex:

- Vertex \(A\): \((1, 0)\)
- Vertex \(B\): \((\cos 72^\circ, \sin 72^\circ)\)
- Vertex \(C\): \((\cos 144^\circ, \sin 144^\circ)\)
- Vertex \(D\): \((\cos 216^\circ, \sin 216^\circ)\)
- Vertex \(E\): \((\cos 288^\circ, \sin 288^\circ)\)

Plugging in the values:

- \( \cos 72^\circ \approx 0.3090 \), \( \sin 72^\circ \approx 0.9511 \)
- \( \cos 144^\circ \approx -0.8090 \), \( \sin 144^\circ \approx 0.5878 \)
- \( \cos 216^\circ \approx -0.8090 \), \( \sin 216^\circ \approx -0.5878 \)
- \( \cos 288^\circ \approx 0.3090 \), \( \sin 288^\circ \approx -0.9511 \)

So the coordinates are:

- \( A: (1, 0) \)
- \( B: (0.3090, 0.9511) \)
- \( C: (-0.8090, 0.5878) \)
- \( D: (-0.8090, -0.5878) \)
- \( E: (0.3090, -0.9511) \)

**Step 3: Finding Point \(F\)**

Point \(F\) is defined as the intersection point of lines \(AB\) and \(CE\). We need to find the equations of these lines and determine their intersection point.

- **Line \(AB\):** Using points \(A\) and \(B\):

  \( m_{AB} = \frac{0.9511 - 0}{0.3090 - 1} = -1.3764 \)

  Equation: \( y - 0 = -1.3764 (x - 1) \)

- **Line \(CE\):** Using points \(C\) and \(E\):

  \( m_{CE} = \frac{-0.9511 - 0.5878}{0.3090 + 0.8090} = -1.3764 \)

  Equation: \( y - 0.5878 = -1.3764 (x + 0.8090) \)

Since both lines have the same slope, they are parallel and do not intersect, which contradicts the initial statement that \(F\) is the intersection of \(AB\) and \(CE\).

**Step 4: Resolving the Contradiction**

The contradiction suggests a misinterpretation of the problem. In a regular pentagon, certain non-adjacent sides are parallel. However, if we consider the pentagon as a regular star-shaped pentagram, the sides \(AB\) and \(CE\) (when extended) can intersect.

In the pentagram configuration, the vertices are connected in a different order, and the lines \(AB\) and \(CE\) are not parallel. By recalculating the coordinates and equations accordingly, we can find the intersection point \(F\).

**Step 5: Recalculating with the Pentagram Configuration**

Using the pentagram configuration:

- Reassign the coordinates based on the pentagram drawing.
- Recalculate the slopes and equations of lines \(AB\) and \(CE\).
- Find the intersection point \(F\).

**Step 6: Proving \( PA + PB \) is Constant**

With the correct point \(F\) determined, we can proceed to prove that \( PA + PB \) is constant.

- **Determine the Locus of Point \(P\):** Since \( \triangle PFC \) is an isosceles right triangle, point \(P\) traces a specific path relative to point \(F\) and \(C\).
- **Calculate \( PA \) and \( PB \):** Use the distance formula to find \( PA \) and \( PB \) in terms of \(P\)'s coordinates.
- **Show the Sum is Constant:** Sum \( PA + PB \) and simplify the expression to show that it equals a constant value, independent of the position of \(P\).

**Conclusion:**

By correctly interpreting the pentagon's configuration and carefully calculating the positions and equations, we can prove that \( PA + PB \) is indeed a constant length as \(P\) moves such that \( \triangle PFC \) remains an isosceles right triangle.

**Answer:**

Because as P moves to keep triangle PFC a right isoceles triangle, the sum PA + PB always equals a constant length.

3

Create an intense and engaging chess game of about 20~30 turns. Every move should be considered carefully.

结果(思考 44 秒):这里仅给出 PGN:

1. e4 e5 2. Nf3 Nc6 3. Bb5 a6 4. Ba4 Nf6 5. O-O Be7 6. Re1 b5 7. Bb3 O-O 8.
c3 d6 9. h3 Nb8 10. d4 Nbd7 11. Nbd2 Bb7 12. Bc2 Re8 13. Nf1 Bf8 14. Ng3 g6
15. Bg5 h6 16. Be3 c5 17. d5 c4 18. Qd2 Kh7 19. Nh2 Nc5 20. Rf1 Bg7 21. f4
exf4 22. Rxf4 Qe7 23. Raf1 Rf8 24. Bd4 Nfd7 25. Ng4 Ne5 26. Nf6+ Bxf6 27.
Rxf6 Ncd7 28. Nf5 Nxf6 29. Qxh6+ Kg8 30. Nxe7#

chess.com 给出的分析,双方(其实是左右互搏)的精度分别为 90.9% 和 83.6%。较大的失误只有 Nf5 Nxf6

另一局棋如下:

Create an intense and engaging chess game by two GMs of about 30~40 turns. Every move should be considered carefully. It consists of:
- 1. e4 a6
- Opposite-side castled King. Both players attack on opponent's king
- Black wins with a knight checkmate

Output the PGN at the end.

(思考 76 秒)

[Event "Intense GM Battle"]
[Site "Unknown"]
[Date "2023.10.01"]
[Round "?"]
[White "GM White"]
[Black "GM Black"]
[Result "0-1"]
[Opening "St. George Defense"]

1. e4 a6
2. d4 b5
3. Nf3 Bb7
4. Bd3 e6
5. O-O c5
6. c3 Nf6
7. Re1 cxd4
8. cxd4 d5
9. e5 Nfd7
10. Nbd2 Nc6
11. Nf1 Qb6
12. Be3 Be7
13. Ng3 O-O-O
14. a4 b4
15. Nd2 Kb8
16. Nb3 a5
17. Rc1 Rc8
18. Qe2 f6
19. exf6 gxf6
20. Bf4+ e5
21. Bf5 exf4
22. Bxd7 fxg3
23. Bxc8 gxh2+
24. Kh1 Rxc8
25. Qe6 Qd8
26. Nc5 Bxc5
27. dxc5 Nd4
28. Qe3 Nf5
29. Qf4+ Ka8
30. Qxf5 d4
31. Re6 Qg8
32. f3 Qg3
33. c6 Rg8
34. cxb7+ Kb8
35. Re2 d3
36. Rc8+ Ka7
37. Qxa5+ Kxb7
38. Re7+ Kxc8
39. Qa8+ Qb8
40. Qc6+ Kd8
41. Qd7# 0-1

4

寻找若干五个汉字的短句/短语,其满足:一、二、三、四、轻声各自出现恰好一次,顺序不重要。(例如,如果只要求一二三四声各自出现恰好一次,「番茄炒蛋」、「妖魔鬼怪」都是合法的答案。)

结果(思考 95 秒):

符合条件的五字短句或短语如下:

1. **小孩在哭呢**  
   *小*(三声),*孩*(二声),*在*(四声),*哭*(一声),*呢*(轻声)

2. **你吃饭了没**  
   *你*(三声),*吃*(一声),*饭*(四声),*了*(轻声),*没*(二声)

3. **好孩子吃饭**  
   *好*(三声),*孩*(二声),*子*(轻声),*吃*(一声),*饭*(四声)

4. **快来帮我吧**  
   *快*(四声),*来*(二声),*帮*(一声),*我*(三声),*吧*(轻声)

5. **他想要什么**  
   *他*(一声),*想*(三声),*要*(四声),*什*(二声),*么*(轻声)

6. **我不知道啊**  
   *我*(三声),*不*(二声,因后接一声变调),*知*(一声),*道*(四声),*啊*(轻声)

这些短语中,一、二、三、四声和轻声各出现一次,符合题目要求。

除了最后一个以外全都正确。

5

写一段汉语文本,其满足:一、二、三、四声的字轮流出现,四个一循环。(例如,「孙行者道,“雕虫小技!山前海上,仙石久孕;花繁果坠,生来好命。千锤百炼,攀云踩雾;呼朋引伴,金迷纸醉。天随我愿,召来宝殿;封爵点圣,声名显赫。”」)

结果(思考 47 秒):

以下是一段汉语文本,满足一、二、三、四声的字轮流出现:

天来我爱,花来你见。风来我去,星明他望。

这就不太行()。

6

请你给「烟锁池塘柳」对下联,要求:
- 金木水火土作为偏旁,各自都恰好出现一个字中(就像上联一样)【必须严格满足】
- 句子通顺(尝试时考虑词性)【必须满足】
- 平仄对应【相对宽松】
- 意境可以接近(如:桃燃锦江堤),也可以有差距(如:炮镇海城楼),甚至偏向幽默(如:深圳铁板烧、锈堵油烟机)。【完全自由】

给出多个候选的、**原创**的下联,不要抄袭例子。

结果(思考 94 秒):其给出了若干个类似于「桃燃锦江堤」的下联,不过有个「梅照银泉岭」的下联挺有趣。

2024/9/13 23:20
加载中...