栏目分类
PRODUCT CENTER

马来西亚#文爱

你的位置:免费色情电影 > 马来西亚#文爱 > 糗百网上有个成人版 微软论文不测「走光」,OpenAI参数全泄密!GPT-4o仅200B,o1 300B

糗百网上有个成人版 微软论文不测「走光」,OpenAI参数全泄密!GPT-4o仅200B,o1 300B

发布日期:2025-01-03 01:23    点击次数:100

糗百网上有个成人版 微软论文不测「走光」,OpenAI参数全泄密!GPT-4o仅200B,o1 300B

新智元报谈糗百网上有个成人版

裁剪:桃子 好困

反差 眼镜

【新智元导读】穿越重重迷雾,OpenAI模子参数终被揭开!一份来自华盛顿大学医疗论文,不测曝光了GPT-4、GPT-4o、o1系列模子参数。让扫数东谈主畏缩不已的是,GPT-4o mini仅8B。

谁能思到,微软在一篇医学界限的论文里,的确把OpenAI模子的参数全「曝光」了!

GPT-4参数约1.76万亿

GPT-4o参数约2000亿

GPT-4o mini参数约80亿

o1-preview参数约3000亿

o1-mini参数约1000亿

Claude 3.5 Sonnet参数约1750亿

盘考东谈主员:参数均为估算值

让扫数东谈主难以置信的是,GPT-4o系列的参数如斯少,mini版以致独一8B。

有网友意料,4o mini是一个大致有40B参数的MoE模子,其中激活参数为8B。

因为,他发现4o mini通晓比8B模子学到了更多的知识,同时辰运行速率很快。

此外,由于GPT-4o是MoE架构,是以OpenAI可能在mini版块上使用了沟通的架构。

另有网友惊诧地暗意,Claude 3.5 Sonnet参数竟等同于GPT-3 davinci。

这篇来自微软、华盛顿大学团队的论文中,发布了一个具有里程碑好奇的评估基准——MEDEC1,专为临床笔记医疗乌有检测和篡改而联想。

论文地址:https://arxiv.org/abs/2412.19260

这项基准涵盖了五种类型的乌有,包括会诊、照看、调养、药物调养和致病因子。

MEDEC的数据来源,采集了来自3家好意思国病院系统的488篇临床笔记,合计3,848篇临床文本。

值得一提的是,这些数据此前从未被任何LLM战役过,八成确保评估真确性可靠性。面前,该数据集已被用于MEDIQA-CORR分享任务,以评估17个参与系统的进展。

得到数据集MEDEC后,盘考团队对面前起初进的模子,包括o1-preview、GPT-4、Claude 3.5 Sonnet、Gemini 2.0 Flash等,在医疗乌有检测和篡改任务中进行了全面测试。

同期,他们也邀请了两位专科医师进行沟通的乌有检测任务,最终将AI与东谈主类医师甘休进行PK。

甘休发现,最新LLM在医疗乌有检测和篡改方面进展不俗,但与东谈主类医师比拟,AI已经有着通晓的差距。

这也从侧面印证了,MEDEC是一个具有充分挑战性的评估基准。

论文讲了什么?

来自好意思国医疗机构的一项拜访盘考披露,每5位阅读临床笔记的患者中,就有一位答复发现了乌有。

其中40%的患者觉得这些乌有是严重的,最常见的乌有类别与面前或昔时的会诊关系。

与此同期,如今越来越多的医学文档任务(比如,临床笔记生成)均是由LLM去完成。

关联词,将LLM用于医学文档任务的主要挑战之一,容易产生「幻觉」,输出一些造谣本体或乌有信息,平直影响了临床决策。

毕竟,医疗无小事,一字之差可能关乎死活。

为了镌汰这些风险,并确保LLM在医学本体生成中的安全性,严格的考证门径至关紧迫。这种考证需要关系的基准来评估是否不错通过考证模子终了完竣自动化。

在考证经由中,一个短处任务是,检测和篡改临床文本中的医学乌有。

站在东谈主类医师的角度来接洽,识别和篡改这些乌有不仅需要医学专科知识和界限布景,未必还需要具备丰富的警戒。

而此前,大多量对于(学问性)乌有检测的盘考麇集合在通用界限。

为此,微软华盛顿大学团队引入了全新数据集——MEDEC,并对不同的跳跃的LLM(比如,Claude 3.5 Sonnet、o1-preview和Gemini 2.0 Flash)进行了试验。

作家称,「据咱们所知,这是首个公开可用的临床笔记中自动乌有检测和篡改的基准和盘考」。

MEDEC数据集

MEDEC数据集一共包含了3,848篇来自不同医学专科界限的临床文本的新数据集,标注任务由8位医学标注员完成。

如前所述,该数据集涵盖了五种类型的乌有,具体包括:

会诊(Diagnosis):提供的会诊不准确

照看(Management):提供的照看下一步行径不准确

药物调养(Pharmacotherapy):推选的药物调养不准确

调养(Treatment):推选的调养决策不准确

致病因子(Causal Organism):指出的致病生物或致病病原体不准确

(注:这些乌有类型是在分析医学委员会测验中最常见的问题类型后采用的。)

上图1展示了,MEDEC数据集合的示例。每篇临床文本要么是正确的,要么包含一个通过以下两种门径之一创建的乌有:门径#1(MS)和门径#2(UW)。

数据创建门径#1(MS)

在此门径中,作家诈欺了MedQA联贯中的医学委员会测验题目。

4位具有医学布景的标注员参考这些测验中的医学确认和多项聘请题,在查对原始问题和谜底后,将乌有谜底注入场景文本中,比肩斥包含乌有或信息腌臜的问答对。

医学标注员受命以下准则:

使用医学确认多项聘请题,将乌有谜底注入场景文本中,并创建两个版块,分别将乌有注入文本的中间或末尾。

使用医学确认多项聘请题,将正确谜底注入场景文本中,以生成正确版块,如图2所示(包含正确谜底的生成文本)。

手动检讨自动生成的文本是否诚实于原始场景过火包含的谜底。

最终,盘考东谈主员从两个不同的场景(乌有注入文本中间或末尾)中,连忙为每篇笔记聘请一个正确版块和一个乌有版块,构建了最终数据集。

数据创建门径#2(UW)

这里,作家使用了华盛顿大学(UW)三家病院系统(Harborview Medical Center、UW Medical Center 和 Seattle Cancer Care Alliance)从2009年-2021年间的真确临床笔记数据库。

盘考东谈主员从中17,453条会诊维持记载中,连忙中式了488条,这些记载追思了患者的病情并提供了调养依据。

4名医学生构成的团队手动向其中244笔记载中引入了乌有。

在运转阶段,每笔记载齐标注了些许候选实体,这些实体由QuickUMLS 4识别为结伴医学谈话系统(UMLS)的办法。

标注员不错从这些候选实体中聘请一个精真金不怕火的医学实体,或者创建一个新的文本片断(span)。随后,该片断被标记为五种乌有类型之一。

接着,标注员用雷同但不同的办法替换该片断,乌有版块由标注员自行联想或通过基于SNOMED和LLM的门径生成。这种门径向标注员惨酷替代办法,但不依赖输入文本。医学标注员手动细目最终注入文本中的办法或乌有。

在此经由中,每个乌有片断必须与临床笔记中的至少两个其他部分相矛盾,同期标注员需为每个引入的乌有提供合理的解说。

作家使用了Philter5器用对注入乌有后的临床笔记进行自动去标记化处理。

随后,每条笔记由2名标注员零丁审查以确保去标记化的准确性。对于任何不合,由第3名标注员进行裁定。

下表1展示了锻练集、考证集和测试集的诀别情况。其中,MS锻练集包含2,189篇临床文本,MS考证集包含574篇临床文本,UW考证集包含160篇临床文本。

MEDEC测试集由MS联贯的597篇临床文本和UW数据集的328篇临床文本构成。测试集合,51.3%的笔记包含乌有,而48.7%的笔记是正确的。

下图3展示了数据集合乌有类型的散播情况(会诊、照看、调养、药物调养和致病因子)。

医疗乌有检测与篡改门径

为了评估模子在医疗乌有检测与篡改任务中的进展,作家将该经由诀别为三个子任务:

子任务 A:掂量乌有标志(0:若是文本莫得乌有;1:若是文本包含乌有)

子任务 B:索求包含乌有的句子,用于已标记乌有的文本(-1:若是文本莫得乌有;句子ID:若是文本包含乌有)

子任务 C:为包含乌有的标记文本生成修正后的句子(NA:若是文本莫得乌有;生成的句子/修正本体:若是文本有乌有)

为了进行比较,他们基于LLM构建了处理决策,使用了两种不同的提醒词来生成所需的输出,以评估模子在这三个子任务中的进展:

提醒词#1:

以下是对于又名患者的医疗确认。你是又名熟悉的医师,正在审阅这些临床文本。文本要么是正确的,要么包含一个乌有。文本中每行是一句话。每行以句子ID来源,后跟一个竖线标记,然后是需要检讨的句子。检讨文本中的每一句话。若是文本正确,则复返以下输出:CORRECT。若是文本中存在与调养、照看、病因或会诊关系的医疗乌有,则复返包含乌有的句子ID,后跟一个空格,然后是修正后的句子。发现并篡改乌有需要用到医学知识与推理身手。

提醒词#2:与第一个提醒词雷同,但包含一个从锻练集合连忙中式的输入和输出示例:

以下是一个示例。 0 又名35岁的女性向她的医师诉说手部疾苦和僵硬。1 她说,疾苦始于6周前,在她克服了一次轻细的上呼吸谈感染几天后入手。(……) 9 双手的双侧X线披露左手第五掌指要道周围轻细的要道周围骨质减少。10 予以甲氨蝶呤。 在这个示例中,乌有出面前句子编号10:「予以甲氨蝶呤」。修正为:「予以泼尼松」。输出为:10 1 Prednisone is given。示例扫尾。

试验与甘休

谈话模子

盘考东谈主员对几种近期的谈话模子进行了试验:

Phi-3-7B:具有70亿参数的小谈话模子(SLM)。

Claude 3.5 Sonnet(2024-10-22):Claude 3.5系列的最新模子(≈1750亿参数),在多个编码、视觉和推理任务中展现出了SOTA的性能。

Gemini 2.0 Flash:最新/起初进的Gemini模子。其他谷歌模子(如专为医疗联想的Med-PaLM,5400亿参数)尚未公开。

ChatGPT(≈1750亿参数)和GPT-4(≈1.76万亿参数),是「高智能」模子。

GPT-4o(≈2000亿参数),提供「GPT-4级别的智能但速率更快」,以及专注于特定任务的小模子GPT-4o-mini(gpt-4o-2024-05-13)(≈80亿参数)。

最新的o1-mini(o1-mini-2024-09-12)(≈1000亿参数)和o1-preview(o1-preview-2024-09-12)(≈3000亿参数),具备「全新AI身手」,可处理复杂推理任务。

值得醒目的是,大多量模子的参数目为估算值,主要用来匡助剖析模子性能。少数模子(如Phi-3和Claude)需要进行少许自动后处理来修正神气问题。

甘休

下表2展示了,由医疗医师人动标注的甘休以及使用上述两个提醒词的多个最新LLM的甘休。

在乌有标志(error flag)检测方面,Claude 3.5 Sonnet以70.16%的准确率优于其他门径,在乌有句子检测中更是达到了65.62%的准确率。

o1-mini在乌有标志检测中,拿下了第二高的准确率69.08%。

在乌有篡改方面,o1-preview以0.698的详尽评分(Aggregate Score)赢得了最好进展,远超第二名GPT-4 [P#2] 的0.639。

下表3展示了,在每个数据集(MEDEC-MS和MEDEC-UW)上的乌有检测准确率和乌有篡改评分。其中,MS子集对Claude 3.5 Sonnet和医师#2来说更具挑战性,而UW子集对o1-preview和医师#1来说更具挑战性。

甘休标明,与医师的评分比拟,最新的LLM在乌有检测和篡改方面进展细致,但在这些任务中仍然不足东谈主类医师。

这可能是因为,此类乌有检测和篡改任务在麇集和医学教科书中相对荒僻,也等于,LLM在预锻练中碰到关整个据的可能性较低。

这一丝不错从o1-preview的甘休中看出,该模子在基于公开临床文本构建的MS子集上的乌有和句子检测均分别取得了73%和69%的准确率,而在独到的UW联贯上仅取得了58%和48%的准确率。

另一个要素是,任务需要分析和篡改现存的非LLM生成的文本,这可能比从0入手草拟新谜底的难度更高。

下表4展示的则是,每种乌有类型(会诊、照看、调养、药物调养和病因微生物)的乌有检测调回率和乌有篡改评分。

不错看到,o1-preview在乌有标志和句子检测中,调回率显贵高于Claude 3.5 Sonnet和两位医师。但在招引准确率甘休(见表2)之后发现,医师在准确率上进展更佳。

这些甘休标明,模子在精准度方面存在显贵问题,何况与医师比拟,AI在在许厚情况下齐过度掂量了乌有的存在(即产生了幻觉)。

另外,甘休还披露,分类性能与乌有篡改生成性能之间存在排行各别。

举例,在扫数模子中,Claude 3.5 Sonnet在乌有标志和句子检测的准确率上排行第一,但在篡改生成评分中排行终末(见表 2)。

此外,o1-preview在扫数LLM中的乌有检测准确率排行第四,但在篡改生成中排行第一且遥遥跳跃。相同的花样也不错在两位医疗医师之间不雅察到。

上述雅瞻念,不错通过篡改生成任务的难度来解说,同期也可能反馈了面前SOTA的文本生成评估方针在捕捉医学文本中的同义词和相似性方面的局限性。

表5展示了参考文本、医师标注以及由Claude 3.5 Sonnet和GPT模子自动生成的篡改示例。

举例,第二个示例的参考篡改标明患者被会诊为Bruton无丙种球卵白血症,而LLM提供的正确谜底提到了X-连锁无丙种球卵白血症(该荒僻遗传疾病的同义词)。

此外,一些LLM(如Claude)提供了更长的谜底/篡改,并附上了更多解说。雷同的雅瞻念也出面前医师的标注中,其中医师#1提供的修正比医师#2更长,而两位医师在某些示例/案例中存在不应承见,这反馈了由不同医师/巨匠撰写的临床笔记在立场和本体上的各别。

对于医疗乌有检测和篡改的关系盘考下一步,还需要在提醒词中引入更多示例并进行示例优化。

作家先容

Wen-wai Yim

Wen-wai Yim是微软的高档应用科学家。

她在UCSD赢得生物工程学士学位,并在华盛顿大学赢得生物医学与健康信息博士学位,盘考标的包括从临床和辐射学笔记中索求临床事件以及进行癌症分期掂量。

此外,还曾在斯坦福大学担任博士后盘考员,建树用于从解放神气临床笔记中索求信息的门径,并将这些信息与电子病历中的元数据相招引。

她的盘考风趣包括从临床笔记和医学对话中进行临床当然谈话剖析,以及从结构化和非结构化数据生成临床笔记谈话。

Yujuan Fu

Yujuan Fu是华盛顿大学医学信息专科的博士生。

此前,她在赢得电子与筹办机工程学士学位,在密歇根大学赢得数据科学学士学位。

盘考界限是面向健康界限的:通过指示微调大谈话模子,包括信息抽取、摘抄、学问推理、机器翻译以及事实一致性评估。

Zhaoyi Sun

Zhaoyi Sun是华盛顿大学生物医学与健康信息学专科的博士生,附庸于UW-BioNLP团队,由Meliha Yetisgen博士指示。

此前,他在南京大学赢得化学学士学位,并在康奈尔大学赢得健康信息学硕士学位。

他的盘考要点是将LLM应用于医疗问答和临床笔记中的乌有检测,风趣是招引生物医学图像与文本的多模态深度学习盘考,想法是升迁当然谈话处理本领在临床界限中的应用效力和后果。

Fei Xia

Fei Xia是华盛顿大学谈话学系的老师,亦然华盛顿大学/微软研讨会的结伴组织者。此前,曾在IBM T. J. Watson盘录取心担任盘考员。

她在北京大学筹办机科学系赢得学士学位,并在宾夕法尼亚大学筹办与信息科学系赢得硕士和博士学位。

在宾大时辰,她是汉文树库技俩的团队认真东谈主,亦然XTAG技俩的团队成员。博士论文导师是Martha Palmer博士和Aravind Joshi博士。

参考云尔:

https://x.com/koltregaskes/status/1874535044334969104

https://arxiv.org/pdf/2412.19260