百度轩辕大磐转模型


作者|知行
国产大模型与观众见面需要走几步?
1、亮名字;发通稿;2、办发布会,现场演示技(录)术(屏);3、公布网站,收集内测名额(发垃圾短信)。
俗话说,不怕生错命,就怕安错名。有投资人就说,大模型起名就是AI创业至为关键的一步。
在刚刚过去的世界人工智能大会上,一位媒体人一口气拍了三十多张大模型的照片,并称看到最后,已经不认识大模型三个字了。
更绝的是,这些大模型的名字一个比一个难念,一个比一个仙气飘飘,不熬废几个文联老干部肯定想不出:从上古神话人物到圣贤百家,从借鉴GTP到原创的英文名,从动植物到电影角色,"悟道·天鹰"、"通义千问"、"轩辕"、"海河·谛听"、"元乘象"、"文心一言"、"序列猴子"等各类名字不断出现在各类社交平台的头版头条中,上演了一场现实版的“诸神之战”。
相比这些妖艳的科技民企,中特估先锋中国电信的TeleChat以及农业银行的ChatABC则明晃晃的借鉴了鼻祖ChatGPT,倒显出另一种自信和坦然。
仔细分析这些大模型的名字,我们也找到了不少规律,尤其作为AI时代的“基座”,大模型名字就像父母对孩子起名一样,可以说代表着企业的价值和期待,以及在品牌传播中对自己的自信程度。
命名规律
01旧词新组
与近些年儿童爱从《诗经》《离骚》中找字取名为“梓轩”、“沐羽”、“歆若”类似,大模型厂商也偏爱从古文典籍中取词再造新词,让高科技与传统文化相遇,彰显其与老干部厚重审美的同频与不觉明厉的野心。
例如,百度的“文心一言”定位于人工智能基座型的赋能平台,有文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成等能力。
百度CTO王海峰曾解释过“文心一言”的含义:“文”是语言文字,“心”是用心理解,“文心”指致力于理解和运用语言文字的自然语言理解模型,同时也呼应了《文心雕龙》,寓意用雕缕龙纹一样精细的功夫去研究语言文字的内涵和魅力;“一言”既有“一言为定”的寓意,也有对人机之间“你一言我一语”流畅沟通的殷切期盼。
阿里的大模型通义千问中,“通义”取自《汉书》中的“天地之常经,古今之通义也”,有“普遍适用的道理与法则”之意。官方解释“千问”是“千万次的问,千万的学问,能问出千问的一定是真爱,能回答千问的也一定是真有学问,以及AI和我们一样,都有千万次交互的热情”。
实话说,到现在互联网上还有很大一批人以为“通义千问”是那个“众里寻他千百度”的百度开发的。
知乎的“知海图”通过在大海中行业的隐喻,表达了其大模型擅长为创作者、讨论场、信息赋能的特点。
云知声CEO黄伟则解释,“山海大模型”的名称由来是因其有庞大的训练数据和海纳百川的能力。
02请出历史人物,上演现代版“封神演义”
用上古神话人物命名大模型,代表者是华为。7月7日,华为云CEO张平安介绍盘古大模型时,喊出口号“不做诗,只做事”,正式给盘古大模型定调。这也意味着盘古主攻的方向是以视觉为主的数字化赋能场景,即针对行业的B端业务,例如,煤矿、水泥、电力、金融、农业等,而非C端场景。
网上有不少用户对华为的宣传方向产生了质疑,反驳盘古大模型是在用贬低GPT的方式,掩饰其在内容生成与知识丰富面上的不足。不过这也给了其他大模型公司的宣传拓展了新思路——“不擅长的方向,说它无用即可,我会的就是最好的”。
硅基智能推出了炎帝大模型,专注于数字人生成领域。关于取名,硅基称希望可以继承炎帝开拓进取、顽强不息的精神和使命,称要用AI技术“复活”炎帝的精神。
度小满请出了炎帝的结盟者轩辕(即黄帝),推出了针对中文金融领域的开源对话大模型轩辕。
粤港澳大湾区数字经济研究院则推出了姜子牙模型系列,包括通用人工智能模型封神榜大模型与二郎神大模型。接下来,三圣母大模型还会远吗?
孟子有云:“以力服人者,非心服也,力不赡也”;“权,然后知轻重;度,然后知长短”。澜舟科技认为这句话极好的体现了AI的实用性,打造了孟子大模型。
达观的“曹植”大模型,名字取自曹植七步成诗的典故,是一个专注于金融、政务、制造等垂直领域的大语言模型,称要让大模型上演现实版的“七步成诗”。
03古词新用
面对大模型混战的状态,马化腾在腾讯2023股东大会上说,“我们在埋头研发,但并不急于把半成品拿出来展示。”相较于其他互联网公司的高调,腾讯一直如高人般“低调”,大模型的名字也颇有高人之风。
腾讯的AI大模型名为“混元”,取自道家的“混元即无极,无极生太极”,看起来磅礴大气,万物皆包。混元大模型也覆盖了NLP、CV、多模态等基础大模型以及众多行业/领域大模型,具备通用功能。
网易伏羲的大模型放弃了使用宏大的古代神话人物命名,转用古词后,其名字不仅显得雅致,而且也有了独特含义。具体来说,大语言模型“玉言”,服务领域主要是图文、音乐等;AI作画模型“丹青”,用以文生图;教育场景下的大模型“子曰”,用于作业批改等。一眼看过去便知道网易大模型的应用场景。
继书生大模型后,商汤科技发布了“日日新SenseNova”大模型体系。商汤科技联合创始人徐立谈到名字含义时说:“寓意‘苟日新、日日新、又日新’,希望在模型的迭代速度及处理问题的能力上可以日日更新,不断解锁AGI的更多可能。”
北京语言大学推出了适用于国际中文教育领域的大模型桃李。
星环科技推出了面向金融量化领域的大模型无涯,与面向数据领域的大模型求索。
中国移动发布了面向政务和客服领域的九天大模型。
蚂蚁集团真正在研发大模型“贞仪”,名字来源于中国古代的一种测量仪器,象征着精确、公正和智慧。
最为霸气的名字,当属国家超级计算天津中心研发的“天河天元大模型”,称要在生成式智能的大算力、大数据、大模型上走出一条完整的信创路线,系统支撑中国生成式智能创新发展。
04GPT+垂类专属名称
GPT是生成式预训练Transformer模型的缩写,也是最为知名的大模型之一。虽然GPT被国内竞品调侃为“狗屁通”,但大模型的名字中带有GPT可以省去不少建设用户心智的过程,很多垂类大模型会直接使用 GPT+垂类专属名称的命名方式,强调自己的垂类专业性。目前,这类命名占到了大模型总数的五分之一左右。
京东即将发布的新一代大模型“ChatJD”,定位为产业版本ChatGPT。
360推出的致力于以文本/对话的方式解决视觉任务的大模型SEEChat。
理想汽车自家研发的认知大模型Mind GPT,定位为用车“管家”。
中国电信的TeleChat主要解决数据中台产品、智能客服领域。
农业银行发布了金融AI大模型ChatABC。
学而思发布了针对数学的大模型MathGPT,服务于数学爱好者和科研机构。
左手医生推出了医疗专业GPT模型左医GPT。
印象笔记推出了面向工作和知识场景的大象GPT。
国产大模型的诞生之日也有文章可作。今年6月6日,数说故事发布了国内首个专注Social领域的商业大模型“SocialGPT,昵称为“社牛”大模型。厂商称,选择在这个“666”的特别时间发布,也预示着“SocialGPT”强大的“社交”出圈能力。神有诞辰,大模型也有了值得纪念的生日。
此外,高校偏爱此类命名方式,比如东北大学的TechGPT,功能以知识图谱构建、阅读和文本理解等自然语言处理为主。
华东师范大学的专注于心理健康与危机干预EmoGPT,专注于教学教育的EduChat。
北京信息工程大学的针对法律垂类的大模型ChatLaw。
华南理工大学的针对心理健康的大模型SoulChat。
05道家学派“大爆发”
大模型的训练需要大量的计算资源、数据和优化算法,以逐步改善模型的性能和能力。这个过程类似于古代炼丹术士。炼丹术能让炼丹者获得超凡能力的实践,这与大模型潜在的巨大能力不谋而合。不少场合里,大模型也被称为“炼丹”,有了些许道教意味。也许是因为这个原因,国内很多大模型的名字也充满了道家的仪式感。
中科院推出了紫东太初全模态大模型,称要打造全栈国产化通用人工智能底座。紫东常为紫气东来之意,与老子相关;"太初"出自《庄子·天地》,表示宇宙的最初和最原始的状态。中科院自动化研究所所长徐波曾解释过该名字的含义,“相当于人工智能走向人类智能的一个混沌初开之际,也是感知智能走向通用智能重要的第一步。”
智源人工智能研究院推出了悟道·天鹰大模型。"悟"指领悟、觉悟,"道"则代表了道家哲学中的道,悟道"是道家常用语。
智子引擎推出了"元乘象"大模型,"元"在道家中常用来指代宇宙的起源或至高无上的存在。"乘"在道家中通常指代乘载或依附。"象"则表示形象、符号或象征。
阿里达摩院推出了超算基础实现的“脑级人工智能模型”八卦炉,让“炼丹”走进现实。
06其他大模型:中医或地名
中医文化源远流长,留下了诸多优秀的故事典籍传奇人物,这也让中医垂类大模型的命名别具一格。比如哈尔滨工业大学的本草大模型。
华南理工大学推出了服务于生活健康的扁鹊大模型。
香港中文大学(深圳)训练并开源了医疗大模型华佗GPT。
智慧眼推出针对医疗领域的砭石大模型。“医源于砭”出自《山海经》,砭石,是古代的医疗工具。
大模型浪潮中,不乏地方高校的身影。这些大模型的命名偏爱地名+的形式,例如慧言科技+天津大学研发的侧重于语音语言的的“海河·谛听”大模型。西北工业大学与华为联合研发的首个面向飞行器的流体力学大模型“秦岭·翱翔”大模型。
从名字窥探行业
做大模型的公司,基本可以分为互联网巨头、科研院所、AI公司与行业公司几大类。整体而言,各家在取名上的不同策略,也彰显了其在大模型赛道上的不同定位。
互联网公司偏爱旧词新组和古词新用类命名方式,有利有弊。
旧词新组的名字对用户来说陌生且拗口,古词新用则常常让用户摸不着头脑,且搜索时因为谐音的缘故也常常搜不到。从传播和转化效率的角度上考虑,这两类名字性价比低,效率低。
但是这些古代词和字常常具有深厚的文化底蕴和象征意义,虽不实用,但在与用户建立情感链接上具备独特的辨识度,占领了用户心智后,产品容易在市场中脱颖而出,形成差异化竞争优势。尤其是这几年的互联网频频遭遇反垄断和金融调查,更是加剧了互联网公司想靠近中国古代传统文化的“寻根”心理。
国内的互联网大厂普遍不差钱,拥有大量的C端用户,有着足够的渠道优势和时间精力让新的品牌名占领用户心智。
互联网公司以通用大模型为主,可以赋能各类行业,具体功能有待开发。这使得互联网公司有必要给大模型塑造出足够广义且全新的品牌形象,为以后的发展铺路。
对于中小型科技公司而言,被用户看到迅速变现比品牌建设更实在有用。因此,它们更偏爱GPT+垂类专属名称的命名方式。
通过将GPT与特定领域的专属名称结合,科技公司可以迅速将产品的技术基础和功能特点传递给用户,让用户对产品的功能和应用场景有所了解,在目标用户中建立品牌认知和联想,也能增加被用户了解和搜索到的概率。
目前,国内的中小型AI公司更多的是做领域模型,与行业任务对齐,应用于企业生产。
哲学的尽头是科学,神话是人类对于未来的想象。某种程度上,道家对知识和智慧的探索,对理想人生的追求,与AI技术的发展不谋而合。从这个角度看可以很好的理解,国内的科研院所为何爱用道家术语命名大模型。
使用神话、历史人物来为大模型命名,可以暗示着模型的特定能力或目标,帮助公司更好地向公众传达模型的主要特点。但如果该模型未能达到该能力,则很容易反噬产品为公司带来长久的负面影响。
地方高校使用标志性的地名命名大模型,可以提高地方的认知度,也能看到地方政府想在大模型浪潮中卡位的苗头。
不过这里面的异类当属中特估先锋中国电信的TeleChat以及农业银行的ChatABC,二者明晃晃的借鉴了鼻祖ChatGPT,倒显出另一种自信和坦然。
名字是产品传递给消费者的第一印象,与企业的品牌息息相关。国产大模型五花八门的名字,颇有些春秋战国时代“百花齐放、百家争鸣”的局面,这也在一定程度上反映了行业欣欣向荣的发展情况。但大模型归根结底是关于生产力的革命,如何应用于生产才是大模型的核心竞争力,也是名字想占领用户心智的根本所在。返回搜狐,查看更多
责任编辑:
最新开源的国产金融行业大模型——度小满“轩辕70B”,来了!模型简介:轩辕是国内首个开源的千亿级中文对话大模型,同时也是首个针对中文金融领域优化的千亿级开源对话大模型。轩辕在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,它不仅可以应对通用领域的问题,也可以解答与金融相关的各类问题,为用户提供准确、全面的金融信息和建议。开源地址链接:https://github.com/Duxiaoman-DI/XuanYuan度小满近日推出全新的金融行业大模型——“轩辕70B”,标志着金融大模型发展迈向了全新的高度。数据显示, 在C-Eval榜单上,XuanYuan-70B的总成绩达到71.9分;在CMMLU榜单中,以71.05分的高分位居榜首,在两大权威榜单上的所有开源模型中排名第一,也是国内首个同时在两大权威榜单排名第一的金融大模型。在中文任务评测C-Eval和CMMLU榜单中名列开源首位。公开访问的模型此外,“轩辕70B”的强项在于其专业的金融能力,受益于海量金融专业语料库的训练,无论是注册会计师考试(CPA)、银行/证券/保险/基金/期货从业资格、理财规划师、经济师等金融领域十大类权威考试,都能提供专业的支持和解答。总结来看,“轩辕70B”拥有以下特点:1.首个拥有70B参数量级,并且上下文长度能达到8k以上的开源大模型2.在预训练阶段融入了大量的专业金融语料,以实现在维持中英文通用能力的同时,显著提升金融专业性能。3.模型训练采取了一系列的加速优化策略。在100台8卡A800(80G)的GPU集群中,“轩辕70B”在8192的上下文长度下能够达到340tokens/s/gpu的速度,TFLOPS达190,训练效率达到领先水平。而且,这款金融大模型目前已在开源社区进行了全面开放,包括模型权重和训练语料,为整个金融行业提供了一个全新的、更高效的中文基座模型,后续用户也可以根据自己的需求进行自定义的指令微调。下面我们来看一下“轩辕70B”的表现。(一)卓越的通用能力,多个测评榜单领先1.C-Eval 是一个全面的中文基础模型评估基准。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别2.CMMLU 是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。度小满数据智能应用部总经理、技术委员会执行主席杨青表示:度小满将继续忠实于开源的理念,致力于为金融机构和研究团队提供高性能、易用的金融大模型。我们仍将不断优化轩辕70B的效果,并逐步推出‘轩辕70B-Chat’模型和‘轩辕70B-16k’的版本,以满足不同金融场景的需求。人工进行主观测试,“轩辕70B”在各类问题都有良好的表现。a. 数学计算:b.代码:c. 安全性:(二)领先的金融实力度小满专注于解决大模型在金融领域应用的核心难题。传统的通用大模型在金融场景中的局限性主要体现在对专业术语、业务逻辑和公式计算等的缺乏深入理解,从而使其在多数金融问题上表现不佳。这一挑战进一步凸显了构建针对金融行业的专用大模型的迫切性。在金融应用场景中,模型的效用往往取决于其对于金融专业知识的深度掌握。金融行业涉及多个子领域,包括但不限于理财、信贷、保险、和投资。为了全方位评估模型在这一特定环境中的性能,“轩辕70B”特地制定了一套中文金融领域知识评估数据集。这一数据集涵盖了10个金融大类以及36个金融小类,包括7173个单项选择题,全面覆盖了从注册会计师(CPA)考试到银行、证券、保险、基金、期货从业资格,再到理财规划师、经济师等多个权威金融认证。结果显示,“轩辕70B”在金融专业知识方面表现卓越,全面超越了各大开闭源模型,这一结果不仅验证了模型在金融各子领域的深度理解和应用能力,也标志着它能为金融行业提供一体化、系统性的专业支持。该评测数据集也已经对外开放,以供社区自行评测。为更生动地展示“轩辕70B”的金融实力,以下举例几个应用实例:a.金融知识类该模型在回答金融知识类问题,如“金融监管治理的四大要素”时,不仅答案准确,还深入解析了每个要素的具体含义和重要性。b.金融计算类金融行业有大量的计算场景。在处理金融计算类问题时,该模型不仅提供了准确答案,还一步步展示了其逻辑推理过程,证明了其在复杂金融推理任务中的强大能力。“轩辕70B”不仅开源了模型本身,还额外提供了一个60GB的高质量金融专用语料库,并已对外开放下载。

我要回帖

更多关于 轩辕大磐转 的文章

 

随机推荐