国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类

空調產業生態的另一面 中小企業迷局何解?海信洗衣機接入日本量販巨頭Edion 日本智能家居普及率僅為13%全球首發天璣8500!REDMI Turbo 5系列陸續備案史上最薄Mate!華為Mate 70 Air要用等深四曲屏、最高16GB內存Adobe Indigo相機應用更新 初步支持iPhone 17系列夏普海外推出 XP-A175U 旗艦投影儀,提供 17000 流明亮度聯想旗下摩托羅拉“卷軸拉伸屏”智能手表專利曝光三星推出全新P9 Express固態存儲卡 為次世代游戲與專業創意工作而生追覓進入智能戒指市場,推出首款產品 Dreame Ring金山辦公 2025 年第三季度營收 15.21 億元,同比增長 25.33%影石創新:第三季度營收 29.4 億元,同比增長 92.64%挑戰英偉達,高通發布 AI200 和 AI250 人工智能芯片一加 15丨Ace 6 雙艦齊發,「性能 Ultra」一加 15 售價 3999 元起學術磁場:頂尖科學家論壇賦能腦疾病學術研討!2025WLF臨港·腦疾病大會順利閉幕零代碼上手即用!智元推出機器人內容創作平臺“靈創”Intel進軍ASIC定制服務市場 幾乎放棄AI!三大原因防止與固態電池混淆 知情人士:半固態電池將更名為固液電池NVIDIA N1筆記本CPU新消息:2026年年中推出!外星人先用首款海外商用手機eSIM中國芯!紫光同芯斬獲GSMA認證華為、vivo、OPPO等合作撰寫!中國快充方案成為全球標準:在國際電信聯盟發布
  • 首頁 > 云計算頻道 > 大模型

    科技云報道:AI大模型終于走到了數據爭奪戰

    2023年09月04日 15:17:36 來源:科技云報道

      當前,大模型正處在產業落地前期,高質量的數據,是大模型實現產業化的關鍵要素。

      最近,一項來自Epoch AI Research團隊的研究拋出了一個殘酷的事實:模型還要繼續做大,數據卻不夠用了。

      研究人員預測了2022年至2100年間可用的圖像和語言數據總量,并據此估計了未來大模型訓練數據集規模的增長趨勢。

      結果表明:高質量的語言數據存量將在2026年耗盡,低質量的語言數據和圖像數據的存量將分別在2030年至2050年、2030年至2060年枯竭。

      這意味著,如果數據效率沒有顯著提高或有新的數據源可用,那么到2040年,模型的規模增長將放緩。

      對數據端的建設該重視起來了。

      高質量數據成“搶手貨”

      隨著全球新一輪AI熱潮來臨,大量訓練數據已成為AI算法模型發展和演進的“燃料”。

      從GPT的實驗發現,隨著模型參數量的增加,模型性能均得到不同程度的提高。

      但值得注意的是,通過來自人類反饋的強化學習(RLHF)生成的InstructGPT模型,比100倍參數規模無監督的GPT-3模型效果更好,也說明了有監督的標注數據是大模型應用成功的關鍵之一。

      如果以上預測是正確的,那么毫無疑問數據將成為做模型繼續做大的主要制約因素,AI的進展也會隨著數據量的耗盡而放緩。

      阿里巴巴達摩院基礎視覺團隊負責人趙德麗博士曾在采訪中表示,數據側的建設將會成為每一個做大模型工作的機構必須要考慮的問題,大模型有多少能力,往往取決于有什么樣的數據。

      據趙德麗博士介紹,與文生圖大模型相比,做文生視頻大模型要難得多,原因就在于視頻數據的數量遠比不上文本和圖像,更不要談數據的質量了。相應地,目前已有的文生視頻模型的效果都不盡如人意。

      結合上述研究結果,如果當下的趨勢繼續下去,人類現有的數據庫存一定會耗盡,而且高質量的數據會更少。

      正因如此,一場數據爭奪戰正在拉開序幕。

      目前,Adobe利用其數以億計的庫存照片數據庫構建了自己的人工智能工具套件,名為Firefly。自3月份發布以來,Firefly已被用于創建超過10億張圖像,而Adobe股價已因此上漲了36%。

      一些初創公司也正在蜂擁至這個新領域。今年4月,專注于人工智能的數據庫公司Weaviate融資5000萬美元,估值達到2億美元。

      僅僅一周后,其競爭對手PineCone就以7.5億美元的估值籌集了1億美元資金。

      本月早些時候,另一家數據庫初創公司Neon也獲得了4600萬美元的融資。

      在國內,百度智能云近期也升級了大模型數據服務能力,建設了國內首個專業大模型數據標注基地。百度智能云方面表示,目前已經在全國與各地政府合作,共建了10多個數據標注基地。

      顯然,對數據的爭奪才剛剛開始。

      數據標注再次迎來爆發

      AI大模型帶來了大量需求,與之相伴的是中國數據標注行業的迅速發展。

      招商證券認為,一方面,進入大數據時代后,人們各種行為的電子化、網絡化帶來海量數據,但產生的數據只有1%能被收集和保存,并且收集的數據中90%是非結構化的數據;另一方面,人工智能的興起帶來模型訓練所用結構化數據的巨大需求,數據標注的重要性逐漸突顯。

      有業內人士認為,預計今年10月國內會迎來一波大的類chatGPT大模型的數據需求,而且這是一個海量的需求,以目前國內幾家頭部數據標注公司來看,目前產能還不足以滿足需求。

      艾瑞咨詢數據顯示,包括數據采集、數據處理(標注)、數據存儲、數據挖掘等模塊在內的AI基礎數據服務市場,將在未來數年內持續增長。

      到2025年,國內AI基礎數據服務市場的整體規模預計將達到101.1億元,整體市場增速將達到31.8%(2024-2025年)。

      據iResearch數據,2019年我國數據標注市場規模為30.9億元,預計2025年市場規模突破100億元,年復合增長率達到14.6%。

      隨著數據量的不斷增長和數據結構的不斷變化,數據標注行業涉及的領域也越來越廣泛,特別是在自動駕駛、AIGC等領域內,數據標注需求量極大。

      作為AI大語言模型高質量回答的基礎,數據標注的生產過程主要包括四個環節:設計(訓練數據集結構設計)、采集(獲取原料數據)、加工(數據標注)及質檢(各環節數據質量、加工質量檢測)。

      其中,數據標注需要識別圖像、文本、視頻等原始數據,并添加一個或多個標簽為機器學習模型指定上下文,幫助其做出準確的預測。

      當前,大部分數據標注任務仍然需要人工完成,而且各種數據類型和應用領域都需要相應領域的專業標注員來完成標注任務。

      隨著技術的發展,數據標準行業正在成為半人工智能、半人工化的行業。

      面對大語言模型動輒上百億參數的數據質量控制,需要通過標注平臺將一個個復雜RLHF需求拆成很多個簡單的工作流,讓機器去做預處理,人去做深層的基于理解的反饋,以減少人在簡單問題上的精力消耗,專注在專業問題上的標注。

      業內一般采用主動質檢加被動質檢的方式,前者靠人為去做質檢,后者是靠算法去做一些預識別。

      但目前數據標注工具的準確率部分僅百分之幾,部分準確率則可以達到80%、90%。機器標注的識別率越高,人工需求就會越少,成本、利潤、速度、質量都能更加可控。

      隨著技術不斷發展,未來數據標注行業可能會實現更高的自動化程度,不過應用領域不同,仍然需要一定數量的標注人員來進行標注任務。

      傳統數據標注亟待升級

      值得注意的是,在如今火爆的大模型訓練浪潮中,傳統的數據標注需求,很可能是下降的。

      讓ChatGPT更具有“人味”的關鍵——強人工反饋RLHF,帶來的是另一種更高要求的數據標注需求。

      相關分析顯示,在RLHF環節,模型首先在大數據集上進行預訓練,再與專業的人工智能訓練師進行交互,專業的標注人員會對ChatGPT生成的回答進行標注、評估和反饋,給出一個針對回答的分數或者標簽。

      這些標注數據可以作為強化學習過程中的“獎勵函數”來指導ChatGPT的參數調整,最終幫助模型進行強化學習和不斷優化。

      也就是說,讓ChatGPT“更具人味兒”的精妙之處很可能就在于——它可以利用人工標注的反饋結果不斷優化自身模型,實現更合乎人類思維邏輯的表達。

      但傳統數據標注模式很難滿足RLHF的需求。

      在過去,數據標注公司的主流商業模式以銷售工具系統和標注服務為主。一方面,缺少自有數據很少有出售精準數據集的服務。另一方面,人才升級作為一個系統工程,對數據標注公司的考驗更高。

      在完成這一步后,RLHF訓練還涉及到不少事實判斷和價值判斷。其中,價值判斷涉及到公認的"公序良俗",理論上是更容易拉齊AI認知的部分,事實判斷則涉及各行業Know-How。

      這往往需要行業專業人士出手,不是傳統數據標注員,簡單針對詞性、圖片細節進行標注就能實現的。

      也就是說,要跟上新一代AI浪潮,數據標注公司不僅需要在數據層面進行升級,人才的更新換代同樣重要。

      目前的確已有標注公司開始在內部撰寫《人員提升教程》,他們將在接下來重點培訓標注人員對“升級后”的標注需求理解,以及回答方式的合規性等。

      但是,在專業壁壘非常高的醫療等領域,數據標注仍面臨著人才困境。

      某數據標注公司運營負責人曾表示,“特別是醫療,有些是普通人經過培訓可以標的,有的必須要醫療從業者,這背后的人才招聘難度可想而知。”

      但即便困難重重,也不意味著數據標注公司會立馬進行一波洗牌——至少,在大模型訓練的幾個階段內,初始階段的半監督學習同樣對傳統數據標注存在需求。

      面對大模型和RLHF的機遇,重現大規模投入似乎在所難免。

      有業內人士認為,如果數據標注公司期望在垂直領域做更高層級的數據服務,可能要成立一個全新的產品線。甚至,具備AI研發背景的創始人會是更合適的數據標注創業者。

      面對新一代AI浪潮,沒有人可以躺著掙錢——這是每一次技術迭代沖擊背后,暗中標注好的“價格”。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产日韩精品一区二区_欧美一级片在线播放_久久精品中文字幕电影_久久视频精品在线_亚洲国产成人久久综合一区_久久精品国产精品_国产视频精品免费播放_在线视频中文亚洲_亚洲午夜未满十八勿入免费观看全集_精品亚洲一区二区_国产原创欧美精品_国产色综合天天综合网_九九久久国产精品_欧美极品少妇xxxxⅹ裸体艺术_亚洲国产精品人人爽夜夜爽_尤物九九久久国产精品的分类
    国产精品女同一区二区三区| 欧美精品免费在线| 国产精品人成电影| 欧美性xxxxx极品少妇| 成人国产激情| 日本10禁啪啪无遮挡免费一区二区| 人妖欧美1区| 国产盗摄——sm在线视频| 精品69视频一区二区三区Q| 日韩av电影免费观看高清完整版| 久久久电影免费观看完整版| 日韩欧美国产三级| 日韩av免费网站| av在线加勒比| 91视频www| 欧美视频一区二区三区在线观看| 亚洲三级网页| 精品国产一区二区三区久久久蜜月| 九九精品在线视频| 精品动漫3d一区二区三区免费| 亚洲欧美视频在线| 日韩激情在线| 国产精品系列在线观看| 亚洲成人在线免费| 国产精品你懂的在线欣赏| 亚洲日本一区二区三区在线| 色先锋aa成人| 亚洲精品免费在线| 久久久久久国产精品三级玉女聊斋| 国产精品精品久久久| 国产免费一区| 国产乱人伦精品一区二区在线观看| 日韩av不卡播放| 国产成+人+综合+亚洲欧洲| 亚洲www.| 日韩美女天天操| 三级福利片在线观看| 欧美日韩你懂的| 91免费观看国产| 色伦专区97中文字幕| 中文字幕日韩欧美在线视频| 7777精品伊久久久大香线蕉语言| 一区精品久久| 国产成人精品一区二区三区四区| 婷婷视频一区二区三区| 日韩手机在线导航| 色综合电影网| 久久九九99视频| 国产精品亚洲美女av网站| 成人福利网站在线观看11| 日韩丝袜视频| 久久香蕉频线观| 国产麻豆精品theporn| 亚洲欧美偷拍卡通变态| 国户精品久久久久久久久久久不卡| 国产福利一区二区三区在线播放| 久久久亚洲精品一区二区三区| 视频一区二区欧美| av电影天堂一区二区在线观看| 国产精品福利小视频| 蜜臀av一区二区三区| 国产乱码精品一区二区三区av| 国产在线不卡视频| 欧美影院视频| 欧美日韩精品欧美日韩精品一| 欧美极品少妇全裸体| 日韩激情毛片| 国产精品国产三级国产专播精品人| 欧洲精品毛片网站| 国内精品在线播放| 欧美天天综合| 国产 日韩 欧美| 欧美裸体一区二区三区| 韩剧1988免费观看全集| 97超碰资源站在线观看| 精品88久久久久88久久久| 国产色婷婷国产综合在线理论片a| 欧美少妇xxxx| 丝袜国产日韩另类美女| 日韩视频在线永久播放| 麻豆91蜜桃| 久久久伊人日本| 国产在线精品日韩| 日韩欧美ww| 精品福利一区| 精品999成人| 亚洲黄色影片| 97久久中文字幕| 亚洲mv大片欧洲mv大片| 国产精品理论在线观看| 国产女精品视频网站免费| 国产999精品在线观看| 国产乱理伦片a级在线观看| 伊人一区二区三区| 男人添女人下部高潮视频在线观看| 日本视频免费一区| 亚洲精品按摩视频| 久久草.com| 91传媒视频免费| 国产精品视频免费观看www| 欧美成人精品激情在线观看| 久久青青草原一区二区| 亚洲男人影院| 免费99精品国产自在在线| 欧美丝袜丝交足nylons172| 天使と恶魔の榨精在线播放| 欧美激情视频在线免费观看 欧美视频免费一| 97精品免费视频| 亚洲欧美一区二区三区| 国产91精品一区二区麻豆网站| 色噜噜狠狠成人网p站| 国产精品素人一区二区| 午夜精品久久久99热福利| 色黄视频在线观看| 亚洲高清久久网| 热re91久久精品国99热蜜臀| av在线不卡顿| 国产伦精品一区二区三区| 日本高清成人vr专区| 日韩天堂在线观看| 欧美激情乱人伦一区| 欧美激情偷拍自拍| 国产精品色视频| 亚洲欧美一区二区原创| 日本久久二区| 久久天堂av综合合色| 国产精品久久久久久久免费观看| 精品福利免费观看| 91在线三级| 欧美做爰性生交视频| 97久久网站| 宅男在线观看免费高清网站| 欧美三级电影一区二区三区| 制服视频三区第一页精品| 国产一区二区三区黄视频| 欧美国产日韩精品| 要久久爱电视剧全集完整观看| 欧美变态tickle挠乳网站| 一区二区三区高清视频在线观看| 麻豆视频免费在线观看| 精品卡一卡二卡三卡四在线| 97国产一区二区精品久久呦| 26uuu成人网一区二区三区| 亚洲色图国产精品| 久久字幕精品一区| 色琪琪久久se色| 男女视频在线| 91|九色|视频| 色综合视频一区二区三区高清| 日韩精品一区二区三区在线观看| 亚洲综合色成人| 国产精品极品在线观看| 日韩精品久久久久久久玫瑰园| 国产精品加勒比| 日韩欧美视频在线播放| 欧美高清你懂的| 国产在线观看精品一区二区三区| 欧美乱熟臀69xxxxxx| 亚洲va天堂va国产va久| 高潮毛片在线观看| 黄色av成人| 日韩欧美一区二区三区| 国产成人97精品免费看片| a级在线观看|