國(guó)際紙業(yè):為機(jī)器學(xué)習(xí)魔獸饋送數(shù)據(jù)

發(fā)布日期:2019-09-19   來(lái)源:國(guó)際紙業(yè)流程信息

國(guó)際紙業(yè)公司擁有 55,000 名員工,年銷(xiāo)售額超過(guò) 210 億美,是世界上最大的紙漿和造紙公司。大規(guī)模的生產(chǎn)也會(huì)帶來(lái)大規(guī)模的數(shù)據(jù):該公司目前跟蹤著全球 37 家工廠,近 200 萬(wàn)個(gè)活躍的數(shù)據(jù)點(diǎn)。國(guó)際紙業(yè)公司的 PI System會(huì)產(chǎn)生大量的數(shù)據(jù),可以從這些生產(chǎn)數(shù)據(jù)中挖掘業(yè)務(wù)洞察力。通過(guò)使用 PI System工具深入研究如何收集和組織數(shù)據(jù),工程師們能夠?qū)?shù)據(jù)處理時(shí)間縮短 80% 以上,從而使公司新推出的機(jī)器學(xué)習(xí)計(jì)劃能夠更快執(zhí)行。

國(guó)際紙業(yè)訓(xùn)練機(jī)器算法,作為其“未來(lái)之戰(zhàn)”現(xiàn)代化計(jì)劃的一部分

國(guó)際紙業(yè)公司的工程師致力于高效地處理他們正在使用和生成的海量數(shù)據(jù)!拔覀兊墓こ處焸冃枰ㄙM(fèi)他們 80% 到 90%的時(shí)間來(lái)檢索和清理數(shù)據(jù),”國(guó)際紙業(yè)公司的化學(xué)工程師和流程信息經(jīng)理Rick Smith 在 OSIsoft 的 PI World 2018 舊金山大會(huì)上這樣說(shuō)!拔覀冎Ц豆べY讓他們進(jìn)行決策并改進(jìn)我們的流程。我們需要以適當(dāng)?shù)念l率向工程師提供正確的數(shù)據(jù),以便于他們工作!

幾年前,公司在減少數(shù)據(jù)檢索時(shí)間方面做了一些努力。使用 PI OLEDB 工具后,工程師可以將 PI System 數(shù)據(jù)存檔視為關(guān)系數(shù)據(jù)庫(kù)。通過(guò)運(yùn)行 SQL 查詢(xún)可以將提取出來(lái)的數(shù)據(jù)自動(dòng)填充到 Microsoft Excel 電子表格中,而無(wú)需在 Excel 內(nèi)運(yùn)行耗時(shí)的計(jì)算。采用這種方法后,國(guó)際紙業(yè)能夠?qū)徲?jì)中經(jīng)常使用的數(shù)據(jù)檢索過(guò)程從 3-12小時(shí)縮短到 15-45 分鐘。

這是一個(gè)良好的開(kāi)端,但后面還有更大的挑戰(zhàn)。2017 年,國(guó)際紙業(yè)發(fā)起了一個(gè)以數(shù)據(jù)和機(jī)器學(xué)習(xí)為核心的試點(diǎn)項(xiàng)目,作為其“未來(lái)之戰(zhàn)”現(xiàn)代化計(jì)劃的一部分。為了訓(xùn)練機(jī)器算法,工程師需要同時(shí)在數(shù)千個(gè)標(biāo)簽上提取幾年的歷史數(shù)據(jù)并將這些數(shù)據(jù)輸入機(jī)器學(xué)習(xí)引擎。

為了獲取數(shù)據(jù)檢索過(guò)程所需的時(shí)間值,Smith提出了一個(gè)他稱(chēng)之為“年標(biāo)簽”的時(shí)間單位:即從單個(gè) PI 數(shù)據(jù)標(biāo)簽中檢索一年的信息所需的時(shí)間。因?yàn)椴煌臉?biāo)簽收集數(shù)據(jù)的間隔不同,所以各個(gè)標(biāo)簽的“年標(biāo)簽”值不盡相同,有些甚至差異極大。

Smith 有關(guān)檢索數(shù)據(jù)所需時(shí)間的初步估計(jì)發(fā)人深省。使用 10,000 個(gè)數(shù)據(jù)標(biāo)簽一到三年的數(shù)據(jù),數(shù)據(jù)采集間隔為一分鐘,會(huì)產(chǎn)生大約 160 億行數(shù)據(jù),整個(gè)過(guò)程需要耗時(shí)數(shù)月。

“對(duì)于我們的數(shù)據(jù)標(biāo)簽,如果所有標(biāo)簽都是上面這種情形,那么讀取三年的數(shù)據(jù),將需要100 到 200 天的時(shí)間來(lái)檢索數(shù)據(jù)。我不了解其他公司的情況,但我們的副總裁可不想等待200 天才開(kāi)始這個(gè)項(xiàng)目,” Smith 說(shuō)。

國(guó)際紙業(yè)創(chuàng)建了另外的數(shù)據(jù)標(biāo)簽,每隔一分鐘而不是每隔 1-2 秒寫(xiě)一次數(shù)據(jù),從而簡(jiǎn)化了大數(shù)據(jù)機(jī)器學(xué)習(xí)的數(shù)據(jù)提取過(guò)程。

優(yōu)秀的數(shù)據(jù)管理員的價(jià)值

使用 PI System 工具,Smith 開(kāi)始研究數(shù)據(jù),探索如何能減少不必要的存儲(chǔ)與數(shù)據(jù)處理。他發(fā)現(xiàn),在一家造紙廠,不到百分之一的數(shù)據(jù)標(biāo)簽占據(jù)了存檔空間的近 37%。對(duì)于不同類(lèi)型的分析,可能需要以不同的頻率采集數(shù)據(jù)。Smith 采用 Asset framework(PI Server 的一部分)為采集頻率密集的標(biāo)簽同時(shí)設(shè)置了較低的采集頻率,以較長(zhǎng)的間隔來(lái)收集相同的數(shù)據(jù),在確保數(shù)據(jù)存檔豐富性的同時(shí),實(shí)現(xiàn)更快的檢索速度。

對(duì)于某些數(shù)據(jù)標(biāo)簽,密集的數(shù)據(jù)收集頻率對(duì)于存檔很重要,但并非所有分析都需要細(xì)粒度的數(shù)據(jù)。在對(duì)一組數(shù)據(jù)標(biāo)簽進(jìn)行分析時(shí),Smith發(fā)現(xiàn),與一秒鐘間隔的數(shù)據(jù)相比,一分鐘間隔的數(shù)據(jù)其數(shù)據(jù)讀取時(shí)間可以減少 85%。

對(duì)數(shù)據(jù)進(jìn)行適當(dāng)?shù)墓芾砗徒M織,也會(huì)使數(shù)據(jù)檢索時(shí)間在原來(lái)長(zhǎng)度的基礎(chǔ)上大幅減少。在一項(xiàng)分析中,Smith 使用了 50 個(gè)數(shù)據(jù)標(biāo)簽并在Asset framework 為它們構(gòu)建了一個(gè)結(jié)構(gòu),這一舉措將讀取一年數(shù)據(jù)的時(shí)間從 15 分鐘以上縮短到 5 分鐘以?xún)?nèi)。通過(guò)使用數(shù)據(jù)平均值而不是工廠儀表上傳感器的原始值,將另一項(xiàng)分析的時(shí)間從 14 小時(shí)縮短到 40 秒。

仔細(xì)研究公司的數(shù)據(jù)如何生成、存儲(chǔ)和處理,這一工作平淡無(wú)奇,但它所產(chǎn)生的結(jié)果卻令人矚目。

“所有系統(tǒng)都需要管理者,”Smith 說(shuō)!懊總(gè)人都想成為架構(gòu)師。但我們更需要腳踏實(shí)地的數(shù)據(jù)管理員。”


稿件反饋 

中紙網(wǎng)版權(quán)與免責(zé)聲明

該文章系轉(zhuǎn)載,登載該文章目的為更廣泛的傳遞市場(chǎng)信息,文章內(nèi)容僅供參考。本站文章版權(quán)歸原作者及原出處所有,內(nèi)容為作者個(gè)人觀點(diǎn), 并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。本站網(wǎng)站上部分文章為轉(zhuǎn)載,并不用于任何商業(yè)目的,我們已經(jīng)盡可能的對(duì)作者和來(lái)源進(jìn)行了通告,如有漏登相關(guān)信息或不妥之處,請(qǐng)及時(shí)聯(lián)系我們,我們將根據(jù)著作權(quán)人的要求,立即更正或者刪除有關(guān)內(nèi)容。本站擁有對(duì)此聲明的最終解釋權(quán)。

 


 
網(wǎng)友評(píng)論
 
 
最新紙業(yè)資訊
訪(fǎng)談
紙業(yè)資訊排行
最新求購(gòu)
南京中紙網(wǎng)資訊有限公司版權(quán)所有 Copyright © 2002-2020 蘇ICP備10216876號(hào)-2 增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:蘇B2-20120501 
蘇公網(wǎng)安備 32010202010716號(hào)
視頻號(hào)
抖音