發布時間:2022-03-12所屬分類:計算機職稱論文瀏覽:1次
摘 要: 內容提要:互聯網發展從IT到DT已經成為必然的趨勢,本文研究了DT時代的統計思維,提出了互聯網統計概念和互聯網統計體系的基本內容,研究了面向未來發展的互聯統計、互通統計、互動統計的互聯網統計理論體系;考察了國際電信聯盟、中國互聯網絡信息中心的互聯網統計體系
內容提要:互聯網發展從IT到DT已經成為必然的趨勢,本文研究了DT時代的統計思維,提出了互聯網統計概念和互聯網統計體系的基本內容,研究了面向未來發展的互聯統計、互通統計、互動統計的互聯網統計理論體系;考察了國際電信聯盟、中國互聯網絡信息中心的互聯網統計體系,以及國家統計局企業信息化和電子商務統計,指出了存在的問題和與實際需要的巨大缺口;最后,研究了互聯網統計發展所面臨的挑戰,并提出了我國互聯網統計發展的政策建議。
關鍵詞:互聯網統計;DT設施;互聯網統計理論;統計分類標準體系
一、DT時代的統計思維
從IT到DT的發展¨j,反映了信息化到互聯網,再到物聯網的第四次工業革命的發展趨勢。DT 的字面含義是數據技術,是信息技術(IT)發展后的新階段,其中統計思維發揮著重要作用,具體表現在如下幾個方面。
1.數據技術中的數據是指對全部社會信息和自然信息的數字化或數值化,包括從確定性到不確定性的全部問題,盡管所涉及的學科有計算機、通信、數學、概率論、數理統計、經濟社會統計,但實際應用是統計思維,因為其背后涵蓋了經濟社會統計系統的生態解析與設計,以及以概率論與數理統計邏輯支撐的大數據和云計算。
2.數據技術中的數據互聯形成復雜系統舊1,在人、物、事、時間、空間的客觀一體化聯系之中,必須要運用統計總體思想識別自然與社會生態中全部最小統計單位的編碼標準,特別是要考慮時間變化、空間移動的復雜系統中的唯一社會歷史性識別編碼標準,以保證互聯應用系統平臺高效運維,否則,實現物聯網下的智能化大數據和云計算是不可能的。我們曾提出互聯網大數據云計算下,如果不產生數據垃圾,那么必須要做好全社會的大數據統計設計,其中國民經濟統計標準編碼是必要條件。
3.數據技術的內在要求是從微觀到宏觀的系統一體化,而且隨著物聯網深入發展,對自然與社會生態系統的解析和識別如同增加了“社會顯微鏡”,系統范圍、層次、屬性等的復雜性越來越高,按照統計思想的核算關系、相關關系、回歸關系、因果關系,以及統計分布、分層、分位基礎上的統計分類、相對統計分類①和統計模擬計算,將成為實現數據技術應用的重要基礎理論、技術、方法。未來非常可能發展出一整套專門面向實際需要的互聯網大數據的統計理論和方法。
4.數據技術內在要求的智能化,不僅包括物聯網上的實時數據生態系統圈上的統計,而且還包括保持實時大數據生態系統圈中智能化目標的“大腦系統”的優化計算和監測、風險評估、決策等大系統統計理論方法的支持。因此,統計思維、統計思想、統計理論、統計方法、統計計算、統計分析、統計預測、統計決策等發揮著重要的作用。
當然,這是當今人類社會演化發展中的一項龐大復雜的系統工程,具體工作千頭萬緒,既然統計發揮著重要作用,那么,我們有必要從當今互聯網發展中的傳統統計向互聯網統計演化發展的角度做出一些聯系實際、又能窺測方位的研究,因此,本文以互聯網統計研究為題,密切聯系互聯網實際問題,從存在的狹義或不完全的互聯網統計實踐人手,做出科學分析研究,拋磚引玉,以推動這一新統計的科學發展。
二、互聯網統計概念、體系及理論創新
(一)互聯網統計概念
我們以“互聯網+”和“+互聯網”所需要的完整統計目標來確定互聯網統計的研究對象,即以參與互聯網的全部活動內容為統計對象,包含互聯網技術中的大數據、云計算及個性化服務、智能化支撐的互聯網統計體系和統計方法研究。互聯網統計產生于互聯網技術條件之下,一切數據信息來自于互聯網系統之中。從目前存在和發展過程看,直接來自互聯網應用平臺系統的統計是最具互聯網技術特征的互聯網統計,也是未來發展的核心主體,其中包括連接物聯網所生成的互聯網統計數據信息。除此之外,互聯網文本信息、圖像信息、音頻信息轉化為統計數據信息也是互聯網統計的重要組成部分。因此,互聯網統計是基于互聯網技術基礎,應用互聯網思想,來源于互聯網數據信息,生產于互聯網的統計體系,以及支撐互聯網統計應用的統計理論方法,是實現互聯網、物聯網的互聯、互通、互動一體化量化的根本手段和科學方法。
(二)互聯網統計的基本框架
互聯網統計體系是以互聯網技術和互聯網應用作為客觀依據的,其中,目前社會理解得更多的是互聯網應用。顯然,互聯網應用可能也不局限于電子商務或網絡購物、網上服務與網上支付,因此,如果對互聯網技術和互聯網應用理解得不夠全面,對于互聯網統計體系就難以科學把握。
互聯網統計體系需要從微觀層面和宏觀層面綜合考慮,微觀層面包括對互聯網應用平臺系統的網絡互聯技術、終端技術、應用軟件系統、運維、安全等的深刻理解,關鍵是“互聯網+”和“+互聯網”的實際作用細節,統計要滿足這些方面發展的需要。宏觀層面的考慮主要是第四次工業革命的體現,也就是在人類社會發展中,創造了世界和國家層面的互聯網技術基礎設施,而且,它成為其他基礎設施最重要的前提,也就是未來發展DT基礎設施的第一位基礎設施。以滿足人類社會發展的物聯網為基礎目標的互聯網技術基礎設施所包括的內容,應該建立科學的統計體系,不僅反映發展水平和結構特征,而且要滿足智能化的DT生態圈發展中的統計。
實際上,所有社會經濟活動都會鏈接互聯網技術,互聯網中的有些內容是全新的,而且還會強勁地創新發展。但是,作為人類社會發展,內在的傳承發展也是必然的,哪些內容是傳承演化的,它們如何與互聯網技術相銜接,又如何升級換代,都需要在互聯網統計體系上研究清楚。
互聯網統計體系主要包括:
1.互聯網技術基礎設施統計。包括NII的主要內容,具體有互聯網網絡技術水平如2G、3G、4G、5G 等光纖網絡寬帶、終端設備、基站、星際網絡、無線頻譜資源利用等統計。統計體系可以考慮實際使用的統計和相關產業生產及科研技術產出的統計。許多細節需要將互聯網技術與產品、軟件與服務等社會分工協作的價值鏈關系做出詳細的流程及分類梳理,并建立互聯網技術及應用的統計標準。
2.互聯網應用平臺統計。實際發生的是“互聯網+”和“+互聯網”的經濟活動與社會活動。在目前階段,互聯網統計思維還是要繼承生產、分配、消費、融資、投資的社會再生產過程與國民經濟行業部門的縱橫二維的大系統統計結構,但是,新的統計體系要從互聯網技術的應用平臺出發,按照互聯網企業的社會責任和公共統計服務的要求立法,以及在全社會開展互聯網企業應用平臺統計體系設計與數據開發研究工作,積極推動互聯網企業科學建設統計體系和利用互聯網統計為企業經營發展服務的可持續研究,因此,在統計設計上,工商部門應細分互聯網技術應用平臺的登記管理類別,逐步把互聯網技術應用平臺分類與經濟活動分類交叉結合起來,建立適應互聯網技術應用平臺生態圈的新分類標準體系,這是積極推進互聯網應用統計的首要條件。當然,還要全面升級單位唯一識別編碼標準和產品、服務分類動態編碼標準等工作,為盡早形成我國的互聯網統計體系奠定科學基礎。
3.個人互聯網活動統計。目前進行的是網民統計,但是,隨著互聯網逐步形成基礎之后,所有的活動都要在互聯網上運行,屆時個人互聯網統計將成為互聯網統計體系的一個重要組成部分。追求個性化服務與3D打印技術的互聯網柔性生產,是個人互聯網活動統計體系設計的客觀依據。個人互聯網活動統計,主體是需求側統計,從選取網絡技術、移動終端產品、接入方式,到個人偏好、社會交際、購物、服務、金融、保險、社會保障、社會志愿者、公益活動、媒體活動、休閑、體育等等,將形成非常復雜的統計。與傳統統計不同,個人互聯網活動統計發展會成為未來互聯網統計體系的主流。
4.智能化技術統計。智能化是互聯網技術應用發展追求的生產力目標,可以分主流產品建立為生產和科研服務的智能化技術統計體系。在智能化技術分類標準設計上,互聯網技術與智能化結合將成為劃分與選定的依據。
5.互聯網專項服務內容統計。包括互聯網金融統計、互聯網知識統計、互聯網教育統計、互聯網協同創新平臺統計等,即根據發展所建立的專門領域互聯網統計,也是互聯網統計體系的重要組成部分。
(三)互聯網統計理論
從互聯網統計坐標系出發,對從計數開始的統計發展階段進行考察,包括計數統計、實驗統計、觀測統計、普查統計、抽樣調查統計、報表統計、信息化統計、互聯網直報系統、互聯網應用平臺統計、互聯網爬蟲統計、物聯網傳感智能統計。互聯網統計是迄今為止統計最高級的發展階段。
統計數據從硬數據到軟數據,軟數據從問卷調查到文本挖掘,表現出統計數據映射客觀實際的統計總體范圍不斷擴大。從傳統的大量經濟數據(個人、單位、市場、組織主體屬性,總體結構包括截面與過程)、大量社會數據(個人、單位、文化、教育、宗教、組織主體屬性,總體結構包括截面與過程),到互聯網技術,一方面使經濟社會統計數據更加一體化,逐步形成從微觀到宏觀、經濟因素與社會因素一體化的龐大復雜的統計數據體系,再到以數字地球的地理信息的時間空間數據為基準的目標體系,在互聯網技術中不斷擴大生產過程的技術數據、業務數據、流程數據、傳感數據、行政數據。統計數據屬性范圍不斷擴大與互聯網技術發展密切相關。互聯網統計技術對統計工作的影響越來越大,統計技術和理論方法也對互聯網技術及其應用的發展具有重要的支撐作用,集中體現在互聯、互通、互動統計上的發展。
互聯網統計的創新性主要體現在互聯統計、互通統計、互動統計(見圖1)。互聯統計主要是以信息化實現傳統統計內容的網絡直接傳輸和一體化整理,是在互聯網技術基礎和條件下,以互聯網所創造的,或不斷創造的前所未有的人類社會活動、經濟活動、自然活動的龐大復雜的互聯網絡系統為統計對象,以數字地球和星際網絡為基礎的地理信息系統為互聯網統計時空坐標系,建立全球互聯網統計數據生態圈的新統計體系。云數據庫、云計算、云服務、虛擬產品、虛擬服務成為互聯網技術應用的強大推動力,也構成互聯網統計發展的重要基礎設施。互聯統計以融人互聯網技術的統計大系統設計、云數據庫、云計算、云服務為基本特征。
互通統計是針對互聯網信息內涵技術統計特性的統一,或互聯網系統信息的統計數據技術統一標準化。互聯網數據信息來源廣泛,包括自然屬性、社會屬性、學科屬性、專業屬性、技術屬性、組織屬性、產業屬性。我們看到,非互聯網條件下逐步形成了強大的局部數據信息系統,例如國家統計局的統計數據、財政部會計數據信息、科技部科技數據信息、國家標準委員會產品技術標準和服務標準信息、文化部文化產業及市場數據信息、環保部環境監測數據信息、國家無線電頻譜監測中心的無線電頻譜監測數據信息等等,這些數據信息各自獨立、無法形成統一有效的統計數據信息。利用互聯網技術、物聯網技術、統計技術,即以互聯網統計理論方法為工具,整合形成龐大復雜系統的互聯網統計即互通統計,從而支持互聯網技術的應用發展。互通統計以互聯網技術為支撐的大系統統計標準及動態標準化為特征。
互動統計是一種全新的統計,一方面反映互聯網數據信息大系統的動態化過程,另一方面反映互聯網大系統中參與主體之間的相互學習、累積知識的創新發展過程,集中表現在互聯網大系統中的個性化服務和智能化統計支撐的科學描述、科學分析和科學決策及過程優化控制的統計數據和統計方法的一體化作用。互聯網大系統中的主體互動和相互深度學習與指揮控制是互動統計的基本內容,是推動統計面向未來發展的根本途徑。互動統計以互聯網技術為支撐的大系統統計最細主體及總體動態化編碼標準為特征。
互聯統計相對于傳統統計,創新點是針對依據智能化傳感、穿戴設備等信息采集技術,按照大系統互聯要求并且使用目的從技術、業務、自然數據信息向社會數據信息轉換的統計數據信息標準化,即創造基于統計學的大數據技術標準體系,力求各種現代智能或自動設備生產數據信息并互聯網時總體差異最小化。互通統計相對于傳統統計,創新點是在更大的系統范圍建立統計數據標準化的一致性,即創造基于統計學的大數據社會標準體系,從而保證源于不同屬性的數據在統計上的一致性,也就是力求所有社會活動所生產的數據信息具有一致性,主要方法是發展更加精細、更加全面的分類標準體系。互動統計相對于傳統統計,創新點是全面研究自然與社會動能的主體源及統計分類標準體系,創造基于統計學的大數據主體標準體系,即建立最小單位并且相互獨立、具有唯一性的主體分類體系及編碼標準體系。
盡管互聯網統計有許多全新的內容,但是,傳統統計的內容仍然是其出發點:第一,傳統統計的產品分類、服務分類、行業部門分類、機構部門分類,仍然是互聯網統計的基礎,只是需要更加詳細分類。傳統統計由于市場交換等節奏慢,為了提高及時性對數據質量都做了分類處理。互聯網統計可以利用計算機高性能存儲和運算等功能,全面實現個性化服務,因此,互聯網統計與傳統統計之間的思維邏輯是一樣的,只是前者可以將產品、服務、行業分得更細,也就是使生產技術特征與需求技術特征交叉到更細的定義標準;使機構部門的分類細致到以個人身份證號碼為起點,即把社會主體完全統一到一個方向上,發展全新的個人+社會產權屬性基礎上的組織機構編碼標準及其分類標準。第二,互聯網統計需要把傳統統計的時間、空間合為一個整體,并且形成連續細分的統計特征。這實際上是對第一點要求增加分類的歷史連續性,例如一個人活著時的統計數據和逝世后被使用的統計數據保持連續,產品或服務隨著時間的更新換代后的分類也要保持連續性。第三,傳統統計對人類社會的生產、分配、消費、積累等統計,與自然資源、自然環境、自然生態等統計是分開進行的,然而,隨著互聯網統計的發展,要追求自然與社會的一體化連續統計。
三、互聯網統計的實踐應用
(一)中國互聯網絡信息中心的互聯網統計
1997年,國家主管部門研究決定由中國互聯網絡信息中心(CNNIC)牽頭組織有關互聯網單位共同開展互聯網行業發展狀況調查,每年1月和7月定期發布《中國互聯網絡發展狀況統計報告》。 2016年1月的第37次統計報告【3J,是在國家“互聯網+”行動計劃提出和推進后,互聯網對于整體社會的影響進入到新的階段,CNNIC對國家互聯網發第33卷第12期 趙彥云:互聯網統計研究 -7 · 展統計體系做出了新的設計,形成了由互聯網基礎資源、互聯網企業應用、互聯網個人應用的總體統計框架,分別反映我國互聯網基礎資源發展情況,企業 “互聯網+”發展情況,網民規模和結構、互聯網接人環境、個人互聯網應用的發展狀況。通過以上三方面內容,力求準確、客觀反映互聯網在社會發展過程中的作用。從統計方法上,CNNIC建立了基于互聯網的技術統計,以及針對企業開展互聯網應用情況的抽樣調查和針對網民的抽樣調查,其中運用的互聯網統計指標體系‘31如下。
1.互聯網發展統計體系。
(1)互聯網基礎資源統計。具體統計內容包括:IP地址數、域名數、網站數、網頁數、網絡國際出口帶寬。
(2)互聯網企業應用統計。具體統計內容包括:企業互聯網應用準備統計(企業計算機使用情況統計、企業互聯網使用情況統計、企業寬帶接人情況統計)、企業互聯網基礎應用統計(基礎互聯網活動統計、基層互聯網專職崗位設置統計)、企業“+ 互聯網”生產經營統計(企業“+互聯網”系統建設統計、企業“+互聯網”經營統計、企業網絡安全防護系統建設統計、企業互聯網專職團隊設置與員工信息技術培訓統計)、企業“互聯網+”發展統計(移動互聯網企業網絡營銷統計,云計算、大數據、物聯網的認知與采用統計,互聯網創新服務與智能制造的認知與開展情況統計,智能制造的認知與開展情況統計)、企業互聯網規劃與預期調查統計(決策層主導互聯網規劃企業比例調查統計、企業互聯網預期作用強度調查統計)。
(3)互聯網個人應用統計。具體統計內容包括:網民基本信息統計(網民規模統計、網民結構統計)、個人互聯網接人條件與環境統計(個人上網設備統計、個人使用網絡場所統計、個人接入網絡統計、上網時長統計、安全環境統計)、個人互聯網應用發展統計(個人基礎應用類應用發展統計、個人商務交易類應用發展統計、個人網絡金融類應用發展統計、個人網絡娛樂類應用發展統計、個人公共服務類應用發展統計)。
2.互聯網統計方法。中國互聯網數據平臺由中國互聯網絡信息中心(CNNIC)發起并運行,采用固定樣本組(Panel)的研究方法,通過調查客戶端實時、連續采集中國網民樣本的互聯網使用行為數據,并對數據進行統計分析,從而客觀、及時地反映中國互聯網發展狀況的多個層面(宏觀與微觀等),為互聯網行業參與者提供多方面決策支持。中國互聯網發展狀況統計主要包括四方面的內容。
(1)全國網民抽樣調查。為最大限度地覆蓋網民群體,采用雙重抽樣框方式進行調查。第一個抽樣框是固定住宅電話名單,調查子總體A。第二個抽樣框是移動電話名單,調查子總體B。對于固定電話覆蓋群體和移動電話名單總體,分別采用分層二階段抽樣方式。為保證所抽取的樣本具有足夠的代表性,將全國按省、直轄市和自治區分為31層,各層獨立抽取樣本。省內采取樣本自加權的抽樣方式。各地市州(包括所轄區、縣)樣本量根據該城市固定住宅電話覆蓋的6周歲以上人口數占全省總覆蓋人口數的比例分配。對于手機覆蓋群體,抽樣方式與固定電話群體類似,也將全國按省、直轄市和自治區分為31層,各層獨立抽取樣本。省內按照各地市人口所占比例分配樣本,使省內樣本分配符合自加權。通過計算機輔助電話訪問系統(CATI)進行調查。調查總體樣本60,000個,其中,住宅固定電話用戶、手機用戶各30,000個,樣本覆蓋31個省、自治區、直轄市。
(2)全國企業抽樣調查。采用分層隨機抽樣。根據國家統計局發布的相關標準將31個省、市、自治區按照經濟發展水平分為東部、中部、西部和東北地區四個類別。企業法人單位分為18個行業大類。 CNNIC按照各行業在互聯網使用情況方面的共性和差異,將原18個行業大類合并為9個行業類別。按地區及合并后的行業兩個指標進行交叉分層,將總體劃分為4水9共計36個層。根據2008年第二次全國經濟普查企業法人單位的省市、行業分布情況,在每層中等比例分配樣本量。在每層中隨機抽取企業法人單位進行調查,最終有效樣本共3000家企業。采用電話調查(CATI)的方式。
(3)網上調查。重在了解典型互聯網應用情況。CNNIC在2015年12月1日至31日進行了網上調查。將問卷放置在CNNIC的網站上,同時在各類大型網站上設置問卷鏈接,由網民主動參與填寫問卷。
(4)網上自動搜索與統計數據上報。網上自動搜索主要是對域名、網站數量及其地域分布等指標進行技術統計,而統計上報數據主要包括IP地址數和網絡國際出口帶寬數。工業和信息化部通過報表制度,定期得到各運營商與其他國家和地區相連的網絡出口帶寬總數。《中國互聯網絡發展狀況統計報告》中納入了工業和信息化部通過統計報表逐級上報的統計數據。 ——論文作者:趙彥云
本文來源于:《統計研究雜志》創刊于1984年,本刊為月刊,本刊作為“交流科研成果,繁榮學術研究,創新理論知識,推動實際工作”的窗口。設有:統計基本理論問題,統計理論方法與應用,經濟分析與統計分析,經濟核算問題研究,其他等欄目。
SCISSCIAHCI