在做題庫和教學產品時有哪些經驗?面向K12的題庫產品如何積累有效數(shù)據?現(xiàn)在的數(shù)據是否能支撐起人工智能在教育領域的應用?1對1教學有哪些問題,要如何解決?近日,李行武接受了愛分析專訪,對這些問題交流了自己的看法。
調研 | 凱文 東起
撰寫 | 東起
學吧課堂創(chuàng)始人&CTO李行武畢業(yè)于清華大學計算機系,在校期間曾在Intel、微軟亞洲研究院和搜狗實習,畢業(yè)后參與兩家公司創(chuàng)業(yè),后加入奇跡通訊擔任CTO,2013年進入教育領域,創(chuàng)立了博學慎思教育科技有限公司。
公司旗下產品學吧課堂,是一款針對中學數(shù)學的練習產品;在積累了約200萬用戶和7億條做題數(shù)據后,開始推出教學服務,其基于教學導航系統(tǒng)的1對1輔導產品已上線內測。
在做題庫和教學產品時有哪些經驗?面向K12的題庫產品如何積累有效數(shù)據?現(xiàn)在的數(shù)據是否能支撐起人工智能在教育領域的應用?1對1教學有哪些問題,要如何解決?近日,李行武接受了愛分析專訪,對這些問題交流了自己的看法。
題庫產品篇
愛分析:14年的時候推出了虛擬老師,當時做這個產品有哪些技術難點?
李行武:兩個難點吧,第一個是內容生產,一道題能有這么多變化,這些內容不可能是合成出來的,所以實際上是在事先錄好了大量的有關聯(lián)的十幾秒到幾十秒的短視頻,組成一個巨大的內容樹;第二個是如何帶學生走出一條路徑來,這條路徑拼出來就是這道題,這個過程其實就是人腦思考的過程,需要去模擬這個過程。
愛分析:后來是如何解決第二個難點的?
李行武:一開始沒有什么特別好的辦法,更多的是像大家說的,你得去理解這個事情。今天AI的概念大行其道,大部分都是偽的。
它從中長期來看是靠數(shù)據驅動的,但它早期不是,尤其在這個場景中,因為你沒有數(shù)據驅動算法,所以它極大程度上是基于策略的,就像教小朋友下跳棋,你說第一步走這個,如果他走了這步,你就走這步,這是最簡單的策略,但實際會復雜很多。這相當于要把人思考的策略用機器實現(xiàn),所以更多的是基于對上課這件事情的理解,這就是你去上了課才會知道的。
愛分析:所以目前AI在教育領域還是偽概念?
李行武:看你怎么定義了,這個講起來比較細,要看不同的場景。
即使在練習場景,所有的做題產品講的故事都是一樣的,會根據同學們的做題情況推送適合的題,使做題更加高效,這個故事邏輯是成立的,但不謙虛的講,可能在第一階段只有我們做到了。
這其實也是我們轉型做做題產品的一個非常重要的原因。
15年我們在轉型的時候,去看市面上已經滿街的做題產品了,但是你會發(fā)現(xiàn)沒有一家起來了,做題產品沒有人用。一個品類都沒有做出來的時候,它只有兩種情況:一個是這個事本身錯了,一個是大家沒找到路。我們的判斷是這事沒錯,因為在線教育真能成立的話,學練測這重要的三大場景,一定都會在線化,所以一定是存在在線做題這樣的事情的。那么問題出在哪?就去找問題,解決。
愛分析:那問題出在哪呢?
李行武:有一個很簡單的結論,做題不是小朋友的需求。中國的K12教育整體上是反人性的,這也是K12領域最難的部分之一,就是它是一個反人性的行業(yè);所有偉大的產品都是順應人性的,你如何在一個反人性的領域做出一個有用戶活躍度的產品。
那同學們?yōu)槭裁床粣蹖W習?咱們最終要對學習有幫助其實就是兩件事,傳統(tǒng)行業(yè)早有定論,第一是學習動力問題,第二是學習方法問題。如果優(yōu)先選一個解決,那肯定是學習動力問題。
回到大的邏輯,互聯(lián)網對一個行業(yè)產生所謂巨大的影響,一定是解決行業(yè)一些根本性的問題,絕對不是細枝末節(jié)的;如果在線教育這個命題成立的話,它一定是要最終解決大問題,那行業(yè)的大問題也有定論,其中一個就是學習動力問題,影響學習動力的原因其實也有結論了,叫做累計的挫敗感。
這是同學們不愛學習的核心原因,解決它的方案是讓它進入正循環(huán)。所以我們當時就沿著這個思路去做了學吧課堂。
愛分析:解決學習動力問題,學吧課堂是怎么做的?
李行武:大家都喜歡做的是有成就感的事情,落地到做題上就是這題我剛好會做,所以你要出他會做的題。同時,我們把整個評價體系改了,我們營造了一個“學渣“的結界。
比如我舉一個小的點,我們分很多區(qū),一萬人一個區(qū),我們每個區(qū)的排行榜前十名可能只有兩個是“學霸”,剩下八個是“學渣”,為什么呢?咱們一起做題,因為你是學霸,所以你的題是競賽題,而我的是剛好會做的簡單的題,咱倆都做對了,你得5分我也得5分,所以誰在前面真不好說。
愛分析:那在產品設計和技術層面,是怎么實現(xiàn)的?
李行武:對于練習產品,首先要解決的問題就是有人用,并且能活躍的用起來,核心就是剛才講的動力問題。這靠兩件事,第一是用很特殊的激勵體系,第二是真正能夠出適合學生的題目。
對于激勵體系,外界有些聲音說學吧是靠給學生補貼,那這個我們完全不避諱,就是同學們來我們這做題是有收入的,但問題是收入是多少呢,就是一個學生他幾乎天天來做題,而且還要盡量把題做對的情況下一個月最多獲得價值5塊錢的東西。
所以我會問大家說,給你5塊錢你愿意每天來做對幾十道題嗎?而且退一步講,對家長來說,我去問家長,你給我5塊錢,我讓你孩子天天做題,你干不干?這件事本身是有價值的,所以不單純是靠激勵。
還有另外一件事在輔助它就是出題,你要讓激勵體系配合看不見的出題,才有可能使你的模型最終成立,獲得持續(xù)的活躍用戶,這是我們在2016年所謂寒冬能拿到錢的主要原因,我們在一個大家覺得幾乎已經判死刑的賽道上做出一個完全不一樣的產品,雖然看起來是一樣的。
愛分析:出適合的題的基礎是打標簽,在這方面有哪些經驗?
李行武:我們認為這件事的關鍵點在于顆粒度,粗粒度的個性化是偽個性化。比如把“集合的運算”這個考點作為標簽,有教學經驗的老師來看就會感覺到它有多粗;如果以這樣的詞作為標簽,那中學數(shù)學大概也就是百這個量級的知識點,我們的知識點是在千這個量級。
當顆粒度粗的時候,機器是分辨不出來的。比如大家都知道AI最近的突破都是在視覺領域,最經典的例子就是識別貓,機器怎么認識一張圖是貓?因為你給了它10000張圖片去做訓練,但是你想象一下,如果我給的這10000張圖片全是打馬賽克的貓,它能認出來嗎?
那問題在哪呢,也有人反問我,如果我給它10000張高清的貓,它會不會認的更好,好像也沒有,所以就是這個度到底在哪里?當你定性分析完,定量去分析,到底什么樣算是正好到這個要求了,這就是應用決定的,應用到什么級別,你的數(shù)據就要到什么級別。這是很粗層的一個理解。
所以打標簽這件事情,關鍵在于能打的多細多準,當你到某個量級以前,打多少都是廢的,過不了那個閾值。
愛分析:那目前打標簽有哪些方式呢?
李行武:現(xiàn)在行業(yè)通行的做法是找?guī)装賯€大學生,按計件的方式進行,因為你不可能找名師來打標。問題就在于如何保證這些人的輸出是穩(wěn)定的,質量可靠的。
這件事是需要深刻理解知識,只依靠做工程的人是做不出來的,你要想辦法去把這個標做好的分解。打標的過程其實就是要去區(qū)分,是在多個之中去做選擇。那怎么才能盡量選擇對呢?其實就是你的選項越正交,越容易選出來。
再比如說你在流程設計上,比如一個人打是不可信的,通常至少三個人打,其中兩個人一樣就過,這是個簡單有效的策略。那你說我可不可以先讓兩個人打,當兩個人不一樣的時候,再讓第三個人打,這個和剛才那個的區(qū)別就在于人效比差了1.5倍,因為大部分時候會有兩個人打一樣的。
所以最終的結果是,通過對工程以及領域本身的理解,使得你做這件事情的效率遠遠高于別人。
舉個例子,我們的查錯成本大概是別人的1/50以下,我們是這么干的:由于我的同學們已經相對認真的做題了,題目從老師那邊經過初步的過濾之后,會小范圍的推給認真做題的同學,這些人就會有反饋,如果到了一定的閾值,題目會自動打回。
如果比如100個人都沒問題,就進入第二階段,再過了,就可以推出去了,這會使整個查錯的過程發(fā)生本質的變化。所以在內容這件事,核心是你怎么讓效率遠遠高于別人。
愛分析:其它公司這么做似乎也不是很難?
李行武:所以問題在于這個過程是聯(lián)動的。
當我們在講數(shù)據的時候,除了內容數(shù)據,還有一個很重要的就是行為數(shù)據,也就是同學們做題的數(shù)據。
做題數(shù)據有一個重要的指標,叫做正確率,如果正確率很差,那不管是一億條還是十億條,讓機器去訓練,機器只可能有兩個結論:一是從單題來看,這題很難;二是從任何一個個體來看,全是“學渣”。所以這個數(shù)據不僅沒辦法讓你判斷這道題是對還是錯,更沒有辦法判斷這道題的難度,更不要說去計算。
沒有用戶就沒有數(shù)據,沒有數(shù)據就不能很好的給用戶出題,然后就更沒有用戶。我的結論是說,大家可以用錢先去解決用戶的問題,在跑起來進入正循環(huán)之后,你的出題會比較好,用戶感知就會比較好,然后用戶的做題行為就會相對好,使得數(shù)據更好。
那怎么樣進入正循環(huán)?第一是啟動點,第二個是收斂速度。
愛分析:收斂速度怎么理解?
李行武:所有產品都會面臨所謂冷啟動問題,就是不了解用戶。關鍵在于你能在多短時間內跨過那個閾值,做到還比較適合用戶,使他開始用起來。如果你說要在用戶做100道題之后,才有辦法出適合的題,那大部分人可能還沒到100題就已經走了,所以啟動靠外部動力,在啟動那件事情沒有消失之前要收斂。
教學產品篇
愛分析:在練完成后還有個教的問題,只有教才能實現(xiàn)規(guī)?;杖耄瑢W吧課堂在這方面有哪些考慮?
李行武:練是不能完成最后的商業(yè)模式的,只是路徑的一環(huán),我們已經開始從練走向教了。
教書從形式上就是班課和1對1。我們認為在線教學這件事情,一定是1對1先起,它有個很重要的邏輯,就是從需求角度來看,大部分家長不相信學生可以在沒有監(jiān)督的情況下,在電腦前聽一個老師講大課聽一個小時;但是1對1他又覺得有戲,因為1對1老師就帶你一個,還有視頻回放和雙方錄音,這是一個看似小但是決定性的點。
所以第一個結論是要從1對1切,而且1對1也正好跟我們的大邏輯一脈相承。
愛分析:1對1的問題也被討論的很多了,你怎么看?
李行武:傳統(tǒng)行業(yè)1對1的問題,其實也有非常明確的定論就是做不大,從財務角度看它的成本結構很痛苦。
成本問題的根源在于三點,獲客,場地和教師。對于在線教學,場地的問題沒有了,現(xiàn)在大家關注最多的就是獲客,那么獲客的問題在我們看來原因只有兩個:上游流量的集中化和服務同質化。
流量集中化這個事情比較好理解,大趨勢擺在這里,所以流量成本會越來越高,我們今天看到大家的做法都是在流量端做文章,做法有幾種:
第一種是沒有自有流量,就是傳統(tǒng)的靠買,新媒體矩陣也好,線下開體驗店也好,都是想嘗試用一些方法去抓流量,但是這種方法最好的結果是短期有效。因為本質上沒解決問題,一旦你找到了一個方法,大家就會立刻蜂擁而上,那你唯一的辦法就是不停的有創(chuàng)新,去抓一開始短暫的紅利。
第二種是2B2C,先明確一點這個客是家長而不是學生,家長是一個很神奇的群體,我們把他稱作沒有用戶畫像,因為所有人都是家長,所以不存在一個聚集家長量的地方,但有一個特例是好未來的家長幫,當然這是另外一個故事,我們不展開;除非是母嬰那個特殊的品類,那無非就是,一種是2B通過抓老師影響家長,還有一種是2C通過抓學生再去抓家長。
但是各自面臨問題:2B的問題是說,因為走公立校,所以在做商業(yè)化的時候遇到的最大的風險是政策風險,這是一個非常難拿捏的度,如果要轉化成家長付費的話,怎么過這關?當然有一些做法,大邏輯的做法就是把這個流量導成另外一個流量,脫離出來。2C的問題是孩子的需求和家長的需求是對立的。
而服務同質化,因為1對1教學發(fā)展到今天,最大的坑就在于無法做到規(guī)?;钠房?,品控的核心是控制下限,你要保證輸出的下限比較高。
愛分析:學吧課堂打算怎么做?
李行武:我們去年做做題產品,本源的切入點是數(shù)據;但是我們在商業(yè)化思考的時候,發(fā)現(xiàn)了一個附帶的好處:當做題產品解決了活躍度問題之后,它成為了一種新的流量池,這個轉化是比較高的,這就是我們從流量端去解決獲客的一個點。那這還是偏戰(zhàn)術層面,因為當你有了用戶量,開始考慮后端上課服務的時候,會發(fā)現(xiàn)獲客問題的本源還是在服務端。
我們在服務端的方法還是靠系統(tǒng),稱之為教學導航系統(tǒng)。具體形態(tài)比如講義,真的是根據學生情況來出,因為流量來自我們自己的做題用戶,你對他是非常熟悉的;然后在教的時候這個講義會告訴教師具體的安排。這個東西做出來就可以做過程管控了,你可以很好的去做一些定量的評價,老師這堂課上的好還是不好,有沒有按你的計劃走。
無論是做出自己新的流量池,還是做好品控,都會使成本降低。成本的本源其實是你的價值到底在哪里,1對1行業(yè)在傳統(tǒng)中是營銷驅動的,而機構沒有在教學本身這件事上提供價值,所以收不來這個錢。所以如果它能真的往健康的方向發(fā)展的話,一定是對教學這件事情提供了價值,比如說你讓老師借助系統(tǒng)把課上好。
愛分析:對于教學產品的未來有哪些期待?
李行武:未來教學我們認為是兩個階段走,第一個階段是由于整個系統(tǒng)的介入,使得在不降低服務質量的前提下,對服務提供者的要求極大下降,從而使服務提供者極大增加,解決供應問題。
第二階段是讓人借助系統(tǒng),使生產力數(shù)量級的放大。也就是今天一個老師,如果他真的個性化的去教,只能教十幾個孩子;但是未來我們希望可以做到,教師可以個性化的教幾百個孩子。今天老師可以通過大課教幾百個孩子,但是所有的孩子未來一定是個性化的,所以反個性化的大課會一直存在,但不會是主流。
(本文來源:愛分析,作者為東起)